Voorbeeld – analyse grote dataset

In het leerplan statistiek van de 3^de graad D-finaliteit (III-Sta-d) staat een leerplandoel over het analyseren van grote datasets met behulp van statistische software in functie van een statistisch onderzoek. Hier is een mogelijk voorbeeld.

Statistiek S - 3de graad - D-finaliteit

LPD 5 De leerlingen analyseren grote datasets met behulp van statistische software in functie van een statistisch onderzoek.

Dataset
sla link op in klembord
Kopieer

De dataset in het bestand fietsdata.csv bevat enkele variabelen uit een dataset gebruikt in het boek “Inductieve statistiek voor de gedragswetenschappen” van Tim Vanhoomissen. Deze data komt oorspronkelijk uit een Noors onderzoek naar gedragsinzichten om fietsen te stimuleren. In dit onderzoek wordt er aan de deelnemers gevraagd om gedurende 15 werkdagen hun verplaatsingen te registreren in een app.

We gebruiken de volgende variabelen:

Treatment: De deelnemers werden opgesplitst in 4 groepen.
- Controlegroep: Zij ontvingen geen beloning.
- PayPerKm: Per gefietste kilometer ontvingen de deelnemers 2 NOK (Noorse kroon)
- Lottery: Zij namen deel aan een loterij waarbij elke gefietste kilometer een lot opleverde. Aan het einde van de periode werd één winnaar getrokken die een prijs van 9000 NOK ontving.
- CondLott: Deze groep nam ook deel aan een vergelijkbare loterij, met de bijkomende conditie dat er ook een willekeurige dag werd geselecteerd. Enkel als de winnende deelnemer (getrokken lotje) op deze willekeurige dag gefietst had, kreeg deze de prijs. Zo niet, werd er een nieuwe trekking gehouden.

n_days_period: Het aantal dagen dat de deelnemers effect gefietst hebben in deze periode.
n_trips_period: Het aantal fietsverplaatsingen van de deelnemers in deze periode.
km_period: Het totaal aantal kilometers dat er gefietst werd.

Je kan nu meerdere dingen gaan onderzoeken. We geven hier enkele mogelijkheden.

Histogram en QQ-plot
sla link op in klembord
Kopieer

Je kan voor een bepaalde groep deelnemers (met een bepaalde waarde van de variabele ‘Treatment’) een histogram maken van het aantal km dat ze hebben afgelegd of van het aantal fietsverplaatsingen van deze deelnemers.

Je kan ook onderzoeken of deze data normaal verdeeld is m.b.v. een QQ-plot, dit is een extra wenk in het leerplan wiskunde bij het leerplandoel over het gebruik van de normale verdeling als continu model bij gegeven data.

Door beide afbeeldingen naast elkaar te plaatsen, krijgen leerlingen een beter inzicht in hoe je een QQ-plot interpreteert zoals je bij de figuren hieronder kan zien.

Aan de hand van het histogram en de QQ-plot zie je dat het aantal kilometer voor de controlegroep scheef rechts verdeeld is terwijl het aantal verplaatsingen voor de groep PayPerKm al wat meer symmetrisch is en de normale verdeling beter benadert.

Boxplot
sla link op in klembord
Kopieer

Leerlingen kunnen ook verschillende boxplots maken.

Merk op dat de beloning die deelnemers krijgen toch een effect lijkt te hebben op het aantal dagen dat de deelnemers actief de fiets hebben genomen.

Het grootste effect zie je bij de groep die per km betaald wordt en de groep met de conditionele loterij (hierbij vergroot elke dag actief zijn ook de kans op winst in de loterij).

Betrouwbaarheidsinterval
sla link op in klembord
Kopieer

Je kan een nieuwe variabele invoeren die het gemiddeld aantal afgelegde km per dag bevat.

Aan de hand van deze variabele kan dan per groep een 95% betrouwbaarheidsinterval opgesteld worden voor de verwachtingswaarde van deze variabele:

Controle groep: steekproefgemiddelde is 10.27 met bijhorend BTI [9.03;11.51].
PayPerKm: steekproefgemiddelde is 13.57 met bijhorend BTI [11.93;15.21].
Lottery: steekproefgemiddelde is 12.15 met bijhorend BTI [10.79;13.52].
CondLott: steekproefgemiddelde is 11.95 met bijhorend BTI [10.54;13.36].

Extra
sla link op in klembord
Kopieer

Als je het verband tussen een tweezijdige hypothesetoets en het betrouwbaarheidsinterval behandeld hebt, dan kan je opmerken dat het steekproefgemiddelde van de controlegroep (10.27) niet behoort tot de betrouwbaarheidsintervallen van PayPerKm, Lottery en CondLott.

Dit komt overeen met het uitvoeren van een tweezijdige hypothesetest waarbij je wil onderzoeken of het geven van de beloning een effect heeft op het gemiddeld aantal km dat er per dag wordt afgelegd.

Hypothesetoets
sla link op in klembord
Kopieer

Als laatste kunnen leerlingen ook een éénzijdige hypothesetest uitvoeren.

De onderzoekers vermoeden dat het geven van een beloning, bv. het geven van een kilometervergoeding, het gemiddeld aantal km dat er gefietst wordt per dag laat toenemen.

Als waarde onder de nulhypothese kan je het steekproefgemiddelde van de controlegroep nemen:

H₀: mu = 10.27

H_a: mu > 10.27

Je kan een z-toets uitvoeren waarbij je de standaardafwijking bijvoorbeeld even gelijkstelt aan de steekproefstandaardafwijking van de groep PayPerKm.

Je bekomt de volgende p-waarde:

p-value = 4.152e-05

Hieruit kan je besluiten dat het geven van een kilometervergoeding wel degelijk het gemiddeld aantal km dat men fietst per dag significant laat toenemen.

De gebruikte dataset alsook alle code nodig om deze analyse in R uit te voeren, vind je hier terug.

fietsdatabestanden6KB zip

Bronnen en meer weten?
sla link op in klembord
Kopieer

Syllabus en ondersteunende documenten voor statistisch softwarepakket R
Inductieve statistiek voor gedragswetenschappen, Tim Vanhoomissen, 2025, Acco
Datasets uit het boek Inductieve statistiek voor gedragswetenschappen: https://sites.google.com/view/toegepastestatistiek/inductieve-statistiek
Oorspronkelijk artikel over de gebruikte dataset: https://www.sciencedirect.com/science/article/pii/S0167268121002444
Extra datasets op Kaggle https://www.kaggle.com/datasets
Extra datasets op UCI Machine Learning Repository https://archive.ics.uci.edu/

Downloads

fietsdatabestanden
Dit zip-bestand bevat het csv-bestand van de gegevens en een R-script met de gebruikte commando's om de data te analyseren.
zip
6KB

Inspirerend materiaal

Statistiek S - 3de graad - D-finaliteit

Dataset
sla link op in klembord
Kopieer

Histogram en QQ-plot
sla link op in klembord
Kopieer

Boxplot
sla link op in klembord
Kopieer

Betrouwbaarheidsinterval
sla link op in klembord
Kopieer

Extra
sla link op in klembord
Kopieer

Hypothesetoets
sla link op in klembord
Kopieer

Bronnen en meer weten?
sla link op in klembord
Kopieer

Downloads

Snel naar

Contact

Nieuwsbrief

MIJN.

Inspirerend materiaal

Statistiek S - 3de graad - D-finaliteit

Datasetsla link op in klembordKopieer

Histogram en QQ-plotsla link op in klembordKopieer

Boxplotsla link op in klembordKopieer

Betrouwbaarheidsintervalsla link op in klembordKopieer

Extrasla link op in klembordKopieer

Hypothesetoetssla link op in klembordKopieer

Bronnen en meer weten?sla link op in klembordKopieer

Downloads

Snel naar

Contact

Nieuwsbrief

MIJN.

Welkom OnderwijsPro

Dataset
sla link op in klembord
Kopieer

Histogram en QQ-plot
sla link op in klembord
Kopieer

Boxplot
sla link op in klembord
Kopieer

Betrouwbaarheidsinterval
sla link op in klembord
Kopieer

Extra
sla link op in klembord
Kopieer

Hypothesetoets
sla link op in klembord
Kopieer

Bronnen en meer weten?
sla link op in klembord
Kopieer