In het leerplan statistiek van de 3de graad D-finaliteit (III-Sta-d) staat een leerplandoel over het analyseren van grote datasets met behulp van statistische software in functie van een statistisch onderzoek. Hier is een mogelijk voorbeeld.
LPD 5 De leerlingen analyseren grote datasets met behulp van statistische software in functie van een statistisch onderzoek.
De dataset in het bestand fietsdata.csv bevat enkele variabelen uit een dataset gebruikt in het boek “Inductieve statistiek voor de gedragswetenschappen” van Tim Vanhoomissen. Deze data komt oorspronkelijk uit een Noors onderzoek naar gedragsinzichten om fietsen te stimuleren. In dit onderzoek wordt er aan de deelnemers gevraagd om gedurende 15 werkdagen hun verplaatsingen te registreren in een app.
We gebruiken de volgende variabelen:
Je kan nu meerdere dingen gaan onderzoeken. We geven hier enkele mogelijkheden.
Je kan voor een bepaalde groep deelnemers (met een bepaalde waarde van de variabele ‘Treatment’) een histogram maken van het aantal km dat ze hebben afgelegd of van het aantal fietsverplaatsingen van deze deelnemers.
Je kan ook onderzoeken of deze data normaal verdeeld is m.b.v. een QQ-plot, dit is een extra wenk in het leerplan wiskunde bij het leerplandoel over het gebruik van de normale verdeling als continu model bij gegeven data.
Door beide afbeeldingen naast elkaar te plaatsen, krijgen leerlingen een beter inzicht in hoe je een QQ-plot interpreteert zoals je bij de figuren hieronder kan zien.
Aan de hand van het histogram en de QQ-plot zie je dat het aantal kilometer voor de controlegroep scheef rechts verdeeld is terwijl het aantal verplaatsingen voor de groep PayPerKm al wat meer symmetrisch is en de normale verdeling beter benadert.
Leerlingen kunnen ook verschillende boxplots maken.
Merk op dat de beloning die deelnemers krijgen toch een effect lijkt te hebben op het aantal dagen dat de deelnemers actief de fiets hebben genomen.
Het grootste effect zie je bij de groep die per km betaald wordt en de groep met de conditionele loterij (hierbij vergroot elke dag actief zijn ook de kans op winst in de loterij).
Je kan een nieuwe variabele invoeren die het gemiddeld aantal afgelegde km per dag bevat.
Aan de hand van deze variabele kan dan per groep een 95% betrouwbaarheidsinterval opgesteld worden voor de verwachtingswaarde van deze variabele:
Als je het verband tussen een tweezijdige hypothesetoets en het betrouwbaarheidsinterval behandeld hebt, dan kan je opmerken dat het steekproefgemiddelde van de controlegroep (10.27) niet behoort tot de betrouwbaarheidsintervallen van PayPerKm, Lottery en CondLott.
Dit komt overeen met het uitvoeren van een tweezijdige hypothesetest waarbij je wil onderzoeken of het geven van de beloning een effect heeft op het gemiddeld aantal km dat er per dag wordt afgelegd.
Als laatste kunnen leerlingen ook een éénzijdige hypothesetest uitvoeren.
De onderzoekers vermoeden dat het geven van een beloning, bv. het geven van een kilometervergoeding, het gemiddeld aantal km dat er gefietst wordt per dag laat toenemen.
Als waarde onder de nulhypothese kan je het steekproefgemiddelde van de controlegroep nemen:
H0: mu = 10.27
Ha: mu > 10.27
Je kan een z-toets uitvoeren waarbij je de standaardafwijking bijvoorbeeld even gelijkstelt aan de steekproefstandaardafwijking van de groep PayPerKm.
Je bekomt de volgende p-waarde:
p-value = 4.152e-05
Hieruit kan je besluiten dat het geven van een kilometervergoeding wel degelijk het gemiddeld aantal km dat men fietst per dag significant laat toenemen.
De gebruikte dataset alsook alle code nodig om deze analyse in R uit te voeren, vind je hier terug.