Voorbeeld – analyse grote dataset

In het leerplan statistiek van de 3de graad D-finaliteit (III-Sta-d) staat een leerplandoel over het analyseren van grote datasets met behulp van statistische software in functie van een statistisch onderzoek. Hier is een mogelijk voorbeeld.

LPD 5 De leerlingen analyseren grote datasets met behulp van statistische software in functie van een statistisch onderzoek.

Dataset

sla link op in klembord

Kopieer

De dataset in het bestand fietsdata.csv bevat enkele variabelen uit een dataset gebruikt in het boek “Inductieve statistiek voor de gedragswetenschappen” van Tim Vanhoomissen. Deze data komt oorspronkelijk uit een Noors onderzoek naar gedragsinzichten om fietsen te stimuleren. In dit onderzoek wordt er aan de deelnemers gevraagd om gedurende 15 werkdagen hun verplaatsingen te registreren in een app.

We gebruiken de volgende variabelen:

  • Treatment: De deelnemers werden opgesplitst in 4 groepen.
    • Controlegroep: Zij ontvingen geen beloning.
    • PayPerKm: Per gefietste kilometer ontvingen de deelnemers 2 NOK (Noorse kroon)
    • Lottery: Zij namen deel aan een loterij waarbij elke gefietste kilometer een lot opleverde. Aan het einde van de periode werd één winnaar getrokken die een prijs van 9000 NOK ontving.
    • CondLott: Deze groep nam ook deel aan een vergelijkbare loterij, met de bijkomende conditie dat er ook een willekeurige dag werd geselecteerd. Enkel als de winnende deelnemer (getrokken lotje) op deze willekeurige dag gefietst had, kreeg deze de prijs. Zo niet, werd  er een nieuwe trekking gehouden.
  • n_days_period: Het aantal dagen dat de deelnemers effect gefietst hebben in deze periode.
  • n_trips_period: Het aantal fietsverplaatsingen van de deelnemers in deze periode.
  • km_period: Het totaal aantal kilometers dat er gefietst werd.

Je kan nu meerdere dingen gaan onderzoeken. We geven hier enkele mogelijkheden.

Histogram en QQ-plot

sla link op in klembord

Kopieer

Je kan voor een bepaalde groep deelnemers (met een bepaalde waarde van de variabele ‘Treatment’) een histogram maken van het aantal km dat ze hebben afgelegd of van het aantal fietsverplaatsingen van deze deelnemers.

Je kan ook onderzoeken of deze data normaal verdeeld is m.b.v. een QQ-plot, dit is een extra wenk in het leerplan wiskunde bij het leerplandoel over het gebruik van de normale verdeling als continu model bij gegeven data.

Door beide afbeeldingen naast elkaar te plaatsen, krijgen leerlingen een beter inzicht in hoe je een QQ-plot interpreteert zoals je bij de figuren hieronder kan zien.

Aan de hand van het histogram en de QQ-plot zie je dat het aantal kilometer voor de controlegroep scheef rechts verdeeld is terwijl het aantal verplaatsingen voor de groep PayPerKm al wat meer symmetrisch is en de normale verdeling beter benadert.

Boxplot

sla link op in klembord

Kopieer

Leerlingen kunnen ook verschillende boxplots maken.

Merk op dat de beloning die deelnemers krijgen toch een effect lijkt te hebben op het aantal dagen dat de deelnemers actief de fiets hebben genomen.

Het grootste effect zie je bij de groep die per km betaald wordt en de groep met de conditionele loterij (hierbij vergroot elke dag actief zijn ook de kans op winst in de loterij).

Betrouwbaarheidsinterval

sla link op in klembord

Kopieer

Je kan een nieuwe variabele invoeren die het gemiddeld aantal afgelegde km per dag bevat.

Aan de hand van deze variabele kan dan per groep een 95% betrouwbaarheidsinterval opgesteld worden voor de verwachtingswaarde van deze variabele:

  • Controle groep: steekproefgemiddelde is 10.27 met bijhorend BTI [9.03;11.51].
  • PayPerKm: steekproefgemiddelde is 13.57 met bijhorend BTI [11.93;15.21].
  • Lottery: steekproefgemiddelde is 12.15 met bijhorend BTI [10.79;13.52].
  • CondLott: steekproefgemiddelde is 11.95 met bijhorend BTI [10.54;13.36].

Extra

sla link op in klembord

Kopieer

Als je het verband tussen een tweezijdige hypothesetoets en het betrouwbaarheidsinterval behandeld hebt, dan kan je opmerken dat het steekproefgemiddelde van de controlegroep (10.27) niet behoort tot de betrouwbaarheidsintervallen van PayPerKm, Lottery en CondLott.

Dit komt overeen met het uitvoeren van een tweezijdige hypothesetest waarbij je wil onderzoeken of het geven van de beloning een effect heeft op het gemiddeld aantal km dat er per dag wordt afgelegd.

Hypothesetoets

sla link op in klembord

Kopieer

Als laatste kunnen leerlingen ook een éénzijdige hypothesetest uitvoeren.

De onderzoekers vermoeden dat het geven van een beloning, bv. het geven van een kilometervergoeding, het gemiddeld aantal km dat er gefietst wordt per dag laat toenemen.

Als waarde onder de nulhypothese kan je het steekproefgemiddelde van de controlegroep nemen:

H0: mu = 10.27

Ha: mu > 10.27

Je kan een z-toets uitvoeren waarbij je de standaardafwijking bijvoorbeeld even gelijkstelt aan de steekproefstandaardafwijking van de groep PayPerKm.

Je bekomt de volgende p-waarde:

p-value = 4.152e-05

Hieruit kan je besluiten dat het geven van een kilometervergoeding wel degelijk het gemiddeld aantal km dat men fietst per dag significant laat toenemen.

De gebruikte dataset alsook alle code nodig om deze analyse in R uit te voeren, vind je hier terug.

Bronnen en meer weten?

sla link op in klembord

Kopieer

×
Kijkt als...
Niveau
Regio