Statistisch onderzoek

Inleiding

Bij statistiek draait het allemaal om onderzoek. Het doel ervan is uitspraken doen; deze uitspraken moeten onderbouwd worden met cijfers, diagrammen en berekeningen. Je kunt bij een onderzoek nooit alle Nederlanders of alle jongeren onderzoeken. Je moet bij een onderzoek een goede selectie uit alle Nederlanders of uit alle jongeren bekijken.
Hoe doe je dat?
Het woord statistiek is afkomstig uit het Latijn: "statisticum collegium". Dit betekent: les over staatszaken. Je zou kunnen zeggen de analyse van staatsgegevens.

Je leert nu:

Je kunt al:

Verkennen

Bedenk een opzet voor een onderzoek onder een deel ouders en leerlingen van de school naar hun gebruik van de fiets waarbij je uitspraken kunt doen over het gebruik van de fiets van alle leerlingen van de school en hun ouders.


Uitleg

Bij statistisch onderzoek trek je conclusies op grond van steekproeven.
Je neemt een steekproef uit de te onderzoeken groep, de zogenaamde populatie. Zo'n steekproef moet aselect zijn. Dus elk element uit de populatie moet dezelfde kans hebben om in de steekproef te zitten.
Je kunt op verschillende manieren een aselecte steekproef samenstellen. Je roept daarbij vaak het toeval te hulp: loten is een vorm van aselect kiezen.
Daarbij maak je soms gebruik van de "random"-functie, die roept zogenaamde toevalsgetallen op, willekeurige nummers tussen 0 en 1 waarmee je (na bewerken tot gehele getallen) elementen in de steekproef kunt aanwijzen.
De steekproef moet representatief zijn voor de populatie. Dat wil zeggen dat de steekproef een eerlijke doorsnede moet zijn van de populatie.
Een goede steekproef is aselect, representatief en voldoende groot.

Een statistisch onderzoek begint vaak met vragen over variabelen zoals 'leeftijd', 'geslacht', 'lengte', 'gewicht', 'kleur ogen', 'schoenmaat' in de vorm van een enquête.
Variabelen zoals 'geslacht' en 'kleur ogen' zijn kwalitatief, ze geven een eigenschap (kwaliteit) weer.
Variabelen die een getalswaarde hebben zijn kwantitatief. Bijvoorbeeld: 'leeftijd', 'lengte', 'gewicht' en 'schoenmaat'. Je hebt discrete kwantitatieve variabelen, zoals leeftijd en schoenmaat, deze veranderen sprongsgewijs. Er zijn ook continue kwantitatieve variabelen zoals lengte en gewicht. ('discreet' betekent: 'los van elkaar', 'continu' staat voor 'aaneengesloten'.)

Opgaven

  1. Bestudeer de Uitleg. Welke van de volgende steekproeven zijn representatief?
    1. Om een onderzoek te doen naar het discotheekbezoek onder 14- tot 18-jarigen kies je de leerlingen van jouw eigen klas.
    2. Om de politieke voorkeur van Nederlanders te bepalen worden aselect uit de telefoongids van Nederland 1250 abonnees getrokken die aan het onderzoek deelnemen.
    3. Om de gemiddelde onderhoudskosten van een bepaald automerk te bepalen worden de bezitters van zo’n auto via de "Autokampioen" opgeroepen om de kosten die zij gemaakt hebben op te geven.
    4. Om de kwaliteit van diepvrieskippen te bepalen kopen de onderzoekers 190 kippen: van 19 merken steeds 10 aselect getrokken stuks.

  2. In welke gevallen is sprake van een aselecte steekproef?
    1. Tien willekeurige Deventenaren kiezen door de eerste tien achternamen die beginnen met H aanstrepen in het telefoonboek van Deventer.
    2. Een provincie in Nederland kiezen door hem op een kaart van Nederland geblinddoekt aan te wijzen.
    3. Vijf willekeurige 4 havo leerlingen kiezen door uit een zak met opgevouwen lootjes met alle achternamen van leerlingen uit 4 havo de eerste vijf halen.
    4. Automobilisten om en om bij de toegangsweg van een dorp vanaf 20:00 tot 22:00 uur aanhouden en controleren.

Theorie

De populatie is de naam voor de complete groep waarover het statistisch onderzoek gaat.
De steekproef is het deel van de populatie dat je bij je onderzoek betrekt.

Bij een goed onderzoek is de steekproef representatief (kenmerkend) voor de hele populatie.
De steekproef moet aselect zijn. Dat wil zeggen zonder voorkeur. De kans om in de steekproef te komen, moet voor ieder element uit de populatie even groot zijn.

Een statistisch onderzoek begint vaak met vragen over variabelen.
Kwalitatieve variabelen ('geslacht', 'kleur ogen') geven een eigenschap (kwaliteit) weer.
Kwantitatieve variabelen hebben getalswaarden ('leeftijd', 'lengte', 'schoenmaat'):

Voorbeeld 1

Hier zie je vier manieren om een steekproef samen te stellen:

  1. Voor een onderzoek naar de service van de NS in de treinen ga je mensen enquêteren. Je kiest voor de uit/ingang van een treinstation en bevraagt vanaf 7:00 uur elk uur van de dag 10 willekeurige reizigers.
  2. Voor een onderzoek naar het rijgedrag van vrachtautochauffeurs ga je mensen enquêteren. Je kiest voor de uit/ingang van een treinstation en bevraagt vanaf 7:00 uur elk uur van de dag 10 willekeurige reizigers.
  3. Voor een onderzoek naar het rookgedrag van ouders van leerlingen van jullie school, ondervraag je de eerste 50 binnenkomende ouders op een ouderavond.
  4. Voor een onderzoek naar het rookgedrag onder ouders van leerlingen van jullie school, selecteer je door loting 50 leerlingen van jullie school en ondervraag je weer na loting de vader of de moeder van elk van de 50 leerlingen.

Welke van deze steekproeven zijn niet representatief en welke zijn niet aselect?

Antwoord

Steekproef B is niet representatief maar wel aselect. Je spreekt waarschijnlijk relatief weinig automobilisten. De mening van automobilisten is mogelijk sterk afwijkend van die van de treinreizigers ten aan zien van de onderzoeksvraag.

Steekproef C is niet aselect, bijvoorbeeld ouders die tot laat werken zullen waarschijnlijk niet vroeg op de ouderavond kunnen zijn en hebben dus en kleinere kans om in de steekproef te komen. Daardoor is deze steekproef ook niet representatief.

Voorbeeld 2

Hier zie je twee voorbeelden van het gebruik van toevalsgetallen.
(Bekijk eventueel eerst de practica om na te gaan hoe je ze kunt oproepen.)

Opgaven

  1. Je doet een onderzoek onder jongeren naar hun mening over MP3-spelers. Welke van de hieronder genoemde onderzoeksmiddelen zijn het meest geschikt?
    1. Een telefonische (vaste telefoon) enquête.
    2. Een vragenlijst in het blad "Yes".
    3. Een internetpoll op MSN.
    4. Een vragenlijst op straat vlakbij een winkelcentrum.

  2. Naar welk soort variabele verwijst de gestelde vraag? Kies uit: kwalitatieve variabele, discrete kwantitatieve variabele of continue kwantitatieve variabele.
    1. Hoeveel vakken heb je?
    2. Hoe ver is het van school naar huis?
    3. Welk profiel heb je gekozen?
    4. Welke docent geeft je het vak Nederlands?
    5. Hoe lang zit je al op school?
    6. Hoe lang duurt het nog tot het eindexamen?
    7. In hoeveel vakken doe je eindexamen?

  3. In de wetenschapsquiz kwam de volgende vraag voor. Stel: je wilt weten hoeveel schoolgaande kinderen er gemiddeld per gezin zijn. Je neemt een grote steekproef onder schoolkinderen en vraagt hun hoeveel schoolgaande broertjes en zusjes zij hebben. Op basis daarvan bepaal je het gemiddelde aantal schoolgaande kinderen per gezin. Is dit een goede aanpak? Welk van de bovenstaande antwoorden is correct en waarom?

  4. Bekijk de vragenlijst die je leefsituatie-index vergelijkt met de rest van Nederland op http://www.scp.nl/onderzoek/leefsituatie/vragenlijst.htm.
    1. Welke vragen betreffen een kwalitatieve variabele?
    2. Welke vragen betreffen een discrete kwantitatieve variabele?
    3. Welke vragen betreffen een continue kwantitatieve variabele?

  5. Bekijk Voorbeeld 2. Daarin zie je hoe met behulp van toevalsgetallen een steekproef wordt samengesteld. Bekijk eventueel het Practicum. Hoe kun je met behulp van toevalsgetallen
    1. uit de dagproductie van 1200 spaarlampen 20 testexemplaren kiezen?
    2. een steekproef van 1500 willekeurig gekozen Nederlanders samenstellen?
    Soms wil je dat je steekproef aan bepaalde voorwaarden voldoet, bijvoorbeeld wil je dat bepaalde leeftijdsgroepen in de werkelijke verhouding in je steekproef voorkomen. Dat heet een "gelaagde steekproef".
    1. Stel je voor dat in een bepaalde stad van 60.000 inwoners de percentages van de leeftijdsgroepen `0 -< 20`, `20 -< 60` en 60 en ouder 24%, 46% en 30% zijn. Hoe stel je nu met behulp van toevalsgetallen een steekproef van 200 personen uit die stad samen?

Practicum

Doorloop het practicum "Statistiek in Excel". Heb je nog weinig met Excel gewerkt? Doe dan ook de practica "Basistechnieken Excel" en "Grafieken met Excel". Je hebt een goede werkkennis van Excel nodig voor het vervolg van het onderwerp "Statistiek"!

Verwerken

  1. Er loopt een onderzoek of Rotterdammers trotser op hun stad zijn dan Amsterdammers.
    Opzet: Er wordt een steekproef gehouden bij de thuiswedstrijden van Ajax en Feijenoord. Resultaat: Bij onderzoek onder 135 Ajax-supporters bleek 20% in Rotterdam te wonen. Bij een zelfde onderzoek onder 129 Feijenoord-supporters bleek 5% in Amsterdam te wonen.
    Conclusie van de onderzoekers: Rotterdammers zijn trotser op hun stad dan Amsterdammers.
    1. Wat vind je van de opzet?
    2. Wat vind je van de steekproef?
    3. Wat vind je van de conclusie?

  2. In een woonstraat staan precies 100 woningen, het zijn 20 blokken van 5 woningen. Aan iedere kant van de weg staan 10 blokken. Je hebt een even kant met de huisnummers 2 t/m 100, met tuin op het zuiden; Je hebt een oneven kant met de huisnummers 1 t/m 99, met tuin op het Noorden.
    1. Een energiebedrijf wil het gasverbruik in deze straat onderzoeken. Het neemt een steekproef van 10 huizen te nemen: de huisnummers 1, 11, 21, 31, 41, 51, 61, 71, 81 en 91. Waarom is deze steekproef niet aselect?
    2. Het gemiddelde gasverbruik wat de onderzoeker bij de 10 huisnummers vindt, blijkt veel hoger te zijn dan het gemiddelde in de straat in werkelijkheid blijkt te zijn. Hoe kan dat?
    3. Bedenk een manier om aselect 10 huizen uit de straat te selecteren voor het onderzoek, zodat het gemiddelde gasverbruik van de 10 huizen representatief is voor de hele straat.

  3. De schok was groot toen uit een artikel in "Onze taal" bleek dat Belgen beduidend langzamer praten dan Nederlanders. In de Randstad haalt men 5,42 lettergrepen per seconde, in Oost-Vlaanderen slechts 4,43. Sommige mensen gingen het meteen controleren. De spreeksnelheid van 21 miljoen Nederlands sprekenden werd bepaald door maar liefst 160 leraren en leraressen een stukje te laten opzeggen. Er waren acht groepen, dus twintig sprekers per groep. En dan werd ook nog gerapporteerd over het verschil tussen jong en oud, man en vrouw. (Bron: http://www.vanmaanen.org/hans/artikelen/2004.html)
    1. Wat vind je van deze opzet?
    2. Wat vind je van de steekproef?
    3. Wat vind je van de conclusie dat Belgen beduidend langzamer praten dan Nederlanders?
    4. Hans van Maanen rangschikt dit onderzoek in de top 10 van wetenschappelijke blunders van 2004. Waarom denk je?

  4. Onderzoekbureaus hanteren verschilden methoden om een verkiezingsuitslag te voorspellen. Het NIPO en Maurice de Hond gebruiken in 2003 vaste (internet)panels. Interview-NSS gebruikten de methode van telefonische enquêtes. De twee methoden worden met elkaar vergeleken. De kop boven het artikel van Maarten Reijnders is: "Telefonische opiniepeiling beter dan internetpolls". (Bron: http://www.smallzine.nl/)
    De Volkskrant vergelijkt ook de drie grote bureaus en concludeert: "Interview-NSS voorspelt het best". (Zie http://www.volkskrant.nl/den_haag/article137909.ece/Interview-NSS_voorspelt_het_best)
    1. Wat zijn de verschillen in opzet tussen de twee methoden van onderzoek?
    2. Wat zijn de voor- en nadelen van de twee methoden?
    3. Welke kop van de twee artikelen vindt jij het meest waarheidsgetrouw? Motiveer je antwoord.

  5. In 2006 hield het mannenblad "Men’s Health" een wereldwijd seksonderzoek. Ruim 40.000 mannen (lezers) van het blad vulden de vragenlijst in. In Nederland waren er ongeveer 1500 mannen die reageerden. De kop boven veel artikelen was: "Nederlandse man vrijt langdurig."
    1. Wat vind je van de opzet van het onderzoek?
    2. Is de steekproef aselect en representatief?
    3. Wat vind je van de kop boven de artikelen?
    4. Wat is het lastige van vragen bij seksonderzoeken en de conclusies die je eruit kan trekken?

  6. Veel onderzoek gebeurt door mensen een vragenlijst te laten beantwoorden. Het opstellen van de juiste vragen is erg belangrijk. Op slechte vragen krijg je slechte antwoorden. Je bent nieuwsgierig wat de leerlingen uit je klas bij het ontbijt eten.
    1. Je bedenkt als vraag: Wat vind je lekkerder op de boterham, hagelslag of kaas? Leg uit waarom deze vraag niet goed is.
    2. Je bedenkt ook de vraag: Wat is gezonder: een witte boterham of een bruine boterham? Leg uit waarom deze vraag ook niet goed is.
    3. Je zou ook aan elke leerling kunnen vragen: schrijf op wat je vanmorgen hebt gegeten als ontbijt. Wat is een nadeel van deze vraag?
    4. Je zou ook kunnen vragen: Geef met een kruisje aan wat je vanmorgen als ontbijt hebt gehad:
      • bruin brood
      • yoghurt met muesli
      • fruit
      Wat is er mis met deze vraag?
    5. Welke vraag zou jij stellen waarop je een zinvol antwoord krijgt? Probeer uit of het echt een handige en goede vraag is.

  7. De Nationale Doorsnee was in 2000 een landelijk statistiekproject voor leerlingen uit klas 1 en 2. Centrale vraag is: "Wie is de gemiddelde leerling van Nederland?" Daarbij gaat het bij dit project om een negental kenmerken:
    1. Naar welk soort variabele verwijst ieder van deze kenmerken?
    2. Bedenk bij elk kenmerk een goede vraag, die aansluit bij het door jou genoemde soort variabele.
    3. Welke tiende kenmerk en vraag zou je toevoegen dat de gemiddelde leerling van Nederland typeert?

Testen

  1. In de jaren 1982 – 1988 werd onder 22.000 mannelijke Amerikaanse artsen onderzoek gedaan naar de invloed van aspirine op hart- en vaatziekten op de gemiddelde Amerikaanse man. De helft gebruikte om de dag 300 mg aspirine, wat ongeveer gelijk staat aan een ‘gewoon’ aspirientje. De andere helft slikte een placebo ('fopmiddel'). Van de aspirineslikkers kregen 104 personen een hartinfarct, van de placeboslikkers waren dat er 189. De conclusie van het onderzoek was dat het risico op een hartinfarct met ongeveer 45% wordt verlaagd door het slikken van aspirine. Dat dit grote verschil aan toeval was te wijten vond men uitgesloten vanwege het grote aantal mensen dat aan de studie meewerkte.
    1. Waarom is hier geen sprake van een representatieve steekproef? Hoe had deze steekproef moeten worden samengesteld?
    2. Waarom werd er van placebo’s gebruik gemaakt?
    3. Hoeveel procent van de 11.000 aspirineslikkers heeft baat gehad bij slikken van aspirine?
    4. Volgens de tekst hierboven wordt de kans op een hartinfarct met 45% verlaagd. Klopt dat?