Uitspraken doen
Inleiding
Een statistisch onderzoek is opgezet om uitspraken te kunnen doen.
In kranten en tijdschriften staat het er bol van.
Maar vaak ontbreekt belangrijke informatie: bijvoorbeeld staat er wel een gemiddelde, maar wordt er geen spreidingsmaat vermeld. Of, er wordt niet vermeld hoe de steekproef is samengesteld...
Welke uitspraken kun je wel doen en welke niet?
En wat moet je allemaal vermelden om de betrouwbaarheid van een uitspraak duidelijk te maken?
Je leert nu:
- welke uitspraken je kunt doen;
- kritisch te kijken naar uitspraken die je tegen komt.
Je kunt al:
- allerlei statistische diagrammen, waar onder een boxplot maken;
- centrummaten en spreidingsmaten berekenen.
Verkennen
Het CBS (Centraal Bureau voor de Statistiek) verzamelt cijfers over de meest uitlopende thema’s.
Op de site http://www.cbs.nl kun je dat allemaal terugvinden.
Bekijk ook recente publicaties van het CBS en persberichten van het CBS.
Zoek een recente publicatie of een recent persbericht en achterhaal hoe dit bericht in de media (kranten, tijdschriften, radio, televisie) gepresenteerd is. Maak bij een publicatie of persbericht een goede betrouwbare kop voor boven een krantenartikel over dit onderwerp.
Uitleg
Hier zie je de lengteverdeling van een groep soldaten op een bepaalde kazerne.
Het histogram of het bijbehorende frequentiepolygoon krijgt bij zoveel waarnemingen een mooie klokvorm. Bij veel continue variabelen, bijvoorbeeld bij gewicht en lengte of inhoud, krijg je zo'n klokvormige frequentieverdeling. De vorm ervan wordt bepaald door gemiddelde en standaardafwijking. Je kunt dan met behulp van gemiddelde en standaardafwijking twee algemene uitspraken doen. Deze uitspraken zijn vuistregels.
- vuistregel 1: tussen en zit 68% van de waarnemingsgetallen.
- vuistregel 2: tussen
en zit 95% van de waarnemingsgetallen.
Deze uitspraken betreffen alleen de steekproef: tussen 175 en 189 zit de lengte van 68% van deze soldaten, tussen 168 en 196 zit de lengte van 95% van deze soldaten.
Bij de groep van 500 Nederlandse soldaten kun je ook een boxplot van de lengteverdeling maken.
Je kunt uit dit boxplot concluderen dat 25% van de soldaten tussen Q1 = 176 en
Q2 = 182 en dat 50% van deze mannen tussen Q1 = 176 en Q3 = 187 cm is. Ook deze uitspraken kun je alleen doen over de steekproef van 500 soldaten.
Het doel van statistisch onderzoek is om uitspraken te doen over een bepaalde populatie. Op grond van een steekproef kun je daar alleen verantwoord uitspraken over doen als deze steekproef echt een doorsnede van de populatie is. Maar ook de beste steekproef blijft slechts een steekproef. Je zult steeds rekening moeten houden met een zekere speling: de onbetrouwbaarheidsmarge.
Onderzoek je hoeveel procent van de scholieren in de vierde klas een bepaald nieuw type muziekspeler wil kopen zodra dat op de markt komt? Vul dan bij de berekening van de steekproefmarges van het NIPO de gegevens van twee peilingen in: het percentage in twee steekproeven uit de populatie scholieren in de vierde klas.
Je zult zien: hoe groter de steekproef, hoe groter de betrouwbaarheid van je conclusie.
Je noemt dat een significante conclusie. Maar dan nog hangt alles af van de kwaliteit van je steekproef.
Statistiek lijkt spijkerhard maar je kunt sneller misleid worden door diagrammen en cijfers dan je denkt. Soms wordt een deel van een diagram of van een as weggelaten. Of de cijfers en uitspraken gaan over een te kleine of verkeerde steekproef. Wees altijd op je hoede met cijfers en diagrammen bij een onderzoek. Zelden hoor je dat uit een onderzoek geen conclusies getrokken kunnen of mogen worden...
‡
Opgaven
-
Bestudeer de Uitleg, pagina 1.
Gebruik de lengteverdeling van 90 meisjes die je kunt vinden via
www.math4all.nl > MAThADORE-basic HAVO/VWO > 4/5 HAVO wi-d > Statistiek > Totaalbeeld > Toepassingen
-
Maak van het histogram een frequentiepolygoon en print de figuur.
-
Teken met de hand de bijpassende klokvormige verdeling er in.
Gebruik het gemiddelde en de standaardafwijking van de gegeven lengteverdeling.
-
Onderzoek of voor de gegeven lengteverdeling de 68%-vuistregel geldt.
-
Onderzoek of voor de gegeven lengteverdeling de 95%-vuistregel geldt.
-
Is de klokvormige verdeling een goede benadering voor de lengteverdeling van deze 90 meisjes?
-
Op grond van een representatieve steekproef uit alle Nederlandse meisjes heeft een onderzoeksbureau geconcludeerd dat hun lengtes klokvormig verdeeld zijn met een gemiddelde lengte van 172 cm en een standaardafwijking van 6 cm.
-
Bepaal m.b.v. de vuistregels hoeveel procent van de Nederlandse meisjes dan langer is dan `172 + 6 = 178` cm.
-
Bepaal zo ook hoeveel procent korter is dan `172 - 2 * 6 = 160` cm.
-
Bestudeer de Uitleg, pagina 2.
Hier staat een aantal conclusies getrokken uit statistische gegevens. Geef telkens commentaar op de uitspraak.
-
In 1971 nam de NAVO 49% van alle militaire uitgaven voor haar rekening.
In 1981 was dat nog 43%. De militaire uitgaven van de NAVO zijn in 1981 lager dan in 1971.
-
Van alle verkeersongelukken op deze weg blijkt bij 25% alcohol een rol te hebben gespeeld.
De conclusie is dat rijden met alcohol op veiliger is dan zonder alcohol.
-
Wasmiddel XXX wast 20% witter dan alle andere wasmiddelen.
-
School A heeft hogere percentages geslaagden dan school B.
Conclusie: je kunt beter op school A zitten als je snel wilt slagen.
Theorie
In elk deel van een boxplot zit 25% van de waarnemingen.
Wanneer het histogram of bijbehorende frequentiepolygoon bij benadering klokvormig is, dan zijn het gemiddelde
en de standaardafwijking goede karakteristieken van de frequentieverdeling.
En er gelden de volgende vuistregels:
- vuistregel 1: tussen en zit 68% van de waarnemingsgetallen.
- vuistregel 2: tussen
en zit 95% van de waarnemingsgetallen.
Deze uitspraken betreffen de steekproef.
De uitspraken die je doet over je steekproef zijn alleen geldig voor de gehele populatie als de steekproef een goede afspiegeling is van die populatie, dus representatief is. De uitspraken zijn betrouwbaarder als de steekproef voldoende groot is.
Wees altijd alert bij uitspraken naar aanleiding van diagrammen, presentaties van cijfers en conclusies uit onderzoek. Ook populaire 'vertalingen' van onderzoeksrapporten in tijdschriften en kranten door journalisten zijn niet altijd betrouwbare uitspraken.
‡
Voorbeeld 1
De lengteverdeling van Nederlandse mannen boven 20 jaar is bij benadering klokvormig.
De gemiddelde lengte is 180,3 cm.
De standaardafwijking is 7,74 cm.
Tussen welke twee lengtes zit volgens de vuistregels 68% van de Nederlandse mannen? En 95%?
Antwoord
Volgens de vuistregels zit 68% van deze mannen tussen de gemiddelde lengte min de standaardafwijking en de gemiddelde lengte plus de standaardafwijking.
Dus 68% heeft een lengte tussen 172,5 cm en 188,0 cm.
Bij de 95%-regel moet je 2 keer de standaardafwijking van het gemiddelde afzitten.
Dus heeft 95% een lengte tussen 164,8 cm en 195,8 cm.
‡
Voorbeeld 2
Enkele voorbeelden van misleidingen...
Belgen spreken langzamer dan Nederlanders?
De schok was groot toen uit een artikel in Onze taal bleek dat Belgen beduidend langzamer praten dan Nederlanders. In de Randstad haalt men 5,42 lettergrepen per seconde, in Oost-Vlaanderen slechts 4,43. Sommige mensen gingen het meteen controleren. De spreeksnelheid van 21 miljoen Nederlands sprekenden werd bepaald door maar liefst 160 leraren en leraressen een stukje te laten opzeggen. Er waren acht groepen, dus twintig sprekers per groep. En dan werd ook nog gerapporteerd over het verschil tussen jong en oud, man en vrouw. Eén oude Antwerpse stotteraarster, en de achterstand is hopeloos.
Onderzoeker Guy De Pauw maakte het allemaal nog erger door een dag later te verklaren dat de verschillen 'niet significant' waren. Alsof dat er nog toe doet, met zo'n streekproef.
(Bron: Hans van Maanen)
|
Vitalinea misleidt consument
In de nieuwe reclamespots voor het aanprijzen van Vitalinea van Danone gebruiken de reclame boys wel heel trieste, misleidende statistieken, waar de fouten zo van af druipen. De reclame claimt dat "Tijdens een studie bij 400 Belgen, is gebleken dat 80%
van de deelnemers gemiddeld 3,6 kilogram afvalt". Misschien valt je frank niet direct, maar deze statistiek wil helemaal niks zeggen. Waarom geven de onderzoekers het gemiddelde gewichtsverlies van slechts 80% van de deelnemers? Waarom niet van de volle 100%? Waar zijn de statistieken van die andere 20% deelnemers plots heen? Wat mij betreft zijn deze 20% mensen die niet meegeteld zijn allemaal 30 kilogram bijgekomen door het eten van Vitalinea, en komt het gemiddelde dus uit op een gewichtstoename bij het eten van Vitalinea!!! Het enige dat ik kan concluderen van de reclame, is dat als je wil vermageren, Vitalinea niet het goede product is! Simpele logica.
(Bron: Anthony Liekens)
|
‡
Voorbeeld 3
Door te klikken op het plaatje zie je twee diagrammen over criminaliteit.
De NRC meldt naar aanleiding van deze gegevens "Criminaliteit grote steden weer gedaald".
Het Parool schrijft daarover "Meer geweld in grote steden".
De koppen lijken elkaar tegen te spreken.
Welke kop zou jij erbij verzinnen?
Geweldscriminaliteit
‡
Opgaven
-
Bekijk Voorbeeld 1.
Laat zien dat de verdeling van lengte `L` van de Nederlandse mannen boven de 20 jaar inderdaad klokvormig is. Teken een bijpassende frequentiepolygoon en reken zelf het gemiddelde `bar(L)` en de standaardafwijking `sigma_L` na.
Ga ook zelf na, dat beide vuistregels ongeveer kloppen.
-
Voor een onderzoek naar de levensduur van batterijen is op basis van 20 waarnemingen een boxplot getekend.
Geef aan of de volgende uitspraken waar of niet waar zijn.
- Minimaal 25% van de batterijen gaat langer dan 110 minuten mee.
- 50 % van de batterijen heeft een levensduur van 104 minuten.
- De batterijen gaan gegarandeerd 1,5 uur mee.
- Minimaal 75% van de batterijen is na 112 minuten leeg.
-
Op de verpakking van een pak koffie staat een inhoud van 250 gram. In werkelijkheid wil dat nog wel eens iets meer of minder zijn. Het gewicht van 1000 pakken koffie wordt gemeten, zonder verpakking. Uit de metingen blijkt een gemiddeld gewicht van 254 gram. De standaardafwijking is 4. We gaan er van uit dat de verdeling van het gewicht klokvormig is. Geef met behulp van de vuistregels bij de volgende uitspraken aan of ze waar of niet-waar zijn.
- Ongeveer 95% van de pakken koffie heeft een gewicht tussen 246 en 262 gram.
- Ongeveer 5 % heeft een gewicht onder 246 gram.
- Ongeveer 16% van de pakken koffie bevat minder dan de beloofde 250 gram inhoud.
- Ongeveer 50% van de pakken koffie heeft een gewicht van 250 gram.
- Minimaal 75% van de pakken koffie bevat meer dan 250 gram.
-
In Voorbeeld 2 en Voorbeeld 3 kun je zien hoe slordige statistieken je kunnen misleiden en/of hoe soms slordige conclusies worden getrokken.
Geef bij elk van de voorbeelden kort commentaar.
-
Tien procent van de Nederlanders is racistisch, zo bleek begin juni uit een opinieonderzoek uitgevoerd in opdracht van de grote regionale dagbladen.
Hans van Maanen, wetenschapsjournalist bekeek dit onderzoek eens wat beter.
(Zie http://www.vanmaanen.org/hans/columns/racisme.html)
Lees zijn artikel en beantwoord de volgende vragen.
- Welke twee vragen komen bij Hans van Maanen op bij de resultaten?
- Hoeveel mensen deden mee aan het onderzoek?
- Hoeveel vragenlijsten zijn er verstuurd en hoeveel daarvan zijn ingevuld?
- Er worden voorbeelden gegeven van stellingen die in de vragenlijst stonden. Welke?
- Welk commentaar kun je hebben op deze stellingen, waardoor ze zo moeilijk te beantwoorden zijn?
- Wat vindt Hans van Maanen van de wijze waarop de resultaten in het nieuws zijn gebracht?
-
Een bedrijf heeft 25 werknemers in vaste dienst met een volledige werkweek. De netto weeklonen van deze werknemers zijn verwerkt in deze frequentietabel.
-
Bepaal het gemiddelde en de standaardafwijking van deze verdeling.
-
Maak bij de frequentietabel een relatief cumulatieve frequentietabel en teken de bijbehorende een kleiner-gelijk-kromme.
-
Gebruik de kleiner-gelijk-kromme om het gemiddelde af te lezen. Geef aan hoe je dat doet.
-
Bepaal met behulp van de kleiner-gelijk-kromme de standaardafwijking. Geef aan hoe je dat doet.
Vergelijk je antwoord met dat in a.
-
Hoeveel procent van alle weeklonen wijkt meer dan twee standaarddeviaties af van het gemiddelde?
Klopt dit met de vuistregels voor een normale verdeling?
Verwerken
-
In 1951 verscheen bij uitgeverij Stafleu te Leiden het boek "De Juiste Maat", met als ondertitel "Lichaamsafmetingen van Nederlandse vrouwen als basis voor een nieuw maatsysteem voor damesconfectiekleding". Auteurs van dit boek waren J. Sittig, Adviesbureau voor Toegepaste Statistiek en Prof.dr. H. Freudenthal, Rijksuniversiteit Utrecht. Het onderzoek was gehouden in opdracht van N.V. Magazijn De Bijenkorf, Amsterdam.
In het kader van dit onderzoek zijn bij 5001 vrouwelijke klanten van de Bijenkorf vijftien lichaamsmaten opgemeten. Vervolgens is gekeken welke van deze maten het meest bruikbaar zijn om een maatsysteem voor kleding op te baseren. De verdeling van de lichaamslengten, afgerond op centimeters, vind je via:
www.math4all.nl > MAThADORE-basic HAVO/VWO > 4/5 HAVO wi-d > Statistiek > Totaalbeeld > Toepassingen
- Maak een bijpassende frequentiepolygoon en een bijpassende cumulatieve frequentiepolygoon.
- Bepaal de modale lengte en bereken de gemiddelde lengte.
- Bepaal de mediaan en de kwartielen en teken een bijpassend boxplot.
- Verdeel de lengten in klassen van 5 cm, te beginnen bij 135 – 139.
Maak bij de nieuwe frequentieverdeling opnieuw een frequentiepolygoon.
Is deze frequentiepolygoon bij benadering klokvormig?
- Bepaal opnieuw de gemiddelde lengte en de mediaan en de kwartielen.
Wijken de resultaten veel af van de antwoorden bij b en c?
- Hoeveel lengtes verschillen meer dan één keer de standaarddeviatie van het gemiddelde?
Hoeveel procent van de vrouwen betreft dit?
- Hoeveel procent van de lengtes verschilt meer dan twee keer de standaardafwijking van het gemiddelde?
- Komen deze antwoorden overeen met de vuistregels voor klokvormige verdelingen?
-
In een bedrijf is het modale salaris ongeveer €1600,= per maand. Het gemiddelde salaris is €1800,= per maand. Het hoogste salaris is dat van de algemeen directeur. In de boxplot zie je de verdeling van de salarissen over alle 120 mensen die bij het bedrijf werken.
Bereken in de volgende gevallen telkens weer het modale salaris en het gemiddelde salaris en teken het nieuwe boxplot.
Doe voor elk van de drie situaties een kenmerkende uitspraak over de gevolgen van de maatregel voor de laagstbetaalde 25% werknemers.
- Alle medewerkers krijgen een loonsverhoging van 3%.
- Alle medewerkers krijgen een maandelijkse toeslag van € 200,=.
- Het salaris van de algemeen directeur wordt met € 800,= per maand verhoogd.
-
Hier zie je de gegevens van pasgeboren kinderen in Nederland. Je mag aannemen dat deze verdeling klokvormig is.
Doe vier uitspraken met behulp van de vuistregels over geboortegewicht en geboortelengte.
-
Het CBS publiceerde in haar webmagazine "Aantal echtscheidingen neemt weer toe". (Bron: http://www.cbs.nl/nl-NL/menu/themas/mens-maatschappij/bevolking/publicaties/artikelen/2006-1862-wm.htm)
-
Teken het diagram van de echtscheidingen voor de periode 1995 – 2005.
-
Met welk percentage is het aantal echtscheidingen in 2005 toegenomen ten opzichte van 2004?
-
De Volkskrant kopte "Echtscheidingen na jaren van daling gestegen".
Het dagblad Trouw meldde: "Meer echtscheidingen door breekbaar geworden relaties".
Welke kop zou jij bij het diagram zetten?
-
Tineke Fokkema schetste in september 2002 in Demos (zie http://www.nidi.knaw.nl/web/html/public/demos/dm02083.html) het volgende beeld:
"Na een 20 jaar durende stormachtige groei schommelt het jaarlijkse aantal echtscheidingen in Nederland sinds halverwege de jaren tachtig tussen de 28.000 en de 37.000. (...) In de periode 1965-1985 is het jaarlijkse aantal echtscheidingen sterk toegenomen: van 6.000 tot niet minder dan 34.000."
Teken een diagram met deze gegevens en die van het CBS voor de periode 1965 – 2005.
-
Welke kop zou je bij dit diagram plaatsen?
-
Het Reformatorisch Dagblad plaatst de gegevens van het CBS weer in een heel ander perspectief.
Zij schreven: "Toch is het veel te vroeg om te concluderen dat het huwelijk weer aan populariteit wint. Het aantal huwelijkssluitingen schommelt nogal, maar daalde het afgelopen decennium sterker dan het aantal echtscheidingen. Tegenover elke 100 gesloten huwelijken stonden in 1993 42 echtscheidingen. In 2005 is dat opgelopen tot 45. Kort door de bocht is de samenvatting: het aantal echtscheidingen daalt omdat er steeds minder te scheiden valt."
(Bron: http://www.refdag.nl/artikel/1265901/)
Welke conclusie trekt de journalist van het Reformatorisch Dagblad?
-
Open het Excel bestand met de titel "Patiëntengegevens". Je vindt dit bij
www.math4all.nl > MAThADORE-basic HAVO/VWO > 4/5 HAVO wi-d > Statistiek > Totaalbeeld > Toepassingen
-
Bereken de gemiddelde lengte van zowel de vrouwelijke als de mannelijke patiënten en de bijbehorende standaardafwijkingen. Is er verschil tussen de lengtes van mannen en vrouwen?
-
Onderzoek of 50% van de mannen langer is dan de 84% kortste vrouwelijke patiënten.
Testen
-
Hier zie je een boxplot van de lengtes van 1064 vaders van ongeveer 100 jaar geleden.
- Welke uitspraak kun je doen over de 25% kortste mannen?
- Welke uitspraak kun je doen over de 25% langste mannen?
- Hoeveel van deze mannen hadden een lengte vanaf 172,0 tot 176,8 cm?
-
Hier zie je de leeftijdsopbouw van leraren in het HAVO/VWO in procenten.
- Bereken voor elk van de vijf genoemde jaren het gemiddelde en de standaarddeviatie van de leeftijden van deze leraren.
- Teken de vijf frequentiepolygonen en geef daarin die waarden aan.
- Welke conclusies kun je trekken?
- De waarden van 1995 en 2000 zijn schattingen die de onderzoekers in 1994 hebben gedaan.
Passen die schattingen bij de gegevens uit de voorgaande jaren?
-
Open het Excel bestand met de titel "Etmaaltemperaturen De Bilt". Je vindt het in
www.math4all.nl > MAThADORE-basic HAVO/VWO > 4/5 HAVO wi-d > Statistiek > Totaalbeeld > Toepassingen
-
Maak een histogram van de temperaturen in de maand juli over de jaren 1755 tot 1900. Neem een klassenbreedte van 1°C.
-
Maak ook een histogram voor de periode van 1900 tot 2007.
-
Vergelijk de twee histogrammen met elkaar.
Kun je hieruit concluderen dat de temperatuur in de maand juli na 1900 gemiddeld hoger is dan in de voorgaande periode?