Gegevens samenvatten

Inleiding

Grote verzamelingen statistische gegevens zijn (ondanks het gebruik van tabellen en diagrammen) vaak nogal onoverzichtelijk. Vergelijken van frequentieverdeling is ook niet altijd in één oogopslag mogelijk. Daarom worden de resultaten van een statistisch onderzoek vaak samengevat in een aantal getallen die snel informatie geven over frequentieverdelingen, zoals gemiddelden en spreiding van gegevens.

Je leert nu:

Je kunt al:

Verkennen

De schoolleiding en de ouderraad willen een goed beeld van de aanwezigheid van leerlingen in jullie leerjaar bij de diverse vakken. Ze willen dat in een beknopt en helder verslag van maximaal twee A4'tjes.
Hoe kan zo’n beknopt verslag eruit zien zodat iedereen goed geïnformeerd wordt?


Uitleg

Je hebt weer eens een toets gehad. Je leraar doet de mededeling: "De toets was goed gemaakt, het gemiddelde van de klas was 7,3". Word je blij of hoor je liever dat het modale cijfer 7,3 is? Of dat de mediaan 7,3 is?

Met zo'n mededeling probeert iemand een frequentieverdeling met één getal te karakteriseren:

Al deze getallen zeggen op zichzelf weinig.
Het wordt al beter als er een mededeling over de spreiding van de cijfers bij komt.
Bijvoorbeeld zo: "Het gemiddelde cijfer is 7,3 en de cijfers hebben een spreiding van 2,2".
Maar dan moet je wel weten wat er onder de 'spreiding' wordt verstaan: het verschil tussen het hoogste en het laagste cijfer bijvoorbeeld is zo'n spreidingsmaat. Maar er bestaan ook andere spreidingsmaten...

Opgaven

  1. Bestudeer de Uitleg. In de tabel zie je de cijfers behaald bij een wiskundetoets door twee parallelklassen.

    Cijfers klas A
    Cijfers klas B
    6,76,44,93,84,0
    4,06,24,93,95,9
    5,65,86,88,24,7
    7,34,76,77,69,4
    3,48,54,16,97,3
    8,35,77,28,77,1
    6,17,56,76,23,4
    7,06,57,45,04,8
    7,94,58,3


    7,76,54,98,86,3

    1. Waarom heeft het geen zin om van beide klassen het modale cijfer te vergelijken?
    2. Bepaal van beide klassen de mediaan.
    3. Zegt de mediaan iets over welke klas beter heeft gescoord voor de toets?
    4. Bereken van beide klassen het gemiddelde cijfer.
    5. Welke van beide klassen heeft het hoogste gemiddelde? Kun je nu zonder meer zeggen dat die klas ook beter heeft gescoord?

  2. Je zier hier de SE-cijfers van enkele leerlingen aan het eind van HAVO 5. Hun eindcijfer SE is het gemiddelde van deze cijfers.



    1. Neem aan dat elk SE-cijfer even zwaar meetelt voor het eindcijfer. Welk eindcijfer krijgt elke leerling?
    2. De laatste drie cijfers zijn behaald in de vijfde klas. Deze tellen twee keer zo zwaar als de cijfers behaald in klas 4. Wat wordt nu het gemiddelde cijfer van elke leerling?
    Ga er in de rest van deze opgave van uit dat alle SE-cijfers even zwaar meetellen.
    In de onderstaande figuur is voor elke leerling elk SE-cijfer aangegeven door een bolletje op een getallenlijn (de komma in het cijfer is weggelaten).



    1. De leerlingen A en B hebben hetzelfde gemiddelde. Toch is hun cijferbeeld nogal verschillend. Hoe komt dat?
    2. De spreiding van de cijfers van A en C is vrijwel hetzelfde. Waarin verschilt hun cijferbeeld vooral?
    3. De leerlingen B en D hebben dezelfde variatiebreedte. Zou je de spreiding van hun cijfers ook hetzelfde willen noemen?
    Een andere maat voor de spreiding kun je vinden door te kijken hoe ver elk cijfer van het gemiddelde afligt. Je doet dit door van elk cijfer het verschil met het gemiddelde te berekenen. Hier zie je die verschillen voor leerling A.



    1. Bereken het gemiddelde van deze verschillen. Verbaast het antwoord je? Leg uit waarom.
    2. Het gemiddelde van deze verschillen is geen goede spreidingsmaat. Dat zit hem in de mintekens. Door te kwadrateren vallen die mintekens weg. Maak voor leerling A zelf een lijst van de kwadraten van de verschillen. Bereken daarvan het gemiddelde. Heb je nu een goede spreidingsmaat?
    3. Door het kwadrateren wordt het getal dat je zojuist bij d hebt gevonden nogal groot. Dat los je op door de wortel uit dit getal te nemen. Je krijgt dan de standaardafwijking van deze set cijfers. Ga na dat voor leerling A die standaardafwijking ongeveer 1,73 is.
    4. Bereken ook voor leerling B de verschillen van de cijfers met het gemiddelde. Bereken vervolgens het gemiddelde van de kwadraten van die verschillen en de standaardafwijking.
    5. Bereken de standaardafwijking van de cijfers van leerling D. Vind je verschillende standaardafwijkingen voor de leerlingen B en D?

Theorie

Getallen die zo’n beetje het 'midden' aangeven van een reeks waarnemingen heten centrummaten. Er zijn drie centrummaten:

Bij klassenindelingen spreek je van de modale klasse en kun je de mediaan het beste opzoeken in een cumulatief relatief frequentiepolygoon (de waarde bij 50% schatten door aflezen). Het gemiddelde kun je dan alleen maar schatten door het gemiddelde van de klassenmiddens te berekenen.
Centrummaten alleen zeggen nog weinig, er hoort steeds een spreidingsmaat bij...

Er zijn drie spreidingsmaten:

Bij klassenindelingen is de spreidingsbreedte het aantal klassen maal de klassenbreedte. De mediaan en de kwartielen zoek je dan het beste op in een cumulatief relatief frequentiepolygoon (de mediaan bij 50%, het eerste kwartiel bij 25% en het tweede kwartiel bij 75%). Het standaarddeviatie kun je dan alleen maar schatten door de standaarddeviatie van de klassenmiddens te berekenen.

Voorbeeld 1

Dit is een steelblad diagram van de cijfers in een klas: tegelijk is het een klassenindeling (eerste klasse 2,0 – <3,0) en een overzicht van alle cijfers.

2
4
3
99
4
44
5
0015599
6
24446689
7
137
8
256666
9
5

Voorbeeld 2

Hier zie je leeftijd, lengte en gewicht van 36 mannen.
Bepaal van alle drie de series waarnemingsgetallen zowel de drie centrummaten als de drie spreidingsmaten. Doe dit zowel met de basisgegevens als met de klassenindelingen.
Maak alleen gebruik van de rekenfuncties van Excel maar nog niet van de statistische functies (zie practicum).

Antwoord

Voor de modus en de mediaan zijn de sorteerfuncties van Excel erg handig. Verder kun je gemakkelijk optellen en kolommen met de waarden van een waarnemingsgetal maal zijn frequentie, enzovoorts, maken.

In deze tweede versie van het Excel-bestand vind je de antwoorden. Bekijk goed welke formules zijn gebruikt. Bij de klassenindelingen is telkens niet de mediaan, de kwartielen en de kwartielafstand bepaald, dat gaat beter vanuit een cumulatief relatief frequentiepolygoon, zie voorbeeld 3.

Voorbeeld 3

Hier zie je een cumulatief relatief frequentiepolygoon bij deze klassenindeling van levendgeborenen naar leeftijd van de moeder.
Maak met behulp hiervan een bijpassend boxplot.

Antwoord

Lees bij 50% de mediaan af, bij 25% het eerste kwartiel en bij 75% het derde kwartiel. Minimum en maximum zitten bij 0% en 100%.

Je ziet:

Opgaven

  1. Bekijk Voorbeeld 1.
    Maak van beide klassen in opgave 1 een steelblad diagram en bepaal de mediaan en de kwartielafstand van beide klassen. Teken voor beide klassen een boxplot van de resultaten.

  2. Welke uitspraak is waar voor de bovenstaande waarnemingsgetallen?

    58  63  51  56  86  69
    55  76  74  69  45  75
    55  68  68  52  70  57
    65  78  65  72  83  65
    79

    1. De modus en mediaan zijn gelijk.
    2. De modus en het gemiddelde zijn gelijk.
    3. Het gemiddelde en de mediaan zijn gelijk.

  3. Welke uitspraak is waar voor de bovenstaande waarnemingsgetallen?

    58  63  51  56  86  69
    55  76  74  69  45  75
    55  68  68  52  70  57
    65  78  65  72  83  65
    79  57  63  63  72  63

    1. De modus is groter dan de mediaan.
    2. Het gemiddelde is groter dan de mediaan.
    3. De modus is kleiner dan het gemiddelde.

  4. Bekijk Voorbeeld 2.
    Je werkt daar met de leeftijd, de lengte en het gewicht van 36 mannen. Als je de tabel in het antwoord opent, kun je daar zien hoe de centrummaten en de spreidingsmaten worden berekend (klik op de juiste cellen en bekijk de formules). Bekijk eerst de "Basisgegevens".
    1. Hoe wordt het gemiddelde berekend?
    2. Hoe wordt de spreidingsbreedte (variatiebreedte) berekend?
    3. Hoe wordt de kwartielafstand berekend?
    4. Ga na, dat de modale leeftijd, de modale lengte en het modale gewicht correct zijn. (Gebruik eventueel de sorteerfunctie in Excel.)
    5. Controleer zo ook de mediaan en de kwartielen. Teken de bijpassende boxplots.
    6. Hoe wordt de standaardafwijking berekend?
    Ga nu in het Excel-bestand naar "Tabel lengte". Daar wordt gewerkt met een klassenindeling.
    Het werken met klassenindelingen is handig als je niet met een computer werkt die grote databestanden aankan.
    1. Welke klassenbreedte wordt gebruikt?
    2. Hoe wordt nu het gemiddelde berekend?
    3. Hoe wordt nu de standaardafwijking berekend? Hoe kan het dat die standaardafwijking niet hetzelfde is als die van de basisgegevens?
    4. Bekijk ook "Tabel leeftijd". Ga na dat daar op dezelfde manier wordt gerekend. Alleen worden de klassenmiddens anders bepaald. Verklaar dat.

  5. De gegevens over leeftijd, lengte en gewicht van 36 vrouwen zijn te vinden via
    1. Bepaal nu vanuit de basisgegevens de centrummaten van de leeftijden, de lengtes en de gewichten.
    2. Bepaal ook de bijbehorende spreidingsmaten.
    3. Teken de bijbehorende boxplots. Vergelijk ze met die van de 36 mannen uit de vorige opgave en beschrijf de verschillen.
    4. Maak van de lengtes van de 36 vrouwen een geschikte klassenindeling en bereken daarmee benaderingen van het gemiddelde en de standaardafwijking.

  6. In twee ziekenhuizen heeft men de keuze uit verschillende maten voor de bedden. Van alle verschillende bedden zijn er evenveel.
    Ziekenhuis A: 200 cm, 180 cm, 160 cm, 150 cm, 140 cm
    Ziekenhuis B: 220 cm, 180 cm, 160 cm, 150 cm, 120 cm
    1. Bereken voor elk ziekenhuis het gemiddelde en de mediaan van de lengtes van de bedden.
    2. Geven deze centrummaten het verschil tussen beide ziekenhuizen voldoende aan, wat de maten van de bedden betreft? Breng dit verschil onder woorden.

  7. Op twee plaatsen op aarde heeft men in een bepaalde periode de neerslag gemeten.
    Plaats A: 20 mm, 40 mm, 80 mm, 100 mm
    Plaats B: 50 mm, 55 mm, 65 mm, 70 mm
    1. Reken na dat ze dezelfde mediaan en hetzelfde gemiddelde hebben.
    2. Welke plaats heeft de grootste spreiding in neerslag?
    3. Geeft de variatiebreedte bij deze twee plaatsen een goede indruk van de spreiding?

  8. Bestudeer in Voorbeeld 3 hoe je bij een klassenindeling een boxplot maakt.
    Neem nu de gegevens van de 36 mannen uit Voorbeeld 2.
    Maak bij de klassenindeling van "Tabel lengte" een cumulatief relatief frequentiepolygoon en print deze figuur. Teken vervolgens een passend boxplot bij deze lengteverdeling.

Practicum

In het practicum kun je leren hoe je de verschillende centrummaten en spreidingsmaten met je GR bepaalt. Erg handig is dit niet, je kunt meestal beter met Excel werken.


Verwerken

  1. Gegeven de waarnemingsgetallen 16, 18, 22, 24, 26, 26, 28, 30 en 36.
    1. Teken er een boxplot bij.
    2. Doe dat nog eens als je bij alle getallen 4 optelt.
    3. En ook als je van alle getallen 40 aftrekt.
    4. Doe het nog eens als je alle getallen door 2 deelt.
    5. Welk resultaat krijg je als je alle getallen met 3 vermenigvuldigt?
    6. Beschrijf wat er gebeurt met het boxplot als bij alle waarnemingsgetallen een getal wordt opgeteld of ervan af getrokken wordt.
    7. Geef een beschrijving van wat er gebeurt met het boxplot als alle waarnemingsgetallen met een getal worden vermenigvuldigd of door een getal worden gedeeld.

  2. Voor een practicum biologie wordt een aantal regenwormen gevangen. De lengte van die regenwormen vind je in de tabel hiernaast.
    1. Kijk naar de manier waarop de klassen zijn gemaakt. Hoe nauwkeurig zijn de regenwormen gemeten? Bij welke klasse hoort een regenworm die 3,0 cm lang is?
    2. Welke klasse is de modale klasse?
    3. Teken hierbij een histogram van de cumulatieve relatieve frequenties. Teken in dezelfde figuur de cumulatieve frequentiepolygoon.
    4. In welke klasse zit de mediaan? Kun je precies zeggen hoe groot die mediaan is? Schat de mediaan met behulp van de cumulatieve frequentiepolygoon.
    5. Bereken het gemiddelde en de standaardafwijking.

  3. Een supermarkt laat onderzoek verrichten naar de besteding per klant en naar de hoeveel tijd die een klant aan de kassa nodig heeft om af te rekenen. Er worden op verschillende tijdstippen tellingen gehouden. Hier zie je de resultaten.
    1. Bepaal bij beide tabellen de modus, de mediaan, het eerste en het derde kwartiel en het gemiddelde.
    2. Hoe groot is de standaardafwijking bij beide verdelingen?
    3. Teken bij beide tabellen een boxplot.
    De supermarkt heeft een weekomzet van € 150000,-. Een caissière mag 38 uur per week werken.
    1. Hoeveel caissières moet de supermarkt in dienst nemen als er vanwege de wisselende winkeldrukte een overcapaciteit van 25% wordt aangehouden?

  4. Elk uur van een dag is de temperatuur bepaald.



    1. Verwerk deze gegevens in een dubbel steelblad diagram.
    2. Maak boxplots van elk dagdeel afzonderlijk en van de totale dag.
    3. Bereken voor beide dagdelen afzonderlijk het gemiddelde en de standaardafwijking.
    4. Bereken het gemiddelde en de standaardafwijking van alle metingen van die dag.
    5. Geef een verklaring voor de verschillen die je vindt.

  5. In een nieuw te bouwen ziekenhuis moeten bedden worden aangeschaft. De facilitaire dienst vraagt zich af welke lengte de bedden moeten krijgen. Hoe langer de bedden, hoe hoger de kosten. In het oude ziekenhuis hebben ze het laatste jaar van 278 patiënten gegevens verzameld. Je vindt ze bij
    1. Bereken de gemiddelde lengte van de patiënten. Bereken ook de gemiddelde lengte van de vrouwelijke en de mannelijke patiënten apart.
    2. Men kan natuurlijk alle bedden zo lang maken als de langste patiënt. Hoe lang worden de bedden dan? Noem een bezwaar tegen dit idee.
    Handiger is misschien de lengte van het bed zo te kiezen dat 50% van de patiënten erin past. Voor langere patiënten neem je dan een bed met een lengte van de langste patiënt.
    1. Hoe lang moet het bed dan worden als 50% van de patiënten erin past?
    Het hoofd van de facilitaire dienst denkt dat het goedkoper is om verschil te maken in mannen en vrouwenbedden, wat de lengte betreft.
    1. Als we hiervan uitgaan en de voorwaarde na b, hoe lang worden dan een "mannenbed" en een "vrouwenbed"?

  6. Er wordt beweerd dat het de laatste jaren steeds warmer wordt. Om dit te onderzoeken nemen we de maandtemperaturen van het KNMI. Je vindt ze bij
    1. Zoek uit hoe het KNMI de temperatuur per maand berekent.
    2. Toon met een berekening aan dat het jaar 2006 warmer is dan het jaar 1986.
    De gemiddelde wintertemperatuur van 1988 is het gemiddelde van de temperaturen van de maanden december 1987, januari 1988 en februari 1988.
    1. Op dezelfde manier kun je de gemiddelde wintertemperatuur van 2003 uitrekenen. Was de winter van 1988 kouder of warmer dan die van 2003?

  7. Het gemiddelde van de getallen `7, 3, 9, 13, 17` en het getal `p` is gelijk aan `9`. Bereken `p`.

  8. In klas H4A zitten 20 leerlingen. Voor een toets Engels scoorde de klas gemiddeld 6,6. Ook klas H4B maakte die toets, maar hier was het gemiddelde cijfer 8,1. Het gemiddelde cijfer van de twee klassen samen was 7,5.
    1. Leg uit hoe het kan dat het gemiddelde niet gelijk is aan `(6,6+8,1)/2 = 7,35`.
    2. Stel het aantal leerlingen in klas H4B gelijk aan `x`. Leg uit dat geldt: `(132 + 8,1x)/(20 + x) = 7,5`.
    3. Hoeveel leerlingen zitten er in klas H4B?
    4. De jongens in klas H4A scoorden gemiddeld 6,4 en de meisjes 6,9. Hoeveel jongens zitten er in klas H4A?

  9. Een boer heeft 120 melkkoeien, bestaande uit roodbonte en zwartbonte koeien. De gemiddelde melkproductie per koe is 22 liter per dag. De zwartbonte koeien hebben een gemiddelde melkproductie van 24 liter per dag en de roodbonte hebben een gemiddelde dagproductie van 21,55 liter. Hoeveel zwartbonte koeien heeft de boer?

  10. Men neemt aan dat de leerlingen van groep 8 van de basisscholen in Nederland elk jaar ongeveer even goed presteren op de Cito-toets. Het is moeilijk om elk jaar een toets te maken die even moeilijk is als die van het jaar daarvoor. Een leerling die een moeilijke toets maakt zal dan slechter scoren dan een even slimme leerling, die een gemakkelijke toets gemaakt heeft. Daarom vergelijkt men de resultaten op een toets met die van alle andere kinderen in datzelfde jaar. Jouw score is dan het percentage van alle leerlingen die slechter gepresteerd hebben dan jij. Deze score noemt men percentielscore. Voorbeeld: Je krijgt een percentielscore van 80 als 80% van de Nederlandse leerlingen lager haalde dan jij.
    1. Leg uit dat twee leerlingen uit verschillende klassen met hetzelfde aantal punten voor dezelfde toets verschillende percentielscores kunnen hebben.
    2. Waarom is het niet eerlijk als jouw leraar deze becijfering in de klas zou toepassen?
    3. Welke centrummaat is gelijk aan een percentielscore van 50?
    4. Kunnen alle leerlingen van een school een hogere score hebben dan 80?
    Omdat een score van 0 zo frustrerend is heeft men de Cito-scores opgeschaald: minimum = 500, maximum = 550. Om toegelaten te worden tot het HAVO hanteren veel scholen de grens van 537 punten.
    1. Welke percentielscore hoort hierbij?

  11. Van de huishoudens in de Bernhardlaan zijn het aantal mannelijke en vrouwelijke personen geteld. De gegevens staan in deze tabel. De 3 in het gearceerde vakje geeft aan dat er drie huishoudens zijn met twee mannelijke personen en met één vrouwelijk persoon.
    1. Bereken het gemiddelde aantal personen per huishouden in één decimaal nauwkeurig.
    2. De gemiddelde leeftijd van de mannen is 26,0 jaar en van de vrouwen is dat 18,2 jaar. Bereken in één decimaal nauwkeurig de gemiddelde leeftijd van de gehele groep.
    3. Het aantal mannen in de Bernhardlaan neemt met twee toe. De een is vijf jaar ouder dan de ander. De gemiddelde leeftijd van de mannen neemt met één jaar toe tot 27,0 jaar. Hoe oud zijn de nieuwkomers?
    4. Ga weer uit van de situatie in de tabel. Tien huishoudens verlaten de Bernhardlaan. Van de overblijvende huishoudens bereken je het gemiddelde aantal personen. Bereken in één decimaal nauwkeurig de kleinste waarde die dit gemiddelde kan aannemen.

Testen

  1. Op een feestje zijn 8 personen aanwezig. Hier zie je een tabel met gegevens over de feestgangers.



    1. Welke centrummaat zou je gebruiken om voor elke kolom de feestgangers te typeren?
    2. Welke spreidingsmaat (indien mogelijk) zou je gebruiken om voor elke kolom de feestgangers te typeren?
    3. Hoe kun je nu de "doorsnee" feestganger omschrijven?

  2. In de grafiek vind je de jaarinkomens van de werknemers van een grote fabriek.
    1. Wat verdient de doorsnee werknemer van deze fabriek? Welke centrummaat heb je gekozen en waarom?
    2. Welke centrummaat is hier groter, de mediaan of de modus? Leg uit waar je dat aan kunt zien.

  3. Een groep leerlingen wordt tijdens de muziekles gevraagd op hun instrument te blazen en een bepaalde toon zo lang mogelijk vast te houden. De tijd dat dit lukt wordt genoteerd in seconden:

    20  35  21  19  23  25  21  19  36  42
    31  29  26  27  26  29  32  25  20  18
    23  25  26  22  28  20  35  34  21

    1. Bepaal de modus, de mediaan en het gemiddelde van deze gegevens.
    2. Bepaal de spreidingsbreedte en de standaardafwijking.
    3. Teken een boxplot bij deze gegevens.
    4. Maak een klassenindeling, waarbij de eerste klasse `15 - < 20` is.
    5. Bereken het gemiddelde en de standaarddeviatie bij deze klassenindeling.
    6. Teken een bijpassend cumulatief relatief frequentiepolygoon. Bepaal daarmee de mediaan bij deze klassenindeling.