Bijzondere toetsen

Inleiding

Je hebt nu kennis gemaakt met binomiale toetsen en met het toetsen van het gemiddelde van een normale verdeling. Er bestaan nog veel andere soorten toetsen, afhankelijk van het type kansverdeling wat er achter zit. Maar ook een zogenaamde tekentoets vereist een speciale aanpak, hoewel het daarbij gewoon om een binomiale verdeling gaat. Je vergelijkt dan twee sets gegevens met elkaar, bijvoorbeeld het cijfer voor het SE (schoolexamen) en het CE (centraal examen).

Je leert nu:

Je kunt al:

Verkennen

De inspectie voor het onderwijs vergelijkt van een bepaalde school de cijfers voor wiskunde B van het SE (schoolexamen) en het CE (centraal examen).

> Kun je een manier te bedenken om vast te stellen of de CE-cijfers significant afwijken van de SE-cijfers?
> Waarom zou de inspectie daarin zijn geïnteresseerd?


Uitleg

De inspectie voor het onderwijs vergelijkt van een bepaalde school de cijfers voor wiskunde B van het SE (schoolexamen) en het CE (centraal examen). In de tabel vind je de gegevens van een klas van 19 leerlingen.

leerling 1  2  3  4  5  6  7  8  9 10111213141516171819
SE-cijfer6,06,75,87,15,46,58,86,97,95,16,16,16,47,45,96,27,16,86,3
CE-cijfer 6,4 6,3 5,2 6,5 5,4 6,1 9,0 6,8 7,5 5,6 6,0 6,5 6,0 6,5 6,0 6,6 7,0 6,6 6,4
teken  +  –  –  –  0  –  +  –  –  +  –  +  –  –  +  +  –  –  +

Een plus geeft aan dat de leerling het CE beter heeft gemaakt, een min dat het CE minder is gemaakt. Er zijn meer minnen dan plussen. Mag de inspectie op grond hiervan concluderen dat het CE significant slechter is gemaakt? (Neem een significantieniveau van 5%.)

Normaal gesproken zou je verwachten dat ongeveer evenveel leerlingen beter als minder scoren op het CE als er geen afwijking is. De kans dat iemand een plus krijgt is dan 0,5. Het aantal plussen is daarom binomiaal verdeeld.
Bij zo'n tekentoets neem je altijd p = 0,5 als uitgangspunt, als nulhypothese. En je kijkt vervolgens alleen naar het teken van de score: een "plus" als hij beter is, een "min" als hij minder is. Is er geen afwijking, dan laat je dat resultaat weg: n = 18.
Vanwege het vermoeden van de inspectie dat het CE slechter is gemaakt dan het SE is hier de alternatieve hypothese p  < 0,5.

Opgaven

  1. In de Uitleg zie je hoe de inspectie van het voortgezet onderwijs zou kunnen toetsen of de resultaten van het CE significant beter zijn dan die op het SE.
    1. Waarom heet deze wijze van toetsen een tekentoets?
    2. Waarom moet daarbij altijd als nulhypothese `p = 0,5` worden gehanteerd?
    3. Probeer nu zelf deze tekentoets af te maken.

Theorie

Een tekentoets is een toets waarbij twee series resultaten met elkaar worden vergeleken. Met behulp van een teken (+ bijvoorbeeld) wordt aangegeven dat een resultaat in de éne serie beter is, een ander teken (– bijvoorbeeld) geeft aan dat een resultaat in de andere serie beter is.

Uitgangspunt is dat de verschillen uitsluitend door het toeval zijn te verklaren, maar dat er in feite geen verschil is tussen beide series. Het aantal minnen en plussen zou dan gelijk moeten zijn, de kans op een plus is 0,5. Het aantal plussen X is dan binomiaal verdeeld. Is er geen afwijking, dan laat je dat resultaat weg. Bij een tekentoets is dus altijd:

Op grond van het significantieniveau stel je dan het kritieke gebied van de toets vast

Er bestaan nog veel andere soorten toetsen voor specifieke doeleinden, bijvoorbeeld Pearson's Χ2-toets (chi-kwadraat-toets), die in de biologie veel wordt gebruikt, zie voorbeeld 2.
Of het toetsen van het verschil van twee normaal verdeelde stochasten, zie voorbeeld 3.

Voorbeeld 1

De inspectie voor het onderwijs vergelijkt van een bepaalde school de cijfers voor wiskunde B van het SE (schoolexamen) en het CE (centraal examen). In de tabel vind je de gegevens van een klas van 19 leerlingen.

leerling 1  2  3  4  5  6  7  8  9 10111213141516171819
SE-cijfer6,06,75,87,15,46,58,86,97,95,16,16,16,47,45,96,27,16,86,3
CE-cijfer 6,4 6,3 5,2 6,5 5,4 6,1 9,0 6,8 7,5 5,6 6,0 6,5 6,0 6,5 6,0 6,6 7,0 6,6 6,4
teken  +  –  –  –  0  –  +  –  –  +  –  +  –  –  +  +  –  –  +

Een plus geeft aan dat de leerling het CE beter heeft gemaakt, een min dat het CE minder is gemaakt. Er zijn meer minnen dan plussen. Mag de inspectie met een significantieniveau van 5% op grond hiervan concluderen dat het CE slechter is gemaakt?

Antwoord

X is het aantal minnen (CE slechter) in de steekproef (n = 18). X is binomiaal verdeeld.

Nu is P(X ≥ 11 | n = 18 ∧ p = 0,5) ≈ 0,2403 > 0,05 (het significantieniveau).
De inspectie mag op grond hiervan deze conclusie niet trekken.

Voorbeeld 2

Bij 200 worpen met een geldstuk vind je 115 keer kop en 85 keer munt. Mag je nu met een significantieniveau van 5% concluderen dat het geldstuk niet eerlijk is?

Bij een eerlijk geldstuk verwacht je 100 keer kop en 100 keer munt, noem deze theoretische waarden t1 en t2. De experimenteel gevonden waarden zijn x1 en x2.
Bekijk nu Χ2 =  ( x 1 t 1 ) 2 t 1  +  ( x 2 t 2 ) 2 t 2
Hierin kan x1 de waarden 0 t/m 200 aannemen en is x1 + x2 = 200.
Χ2 (chi-kwadraat) is dan een continue stochast die tegelijk een maat is voor de afwijking van de experimentele waarden en de theoretische waarden. Als Χ2 = 0 stemmen beide volledig overeen. Omdat hier x2 vastligt als x1 bekend is, is het aantal vrijheidsgraden 1.

In dit geval is x1 = 115 en x2 = 85 en dus Χ2 = 4,50.
Met de grafische rekenmachine vind je:
P(Χ2 > 4,50) = P(0 ≤ Χ2 ≤ 4,50) ≈ 1 – 0,9661 = 0,0339 < 0,05.
Dus ligt 4,50 in het kritieke gebied van de toets en is de afwijking van een eerlijk geldstuk significant.

Dit voorbeeld is uit te breiden naar situaties met n theoretische en evenveel experimentele waarden. Er zijn dan n – 1 graden van vrijheid voor Χ2.

Voorbeeld 3

Als je wilt onderzoeken of het drinken van veel sterke koffie invloed heeft op de score voor een toets dan kun je een verschiltoets uitvoeren.

Je neemt dan bijvoorbeeld 2 groepen van 30 proefpersonen. Groep A krijgt sterke koffie en groep B een placebo (fopmiddel). Daarna meet je hun scores voor een toets. Die scores zullen waarschijnlijk normaal zijn verdeeld. Neem bijvoorbeeld aan dat de scores A van groep A normaal zijn verdeeld met een gemiddelde van 75 punten en een standaardafwijking van 12.
De scores B van groep B zijn normaal verdeeld met een gemiddeld van 65 punten en een standaardafwijking van 10.

Nu is het verschil V=AB  van beide scores ook normaal verdeeld met gemiddelde μ V = μ A μ B  en standaardafwijking σ V = σ A 2 + σ B 2 .

Wanneer het drinken van koffie de scores niet verhoogt, zou het verschil van A en b gemiddeld 0 moeten zijn. De nulhypothese is daarom H0: μ V =0  met σ V 15,6 .
De alternatieve hypothese luidt H1: μ V >0  met σ V 15,6 .

Je kiest nu een onbetrouwbaarheidsdrempel (bijvoorbeeld 5%) en kunt dan op grond van de uitslag van je meting vaststellen of het drinken van koffie de scores significant verbeterd. Een leuk onderzoekje om zelf uit te voeren...

Opgaven

  1. Je ziet in Voorbeeld 1 hoe een tekentoets moet worden uitgevoerd. De ondernemingsraad van een bedrijf beweert dat het ziekteverzuim op afdeling A significant hoger is dan op afdeling B. Ze legt de directie het volgende overzicht voor:

    maandjanfebmrtaprmeijunjulaugsepoktnovdec
    afd.A 9  9  8 10121312121011 8 12
    afd.B 7 10 9  8 1111 7  9  9 1010 7

    Men besluit hierop een tekentoets toe te passen met een significantieniveau van 5%.
    1. Beschrijf de tekentoets, geef de nulhypothese, de alternatieve hypothese, de steekproefgrootte en de onbetrouwbaarheidsdrempel.
    2. Onderzoek of de ondernemingsraad gelijk krijgt.

  2. In Voorbeeld 2 maak je kennis met de chi-kwadraat toets.
    1. Voer de daar beschreven chi-kwadraattoets zelf uit.
    2. In welke situaties kun je de Χ2-toets toepassen?
    Een geldstuk is zuiver als de kans op munt gelijk is aan de kans op kruis. Of dat zo is kun je onderzoeken door maar vaak genoeg met dit geldstuk te gooien. Pas de Χ2-toets toe.
    1. Is er met een significantie van 1% reden om aan te nemen dat het geldstuk niet zuiver is als 47 van de 100 keer kruis gegooid wordt?

  3. Je kunt twee normaal verdeelde variabelen ook vergelijken door hun verschil te toetsen op significantie. Bekijk in Voorbeeld 3 hoe dit wordt toegepast op een onderzoek naar een toename van de score voor een toets als gevolg van het drinken van sterke koffie.
    1. Licht toe hoe de nulhypothese (gemiddelde en standaardafwijking) tot stand komt.
    2. Waarom is in dit geval de alternatieve hypothese zo gekozen dat er van een rechtszijdige toets sprake is? Is ook een tweezijdige toets mogelijk?
    3. Voer de toets uit met de gekozen onbetrouwbaarheidsdrempel. Wat is je conclusie?
    4. In het voorbeeld wordt de toets toegepast op twee groepen personen die dezelfde test doen. Je zou ook twee zeer vergelijkbare tests kunnen afnemen bij de hele groep van 60 personen, eerst voordat ze sterke koffie hebben gedronken en vervolgens daarna. Is dat eerlijker?

  4. De diameters van machinaal geproduceerde bouten en de bijbehorende moeren zijn normaal verdeeld: de diameter van de moer is normaal verdeeld met een gemiddelde van 8,10 mm en een standaarddeviatie van 0,05 mm en de diameter van de bout is normaal verdeeld met een gemiddelde van 8,05 mm en een standaardafwijking van 0,03 mm. De bouten passen in de moeren als het verschil van de diameter van de moer en de bout minder dan 0,02 mm is. Er wordt regelmatig gecontroleerd of de machines die deze bouten en moeren maken niet moet worden bijgesteld omdat teveel moeren niet op de bouten passen. Wekelijks wordt een steekproef van 100 bouten en moeren getest.
    1. Waarom is hier sprake van een tweezijdige toets?
    2. Stel de nulhypothese en de alternatieve hypothese op.
    3. Welke standaardafwijking moet er worden gehanteerd? Waarom speelt nu ook de `sqrt(n)`-wet een rol?
    4. Voer de toets uit met een significantieniveau van 5%. Bij welk gemiddelde verschil in de steekproef worden de machines bijgesteld?


Verwerken

  1. In een laboratorium worden twee geneesmiddelen voor dezelfde ziekte getest door muizen, die men kunstmatig aan deze ziekte laat lijden, met één van beide middelen te behandelen. Elke dag wordt bijgehouden hoeveel dieren er genezen zijn. De helft van de muizen kreeg geneesmiddel A toegediend, de andere helft geneesmiddel B. De resultaten staan in deze tabel.

    dagnummer1234567891011121314151617181920
    middel A25463363212469423249
    middel B386924855255311845051

    Onderzoekers in dit laboratorium toetsen nu de mening dat beide middelen even goed zijn met een onbetrouwbaarheidsdrempel van 5%. Er wordt een tekentoets uitgevoerd.
    1. Stel een nulhypothese en een alternatieve hypothese op.
    2. Stel vast op beide middelen op grond van de resultaten in deze test inderdaad even goed zijn binnen de gegeven betrouwbaarheidseis.

  2. De Tsjechische monnik Gregor Mendel (1822 - 1884) verrichte kruisingsexperimenten met erwten.
    Hij bekeek 556 erwten en vond dat 315 daarvan glad en geel waren, 108 glad en groen, 101 gerimpeld en geel en 32 gerimpeld en groen.
    Met behulp van de door hem ontwikkelde erfelijkheidsleer kon hij berekenen dat deze aantallen theoretische gesproken zich moesten verhouden als 9 : 3 : 3 : 1.
    1. Wordt de theorie van Mendel door dit experiment met de erwten bevestigd met een betrouwbaarheid van 90%?
    Onderzoekers hebben van 320 families met 5 kinderen de aantallen meisjes geteld.

    aantal
    meisjes
    aantal
    families
     0 18
     1 56
     2110
     3 88
     4 40
     5  8

    1. Kun je met een significantieniveau van 5% aannemen dat de kans op de geboorte van een jongen en een meisje even waarschijnlijk is? Voer daartoe een Χ2-toets uit.

  3. Open het bestand "Voetlengtes van 100 mannen en 100 vrouwen" via Mannen hebben gemiddeld grotere voeten dan vrouwen is de gangbare opvatting. Je wilt deze opvatting toetsen met een significantieniveau van 5% met behulp van de gegevens in dit bestand.
    1. Kun je met deze meetgegevens een tekentoets uitvoeren?
    2. Je toetst het verschil van de voetlengtes van de mannen en de vrouwen. Maakt het verschil of je twee willekeurige groepen mannen en vrouwen onderzoekt, of een groep van 100 echtparen?
    3. Voer de toets uit. Wordt de hierboven gedane uitspraak bevestigd?

  4. Een bedrijf wil literpakken frisdrank vullen met behulp van een vulmachine. De hoeveelheid die de machine elke keer in een pak laat lopen is normaal verdeeld met `µ = 1001` milliliter en `sigma = 0,8` milliliter. Een fabrikant van literpakken meldt dat de inhoud hiervan normaal is verdeeld met `µ = 1003` en `sigma = 0,6` milliliter.
    Bij het vullen van de pakken bestaat er een kans dat er frisdrank wordt verspild.
    Bereken die kans in vier decimalen nauwkeurig. Wat adviseer je de frisdrankfabrikant?

Testen

  1. Je hebt in dit onderdeel met drie soorten toetsen kennis gemaakt. Beschrijf hoe deze toetsen in elkaar zitten en onder welke omstandigheden je ze toepast.