Statistiek: verbanden zoeken tussen variabelen
In het rekenblad Excel2013 kun je mooi statistieken zichtbaar maken. Je kunt Excel ook gebruiken om statistische variabelen te vergelijken en te zoeken naar verbanden ertussen. Bij dit practicum hoort het rekenblad
Gegevens 154 leerlingen
Dat moet je eerst met behulp van de rechtermuisknop downloaden en via "Doel opslaan als..." opslaan onder een eigen naam als Stat[..].xls, waarbij [..] je eigen naam is.
Het is wel van belang dat je met diagrammen, centrummaten en spreidingsmaten in Excel kunt werken. Als je dat niet
beheerst, doe dan eerst het practicum "Statistisch onderzoek: data presenteren en vergelijken".
Inhoud:
|
Een kruistabel maken
Open jouw bestand Stat[...].xlsx.
Je wilt kijken naar een eventuele relatie tussen de statistische variabelen wisgroep (de gekozen soort wiskunde, A of B) en geslacht (jongen of meisje) met behulp van een kruistabel, in Excel heet dit een draaitabel. In zo'n kruistabel zet je bijvoorbeeld horizontaal de soort wiskunde, dus wisgroep uit en verticaal het geslacht. Je wilt dan zien hoeveel personen van welk geslacht een bepaalde soort wiskunde hebben gekozen.
- Maak een nieuw werkblad waarin alleen deze variabelen voorkomen. Noem het bijvoorbeeld “ABvsJM”.
- Klik ergens in de dataset, bijvoorbeeld op cel C11. Kies nu bij “Invoegen” helemaal links voor “Draaitabel”.
Je krijgt dit dialoogvenster.
-
Je ziet dat de hele tabel is geselecteerd, dat de kruistabel in het bestaande werkblad terecht komt (moet je misschien nog even instellen), te beginnen bij cel F3. Klik [OK] en je krijgt de mogelijkheid om je draaitabel te maken m.b.v. het venster "Draaitabelvelden".
-
Je gebruikt nu de velden "wisgroep" en "geslacht". Je versleept "wisgroep" naar het vakje RIJEN en "geslacht" naar het vakje KOLOMMEN. Je ziet nu een lege tabel, er moeten nog waarden in. Die waarden zijn de aantallen nullen en énen in "geslacht", dus die variabele sleep je naar het vakje WAARDEN.
-
Nu krijg je niet de juiste waarden, want dit vakje staat standaard ingesteld op Σ en dat betekent "som", dus alle nullen en énen worden opgeteld. En dat wil je niet, je wilt zien hoeveel nullen en énen er zijn. Dus klik je op "geslacht" in het vakje WAARDEN en kies je "Waardeveldinstellingen". Die zet je i.p.v. op "Som" liever op "Aantal". Na [OK] krijg je de draaitabel hiernaast.
-
Waarschijnlijk wil je de kruistabel nog even netter opmaken, bijvoorbeeld alle cellen even breed en de waarden centreren.
Maak een kruistabel voor de variabelen cijfwis en profiel op een nieuw werkblad.
Een spreidingsdiagram maken
Je wilt bij de jongens kijken naar een eventueel statistisch verband tussen de variabelen lengte en gewicht met behulp van een spreidingsdiagram.
Dat doe je zo:
- Ga naar het werkblad “LengteGewichtJM” waarin de variabelen geslacht, lengte en gewicht zitten. (Als je het niet meer hebt, maak dan een nieuw.)
-
Sorteer alle gegevens op de variabele geslacht.
Laat de jongens maar bovenaan komen.
-
Selecteer nu alle lengtes en alle gewichten van de 69 jongens.
Op het tabblad “Invoegen” en kies je “Spreiding” en als subtype losse punten.
-
Maak het spreidingsdiagram nog even netjes op.
Kies bijvoorbeeld geschikte schalen op de assen en voeg aslabels toe.
Je ziet dat Excel standaard de linker kolom op de horizontale as zet, dat zijn hier de gewichten. Maar wellicht heb je liever de lengte op de horizontale as. Dan rechtsklik je op het grafiekgebied en kies je "Gegevens selecteren". Rij en kolom verwisselen helpt niet, je moet naar "Legendagegevens reeks" en daar "Bewerken" kiezen.
Je krijgt dan een vensters waarin de reeks X-waarden en de reeks Y-waarden zijn te zien. Die twee moet je omwisselen, dat gaat het snelst door de kolomletters om te wisselen: hier worden de D's veranderd in E's en omgekeerd. Nu krijg je de lengtes op de horizontale as.
Trendlijn en correlatiecoëfficiënt
Nu heb je wel een puntenwolk, maar daarmee heb je nog geen verband tussen y (gewichten) en x (lengtes).
Dit verband kun je zichtbaar maken met een zogenaamde trendlijn. Excel tekent die lijn voor je, maar of hij enige serieuze betekenis heeft hangt af van de correlatiecoëfficiënt R. R heeft waarden uit het interval [-1,1]. Hoe dichter R bij 1 of -1 ligt, hoe beter het verband. Als R dicht bij 0 ligt is de correlatie slecht. De trendlijn en de bijbehorende correlatiecoëfficiënt vind je zo:
-
Klik op het grafiekgebied en dan op de grote + rechtsboven. Kies voor "Trendlijn" (hij wordt automatisch lineair, als je wat anders zou willen dan kun je die kiezen via het pijltje).
- Klik op de trendlijn in de figuur met de rechter muisknop en op het tabblad "Opties voor trendlijn " kun je nog aangeven dat de vergelijking van de lijn in het Grafiekenvenster te voorschijn moet komen. Ook de waarde van R2 kun je laten aangeven. Je vindt: R2 ≈ 0,4131, zodat R ≈ 0,64.
Omdat de correlatie behoorlijk goed is, geeft de trendlijn een (statistisch) verband tussen y en x weer. Die lijn heet ook wel de regressielijn. Daarmee kun je dan redelijk voorspellen hoe zwaar iemand in deze groep zou moeten zijn als je zijn lengte weet.
Het practicum afsluiten
Gebruik het bestand met gegevens van 154 leerlingen en probeer de volgende vragen te beantwoorden. Motiveer je antwoord op de beschreven manier.
- Kiezen er in deze groep naar verhouding meer jongens wiskunde B dan meisjes? Motiveer je antwoord met een kruistabel.
- Is er een verband tussen het cijfer voor wiskunde in 3 havo en de gekozen soort wiskunde? Motiveer je antwoord met een kruistabel.
- Is er een verband tussen lengte en gewicht bij de meisjes in deze groep? En is dit verband bij jongens even sterk? Motiveer je antwoord met spreidingsdiagrammen en correlatiecoëfficiënten.
- Is er een verband tussen het cijfer voor wiskunde in 3 havo en het gemiddelde cijfer in 4 havo? Motiveer je antwoord met een spreidingsdiagram en een correlatiecoëfficiënt.
- Formuleer zelf een vraag waarin je verbanden tussen twee variabelen (eventueel per deelgroep) aan de orde stelt. Beantwoord je vraag m.b.v. kruistabellen en/of spreidingsdiagrammen.
Math4all