Regressie

Inleiding

Naast het toetsen van hypothesen is in de mathematische statistiek het onderzoeken naar statistische verbanden een belangrijke tak van sport: wanneer bestaat er een verband tussen twee statistische variabelen? En kun je dan met zo'n verband tussen twee variabelen ook voorspellingen doen? Met andere woorden kun je een formule vinden die het verband beschrijft?
Met de "kleinste kwadraten methode" kun je bij vrijwel elke puntenwolk wel een (soms kromme) lijn vinden die het verloop beschrijft. Maar hoe zinnig is dat? In dit onderdeel bekijk je alleen lineaire verbanden.

Je leert nu:

Je kunt al:

Verkennen

Om te onderzoeken of er een verband bestaat tussen lengte en gewicht bij mensen van 15 tot 17 jaar oud heb je gegevens nodig. Op het werkblad LengteGewicht22h4.xls vind je de gegevens van een 4HAVO-klas van 22 leerlingen. Bekijk het getekende spreidingsdiagram. De correlatiecoëfficiënt bedraagt ongeveer 0,81, dus er bestaat een lineair statistisch verband tussen lengte en gewicht.

> Kun je een formule voor dit verband opstellen? En hoe doe je dit dan?


Uitleg

Als er tussen twee variabelen `x` en `y` een goede correlatie bestaat, bestaat er een lineair (statistisch) verband tussen. Maar hoe stel je daarbij een formule op? Een regressielijn moet uiteraard door het punt `(bar(x),bar(y))` gaan. De richtingscoëfficiënt (het hellingsgetal) van die lijn kun je op dit moment echter alleen nog maar schatten.

De beroemde wiskundige Carl Friedrich Gauss bedacht daarvoor in de negentiende eeuw de methode van de kleinste kwadraten. Stel je voor dat je een regressielijn wilt maken van de vorm `y = a*x + b`. Je gaat dan uit van een regressielijn van `y` op `x`.
Gauss' methode houdt nu in dat de som van de kwadraten van de verticale afwijkingen van de meetpunten tot deze regressielijn zo klein mogelijk moet zijn. Dat betekent dat

`sum_(i=1)^n (g_i - (a * l_i + b))^2`

minimaal moet zijn. Gauss vond dat dit het geval is als

`a = (sum_()^() (l_i - l)(g_i - g))/(N * sigma_x^2)`

Deze formule lijkt erg op die van de correlatiecoëfficiënt. In feite is `a = r_(xy) * (sigma_y)/(sigma_x)`. En hiermee heb je een snelle manier gevonden om het hellingsgetal `a` te vinden.

Opgaven

  1. Bekijk dit spreidingsdiagram.
    1. Maak een tabel van de 10 meetpunten. Voer deze gegevens in je grafische rekenmachine in.
    2. Bereken de coördinaten van het punt `(bar(x),bar(y))`.
    3. Als je door deze punten "op het oog" een regressielijn zou willen tekenen, hoe groot wordt dan de richtingscoëfficiënt ongeveer?
    4. Bereken nu de correlatiecoëfficiënt en de richtingscoëfficiënt.
    5. Stel een vergelijking op van de regressielijn van `y` op `x`.
    6. Welke waarde zou `y` moeten hebben volgens deze regressielijn als `x = 10`?

  2. Lees in de Uitleg na hoe Gauss de methode van de kleinste kwadraten gebruikte om de richtingscoëffici&eum;nt van de regressielijn te berekenen.
    1. Laat zien (door haakjes uitwerken) dat `p = sum_(i=1)^n (g_i - (a * l_i + b))^2` een kwadratische functie van `a` is.
    2. Bereken voor welke waarde van `a` deze functie minimaal is en leidt zo de formule voor `a` zelf af.
    3. Leg ook uit hoe je aan de formule komt waarmee je `a` kunt berekenen vanuit `r_(xy)`.

Theorie

Als de correlatie tussen de variabelen `x` en `y` groot genoeg is, kun je een formule van de vorm `y = ax + b` opstellen die het verband tussen `x` en `y` weergeeft. Deze formule heeft als grafiek een rechte lijn, de regressielijn van `y` op `x`. Zo’n regressielijn gaat door het punt `(bar(x),bar(y))` en heeft als richtingscoëfficiënt (hellingsgetal):

`a = r_(xy) * (sigma_y)/(sigma_x)`

Deze richtingscoëfficiënt heet wel de regressiecoëfficiënt van `y` op `x`. Met behulp van deze regressiecoëfficiënt en het feit dat de regressielijn door `(x, y)` gaat, kun je de bijbehorende formule opstellen.

Voorbeeld 1

Op het werkblad LengteGewicht22h4.xls vind je de gegevens van een 4HAVO-klas van 22 leerlingen. Je kunt deze gegevens ook in de grafische rekenmachine invoeren en die de regressielijn laten berekenen. In de figuren hieronder zie je hoe dit op de TI83/84 in zijn werk gaat. Je hebt er het rekenalgoritme LinReg voor nodig en dat staat voor "lineaire regressie".

      
      

Voorbeeld 2

Bij het verband tussen `l` en `g` bij de groep van 22 leerlingen heb je een regressielijn van `g` op `l` gemaakt: `g = 0,59 * l - 44,01`.
Er past echter ook heel goed een regressielijn van `l` op `g` bij. Ga na, dat je dan vindt: `l = 1,11 * g + 108,80`.
Deze tweede regressielijn kun je in dezelfde figuur tekenen als de eerste. Deze twee regressielijnen zijn verschillend!

Als je van een leerling van 15-17 jaar met een lengte van `l = 180` cm het gewicht zou moeten voorspellen, vind je volgens de eerste regressielijn ongeveer 62,19 kg, maar volgens de tweede regressielijn hoort bij een gewicht van 62,19 kg een lengte van 177,83 cm! Dit verschil is het regressie-effect. Dat regressie-effect ontstaat doordat er geen volledige correlatie tussen `g` en `l` is, de correlatiecoëfficiënt is "slechts" ongeveer 0,81 en dat is minder dan 1.

Opgaven

  1. Bekijk Voorbeeld 1.
    1. Voer de berekening van de regressielijn bij de gevevens van de 4HAVO-klas uit Voorbeeld 1 zelf uit met behulp van de grafische rekenmachine.
    2. Welke betekenis heeft deze regessielijn als je aanneemt dat de groep leerlingen voldoende representatief is voor alle 15-17 jarigen?
    3. Hoe zwaar zou iemand van 16 jaar moeten zijn als hij 180 cm lang is?

  2. Bekijk vervolgens Voorbeeld 2. Je ziet dat er twee regressielijnen kunnen worden gemaakt bij elk verband tussen twee variabelen.
    1. Bereken zelf ook de regressielijn van `l` op `g`.
    2. Bereken bij beide regressielijnen het gewicht dat zou moeten horen bij een 15-17 jarige die precies één standaardafwijking groter is dan de gemiddelde lengte.
    3. Wijkt dit gewicht meer of minder dan één standaardafwijking van het gemiddelde af? Geef voor beide regressielijnen antwoord op deze vraag.

  3. Laat zien dat het product van de twee regressiecoëfficiënten precies het kwadraat van de correlatiecoëfficiënt is.

Verwerken

  1. Kijk nog even naar opgave 1.
    1. Stel een formule op voor de regressielijn van x op y.
    2. Teken zelf het spreidingsdiagram met daarin beide regressielijnen.
    3. Is er sprake van een regressie-effect? Zo ja, laat dit dan met een rekenvoorbeeld zien.

  2. Om te onderzoeken of er enig verband bestaat tussen de lengte van een vader en die van zijn zoon zijn de lengtes van 12 vaders en die van hun oudste zoons gemeten op het moment dat die zoons volwassen werden. De gegevens staan in deze tabel.

    lengte vader `v` in cm173168178170180165185175180178183188
    lengte zoon `z` in cm180175180173183175180173188178180185

    1. Was er sprake van een positieve of een negatieve correlatie? Wat betekent dit in de praktijk?
    2. Stel de regressielijn op van `z` op `v` bij deze gegevens.
    3. Als een bepaalde vader 1,77 m lang is, hoe lang zou dan zijn oudste zoon moeten zijn?
    4. Wat betekent het optredende regressie-effect voor de bepaling van de lengte van een zoon waarvan de vader bijvoorbeeld 2 m lang is?

  3. Biologen veronderstellen op grond van metingen dat er bij vliegende dieren een verband bestaat tussen de lichaamslengte `L` (in cm) en de vliegsnelheid `v` (in cm/s).

    Vliegsnelheid en lichaamslengte bij verschillende dieren


    Soort

    Lengte
    `L` in cm
    Vlieg-
    snelheid
    `v` in cm/s
    1.Drosophila melanogaster (fruitvlieg)  0,2  190
    2.Tabanus affinis (paardenvlieg)  1,3  660
    3.Archilochus colubris (kolibriesoort)  8,11120
    4.Anax sp. (waterjuffer)  8,51000
    5.Eptesicus fuscus (grote bruine vleermuis) 11,0  690
    6.Phylloscopus trochilus (fitis) 11,01200
    7.Apus apus (gierzwaluw) 17,02550
    8.Cypselurus cyanopterus (vliegende vis) 34,01560
    9.Numenius phaeopus (regenwulp) 41,02320
    10.Anas acuta (pijlstaarteend) 56,02280
    11.Olor columbianus bewicki (kleine zwaan)120,01880
    12.Pelecanus onocrotalus (witte pelikaan)160,02280

    1. Bekijk het spreidingsdiagram voor voor `log(L)` en `log(v)` dat je in het vorige onderdeel hebt gemaakt.
    2. Bereken de regressiecoëfficiënt van `log(v)` op `log(L)`.
    3. Er bestaat tussen `L` en `v` dus een verband van de vorm `log(v) = a * log(L) + b`. Laat zien dat dit betekent dat `v` een machtsfunctie is van `L` en stel een formule voor die machtsfunctie op.

  4. Om het verband tussen het gewicht `G` (in pounds) en de braadtijd voor kalkoenen te onderzoeken, werd onder gelijke omstandigheden nagegaan hoeveel minuten `t` het duurde tot het binnenste van een kalkoen de temperatuur van 85°C bereikte. Er werden diverse kalkoenen aan dit onderzoek onderworpen. Ze hadden een gemiddeld gewicht van 15,24 pounds met een standaardafwijking van 6,07. Voor de waarden van `t` vonden de onderzoekers een gemiddelde van 205,4 minuten met een standaardafwijking van 59,1.
    De regressielijn van `t` op `G` had de vergelijking: `t = 9,65G + 58,40`.
    Hoeveel bedroeg de correlatiecoëfficiënt?

  5. In de tabel vind je het aantal inwoners `N` in een bepaalde stad.

    Jaartal19601970198019902000
    Aantal inwoners `N` (%)23.10725.88028.98532.47936.358


    Er wordt aangenomen dat `N` een exponentiële functie is van `t`, de tijd in jaren met `t = 0` in 1960.
    1. Maak het spreidingsdiagram van `log(N)` afhankelijk van `t`.
    2. Bereken de correlatiecoëfficiënt van `log(N)` en `t`.
    3. Voorspel met behulp van de regressielijn van `log(N)` op `t` het aantal inwoners in 2010 en 2020.
    4. Waarom is er vrijwel geen regressie-effect?

Testen

  1. In een Amerikaans laboratorium heeft men proeven genomen waarbij gelet werd op het verband tussen de hoogte van de bewaartemperatuur `F` in graden Fahrenheit en de werkzaamheid `W` van een bepaald geneesmiddel. Bij temperaturen van 30°, 50°, 70° en 90° (Fahrenheit) werden drie porties van gelijk gewicht uit eenzelfde productie 20 dagen bewaard. Na deze periode werd op identieke wijze de werkzaamheid van de porties vastgesteld. De werkzaamheid werd uitgedrukt in percentages van de werkzaamheid zoals die was voor het bewaren.

    Bewaartemperatuur `F` (°F)30507090
    Werkzaamheid `W` (%)39, 42, 3532, 26, 3319, 27, 2314, 19, 21


    1. Verwerk deze gegevens in een spreidingsdiagram en bereken de correlatiecoëfficiënt. Is er sprake van een correlatie tussen `W` en `F`?
    2. Stel de vergelijking op van de regressielijn van `W` op `F`. Waarom ligt deze regressielijn meer voor de hand dan die van `F` op `W`?
    3. Het verband tussen de temperatuur in graden Fahrenheit `F` en die in graden Celsius `C` wordt zoals bekend gegeven door: `F = 1,8C + 32`. Stel nu een vergelijking op van de regressielijn van `W` op `C`.
    4. Is de correlatiecoëfficiënt tussen `W` en `C` anders dan die tussen `W` en `F`? Verklaar je antwoord.
    5. Uit andere experimenten is gebleken dat de werkzaamheid bij een vaste bewaartemperatuur exponentieel afhangt van de lengte van de bewaarperiode. Schat de gemiddelde werkzaamheid van porties die 40 dagen bij een temperatuur van 20°C zijn bewaard.

  2. In 1947 hielden de wiskundigen Freudenthal en Sittig een statistisch onderzoek ten behoeve van een nieuw maatsysteem voor vrouwenkleding in opdracht van het warenhuis De Bijenkorf. Zij lieten daarbij een grote verscheidenheid aan lichaamsmaten opmeten van 5001 vrouwen. In het bestand StatFS-Bijenkorf1947.xls vind je enkele gegevens. Gebruik de werkbladen "mouwlengte en kniehoogte" en "mouwlengte-kniehoogte".
    Op het werkblad "mouwlengte-kniehoogte" zie je een zogenaamde kruistabel waarin de combinaties mouwlengte-kniehoogte zijn weergegeven. De hierbij gevonden correlatiecoëfficiënt is ongeveer 0,6271.
    1. Bereken op het werkblad "mouwlengte-kniehoogte" de standaardafwijkingen van beide statistische variabelen.
    2. Stel nu de vergelijkingen op van de beide bijbehorende regressielijnen met de constanten in twee decimalen nauwkeurig.
    3. Bereken met behulp van deze regressielijnen de gemiddelde kniehoogte van een vrouw met een mouwlengte van 60 cm. Is er sprake van een groot regressie-effect?