Regressie

Inleiding

Beantwoord de vragen bij Verkennen.


Uitleg

Opgaven

  1. Bekijk dit spreidingsdiagram.
    1. Maak een tabel van de 10 meetpunten. Voer deze gegevens in je grafische rekenmachine in.
    2. Bereken de coördinaten van het punt `(bar(x),bar(y))`.
    3. Als je door deze punten "op het oog" een regressielijn zou willen tekenen, hoe groot wordt dan de richtingscoëfficiënt ongeveer?
    4. Bereken nu de correlatiecoëfficiënt en de richtingscoëfficiënt.
    5. Stel een vergelijking op van de regressielijn van `y` op `x`.
    6. Welke waarde zou `y` moeten hebben volgens deze regressielijn als `x = 10`?

  2. Lees in de Uitleg na hoe Gauss de methode van de kleinste kwadraten gebruikte om de richtingscoëffici&eum;nt van de regressielijn te berekenen.
    1. Laat zien (door haakjes uitwerken) dat `p = sum_(i=1)^n (g_i - (a * l_i + b))^2` een kwadratische functie van `a` is.
    2. Bereken voor welke waarde van `a` deze functie minimaal is en leidt zo de formule voor `a` zelf af.
    3. Leg ook uit hoe je aan de formule komt waarmee je `a` kunt berekenen vanuit `r_(xy)`.

Theorie

Bekijk eerst de Theorie. In de opgaven wordt je naar de Voorbeelden verwezen.

Opgaven

  1. Bekijk Voorbeeld 1.
    1. Voer de berekening van de regressielijn bij de gevevens van de 4HAVO-klas uit Voorbeeld 1 zelf uit met behulp van de grafische rekenmachine.
    2. Welke betekenis heeft deze regessielijn als je aanneemt dat de groep leerlingen voldoende representatief is voor alle 15-17 jarigen?
    3. Hoe zwaar zou iemand van 16 jaar moeten zijn als hij 180 cm lang is?

  2. Bekijk vervolgens Voorbeeld 2. Je ziet dat er twee regressielijnen kunnen worden gemaakt bij elk verband tussen twee variabelen.
    1. Bereken zelf ook de regressielijn van `l` op `g`.
    2. Bereken bij beide regressielijnen het gewicht dat zou moeten horen bij een 15-17 jarige die precies één standaardafwijking groter is dan de gemiddelde lengte.
    3. Wijkt dit gewicht meer of minder dan één standaardafwijking van het gemiddelde af? Geef voor beide regressielijnen antwoord op deze vraag.

  3. Laat zien dat het product van de twee regressiecoëfficiënten precies het kwadraat van de correlatiecoëfficiënt is.

Verwerken

  1. Kijk nog even naar opgave 1.
    1. Stel een formule op voor de regressielijn van x op y.
    2. Teken zelf het spreidingsdiagram met daarin beide regressielijnen.
    3. Is er sprake van een regressie-effect? Zo ja, laat dit dan met een rekenvoorbeeld zien.

  2. Om te onderzoeken of er enig verband bestaat tussen de lengte van een vader en die van zijn zoon zijn de lengtes van 12 vaders en die van hun oudste zoons gemeten op het moment dat die zoons volwassen werden. De gegevens staan in deze tabel.

    lengte vader `v` in cm173168178170180165185175180178183188
    lengte zoon `z` in cm180175180173183175180173188178180185

    1. Was er sprake van een positieve of een negatieve correlatie? Wat betekent dit in de praktijk?
    2. Stel de regressielijn op van `z` op `v` bij deze gegevens.
    3. Als een bepaalde vader 1,77 m lang is, hoe lang zou dan zijn oudste zoon moeten zijn?
    4. Wat betekent het optredende regressie-effect voor de bepaling van de lengte van een zoon waarvan de vader bijvoorbeeld 2 m lang is?

  3. Biologen veronderstellen op grond van metingen dat er bij vliegende dieren een verband bestaat tussen de lichaamslengte `L` (in cm) en de vliegsnelheid `v` (in cm/s).

    Vliegsnelheid en lichaamslengte bij verschillende dieren


    Soort

    Lengte
    `L` in cm
    Vlieg-
    snelheid
    `v` in cm/s
    1.Drosophila melanogaster (fruitvlieg)  0,2  190
    2.Tabanus affinis (paardenvlieg)  1,3  660
    3.Archilochus colubris (kolibriesoort)  8,11120
    4.Anax sp. (waterjuffer)  8,51000
    5.Eptesicus fuscus (grote bruine vleermuis) 11,0  690
    6.Phylloscopus trochilus (fitis) 11,01200
    7.Apus apus (gierzwaluw) 17,02550
    8.Cypselurus cyanopterus (vliegende vis) 34,01560
    9.Numenius phaeopus (regenwulp) 41,02320
    10.Anas acuta (pijlstaarteend) 56,02280
    11.Olor columbianus bewicki (kleine zwaan)120,01880
    12.Pelecanus onocrotalus (witte pelikaan)160,02280

    1. Bekijk het spreidingsdiagram voor voor `log(L)` en `log(v)` dat je in het vorige onderdeel hebt gemaakt.
    2. Bereken de regressiecoëfficiënt van `log(v)` op `log(L)`.
    3. Er bestaat tussen `L` en `v` dus een verband van de vorm `log(v) = a * log(L) + b`. Laat zien dat dit betekent dat `v` een machtsfunctie is van `L` en stel een formule voor die machtsfunctie op.

  4. Om het verband tussen het gewicht `G` (in pounds) en de braadtijd voor kalkoenen te onderzoeken, werd onder gelijke omstandigheden nagegaan hoeveel minuten `t` het duurde tot het binnenste van een kalkoen de temperatuur van 85°C bereikte. Er werden diverse kalkoenen aan dit onderzoek onderworpen. Ze hadden een gemiddeld gewicht van 15,24 pounds met een standaardafwijking van 6,07. Voor de waarden van `t` vonden de onderzoekers een gemiddelde van 205,4 minuten met een standaardafwijking van 59,1.
    De regressielijn van `t` op `G` had de vergelijking: `t = 9,65G + 58,40`.
    Hoeveel bedroeg de correlatiecoëfficiënt?

  5. In de tabel vind je het aantal inwoners `N` in een bepaalde stad.

    Jaartal19601970198019902000
    Aantal inwoners `N` (%)23.10725.88028.98532.47936.358


    Er wordt aangenomen dat `N` een exponentiële functie is van `t`, de tijd in jaren met `t = 0` in 1960.
    1. Maak het spreidingsdiagram van `log(N)` afhankelijk van `t`.
    2. Bereken de correlatiecoëfficiënt van `log(N)` en `t`.
    3. Voorspel met behulp van de regressielijn van `log(N)` op `t` het aantal inwoners in 2010 en 2020.
    4. Waarom is er vrijwel geen regressie-effect?

Testen

  1. In een Amerikaans laboratorium heeft men proeven genomen waarbij gelet werd op het verband tussen de hoogte van de bewaartemperatuur `F` in graden Fahrenheit en de werkzaamheid `W` van een bepaald geneesmiddel. Bij temperaturen van 30°, 50°, 70° en 90° (Fahrenheit) werden drie porties van gelijk gewicht uit eenzelfde productie 20 dagen bewaard. Na deze periode werd op identieke wijze de werkzaamheid van de porties vastgesteld. De werkzaamheid werd uitgedrukt in percentages van de werkzaamheid zoals die was voor het bewaren.

    Bewaartemperatuur `F` (°F)30507090
    Werkzaamheid `W` (%)39, 42, 3532, 26, 3319, 27, 2314, 19, 21


    1. Verwerk deze gegevens in een spreidingsdiagram en bereken de correlatiecoëfficiënt. Is er sprake van een correlatie tussen `W` en `F`?
    2. Stel de vergelijking op van de regressielijn van `W` op `F`. Waarom ligt deze regressielijn meer voor de hand dan die van `F` op `W`?
    3. Het verband tussen de temperatuur in graden Fahrenheit `F` en die in graden Celsius `C` wordt zoals bekend gegeven door: `F = 1,8C + 32`. Stel nu een vergelijking op van de regressielijn van `W` op `C`.
    4. Is de correlatiecoëfficiënt tussen `W` en `C` anders dan die tussen `W` en `F`? Verklaar je antwoord.
    5. Uit andere experimenten is gebleken dat de werkzaamheid bij een vaste bewaartemperatuur exponentieel afhangt van de lengte van de bewaarperiode. Schat de gemiddelde werkzaamheid van porties die 40 dagen bij een temperatuur van 20°C zijn bewaard.

  2. In 1947 hielden de wiskundigen Freudenthal en Sittig een statistisch onderzoek ten behoeve van een nieuw maatsysteem voor vrouwenkleding in opdracht van het warenhuis De Bijenkorf. Zij lieten daarbij een grote verscheidenheid aan lichaamsmaten opmeten van 5001 vrouwen. In het bestand StatFS-Bijenkorf1947.xls vind je enkele gegevens. Gebruik de werkbladen "mouwlengte en kniehoogte" en "mouwlengte-kniehoogte".
    Op het werkblad "mouwlengte-kniehoogte" zie je een zogenaamde kruistabel waarin de combinaties mouwlengte-kniehoogte zijn weergegeven. De hierbij gevonden correlatiecoëfficiënt is ongeveer 0,6271.
    1. Bereken op het werkblad "mouwlengte-kniehoogte" de standaardafwijkingen van beide statistische variabelen.
    2. Stel nu de vergelijkingen op van de beide bijbehorende regressielijnen met de constanten in twee decimalen nauwkeurig.
    3. Bereken met behulp van deze regressielijnen de gemiddelde kniehoogte van een vrouw met een mouwlengte van 60 cm. Is er sprake van een groot regressie-effect?