HYPOTHESEN TOETSEN EN REGRESSIEANALYSE Overzicht
Correlatie

Uitleg

Daarbij gebruik je het punt `(bar(x),bar(y))` waarin `bar(x)` het gemiddelde van de `x`-waarden en `bar(y)` het gemiddelde van de `y`-waarden is. Met behulp van die gemiddelden kan het grafiekgebied in vier delen I, II, III en IV worden verdeeld (zie figuur). Je kunt nu voor elk van de `N` punten `(x_i, y_i)` het getal `(x_i - x)(y_i - y)` berekenen. In de gebieden I en III is dit getal voor elk punt positief: deze punten dragen bij aan een positieve correlatie. In de gebieden II en IV is dit getal voor elk punt juist negatief: deze punten dragen bij aan een negatieve correlatie. Het gemiddelde van alle `N` getallen `(x_i - x)(y_i - y)` is een goede maat voor de correlatie.
Deze maat heet de covariantie van de puntenwolk: covariantie `= (Sigma_(i=1)^N (x_i - x)(y_i - y))/N`.
Deze maat voor de correlatie in een puntenwolk hangt nog af van de eenheden waarin `x` en `y` zijn gemeten. Dat kun je voorkomen door telkens `(x_i - x)` te delen door de bijbehorende standaarddeviatie `sigma_x` en ook `(y_i - y)` telkens te delen door `sigma_y`. Je krijgt dan de correlatiecoëfficiënt, die niet langer afhangt van de gekozen eenheden:
`r_(xy) = (Sigma_(i=1)^N (x_i - x)(y_i - y))/(N * sigma_x * sigma_y)`.

Inleiding
Uitleg
Theorie
Voorbeeld 1
Opgaven