Matematisk statistik 9 hp, HT-16 F¨orel¨asning 14: Enkel linj¨ar regression
Anna Lindgren
21+22 november, 2016
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 1/21
Repetition Linj¨ar regression Skattningar Modellvalidering Hypotespr¨ovning
Olika metoder f¨or att utf¨ora hypotestest
1. Direktmetoden eller P-v¨arde
I
Antag att H
0¨ar sann
I
R¨akna ut P-v¨ardet p = P(F˚a det vi f˚att eller v¨arre)
I
Om p < α f¨orkastas H
02. Konfidensmetoden. G¨or ett konfidensintervall med
konfidensgraden 1 − α och f¨orkasta H 0 p˚a niv˚an α om intervallet ej t¨acker θ 0 . Intervallen skall, beroende p˚a H 1 , vara
Test H 1 : θ < θ 0 H 1 : θ 6= θ 0 H 1 : θ > θ 0
Intervall: upp˚at begr tv˚asidigt ned˚at begr 3. Testkvantitet T(X) och kritiskt omr˚ade C F¨orkasta H 0 om
testskvantiteten hamnar i det kritiska omr˚adet.
C och T skall v¨aljas s˚a att
α = P(T (X) ∈ C) = P(”F¨ orkasta H 0 om H 0 ¨ar sann”)
Enkel linj¨ar regression
Finns det ett linj¨art samband mellan x och y ? Hur ser det i s˚a fall ut?
Omröringshastighet x [rpm]
15 20 25 30 35 40 45
Orenhet y [%]
6 8 10 12 14 16 18 20 22
( xi, yi) Orenhet i färg
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 3/21
Repetition Linj¨ar regression Skattningar Modellvalidering Modell Parameterskattningar R¨akneregler Exempel
Linj¨ar regression
Modell
Vi har n st par av m¨atv¨arden (x i , y i ), i = 1, . . . , n d¨ar y i ¨ar observationer av
Y i = α + βx i + ε i
d¨ar ε i ¨ar oberoende av varandra, och ε i ∈ N (0, σ).
α och β ¨ar ok¨anda tal, x i ¨ar k¨anda tal. Vi f˚ar d˚a Y i ∈ N (α + βx i , σ) = N (μ i , σ)
Y’s v¨antev¨arde ligger p˚a en r¨at linje, μ(x) = α + β x, d¨ar β ¨ar linjens
lutning och α dess sk¨arning med y-axeln.
0 1 2 3 4 5 6 0
2 4 6 8 10 12 14
Observationer Skattad regressionslinje Verklig regressionslinje Fördelning för Yi
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 5/21
Repetition Linj¨ar regression Skattningar Modellvalidering Modell Parameterskattningar R¨akneregler Exempel
Skattning av parametrarna α ∗ och β ∗
Parametrarna kan skattas t.ex. med ML-metoden, dvs det (α, β, σ 2 ) som maximerar
L(α, β, σ 2 ) =
n
Y
i=1
√ 1
2πσ 2 e −
(yi−(α+βxi))2
2σ2
=
=
1 2πσ 2
n/2
e −
2σ21P
ni=1
(y
i−(α+βx
i))
2Parameterskattningarna
ML- och MK-skattningarna av α ∗ och β ∗ ¨ar
β ∗ = P n
i=1 (x i − ¯ x)(y i − ¯ y) P n
i=1 (x i − ¯ x) 2 = S xy
S xx
, α ∗ = ¯ y − β ∗ · ¯ x
Skattningarna α ∗ och β ∗ ¨ar dock inte oberoende av varandra.
Skattning av σ 2
F¨or σ 2 , dvs variansen f¨or ε i och Y i , blir skattningen (σ 2 ) ∗ = s 2 = Q 0
n − 2 d¨ar Q 0 =
n
X
i=1
(y i − α ∗ − β ∗ x i ) 2 = S yy − S 2 xy S xx
Skattningen ¨ar korrigerad med −2 f¨or att bli v¨antev¨ardesriktig.
Q 0 kallas residualkvadratsumma, eftersom den ¨ar kvadratsumman av residualerna, som ¨ar avst˚anden fr˚an y i -v¨ardet till den skattade linjen,
e i = y i − α ∗ − β ∗ x i .
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 7/21
Repetition Linj¨ar regression Skattningar Modellvalidering Modell Parameterskattningar R¨akneregler Exempel
R¨akna ut kvadratsummorna
F¨or att r¨akna ut kvadratsummorna S xx , S yy och S xy kan man ha anv¨andning av sambanden
S xx =
n
X
i=1
(x i − ¯ x) 2 = X n
i=1
x i 2
− n¯ x 2
S yy =
n
X
i=1
(y i − ¯ y) 2 =
X n
i=1
y i 2
− n¯ y 2
S xy =
n
X
i=1
(x i − ¯ x)(y i − ¯ y) = X n
i=1
x i y i
− n¯ x¯ y
Exempel: Orenhet i f¨arg
i : 1 2 3 4 5 6 7 8 9 10 11 12
x
i: 20 22 24 26 28 30 32 34 36 38 40 42
y
i: 8.4 9.5 11.8 10.4 13.3 14.8 13.2 14.7 16.4 16.5 18.9 18.5
Omröringshastighet x [rpm]
15 20 25 30 35 40 45
Orenhet y [%]
6 8 10 12 14 16 18 20 22
ei = yi - 7i$ Skattad linje
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 9/21
Repetition Linj¨ar regression Skattningar Modellvalidering Egenskaper Intervall Prediktionsintervall Kalibreringsintervall
Skattningarnas f¨ordelning
Eftersom
α ∗ = ¯ Y − β ∗ · ¯ x β ∗ = S xy
S xx
= P n
i=1 (x i − ¯ x)(Y i − ¯ Y) P n
i=1 (x i − ¯ x) 2 b˚ada ¨ar linj¨ara funktioner av Y i (men inte av talen x i ), som ¨ar normalf¨ordelade, m˚aste ¨aven α ∗ och β ∗ vara normalf¨ordelade.
Skattningarnas f¨ordelning F¨ordelningarna blir
α ∗ ∈ N
α, σ s
1 n + ¯ x 2
S xx
β ∗ ∈ N
β , σ
√ S xx
Men de ¨ar inte oberoende av varandra.
Skattningarnas f¨ordelning (forts)
Men man kan visa att β ∗ och Y ¯ ¨ar oberoende av varandra. Kovariansen mellan α ∗ och β ∗ blir
C(α ∗ , β ∗ ) = C( ¯ Y − β ∗ · ¯ x, β ∗ ) = C( ¯ Y, β ∗ ) − ¯ x · C(β ∗ , β ∗ ) =
= 0 − ¯ x · V(β ∗ ) = −¯ x · σ 2 S xx
.
Vi ser att kovariansen ¨ar negativ d˚a ¯ x > 0 och positiv d˚a ¯ x < 0.
F¨or Q 0 g¨aller dessutom Q 0
σ 2 ∈ χ 2 (n − 2) (2 ¨ar fortfarande antalet skattade parametrar i Q 0 )
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 11/21
Repetition Linj¨ar regression Skattningar Modellvalidering Egenskaper Intervall Prediktionsintervall Kalibreringsintervall
Intervallskattningar
Skattningarna av α ∗ och β ∗ ¨ar b˚ada p˚a formen θ ∗ ∈ N (θ, D(θ ∗ ))
d¨ar D(θ ∗ ) inneh˚aller ett σ som skattas med ett s med f = n − 2 frihetsgradet. S˚a vi f˚ar konfidensintervall med konfidensgrad 1 − a (a eftersom α ¨ar upptagen) som vanligt:
I β = β ∗ ± t a/2 (f ) · d(β ∗ ) = β ∗ ± t a/2 (n − 2) · s
√ S xx
I α = α ∗ ± t a/2 (f ) · d(α ∗ ) = α ∗ ± t a/2 (n − 2) · s s
1 n + ¯ x 2
S xx
Konfidensintervall f¨or linjen
Hur stor ¨ar medelorenheten n¨ar omr¨oringshastigheten ¨ar 32 rpm?
Omröringshastighet x [rpm]
15 20 25 30 35 40 45
Orenhet y [%]
6 8 10 12 14 16 18 20 22
Konfidensintervall för linjen
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 13/21
Repetition Linj¨ar regression Skattningar Modellvalidering Egenskaper Intervall Prediktionsintervall Kalibreringsintervall
Konfidensintervall f¨or μ 0 (eller f¨or linjen)
F¨or ett givet x-v¨arde, x = x 0 , kan vi skatta Y-s v¨antev¨arde med μ ∗ 0 = α ∗ + β ∗ · x 0 dvs en punkt p˚a den skattade linjen.
V(μ ∗ 0 ) = V(α ∗ + β ∗ · x 0 ) = [α ∗ = ¯ Y − β ∗ · ¯ x] = V ¯ Y + β ∗ · (x 0 − ¯ x) =
= [β ∗ , ¯ Y ober.] = V( ¯ Y) + (x 0 − ¯ x) 2 · V(β ∗ ) =
= σ 2
n + (x 0 − ¯ x) 2 · σ 2 S xx
=⇒
μ ∗ 0 ∈ N
μ 0 , σ s
1
n + (x 0 − ¯ x) 2 S xx
.
Vi f˚ar s˚aledes direkt ett konfidensintervall f¨or μ 0 som
I μ
0= μ ∗ 0 ± t a/2 (f ) · d(μ ∗ 0 ) = μ ∗ 0 ± t a/2 (n − 2) · s s
1
n + (x 0 − ¯ x) 2 S xx
.
Prediktionsintervall f¨or observationerna
Hur stor ¨ar kan orenheten bli n¨ar omr¨oringshastigheten ¨ar 32 rpm?
Omröringshastighet x [rpm]
15 20 25 30 35 40 45
Orenhet y [%]
6 8 10 12 14 16 18 20 22
Prediktionsintervall för observationer
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 15/21
Repetition Linj¨ar regression Skattningar Modellvalidering Egenskaper Intervall Prediktionsintervall Kalibreringsintervall
Prediktionsintervall
Intervallet ovan g¨aller v¨antev¨ardet f¨or Y d˚a x = x 0 . Om man vill uttala sig om en framtida observation av Y f¨or x = x 0 blir ovanst˚aende intervall f¨or smalt.
Vi kan f˚a ett prediktionsintervall f¨or en framtida observation f¨or ett givet x 0
Y(x 0 ) = α ∗ + β ∗ · x 0 + ε 0 = μ ∗ 0 + ε 0 ,
E(Y(x 0 )) = μ 0 + 0, V(Y(x 0 )) = V(μ ∗ 0 ) + V(ε 0 ) Prediktionsintervallet blir
I Y(x
0) = μ ∗ 0 ± t a/2 (n − 2) · s s
1 + 1
n + (x 0 − ¯ x) 2 S xx
Observera att det bara ¨ar ettan i kvadratroten som skiljer mellan
prediktionsintervallet och konfidensintervall I μ
0.
Kalibreringsintervall
Hur stor ¨ar kan omr¨oringshastigheten ha varit om orenheten blev 14 %?
Omröringshastighet x [rpm]
15 20 25 30 35 40 45
Orenhet y [%]
6 8 10 12 14 16 18 20 22
Kalibreringsintervall för x
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 17/21
Repetition Linj¨ar regression Skattningar Modellvalidering Egenskaper Intervall Prediktionsintervall Kalibreringsintervall
Kalibreringsintervall
Om man observerat ett v¨arde y 0 av y, vad var d˚a x 0 ? Man l¨oser ut x 0 ur y 0 = α ∗ + β ∗ ˙x 0 och f˚ar
x 0 ∗ = y 0 − α ∗ β ∗
Denna skattning ¨ar inte normalf¨ordelad, men vi kan t.ex. anv¨anda Gauss approximationsformler f¨or att f˚a fram ett approximativt v¨arde p˚a D(x ∗ 0 ).
Kalibreringsintervallet blir
I x
0= x ∗ 0 ± t a/2 (n − 2) · s
|β ∗ | s
1 + 1
n + (y 0 − ¯ y) 2 (β ∗ ) 2 S xx
.
Modellvalidering
I modellen antar vi att variationen kring linjen ¨ar
ε i ∈ N (0, σ) , oberoende av varandra
Eftersom skattningarnas f¨ordelning och konfidensintervall etc. baseras p˚a normal-antagandet ¨ar det viktigt att unders¨oka om antagandet ¨ar rimligt.
Vi kan studera residualerna, dvs avvikelserna mellan observerade y-v¨arden och den skattade linjen.
e i = y i − α ∗ − β ∗ · x i , i = 1, . . . , n Dessa ¨ar observationer av ε i , och residualerna b¨or allts˚a:
I se ut att komma fr˚an en och samma normalf¨ordelning
I vara oberoende av varandra
I vara oberoende av alla x i .
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 19/21
Repetition Linj¨ar regression Skattningar Modellvalidering Residualplottar
Residualplottar
Ser residualerna ut som de borde?
Omröringshastighet x [rpm]
20 30 40
ei = yi - 7i$
-2 -1 0 1
2 Residualer mot x
Predikterad orenhet 7$ [%]
5 10 15 20
ei = yi - yi$
-2 -1 0 1
2 Residualer mot 7$
residualer
-1 -0.5 0 0.5 1
Probability
0.05 0.10 0.25 0.50 0.75 0.90 0.95
Normal Probability Plot
Mindre bra residualplottar
0 10 20 30
−50 0 50 100
1:n
e
Residualer, kvadratisk trend
0 10 20 30
−200
−100 0 100 200 300
x
e
Residualer mot x, variansen ökar med x
I en modellvalidering b¨or man ¨aven testa H 0 : β = 0 H 1 : β 6= 0 T.ex. genom att f¨orkasta H 0 om
I punkten 0 ej t¨acks av I β , eller
I |T| > t p/2 (n − 2) d¨ar T = (β ∗ − 0)/d(β ∗ ).
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 21/21