Anna Lindgren

(1)

Matematisk statistik 9 hp, HT-16 Föreläsning 14: Enkel linjär regression

Anna Lindgren

21+22 november, 2016

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 1/21

(2)

Repetition Linj¨ar regression Skattningar Modellvalidering Hypotespr¨ovning

Olika metoder f¨or att utf¨ora hypotestest

1. Direktmetoden eller P-v¨arde

I

Antag att H

0

¨ar sann

I

Räkna ut P-värdet p = P(F˚a det vi f˚att eller värre)

I

Om p < α f¨orkastas H

0

2. Konfidensmetoden. G¨or ett konfidensintervall med

konfidensgraden 1 − α och f¨orkasta H ₀ p˚a niv˚an α om intervallet ej t¨acker θ ₀ . Intervallen skall, beroende p˚a H 1 , vara

Test H ₁ : θ < θ 0 H ₁ : θ 6= θ 0 H ₁ : θ > θ 0

Intervall: upp˚at begr tv˚asidigt ned˚at begr 3. Testkvantitet T(X) och kritiskt omr˚ade C F¨orkasta H ₀ om

testskvantiteten hamnar i det kritiska omr˚adet.

C och T skall v¨aljas s˚a att

α = P(T (X) ∈ C) = P(”F¨ orkasta H ₀ om H ₀ ¨ar sann”)

(3)

Enkel linj¨ar regression

Finns det ett linj¨art samband mellan x och y ? Hur ser det i s˚a fall ut?

Omröringshastighet x [rpm]

15 20 25 30 35 40 45

Orenhet y [%]

6 8 10 12 14 16 18 20 22

( x_i, y_i) Orenhet i färg

(4)

Repetition Linj¨ar regression Skattningar Modellvalidering Modell Parameterskattningar R¨akneregler Exempel

Linj¨ar regression

Modell

Vi har n st par av mätvärden (x i , y i ), i = 1, . . . , n där y i är observationer av

Y i = α + βx i + ε i

d¨ar ε i ¨ar oberoende av varandra, och ε i ∈ N (0, σ).

α och β är okända tal, x _i är kända tal. Vi f˚ar d˚a Y i ∈ N (α + βx i , σ) = N (μ i , σ)

Y’s väntevärde ligger p˚a en rät linje, μ(x) = α + β x, där β är linjens

lutning och α dess sk¨arning med y-axeln.

(5)

0 1 2 3 4 5 6 0

2 4 6 8 10 12 14

Observationer Skattad regressionslinje Verklig regressionslinje Fördelning för Yi

(6)

Skattning av parametrarna α ^∗ och β ^∗

Parametrarna kan skattas t.ex. med ML-metoden, dvs det (α, β, σ ² ) som maximerar

L(α, β, σ ² ) =

n

Y

i=1

√ 1

2πσ ² e ⁻

(yi−(α+βxi))2

2σ2

=

1 2πσ ²

n/2

e ⁻

^2σ2¹

P

_n

i=1

(y

_i

−(α+βx

_i

))

²

Parameterskattningarna

ML- och MK-skattningarna av α ^∗ och β ^∗ ¨ar

β ^∗ = P n

i=1 (x i − ¯ x)(y i − ¯ y) P n

i=1 (x _i − ¯ x) ² = S xy

S xx

, α ^∗ = ¯ y − β ^∗ · ¯ x

Skattningarna α ^∗ och β ^∗ ¨ar dock inte oberoende av varandra.

(7)

Skattning av σ ²

F¨or σ ² , dvs variansen f¨or ε i och Y i , blir skattningen (σ ² ) ^∗ = s ² = Q ₀

n − 2 d¨ar Q ₀ =

n

X

i=1

(y i − α ^∗ − β ^∗ x i ) ² = S yy − S ² _xy S xx

Skattningen är korrigerad med −2 för att bli väntevärdesriktig.

Q ₀ kallas residualkvadratsumma, eftersom den är kvadratsumman av residualerna, som är avst˚anden fr˚an y i -värdet till den skattade linjen,

e i = y i − α ^∗ − β ^∗ x i .

(8)

R¨akna ut kvadratsummorna

För att räkna ut kvadratsummorna S xx , S yy och S xy kan man ha användning av sambanden

S xx =

n

X

i=1

(x i − ¯ x) ² = X ⁿ

i=1

x _i ²

− n¯ x ²

S yy =

n

X

i=1

(y i − ¯ y) ² =

X ⁿ

i=1

y _i ²

− n¯ y ²

S xy =

n

X

i=1

(x _i − ¯ x)(y _i − ¯ y) = X ⁿ

i=1

x _i y _i

− n¯ x¯ y

(9)

Exempel: Orenhet i f¨arg

i : 1 2 3 4 5 6 7 8 9 10 11 12

x

_i

: 20 22 24 26 28 30 32 34 36 38 40 42

y

_i

: 8.4 9.5 11.8 10.4 13.3 14.8 13.2 14.7 16.4 16.5 18.9 18.5

15 20 25 30 35 40 45

Orenhet y [%]

6 8 10 12 14 16 18 20 22

e_i = y_i - 7_i^$ Skattad linje

(10)

Repetition Linj¨ar regression Skattningar Modellvalidering Egenskaper Intervall Prediktionsintervall Kalibreringsintervall

Skattningarnas f¨ordelning

Eftersom

α ^∗ = ¯ Y − β ^∗ · ¯ x β ^∗ = S xy

S xx

= P n

i=1 (x _i − ¯ x)(Y _i − ¯ Y) P n

i=1 (x i − ¯ x) ² b˚ada är linjära funktioner av Y _i (men inte av talen x i ), som är normalfördelade, m˚aste även α ^∗ och β ^∗ vara normalfördelade.

Skattningarnas f¨ordelning F¨ordelningarna blir

α ^∗ ∈ N



α, σ s

1 n + ¯ x ²

S xx



 β ^∗ ∈ N

β , σ

√ S xx

Men de ¨ar inte oberoende av varandra.

(11)

Skattningarnas f¨ordelning (forts)

Men man kan visa att β ^∗ och Y ¯ ¨ar oberoende av varandra. Kovariansen mellan α ^∗ och β ^∗ blir

C(α ^∗ , β ^∗ ) = C( ¯ Y − β ^∗ · ¯ x, β ^∗ ) = C( ¯ Y, β ^∗ ) − ¯ x · C(β ^∗ , β ^∗ ) =

= 0 − ¯ x · V(β ^∗ ) = −¯ x · σ ² S xx

.

Vi ser att kovariansen ¨ar negativ d˚a ¯ x > 0 och positiv d˚a ¯ x < 0.

F¨or Q ₀ g¨aller dessutom Q ₀

σ ² ∈ χ ² (n − 2) (2 ¨ar fortfarande antalet skattade parametrar i Q ₀ )

(12)

Intervallskattningar

Skattningarna av α ^∗ och β ^∗ ¨ar b˚ada p˚a formen θ ^∗ ∈ N (θ, D(θ ^∗ ))

d¨ar D(θ ^∗ ) inneh˚aller ett σ som skattas med ett s med f = n − 2 frihetsgradet. S˚a vi f˚ar konfidensintervall med konfidensgrad 1 − a (a eftersom α ¨ar upptagen) som vanligt:

I β = β ^∗ ± t a/2 (f ) · d(β ^∗ ) = β ^∗ ± t a/2 (n − 2) · s

√ S xx

I α = α ^∗ ± t _a/2 (f ) · d(α ^∗ ) = α ^∗ ± t _a/2 (n − 2) · s s

1 n + ¯ x ²

S xx

(13)

Konfidensintervall f¨or linjen

Hur stor är medelorenheten när omröringshastigheten är 32 rpm?

15 20 25 30 35 40 45

Orenhet y [%]

6 8 10 12 14 16 18 20 22

Konfidensintervall för linjen

(14)

Konfidensintervall f¨or μ 0 (eller f¨or linjen)

För ett givet x-värde, x = x ₀ , kan vi skatta Y-s väntevärde med μ ^∗ ₀ = α ^∗ + β ^∗ · x ₀ dvs en punkt p˚a den skattade linjen.

V(μ ^∗ ₀ ) = V(α ^∗ + β ^∗ · x ₀ ) = [α ^∗ = ¯ Y − β ^∗ · ¯ x] = V ¯ Y + β ^∗ · (x ₀ − ¯ x) =

= [β ^∗ , ¯ Y ober.] = V( ¯ Y) + (x ₀ − ¯ x) ² · V(β ^∗ ) =

= σ ²

n + (x ₀ − ¯ x) ² · σ ² S xx

=⇒

μ ^∗ ₀ ∈ N



μ ₀ , σ s

1 n + (x 0 − ¯ x) ² S xx



 .

Vi f˚ar s˚aledes direkt ett konfidensintervall f¨or μ ₀ som

I μ

₀

= μ ^∗ ₀ ± t a/2 (f ) · d(μ ^∗ ₀ ) = μ ^∗ ₀ ± t a/2 (n − 2) · s s

1 n + (x ₀ − ¯ x) ² S xx

.

(15)

Prediktionsintervall f¨or observationerna

Hur stor är kan orenheten bli när omröringshastigheten är 32 rpm?

15 20 25 30 35 40 45

Orenhet y [%]

6 8 10 12 14 16 18 20 22

Prediktionsintervall för observationer

(16)

Prediktionsintervall

Intervallet ovan gäller väntevärdet för Y d˚a x = x ₀ . Om man vill uttala sig om en framtida observation av Y för x = x ₀ blir ovanst˚aende intervall för smalt.

Vi kan f˚a ett prediktionsintervall f¨or en framtida observation f¨or ett givet x ₀

Y(x ₀ ) = α ^∗ + β ^∗ · x ₀ + ε 0 = μ ^∗ ₀ + ε 0 ,

E(Y(x ₀ )) = μ 0 + 0, V(Y(x ₀ )) = V(μ ^∗ ₀ ) + V(ε 0 ) Prediktionsintervallet blir

I _Y(x

₀

₎ = μ ^∗ ₀ ± t _a/2 (n − 2) · s s

1 + 1

n + (x ₀ − ¯ x) ² S xx

Observera att det bara ¨ar ettan i kvadratroten som skiljer mellan

prediktionsintervallet och konfidensintervall I μ

₀

.

(17)

Kalibreringsintervall

Hur stor ¨ar kan omr¨oringshastigheten ha varit om orenheten blev 14 %?

15 20 25 30 35 40 45

Orenhet y [%]

6 8 10 12 14 16 18 20 22

Kalibreringsintervall för x

(18)

Kalibreringsintervall

Om man observerat ett v¨arde y ₀ av y, vad var d˚a x ₀ ? Man l¨oser ut x ₀ ur y ₀ = α ^∗ + β ^∗ ˙x ₀ och f˚ar

x ₀ ^∗ = y ₀ − α ^∗ β ^∗

Denna skattning är inte normalfördelad, men vi kan t.ex. använda Gauss approximationsformler för att f˚a fram ett approximativt värde p˚a D(x ^∗ ₀ ).

Kalibreringsintervallet blir

I x

₀

= x ^∗ ₀ ± t _a/2 (n − 2) · s

|β ^∗ | s

1 + 1

n + (y ₀ − ¯ y) ² (β ^∗ ) ² S xx

.

(19)

Modellvalidering

I modellen antar vi att variationen kring linjen ¨ar

ε i ∈ N (0, σ) , oberoende av varandra

Eftersom skattningarnas fördelning och konfidensintervall etc. baseras p˚a normal-antagandet är det viktigt att undersöka om antagandet är rimligt.

Vi kan studera residualerna, dvs avvikelserna mellan observerade y-v¨arden och den skattade linjen.

e _i = y _i − α ^∗ − β ^∗ · x _i , i = 1, . . . , n Dessa ¨ar observationer av ε i , och residualerna b¨or allts˚a:

I se ut att komma fr˚an en och samma normalf¨ordelning

I vara oberoende av varandra

I vara oberoende av alla x i .

(20)

Repetition Linj¨ar regression Skattningar Modellvalidering Residualplottar

Residualplottar

Ser residualerna ut som de borde?

20 30 40

ei = yi - 7i$

-2 -1 0 1

2 Residualer mot x

Predikterad orenhet 7^$ [%]

5 10 15 20

ei = yi - yi$

-2 -1 0 1

2 Residualer mot 7^$

residualer

-1 -0.5 0 0.5 1

Probability

0.05 0.10 0.25 0.50 0.75 0.90 0.95

Normal Probability Plot

(21)

Mindre bra residualplottar

0 10 20 30

−50 0 50 100

1:n

e

Residualer, kvadratisk trend

0 10 20 30

−200

−100 0 100 200 300

x

e

Residualer mot x, variansen ökar med x

Anna Lindgren

Matematisk statistik 9 hp, HT-16 Föreläsning 14: Enkel linjär regression

Anna Lindgren

21+22 november, 2016

Olika metoder f¨or att utf¨ora hypotestest

1. Direktmetoden eller P-v¨arde

Antag att H

¨ar sann

Räkna ut P-värdet p = P(F˚a det vi f˚att eller värre)

Om p < α f¨orkastas H

2. Konfidensmetoden. G¨or ett konfidensintervall med

konfidensgraden 1 − α och f¨orkasta H 0 p˚a niv˚an α om intervallet ej t¨acker θ 0 . Intervallen skall, beroende p˚a H 1 , vara

Test H 1 : θ < θ 0 H 1 : θ 6= θ 0 H 1 : θ > θ 0

Intervall: upp˚at begr tv˚asidigt ned˚at begr 3. Testkvantitet T(X) och kritiskt omr˚ade C F¨orkasta H 0 om

testskvantiteten hamnar i det kritiska omr˚adet.

C och T skall v¨aljas s˚a att

α = P(T (X) ∈ C) = P(”F¨ orkasta H 0 om H 0 ¨ar sann”)

Enkel linj¨ar regression

Finns det ett linj¨art samband mellan x och y ? Hur ser det i s˚a fall ut?

Linj¨ar regression

Modell

Vi har n st par av mätvärden (x i , y i ), i = 1, . . . , n där y i är observationer av

Y i = α + βx i + ε i

d¨ar ε i ¨ar oberoende av varandra, och ε i ∈ N (0, σ).

α och β är okända tal, x i är kända tal. Vi f˚ar d˚a Y i ∈ N (α + βx i , σ) = N (μ i , σ)

Y’s väntevärde ligger p˚a en rät linje, μ(x) = α + β x, där β är linjens

lutning och α dess sk¨arning med y-axeln.

Skattning av parametrarna α ∗ och β ∗

Parametrarna kan skattas t.ex. med ML-metoden, dvs det (α, β, σ 2 ) som maximerar

L(α, β, σ 2 ) =

n

Y

i=1

√ 1

2πσ 2 e −

=

=

 1 2πσ 2

 n/2

e −

P

(y

−(α+βx

))

Parameterskattningarna

ML- och MK-skattningarna av α ∗ och β ∗ ¨ar

β ∗ = P n

i=1 (x i − ¯ x)(y i − ¯ y) P n

i=1 (x i − ¯ x) 2 = S xy

S xx

, α ∗ = ¯ y − β ∗ · ¯ x

Skattningarna α ∗ och β ∗ ¨ar dock inte oberoende av varandra.

Skattning av σ 2

F¨or σ 2 , dvs variansen f¨or ε i och Y i , blir skattningen (σ 2 ) ∗ = s 2 = Q 0

n − 2 d¨ar Q 0 =

n

X

i=1

(y i − α ∗ − β ∗ x i ) 2 = S yy − S 2 xy S xx

Skattningen är korrigerad med −2 för att bli väntevärdesriktig.

Q 0 kallas residualkvadratsumma, eftersom den är kvadratsumman av residualerna, som är avst˚anden fr˚an y i -värdet till den skattade linjen,

e i = y i − α ∗ − β ∗ x i .

R¨akna ut kvadratsummorna

För att räkna ut kvadratsummorna S xx , S yy och S xy kan man ha användning av sambanden

S xx =

n

X

i=1

(x i − ¯ x) 2 =  X n

i=1

x i 2 

− n¯ x 2

S yy =

n

X

i=1

(y i − ¯ y) 2 =

 X n

i=1

y i 2 

konfidensgraden 1 − α och f¨orkasta H ₀ p˚a niv˚an α om intervallet ej t¨acker θ ₀ . Intervallen skall, beroende p˚a H 1 , vara

Test H ₁ : θ < θ 0 H ₁ : θ 6= θ 0 H ₁ : θ > θ 0

Intervall: upp˚at begr tv˚asidigt ned˚at begr 3. Testkvantitet T(X) och kritiskt omr˚ade C F¨orkasta H ₀ om

α = P(T (X) ∈ C) = P(”F¨ orkasta H ₀ om H ₀ ¨ar sann”)

α och β är okända tal, x _i är kända tal. Vi f˚ar d˚a Y i ∈ N (α + βx i , σ) = N (μ i , σ)

Skattning av parametrarna α ^∗ och β ^∗

Parametrarna kan skattas t.ex. med ML-metoden, dvs det (α, β, σ ² ) som maximerar

L(α, β, σ ² ) =

2πσ ² e ⁻

1 2πσ ²

n/2

e ⁻

ML- och MK-skattningarna av α ^∗ och β ^∗ ¨ar

β ^∗ = P n

i=1 (x _i − ¯ x) ² = S xy

, α ^∗ = ¯ y − β ^∗ · ¯ x

Skattningarna α ^∗ och β ^∗ ¨ar dock inte oberoende av varandra.

Skattning av σ ²

F¨or σ ² , dvs variansen f¨or ε i och Y i , blir skattningen (σ ² ) ^∗ = s ² = Q ₀

n − 2 d¨ar Q ₀ =

(y i − α ^∗ − β ^∗ x i ) ² = S yy − S ² _xy S xx

Q ₀ kallas residualkvadratsumma, eftersom den är kvadratsumman av residualerna, som är avst˚anden fr˚an y i -värdet till den skattade linjen,

e i = y i − α ^∗ − β ^∗ x i .

(x i − ¯ x) ² = X ⁿ

x _i ²

− n¯ x ²

(y i − ¯ y) ² =

X ⁿ

y _i ²

− n¯ y ²

(x _i − ¯ x)(y _i − ¯ y) = X ⁿ

x _i y _i

α ^∗ = ¯ Y − β ^∗ · ¯ x β ^∗ = S xy

i=1 (x _i − ¯ x)(Y _i − ¯ Y) P n

i=1 (x i − ¯ x) ² b˚ada är linjära funktioner av Y _i (men inte av talen x i ), som är normalfördelade, m˚aste även α ^∗ och β ^∗ vara normalfördelade.

α ^∗ ∈ N

1 n + ¯ x ²

 β ^∗ ∈ N

β , σ

Men man kan visa att β ^∗ och Y ¯ ¨ar oberoende av varandra. Kovariansen mellan α ^∗ och β ^∗ blir

C(α ^∗ , β ^∗ ) = C( ¯ Y − β ^∗ · ¯ x, β ^∗ ) = C( ¯ Y, β ^∗ ) − ¯ x · C(β ^∗ , β ^∗ ) =

= 0 − ¯ x · V(β ^∗ ) = −¯ x · σ ² S xx

F¨or Q ₀ g¨aller dessutom Q ₀

σ ² ∈ χ ² (n − 2) (2 ¨ar fortfarande antalet skattade parametrar i Q ₀ )

Skattningarna av α ^∗ och β ^∗ ¨ar b˚ada p˚a formen θ ^∗ ∈ N (θ, D(θ ^∗ ))

d¨ar D(θ ^∗ ) inneh˚aller ett σ som skattas med ett s med f = n − 2 frihetsgradet. S˚a vi f˚ar konfidensintervall med konfidensgrad 1 − a (a eftersom α ¨ar upptagen) som vanligt:

I β = β ^∗ ± t a/2 (f ) · d(β ^∗ ) = β ^∗ ± t a/2 (n − 2) · s

I α = α ^∗ ± t _a/2 (f ) · d(α ^∗ ) = α ^∗ ± t _a/2 (n − 2) · s s

1 n + ¯ x ²

För ett givet x-värde, x = x ₀ , kan vi skatta Y-s väntevärde med μ ^∗ ₀ = α ^∗ + β ^∗ · x ₀ dvs en punkt p˚a den skattade linjen.

V(μ ^∗ ₀ ) = V(α ^∗ + β ^∗ · x ₀ ) = [α ^∗ = ¯ Y − β ^∗ · ¯ x] = V ¯ Y + β ^∗ · (x ₀ − ¯ x) =

= [β ^∗ , ¯ Y ober.] = V( ¯ Y) + (x ₀ − ¯ x) ² · V(β ^∗ ) =

= σ ²

n + (x ₀ − ¯ x) ² · σ ² S xx

μ ^∗ ₀ ∈ N

μ ₀ , σ s

n + (x 0 − ¯ x) ² S xx

Vi f˚ar s˚aledes direkt ett konfidensintervall f¨or μ ₀ som

= μ ^∗ ₀ ± t a/2 (f ) · d(μ ^∗ ₀ ) = μ ^∗ ₀ ± t a/2 (n − 2) · s s