• No results found

Anna Lindgren

N/A
N/A
Protected

Academic year: 2021

Share "Anna Lindgren"

Copied!
21
0
0

Loading.... (view fulltext now)

Full text

(1)

Matematisk statistik 9 hp, HT-16 F¨orel¨asning 14: Enkel linj¨ar regression

Anna Lindgren

21+22 november, 2016

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 1/21

(2)

Repetition Linj¨ar regression Skattningar Modellvalidering Hypotespr¨ovning

Olika metoder f¨or att utf¨ora hypotestest

1. Direktmetoden eller P-v¨arde

I

Antag att H

0

¨ar sann

I

R¨akna ut P-v¨ardet p = P(F˚a det vi f˚att eller v¨arre)

I

Om p < α f¨orkastas H

0

2. Konfidensmetoden. G¨or ett konfidensintervall med

konfidensgraden 1 − α och f¨orkasta H 0 p˚a niv˚an α om intervallet ej t¨acker θ 0 . Intervallen skall, beroende p˚a H 1 , vara

Test H 1 : θ < θ 0 H 1 : θ 6= θ 0 H 1 : θ > θ 0

Intervall: upp˚at begr tv˚asidigt ned˚at begr 3. Testkvantitet T(X) och kritiskt omr˚ade C F¨orkasta H 0 om

testskvantiteten hamnar i det kritiska omr˚adet.

C och T skall v¨aljas s˚a att

α = P(T (X) ∈ C) = P(”F¨ orkasta H 0 om H 0 ¨ar sann”)

(3)

Enkel linj¨ar regression

Finns det ett linj¨art samband mellan x och y ? Hur ser det i s˚a fall ut?

Omröringshastighet x [rpm]

15 20 25 30 35 40 45

Orenhet y [%]

6 8 10 12 14 16 18 20 22

( xi, yi) Orenhet i färg

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 3/21

(4)

Repetition Linj¨ar regression Skattningar Modellvalidering Modell Parameterskattningar R¨akneregler Exempel

Linj¨ar regression

Modell

Vi har n st par av m¨atv¨arden (x i , y i ), i = 1, . . . , n d¨ar y i ¨ar observationer av

Y i = α + βx i + ε i

d¨ar ε i ¨ar oberoende av varandra, och ε i ∈ N (0, σ).

α och β ¨ar ok¨anda tal, x i ¨ar k¨anda tal. Vi f˚ar d˚a Y iN (α + βx i , σ) = N (μ i , σ)

Y’s v¨antev¨arde ligger p˚a en r¨at linje, μ(x) = α + β x, d¨ar β ¨ar linjens

lutning och α dess sk¨arning med y-axeln.

(5)

0 1 2 3 4 5 6 0

2 4 6 8 10 12 14

Observationer Skattad regressionslinje Verklig regressionslinje Fördelning för Yi

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 5/21

(6)

Repetition Linj¨ar regression Skattningar Modellvalidering Modell Parameterskattningar R¨akneregler Exempel

Skattning av parametrarna α och β

Parametrarna kan skattas t.ex. med ML-metoden, dvs det (α, β, σ 2 ) som maximerar

L(α, β, σ 2 ) =

n

Y

i=1

√ 1

2πσ 2 e

(yi−(α+βxi))2

2σ2

=

=

 1 2πσ 2

 n/2

e

2σ21

P

n

i=1

(y

i

−(α+βx

i

))

2

Parameterskattningarna

ML- och MK-skattningarna av α och β ¨ar

β = P n

i=1 (x i − ¯ x)(y i − ¯ y) P n

i=1 (x i − ¯ x) 2 = S xy

S xx

, α = ¯ y − β · ¯ x

Skattningarna α och β ¨ar dock inte oberoende av varandra.

(7)

Skattning av σ 2

F¨or σ 2 , dvs variansen f¨or ε i och Y i , blir skattningen (σ 2 ) = s 2 = Q 0

n − 2 d¨ar Q 0 =

n

X

i=1

(y i − α − β x i ) 2 = S yyS 2 xy S xx

Skattningen ¨ar korrigerad med −2 f¨or att bli v¨antev¨ardesriktig.

Q 0 kallas residualkvadratsumma, eftersom den ¨ar kvadratsumman av residualerna, som ¨ar avst˚anden fr˚an y i -v¨ardet till den skattade linjen,

e i = y i − α − β x i .

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 7/21

(8)

Repetition Linj¨ar regression Skattningar Modellvalidering Modell Parameterskattningar R¨akneregler Exempel

R¨akna ut kvadratsummorna

F¨or att r¨akna ut kvadratsummorna S xx , S yy och S xy kan man ha anv¨andning av sambanden

S xx =

n

X

i=1

(x i − ¯ x) 2 =  X n

i=1

x i 2 

− n¯ x 2

S yy =

n

X

i=1

(y i − ¯ y) 2 =

 X n

i=1

y i 2 

− n¯ y 2

S xy =

n

X

i=1

(x i − ¯ x)(y i − ¯ y) =  X n

i=1

x i y i 

− n¯ y

(9)

Exempel: Orenhet i f¨arg

i : 1 2 3 4 5 6 7 8 9 10 11 12

x

i

: 20 22 24 26 28 30 32 34 36 38 40 42

y

i

: 8.4 9.5 11.8 10.4 13.3 14.8 13.2 14.7 16.4 16.5 18.9 18.5

Omröringshastighet x [rpm]

15 20 25 30 35 40 45

Orenhet y [%]

6 8 10 12 14 16 18 20 22

ei = yi - 7i$ Skattad linje

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 9/21

(10)

Repetition Linj¨ar regression Skattningar Modellvalidering Egenskaper Intervall Prediktionsintervall Kalibreringsintervall

Skattningarnas f¨ordelning

Eftersom

α = ¯ Y − β · ¯ x β = S xy

S xx

= P n

i=1 (x i − ¯ x)(Y i − ¯ Y) P n

i=1 (x i − ¯ x) 2 b˚ada ¨ar linj¨ara funktioner av Y i (men inte av talen x i ), som ¨ar normalf¨ordelade, m˚aste ¨aven α och β vara normalf¨ordelade.

Skattningarnas f¨ordelning F¨ordelningarna blir

α ∈ N

α, σ s

1 n + ¯ x 2

S xx

 β ∈ N

 β , σ

S xx



Men de ¨ar inte oberoende av varandra.

(11)

Skattningarnas f¨ordelning (forts)

Men man kan visa att β och Y ¯ ¨ar oberoende av varandra. Kovariansen mellan α och β blir

C(α , β ) = C( ¯ Y − β · ¯ x, β ) = C( ¯ Y, β ) − ¯ x · C(β , β ) =

= 0 − ¯ x · V(β ) = −¯ x · σ 2 S xx

.

Vi ser att kovariansen ¨ar negativ d˚a ¯ x > 0 och positiv d˚a ¯ x < 0.

F¨or Q 0 g¨aller dessutom Q 0

σ 2 ∈ χ 2 (n − 2) (2 ¨ar fortfarande antalet skattade parametrar i Q 0 )

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 11/21

(12)

Repetition Linj¨ar regression Skattningar Modellvalidering Egenskaper Intervall Prediktionsintervall Kalibreringsintervall

Intervallskattningar

Skattningarna av α och β ¨ar b˚ada p˚a formen θ ∈ N (θ, D(θ ))

d¨ar D(θ ) inneh˚aller ett σ som skattas med ett s med f = n − 2 frihetsgradet. S˚a vi f˚ar konfidensintervall med konfidensgrad 1 − a (a eftersom α ¨ar upptagen) som vanligt:

I β = β ± t a/2 (f ) · d(β ) = β ± t a/2 (n − 2) · s

S xx

I α = α ± t a/2 (f ) · d(α ) = α ± t a/2 (n − 2) · s s

1 n + ¯ x 2

S xx

(13)

Konfidensintervall f¨or linjen

Hur stor ¨ar medelorenheten n¨ar omr¨oringshastigheten ¨ar 32 rpm?

Omröringshastighet x [rpm]

15 20 25 30 35 40 45

Orenhet y [%]

6 8 10 12 14 16 18 20 22

Konfidensintervall för linjen

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 13/21

(14)

Repetition Linj¨ar regression Skattningar Modellvalidering Egenskaper Intervall Prediktionsintervall Kalibreringsintervall

Konfidensintervall f¨or μ 0 (eller f¨or linjen)

F¨or ett givet x-v¨arde, x = x 0 , kan vi skatta Y-s v¨antev¨arde med μ 0 = α + β · x 0 dvs en punkt p˚a den skattade linjen.

V(μ 0 ) = V(α + β · x 0 ) = [α = ¯ Y − β · ¯ x] = V ¯ Y + β · (x 0 − ¯ x) =

= [β , ¯ Y ober.] = V( ¯ Y) + (x 0 − ¯ x) 2 · V(β ) =

= σ 2

n + (x 0 − ¯ x) 2 · σ 2 S xx

=⇒

μ 0 ∈ N

μ 0 , σ s

1

n + (x 0 − ¯ x) 2 S xx

 .

Vi f˚ar s˚aledes direkt ett konfidensintervall f¨or μ 0 som

I μ

0

= μ 0 ± t a/2 (f ) · d(μ 0 ) = μ 0 ± t a/2 (n − 2) · s s

1

n + (x 0 − ¯ x) 2 S xx

.

(15)

Prediktionsintervall f¨or observationerna

Hur stor ¨ar kan orenheten bli n¨ar omr¨oringshastigheten ¨ar 32 rpm?

Omröringshastighet x [rpm]

15 20 25 30 35 40 45

Orenhet y [%]

6 8 10 12 14 16 18 20 22

Prediktionsintervall för observationer

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 15/21

(16)

Repetition Linj¨ar regression Skattningar Modellvalidering Egenskaper Intervall Prediktionsintervall Kalibreringsintervall

Prediktionsintervall

Intervallet ovan g¨aller v¨antev¨ardet f¨or Y d˚a x = x 0 . Om man vill uttala sig om en framtida observation av Y f¨or x = x 0 blir ovanst˚aende intervall f¨or smalt.

Vi kan f˚a ett prediktionsintervall f¨or en framtida observation f¨or ett givet x 0

Y(x 0 ) = α + β · x 0 + ε 0 = μ 0 + ε 0 ,

E(Y(x 0 )) = μ 0 + 0, V(Y(x 0 )) = V(μ 0 ) + V(ε 0 ) Prediktionsintervallet blir

I Y(x

0

) = μ 0 ± t a/2 (n − 2) · s s

1 + 1

n + (x 0 − ¯ x) 2 S xx

Observera att det bara ¨ar ettan i kvadratroten som skiljer mellan

prediktionsintervallet och konfidensintervall I μ

0

.

(17)

Kalibreringsintervall

Hur stor ¨ar kan omr¨oringshastigheten ha varit om orenheten blev 14 %?

Omröringshastighet x [rpm]

15 20 25 30 35 40 45

Orenhet y [%]

6 8 10 12 14 16 18 20 22

Kalibreringsintervall för x

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 17/21

(18)

Repetition Linj¨ar regression Skattningar Modellvalidering Egenskaper Intervall Prediktionsintervall Kalibreringsintervall

Kalibreringsintervall

Om man observerat ett v¨arde y 0 av y, vad var d˚a x 0 ? Man l¨oser ut x 0 ur y 0 = α + β ˙x 0 och f˚ar

x 0 = y 0 − α β

Denna skattning ¨ar inte normalf¨ordelad, men vi kan t.ex. anv¨anda Gauss approximationsformler f¨or att f˚a fram ett approximativt v¨arde p˚a D(x 0 ).

Kalibreringsintervallet blir

I x

0

= x 0 ± t a/2 (n − 2) · s

| s

1 + 1

n + (y 0 − ¯ y) 2 ) 2 S xx

.

(19)

Modellvalidering

I modellen antar vi att variationen kring linjen ¨ar

ε i ∈ N (0, σ) , oberoende av varandra

Eftersom skattningarnas f¨ordelning och konfidensintervall etc. baseras p˚a normal-antagandet ¨ar det viktigt att unders¨oka om antagandet ¨ar rimligt.

Vi kan studera residualerna, dvs avvikelserna mellan observerade y-v¨arden och den skattade linjen.

e i = y i − α − β · x i , i = 1, . . . , n Dessa ¨ar observationer av ε i , och residualerna b¨or allts˚a:

I se ut att komma fr˚an en och samma normalf¨ordelning

I vara oberoende av varandra

I vara oberoende av alla x i .

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 19/21

(20)

Repetition Linj¨ar regression Skattningar Modellvalidering Residualplottar

Residualplottar

Ser residualerna ut som de borde?

Omröringshastighet x [rpm]

20 30 40

ei = yi - 7i$

-2 -1 0 1

2 Residualer mot x

Predikterad orenhet 7$ [%]

5 10 15 20

ei = yi - yi$

-2 -1 0 1

2 Residualer mot 7$

residualer

-1 -0.5 0 0.5 1

Probability

0.05 0.10 0.25 0.50 0.75 0.90 0.95

Normal Probability Plot

(21)

Mindre bra residualplottar

0 10 20 30

−50 0 50 100

1:n

e

Residualer, kvadratisk trend

0 10 20 30

−200

−100 0 100 200 300

x

e

Residualer mot x, variansen ökar med x

I en modellvalidering b¨or man ¨aven testa H 0 : β = 0 H 1 : β 6= 0 T.ex. genom att f¨orkasta H 0 om

I punkten 0 ej t¨acks av I β , eller

I |T| > t p/2 (n − 2) d¨ar T = (β 0)/d(β ).

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F14: Regression 21/21

References

Related documents

Vi vill ocks˚ a ofta skriva, att n˚ agon viss egenskap g¨ aller f¨ or alla element i en m¨ angd eller att det finns (minst) ett element med en viss egenskap i en m¨ angd..

Position (i, j) in the table shows the values of C l for each of the requirements to isolate fault f i from fault f j where the first value belongs to set one and the second

Ovning 1: Hur m˚ ¨ anga relationer finns det p˚ a en m¨ angd med 3 element? Hur m˚ anga reflexiva relationer finns det? Vad kan du s¨ aga i det allm¨ anna fallet, om antalet

Resonemang, inf¨ orda beteck- ningar och utr¨ akningar f˚ ar inte vara s˚ a knapph¨ andigt presenterade att de blir sv˚ ara att f¨ olja.. ¨ Aven endast delvis l¨ osta problem kan

Resonemang, inf¨ orda beteck- ningar och utr¨ akningar f˚ ar inte vara s˚ a knapph¨ andigt presenterade att de blir sv˚ ara att f¨ olja.. ¨ Aven endast delvis l¨ osta problem kan

Resonemang, inf¨ orda beteck- ningar och utr¨ akningar f˚ ar inte vara s˚ a knapph¨ andigt presenterade att de blir sv˚ ara att f¨ olja.. ¨ Aven endast delvis l¨ osta problem kan

Strukturera dina l¨osningar v¨al, skriv tydligt och motivera dina p˚ ast˚ aenden.. Betygsgr¨anser:

L¨ osningar l¨ aggs ut p˚ a kurshemsidan senast f¨ orsta arbetsdagen efter tentamenstillf¨ allet.. Resultat meddelas via epost fr˚