• No results found

Anna Lindgren

N/A
N/A
Protected

Academic year: 2021

Share "Anna Lindgren"

Copied!
22
0
0

Loading.... (view fulltext now)

Full text

(1)

Repetition Exponenter Multipel reg.

Matematisk statistik 9 hp, HT-16 F¨orel¨asning 15: Multipel linj¨ar regression

Anna Lindgren

28+29 november, 2016

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 1/22

(2)

Repetition Exponenter Multipel reg.

Linj¨ar regression

Vi har n st par av m¨atv¨arden (x

i

, y

i

), i = 1, . . . , n d¨ar y

i

¨ar observationer av

Y

i

= α + βx

i

+ ε

i

d¨ar ε

i

¨ar oberoende av varandra, och ε

i

∈ N (0, σ).

Parameterskattningarna

Skattningarna av α

, β

och (σ

2

)

¨ar

α

= ¯ y − β

· ¯ x, β

= P

n

i=1

(x

i

− ¯ x)(y

i

− ¯ y) P

n

i=1

(x

i

− ¯ x)

2

= S

xy

S

xx

,

2

)

= s

2

= Q

0

n − 2 Q

0

=

n

X

i=1

(y

i

− α

− β

x

i

)

2

= S

yy

S

2xy

S

xx

(3)

Repetition Exponenter Multipel reg.

Skattningarnas f¨ordelning:

α

∈ N

α, σ s

1 n + x ¯

2

S

xx

 , β

∈ N

 β , σ

S

xx



Men de ¨ar inte oberoende av varandra.

Konfidens-, prediktions- och kalibreringsintervall (f = n − 2):

I

β

= β

± t

a/2

(n − 2) · s

S

xx

, I

α

= α

± t

a/2

(f ) · s s

1 n + ¯ x

2

S

xx

,

I

μ0

= α

+ β

x

0

± t

a/2

(f ) · s s

1

n + (x

0

− ¯ x)

2

S

xx

,

I

Y(x0)

= α

+ β

x

0

± t

a/2

(f ) · s s

1 + 1

n + (x

0

− ¯ x)

2

S

xx

,

I

x0

= x

0

± t

a/2

(f ) · s

| s

1 + 1

n + (y

0

− ¯ y)

2

)

2

S

xx

.

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 3/22

(4)

Repetition Exponenter Multipel reg.

1970 1980 1990 2000 2010 2020

102 103 104 105 106 107 108 109

40048008 8080

8086 286

Intel386TM Intel486TM

Intel® Pentium®

Intel® Pentium® II Intel® Pentium® IIIIntel® Pentium® 4

Intel® Itanium®Intel® Itanium® 2

Lanseringsår

Antal transistorer

Antal transistorer hos Intelprocessorer

(5)

Repetition Exponenter Multipel reg.

Linj¨arisering av exponentiella samband

F¨or att f˚a ett linj¨art samband

y

i

= α + βx

i

+ ε

i

kan vissa exponent- och potenssamband logaritmeras.

z

i

= a · e

βxi

· ε

0i

−→

ln

ln z

i

|{z}

yi

= ln a

|{z}

α

+β · x

i

+ ln ε

0i

|{z}

εi

z

i

= a · t

iβ

· ε

0i

−→

ln

ln z

i

|{z}

yi

= ln a

|{z}

α

+β ln t

i

|{z}

xi

+ ln ε

0i

|{z}

εi

Om de multiplikativa felen, ε

0i

, ¨ar lognormalf¨ordelade blir ln ε

0i

∈ N och vi kan anv¨anda linj¨ar regression f¨or att skatta ln α och β.

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 5/22

(6)

Repetition Exponenter Multipel reg.

1970 1980 1990 2000 2010 2020

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

5x 108

Lanseringsår

Antal transistorer

Skattat samband: y = 5.13⋅10−301⋅ e0.35 x

(7)

Repetition Exponenter Multipel reg.

−4 −2 0 2 4 6 8 10 12

−2 0 2 4 6 8 10 12

log(kroppsvikt) [kg]

log(hjärnvikt) [g]

Samband vikt och hjärnstorlek

Ekorrbäver

Ko

GetVarg

Marsvin

Diplodocus Elefant (Ind)

Åsna Häst

Potar apa

Katt

Giraff Gorilla Människa

Elefant (Afr)

Triceratops Rhesus apa

Känguru

Hamster Mus

Kanin

FårJaguar Chimpans

Brachiosaurus

Råtta Mullvad

Gris

( )( )

( )

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 7/22

(8)

Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering

Multipel linj¨ar regression

Modellen kan ut¨okas med flera x-variabler:

y

i

= β

0

+ β

1

x

i1

+ . . . + β

k

x

ik

+ ε

i

, i = 1, . . . , n, ε

i

∈ N (0, σ) kan skrivas p˚a matrisform som

y = Xβ + ε

d¨ar y och ε ¨ar n × 1-vektorer, β en 1 × (k + 1)-vektor och X en n × (k + 1)-matris

y =

y

1

y

2

.. . y

n

, X =

1 x

11

· · · x

1k

1 x

21

· · · x

2k

.. . .. . . .. .. . 1 x

n1

· · · x

nk

 , β =

 β

0

β

1

.. . β

k

 ,ε =

 ε

1

.. . ε

n

(9)

Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering

Exempel – Julklappar (Tenta 12/12-2000):

En liten flicka vill unders¨oka om det l¨onar sig att vara sn¨all. Hon har d¨arf¨or noterat v¨ardet (i kr) p˚a de julklappar hon fick fr˚an olika

sl¨aktningar i ˚ar, n¨ar hon varit sn¨all, och i fjor d˚a hon var stygg. Hon har insett att v¨ardet p˚a julklapparna ocks˚a till stor del beror p˚a givarens ekonomi och allm¨anna generositet. Hon r¨aknar d¨arf¨or ocks˚a ut ett l¨ampligt m˚att p˚a givmildhet:

v¨arde ln(v¨arde)

Sl¨akting i fjor i ˚ar i fjor i ˚ar givmildhet

Storebror 24:50 49:50 3.2 3.9 3.3

Lillebror 18:– 27:– 2.9 3.3 2.8

Mormor och morfar 2981:– 3641:– 8.0 8.2 7.9 Farmor och farfar 30:– 40:– 3.4 3.7 3.4 Mamma och pappa 148:– 329:50 5.0 5.8 5.4

Moster 24:50 44:50 3.2 3.8 3.3

Kusin ? 62:– ? 4.1 3.6

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 9/22

(10)

Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering

2 3 4 5 6 7 8

0 1000 2000 3000 4000

zi = julklapparnas värde (kr)

x2i: givmildhet

2 3 4 5 6 7 8

2 3 4 5 6 7 8 9

yi = ln(zi) = ln(julklapparnas värde)

x2i: givmildhet x1i = 0: stygg

x1i = 1: snäll

x1i = 0: stygg x1i = 1: snäll

(11)

Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering

L¨amplig regressionsmodell:

ln z

i

= y

i

= α + β

1

· x

1i

+ β

2

· x

2i

+ ε

i

, i = 1, . . . , 13, z

i

= v¨ardet (kr) av julklapp i,

y

i

= ln z

i

= logaritmerat v¨arde p˚a julklapp i,

x

1i

= 0 f¨or alla fjor˚arets julklappar (d˚a hon varit stygg), 1 f¨or alla ˚arets julklappar (d˚a hon varit sn¨all), , x

2i

= givmildheten hos givaren av julklapp i,

ε

i

∈ N (0, σ) ober.,

e

β1

= relativa ¨okningen i julklapparnas v¨arde n¨ar flickan ¨ar sn¨all

1. Testa, p˚a niv˚an 5 %, om det l¨onar sig att vara sn¨all, dvs om β

1

¨ar signifikant st¨orre ¨an 0.

2. G¨or ett tv˚asidigt 95 % prediktionsintervall f¨or v¨ardet p˚a Kusinens julklapp i fjor, d.v.s. d˚a den lilla flickan varit stygg.

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 11/22

(12)

Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering

Modell med matriser: Y = Xβ + ε d¨ar

Y =

 3.2 3.9 2.9 3.3 8.0 8.2 3.4 3.7 5.0 5.8 3.2 3.8 4.1

 , X =

1 0 3.3 1 1 3.3 1 0 2.8 1 1 2.8 1 0 7.9 1 1 7.9 1 0 3.4 1 1 3.4 1 0 5.4 1 1 5.4 1 0 3.3 1 1 3.3 1 1 3.6

 , β =

 β

0

β

1

β

2

 , ε =

 ε

1

ε

2

ε

3

.. . ε

12

ε

13

(13)

Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering

Skattning av parametrarna

Skattning av β

ML- och MK-skattningar av β

0

, . . . , β

k

(elementen i β) blir

β

= (X

T

X)

−1

X

T

y

En v¨antev¨ardesriktig skattning av σ

2

ges av (korrigerad ML)

s

2

= Q

0

n − (k + 1) d¨ar Q

0

= (y − Xβ

)

T

(y − Xβ

) Q

0

¨ar allts˚a residualkvadratsumman och k + 1 ¨ar antalet skattade parametrar i Q

0

.

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 13/22

(14)

Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering

Skattningar:

X

T

X =

13 7 55.8

7 7 29.7

55.8 29.7 278.46

 , X

T

y =

 58.5 32.8 289.09

 ,

(X

T

X)

−1

=

0.6530 −0.1786 −0.1118

−0.1786 0.3098 0.0028

−0.1118 0.0028 0.0257

 ,

β

= (X

T

X)

−1

X

T

y =

 β

0

β

1

β

2

 =

 0.0208 0.5074 0.9799

 , Q

0

= (y − Xβ

)

T

(y − Xβ

) = 0.2347,

f = n − (k + 1) = 13 − 3 = 10, σ

= s =

r Q

0

f = 0.1532

(15)

Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering

2 3 4 5 6 7 8

0 1000 2000 3000 4000 5000

zi = julklapparnas värde (kr)

x2i: givmildhet

2 3 4 5 6 7 8

0 2 4 6 8 10

yi = ln(zi) = ln(julklapparnas värde)

x2i: givmildhet x1i = 0: stygg

x1i = 1: snäll

x1i = 0: stygg x1i = 1: snäll

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 15/22

(16)

Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering

Skattningarnas f¨ordelning

Skattningarna av β ¨ar linj¨ara funktioner av Y och ¨ar d¨armed normalf¨ordelade

β

i

∈ N (β

i

, D(β

i

)) ,

D(β

i

) ges av roten ur diagonalelementen i kovariansmatrisen

V(β

) = σ

2

(X

T

X)

−1

=

V(β

0

) C(β

0

, β

1

) · · · C(β

0

, β

k

) C(β

1

, β

0

) V(β

1

) · · · C(β

1

, β

k

)

.. . .. . . .. .. . C(β

k

, β

0

) C(β

k

, β

1

) · · · V(β

k

)

 .

F¨or residualkvadratsumman g¨aller Q

0

σ

2

∈ χ

2

(n − (k + 1))

(17)

Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering

Konfidensintervall och hypotestest f¨or β

i

Konfidensintervall f¨or β

i

blir allts˚a

I

βi

= β

i

± t

a/2

(f ) · d(β

i

) =

= β

i

± t

a/2

(n − (k + 1)) · s q

(X

T

X)

−1



i,i

d¨ar [(X

T

X)

−1

]

i,i

¨ar diagonalelement nr i.

Obs! det f¨orsta elementet har nummer i = 0.

Intervallet kan anv¨andas f¨or att testa hypotesen

H

0

: β

i

= 0 H

1

: β

i

6= 0 Alternativt kan man naturligtvis anv¨anda

T = β

i

− 0

d(β

i

) f¨orkasta H

0

om |T| > t

a/2

(n − (k + 1)).

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 17/22

(18)

Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering

1. Vi vill testa H

0

: β

1

= 0 mot H

1

: β

1

> 0 p˚a signifikansniv˚an a = 0.05. Medelfelet blir

d(β

1

) = s q

[(X

T

X)

−1

]

1,1

= 0.1532 · √

0.3098 = 0.0853 Eftersom

T = β

1

− 0

d(β

) = 0.5074

0.0853 = 5.9496 > t

a

(f ) = t

0.05

(10) = 1.81 kan H

0

f¨orkastas. Ja, det l¨onar sig att vara sn¨all.

Hur mycket l¨onar det sig? Ett tv˚asidigt konfidensintervall f¨or β

1

blir I

β1

= β

1

± t

a/2

(f ) · d(β

1

) = 0.5074 ± t

0.025

(10)

| {z }

2.23

·0.0853

= (0.3174, 0.6974), ⇒ I

eβ1

= (e

0.3174

, e

0.6974

) = (1.37, 2.01)

Att vara sn¨all ¨okar v¨ardet p˚a julklapparna med i genomsnitt 37 − 100 %!

(19)

Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering

Skattning av punkt p˚a ”planet”

Y-s v¨antev¨arde i en punkt x

0

= 1 x

01

x

02

· · · x

0k



ges nu av

μ

(x

0

) = β

0

+

k

X

i=1

β

i

x

0i

= x

0

β

V(μ

(x

0

)) = x

0

V(β

)x

T0

= σ

2

x

0

(X

T

X)

−1

x

T0

.

Ett konfidensintervall f¨or μ

(x

0

) blir s˚aledes (med f = n − (k + 1)) I

μ(x0)

= x

0

β

± t

a/2

(f ) · s

q

x

0

(X

T

X)

−1

x

T0

F¨or prediktionsintervallet f˚ar man, som tidigare, l¨agga till en etta under kvadratroten

I

Y(x0)

= x

0

β

± t

a/2

(f ) · s q

1 + x

0

(X

T

X)

−1

x

T0

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 19/22

(20)

Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering

2. Prediktionsintervall f¨or Kusinens julklapp:

Vi har x

0

= 1 0 3.6 och skattningen

μ

(x

0

) = x

0

β

= 1 · β

0

+ 0 · β

1

+ 3.6 · β

2

= 3.5484, e

μ(x0)

= e

3.5484

= 35.76 kr,

x

0

(X

T

X)

−1

x

T0

= 0.1811,

I

Y(x0)

= 3.5484 ± 2.23 · 0.1532 √

1 + 0.1811

= (3.21, 3.89) Omr¨aknat till kronor blir det

I

eY(x0)

= (e

3.21

, e

3.89

) = (25.69, 48.94) kr

(21)

Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering

Modellvalidering

Precis som f¨or enkel regression b¨or man unders¨oka residualerna e = y − Xβ

,

och f¨orvisssa sig om att de verkar vara oberoende och N (0, σ)-f¨ordelade.

Plotta residualerna

1. ”Som de kommer”, dvs mot 1, 2, . . . , n. Ev. ett histogram 2. Mot var och en av x

i

-dataserierna

3. I en normalf¨ordelningsplot

F¨or var och en av β

1

, . . . , β

k

(obs i regel ej β

0

) b¨or man kunna f¨orkasta H

0

i testet

H

0

: β

i

= 0 H

1

: β

i

6= 0 eftersom β

i

anger ”hur mycket y

¨andrar sig n¨ar vi ¨andrar

x

i

”.

Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 21/22

(22)

Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering

Kolinj¨aritet (ex. tv˚a variabler, motsv. f¨or fler)

Man b¨or om m¨ojligt v¨alja sina (x

1i

, x

2i

)-v¨arden s˚a att de blir utspridda i

(x

1

, x

2

)-planet och inte klumpar ihop sig l¨angs en linje. Detta ger ”en

mer stabil grund” ˚at regressionsplanet.

References

Related documents

”Blommor av skräp” En utställning av barnens konstverk... ”Prickiga

Ert varumärke står också för immateriella värden och identitet, hur har ni arbetat för att detta ska

Men guden Eros knöt aldrig mera till bindeln så hårdt för mina ögon, den tillät alltid något titthål, så att när bindeln föll, blef jag aldrig så öfverraskad öfver hvad

Vidare ser vi att Y exponentialf¨ordelad med v¨antev¨arde

Enligt centrala gr¨ansv¨ardessatsen s˚a ¨ar 100 kr¨aftors sammanlagda vikt approximativt normalf¨ordelad... (a) Vi vill ber¨akna ML skattningen av θ med hj¨alp

Som hemarbete ges sedan figurens utskärning

[r]

Man kan ibland l¨ asa att h¨ alften av alla som drunknat till sj¨ oss har druckit alkohol. L˚ at oss anta att det