Repetition Exponenter Multipel reg.
Matematisk statistik 9 hp, HT-16 F¨orel¨asning 15: Multipel linj¨ar regression
Anna Lindgren
28+29 november, 2016
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 1/22
Repetition Exponenter Multipel reg.
Linj¨ar regression
Vi har n st par av m¨atv¨arden (x
i, y
i), i = 1, . . . , n d¨ar y
i¨ar observationer av
Y
i= α + βx
i+ ε
id¨ar ε
i¨ar oberoende av varandra, och ε
i∈ N (0, σ).
Parameterskattningarna
Skattningarna av α
∗, β
∗och (σ
2)
∗¨ar
α
∗= ¯ y − β
∗· ¯ x, β
∗= P
ni=1
(x
i− ¯ x)(y
i− ¯ y) P
ni=1
(x
i− ¯ x)
2= S
xyS
xx,
(σ
2)
∗= s
2= Q
0n − 2 Q
0=
n
X
i=1
(y
i− α
∗− β
∗x
i)
2= S
yy− S
2xyS
xxRepetition Exponenter Multipel reg.
Skattningarnas f¨ordelning:
α
∗∈ N
α, σ s
1 n + x ¯
2S
xx
, β
∗∈ N
β , σ
√ S
xxMen de ¨ar inte oberoende av varandra.
Konfidens-, prediktions- och kalibreringsintervall (f = n − 2):
I
β= β
∗± t
a/2(n − 2) · s
√ S
xx, I
α= α
∗± t
a/2(f ) · s s
1 n + ¯ x
2S
xx,
I
μ0= α
∗+ β
∗x
0± t
a/2(f ) · s s
1
n + (x
0− ¯ x)
2S
xx,
I
Y(x0)= α
∗+ β
∗x
0± t
a/2(f ) · s s
1 + 1
n + (x
0− ¯ x)
2S
xx,
I
x0= x
0∗± t
a/2(f ) · s
|β
∗| s
1 + 1
n + (y
0− ¯ y)
2(β
∗)
2S
xx.
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 3/22
Repetition Exponenter Multipel reg.
1970 1980 1990 2000 2010 2020
102 103 104 105 106 107 108 109
40048008 8080
8086 286
Intel386TM Intel486TM
Intel® Pentium®
Intel® Pentium® II Intel® Pentium® IIIIntel® Pentium® 4
Intel® Itanium®Intel® Itanium® 2
Lanseringsår
Antal transistorer
Antal transistorer hos Intelprocessorer
Repetition Exponenter Multipel reg.
Linj¨arisering av exponentiella samband
F¨or att f˚a ett linj¨art samband
y
i= α + βx
i+ ε
ikan vissa exponent- och potenssamband logaritmeras.
z
i= a · e
βxi· ε
0i−→
lnln z
i|{z}
yi= ln a
|{z}
α
+β · x
i+ ln ε
0i|{z}
εi
z
i= a · t
iβ· ε
0i−→
lnln z
i|{z}
yi
= ln a
|{z}
α
+β ln t
i|{z}
xi
+ ln ε
0i|{z}
εi
Om de multiplikativa felen, ε
0i, ¨ar lognormalf¨ordelade blir ln ε
0i∈ N och vi kan anv¨anda linj¨ar regression f¨or att skatta ln α och β.
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 5/22
Repetition Exponenter Multipel reg.
1970 1980 1990 2000 2010 2020
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
5x 108
Lanseringsår
Antal transistorer
Skattat samband: y = 5.13⋅10−301⋅ e0.35 x
Repetition Exponenter Multipel reg.
−4 −2 0 2 4 6 8 10 12
−2 0 2 4 6 8 10 12
log(kroppsvikt) [kg]
log(hjärnvikt) [g]
Samband vikt och hjärnstorlek
Ekorrbäver
Ko
GetVarg
Marsvin
Diplodocus Elefant (Ind)
Åsna Häst
Potar apa
Katt
Giraff Gorilla Människa
Elefant (Afr)
Triceratops Rhesus apa
Känguru
Hamster Mus
Kanin
FårJaguar Chimpans
Brachiosaurus
Råtta Mullvad
Gris
( )( )
( )
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 7/22
Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering
Multipel linj¨ar regression
Modellen kan ut¨okas med flera x-variabler:
y
i= β
0+ β
1x
i1+ . . . + β
kx
ik+ ε
i, i = 1, . . . , n, ε
i∈ N (0, σ) kan skrivas p˚a matrisform som
y = Xβ + ε
d¨ar y och ε ¨ar n × 1-vektorer, β en 1 × (k + 1)-vektor och X en n × (k + 1)-matris
y =
y
1y
2.. . y
n
, X =
1 x
11· · · x
1k1 x
21· · · x
2k.. . .. . . .. .. . 1 x
n1· · · x
nk
, β =
β
0β
1.. . β
k
,ε =
ε
1.. . ε
n
Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering
Exempel – Julklappar (Tenta 12/12-2000):
En liten flicka vill unders¨oka om det l¨onar sig att vara sn¨all. Hon har d¨arf¨or noterat v¨ardet (i kr) p˚a de julklappar hon fick fr˚an olika
sl¨aktningar i ˚ar, n¨ar hon varit sn¨all, och i fjor d˚a hon var stygg. Hon har insett att v¨ardet p˚a julklapparna ocks˚a till stor del beror p˚a givarens ekonomi och allm¨anna generositet. Hon r¨aknar d¨arf¨or ocks˚a ut ett l¨ampligt m˚att p˚a givmildhet:
v¨arde ln(v¨arde)
Sl¨akting i fjor i ˚ar i fjor i ˚ar givmildhet
Storebror 24:50 49:50 3.2 3.9 3.3
Lillebror 18:– 27:– 2.9 3.3 2.8
Mormor och morfar 2981:– 3641:– 8.0 8.2 7.9 Farmor och farfar 30:– 40:– 3.4 3.7 3.4 Mamma och pappa 148:– 329:50 5.0 5.8 5.4
Moster 24:50 44:50 3.2 3.8 3.3
Kusin ? 62:– ? 4.1 3.6
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 9/22
Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering
2 3 4 5 6 7 8
0 1000 2000 3000 4000
zi = julklapparnas värde (kr)
x2i: givmildhet
2 3 4 5 6 7 8
2 3 4 5 6 7 8 9
yi = ln(zi) = ln(julklapparnas värde)
x2i: givmildhet x1i = 0: stygg
x1i = 1: snäll
x1i = 0: stygg x1i = 1: snäll
Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering
L¨amplig regressionsmodell:
ln z
i= y
i= α + β
1· x
1i+ β
2· x
2i+ ε
i, i = 1, . . . , 13, z
i= v¨ardet (kr) av julklapp i,
y
i= ln z
i= logaritmerat v¨arde p˚a julklapp i,
x
1i= 0 f¨or alla fjor˚arets julklappar (d˚a hon varit stygg), 1 f¨or alla ˚arets julklappar (d˚a hon varit sn¨all), , x
2i= givmildheten hos givaren av julklapp i,
ε
i∈ N (0, σ) ober.,
e
β1= relativa ¨okningen i julklapparnas v¨arde n¨ar flickan ¨ar sn¨all
1. Testa, p˚a niv˚an 5 %, om det l¨onar sig att vara sn¨all, dvs om β
1¨ar signifikant st¨orre ¨an 0.
2. G¨or ett tv˚asidigt 95 % prediktionsintervall f¨or v¨ardet p˚a Kusinens julklapp i fjor, d.v.s. d˚a den lilla flickan varit stygg.
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 11/22
Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering
Modell med matriser: Y = Xβ + ε d¨ar
Y =
3.2 3.9 2.9 3.3 8.0 8.2 3.4 3.7 5.0 5.8 3.2 3.8 4.1
, X =
1 0 3.3 1 1 3.3 1 0 2.8 1 1 2.8 1 0 7.9 1 1 7.9 1 0 3.4 1 1 3.4 1 0 5.4 1 1 5.4 1 0 3.3 1 1 3.3 1 1 3.6
, β =
β
0β
1β
2
, ε =
ε
1ε
2ε
3.. . ε
12ε
13
Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering
Skattning av parametrarna
Skattning av β
ML- och MK-skattningar av β
0, . . . , β
k(elementen i β) blir
β
∗= (X
TX)
−1X
Ty
En v¨antev¨ardesriktig skattning av σ
2ges av (korrigerad ML)
s
2= Q
0n − (k + 1) d¨ar Q
0= (y − Xβ
∗)
T(y − Xβ
∗) Q
0¨ar allts˚a residualkvadratsumman och k + 1 ¨ar antalet skattade parametrar i Q
0.
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 13/22
Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering
Skattningar:
X
TX =
13 7 55.8
7 7 29.7
55.8 29.7 278.46
, X
Ty =
58.5 32.8 289.09
,
(X
TX)
−1=
0.6530 −0.1786 −0.1118
−0.1786 0.3098 0.0028
−0.1118 0.0028 0.0257
,
β
∗= (X
TX)
−1X
Ty =
β
0∗β
1∗β
2∗
=
0.0208 0.5074 0.9799
, Q
0= (y − Xβ
∗)
T(y − Xβ
∗) = 0.2347,
f = n − (k + 1) = 13 − 3 = 10, σ
∗= s =
r Q
0f = 0.1532
Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering
2 3 4 5 6 7 8
0 1000 2000 3000 4000 5000
zi = julklapparnas värde (kr)
x2i: givmildhet
2 3 4 5 6 7 8
0 2 4 6 8 10
yi = ln(zi) = ln(julklapparnas värde)
x2i: givmildhet x1i = 0: stygg
x1i = 1: snäll
x1i = 0: stygg x1i = 1: snäll
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 15/22
Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering
Skattningarnas f¨ordelning
Skattningarna av β ¨ar linj¨ara funktioner av Y och ¨ar d¨armed normalf¨ordelade
β
i∗∈ N (β
i, D(β
i∗)) ,
D(β
i∗) ges av roten ur diagonalelementen i kovariansmatrisen
V(β
∗) = σ
2(X
TX)
−1=
V(β
0∗) C(β
0∗, β
1∗) · · · C(β
0∗, β
k∗) C(β
1∗, β
0∗) V(β
1∗) · · · C(β
1∗, β
k∗)
.. . .. . . .. .. . C(β
k∗, β
0∗) C(β
k∗, β
1∗) · · · V(β
k∗)
.
F¨or residualkvadratsumman g¨aller Q
0σ
2∈ χ
2(n − (k + 1))
Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering
Konfidensintervall och hypotestest f¨or β
iKonfidensintervall f¨or β
iblir allts˚a
I
βi= β
i∗± t
a/2(f ) · d(β
i∗) =
= β
i∗± t
a/2(n − (k + 1)) · s q
(X
TX)
−1i,i
d¨ar [(X
TX)
−1]
i,i¨ar diagonalelement nr i.
Obs! det f¨orsta elementet har nummer i = 0.
Intervallet kan anv¨andas f¨or att testa hypotesen
H
0: β
i= 0 H
1: β
i6= 0 Alternativt kan man naturligtvis anv¨anda
T = β
i∗− 0
d(β
i∗) f¨orkasta H
0om |T| > t
a/2(n − (k + 1)).
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 17/22
Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering
1. Vi vill testa H
0: β
1= 0 mot H
1: β
1> 0 p˚a signifikansniv˚an a = 0.05. Medelfelet blir
d(β
1∗) = s q
[(X
TX)
−1]
1,1= 0.1532 · √
0.3098 = 0.0853 Eftersom
T = β
1∗− 0
d(β
∗) = 0.5074
0.0853 = 5.9496 > t
a(f ) = t
0.05(10) = 1.81 kan H
0f¨orkastas. Ja, det l¨onar sig att vara sn¨all.
Hur mycket l¨onar det sig? Ett tv˚asidigt konfidensintervall f¨or β
1blir I
β1= β
1∗± t
a/2(f ) · d(β
1∗) = 0.5074 ± t
0.025(10)
| {z }
2.23
·0.0853
= (0.3174, 0.6974), ⇒ I
eβ1= (e
0.3174, e
0.6974) = (1.37, 2.01)
Att vara sn¨all ¨okar v¨ardet p˚a julklapparna med i genomsnitt 37 − 100 %!
Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering
Skattning av punkt p˚a ”planet”
Y-s v¨antev¨arde i en punkt x
0= 1 x
01x
02· · · x
0kges nu av
μ
∗(x
0) = β
0∗+
k
X
i=1
β
i∗x
0i= x
0β
∗V(μ
∗(x
0)) = x
0V(β
∗)x
T0= σ
2x
0(X
TX)
−1x
T0.
Ett konfidensintervall f¨or μ
∗(x
0) blir s˚aledes (med f = n − (k + 1)) I
μ∗(x0)= x
0β
∗± t
a/2(f ) · s
q
x
0(X
TX)
−1x
T0F¨or prediktionsintervallet f˚ar man, som tidigare, l¨agga till en etta under kvadratroten
I
Y(x0)= x
0β
∗± t
a/2(f ) · s q
1 + x
0(X
TX)
−1x
T0Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 19/22
Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering
2. Prediktionsintervall f¨or Kusinens julklapp:
Vi har x
0= 1 0 3.6 och skattningen
μ
∗(x
0) = x
0β
∗= 1 · β
0∗+ 0 · β
1∗+ 3.6 · β
2∗= 3.5484, e
μ∗(x0)= e
3.5484= 35.76 kr,
x
0(X
TX)
−1x
T0= 0.1811,
I
Y(x0)= 3.5484 ± 2.23 · 0.1532 √
1 + 0.1811
= (3.21, 3.89) Omr¨aknat till kronor blir det
I
eY(x0)= (e
3.21, e
3.89) = (25.69, 48.94) kr
Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering
Modellvalidering
Precis som f¨or enkel regression b¨or man unders¨oka residualerna e = y − Xβ
∗,
och f¨orvisssa sig om att de verkar vara oberoende och N (0, σ)-f¨ordelade.
Plotta residualerna
1. ”Som de kommer”, dvs mot 1, 2, . . . , n. Ev. ett histogram 2. Mot var och en av x
i-dataserierna
3. I en normalf¨ordelningsplot
F¨or var och en av β
1, . . . , β
k(obs i regel ej β
0) b¨or man kunna f¨orkasta H
0i testet
H
0: β
i= 0 H
1: β
i6= 0 eftersom β
ianger ”hur mycket y
¨andrar sig n¨ar vi ¨andrarx
i”.
Anna Lindgren — anna@maths.lth.se FMS012/MASB03 F15: multipel regression 21/22
Repetition Exponenter Multipel reg. Modell Skattningar F¨ordeln. Intervall Modellvalidering