N˚
agot om Regressionsanalys
Angelica Pettersson Institutionen f¨or naturvetenskap ¨ Orebro universitet 4 februari 2010Inneh˚
all
Inneh˚all 2
F¨orord 4
Inledning 5
1 Enkel linj¨ar regression 9
1.1 Introduktion . . . 9 2 Punktskattningar 11 2.1 Minsta-kvadrat-metoden . . . 11 2.2 Maximum-likelihood-metoden . . . 16 3 Intervallskattningar 19 3.1 Standardavvikelsen k¨and . . . 19
3.2 Standardavvikelsen ok¨and . . . 20
4 Multipel regression 21 4.1 Utvidgning av enkel linj¨ar regression . . . 21
4.2 Polynomregression . . . 22
5 Styckvis Linj¨ar Regression 23 5.1 Introduktion . . . 23
5.2 Blindvariabler . . . 23
5.3 Regressionsmodell d˚a brytpunkten ¨ar k¨and . . . 24
6 Approximation av brytpunkter 27 6.1 Introduktion . . . 27
6.2 Terminologi . . . 27
6.3 Grundl¨aggande anm¨arkningar . . . 29
6.4 Algoritmen . . . 30
6.5 Ett numeriskt exempel . . . 31
F¨
orord
Jag skulle vilja tacka min handledare Yang Liu f¨or konstruktiv kritik under arbetets g˚ang samt alla de ‘gulebøjer’ han f¨orsett mig med n¨ar min energi har trutit! Ocks˚a ett stort tack till Holger Schellwat som besvarat alla mina fr˚agor g¨allande LATEX; ett m¨asterligt arbete! Dessutom vill jag tacka min
familj som st˚att ut med mig under det h¨ar projektet; tack och f¨orl˚at f¨or att jag har varit s˚a distr¨a!
Angelica Pettersson Fellingsbro i februari 2010
Inledning
En gren inom statistikteorin ¨ar den s˚a kallade Regressionsanalysen d¨ar man studerar hur data fr˚an exempelvis ett stickprov kan anpassas till en graf. Under skrivandet av denna uppsats har jag haft som m˚al att b¨attre f¨orst˚a n˚agra av de metoder som finns att tillg˚a vid best¨amning av de ing˚aende parametrarna i de enklare fallen av regression. Dessutom har jag valt att djupare studera den del inom regressionsanalysen som kallas Styckvis Linj¨ar Regression.
I Kapitel 1 ges en introduktion till regressionsanalysen d¨ar grundl¨aggande begrepp tas upp, samt exempel p˚a hur dessa anv¨ands praktiskt. Definitionen av den teoretiska regressionslinjen ges samt definitionen av de slumpm¨assiga fel som uppst˚ar vid stickprov.
Vidare f¨oljer i Kapitel 2 en genomg˚ang av tv˚a olika metoder f¨or att approximera de ing˚aende koefficienterna i den teoretiska regressionslinjen. Dessa tv˚a metoder ¨ar Minsta-kvadrat-metoden samt Maximum-likelihood-metoden. ¨Aven h¨ar ges numeriska exempel f¨or att klarg¨ora hur metoderna fungerar.
I Kapitel 3 redog¨ors f¨or hur parametrarna i den teoretiska regressionslin-jen kan intervallskattas, d.v.s. metoder f˚as f¨or att med ¨onskad sannolikhet kunna avg¨ora inom vilket intervall de studerade parametrarna befinner sig. D¨arp˚a f¨oljer i Kapitel 4 ett mindre avsnitt kring hur en utvidgning av enkel linj¨ar regression kan ¨overf¨oras till multipel linj¨ar regression d¨ar antalet parametrar ¨ar godtyckliga. Metoder ges f¨or att skatta parametrarna samt med ¨onskad sannolikhet avg¨ora inom vilket intervall dessa befinner sig.
I Kapitel 5 introduceras begreppet styckvis linj¨ar regression med en genomg˚ang av n˚agra grundl¨aggande begrepp som ber¨or denna gren inom regressionsanalysen. Definitionen av blindvariabler ges samt ett exempel p˚a hur dessa fungerar. Vidare ges en modell f¨or att kunna skatta en styckvis linj¨ar regressionslinje, givet vissa kriterier.
8 INNEH˚ALL Slutligen ges i Kapitel 6 en algoritm f¨or hur brytpunkten i en styckvis linj¨ar regressionslinje kan approximeras. Detta kapitel ger f¨orst en ¨overblick kring metoden f¨or att sedan introducera begrepp som anv¨ands i modellen. Slutligen ges ett numeriskt exempel som redovisar hur algoritmen fungerar.
Kapitel 1
Enkel linj¨
ar regression
1.1
Introduktion
I m˚anga situationer finns det anledning att vilja kunna f¨oruts¨aga hur olika val av parametrar p˚averkar utfallet. Exempelvis vid industriell tillverkning av en enhet vill producenten studera hur olika inst¨allningar av en maskin p˚averkar enhetens diameter. P˚a grund av slumpm¨assiga fel kommer denna diameter variera fr˚an enhet till enhet men genom att v¨alja den inst¨allning av maskinen som genererar minst felmarginal, kan produktionen optimeras. En ofta anv¨and metod f¨or att best¨amma dessa parametrar ¨ar enkel linj¨ar regression. Metoden bygger p˚a att utifr˚an vissa givna v¨arden ur till exempel ett stickprov, kunna best¨amma en s˚a kallad teoretisk regressionslinje p˚a for-men y = α+βx, ur vilken det sedan f¨or varje x g˚ar att ber¨akna motsvarande v¨antev¨arde y, eller omv¨ant, utifr˚an ¨onskat v¨antev¨arde best¨amma tillh¨orande v¨arde p˚a x. Inledningsvis f¨oljer n˚agra definitioner som ¨ar grundl¨aggande f¨or den fortsatta diskussionen.
1.1.1 Definition. L˚at (x1, y1) . . . (xn, yn) vara n par av v¨arden d¨ar x1, . . . , xn
¨
ar observationer av f¨orklarande variabler Xi, . . . , Xnoch y1, . . . , yn¨ar
obser-vationer av oberoende stokastiska variabler (i forts¨attningen s.v.) Y1, . . . , Yn.
D˚a g¨aller att
Yi∈ N (µi, σ), i = 1, . . . , n
1.1.2 Definition. F¨or µi, i = 1, . . . , n g¨aller att dessa ¨ar linj¨art beroende
av xi s˚a att
µi= α + βxi
1.1.3 Definition. L˚at y1, . . . , yn vara observationer av oberoende
s.v. Y1, . . . , Yn. D˚a g¨aller att
εi = yi− µi = yi− α − βxi
utg¨or de slumpm¨assiga fel som uppst˚ar och ¨ar de lodr¨ata avst˚and fr˚an yi,
i = 1, . . . , n till den teoretiska regressionslinjen. Det g¨aller att εi ∈ N (0, σ).
10 KAPITEL 1. ENKEL LINJ ¨AR REGRESSION 1.1.4 Definition. En modell f¨or enkel linj¨ar regression kan tecknas som
Yi = α + βXi+ εi
d¨ar i = 1, . . . , n
1.1.5 Exempel. Vid tillverkning av kullager ¨onskas en diameter p˚a 2, 50 mm. F¨or sju olika inst¨allningar p˚a maskinen utf¨ors ett stickprov f¨or var och en av inst¨allningarna xi, varp˚a man m¨ater diametern yi, i = 1, . . . , 7. Man
finner att yi ¨ar linj¨art beroende av xi, och en modell som tar h¨ansyn till de
Kapitel 2
Punktskattningar
Som n¨amndes inledningsvis vill man ofta finna ekvationen f¨or den teoretiska regressionslinjen y = α + βx. Syftet med avsnittet ¨ar d¨arf¨or att redog¨ora f¨or de metoder som finns att tillg˚a d˚a skattningar av parametrarna α och β ¨
onskas. I f¨orsta delen beskrivs Minsta-kvadrat-metoden, ¨aven kallad LSE,1 som m˚anga g˚anger ger anv¨andbara punktskattningar till parametrarna i den teoretiska regressionslinjen. D¨arp˚a f¨oljer en beskrivning av Maximum-likelihood-metoden.
2.1
Minsta-kvadrat-metoden
Id´en bakom Minsta-kvadrat-metoden2 ¨ar att minimera summan av kvadra-terna p˚a de lodr¨ata avst˚anden mellan de, fr˚an stickprovet, erh˚allna v¨ardena och den teoretiska regressionslinjen.
1
fr˚an engelskans Least Squares Estimator
2
F¨orkortat MK-metoden
12 KAPITEL 2. PUNKTSKATTNINGAR 2.1.1 Definition. L˚at Q(α, β) vara summan av kvadraterna p˚a det lodr¨ata avst˚andet εi, i = 1, . . . , n, fr˚an den teoretiska regressionslinjen, jfr 1.1.3, s˚a
att Q(α, β) = n X i=1 (yi− µi)2.
Q(α, β) ben¨amns residualkvadratsumman.
2.1.2 Lemma. Det g¨aller att α∗ och β∗ ¨ar MK-skattningarna av α respek-tive β och f˚as som
α∗ = ¯y − β∗x¯ och β∗ = n X i=1 xiyi− 1 n n X i=1 xi n X i=1 yi n X i=1 x2i − 1 n n X i=1 xi !2
Bevis. Genom att derivera Q(α, β), se 2.1.1, och s¨atta de partiella deriva-torna med avseende p˚a α respektive β till noll, kan Q(α, β) minimeras. Man finner att ∂Q ∂α = −2 n X i=1 (yi− µi) och ∂Q ∂β = −2 n X i=1 xi(yi− µi) Vidare f˚as d˚a att ∂Q ∂α = 0 =⇒ −2 n X i=1 (yi− µi) = 0 ⇐⇒ ⇐⇒ −2 n X i=1 (yi− α − βxi) = 0 ⇐⇒ ⇐⇒ n X i=1 (yi) − nα − β n X i=1 (xi) = 0 ⇐⇒ ⇐⇒ α = 1 n n X i=1 (yi) − β n n X i=1 (xi) ⇐⇒ ⇐⇒ α = ¯y − β ¯x
2.1. MINSTA-KVADRAT-METODEN 13 Analogt f¨or β f˚as att ∂Q ∂β = 0 =⇒ −2 n X i=1 xi(yi− µi) = 0 ⇐⇒ ⇐⇒ −2 n X i=1 xi(yi− α − βxi) = 0 ⇐⇒ ⇐⇒ n X i=1 xiyi− α n X i=1 xi− β n X i=1 x2i = 0 ⇐⇒ ⇐⇒ β = Pn i=1xiyi− α Pn i=1xi Pn i=1x2i
Genom att i ekvationen ovan ers¨atta α med α = ¯y − β ¯x f˚as slutligen att
β = n X i=1 xiyi− 1 n n X i=1 xi n X i=1 yi n X i=1 x2i − 1 n n X i=1 xi !2
2.1.3 Definition. Den skattade enkla regressionslinjen bildas av y∗ = α∗+ β∗x,
d¨ar α∗ och β∗ utg¨or punktskattningarna i 2.1.2 Vidare g¨aller f¨or varje givet x = x0 att tillh¨orande v¨antev¨arde µ0 kan ber¨aknas som det skattade v¨
ante-v¨ardet
µ∗0 = α∗+ β∗x0.
2.1.4 Exempel. (forts. 1.1.5)Man finner att diametern yi varierar med
inst¨allningen xi som i tabellen nedan.
Tabell 2.1:
xi 0, 15 0, 20 0, 25 0, 30 0, 35 0, 40 0, 45
yi 2, 43 2, 47 2, 49 2, 51 2, 54 2, 55 2, 57
Ber¨akningar ger
7 X i=1 xi= 2, 1 7 X i=1 x2i = 0, 7 7 X i=1 yi = 17, 56 n X i=1 xiyi = 5, 3
vilket ger β∗ = 0, 457 och α∗ = 2, 37 s˚a att den skattade regressionslinjen blir y∗ = 2, 37 + 0, 457x. Den ¨onskade diametern 2, 50 mm utg¨or v¨antev¨ardet µ0 som ges av x∗0= 0, 28.
14 KAPITEL 2. PUNKTSKATTNINGAR 2.1.5 Lemma. L˚at β∗ vara det skattade v¨ardet av β. D˚a g¨aller att v¨antev¨ardet E(β∗) samt variansen V (β∗) ges av
E(β∗) = β respektive V (β∗) = σ
2
Pn
i=1(xi− ¯x)2
d¨ar σ utg¨or standardavvikelsen.
Bevis. Genom att anv¨anda k¨anda satser fr˚an sannolikhetsl¨aran finner man att E(β∗) = E Pn i=1(xi− ¯x)Yi Pn i=1x2i − 1 n( Pn i=1xi) 2 ! = = Pn i=1(xi− ¯x)µi Pn i=1x2i −n1 ( Pn i=1xi)2 = = Pn i=1(xi− ¯x)(α + βxi) Pn i=1x2i −n1 ( Pn i=1xi) 2 = = α Pn i=1xi+ βPni=1x2i − nα¯x −n1β ( Pn i=1xi)2 Pn i=1x2i −n1( Pn i=1xi)2 = = βPn i=1x2i −n1( Pn i=1xi)2 Pn i=1x2i − 1n( Pn i=1xi)2 = β
F¨or variansen visas att
V (β∗) = V Pn i=1(xi− ¯x)Yi Pn i=1(xi− ¯x)2 = = σ2 Pn i=1(xi− ¯x)2 (Pn i=1(xi− ¯x)2)2 = = σ 2 Pn i=1(xi− ¯x)2
Anm¨arkning. Man ser enligt f¨oreg˚ande resonemang att β∗ ¨ar v¨ ante-v¨ardesriktig samt att variansen ¨ar liten d˚aPn
2.1. MINSTA-KVADRAT-METODEN 15 2.1.6 Lemma. L˚at µ∗0 vara det skattade v¨ardet av µ0. D˚a g¨aller f¨or v¨
ante-v¨ardet E(µ∗0) samt variansen V (µ∗0) att dessa ges av E(µ∗0) = µ respektive V (µ∗0) = σ2 1 n+ (x0− ¯x)2 Pn i=1(xi− ¯x)2
Bevis. F¨or v¨antev¨ardet erh˚alls E(µ∗0) = E(α∗+ β∗x0) = = E n X i=1 1 n − (xi− ¯x) Pn i=1(xi− ¯x)2 ¯ x +Pn(xi− ¯x) i=1(xi− ¯x)2 x0 Yi ! = = n X i=1 1 n− (xi− ¯x)(x0− ¯x) Pn i=1(xi− ¯x)2 (α + βxi) = = α n X i=1 1 n− (xi− ¯x)(x0− ¯x) Pn i=1(xi− ¯x)2 + + β n X i=1 xi n − (xi− ¯x)(x0− ¯x)xi Pn i=1(xi− ¯x)2 = = α + β ¯x + β(x0− ¯x) = = α + βx0 = µ0
d¨ar det har utnyttjats att Pn
i=1(xi− ¯x) = 0 samt
Pn
i=1(xi− ¯x)xi = 1.
Vidare finner man att variansen kan ber¨aknas som V (µ∗0) = V (α∗+ β∗x0) = = V n X i=1 1 n − (xi− ¯x) Pn i=1(xi− ¯x)2 ¯ x +Pn(xi− ¯x) i=1(xi− ¯x)2 x0 Yi ! = = V n X i=1 1 n − (xi− ¯x)(x0− ¯x) Pn i=1(xi− ¯x)2 Yi ! = = σ2 n X i=1 1 n2 + 2(xi− ¯x)(x0− ¯x) nPn i=1(xi− ¯x)2 + (xi− ¯x) 2(x 0− ¯x)2 (Pn i=1(xi− ¯x)2) 2 ! = = σ2 1 n+ (x0− ¯x)2 Pn i=1(xi− ¯x)2
2.1.7 Definition. Som skattning till standardavvikelsen σ tas s =pQ0/(n − 2)
d¨ar Q0 utg¨or summan av kvadraterna p˚a avst˚anden i lodr¨at led fr˚an yi,
i = 1, . . . , n, till den skattade regressionslinjen y∗ = α∗+ β∗xi, jfr. definition
16 KAPITEL 2. PUNKTSKATTNINGAR
2.2
Maximum-likelihood-metoden
En annan metod som anv¨ands f¨or att skatta de ing˚aende parametrarna i den teoretiska regressionslinjen ¨ar den s˚a kallade Maximum-likelihood-metoden3.
Den bygger p˚a att som skattare v¨alja de v¨arden p˚a parametrar som troligast skulle ha genererat det studerade stickprovet.
2.2.1 Definition. L˚at Y1, . . . , Ynvara oberoende s.v. s˚adana att Yi ∈ N (µi, σ),
i = 1, . . . , n. D˚a definieras Likelihood-funktionen4 som L(Y, α, β) = 1 2πσ2 n2 e Pn i=1(yi−µi)2 2σ2 .
Anm¨arkning. Till skillnad fr˚an fallet med MK-metoden, g¨aller det h¨ar att maximera L-funktionen genom att likst¨alla de partiella derivatorna med noll och l¨osa ut α respektive β. Genom att logaritmera L-funktionen erh˚alls den s˚a kallade log-likelihood-funktionen, som har till sin f¨ordel att den m˚anga g˚anger ¨ar l¨attare att derivera ¨an L-funktionen.
2.2.2 Definition. L˚at som i 2.2.1 Y1, . . . , Yn vara oberoende s.v. och
Yi ∈ N (µi, σ), i = 1, . . . , n. Log-likelihood-funktionen definieras d˚a som
ln L(Y, α, β) = −n ln σ − n ln(2π)1/2− 1 2σ2 n X i=1 (yi− µi)2
d¨ar yi ¨ar observationer p˚a Yi, µi definieras som i 1.1.2 och σ ¨ar
standard-avvikelsen.
2.2.3 Lemma. L˚at ˆα och ˆβ vara ML-skattningarna av α respektive β. D˚a ges dessa av ˆ α = ¯y − ˆβ ¯x och β =ˆ n X i=1 xiyi− 1 n n X i=1 xi n X i=1 yi n X i=1 x2i − 1 n n X i=1 xi !2
Bevis. F¨oljande uttryck erh˚alls efter utveckling av ekvationen i 2.2.2 efter att ha inf¨ort µi enligt Definition 1.1.2:
ln L(Y, α, β) = − n ln σ − n ln(2π)1/2 − 1 2σ2 n X i=1 y2i − 2α n X i=1 yi− 2β n X i=1 xiyi+ nα2+ 2αβ n X i=1 xi+ β2 n X i=1 x2i ! 3 F¨orkortat ML-metoden. 4 F¨orkortat L-funktionen
2.2. MAXIMUM-LIKELIHOOD-METODEN 17 Partiell derivering av detta uttryck med avseende p˚a α ger
∂ ln L(Y, α, β) ∂α = 1 σ2 n X i=1 yi− nα σ2 − β σ2 n X i=1 xi
vilket, genom att s¨atta det lika med noll, kan maximeras s˚a att 1 σ2 n X i=1 yi− nα σ2 − β σ2 n X i=1 xi= 0 ⇐⇒ ⇐⇒ α = 1 n n X i=1 yi− β n X i=1 xi ! ⇐⇒ ⇐⇒ α = ¯y − β ¯x
Analogt f˚as vid derivering med avseende p˚a β att ∂ ln L(Y, α, β) ∂β = − 1 2σ2 −2 n X i=1 xiyi+ 2α n X i=1 xi+ 2β n X i=1 x2i !
Maximering av detta uttryck ger
− 1 2σ2 −2 n X i=1 xiyi+ 2α n X i=1 xi+ 2β n X i=1 x2i ! = 0 ⇐⇒ ⇐⇒ n X i=1 xiyi− α n X i=1 xi− β n X i=1 x2i = 0 ⇐⇒ ⇐⇒ n X i=1 xiyi− (¯y − β ¯x) n X i=1 xi− β n X i=1 x2i = 0 ⇐⇒ ⇐⇒ n X i=1 xiyi− 1 n n X i=1 xi n X i=1 yi+ β n n X i=1 xi !2 − β n X i=1 x2i = 0 ⇐⇒ ⇐⇒ β n X i=1 x2i − 1 n n X i=1 xi !2 = n X i=1 xiyi− 1 n n X i=1 xi n X i=1 yi⇐⇒ ⇐⇒ β = Pn i=1xiyi−n1 Pn i=1xi Pn i=1yi Pn i=1x2i −n1( Pn i=1xi)2
Anm¨arkning. Inte f¨oga f¨orv˚anande finner man att skattningarna av α och β blir de samma oavsett man anv¨ander MK-skattning eller ML-skattning. Vilken av metoderna man v¨aljer att utnyttja beror p˚a vilken av dem som ger enklast ber¨akningar att genomf¨ora.
Kapitel 3
Intervallskattningar
Ofta finns beh˚allning av att kunna avg¨ora inom vilket intervall skattningarna av α och β med stor sannolikhet befinner sig, och detta g¨ors med hj¨alp av intervallskattningar. F¨or att underl¨atta l¨asandet avses med∗ i detta avsnitt s˚av¨al MK-skattning som ML-skattning.
3.1
Standardavvikelsen k¨
and
3.1.1 Definition. L˚at β∗ vara punktskattningen av β och antag att stan-dardavvikelsen σ ¨ar k¨and. Ett konfidensintervall med konfidensgraden (1 − p), d¨ar p st˚ar f¨or sannolikheten, f¨or β utg¨ors d˚a av
Iβ = (β∗− λp 2D, β ∗ + λp 2D) d¨ar D = v σ u u t n X i=1 (xi− ¯x)2
3.1.2 Definition. Det g¨aller att µ∗0 ¨ar det skattade v¨ardet av µ0. I det fallet
att standardavvikelsen σ ¨ar k¨and, utg¨ors ett konfindensintervall f¨or µ0 med
konfidensgraden (1 − p) av Iµ0 = (µ ∗ 0− λp2D, µ∗0+ λp2D) d¨ar D = σ · s 1 n + (xi− ¯x)2 Pn i=1x2i −n1 ( Pn i=1xi) 2 19
20 KAPITEL 3. INTERVALLSKATTNINGAR
3.2
Standardavvikelsen ok¨
and
3.2.1 Definition. L˚at det g¨alla att standardavvikelsen ¨ar ok¨and. D˚a skattas σ som s = pQ0/(n − 2), jfr. definition 2.1.7. Ett konfidensintervall f¨or β
med konfidensgraden (1 − p) kan d˚a bildas genom Iβ = (β∗− tp
2(n − 2)d, β
∗
+ tp
2(n − 2)d)
d¨ar β∗ ¨ar skattningen av β och n ¨ar antalet ing˚aende observationer samt
d = q s Pn i=1x2i − 1 n( Pn i=1xi) 2
3.2.2 Definition. D˚a standardavvikelsen ¨ar ok¨and f˚as f¨or µ0 ett
konfi-densintervall med konfidensgraden (1 − p) enligt Iµ0 = (µ
∗
0− tp2(n − 2)d, µ∗0+ tp2(n − 2)d)
d¨ar µ∗0 ¨ar skattningen av µ0, n ¨ar antalet ing˚aende observationer samt
d = s · s 1 n + (x0− ¯x)2 Pn i=1x2i −n1 ( Pn i=1xi) 2
Kapitel 4
Multipel regression
Det kan n¨amnas att den linj¨ara regressionsmodellen ibland inneh˚aller fler ¨an en f¨orklarande variabel som p˚averkar utfallet. Skattningarna av de ing˚aende parametrarna g¨ors analogt som i fallet med enkel linj¨ar regression, d.v.s. genom att minimera Q(α, β1, . . . , βs) eller maximera L(Y, α, β1. . . , βs), men
ber¨akningarna blir dock mer tids¨odande.
4.1
Utvidgning av enkel linj¨
ar regression
4.1.1 Definition. L˚at xi och xj vara tv˚a observationer av f¨orklarande
vari-abler Xi och Xj, s˚a att i 6= j och i = 1, . . . , n samt j = 1, . . . , n. En Multipel
regressionsmodell f¨or den s.v. Y kan d˚a skrivas p˚a formen Y = α + βiXi+ βjXj+ ε
d¨ar ε utg¨or de slumpm¨assiga avvikelserna fr˚an det teoretiska regressions-planet.
4.1.2 Definition. Det g¨aller att α∗, βi∗ och β∗j ¨ar skattningarna av α, βi
och βj samt att i 6= j, i = 1, . . . , n och j = 1, . . . , n. Som konfidensintervall
med konfidensgraden (1 − p) tas d˚a Iµ0 = (µ ∗ 0± tp2(f )d) Iβi = (β ∗ i ± tp2(f )d) Iβj = (β ∗ j ± tp2(f )d)
d¨ar d anges i definition 3.2.2 respektive 3.2.1 och f definieras som
(n − k), d¨ar k ¨ar antalet ok¨anda parametrar och n ¨ar antalet ing˚aende ob-servationer p˚a de s.v.
22 KAPITEL 4. MULTIPEL REGRESSION
4.2
Polynomregression
4.2.1 Definition. I det fallet att regressionsmodellen ¨ar p˚a formen Y = α + βixi+ βjxj+ ε
d¨ar xi = xi samt i 6= j, i = 1, . . . , n och j = 1, . . . , n, talar man om
Kapitel 5
Styckvis Linj¨
ar Regression
5.1
Introduktion
Detta kapitel kommer behandla de fall d˚a det inte ¨ar l¨ampligt att anpassa endast en r¨at linje till de erh˚allna punkterna i planet, s˚a som var fallet vid enkel linj¨ar regression och multipel linj¨ar regression. Nu best˚ar uppgiften ist¨allet av att kunna stycka upp linjen i flera bitar, var och en med olika lutning samt olika intercept. F¨orst n˚agra grundl¨aggande definitioner. 5.1.1 Definition. L˚at X utg¨ora en m¨angd av stickprov (xij, yij) ∈ {Xi}
k i=1,
j = 1, . . . , n s˚adana att X = Sk
i=1Xi och Xi ∩ Xm = ∅ f¨or varje i, m =
1, . . . , k, det vill s¨aga att {Xi}ki=1 ¨ar en partition av X.
5.1.2 Definition. En Styckvis Linj¨ar Regressionsmodell anpassar en r¨at linje till var och en av {Xi}ki=1 s˚a att regressionslinjen ¨ar kontinuerlig i
alla punkter samt inneh˚aller strukturf¨or¨andringar vilka utm¨arker sig som ¨
andringar i linjens lutning.
5.1.3 Definition. L˚at Xi0 vara den punkt l¨angs med de f¨orklarande
vari-ablernas axlar, d¨ar strukturf¨or¨andringen hos regressionslinjen intr¨affar. D˚a definieras Xi0 som brytpunkten hos regressionslinjen.
5.2
Blindvariabler
F¨or att kunna ange en modell f¨or styckvis linj¨ar regression beh¨over begreppet blindvariabel studeras n˚agot n¨armre.
5.2.1 Definition. Det g¨aller att Di¨ar en blindvariabel, vilken ¨ar en funktion
som antar olika distinkta v¨arden beroende p˚a stickprovets utfall.
5.2.2 Exempel. P˚a ett f¨oretag vill man studera hur kostnaden vid till-verkning av en produkt p˚averkas av olika inst¨allningar av en viss maskin.
24 KAPITEL 5. STYCKVIS LINJ ¨AR REGRESSION Man finner att kostnaden Y ¨ar p˚a formen Y = α + βD + ε d¨ar D ¨ar en blindvariabel s˚adan att
D = (
1 om inst¨allning A anv¨ands, 0 om inst¨allning B anv¨ands. Detta f˚ar till f¨oljd att produktkostnaden blir
Y = (
α om D = 0, α + β om D = 1.
Anm¨arkning. Antalet blindvariabler kan ut¨okas godtyckligt f¨or att an-passas till r˚adande situation. Om, i exemplet ovan, det ist¨allet hade handlat om att unders¨oka produktionskostnaden f¨or tre olika maskininst¨allningar, hade tv˚a blindvariabler kunnat inf¨oras.
5.3
Regressionsmodell d˚
a brytpunkten ¨
ar k¨
and
Ibland vill man studera f¨orlopp d¨ar man i f¨orv¨ag vet var den struktur-ella f¨or¨andringen hos regressionslinjen sker, det vill s¨aga Xi0 ¨ar k¨and. Detta
avsnitt kommer fr¨amst att behandla det fall d˚a endast en f¨or¨andring i lut-ningen sker hos regressionslinjen, men mot slutet ges ocks˚a en definition f¨or det utvidgade fallet med fler k¨anda brytpunkter.
5.3.1 Definition. En regressionsmodell med en strukturf¨or¨andring definieras som
Y = α + β1X + β2(X − X0)D + ε
d¨ar X0 ¨ar brytpunkt och D ¨ar en blindvariabel s˚a att
D = (
1 om X > X0,
0 annars.
5.3.2 Lemma. L˚at Y definieras s˚a som i 5.3.1. D˚a g¨aller f¨or v¨antev¨ardet f¨or Y att detta ¨ar kontinuerligt och
E(Y ) = (
(α + β1X) om X ≤ X0,
(α − β2X0) + (β1+ β2)X om X > X0.
Bevis. Vi visar att funktionen ¨ar kontinuerlig. Det f¨oljer f¨or v¨antev¨ardet Y0
i brytpunkten X0 att
E(Y0) = α + β1X0
jfr. 5.3.2
= (α − β2X0) + (β1+ β2)X0= α + β1X0
5.3. REGRESSIONSMODELL D˚A BRYTPUNKTEN ¨AR K ¨AND 25 Den modell som angetts i detta avsnitt utvidgas utan st¨orre problem till att innefatta fler f¨orklarande variabler β3, . . . , βk, samt fler brytpunkter Di.
5.3.3 Definition. En regressionsmodell med godtyckligt m˚anga brytpunk-ter och f¨orklarande variabler definieras som
Y = α + β1X + β2(X − X10)D1+ . . . + βk(X − X(k−1))D(k−1)
d¨ar vidare Di definieras som
Di=
(
1 om X > Xi0,
0 annars.
och Xi0 ¨ar brytpunkter samt k ¨ar antalet ok¨anda parametrar p˚a formen
Kapitel 6
Approximation av
brytpunkter
I mer vanligt f¨orekommande fall ter det sig s˚a att man p˚a f¨orhand inte k¨anner till om regressionsmodellen inneh˚aller n˚agra strukturf¨or¨andringar. Med an-dra ord, eventuella brytpunkter ¨ar ok¨anda. Best¨ammningen av parametrarna i regressionsmodellen f¨orsv˚aras d˚a av att Xi0, (jfr. definition 5.1.3), ocks˚a
m˚aste approximeras. Detta avsnitt kommer d¨arf¨or behandla en algoritm f¨or hur detta kan genomf¨oras enligt McGee och Carleton (1970).
6.1
Introduktion
¨
Overgripande f¨or metoden kan s¨agas att den bygger p˚a att sammanfoga n¨arliggande punkter i det erh˚allna stickprovet om totalt N stycken punkter, genom att studera deras m¨ojlighet att anpassas till en r¨at linje. McGee och Carleton omn¨amner detta som ‘goodness-of-fit’ measure. I utg˚angsl¨aget studeras trippler av intilliggande punkter f¨or vilka man skattar en teoretisk regressionslinje, (se definition 2.1.3). D¨arp˚a studeras vilka av dessa trippler som b¨ast anpassar en r¨at linje och denna trippel v¨aljs som fix. I n¨asta steg kontrollerar man om de punkter som befinner sig (1); till h¨oger och (2); till v¨anster om den fixa trippeln, kan inneslutas i regressionslinjen utan att p˚averka linj¨ariteten. Nu studerar man ˚ater igen de kvarvarande punkterna och fixerar en ny trippel och s˚a fortl¨oper f¨orfarandet till dess att alla punkter i stickprovet har infogats i regressionslinjen. Tyngdpunkten ligger i att h˚alla f¨oreg˚aende niv˚as linjesegment som fixt och utifr˚an detta avg¨ora huruvida intilliggande punkter eller linjesegment ska infogas till det f¨orstn¨amnda.
6.2
Terminologi
F¨or att underl¨atta framst¨allningen f¨oljer h¨ar en lista ¨over de ben¨amningar som anv¨ands i modellen.
28 KAPITEL 6. APPROXIMATION AV BRYTPUNKTER Kluster. Med ett kluster av storlek q avses en m¨angd av q
intilliggande punkter i stickprovet.
Potentiellt kluster. I varje steg av processen ber¨aknas m¨ojligheten till anpassning av en r¨at linje f¨or intilliggande punkter. Dessa kallas f¨or ett potentiellt kluster.
Fixt kluster. I vilken niv˚a som helst av processen n¨ar ett kluster visar sig att b¨ast anpassa en r¨at linje, blir detta ett fixt kluster, med inneb¨orden att det nu ing˚ar i ett linjesegment.
Minimalt kluster. D˚a varje linjesegment m˚aste skattas enligt definition 2.1.3, kr¨avs minst tre punkter f¨or att detta ska kunna genomf¨oras. I utg˚angsl¨aget ¨ar s˚aledes alla trippler s˚adana minimala kluster. (Om stickprovet ¨ar stort kan antalet punkter i de minimala klustren ¨okas).
Klusterniv˚a. Processen delas in i olika niv˚aer d¨ar L0 betecknar
utg˚angsl¨aget d¨ar samtliga punkter i stickprovet utg¨or kluster av storlek 1, och Lf avser slutniv˚an d¨ar samtliga punkter tillh¨or
den definitiva regressionsmodellen.
Isolerade punkter. Ett kluster av storlek 1 ¨ar en isolerad punkt. P˚a niv˚a L0 ¨ar antalet isolerade punkter N stycken och f¨or Lf
g¨aller att det inte finns n˚agra isolerade punkter.
Uteslutna punkter. Ibland f¨orekommer det att vissa v¨arden i stickprovet ¨ar extremv¨arden som inte ¨ar representativa f¨or utfallet. Om man under processens g˚ang ser att det f¨orekommer punkter som f¨orblir isolerade n¨astan hela v¨agen fram till Lf,
kan detta tyda p˚a att det ¨ar extremv¨arden som kan uteslutas ur stickprovet.
Goodness-of-fit. Varje potentiellt kluster m˚aste studeras med avseende p˚a dess f¨orm˚aga att anpassas till en r¨at linje. Detta g¨ors genom att ber¨aknaPn
i=1ε2i/(n − 2), (f¨or ε se definition
1.1.3), d¨ar n ¨ar storleken p˚a det potentiella klustret. Ju l¨agre detta m˚att ¨ar, desto b¨attre goodness-of-fit, d.v.s. desto b¨attre anpassning till en r¨at linje f¨or de betraktade punkterna.
Klusterklassifikation. Fyra typer av kluster kan identifieras. Med Typ 0 avses ett minimalt kluster medan Typ 1 syftar p˚a ett fixt kluster som sammanfogas med en, till v¨anster, intilliggande punkt. Vidare inneb¨ar Typ 2 ett fixt kluster som sammanfogas med en, till h¨oger, intilliggande punkt och slutligen avses med Typ 3 sammanfogningen av tv˚a n¨arliggande fixa kluster.
6.3. GRUNDL ¨AGGANDE ANM ¨ARKNINGAR 29
6.3
Grundl¨
aggande anm¨
arkningar
Varje kluster som studeras ¨ar p˚a formen y = α + βx + ε d¨ar α och β skattas enligt avsnitt 2. F¨or att avg¨ora vilket av klustren som har b¨ast goodness-of-fit betraktar man summan
Φ = Pn
i=1ε2i
(n − 2) (6.1)
d¨ar n ¨ar storleken p˚a klustret och ε ¨ar residualen (se Definition 1.1.3). Efter att ha ber¨aknat Φ f¨or varje potentiellt kluster, v¨aljes det kluster med l¨agst v¨arde p˚a Φ som fixt.
Vidare g¨aller, om detta nya, fixa kluster ¨ar av Typ 0, att inget sig-nifikanstest beh¨over genomf¨oras. Om d¨aremot det nya klustret ¨ar av Typ 1 eller Typ 2 beh¨ovs en kontroll f¨or att avg¨ora om inf¨orandet av ytterli-gare en punkt i det fixa klustret p˚averkar linj¨ariteten. Detta g¨ors genom ett statistiskt F -test: F(1,n−2)= (y0− ˆy0∗)2+ n X i=1 (ˆyi− ˆyi∗)2 Φ , (6.2)
d¨ar index 0 avser den isolerade, n¨arliggande punkten. Vidare g¨aller att i avser de, i det fixa klustret, ing˚aende punkterna och asterisken refererar till det skattade v¨ardet av y0 och yi baserat p˚a (n + 1) punkter. Slutligen g¨aller
att Φ ¨ar m˚attet p˚a linj¨ariteten enligt ekvation 6.1. Om det nya klustret ¨ar av Typ 3 kan liknande signifikanstest genomf¨oras f¨or de intilliggande klustren. Modellen f¨or testet blir d˚a
F(2,m+n−4)= m+n X i=1 ε2iC− m X j=1 ε2jL− n X k=1 ε2kR /2 m X j=1 ε2jL+ n X k=1 ε2k R /(m + n − 4) (6.3)
d¨ar L, R och C syftar p˚a det v¨anstra klustret, h¨ogra klustret och det kom-binerade klustret respektive, samt antalet punkter i det v¨anstra och h¨ogra klustret ¨ar m och n respektive. Om F -testets v¨arde ¨ar h¨ogt och d¨armed sannolikheten l˚ag, kan det vara ol¨ampligt att sammanfoga de unders¨okta punkterna och klustrerna.
I algoritmen kan anpassningar g¨oras f¨or att b¨ast passa r˚adande situation. Man kan t.ex. p˚a f¨orhand best¨amma hur m˚anga isolerade punkter som ska till˚atas under processens g˚ang. Likas˚a kan man l˚ata g¨alla att klustren bara f˚ar vara av typen minimala kluster hela v¨agen fram till n¨ast sista niv˚an, och att man d¨arifr˚an utf¨or signifikanstestet f¨or Typ 3-kluster.
30 KAPITEL 6. APPROXIMATION AV BRYTPUNKTER
6.4
Algoritmen
Nedan f¨oljer en schematisk ¨oversikt kring hur modellen fungerar. Man b¨or skriva detta som ett program i t.ex. Cygwin eller Matlab f¨or att kunna utf¨ora de ber¨akningar som kr¨avs inom rimliga tidsramar.
1. INPUT
N=Antalet punkter i stickprovet C=Minsta till˚atna kluster
T=Antal till˚atna isolerade punkter
E=Antal uteslutna punkter (och identifiering av dessa om de existerar)
2. IDENTIFIERA DE POTENTIELLA KLUSTRENA INF ¨OR N ¨ASTA NIV˚A
3. BER ¨AKNA GOODNESS-OF-FIT, Φ, F ¨OR VARJE POTENTIELLT KLUSTER OM DETTA INTE REDAN ¨AR GJORT
4. IDENTIFIERA DET KLUSTER MED L ¨AGST V ¨ARDE P˚A Φ OCH V ¨ALJ DETTA SOM FIXT.
5. BEST ¨AM ANTALET ISOLERADE PUNKTER P˚A DEN AKTUEL-LA NIV˚AN OCH KALLA DESSA F ¨OR T’
6. OM T’>T G˚A TILL 2. ANNARS G˚A TILL 7 7. KLASSIFICERA DET SENASTE KLUSTRET 8. OM KLUSTRET ¨AR AV TYP 0, G˚A TILL 2
OM KLUSTRET ¨AR AV TYP 1 ELLER TYP 2, G˚A TILL 9 OM KLUSTRET ¨AR AV TYP 3, G˚A D˚A TILL 10
9. UTF ¨OR SIGNIFIKANSTESTET ENLIGT EKVATION 6.2 SAMT BER ¨AKNA TILLH ¨ORANDE SANNOLIKHET. G˚A TILL 11
10. UTF ¨OR SIGNIFIKANSTESTET ENLIGT EKVATION 6.3 SAMT BER ¨AKNA TILLH ¨ORANDE SANNOLIKHET. G˚A TILL 11
11. ˚ASK˚ADLIGG ¨OR DETALJERNA P˚A DENNA NIV˚A OCH KON-TROLLERA OM DETTA ¨AR DEN SLUTLIGA NIV˚AN. OM INTE, G˚A TILL 2
6.5. ETT NUMERISKT EXEMPEL 31
6.5
Ett numeriskt exempel
F¨or att ˚ask˚adligg¨ora metoden f¨oljer nedan ett exempel som endast innefattar sju punkter. Det ¨ar dock tillr¨ackligt f¨or att kunna ber¨akna Φ samt anv¨anda de tv˚a olika F-testen. I detta exempel g¨aller att N= 7, C= 3, T= 0 samt E= 0.
6.5.1 Exempel. Vid en industri uppt¨acker man att oms¨attningen minskar drastiskt. D˚a man inte kan se n˚agon direkt anledning till varf¨or detta har skett, vill man kunna approximera vid vilken tidpunkt minskningen har in-tr¨affat, f¨or att utifr˚an denna tidpunkt sedan vidare kunna analysera orsaken. Man v¨aljer ut 7 stycken tidpunkter under det senaste kvartalet f¨or vilka man kontrollerar oms¨attningen. Resultatet kan ses i Tabell 6.1 nedan.
Tabell 6.1:
x 1 2 3 4 5 6 7
y 0.33 1.67 2.00 3.00 1.00 0.67 -0.33
Dessa talpar kan plottas i ett xy-plan och utg¨or d˚a punkter i planet. F¨orsta steget i algoritmen ¨ar att dela in dessa punkter tre och tre s˚a att punkterna (1 − 3), (2 − 4), (3 − 5) o.s.v. utg¨or potentiella kluster. F¨or varje s˚adant kluster best¨ams sedan punktskattningarna α∗ och β∗ enligt kapitel 2 s˚a att
α∗ = ¯y − β∗x¯ och
β∗ =
Pn
i=1xiyi−n1Pni=1xiPni=1yi
Pn i=1x2i− 1 n( Pn i=1xi) 2
Med hj¨alp av dessa kan sedan residualen be¨aknas enligt ekvationen i 1.1.3 och slutligen kan Φ ber¨aknas. Resultatet f¨or ber¨akningarna av Φ kan ses i Tabell 6.2 nedan. Som kan ses i tabellen har kluster (2 − 4) samt kluster (5 − 7) l¨agst v¨arden p˚a Φ och allts˚a v¨aljs dessa tv˚a kluster som fixa. B˚ada ¨
ar av Typ 0 s˚a inget signifikanstest beh¨ovs p˚a denna niv˚a.
Tabell 6.2: Kluster Φ (1-3) 0.170 (2-4) 0.075 (3-5) 3.500 (4-6) 0.465 (5-7) 0.075
32 KAPITEL 6. APPROXIMATION AV BRYTPUNKTER P˚a n¨asta niv˚a kontrolleras om punkt 1 kan inf¨oras i kluster (2 − 4). Till att b¨orja med skattas α∗ och β∗ med punkter (1 − 4) som ing˚angsv¨arden. D¨arefter ber¨aknas F-testet enligt ekvation 6.2. N¨asta steg best˚ar i att g¨ora ett signifikanstest enligt ekvation 6.3 f¨or att se om klustrerna (1 − 4) och (5 − 7) eventuellt kan sammanfogas utan att p˚averka linj¨ariteten i f¨or stor grad. De olika klusterniv˚aerna med tillh¨orande F-v¨arde och sannolikhet kan ses i Tabell 6.3 nedan.
Tabell 6.3:
Niv˚a Fixt kluster #Isolerade punkter Typ F-v¨arde Sannolikhet
0 0 7 – – –
1 (2-4),(5-7) 1 0 – –
2 (1-4),(5-7) 0 1 1.272 0.484
3 (1-7) 0 3 39.14 0.008
Ur tabellen f¨oljer att sannolikheten f¨or att kluster (1 − 4) och (5 − 7) tillh¨or samma regressionslinje ¨ar t¨amligen l˚ag, varf¨or niv˚a 2 v¨aljs som den slutgiltiga. S˚aledes intr¨affar minskningen i oms¨attning n˚agong˚ang mellan m¨atning 4 och 5. Fr˚an de skattade parametrarna till respektive kluster f¨oljer att oms¨attningsutvecklingen kan beskrivas som
y = (
−0.335 + 0.834x om x ≤ x4,
4.437 − 0.665x om x > x4.
(6.4) Om denna ekvation plottas i en graf kommer man dock m¨arka att funktionen inte ¨ar kontinuerlig mellan x = 4 och x = 5. ¨Aven McGee och Carlton (1970) f˚ar denna diskontinuitet i sin regressionsmodell. Kravet p˚a en styckvis linj¨ar regressionsmodell ¨ar dock att denna skall vara kontinuerlig i alla punkter. F¨or att ˚astadkomma detta har jag som ett slutligt steg i mina ber¨akningar anv¨ant mig av modellen enligt definition 5.3.1 och best¨amt brytpunkten till X0 = 4 enligt f¨oreg˚aende kapitel. D¨arp˚a har jag ber¨akna Φ f¨or kluster (1−4)
samt motsvarande v¨arde f¨or kluster (4 − 7). Dessa visade sig vara Φ(1−4) = 0, 085
Φ(4−7) = 0, 262
Som utg˚angspunkt har jag sedan anv¨ant det kluster med l¨agst v¨arde p˚a Φ, det vill s¨aga kluster (1 − 4), f¨or vilket jag anv¨ant den skattade regres-sionslinjen till att kunna best¨amma µ0 i X0 = 4 till µ0 = 3, 001. Som ett
n¨asta steg har jag genomf¨ort en skattning av β2 i Definition 5.3.1 enligt
MK-skattningen i Kapitel 2 men som approximation till α har jag ist¨allet anv¨ant mig av f¨oljande ekvation:
6.5. ETT NUMERISKT EXEMPEL 33 Med dessa ber¨akningar utf¨orda har jag sedan kunnat ange en modell enligt Definition 5.3.1 som kan ses nedan.
Y = −0, 335 + 0, 834X − 1, 866(X − X0)D + ε d¨ar D = ( 1 om X > X0, 0 annars.
Denna ekvation ¨ar kontinuerlig i alla punkter och uppfyller s˚aledes kravet p˚a styckvis linj¨ar regression.
Ytterligare ett alternativ att ˚astadkomma en kontinuerlig regressionslinje ¨
ar att l˚ata brytpunkten X0 = 4 ing˚a i b¨agge klustren s˚a att den skattade
linjen f¨or kluster (1 − 4) anv¨ands enligt ekvation 6.4 men en ny skattning g¨ors f¨or kluster (4 − 7). Med hj¨alp utav detta v¨arde har jag sedan kunnat ber¨akna en regressionslinje p˚a formen
y = (
−0.335 + 0.834x om x ≤ x4,
6, 761 − 1, 032x om x > x4.
(6.5)
Ber¨akning av φ f¨or kluster 4−7 med ekvation 6.5 ger φ = 0, 262. Motsvarande ber¨akning men med ekvation 6.4 ger φ = 0, 786. Jag anser att justeringen av ekvationen kan motiveras utifr˚an det l¨agre v¨arde p˚a φ som detta genererar. Dock b¨or detta avg¨oras fr˚an fall till fall.
Litteraturf¨
orteckning
[1] Gunnar Blom, Sannolikhetsteori och statistikteori med till¨ampningar, femte upplagan, Studentlitteratur, Lund 2005.
[2] Giancarlo Ferrari-Trecate & Marco Muselli, ”‘A New Learning Method for Piecewise Linear Regression”, Proceedings of the International Con-ference on Artificial Neural Networks,Springer-Verlag, London, 2002. [3] Wolfgang Hardle, Hua Ling & Jiti Gao, Partially Linear Models,
Physica-Verlag, 2000.
[4] Richard J. Larsen & Morris L. Marx, An Introduction to Mathematical Statistics and Its Applications, 2thed., Prentice-Hall, New Jersey, 1986. [5] Victor E. McGee & Willard T. Carleton, ”‘Piecewise Regression”’, Journal of the American Statistical Association, 65 (September 1970), 1109-1124.
[6] Robert S. Pindyck & Daniel L. Rubinfeld, Econometric Models and Eco-nomic Forecasts, 4th ed., The McGraw-Hill Companies, Boston, 1998.