Något om regressionsanalys

(1)

N˚

agot om Regressionsanalys

Angelica Pettersson Institutionen f¨or naturvetenskap ¨ Orebro universitet 4 februari 2010

(2)

(3)

Inneh˚

all

Inneh˚all 2

F¨orord 4

Inledning 5

1 Enkel linj¨ar regression 9

1.1 Introduktion . . . 9 2 Punktskattningar 11 2.1 Minsta-kvadrat-metoden . . . 11 2.2 Maximum-likelihood-metoden . . . 16 3 Intervallskattningar 19 3.1 Standardavvikelsen k¨and . . . 19

3.2 Standardavvikelsen ok¨and . . . 20

4 Multipel regression 21 4.1 Utvidgning av enkel linj¨ar regression . . . 21

4.2 Polynomregression . . . 22

5 Styckvis Linj¨ar Regression 23 5.1 Introduktion . . . 23

5.2 Blindvariabler . . . 23

5.3 Regressionsmodell d˚a brytpunkten ¨ar k¨and . . . 24

6 Approximation av brytpunkter 27 6.1 Introduktion . . . 27

6.2 Terminologi . . . 27

6.3 Grundl¨aggande anm¨arkningar . . . 29

6.4 Algoritmen . . . 30

6.5 Ett numeriskt exempel . . . 31

(4)

(5)

F¨

orord

Jag skulle vilja tacka min handledare Yang Liu för konstruktiv kritik under arbetets g˚ang samt alla de ‘gulebøjer’ han försett mig med när min energi har trutit! Ocks˚a ett stort tack till Holger Schellwat som besvarat alla mina fr˚agor gällande LA_{TEX; ett mästerligt arbete! Dessutom vill jag tacka min}

familj som st˚att ut med mig under det här projektet; tack och förl˚at för att jag har varit s˚a disträ!

Angelica Pettersson Fellingsbro i februari 2010

(6)

(7)

Inledning

En gren inom statistikteorin är den s˚a kallade Regressionsanalysen där man studerar hur data fr˚an exempelvis ett stickprov kan anpassas till en graf. Under skrivandet av denna uppsats har jag haft som m˚al att bättre först˚a n˚agra av de metoder som finns att tillg˚a vid bestämning av de ing˚aende parametrarna i de enklare fallen av regression. Dessutom har jag valt att djupare studera den del inom regressionsanalysen som kallas Styckvis Linjär Regression.

I Kapitel 1 ges en introduktion till regressionsanalysen där grundläggande begrepp tas upp, samt exempel p˚a hur dessa används praktiskt. Definitionen av den teoretiska regressionslinjen ges samt definitionen av de slumpmässiga fel som uppst˚ar vid stickprov.

Vidare följer i Kapitel 2 en genomg˚ang av tv˚a olika metoder för att approximera de ing˚aende koefficienterna i den teoretiska regressionslinjen. Dessa tv˚a metoder är Minsta-kvadrat-metoden samt Maximum-likelihood-metoden. Även här ges numeriska exempel för att klargöra hur metoderna fungerar.

I Kapitel 3 redogörs för hur parametrarna i den teoretiska regressionslin-jen kan intervallskattas, d.v.s. metoder f˚as för att med önskad sannolikhet kunna avgöra inom vilket intervall de studerade parametrarna befinner sig. Därp˚a följer i Kapitel 4 ett mindre avsnitt kring hur en utvidgning av enkel linjär regression kan överföras till multipel linjär regression där antalet parametrar är godtyckliga. Metoder ges för att skatta parametrarna samt med önskad sannolikhet avgöra inom vilket intervall dessa befinner sig.

I Kapitel 5 introduceras begreppet styckvis linjär regression med en genomg˚ang av n˚agra grundläggande begrepp som berör denna gren inom regressionsanalysen. Definitionen av blindvariabler ges samt ett exempel p˚a hur dessa fungerar. Vidare ges en modell för att kunna skatta en styckvis linjär regressionslinje, givet vissa kriterier.

(8)

8 INNEH˚ALL Slutligen ges i Kapitel 6 en algoritm för hur brytpunkten i en styckvis linjär regressionslinje kan approximeras. Detta kapitel ger först en överblick kring metoden för att sedan introducera begrepp som används i modellen. Slutligen ges ett numeriskt exempel som redovisar hur algoritmen fungerar.

(9)

Kapitel 1

Enkel linj¨

ar regression

1.1 Introduktion

I m˚anga situationer finns det anledning att vilja kunna förutsäga hur olika val av parametrar p˚averkar utfallet. Exempelvis vid industriell tillverkning av en enhet vill producenten studera hur olika inställningar av en maskin p˚averkar enhetens diameter. P˚a grund av slumpmässiga fel kommer denna diameter variera fr˚an enhet till enhet men genom att välja den inställning av maskinen som genererar minst felmarginal, kan produktionen optimeras. En ofta använd metod för att bestämma dessa parametrar är enkel linjär regression. Metoden bygger p˚a att utifr˚an vissa givna värden ur till exempel ett stickprov, kunna bestämma en s˚a kallad teoretisk regressionslinje p˚a for-men y = α+βx, ur vilken det sedan för varje x g˚ar att beräkna motsvarande väntevärde y, eller omvänt, utifr˚an önskat väntevärde bestämma tillhörande värde p˚a x. Inledningsvis följer n˚agra definitioner som är grundläggande för den fortsatta diskussionen.

1.1.1 Definition. L˚at (x1, y1) . . . (xn, yn) vara n par av v¨arden d¨ar x1, . . . , xn

¨

ar observationer av f¨orklarande variabler Xi, . . . , Xnoch y1, . . . , yn¨ar

obser-vationer av oberoende stokastiska variabler (i forts¨attningen s.v.) Y1, . . . , Yn.

D˚a g¨aller att

Yi∈ N (µi, σ), i = 1, . . . , n

1.1.2 Definition. För µi, i = 1, . . . , n gäller att dessa är linjärt beroende

av xi s˚a att

µi= α + βxi

1.1.3 Definition. L˚at y1, . . . , yn vara observationer av oberoende

s.v. Y1, . . . , Yn. D˚a g¨aller att

εi = yi− µi = yi− α − βxi

utgör de slumpmässiga fel som uppst˚ar och är de lodräta avst˚and fr˚an yi,

i = 1, . . . , n till den teoretiska regressionslinjen. Det g¨aller att εi ∈ N (0, σ).

(10)

10 KAPITEL 1. ENKEL LINJ ÄR REGRESSION 1.1.4 Definition. En modell för enkel linjär regression kan tecknas som

Yi = α + βXi+ εi

d¨ar i = 1, . . . , n

1.1.5 Exempel. Vid tillverkning av kullager önskas en diameter p˚a 2, 50 mm. För sju olika inställningar p˚a maskinen utförs ett stickprov för var och en av inställningarna xi, varp˚a man mäter diametern yi, i = 1, . . . , 7. Man

finner att yi är linjärt beroende av xi, och en modell som tar hänsyn till de

(11)

Kapitel 2

Punktskattningar

Som nämndes inledningsvis vill man ofta finna ekvationen för den teoretiska regressionslinjen y = α + βx. Syftet med avsnittet är därför att redogöra för de metoder som finns att tillg˚a d˚a skattningar av parametrarna α och β ¨

onskas. I första delen beskrivs Minsta-kvadrat-metoden, även kallad LSE,1 som m˚anga g˚anger ger användbara punktskattningar till parametrarna i den teoretiska regressionslinjen. Därp˚a följer en beskrivning av Maximum-likelihood-metoden.

2.1 Minsta-kvadrat-metoden

Idén bakom Minsta-kvadrat-metoden2 är att minimera summan av kvadra-terna p˚a de lodräta avst˚anden mellan de, fr˚an stickprovet, erh˚allna värdena och den teoretiska regressionslinjen.

1

fr˚an engelskans Least Squares Estimator

2

F¨orkortat MK-metoden

(12)

12 KAPITEL 2. PUNKTSKATTNINGAR 2.1.1 Definition. L˚at Q(α, β) vara summan av kvadraterna p˚a det lodr¨ata avst˚andet εi, i = 1, . . . , n, fr˚an den teoretiska regressionslinjen, jfr 1.1.3, s˚a

att Q(α, β) = n X i=1 (yi− µi)2.

Q(α, β) ben¨amns residualkvadratsumman.

2.1.2 Lemma. Det g¨aller att α∗ och β∗ ¨ar MK-skattningarna av α respek-tive β och f˚as som

α∗ = ¯y − β∗x¯ och β∗ = n X i=1 xiyi− 1 n n X i=1 xi n X i=1 yi n X i=1 x2_i − 1 n n X i=1 xi !2

Bevis. Genom att derivera Q(α, β), se 2.1.1, och s¨atta de partiella deriva-torna med avseende p˚a α respektive β till noll, kan Q(α, β) minimeras. Man finner att ∂Q ∂α = −2 n X i=1 (yi− µi) och ∂Q ∂β = −2 n X i=1 xi(yi− µi) Vidare f˚as d˚a att ∂Q ∂α = 0 =⇒ −2 n X i=1 (yi− µi) = 0 ⇐⇒ ⇐⇒ −2 n X i=1 (yi− α − βxi) = 0 ⇐⇒ ⇐⇒ n X i=1 (yi) − nα − β n X i=1 (xi) = 0 ⇐⇒ ⇐⇒ α = 1 n n X i=1 (yi) − β n n X i=1 (xi) ⇐⇒ ⇐⇒ α = ¯y − β ¯x

(13)

2.1. MINSTA-KVADRAT-METODEN 13 Analogt f¨or β f˚as att ∂Q ∂β = 0 =⇒ −2 n X i=1 xi(yi− µi) = 0 ⇐⇒ ⇐⇒ −2 n X i=1 xi(yi− α − βxi) = 0 ⇐⇒ ⇐⇒ n X i=1 xiyi− α n X i=1 xi− β n X i=1 x2_i = 0 ⇐⇒ ⇐⇒ β = Pn i=1xiyi− α Pn i=1xi Pn i=1x2i

Genom att i ekvationen ovan ers¨atta α med α = ¯y − β ¯x f˚as slutligen att

β = n X i=1 xiyi− 1 n n X i=1 xi n X i=1 yi n X i=1 x2_i − 1 n n X i=1 xi !2

2.1.3 Definition. Den skattade enkla regressionslinjen bildas av y∗ = α∗+ β∗x,

där α∗ och β∗ utgör punktskattningarna i 2.1.2 Vidare gäller för varje givet x = x0 att tillhörande väntevärde µ0 kan beräknas som det skattade v¨

ante-v¨ardet

µ∗₀ = α∗+ β∗x0.

2.1.4 Exempel. (forts. 1.1.5)Man finner att diametern yi varierar med

inst¨allningen xi som i tabellen nedan.

Tabell 2.1:

xi 0, 15 0, 20 0, 25 0, 30 0, 35 0, 40 0, 45

yi 2, 43 2, 47 2, 49 2, 51 2, 54 2, 55 2, 57

Ber¨akningar ger

7 X i=1 xi= 2, 1 7 X i=1 x2_i = 0, 7 7 X i=1 yi = 17, 56 n X i=1 xiyi = 5, 3

vilket ger β∗ = 0, 457 och α∗ = 2, 37 s˚a att den skattade regressionslinjen blir y∗ = 2, 37 + 0, 457x. Den önskade diametern 2, 50 mm utgör väntevärdet µ0 som ges av x∗0= 0, 28.

(14)

14 KAPITEL 2. PUNKTSKATTNINGAR 2.1.5 Lemma. L˚at β∗ vara det skattade värdet av β. D˚a gäller att väntevärdet E(β∗) samt variansen V (β∗) ges av

E(β∗) = β respektive V (β∗) = σ

2

Pn

i=1(xi− ¯x)2

d¨ar σ utg¨or standardavvikelsen.

Bevis. Genom att använda kända satser fr˚an sannolikhetsläran finner man att E(β∗) = E Pn i=1(xi− ¯x)Yi Pn i=1x2i − 1 n( Pn i=1xi) 2 ! = = Pn i=1(xi− ¯x)µi Pn i=1x2i −n1 ( Pn i=1xi)2 = = Pn i=1(xi− ¯x)(α + βxi) Pn i=1x2i −n1 ( Pn i=1xi) 2 = = α Pn i=1xi+ βPni=1x2i − nα¯x −n1β ( Pn i=1xi)2 Pn i=1x2i −n1( Pn i=1xi)2 = = βPn i=1x2i −n1( Pn i=1xi)2 Pn i=1x2i − 1n( Pn i=1xi)2 = β

F¨or variansen visas att

V (β∗) = V Pn i=1(xi− ¯x)Yi Pn i=1(xi− ¯x)2 = = σ2 Pn i=1(xi− ¯x)2 (Pn i=1(xi− ¯x)2)2 = = σ 2 Pn i=1(xi− ¯x)2

Anmärkning. Man ser enligt föreg˚ande resonemang att β∗ är v¨ ante-värdesriktig samt att variansen är liten d˚aPn

(15)

2.1. MINSTA-KVADRAT-METODEN 15 2.1.6 Lemma. L˚at µ∗₀ vara det skattade värdet av µ0. D˚a gäller för v¨

ante-v¨ardet E(µ∗₀) samt variansen V (µ∗₀) att dessa ges av E(µ∗₀) = µ respektive V (µ∗₀) = σ2 1 n+ (x0− ¯x)2 Pn i=1(xi− ¯x)2

Bevis. För väntevärdet erh˚alls E(µ∗₀) = E(α∗+ β∗x0) = = E n X i=1 1 n − (xi− ¯x) Pn i=1(xi− ¯x)2 ¯ x +Pn(xi− ¯x) i=1(xi− ¯x)2 x0 Yi ! = = n X i=1 1 n− (xi− ¯x)(x0− ¯x) Pn i=1(xi− ¯x)2 (α + βxi) = = α n X i=1 1 n− (xi− ¯x)(x0− ¯x) Pn i=1(xi− ¯x)2 + + β n X i=1 xi n − (xi− ¯x)(x0− ¯x)xi Pn i=1(xi− ¯x)2 = = α + β ¯x + β(x0− ¯x) = = α + βx0 = µ0

d¨ar det har utnyttjats att Pn

i=1(xi− ¯x) = 0 samt

Pn

i=1(xi− ¯x)xi = 1.

Vidare finner man att variansen kan ber¨aknas som V (µ∗₀) = V (α∗+ β∗x0) = = V n X i=1 1 n − (xi− ¯x) Pn i=1(xi− ¯x)2 ¯ x +Pn(xi− ¯x) i=1(xi− ¯x)2 x0 Yi ! = = V n X i=1 1 n − (xi− ¯x)(x0− ¯x) Pn i=1(xi− ¯x)2 Yi ! = = σ2 n X i=1 1 n2 + 2(xi− ¯x)(x0− ¯x) nPn i=1(xi− ¯x)2 + (xi− ¯x) 2_(x 0− ¯x)2 (Pn i=1(xi− ¯x)2) 2 ! = = σ2 1 n+ (x0− ¯x)2 Pn i=1(xi− ¯x)2

2.1.7 Definition. Som skattning till standardavvikelsen σ tas s =pQ0/(n − 2)

där Q0 utgör summan av kvadraterna p˚a avst˚anden i lodrät led fr˚an yi,

i = 1, . . . , n, till den skattade regressionslinjen y∗ = α∗+ β∗xi, jfr. definition

(16)

16 KAPITEL 2. PUNKTSKATTNINGAR

2.2 Maximum-likelihood-metoden

En annan metod som används för att skatta de ing˚aende parametrarna i den teoretiska regressionslinjen är den s˚a kallade Maximum-likelihood-metoden3_.

Den bygger p˚a att som skattare v¨alja de v¨arden p˚a parametrar som troligast skulle ha genererat det studerade stickprovet.

2.2.1 Definition. L˚at Y1, . . . , Ynvara oberoende s.v. s˚adana att Yi ∈ N (µi, σ),

i = 1, . . . , n. D˚a definieras Likelihood-funktionen4 som L(Y, α, β) = 1 2πσ2 n₂ e Pn i=1(yi−µi)2 2σ2 .

Anmärkning. Till skillnad fr˚an fallet med MK-metoden, gäller det här att maximera L-funktionen genom att likställa de partiella derivatorna med noll och lösa ut α respektive β. Genom att logaritmera L-funktionen erh˚alls den s˚a kallade log-likelihood-funktionen, som har till sin fördel att den m˚anga g˚anger är lättare att derivera än L-funktionen.

2.2.2 Definition. L˚at som i 2.2.1 Y1, . . . , Yn vara oberoende s.v. och

Yi ∈ N (µi, σ), i = 1, . . . , n. Log-likelihood-funktionen definieras d˚a som

ln L(Y, α, β) = −n ln σ − n ln(2π)1/2− 1 2σ2 n X i=1 (yi− µi)2

där yi är observationer p˚a Yi, µi definieras som i 1.1.2 och σ är

standard-avvikelsen.

2.2.3 Lemma. L˚at ˆα och ˆβ vara ML-skattningarna av α respektive β. D˚a ges dessa av ˆ α = ¯y − ˆβ ¯x och β =ˆ n X i=1 xiyi− 1 n n X i=1 xi n X i=1 yi n X i=1 x2_i − 1 n n X i=1 xi !2

Bevis. F¨oljande uttryck erh˚alls efter utveckling av ekvationen i 2.2.2 efter att ha inf¨ort µi enligt Definition 1.1.2:

ln L(Y, α, β) = − n ln σ − n ln(2π)1/2 − 1 2σ2 n X i=1 y2_i − 2α n X i=1 yi− 2β n X i=1 xiyi+ nα2+ 2αβ n X i=1 xi+ β2 n X i=1 x2_i ! 3 F¨orkortat ML-metoden. 4 F¨orkortat L-funktionen

(17)

2.2. MAXIMUM-LIKELIHOOD-METODEN 17 Partiell derivering av detta uttryck med avseende p˚a α ger

∂ ln L(Y, α, β) ∂α = 1 σ2 n X i=1 yi− nα σ2 − β σ2 n X i=1 xi

vilket, genom att s¨atta det lika med noll, kan maximeras s˚a att 1 σ2 n X i=1 yi− nα σ2 − β σ2 n X i=1 xi= 0 ⇐⇒ ⇐⇒ α = 1 n n X i=1 yi− β n X i=1 xi ! ⇐⇒ ⇐⇒ α = ¯y − β ¯x

Analogt f˚as vid derivering med avseende p˚a β att ∂ ln L(Y, α, β) ∂β = − 1 2σ2 −2 n X i=1 xiyi+ 2α n X i=1 xi+ 2β n X i=1 x2_i !

Maximering av detta uttryck ger

− 1 2σ2 −2 n X i=1 xiyi+ 2α n X i=1 xi+ 2β n X i=1 x2_i ! = 0 ⇐⇒ ⇐⇒ n X i=1 xiyi− α n X i=1 xi− β n X i=1 x2_i = 0 ⇐⇒ ⇐⇒ n X i=1 xiyi− (¯y − β ¯x) n X i=1 xi− β n X i=1 x2_i = 0 ⇐⇒ ⇐⇒ n X i=1 xiyi− 1 n n X i=1 xi n X i=1 yi+ β n n X i=1 xi !2 − β n X i=1 x2_i = 0 ⇐⇒ ⇐⇒ β   n X i=1 x2_i − 1 n n X i=1 xi !2 = n X i=1 xiyi− 1 n n X i=1 xi n X i=1 yi⇐⇒ ⇐⇒ β = Pn i=1xiyi−_n1 Pn i=1xi Pn i=1yi Pn i=1x2i −n1( Pn i=1xi)2

Anmärkning. Inte föga förv˚anande finner man att skattningarna av α och β blir de samma oavsett man använder MK-skattning eller ML-skattning. Vilken av metoderna man väljer att utnyttja beror p˚a vilken av dem som ger enklast beräkningar att genomföra.

(18)

(19)

Kapitel 3

Intervallskattningar

Ofta finns beh˚allning av att kunna avgöra inom vilket intervall skattningarna av α och β med stor sannolikhet befinner sig, och detta görs med hjälp av intervallskattningar. För att underlätta läsandet avses med∗ i detta avsnitt s˚aväl MK-skattning som ML-skattning.

3.1 Standardavvikelsen k¨

and

3.1.1 Definition. L˚at β∗ vara punktskattningen av β och antag att stan-dardavvikelsen σ är känd. Ett konfidensintervall med konfidensgraden (1 − p), där p st˚ar för sannolikheten, för β utgörs d˚a av

Iβ = (β∗− λp 2D, β ∗ + λp 2D) d¨ar D = v σ u u t n X i=1 (xi− ¯x)2

3.1.2 Definition. Det gäller att µ∗₀ är det skattade värdet av µ0. I det fallet

att standardavvikelsen σ är känd, utgörs ett konfindensintervall för µ0 med

konfidensgraden (1 − p) av Iµ0 = (µ ∗ 0− λp₂D, µ∗0+ λp₂D) d¨ar D = σ · s 1 n + (xi− ¯x)2 Pn i=1x2i −n1 ( Pn i=1xi) 2 19

(20)

20 KAPITEL 3. INTERVALLSKATTNINGAR

3.2 Standardavvikelsen ok¨

and

3.2.1 Definition. L˚at det gälla att standardavvikelsen är okänd. D˚a skattas σ som s = pQ0/(n − 2), jfr. definition 2.1.7. Ett konfidensintervall för β

med konfidensgraden (1 − p) kan d˚a bildas genom Iβ = (β∗− tp

2(n − 2)d, β

∗

+ tp

2(n − 2)d)

där β∗ är skattningen av β och n är antalet ing˚aende observationer samt

d = q s Pn i=1x2i − 1 n( Pn i=1xi) 2

3.2.2 Definition. D˚a standardavvikelsen är okänd f˚as för µ0 ett

konfi-densintervall med konfidensgraden (1 − p) enligt Iµ0 = (µ

∗

0− tp₂(n − 2)d, µ∗0+ tp₂(n − 2)d)

där µ∗₀ är skattningen av µ0, n är antalet ing˚aende observationer samt

d = s · s 1 n + (x0− ¯x)2 Pn i=1x2i −n1 ( Pn i=1xi) 2

(21)

Kapitel 4

Multipel regression

Det kan nämnas att den linjära regressionsmodellen ibland inneh˚aller fler än en förklarande variabel som p˚averkar utfallet. Skattningarna av de ing˚aende parametrarna görs analogt som i fallet med enkel linjär regression, d.v.s. genom att minimera Q(α, β1, . . . , βs) eller maximera L(Y, α, β1. . . , βs), men

ber¨akningarna blir dock mer tids¨odande.

4.1 Utvidgning av enkel linj¨

ar regression

4.1.1 Definition. L˚at xi och xj vara tv˚a observationer av f¨orklarande

vari-abler Xi och Xj, s˚a att i 6= j och i = 1, . . . , n samt j = 1, . . . , n. En Multipel

regressionsmodell f¨or den s.v. Y kan d˚a skrivas p˚a formen Y = α + βiXi+ βjXj+ ε

där ε utgör de slumpmässiga avvikelserna fr˚an det teoretiska regressions-planet.

4.1.2 Definition. Det g¨aller att α∗, β_i∗ och β∗_j ¨ar skattningarna av α, βi

och βj samt att i 6= j, i = 1, . . . , n och j = 1, . . . , n. Som konfidensintervall

med konfidensgraden (1 − p) tas d˚a Iµ0 = (µ ∗ 0± tp₂(f )d) Iβi = (β ∗ i ± tp₂(f )d) Iβj = (β ∗ j ± tp₂(f )d)

d¨ar d anges i definition 3.2.2 respektive 3.2.1 och f definieras som

(n − k), där k är antalet okända parametrar och n är antalet ing˚aende ob-servationer p˚a de s.v.

(22)

22 KAPITEL 4. MULTIPEL REGRESSION

4.2 Polynomregression

4.2.1 Definition. I det fallet att regressionsmodellen ¨ar p˚a formen Y = α + βixi+ βjxj+ ε

d¨ar xi = xi samt i 6= j, i = 1, . . . , n och j = 1, . . . , n, talar man om

(23)

Kapitel 5

Styckvis Linj¨

ar Regression

5.1 Introduktion

Detta kapitel kommer behandla de fall d˚a det inte är lämpligt att anpassa endast en rät linje till de erh˚allna punkterna i planet, s˚a som var fallet vid enkel linjär regression och multipel linjär regression. Nu best˚ar uppgiften istället av att kunna stycka upp linjen i flera bitar, var och en med olika lutning samt olika intercept. Först n˚agra grundläggande definitioner. 5.1.1 Definition. L˚at X utgöra en mängd av stickprov (xij, yij) ∈ {Xi}

k i=1,

j = 1, . . . , n s˚adana att X = Sk

i=1Xi och Xi ∩ Xm = ∅ f¨or varje i, m =

1, . . . , k, det vill s¨aga att {Xi}ki=1 ¨ar en partition av X.

5.1.2 Definition. En Styckvis Linjär Regressionsmodell anpassar en rät linje till var och en av {Xi}ki=1 s˚a att regressionslinjen är kontinuerlig i

alla punkter samt inneh˚aller strukturförändringar vilka utmärker sig som ¨

andringar i linjens lutning.

5.1.3 Definition. L˚at Xi0 vara den punkt l¨angs med de f¨orklarande

vari-ablernas axlar, där strukturförändringen hos regressionslinjen inträffar. D˚a definieras Xi0 som brytpunkten hos regressionslinjen.

5.2 Blindvariabler

För att kunna ange en modell för styckvis linjär regression behöver begreppet blindvariabel studeras n˚agot närmre.

5.2.1 Definition. Det gäller att Diär en blindvariabel, vilken är en funktion

som antar olika distinkta v¨arden beroende p˚a stickprovets utfall.

5.2.2 Exempel. P˚a ett f¨oretag vill man studera hur kostnaden vid till-verkning av en produkt p˚averkas av olika inst¨allningar av en viss maskin.

(24)

24 KAPITEL 5. STYCKVIS LINJ ÄR REGRESSION Man finner att kostnaden Y är p˚a formen Y = α + βD + ε där D är en blindvariabel s˚adan att

D = (

1 om inställning A används, 0 om inställning B används. Detta f˚ar till följd att produktkostnaden blir

Y = (

α om D = 0, α + β om D = 1.

Anmärkning. Antalet blindvariabler kan utökas godtyckligt för att an-passas till r˚adande situation. Om, i exemplet ovan, det istället hade handlat om att undersöka produktionskostnaden för tre olika maskininställningar, hade tv˚a blindvariabler kunnat införas.

5.3 Regressionsmodell d˚

a brytpunkten ¨

ar k¨

and

Ibland vill man studera förlopp där man i förväg vet var den struktur-ella förändringen hos regressionslinjen sker, det vill säga Xi0 är känd. Detta

avsnitt kommer främst att behandla det fall d˚a endast en förändring i lut-ningen sker hos regressionslinjen, men mot slutet ges ocks˚a en definition för det utvidgade fallet med fler kända brytpunkter.

5.3.1 Definition. En regressionsmodell med en strukturf¨or¨andring definieras som

Y = α + β1X + β2(X − X0)D + ε

där X0 är brytpunkt och D är en blindvariabel s˚a att

D = (

1 om X > X0,

0 annars.

5.3.2 Lemma. L˚at Y definieras s˚a som i 5.3.1. D˚a gäller för väntevärdet för Y att detta är kontinuerligt och

E(Y ) = (

(α + β1X) om X ≤ X0,

(α − β2X0) + (β1+ β2)X om X > X0.

Bevis. Vi visar att funktionen är kontinuerlig. Det följer för väntevärdet Y0

i brytpunkten X0 att

E(Y0) = α + β1X0

jfr. 5.3.2

= (α − β2X0) + (β1+ β2)X0= α + β1X0

(25)

5.3. REGRESSIONSMODELL D˚A BRYTPUNKTEN ÄR K ÄND 25 Den modell som angetts i detta avsnitt utvidgas utan större problem till att innefatta fler förklarande variabler β3, . . . , βk, samt fler brytpunkter Di.

5.3.3 Definition. En regressionsmodell med godtyckligt m˚anga brytpunk-ter och f¨orklarande variabler definieras som

Y = α + β1X + β2(X − X10)D1+ . . . + βk(X − X(k−1))D(k−1)

d¨ar vidare Di definieras som

Di=

(

1 om X > Xi0,

0 annars.

och Xi0 är brytpunkter samt k är antalet okända parametrar p˚a formen

(26)

(27)

Kapitel 6

Approximation av

brytpunkter

I mer vanligt förekommande fall ter det sig s˚a att man p˚a förhand inte känner till om regressionsmodellen inneh˚aller n˚agra strukturförändringar. Med an-dra ord, eventuella brytpunkter är okända. Bestämmningen av parametrarna i regressionsmodellen försv˚aras d˚a av att Xi0, (jfr. definition 5.1.3), ocks˚a

m˚aste approximeras. Detta avsnitt kommer därför behandla en algoritm för hur detta kan genomföras enligt McGee och Carleton (1970).

6.1 Introduktion

¨

Overgripande för metoden kan sägas att den bygger p˚a att sammanfoga närliggande punkter i det erh˚allna stickprovet om totalt N stycken punkter, genom att studera deras möjlighet att anpassas till en rät linje. McGee och Carleton omnämner detta som ‘goodness-of-fit’ measure. I utg˚angsläget studeras trippler av intilliggande punkter för vilka man skattar en teoretisk regressionslinje, (se definition 2.1.3). Därp˚a studeras vilka av dessa trippler som bäst anpassar en rät linje och denna trippel väljs som fix. I nästa steg kontrollerar man om de punkter som befinner sig (1); till höger och (2); till vänster om den fixa trippeln, kan inneslutas i regressionslinjen utan att p˚averka linjäriteten. Nu studerar man ˚ater igen de kvarvarande punkterna och fixerar en ny trippel och s˚a fortlöper förfarandet till dess att alla punkter i stickprovet har infogats i regressionslinjen. Tyngdpunkten ligger i att h˚alla föreg˚aende niv˚as linjesegment som fixt och utifr˚an detta avgöra huruvida intilliggande punkter eller linjesegment ska infogas till det förstnämnda.

6.2 Terminologi

För att underlätta framställningen följer här en lista över de benämningar som används i modellen.

(28)

28 KAPITEL 6. APPROXIMATION AV BRYTPUNKTER Kluster. Med ett kluster av storlek q avses en m¨angd av q

intilliggande punkter i stickprovet.

Potentiellt kluster. I varje steg av processen beräknas möjligheten till anpassning av en rät linje för intilliggande punkter. Dessa kallas för ett potentiellt kluster.

Fixt kluster. I vilken niv˚a som helst av processen när ett kluster visar sig att bäst anpassa en rät linje, blir detta ett fixt kluster, med innebörden att det nu ing˚ar i ett linjesegment.

Minimalt kluster. D˚a varje linjesegment m˚aste skattas enligt definition 2.1.3, krävs minst tre punkter för att detta ska kunna genomföras. I utg˚angsläget är s˚aledes alla trippler s˚adana minimala kluster. (Om stickprovet är stort kan antalet punkter i de minimala klustren ökas).

Klusterniv˚a. Processen delas in i olika niv˚aer d¨ar L0 betecknar

utg˚angsläget där samtliga punkter i stickprovet utgör kluster av storlek 1, och Lf avser slutniv˚an där samtliga punkter tillhör

den definitiva regressionsmodellen.

Isolerade punkter. Ett kluster av storlek 1 är en isolerad punkt. P˚a niv˚a L0 är antalet isolerade punkter N stycken och för Lf

g¨aller att det inte finns n˚agra isolerade punkter.

Uteslutna punkter. Ibland förekommer det att vissa värden i stickprovet är extremvärden som inte är representativa för utfallet. Om man under processens g˚ang ser att det förekommer punkter som förblir isolerade nästan hela vägen fram till Lf,

kan detta tyda p˚a att det ¨ar extremv¨arden som kan uteslutas ur stickprovet.

Goodness-of-fit. Varje potentiellt kluster m˚aste studeras med avseende p˚a dess förm˚aga att anpassas till en rät linje. Detta görs genom att beräknaPn

i=1ε2i/(n − 2), (f¨or ε se definition

1.1.3), där n är storleken p˚a det potentiella klustret. Ju lägre detta m˚att är, desto bättre goodness-of-fit, d.v.s. desto bättre anpassning till en rät linje för de betraktade punkterna.

Klusterklassifikation. Fyra typer av kluster kan identifieras. Med Typ 0 avses ett minimalt kluster medan Typ 1 syftar p˚a ett fixt kluster som sammanfogas med en, till vänster, intilliggande punkt. Vidare innebär Typ 2 ett fixt kluster som sammanfogas med en, till höger, intilliggande punkt och slutligen avses med Typ 3 sammanfogningen av tv˚a närliggande fixa kluster.

(29)

6.3. GRUNDL ¨AGGANDE ANM ¨ARKNINGAR 29

6.3 Grundl¨

aggande anm¨

arkningar

Varje kluster som studeras är p˚a formen y = α + βx + ε där α och β skattas enligt avsnitt 2. För att avgöra vilket av klustren som har bäst goodness-of-fit betraktar man summan

Φ = Pn

i=1ε2i

(n − 2) (6.1)

där n är storleken p˚a klustret och ε är residualen (se Definition 1.1.3). Efter att ha beräknat Φ för varje potentiellt kluster, väljes det kluster med lägst värde p˚a Φ som fixt.

Vidare gäller, om detta nya, fixa kluster är av Typ 0, att inget sig-nifikanstest behöver genomföras. Om däremot det nya klustret är av Typ 1 eller Typ 2 behövs en kontroll för att avgöra om införandet av ytterli-gare en punkt i det fixa klustret p˚averkar linjäriteten. Detta görs genom ett statistiskt F -test: F_(1,n−2)= (y0− ˆy0∗)2+ n X i=1 (ˆyi− ˆyi∗)2 Φ , (6.2)

där index 0 avser den isolerade, närliggande punkten. Vidare gäller att i avser de, i det fixa klustret, ing˚aende punkterna och asterisken refererar till det skattade värdet av y0 och yi baserat p˚a (n + 1) punkter. Slutligen gäller

att Φ är m˚attet p˚a linjäriteten enligt ekvation 6.1. Om det nya klustret är av Typ 3 kan liknande signifikanstest genomföras för de intilliggande klustren. Modellen för testet blir d˚a

F(2,m+n−4)=   m+n X i=1 ε2_i_C− m X j=1 ε2_j_L− n X k=1 ε2_k_R  /2   m X j=1 ε2_j_L+ n X k=1 ε2_k R  /(m + n − 4) (6.3)

där L, R och C syftar p˚a det vänstra klustret, högra klustret och det kom-binerade klustret respektive, samt antalet punkter i det vänstra och högra klustret är m och n respektive. Om F -testets värde är högt och därmed sannolikheten l˚ag, kan det vara olämpligt att sammanfoga de undersökta punkterna och klustrerna.

I algoritmen kan anpassningar göras för att bäst passa r˚adande situation. Man kan t.ex. p˚a förhand bestämma hur m˚anga isolerade punkter som ska till˚atas under processens g˚ang. Likas˚a kan man l˚ata gälla att klustren bara f˚ar vara av typen minimala kluster hela vägen fram till näst sista niv˚an, och att man därifr˚an utför signifikanstestet för Typ 3-kluster.

(30)

30 KAPITEL 6. APPROXIMATION AV BRYTPUNKTER

6.4 Algoritmen

Nedan följer en schematisk översikt kring hur modellen fungerar. Man bör skriva detta som ett program i t.ex. Cygwin eller Matlab för att kunna utföra de beräkningar som krävs inom rimliga tidsramar.

1. INPUT

N=Antalet punkter i stickprovet C=Minsta till˚atna kluster

T=Antal till˚atna isolerade punkter

E=Antal uteslutna punkter (och identifiering av dessa om de existerar)

2. IDENTIFIERA DE POTENTIELLA KLUSTRENA INF ¨OR N ¨ASTA NIV˚A

3. BER ÄKNA GOODNESS-OF-FIT, Φ, F ÖR VARJE POTENTIELLT KLUSTER OM DETTA INTE REDAN ÄR GJORT

4. IDENTIFIERA DET KLUSTER MED L ÄGST V ÄRDE P˚A Φ OCH V ÄLJ DETTA SOM FIXT.

5. BEST ¨AM ANTALET ISOLERADE PUNKTER P˚A DEN AKTUEL-LA NIV˚AN OCH KALLA DESSA F ¨OR T’

6. OM T’>T G˚A TILL 2. ANNARS G˚A TILL 7 7. KLASSIFICERA DET SENASTE KLUSTRET 8. OM KLUSTRET ¨AR AV TYP 0, G˚A TILL 2

OM KLUSTRET ¨AR AV TYP 1 ELLER TYP 2, G˚A TILL 9 OM KLUSTRET ¨AR AV TYP 3, G˚A D˚A TILL 10

9. UTF ÖR SIGNIFIKANSTESTET ENLIGT EKVATION 6.2 SAMT BER ÄKNA TILLH ÖRANDE SANNOLIKHET. G˚A TILL 11

10. UTF ÖR SIGNIFIKANSTESTET ENLIGT EKVATION 6.3 SAMT BER ÄKNA TILLH ÖRANDE SANNOLIKHET. G˚A TILL 11

11. ˚ASK˚ADLIGG ¨OR DETALJERNA P˚A DENNA NIV˚A OCH KON-TROLLERA OM DETTA ¨AR DEN SLUTLIGA NIV˚AN. OM INTE, G˚A TILL 2

(31)

6.5. ETT NUMERISKT EXEMPEL 31

6.5 Ett numeriskt exempel

För att ˚ask˚adliggöra metoden följer nedan ett exempel som endast innefattar sju punkter. Det är dock tillräckligt för att kunna beräkna Φ samt använda de tv˚a olika F-testen. I detta exempel gäller att N= 7, C= 3, T= 0 samt E= 0.

6.5.1 Exempel. Vid en industri upptäcker man att omsättningen minskar drastiskt. D˚a man inte kan se n˚agon direkt anledning till varför detta har skett, vill man kunna approximera vid vilken tidpunkt minskningen har in-träffat, för att utifr˚an denna tidpunkt sedan vidare kunna analysera orsaken. Man väljer ut 7 stycken tidpunkter under det senaste kvartalet för vilka man kontrollerar omsättningen. Resultatet kan ses i Tabell 6.1 nedan.

Tabell 6.1:

x 1 2 3 4 5 6 7

y 0.33 1.67 2.00 3.00 1.00 0.67 -0.33

Dessa talpar kan plottas i ett xy-plan och utgör d˚a punkter i planet. Första steget i algoritmen är att dela in dessa punkter tre och tre s˚a att punkterna (1 − 3), (2 − 4), (3 − 5) o.s.v. utgör potentiella kluster. För varje s˚adant kluster bestäms sedan punktskattningarna α∗ och β∗ enligt kapitel 2 s˚a att

α∗ = ¯y − β∗x¯ och

β∗ =

Pn

i=1xiyi−_n1Pni=1xiPni=1yi

Pn i=1x2i− 1 n( Pn i=1xi) 2

Med hjälp av dessa kan sedan residualen beäknas enligt ekvationen i 1.1.3 och slutligen kan Φ beräknas. Resultatet för beräkningarna av Φ kan ses i Tabell 6.2 nedan. Som kan ses i tabellen har kluster (2 − 4) samt kluster (5 − 7) lägst värden p˚a Φ och allts˚a väljs dessa tv˚a kluster som fixa. B˚ada ¨

ar av Typ 0 s˚a inget signifikanstest beh¨ovs p˚a denna niv˚a.

Tabell 6.2: Kluster Φ (1-3) 0.170 (2-4) 0.075 (3-5) 3.500 (4-6) 0.465 (5-7) 0.075

(32)

32 KAPITEL 6. APPROXIMATION AV BRYTPUNKTER P˚a nästa niv˚a kontrolleras om punkt 1 kan införas i kluster (2 − 4). Till att börja med skattas α∗ och β∗ med punkter (1 − 4) som ing˚angsvärden. Därefter beräknas F-testet enligt ekvation 6.2. Nästa steg best˚ar i att göra ett signifikanstest enligt ekvation 6.3 för att se om klustrerna (1 − 4) och (5 − 7) eventuellt kan sammanfogas utan att p˚averka linjäriteten i för stor grad. De olika klusterniv˚aerna med tillhörande F-värde och sannolikhet kan ses i Tabell 6.3 nedan.

Tabell 6.3:

Niv˚a Fixt kluster #Isolerade punkter Typ F-v¨arde Sannolikhet

0 0 7 – – –

1 (2-4),(5-7) 1 0 – –

2 (1-4),(5-7) 0 1 1.272 0.484

3 (1-7) 0 3 39.14 0.008

Ur tabellen följer att sannolikheten för att kluster (1 − 4) och (5 − 7) tillhör samma regressionslinje är tämligen l˚ag, varför niv˚a 2 väljs som den slutgiltiga. S˚aledes inträffar minskningen i omsättning n˚agong˚ang mellan mätning 4 och 5. Fr˚an de skattade parametrarna till respektive kluster följer att omsättningsutvecklingen kan beskrivas som

y = (

−0.335 + 0.834x om x ≤ x4,

4.437 − 0.665x om x > x4.

(6.4) Om denna ekvation plottas i en graf kommer man dock märka att funktionen inte är kontinuerlig mellan x = 4 och x = 5. Även McGee och Carlton (1970) f˚ar denna diskontinuitet i sin regressionsmodell. Kravet p˚a en styckvis linjär regressionsmodell är dock att denna skall vara kontinuerlig i alla punkter. För att ˚astadkomma detta har jag som ett slutligt steg i mina beräkningar använt mig av modellen enligt definition 5.3.1 och bestämt brytpunkten till X0 = 4 enligt föreg˚aende kapitel. Därp˚a har jag beräkna Φ för kluster (1−4)

samt motsvarande v¨arde f¨or kluster (4 − 7). Dessa visade sig vara Φ(1−4) = 0, 085

Φ(4−7) = 0, 262

Som utg˚angspunkt har jag sedan använt det kluster med lägst värde p˚a Φ, det vill säga kluster (1 − 4), för vilket jag använt den skattade regres-sionslinjen till att kunna bestämma µ0 i X0 = 4 till µ0 = 3, 001. Som ett

n¨asta steg har jag genomf¨ort en skattning av β2 i Definition 5.3.1 enligt

MK-skattningen i Kapitel 2 men som approximation till α har jag istället använt mig av följande ekvation:

(33)

6.5. ETT NUMERISKT EXEMPEL 33 Med dessa ber¨akningar utf¨orda har jag sedan kunnat ange en modell enligt Definition 5.3.1 som kan ses nedan.

Y = −0, 335 + 0, 834X − 1, 866(X − X0)D + ε d¨ar D = ( 1 om X > X0, 0 annars.

Denna ekvation ¨ar kontinuerlig i alla punkter och uppfyller s˚aledes kravet p˚a styckvis linj¨ar regression.

Ytterligare ett alternativ att ˚astadkomma en kontinuerlig regressionslinje ¨

ar att l˚ata brytpunkten X0 = 4 ing˚a i b¨agge klustren s˚a att den skattade

linjen för kluster (1 − 4) används enligt ekvation 6.4 men en ny skattning görs för kluster (4 − 7). Med hjälp utav detta värde har jag sedan kunnat beräkna en regressionslinje p˚a formen

y = (

−0.335 + 0.834x om x ≤ x4,

6, 761 − 1, 032x om x > x4.

(6.5)

Beräkning av φ för kluster 4−7 med ekvation 6.5 ger φ = 0, 262. Motsvarande beräkning men med ekvation 6.4 ger φ = 0, 786. Jag anser att justeringen av ekvationen kan motiveras utifr˚an det lägre värde p˚a φ som detta genererar. Dock bör detta avgöras fr˚an fall till fall.

(34)

(35)

Litteraturf¨

orteckning

[1] Gunnar Blom, Sannolikhetsteori och statistikteori med till¨ampningar, femte upplagan, Studentlitteratur, Lund 2005.

[2] Giancarlo Ferrari-Trecate & Marco Muselli, ”‘A New Learning Method for Piecewise Linear Regression”, Proceedings of the International Con-ference on Artificial Neural Networks,Springer-Verlag, London, 2002. [3] Wolfgang Hardle, Hua Ling & Jiti Gao, Partially Linear Models,

Physica-Verlag, 2000.

[4] Richard J. Larsen & Morris L. Marx, An Introduction to Mathematical Statistics and Its Applications, 2thed., Prentice-Hall, New Jersey, 1986. [5] Victor E. McGee & Willard T. Carleton, ”‘Piecewise Regression”’, Journal of the American Statistical Association, 65 (September 1970), 1109-1124.

[6] Robert S. Pindyck & Daniel L. Rubinfeld, Econometric Models and Eco-nomic Forecasts, 4th ed., The McGraw-Hill Companies, Boston, 1998.