• No results found

Något om regressionsanalys

N/A
N/A
Protected

Academic year: 2021

Share "Något om regressionsanalys"

Copied!
35
0
0

Loading.... (view fulltext now)

Full text

(1)

agot om Regressionsanalys

Angelica Pettersson Institutionen f¨or naturvetenskap ¨ Orebro universitet 4 februari 2010

(2)
(3)

Inneh˚

all

Inneh˚all 2

F¨orord 4

Inledning 5

1 Enkel linj¨ar regression 9

1.1 Introduktion . . . 9 2 Punktskattningar 11 2.1 Minsta-kvadrat-metoden . . . 11 2.2 Maximum-likelihood-metoden . . . 16 3 Intervallskattningar 19 3.1 Standardavvikelsen k¨and . . . 19

3.2 Standardavvikelsen ok¨and . . . 20

4 Multipel regression 21 4.1 Utvidgning av enkel linj¨ar regression . . . 21

4.2 Polynomregression . . . 22

5 Styckvis Linj¨ar Regression 23 5.1 Introduktion . . . 23

5.2 Blindvariabler . . . 23

5.3 Regressionsmodell d˚a brytpunkten ¨ar k¨and . . . 24

6 Approximation av brytpunkter 27 6.1 Introduktion . . . 27

6.2 Terminologi . . . 27

6.3 Grundl¨aggande anm¨arkningar . . . 29

6.4 Algoritmen . . . 30

6.5 Ett numeriskt exempel . . . 31

(4)
(5)

orord

Jag skulle vilja tacka min handledare Yang Liu f¨or konstruktiv kritik under arbetets g˚ang samt alla de ‘gulebøjer’ han f¨orsett mig med n¨ar min energi har trutit! Ocks˚a ett stort tack till Holger Schellwat som besvarat alla mina fr˚agor g¨allande LATEX; ett m¨asterligt arbete! Dessutom vill jag tacka min

familj som st˚att ut med mig under det h¨ar projektet; tack och f¨orl˚at f¨or att jag har varit s˚a distr¨a!

Angelica Pettersson Fellingsbro i februari 2010

(6)
(7)

Inledning

En gren inom statistikteorin ¨ar den s˚a kallade Regressionsanalysen d¨ar man studerar hur data fr˚an exempelvis ett stickprov kan anpassas till en graf. Under skrivandet av denna uppsats har jag haft som m˚al att b¨attre f¨orst˚a n˚agra av de metoder som finns att tillg˚a vid best¨amning av de ing˚aende parametrarna i de enklare fallen av regression. Dessutom har jag valt att djupare studera den del inom regressionsanalysen som kallas Styckvis Linj¨ar Regression.

I Kapitel 1 ges en introduktion till regressionsanalysen d¨ar grundl¨aggande begrepp tas upp, samt exempel p˚a hur dessa anv¨ands praktiskt. Definitionen av den teoretiska regressionslinjen ges samt definitionen av de slumpm¨assiga fel som uppst˚ar vid stickprov.

Vidare f¨oljer i Kapitel 2 en genomg˚ang av tv˚a olika metoder f¨or att approximera de ing˚aende koefficienterna i den teoretiska regressionslinjen. Dessa tv˚a metoder ¨ar Minsta-kvadrat-metoden samt Maximum-likelihood-metoden. ¨Aven h¨ar ges numeriska exempel f¨or att klarg¨ora hur metoderna fungerar.

I Kapitel 3 redog¨ors f¨or hur parametrarna i den teoretiska regressionslin-jen kan intervallskattas, d.v.s. metoder f˚as f¨or att med ¨onskad sannolikhet kunna avg¨ora inom vilket intervall de studerade parametrarna befinner sig. D¨arp˚a f¨oljer i Kapitel 4 ett mindre avsnitt kring hur en utvidgning av enkel linj¨ar regression kan ¨overf¨oras till multipel linj¨ar regression d¨ar antalet parametrar ¨ar godtyckliga. Metoder ges f¨or att skatta parametrarna samt med ¨onskad sannolikhet avg¨ora inom vilket intervall dessa befinner sig.

I Kapitel 5 introduceras begreppet styckvis linj¨ar regression med en genomg˚ang av n˚agra grundl¨aggande begrepp som ber¨or denna gren inom regressionsanalysen. Definitionen av blindvariabler ges samt ett exempel p˚a hur dessa fungerar. Vidare ges en modell f¨or att kunna skatta en styckvis linj¨ar regressionslinje, givet vissa kriterier.

(8)

8 INNEH˚ALL Slutligen ges i Kapitel 6 en algoritm f¨or hur brytpunkten i en styckvis linj¨ar regressionslinje kan approximeras. Detta kapitel ger f¨orst en ¨overblick kring metoden f¨or att sedan introducera begrepp som anv¨ands i modellen. Slutligen ges ett numeriskt exempel som redovisar hur algoritmen fungerar.

(9)

Kapitel 1

Enkel linj¨

ar regression

1.1

Introduktion

I m˚anga situationer finns det anledning att vilja kunna f¨oruts¨aga hur olika val av parametrar p˚averkar utfallet. Exempelvis vid industriell tillverkning av en enhet vill producenten studera hur olika inst¨allningar av en maskin p˚averkar enhetens diameter. P˚a grund av slumpm¨assiga fel kommer denna diameter variera fr˚an enhet till enhet men genom att v¨alja den inst¨allning av maskinen som genererar minst felmarginal, kan produktionen optimeras. En ofta anv¨and metod f¨or att best¨amma dessa parametrar ¨ar enkel linj¨ar regression. Metoden bygger p˚a att utifr˚an vissa givna v¨arden ur till exempel ett stickprov, kunna best¨amma en s˚a kallad teoretisk regressionslinje p˚a for-men y = α+βx, ur vilken det sedan f¨or varje x g˚ar att ber¨akna motsvarande v¨antev¨arde y, eller omv¨ant, utifr˚an ¨onskat v¨antev¨arde best¨amma tillh¨orande v¨arde p˚a x. Inledningsvis f¨oljer n˚agra definitioner som ¨ar grundl¨aggande f¨or den fortsatta diskussionen.

1.1.1 Definition. L˚at (x1, y1) . . . (xn, yn) vara n par av v¨arden d¨ar x1, . . . , xn

¨

ar observationer av f¨orklarande variabler Xi, . . . , Xnoch y1, . . . , yn¨ar

obser-vationer av oberoende stokastiska variabler (i forts¨attningen s.v.) Y1, . . . , Yn.

D˚a g¨aller att

Yi∈ N (µi, σ), i = 1, . . . , n

1.1.2 Definition. F¨or µi, i = 1, . . . , n g¨aller att dessa ¨ar linj¨art beroende

av xi s˚a att

µi= α + βxi

1.1.3 Definition. L˚at y1, . . . , yn vara observationer av oberoende

s.v. Y1, . . . , Yn. D˚a g¨aller att

εi = yi− µi = yi− α − βxi

utg¨or de slumpm¨assiga fel som uppst˚ar och ¨ar de lodr¨ata avst˚and fr˚an yi,

i = 1, . . . , n till den teoretiska regressionslinjen. Det g¨aller att εi ∈ N (0, σ).

(10)

10 KAPITEL 1. ENKEL LINJ ¨AR REGRESSION 1.1.4 Definition. En modell f¨or enkel linj¨ar regression kan tecknas som

Yi = α + βXi+ εi

d¨ar i = 1, . . . , n

1.1.5 Exempel. Vid tillverkning av kullager ¨onskas en diameter p˚a 2, 50 mm. F¨or sju olika inst¨allningar p˚a maskinen utf¨ors ett stickprov f¨or var och en av inst¨allningarna xi, varp˚a man m¨ater diametern yi, i = 1, . . . , 7. Man

finner att yi ¨ar linj¨art beroende av xi, och en modell som tar h¨ansyn till de

(11)

Kapitel 2

Punktskattningar

Som n¨amndes inledningsvis vill man ofta finna ekvationen f¨or den teoretiska regressionslinjen y = α + βx. Syftet med avsnittet ¨ar d¨arf¨or att redog¨ora f¨or de metoder som finns att tillg˚a d˚a skattningar av parametrarna α och β ¨

onskas. I f¨orsta delen beskrivs Minsta-kvadrat-metoden, ¨aven kallad LSE,1 som m˚anga g˚anger ger anv¨andbara punktskattningar till parametrarna i den teoretiska regressionslinjen. D¨arp˚a f¨oljer en beskrivning av Maximum-likelihood-metoden.

2.1

Minsta-kvadrat-metoden

Id´en bakom Minsta-kvadrat-metoden2 ¨ar att minimera summan av kvadra-terna p˚a de lodr¨ata avst˚anden mellan de, fr˚an stickprovet, erh˚allna v¨ardena och den teoretiska regressionslinjen.

1

fr˚an engelskans Least Squares Estimator

2

F¨orkortat MK-metoden

(12)

12 KAPITEL 2. PUNKTSKATTNINGAR 2.1.1 Definition. L˚at Q(α, β) vara summan av kvadraterna p˚a det lodr¨ata avst˚andet εi, i = 1, . . . , n, fr˚an den teoretiska regressionslinjen, jfr 1.1.3, s˚a

att Q(α, β) = n X i=1 (yi− µi)2.

Q(α, β) ben¨amns residualkvadratsumman.

2.1.2 Lemma. Det g¨aller att α∗ och β∗ ¨ar MK-skattningarna av α respek-tive β och f˚as som

α∗ = ¯y − β∗x¯ och β∗ = n X i=1 xiyi− 1 n n X i=1 xi n X i=1 yi n X i=1 x2i − 1 n n X i=1 xi !2

Bevis. Genom att derivera Q(α, β), se 2.1.1, och s¨atta de partiella deriva-torna med avseende p˚a α respektive β till noll, kan Q(α, β) minimeras. Man finner att ∂Q ∂α = −2 n X i=1 (yi− µi) och ∂Q ∂β = −2 n X i=1 xi(yi− µi) Vidare f˚as d˚a att ∂Q ∂α = 0 =⇒ −2 n X i=1 (yi− µi) = 0 ⇐⇒ ⇐⇒ −2 n X i=1 (yi− α − βxi) = 0 ⇐⇒ ⇐⇒ n X i=1 (yi) − nα − β n X i=1 (xi) = 0 ⇐⇒ ⇐⇒ α = 1 n n X i=1 (yi) − β n n X i=1 (xi) ⇐⇒ ⇐⇒ α = ¯y − β ¯x

(13)

2.1. MINSTA-KVADRAT-METODEN 13 Analogt f¨or β f˚as att ∂Q ∂β = 0 =⇒ −2 n X i=1 xi(yi− µi) = 0 ⇐⇒ ⇐⇒ −2 n X i=1 xi(yi− α − βxi) = 0 ⇐⇒ ⇐⇒ n X i=1 xiyi− α n X i=1 xi− β n X i=1 x2i = 0 ⇐⇒ ⇐⇒ β = Pn i=1xiyi− α Pn i=1xi Pn i=1x2i

Genom att i ekvationen ovan ers¨atta α med α = ¯y − β ¯x f˚as slutligen att

β = n X i=1 xiyi− 1 n n X i=1 xi n X i=1 yi n X i=1 x2i − 1 n n X i=1 xi !2

2.1.3 Definition. Den skattade enkla regressionslinjen bildas av y∗ = α∗+ β∗x,

d¨ar α∗ och β∗ utg¨or punktskattningarna i 2.1.2 Vidare g¨aller f¨or varje givet x = x0 att tillh¨orande v¨antev¨arde µ0 kan ber¨aknas som det skattade v¨

ante-v¨ardet

µ∗0 = α∗+ β∗x0.

2.1.4 Exempel. (forts. 1.1.5)Man finner att diametern yi varierar med

inst¨allningen xi som i tabellen nedan.

Tabell 2.1:

xi 0, 15 0, 20 0, 25 0, 30 0, 35 0, 40 0, 45

yi 2, 43 2, 47 2, 49 2, 51 2, 54 2, 55 2, 57

Ber¨akningar ger

7 X i=1 xi= 2, 1 7 X i=1 x2i = 0, 7 7 X i=1 yi = 17, 56 n X i=1 xiyi = 5, 3

vilket ger β∗ = 0, 457 och α∗ = 2, 37 s˚a att den skattade regressionslinjen blir y∗ = 2, 37 + 0, 457x. Den ¨onskade diametern 2, 50 mm utg¨or v¨antev¨ardet µ0 som ges av x∗0= 0, 28.

(14)

14 KAPITEL 2. PUNKTSKATTNINGAR 2.1.5 Lemma. L˚at β∗ vara det skattade v¨ardet av β. D˚a g¨aller att v¨antev¨ardet E(β∗) samt variansen V (β∗) ges av

E(β∗) = β respektive V (β∗) = σ

2

Pn

i=1(xi− ¯x)2

d¨ar σ utg¨or standardavvikelsen.

Bevis. Genom att anv¨anda k¨anda satser fr˚an sannolikhetsl¨aran finner man att E(β∗) = E Pn i=1(xi− ¯x)Yi Pn i=1x2i − 1 n( Pn i=1xi) 2 ! = = Pn i=1(xi− ¯x)µi Pn i=1x2i −n1 ( Pn i=1xi)2 = = Pn i=1(xi− ¯x)(α + βxi) Pn i=1x2i −n1 ( Pn i=1xi) 2 = = α Pn i=1xi+ βPni=1x2i − nα¯x −n1β ( Pn i=1xi)2 Pn i=1x2i −n1( Pn i=1xi)2 = = βPn i=1x2i −n1( Pn i=1xi)2  Pn i=1x2i − 1n( Pn i=1xi)2 = β

F¨or variansen visas att

V (β∗) = V  Pn i=1(xi− ¯x)Yi Pn i=1(xi− ¯x)2  = = σ2 Pn i=1(xi− ¯x)2 (Pn i=1(xi− ¯x)2)2 = = σ 2 Pn i=1(xi− ¯x)2

Anm¨arkning. Man ser enligt f¨oreg˚ande resonemang att β∗ ¨ar v¨ ante-v¨ardesriktig samt att variansen ¨ar liten d˚aPn

(15)

2.1. MINSTA-KVADRAT-METODEN 15 2.1.6 Lemma. L˚at µ∗0 vara det skattade v¨ardet av µ0. D˚a g¨aller f¨or v¨

ante-v¨ardet E(µ∗0) samt variansen V (µ∗0) att dessa ges av E(µ∗0) = µ respektive V (µ∗0) = σ2 1 n+ (x0− ¯x)2 Pn i=1(xi− ¯x)2 

Bevis. F¨or v¨antev¨ardet erh˚alls E(µ∗0) = E(α∗+ β∗x0) = = E n X i=1  1 n − (xi− ¯x) Pn i=1(xi− ¯x)2 ¯ x +Pn(xi− ¯x) i=1(xi− ¯x)2 x0  Yi ! = = n X i=1  1 n− (xi− ¯x)(x0− ¯x) Pn i=1(xi− ¯x)2  (α + βxi) = = α n X i=1  1 n− (xi− ¯x)(x0− ¯x) Pn i=1(xi− ¯x)2  + + β n X i=1  xi n − (xi− ¯x)(x0− ¯x)xi Pn i=1(xi− ¯x)2  = = α + β ¯x + β(x0− ¯x) = = α + βx0 = µ0

d¨ar det har utnyttjats att Pn

i=1(xi− ¯x) = 0 samt

Pn

i=1(xi− ¯x)xi = 1.

Vidare finner man att variansen kan ber¨aknas som V (µ∗0) = V (α∗+ β∗x0) = = V n X i=1  1 n − (xi− ¯x) Pn i=1(xi− ¯x)2 ¯ x +Pn(xi− ¯x) i=1(xi− ¯x)2 x0  Yi ! = = V n X i=1  1 n − (xi− ¯x)(x0− ¯x) Pn i=1(xi− ¯x)2  Yi ! = = σ2 n X i=1 1 n2 + 2(xi− ¯x)(x0− ¯x) nPn i=1(xi− ¯x)2 + (xi− ¯x) 2(x 0− ¯x)2 (Pn i=1(xi− ¯x)2) 2 ! = = σ2 1 n+ (x0− ¯x)2 Pn i=1(xi− ¯x)2 

2.1.7 Definition. Som skattning till standardavvikelsen σ tas s =pQ0/(n − 2)

d¨ar Q0 utg¨or summan av kvadraterna p˚a avst˚anden i lodr¨at led fr˚an yi,

i = 1, . . . , n, till den skattade regressionslinjen y∗ = α∗+ β∗xi, jfr. definition

(16)

16 KAPITEL 2. PUNKTSKATTNINGAR

2.2

Maximum-likelihood-metoden

En annan metod som anv¨ands f¨or att skatta de ing˚aende parametrarna i den teoretiska regressionslinjen ¨ar den s˚a kallade Maximum-likelihood-metoden3.

Den bygger p˚a att som skattare v¨alja de v¨arden p˚a parametrar som troligast skulle ha genererat det studerade stickprovet.

2.2.1 Definition. L˚at Y1, . . . , Ynvara oberoende s.v. s˚adana att Yi ∈ N (µi, σ),

i = 1, . . . , n. D˚a definieras Likelihood-funktionen4 som L(Y, α, β) =  1 2πσ2 n2 e Pn i=1(yi−µi)2 2σ2 .

Anm¨arkning. Till skillnad fr˚an fallet med MK-metoden, g¨aller det h¨ar att maximera L-funktionen genom att likst¨alla de partiella derivatorna med noll och l¨osa ut α respektive β. Genom att logaritmera L-funktionen erh˚alls den s˚a kallade log-likelihood-funktionen, som har till sin f¨ordel att den m˚anga g˚anger ¨ar l¨attare att derivera ¨an L-funktionen.

2.2.2 Definition. L˚at som i 2.2.1 Y1, . . . , Yn vara oberoende s.v. och

Yi ∈ N (µi, σ), i = 1, . . . , n. Log-likelihood-funktionen definieras d˚a som

ln L(Y, α, β) = −n ln σ − n ln(2π)1/2−  1 2σ2  n X i=1 (yi− µi)2

d¨ar yi ¨ar observationer p˚a Yi, µi definieras som i 1.1.2 och σ ¨ar

standard-avvikelsen.

2.2.3 Lemma. L˚at ˆα och ˆβ vara ML-skattningarna av α respektive β. D˚a ges dessa av ˆ α = ¯y − ˆβ ¯x och β =ˆ n X i=1 xiyi− 1 n n X i=1 xi n X i=1 yi n X i=1 x2i − 1 n n X i=1 xi !2

Bevis. F¨oljande uttryck erh˚alls efter utveckling av ekvationen i 2.2.2 efter att ha inf¨ort µi enligt Definition 1.1.2:

ln L(Y, α, β) = − n ln σ − n ln(2π)1/2 − 1 2σ2 n X i=1 y2i − 2α n X i=1 yi− 2β n X i=1 xiyi+ nα2+ 2αβ n X i=1 xi+ β2 n X i=1 x2i ! 3 F¨orkortat ML-metoden. 4 F¨orkortat L-funktionen

(17)

2.2. MAXIMUM-LIKELIHOOD-METODEN 17 Partiell derivering av detta uttryck med avseende p˚a α ger

∂ ln L(Y, α, β) ∂α = 1 σ2 n X i=1 yi− nα σ2 − β σ2 n X i=1 xi

vilket, genom att s¨atta det lika med noll, kan maximeras s˚a att 1 σ2 n X i=1 yi− nα σ2 − β σ2 n X i=1 xi= 0 ⇐⇒ ⇐⇒ α = 1 n n X i=1 yi− β n X i=1 xi ! ⇐⇒ ⇐⇒ α = ¯y − β ¯x

Analogt f˚as vid derivering med avseende p˚a β att ∂ ln L(Y, α, β) ∂β = − 1 2σ2 −2 n X i=1 xiyi+ 2α n X i=1 xi+ 2β n X i=1 x2i !

Maximering av detta uttryck ger

− 1 2σ2 −2 n X i=1 xiyi+ 2α n X i=1 xi+ 2β n X i=1 x2i ! = 0 ⇐⇒ ⇐⇒ n X i=1 xiyi− α n X i=1 xi− β n X i=1 x2i = 0 ⇐⇒ ⇐⇒ n X i=1 xiyi− (¯y − β ¯x) n X i=1 xi− β n X i=1 x2i = 0 ⇐⇒ ⇐⇒ n X i=1 xiyi− 1 n n X i=1 xi n X i=1 yi+ β n n X i=1 xi !2 − β n X i=1 x2i = 0 ⇐⇒ ⇐⇒ β   n X i=1 x2i − 1 n n X i=1 xi !2 = n X i=1 xiyi− 1 n n X i=1 xi n X i=1 yi⇐⇒ ⇐⇒ β = Pn i=1xiyi−n1 Pn i=1xi Pn i=1yi Pn i=1x2i −n1( Pn i=1xi)2

Anm¨arkning. Inte f¨oga f¨orv˚anande finner man att skattningarna av α och β blir de samma oavsett man anv¨ander MK-skattning eller ML-skattning. Vilken av metoderna man v¨aljer att utnyttja beror p˚a vilken av dem som ger enklast ber¨akningar att genomf¨ora.

(18)
(19)

Kapitel 3

Intervallskattningar

Ofta finns beh˚allning av att kunna avg¨ora inom vilket intervall skattningarna av α och β med stor sannolikhet befinner sig, och detta g¨ors med hj¨alp av intervallskattningar. F¨or att underl¨atta l¨asandet avses med∗ i detta avsnitt s˚av¨al MK-skattning som ML-skattning.

3.1

Standardavvikelsen k¨

and

3.1.1 Definition. L˚at β∗ vara punktskattningen av β och antag att stan-dardavvikelsen σ ¨ar k¨and. Ett konfidensintervall med konfidensgraden (1 − p), d¨ar p st˚ar f¨or sannolikheten, f¨or β utg¨ors d˚a av

Iβ = (β∗− λp 2D, β ∗ + λp 2D) d¨ar D = v σ u u t n X i=1 (xi− ¯x)2

3.1.2 Definition. Det g¨aller att µ∗0 ¨ar det skattade v¨ardet av µ0. I det fallet

att standardavvikelsen σ ¨ar k¨and, utg¨ors ett konfindensintervall f¨or µ0 med

konfidensgraden (1 − p) av Iµ0 = (µ ∗ 0− λp2D, µ∗0+ λp2D) d¨ar D = σ · s 1 n + (xi− ¯x)2 Pn i=1x2i −n1 ( Pn i=1xi) 2 19

(20)

20 KAPITEL 3. INTERVALLSKATTNINGAR

3.2

Standardavvikelsen ok¨

and

3.2.1 Definition. L˚at det g¨alla att standardavvikelsen ¨ar ok¨and. D˚a skattas σ som s = pQ0/(n − 2), jfr. definition 2.1.7. Ett konfidensintervall f¨or β

med konfidensgraden (1 − p) kan d˚a bildas genom Iβ = (β∗− tp

2(n − 2)d, β

+ tp

2(n − 2)d)

d¨ar β∗ ¨ar skattningen av β och n ¨ar antalet ing˚aende observationer samt

d = q s Pn i=1x2i − 1 n( Pn i=1xi) 2

3.2.2 Definition. D˚a standardavvikelsen ¨ar ok¨and f˚as f¨or µ0 ett

konfi-densintervall med konfidensgraden (1 − p) enligt Iµ0 = (µ

0− tp2(n − 2)d, µ∗0+ tp2(n − 2)d)

d¨ar µ∗0 ¨ar skattningen av µ0, n ¨ar antalet ing˚aende observationer samt

d = s · s 1 n + (x0− ¯x)2 Pn i=1x2i −n1 ( Pn i=1xi) 2

(21)

Kapitel 4

Multipel regression

Det kan n¨amnas att den linj¨ara regressionsmodellen ibland inneh˚aller fler ¨an en f¨orklarande variabel som p˚averkar utfallet. Skattningarna av de ing˚aende parametrarna g¨ors analogt som i fallet med enkel linj¨ar regression, d.v.s. genom att minimera Q(α, β1, . . . , βs) eller maximera L(Y, α, β1. . . , βs), men

ber¨akningarna blir dock mer tids¨odande.

4.1

Utvidgning av enkel linj¨

ar regression

4.1.1 Definition. L˚at xi och xj vara tv˚a observationer av f¨orklarande

vari-abler Xi och Xj, s˚a att i 6= j och i = 1, . . . , n samt j = 1, . . . , n. En Multipel

regressionsmodell f¨or den s.v. Y kan d˚a skrivas p˚a formen Y = α + βiXi+ βjXj+ ε

d¨ar ε utg¨or de slumpm¨assiga avvikelserna fr˚an det teoretiska regressions-planet.

4.1.2 Definition. Det g¨aller att α∗, βi∗ och β∗j ¨ar skattningarna av α, βi

och βj samt att i 6= j, i = 1, . . . , n och j = 1, . . . , n. Som konfidensintervall

med konfidensgraden (1 − p) tas d˚a Iµ0 = (µ ∗ 0± tp2(f )d) Iβi = (β ∗ i ± tp2(f )d) Iβj = (β ∗ j ± tp2(f )d)

d¨ar d anges i definition 3.2.2 respektive 3.2.1 och f definieras som

(n − k), d¨ar k ¨ar antalet ok¨anda parametrar och n ¨ar antalet ing˚aende ob-servationer p˚a de s.v.

(22)

22 KAPITEL 4. MULTIPEL REGRESSION

4.2

Polynomregression

4.2.1 Definition. I det fallet att regressionsmodellen ¨ar p˚a formen Y = α + βixi+ βjxj+ ε

d¨ar xi = xi samt i 6= j, i = 1, . . . , n och j = 1, . . . , n, talar man om

(23)

Kapitel 5

Styckvis Linj¨

ar Regression

5.1

Introduktion

Detta kapitel kommer behandla de fall d˚a det inte ¨ar l¨ampligt att anpassa endast en r¨at linje till de erh˚allna punkterna i planet, s˚a som var fallet vid enkel linj¨ar regression och multipel linj¨ar regression. Nu best˚ar uppgiften ist¨allet av att kunna stycka upp linjen i flera bitar, var och en med olika lutning samt olika intercept. F¨orst n˚agra grundl¨aggande definitioner. 5.1.1 Definition. L˚at X utg¨ora en m¨angd av stickprov (xij, yij) ∈ {Xi}

k i=1,

j = 1, . . . , n s˚adana att X = Sk

i=1Xi och Xi ∩ Xm = ∅ f¨or varje i, m =

1, . . . , k, det vill s¨aga att {Xi}ki=1 ¨ar en partition av X.

5.1.2 Definition. En Styckvis Linj¨ar Regressionsmodell anpassar en r¨at linje till var och en av {Xi}ki=1 s˚a att regressionslinjen ¨ar kontinuerlig i

alla punkter samt inneh˚aller strukturf¨or¨andringar vilka utm¨arker sig som ¨

andringar i linjens lutning.

5.1.3 Definition. L˚at Xi0 vara den punkt l¨angs med de f¨orklarande

vari-ablernas axlar, d¨ar strukturf¨or¨andringen hos regressionslinjen intr¨affar. D˚a definieras Xi0 som brytpunkten hos regressionslinjen.

5.2

Blindvariabler

F¨or att kunna ange en modell f¨or styckvis linj¨ar regression beh¨over begreppet blindvariabel studeras n˚agot n¨armre.

5.2.1 Definition. Det g¨aller att Di¨ar en blindvariabel, vilken ¨ar en funktion

som antar olika distinkta v¨arden beroende p˚a stickprovets utfall.

5.2.2 Exempel. P˚a ett f¨oretag vill man studera hur kostnaden vid till-verkning av en produkt p˚averkas av olika inst¨allningar av en viss maskin.

(24)

24 KAPITEL 5. STYCKVIS LINJ ¨AR REGRESSION Man finner att kostnaden Y ¨ar p˚a formen Y = α + βD + ε d¨ar D ¨ar en blindvariabel s˚adan att

D = (

1 om inst¨allning A anv¨ands, 0 om inst¨allning B anv¨ands. Detta f˚ar till f¨oljd att produktkostnaden blir

Y = (

α om D = 0, α + β om D = 1.

Anm¨arkning. Antalet blindvariabler kan ut¨okas godtyckligt f¨or att an-passas till r˚adande situation. Om, i exemplet ovan, det ist¨allet hade handlat om att unders¨oka produktionskostnaden f¨or tre olika maskininst¨allningar, hade tv˚a blindvariabler kunnat inf¨oras.

5.3

Regressionsmodell d˚

a brytpunkten ¨

ar k¨

and

Ibland vill man studera f¨orlopp d¨ar man i f¨orv¨ag vet var den struktur-ella f¨or¨andringen hos regressionslinjen sker, det vill s¨aga Xi0 ¨ar k¨and. Detta

avsnitt kommer fr¨amst att behandla det fall d˚a endast en f¨or¨andring i lut-ningen sker hos regressionslinjen, men mot slutet ges ocks˚a en definition f¨or det utvidgade fallet med fler k¨anda brytpunkter.

5.3.1 Definition. En regressionsmodell med en strukturf¨or¨andring definieras som

Y = α + β1X + β2(X − X0)D + ε

d¨ar X0 ¨ar brytpunkt och D ¨ar en blindvariabel s˚a att

D = (

1 om X > X0,

0 annars.

5.3.2 Lemma. L˚at Y definieras s˚a som i 5.3.1. D˚a g¨aller f¨or v¨antev¨ardet f¨or Y att detta ¨ar kontinuerligt och

E(Y ) = (

(α + β1X) om X ≤ X0,

(α − β2X0) + (β1+ β2)X om X > X0.

Bevis. Vi visar att funktionen ¨ar kontinuerlig. Det f¨oljer f¨or v¨antev¨ardet Y0

i brytpunkten X0 att

E(Y0) = α + β1X0

jfr. 5.3.2

= (α − β2X0) + (β1+ β2)X0= α + β1X0

(25)

5.3. REGRESSIONSMODELL D˚A BRYTPUNKTEN ¨AR K ¨AND 25 Den modell som angetts i detta avsnitt utvidgas utan st¨orre problem till att innefatta fler f¨orklarande variabler β3, . . . , βk, samt fler brytpunkter Di.

5.3.3 Definition. En regressionsmodell med godtyckligt m˚anga brytpunk-ter och f¨orklarande variabler definieras som

Y = α + β1X + β2(X − X10)D1+ . . . + βk(X − X(k−1))D(k−1)

d¨ar vidare Di definieras som

Di=

(

1 om X > Xi0,

0 annars.

och Xi0 ¨ar brytpunkter samt k ¨ar antalet ok¨anda parametrar p˚a formen

(26)
(27)

Kapitel 6

Approximation av

brytpunkter

I mer vanligt f¨orekommande fall ter det sig s˚a att man p˚a f¨orhand inte k¨anner till om regressionsmodellen inneh˚aller n˚agra strukturf¨or¨andringar. Med an-dra ord, eventuella brytpunkter ¨ar ok¨anda. Best¨ammningen av parametrarna i regressionsmodellen f¨orsv˚aras d˚a av att Xi0, (jfr. definition 5.1.3), ocks˚a

m˚aste approximeras. Detta avsnitt kommer d¨arf¨or behandla en algoritm f¨or hur detta kan genomf¨oras enligt McGee och Carleton (1970).

6.1

Introduktion

¨

Overgripande f¨or metoden kan s¨agas att den bygger p˚a att sammanfoga n¨arliggande punkter i det erh˚allna stickprovet om totalt N stycken punkter, genom att studera deras m¨ojlighet att anpassas till en r¨at linje. McGee och Carleton omn¨amner detta som ‘goodness-of-fit’ measure. I utg˚angsl¨aget studeras trippler av intilliggande punkter f¨or vilka man skattar en teoretisk regressionslinje, (se definition 2.1.3). D¨arp˚a studeras vilka av dessa trippler som b¨ast anpassar en r¨at linje och denna trippel v¨aljs som fix. I n¨asta steg kontrollerar man om de punkter som befinner sig (1); till h¨oger och (2); till v¨anster om den fixa trippeln, kan inneslutas i regressionslinjen utan att p˚averka linj¨ariteten. Nu studerar man ˚ater igen de kvarvarande punkterna och fixerar en ny trippel och s˚a fortl¨oper f¨orfarandet till dess att alla punkter i stickprovet har infogats i regressionslinjen. Tyngdpunkten ligger i att h˚alla f¨oreg˚aende niv˚as linjesegment som fixt och utifr˚an detta avg¨ora huruvida intilliggande punkter eller linjesegment ska infogas till det f¨orstn¨amnda.

6.2

Terminologi

F¨or att underl¨atta framst¨allningen f¨oljer h¨ar en lista ¨over de ben¨amningar som anv¨ands i modellen.

(28)

28 KAPITEL 6. APPROXIMATION AV BRYTPUNKTER Kluster. Med ett kluster av storlek q avses en m¨angd av q

intilliggande punkter i stickprovet.

Potentiellt kluster. I varje steg av processen ber¨aknas m¨ojligheten till anpassning av en r¨at linje f¨or intilliggande punkter. Dessa kallas f¨or ett potentiellt kluster.

Fixt kluster. I vilken niv˚a som helst av processen n¨ar ett kluster visar sig att b¨ast anpassa en r¨at linje, blir detta ett fixt kluster, med inneb¨orden att det nu ing˚ar i ett linjesegment.

Minimalt kluster. D˚a varje linjesegment m˚aste skattas enligt definition 2.1.3, kr¨avs minst tre punkter f¨or att detta ska kunna genomf¨oras. I utg˚angsl¨aget ¨ar s˚aledes alla trippler s˚adana minimala kluster. (Om stickprovet ¨ar stort kan antalet punkter i de minimala klustren ¨okas).

Klusterniv˚a. Processen delas in i olika niv˚aer d¨ar L0 betecknar

utg˚angsl¨aget d¨ar samtliga punkter i stickprovet utg¨or kluster av storlek 1, och Lf avser slutniv˚an d¨ar samtliga punkter tillh¨or

den definitiva regressionsmodellen.

Isolerade punkter. Ett kluster av storlek 1 ¨ar en isolerad punkt. P˚a niv˚a L0 ¨ar antalet isolerade punkter N stycken och f¨or Lf

g¨aller att det inte finns n˚agra isolerade punkter.

Uteslutna punkter. Ibland f¨orekommer det att vissa v¨arden i stickprovet ¨ar extremv¨arden som inte ¨ar representativa f¨or utfallet. Om man under processens g˚ang ser att det f¨orekommer punkter som f¨orblir isolerade n¨astan hela v¨agen fram till Lf,

kan detta tyda p˚a att det ¨ar extremv¨arden som kan uteslutas ur stickprovet.

Goodness-of-fit. Varje potentiellt kluster m˚aste studeras med avseende p˚a dess f¨orm˚aga att anpassas till en r¨at linje. Detta g¨ors genom att ber¨aknaPn

i=1ε2i/(n − 2), (f¨or ε se definition

1.1.3), d¨ar n ¨ar storleken p˚a det potentiella klustret. Ju l¨agre detta m˚att ¨ar, desto b¨attre goodness-of-fit, d.v.s. desto b¨attre anpassning till en r¨at linje f¨or de betraktade punkterna.

Klusterklassifikation. Fyra typer av kluster kan identifieras. Med Typ 0 avses ett minimalt kluster medan Typ 1 syftar p˚a ett fixt kluster som sammanfogas med en, till v¨anster, intilliggande punkt. Vidare inneb¨ar Typ 2 ett fixt kluster som sammanfogas med en, till h¨oger, intilliggande punkt och slutligen avses med Typ 3 sammanfogningen av tv˚a n¨arliggande fixa kluster.

(29)

6.3. GRUNDL ¨AGGANDE ANM ¨ARKNINGAR 29

6.3

Grundl¨

aggande anm¨

arkningar

Varje kluster som studeras ¨ar p˚a formen y = α + βx + ε d¨ar α och β skattas enligt avsnitt 2. F¨or att avg¨ora vilket av klustren som har b¨ast goodness-of-fit betraktar man summan

Φ = Pn

i=1ε2i

(n − 2) (6.1)

d¨ar n ¨ar storleken p˚a klustret och ε ¨ar residualen (se Definition 1.1.3). Efter att ha ber¨aknat Φ f¨or varje potentiellt kluster, v¨aljes det kluster med l¨agst v¨arde p˚a Φ som fixt.

Vidare g¨aller, om detta nya, fixa kluster ¨ar av Typ 0, att inget sig-nifikanstest beh¨over genomf¨oras. Om d¨aremot det nya klustret ¨ar av Typ 1 eller Typ 2 beh¨ovs en kontroll f¨or att avg¨ora om inf¨orandet av ytterli-gare en punkt i det fixa klustret p˚averkar linj¨ariteten. Detta g¨ors genom ett statistiskt F -test: F(1,n−2)= (y0− ˆy0∗)2+ n X i=1 (ˆyi− ˆyi∗)2 Φ , (6.2)

d¨ar index 0 avser den isolerade, n¨arliggande punkten. Vidare g¨aller att i avser de, i det fixa klustret, ing˚aende punkterna och asterisken refererar till det skattade v¨ardet av y0 och yi baserat p˚a (n + 1) punkter. Slutligen g¨aller

att Φ ¨ar m˚attet p˚a linj¨ariteten enligt ekvation 6.1. Om det nya klustret ¨ar av Typ 3 kan liknande signifikanstest genomf¨oras f¨or de intilliggande klustren. Modellen f¨or testet blir d˚a

F(2,m+n−4)=   m+n X i=1 ε2iC− m X j=1 ε2jL− n X k=1 ε2kR  /2   m X j=1 ε2jL+ n X k=1 ε2k R  /(m + n − 4) (6.3)

d¨ar L, R och C syftar p˚a det v¨anstra klustret, h¨ogra klustret och det kom-binerade klustret respektive, samt antalet punkter i det v¨anstra och h¨ogra klustret ¨ar m och n respektive. Om F -testets v¨arde ¨ar h¨ogt och d¨armed sannolikheten l˚ag, kan det vara ol¨ampligt att sammanfoga de unders¨okta punkterna och klustrerna.

I algoritmen kan anpassningar g¨oras f¨or att b¨ast passa r˚adande situation. Man kan t.ex. p˚a f¨orhand best¨amma hur m˚anga isolerade punkter som ska till˚atas under processens g˚ang. Likas˚a kan man l˚ata g¨alla att klustren bara f˚ar vara av typen minimala kluster hela v¨agen fram till n¨ast sista niv˚an, och att man d¨arifr˚an utf¨or signifikanstestet f¨or Typ 3-kluster.

(30)

30 KAPITEL 6. APPROXIMATION AV BRYTPUNKTER

6.4

Algoritmen

Nedan f¨oljer en schematisk ¨oversikt kring hur modellen fungerar. Man b¨or skriva detta som ett program i t.ex. Cygwin eller Matlab f¨or att kunna utf¨ora de ber¨akningar som kr¨avs inom rimliga tidsramar.

1. INPUT

N=Antalet punkter i stickprovet C=Minsta till˚atna kluster

T=Antal till˚atna isolerade punkter

E=Antal uteslutna punkter (och identifiering av dessa om de existerar)

2. IDENTIFIERA DE POTENTIELLA KLUSTRENA INF ¨OR N ¨ASTA NIV˚A

3. BER ¨AKNA GOODNESS-OF-FIT, Φ, F ¨OR VARJE POTENTIELLT KLUSTER OM DETTA INTE REDAN ¨AR GJORT

4. IDENTIFIERA DET KLUSTER MED L ¨AGST V ¨ARDE P˚A Φ OCH V ¨ALJ DETTA SOM FIXT.

5. BEST ¨AM ANTALET ISOLERADE PUNKTER P˚A DEN AKTUEL-LA NIV˚AN OCH KALLA DESSA F ¨OR T’

6. OM T’>T G˚A TILL 2. ANNARS G˚A TILL 7 7. KLASSIFICERA DET SENASTE KLUSTRET 8. OM KLUSTRET ¨AR AV TYP 0, G˚A TILL 2

OM KLUSTRET ¨AR AV TYP 1 ELLER TYP 2, G˚A TILL 9 OM KLUSTRET ¨AR AV TYP 3, G˚A D˚A TILL 10

9. UTF ¨OR SIGNIFIKANSTESTET ENLIGT EKVATION 6.2 SAMT BER ¨AKNA TILLH ¨ORANDE SANNOLIKHET. G˚A TILL 11

10. UTF ¨OR SIGNIFIKANSTESTET ENLIGT EKVATION 6.3 SAMT BER ¨AKNA TILLH ¨ORANDE SANNOLIKHET. G˚A TILL 11

11. ˚ASK˚ADLIGG ¨OR DETALJERNA P˚A DENNA NIV˚A OCH KON-TROLLERA OM DETTA ¨AR DEN SLUTLIGA NIV˚AN. OM INTE, G˚A TILL 2

(31)

6.5. ETT NUMERISKT EXEMPEL 31

6.5

Ett numeriskt exempel

F¨or att ˚ask˚adligg¨ora metoden f¨oljer nedan ett exempel som endast innefattar sju punkter. Det ¨ar dock tillr¨ackligt f¨or att kunna ber¨akna Φ samt anv¨anda de tv˚a olika F-testen. I detta exempel g¨aller att N= 7, C= 3, T= 0 samt E= 0.

6.5.1 Exempel. Vid en industri uppt¨acker man att oms¨attningen minskar drastiskt. D˚a man inte kan se n˚agon direkt anledning till varf¨or detta har skett, vill man kunna approximera vid vilken tidpunkt minskningen har in-tr¨affat, f¨or att utifr˚an denna tidpunkt sedan vidare kunna analysera orsaken. Man v¨aljer ut 7 stycken tidpunkter under det senaste kvartalet f¨or vilka man kontrollerar oms¨attningen. Resultatet kan ses i Tabell 6.1 nedan.

Tabell 6.1:

x 1 2 3 4 5 6 7

y 0.33 1.67 2.00 3.00 1.00 0.67 -0.33

Dessa talpar kan plottas i ett xy-plan och utg¨or d˚a punkter i planet. F¨orsta steget i algoritmen ¨ar att dela in dessa punkter tre och tre s˚a att punkterna (1 − 3), (2 − 4), (3 − 5) o.s.v. utg¨or potentiella kluster. F¨or varje s˚adant kluster best¨ams sedan punktskattningarna α∗ och β∗ enligt kapitel 2 s˚a att

α∗ = ¯y − β∗x¯ och

β∗ =

Pn

i=1xiyi−n1Pni=1xiPni=1yi

Pn i=1x2i− 1 n( Pn i=1xi) 2

Med hj¨alp av dessa kan sedan residualen be¨aknas enligt ekvationen i 1.1.3 och slutligen kan Φ ber¨aknas. Resultatet f¨or ber¨akningarna av Φ kan ses i Tabell 6.2 nedan. Som kan ses i tabellen har kluster (2 − 4) samt kluster (5 − 7) l¨agst v¨arden p˚a Φ och allts˚a v¨aljs dessa tv˚a kluster som fixa. B˚ada ¨

ar av Typ 0 s˚a inget signifikanstest beh¨ovs p˚a denna niv˚a.

Tabell 6.2: Kluster Φ (1-3) 0.170 (2-4) 0.075 (3-5) 3.500 (4-6) 0.465 (5-7) 0.075

(32)

32 KAPITEL 6. APPROXIMATION AV BRYTPUNKTER P˚a n¨asta niv˚a kontrolleras om punkt 1 kan inf¨oras i kluster (2 − 4). Till att b¨orja med skattas α∗ och β∗ med punkter (1 − 4) som ing˚angsv¨arden. D¨arefter ber¨aknas F-testet enligt ekvation 6.2. N¨asta steg best˚ar i att g¨ora ett signifikanstest enligt ekvation 6.3 f¨or att se om klustrerna (1 − 4) och (5 − 7) eventuellt kan sammanfogas utan att p˚averka linj¨ariteten i f¨or stor grad. De olika klusterniv˚aerna med tillh¨orande F-v¨arde och sannolikhet kan ses i Tabell 6.3 nedan.

Tabell 6.3:

Niv˚a Fixt kluster #Isolerade punkter Typ F-v¨arde Sannolikhet

0 0 7 – – –

1 (2-4),(5-7) 1 0 – –

2 (1-4),(5-7) 0 1 1.272 0.484

3 (1-7) 0 3 39.14 0.008

Ur tabellen f¨oljer att sannolikheten f¨or att kluster (1 − 4) och (5 − 7) tillh¨or samma regressionslinje ¨ar t¨amligen l˚ag, varf¨or niv˚a 2 v¨aljs som den slutgiltiga. S˚aledes intr¨affar minskningen i oms¨attning n˚agong˚ang mellan m¨atning 4 och 5. Fr˚an de skattade parametrarna till respektive kluster f¨oljer att oms¨attningsutvecklingen kan beskrivas som

y = (

−0.335 + 0.834x om x ≤ x4,

4.437 − 0.665x om x > x4.

(6.4) Om denna ekvation plottas i en graf kommer man dock m¨arka att funktionen inte ¨ar kontinuerlig mellan x = 4 och x = 5. ¨Aven McGee och Carlton (1970) f˚ar denna diskontinuitet i sin regressionsmodell. Kravet p˚a en styckvis linj¨ar regressionsmodell ¨ar dock att denna skall vara kontinuerlig i alla punkter. F¨or att ˚astadkomma detta har jag som ett slutligt steg i mina ber¨akningar anv¨ant mig av modellen enligt definition 5.3.1 och best¨amt brytpunkten till X0 = 4 enligt f¨oreg˚aende kapitel. D¨arp˚a har jag ber¨akna Φ f¨or kluster (1−4)

samt motsvarande v¨arde f¨or kluster (4 − 7). Dessa visade sig vara Φ(1−4) = 0, 085

Φ(4−7) = 0, 262

Som utg˚angspunkt har jag sedan anv¨ant det kluster med l¨agst v¨arde p˚a Φ, det vill s¨aga kluster (1 − 4), f¨or vilket jag anv¨ant den skattade regres-sionslinjen till att kunna best¨amma µ0 i X0 = 4 till µ0 = 3, 001. Som ett

n¨asta steg har jag genomf¨ort en skattning av β2 i Definition 5.3.1 enligt

MK-skattningen i Kapitel 2 men som approximation till α har jag ist¨allet anv¨ant mig av f¨oljande ekvation:

(33)

6.5. ETT NUMERISKT EXEMPEL 33 Med dessa ber¨akningar utf¨orda har jag sedan kunnat ange en modell enligt Definition 5.3.1 som kan ses nedan.

Y = −0, 335 + 0, 834X − 1, 866(X − X0)D + ε d¨ar D = ( 1 om X > X0, 0 annars.

Denna ekvation ¨ar kontinuerlig i alla punkter och uppfyller s˚aledes kravet p˚a styckvis linj¨ar regression.

Ytterligare ett alternativ att ˚astadkomma en kontinuerlig regressionslinje ¨

ar att l˚ata brytpunkten X0 = 4 ing˚a i b¨agge klustren s˚a att den skattade

linjen f¨or kluster (1 − 4) anv¨ands enligt ekvation 6.4 men en ny skattning g¨ors f¨or kluster (4 − 7). Med hj¨alp utav detta v¨arde har jag sedan kunnat ber¨akna en regressionslinje p˚a formen

y = (

−0.335 + 0.834x om x ≤ x4,

6, 761 − 1, 032x om x > x4.

(6.5)

Ber¨akning av φ f¨or kluster 4−7 med ekvation 6.5 ger φ = 0, 262. Motsvarande ber¨akning men med ekvation 6.4 ger φ = 0, 786. Jag anser att justeringen av ekvationen kan motiveras utifr˚an det l¨agre v¨arde p˚a φ som detta genererar. Dock b¨or detta avg¨oras fr˚an fall till fall.

(34)
(35)

Litteraturf¨

orteckning

[1] Gunnar Blom, Sannolikhetsteori och statistikteori med till¨ampningar, femte upplagan, Studentlitteratur, Lund 2005.

[2] Giancarlo Ferrari-Trecate & Marco Muselli, ”‘A New Learning Method for Piecewise Linear Regression”, Proceedings of the International Con-ference on Artificial Neural Networks,Springer-Verlag, London, 2002. [3] Wolfgang Hardle, Hua Ling & Jiti Gao, Partially Linear Models,

Physica-Verlag, 2000.

[4] Richard J. Larsen & Morris L. Marx, An Introduction to Mathematical Statistics and Its Applications, 2thed., Prentice-Hall, New Jersey, 1986. [5] Victor E. McGee & Willard T. Carleton, ”‘Piecewise Regression”’, Journal of the American Statistical Association, 65 (September 1970), 1109-1124.

[6] Robert S. Pindyck & Daniel L. Rubinfeld, Econometric Models and Eco-nomic Forecasts, 4th ed., The McGraw-Hill Companies, Boston, 1998.

References

Related documents

F¨or att f¨orvissa oss om att s˚ a ¨ar fallet g¨or vi oss en bild av situationen

I en produktionsprocess blir enheterna, oberoende av varandra, felak- tiga med sannolikhet 0.01 och 300 enheter tillverkas. I en urna finns vita och

Man kan faktiskt g¨ora ett konfidensintervall f¨or medianen med konfidensgrad minst lika med 1 − α helt utan n˚ agra som helst antaganden om den bakom- liggande f¨ordelningen

L¨ osningen till uppgift 2(b)(ii) fr˚ an provduggan Vi m˚ aste visa tv˚ a

Endast definitioner och trigonometriska r¨ aknelagar f˚ ar anv¨ andas utan att de f¨ orst bevisas. Sida 2

Denna situation har varat s˚ a l¨ ange att tempera- turj¨ amvikt

F¨or n˚agot st¨orre stickprov (en tum- regel ¨ar storlekar st¨orre ¨an 15, se IPS sidan 463) r¨acker det med att variabeln ¨ar symmetrisk och att det inte finns n˚agra

Matematiska institutionen Stockholms