• No results found

Analys av anbud med logistiskregressionsanalys

N/A
N/A
Protected

Academic year: 2022

Share "Analys av anbud med logistiskregressionsanalys"

Copied!
69
0
0

Loading.... (view fulltext now)

Full text

(1)

Analys av anbud med logistisk regressionsanalys

Erik Castillo CMIEL erikcas@kth.se

SA106X Examenarbete inom matematik, grundnivå Institutionen för Matematik, inriktning Matematisk Statistik

Kungliga Tekniska Högskolan Handledare: Gunnar Englund

May 21, 2013

(2)

Sammanfattning

Anbud är en stor och väsentlig del inom tekniska konsultföretag eftersom det ger arbete till företaget och förhoppningsvis vinst, förutsatt att allt går som planerat. Chansen att vinna ett anbud beror på många faktorer, allt från timpris till affärsområde. Trots dess stora vikt och betydelse finns det lite till ingen forskning gjord för att se vad som påverkar chansen att vinna ett anbud. Ett av företagen som handskas med anbud är Sweco systems AB, ett teknik konsultföretag, som ansåg ideen att analysera utfallen för att se vilka faktorer som kan anses signifikanta och därifrån skapa en matematisk mo- dell baserat på de som betydelsefull.

Den typ av regressionsanalys som användes vid det här arbetet var logistisk regressionanalys vilket går bra ihop vid beräkning av sannolikhet att vinna ett anbud.

(3)

Acknowledgements

Jag skulle vilja tacka Ann-Charlotte Andersson , regionschef SWECO systems AB, och Hans Tunbrå, gruppchef SWECO systems AB, för att ha bidragit med sina erfarenheter och tillbringat tid för att hjälpa mig med att inrätta projek- tet. Vill även tacka Malin Larsson, projektkoordinator SWECO systems AB, för att ha hjälpt mig med data. .

Stockholm, December 2013 Erik Castillo

(4)

Innehåll

1 Inledning 1

1.1 Bakgrund . . . . 1

1.2 Syfte & frågeställning . . . . 1

Introduction 1 2 Teori 2 2.1 Regressionsanalys[1] . . . . 2

2.1.1 Multipel regressionsanalys[1] . . . . 2

2.1.2 Gauss-Markov theoremet & Ordinary least squares, OLS [1] . . . . 3

2.1.3 Skattning avβ [1] . . . . 5

2.2 Tester[1] . . . . 8

2.2.1 T-test[1] . . . . 8

2.2.2 F-testet[1] . . . . 9

2.2.3 Gemensama hypoteser[1] . . . . 10

2.2.4 ANOVA: analysis of variance[1] . . . . 11

2.3 Problem[1] . . . . 12

2.3.1 Multikollinearitet: perfekt & operfekt . . . . 13

2.3.2 Perfekt multikollinearitet[1] . . . . 13

2.3.3 Operfekt multikollinearitet[1] . . . . 13

2.3.4 Heteroskedasticitet . . . . 14

2.3.5 Autokorrelation, serial korrelation[1] . . . . 15

2.3.6 Endogenitet[1] . . . . 16

2.4 Tester för problem[1] . . . . 17

2.4.1 Langrage multiplier: Breusch-Pagan test[1] . . . . 17

2.4.2 Langrage multiplier: Glejser test[1] . . . . 17

2.4.3 Langrage multiplier: Park test[1] . . . . 18

2.4.4 White’s test . . . . 19

2.4.5 Autokorrelation test: Durbin-Watson test[1] . . . . 20

2.4.6 Multikolliniearitet: korrelationsmatris , tolerans och variance inflation[1] . . . . 20

2.5 Logistisk regression[2] . . . . 21

(5)

2.5.1 Bakgrund . . . . 21

2.6 Skattning av parametrar[2] . . . . 23

2.7 Pseudo R2och−2 log likelihood [2] . . . . 23

2.8 Hosmer och Lemeshow test och Wald’s test[2] . . . . 23

2.9 Receiver operating characteristic, ROC curve[2] . . . . 23

3 Analys av anbud 25 3.1 Kovariater . . . . 25

3.1.1 Timpris i genomsnitt . . . . 26

3.1.2 Affärsområde . . . . 26

3.1.3 Disciplin EL & disciplin VVS . . . . 26

3.1.4 Fyllda roller . . . . 26

3.1.5 Anbuds typ . . . . 27

3.1.6 Referens objekt & referens person . . . . 27

3.1.7 Kompetensgrad . . . . 28

3.1.8 Interaktioner . . . . 28

3.2 Genomförande av analys . . . . 29

3.2.1 Modeller . . . . 29

4 Resultat 31 4.1 Signifikanser . . . . 31

4.1.1 Model: 1,2 och 5 . . . . 31

4.2 Model: 3 . . . . 32

4.3 Model: 4 . . . . 33

4.4 Model: 6 . . . . 33

4.5 Psuedo R2och Deviance,−2 log likelihood . . . . 33

4.5.1 Modell 1,2 och 5 . . . . 34

4.5.2 Modell 3 . . . . 35

4.5.3 Modell 4 . . . . 35

4.5.4 Modell 6 . . . . 35

4.6 Signifikanser med användning av standardiserade residualer och Cook’s värden . . . . 36

4.6.1 Modell 1,2 och 5 . . . . 36

4.6.2 Modell 3 . . . . 37

4.6.3 Modell 4 . . . . 37

4.6.4 Modell 6 . . . . 37

4.7 Psuedo R2 och Deviance,−2 log likelihood med standardise- rade residualer och Cook’s värden . . . . 38

4.7.1 Modell 1,2 och 5 . . . . 38

4.7.2 Modell 3 . . . . 38

4.7.3 Modell 4 . . . . 39

4.7.4 Modell 6 . . . . 40

4.7.5 De slutliga modellerna utan standardiserade residua- ler och Cook’s värden . . . . 40

(6)

4.7.6 De slutliga modellerna med standardiserade residua- ler och Cook’s värden . . . . 41 4.7.7 ROC kurvorna . . . . 41

5 Diskussion, felkällor & slutsats 46

5.1 Om arbetet . . . . 47

6 Appendix 49

6.1 Hosmer och Lemeshow test . . . . 50 6.2 Hosmer och Lemeshow test för analysen med standardiserade

residualer och Cook’s värden . . . . 51 6.3 Modellernas logit grafer utan standardizerade residualer och

Cook’s värden . . . . 53 6.4 Modellernas logit grafer med standardiserade residualer och

Cook’s värden . . . . 55 6.5 Modellernas logit residualer med och utan standardiserade

residualer och Cook’s värden . . . . 57

Bibliography 62

(7)

Kapitel 1

Inledning

1.1 Bakgrund

Ett anbud är en offert där arbete erbjuds för ett pris och vars beslutsfattare är beställaren, där beställarens beslut grundas på olika faktorer. Faktorerna kan vara allt från pris, kompetensgrad till företagets rykte inom vissa discipliner.

Tyvärr finns det nästintill ingen vetenskap om hur och varför man får eller inte får ett anbud. Konsten att vinna ett anbud är därför inget självklart då inga studier har utförts för att analysera vad som påverkar utfallen, att få ett anbud eller inte få ett anbud. Det var denna okunskap om vilka faktorerna som påverkar eller inte påverkar utfallen som utlöste ideen till denna studie.

Datan, observationerna, är baserade dels på företagets anbudsarkiv och dels på intervjuer med ansvariga för anbud gällande gamla anbud samt mindre anbud som saknar detaljerade uppgifter.

1.2 Syfte & frågeställning

Syftet med denna studie, rapport, är att analysera faktorerna som tros påver- ka utfallet, att få anbud, och att skapa en matematisk modell som beräknar sannolikheten att att få med sig ett anbud samt att hjälpa och motivera före- taget att upprätta en databas för framtida analyser av anbud, m.h.a. logistisk regressionsanalys.

(8)

Kapitel 2

Teori

2.1 Regressionsanalys [1]

regressionsanalys bygger på att m.h.a. datahistorik skapa en matematisk mo- dell som sedan kan användas för att förutse önskat objekt. Det här objektet kan vara allt från lön till sannolikheten att vinna något, betingat att det går att beskriva ordinalt. I det här kapitlet förklaras grundteorin och hur det kopplas till logistisk regression, vilket är grundläggande för att förstå av- handlingen.

2.1.1 Multipel regressionsanalys [1]

Multipel regression är en matematisk model som förutspår ett utfall, Y, be- roende på utvalda prognosvariabler, även kända som kovariater. Det finns givetvis en mängd andra regressionsmodeller som t.ex. den logistiska regres- sionsmodellen som använda i denna avhandling men för att förstå den måste multipel regressionsanalys förklaras först för att sedan koppla denna till den logistiska regressions modellen.

Den multipla regressions modellen kan enklast beskrivas m.h.a. matematik:

Y1= X0,1β0+ X1,1β1+ X2,1β2+ · · · + Xkβk+ ε1

Y2= X0,2β0+ X1,2β1+ X2,2β2+ · · · + Xk,iβk,i+ ε2

...

Yi = X0,iβ0+ X1,iβ1+ X2,iβ2+ · · · + Xk,iβk+ εi

• Yi är utfallet och även en stokastisk variabel.

• X variablerna är prognosvariablerna, kovariaterna, dock är den inte en stokastisk variabel då den bestäms utav användaren och inte utav

(9)

slumpen. X0antas även vara 1

• β variablerna är koefficienterna som visar hur stor inverkan dess kor- responderade kovariat har på utfallet.

• ε representerar felet

Den matematiska modellen kan även skrivas på en mer kompakt form. Bör- jar med att organisera om ekvationsraderna m.h.a. linjär algebra:

~Y =

Y1

Y2 ... Yi

, ~β =

β1

β2

... βk

,~ε =

ε1

ε2

... εi

, Xi,k=

1 X2,1 · · · Xk,1

1 X2,2 · · · Xk,2

... ... ... ... 1 X2,i · · · Xk,i

Ekvationerna kan sedan sammanfattas i matrisform:

~Y = X ~β + ~ε (2.1)

Det som fattas är att skatta parametrarnaβ, det görs via OLS metoden.

2.1.2 Gauss-Markov theoremet & Ordinary least squares, OLS [1]

OLS metoden bygger på Gauss-Markov theoremet vilket säger följande an- taganden.

Ei] = 0 (2.2)

V(Y ) = V (X ˆβ) + V (ε) = V (εi) = σ2< ∞ (2.3) C or ri,εj) = 0, i 6= j (2.4)

Det förväntade felet skall vara lika med 0. Felets varians skall vara konstant och felen skall även vara okorrelerade, dvs. vara oberoende av varandra.

Antagandena kan sammanfattas bäst via förkortningen idd vilket står för "in- dependent identical distributions", dvs att felen skall vara oberoende, okorre- lerade, och vara av samma distribution, dvs. att de skall ha samma väntevär- de och samma standardavvikelse . Vilket i sin tur ger att felets distribution:

ε ∼ N(0, σ2) (2.5)

(10)

Figur 2.1: Felen är oberoende och har identisk distribution[1]

Theoremet säger även att den bästa linjära opartiska skattningaren avβ ko- efficienterna ges av OLS, man säger då att koefficienterna är BLUE dvs. best linear unbaised estimator.

(11)

Vad som just menas med BLUE är att skattarna har låg varians, till skillnad från andra opartiska skattare. Skattarna måste även vara opartiska, bryts detta innebär det att andra bättre skattare än de som ges av OLS existerar.

Det OLS antyder är att deβ som minimerar det kvadrerade felet till regres- sionens modellen är de bästa skattningarna som kan göras, betingat att Gauss- Markov theoremets antaganden upphålls.

2.1.3 Skattning avβ [1]

Kovariaternas respektive koefficienter,β, beräknas på följande sätt:

minβˆk

n

X

i=1

ε2i =min

βˆk

εtε (2.6)

ε = Y − X ˆβ (2.7)

d d ˆβk

εtε = 0 (2.8)

(2.9) β är den skattade vektorn ~ˆˆ β och ε det samma som vektor ~ε, detta för att göra det enklare.

(12)

1.7 insatt i 1.6 ger:

εtε = (Y − X ˆβk)t(Y − X ˆβk) (2.10)

(2.11) Derivera för att ta fram de ˆβ som minimerar felets kvadrat.

d d ˆβk

€(Y − X ˆβ)t(Y − X ˆβ)Š = 0 (2.12) d

d ˆβk

€YtY − YtX ˆβ − XtβtY + XtβˆtX ˆβŠ = 0 (2.13)

−YtX− XtY + 2XtX ˆβ = 0 (2.14)

−2XtY + 2XtX ˆβ = 0 (2.15) XtX ˆβ = XtY ⇒ ˆβ = (XtX)−1XtY (2.16) Ett av antagandena som görs i Gauss-Markov theoremet är att den uppskat- tade vektorn ˆβ är opartisk, unbaised. Väntevärdet avslöjar detta:

E[ ˆβ] = E[(XtX)−1XtY] (2.17) E[ ˆβ] = E[(XtX)−1Xt(Xβ + ε)] (2.18) E[ ˆβ] = E[(XtX)−1XtXβ] + E[(XtX)−1ε] (2.19)

Antag, för att uppfylla Gauss-Markov theoremet, att felets väntevärde är lika med 0.

E[ ˆβ] = E[(XtX)−1XtXβ] (2.20)

E[ ˆβ] = β (2.21)

β visar sig vara opartisk. Dess varians visar sig då vara, med antagandetˆ (1.3) i hand:

V( ˆβ) = V ((XtX)−1XtY) (2.22)

V[ ˆβ] = V ((XtX)−1Xt(Xβ + ε)) (2.23) V[ ˆβ] = V (XtX)−1XtXβ) + V ((XtX)−1Xtε)) (2.24)

(13)

Variansen av icke stokastiska variabler är alltid lika med 0.

V[ ˆβ] = V ((XtX)−1Xtε) (2.25)

Med (1.3) :

V[ ˆβ] = (XtX)−1XtV(ε) (2.26) V[ ˆβ] = (XtX)−1XtIσ2 (2.27)

Med ˆβ kan Y:s fördelning tas fram.

E[Y ] = E[Xβ] + E[ε] (2.28)

Med (1.2):

E[ε] = 0 (2.29)

E[Y ] = E[Xβ] (2.30)

Dess varians:

V[Y ] = V [Xβ] + V [ε] (2.31)

Återigen är variansen för icke stokastiska variabler lika med 0.

V[Xβ] = 0 (2.32)

V[Y ] = V [ε] (2.33)

Fördelningen för Y blir följande:

Y ∼ N (X, σ2) (2.34)

(14)

2.2 Tester [1]

Tester är gjorda får att se signifikansen hos kovariaterna. 2 tester kommer att beskrivas vilka blir t-test och F-testet.

2.2.1 T-test[1]

Det här testet beräknas genom att det förväntade värdet subtraheras med noll hypotesen och delas med det skattade standardavvikelsen. Ett exempel må fungera som en bra illustration.

Ponera följande regressionsmodell:

Y = β0+ X1β1+ X2β2+ X3β3+ ε (2.35)

Antag nu att X1 och X2’s signifikans ifrågasätts. Hypoteserna kan då se ut som följande:

H0:β1= 0, β2= 0 (2.36) H1:β16= 0, β26= 0 (2.37)

T-testen kan då beräknas:

tx

1 = βˆ1− β1

Sβˆ

1

(2.38)

tx

2 = βˆ2− β2

Sβˆ

2

(2.39) Därβ1 och β2 är noll hypoteserna. Efter att ha beräknat t-värdena för re- spektive hypotes jämförs de beräknade värdena med det kritiska värdet och därifrån tas beslut om en eller båda kovariaterna är signifikanta för regres- sions modellen.

I det här exemplet blir testet ett tvåsidigt test p.g.a. (1.36).

−tα/2(n − 4) < tx1 < tα/2(n − 4) (2.40)

−tα/2(n − 4) < tx1 < tα/2(n − 4) (2.41)

Om t-värdet befinner sig innanför gränserna behålls (1.35) annars ses kova- riaten som insignifikant och modellen reduceras.

(15)

2.2.2 F-testet [1]

F-testet liksom t-testet är ett test på signifikansen hos kovariaten, kovaria- terna. Men till skillnad från t-testet är F-testet mer mångsidigt, då det kan utföra ett test som testar ett eller fler hypoteser samtidigt.

Antag följande hypoteser och regressionsmodell.

H0:β1= 0, β2= 0 (2.42) H1:β16= 0, β26= 0 (2.43) Y = β0+ X1β1+ X2β2+ X3β3+ ε (2.44)

Vad F-testet gör till skillnad från t-testet är att det gör ett test mellan regres- sionsmodellen betingat H0 och regressionsmodellen betingat H1. Beroende på värdet görs valet att förkasta noll hypotesen eller se skillnaden som sig- nifikant och där av behålla noll hypotesen.

F-värdet tas fram på följande sätt:

F =

RSSR− RSSUR

k− 1 RSSUR

k− 1

(2.45)

Givetvis finns det fler sätt att beräkna F-värdet. Ett annat vanligt sätt att beräkna F-värdet är:

F =

RSSR k− 1 SSResidual

n− k

(2.46)

Där RSSR står för regressions summan av kvadraterna för den begränsade modellen och RSSUR för regressions summan av kvadraterna för den obe- gränsade modellen. Antalet restriktioner tas fram genom att ta antalet ko- efficienterβ och subtrahera med −1 samt subtrahera med antalet hypoteser.

Givetvis kan även F-värdet tas fram för enskilda hypoteser som t.ex.β2= 0, man kan t.ex. använda relationen mellan t-värdet och F-värdet:

t2= F (2.47)

Skillnaden när man testar dessa två är att t-testet har en t-distribution där F-testet istället har enχ2fördelning.

(16)

(a)χ2distribution (b) t distribution

Figur 2.2: Distributionerna för F-testet och t-testet[1]

2.2.3 Gemensama hypoteser[1]

Denna typ av hypoteser är något svårare och är inte lika intuitiva som de enskilda hypoteserna.

De gemensama hypoteserna kan se ut som följande:

H0:β1+ β2+ 2 = 0 (2.48)

Givetvis kan man ej bara följa den generella metoden för att testa hypotesen.

Vad som görs istället är att hypotesen substitueras in i modellen och däref- ter manipuleras regressions modellen och testet kan utföras. Ett exempel får illustrera problemet och lösningen.

Antag att samma innan nämda hypotesen används (1.47) och regressions modellen som används är densamma som i exemplet för t- och F-testet (1.44).

H0:β1+ β2+ 2 = 0 (2.49) H1:β1+ β2+ 2 6= 0 (2.50) Y = β0+ X1β1+ X2β2+ X3β3+ ε (2.51)

Det första steget blir att formulera om noll hypotesen och substituera in i regressionsmodellen.

H0:β1= −β2− 2 (2.52)

Y = β0+ X1(−β2− 2) + X2β2+ X3β3+ ε (2.53) Y = β0− X1β2− 2X1+ X2β2+ X3β3+ ε (2.54)

(17)

För sedan alla termer utanβ koefficienter till vänsterled och behåll termer medβ koefficienter i högerledet. Skapa därefter en ny beroende variabel ˜Y.

Y˜ = Y + 2X1 (2.55)

Y˜ = β0− X1β2+ X2β2+ X3β3+ ε (2.56)

(1.55) blir nu den begränsade modellen och (1.50) den obegränsade model- len. Där efter beroende på F-värdet tas beslutet om noll hypotesen förkastas eller ej.

2.2.4 ANOVA: analysis of variance[1]

Anova är ett kraftfullt verktyg då det kan användas för att testa hypoteser, m.h.a F-testet, och för att testa hypoteser som ifrågasätter en kovariables marginal variabler, t.ex. vid test av olika tvättmedel m.m.

Anova

Source SS df MSS F

Regression SSR k SSR/k MSS(Regression)/MSS(Residual) Residual RSS n-k-1 RSS/(n-k-1)

Total SST n-1

Tabellen ovan visar hur en Anova tabell ser ut samt hur den fylls ut med respektive beräkningar. Vid F-test för Anova tabeller används (1.46) då det är enklare att beräkna när kvadratsummorna är kända.

Som nämnt innan är Anova av stor nytta då det kan användas för att tes- ta marginal variablerna hos en kovariabel, t.ex. tvättmedel. Vad som menas med marginalvariabler är variabler som ligger under en huvudvariabel. Om man använder tvättmedel som exempel kan man anta att det finns 3 olika tvättmedels typer, kalla de för A,B och C. Dessa 3 variabler hamnar därför under huvudvariabeln tvättmedel.

Hur testas marginalvariabler? Det beror helt och hållet på antalet kovariab- ler med marginal variabler. Har man endast en då kallas det för en one-way- Anova har man två kallas des för two-way-anova osv.

(18)

Figur 2.3: Kovariabel och dess marginalvariabler[1]

Antag att man vill testa hypotesen att det spelar ingen roll vilket tvättmedel som används.

H0:µA= µB = µC (2.57)

H1:µA6= µB 6= µC (2.58)

Regressionsmodellen som skapas då är, m.h.a. dummy variables:

Y = α + ZBβB+ ZCβC + e (2.59)

Där tvättmedel A används som riktmärke. Kör sedan regressionen och ta ett beslut beroende på F-värdet.

2.3 Problem [1]

Gauss-Markov theoremets antaganden antar att omständigheterna är opti- mala för att utföra OLS och därigenom skatta koefficienterna för att en ma- tematisk modell skall kunna skapas samt användas. Dock är den befintliga världen inte alltid den mest optimala, eller linjära för den delen, och de an- taganden som tas i Gauss-markov theoremet kan därför inte alltid upphållas.

Det som tas upp i detta avsnitt blir vilka problemen är, vad deras natur är, vil- ka tester som kan utföras och vilka lösningarna som existerar för respektive problem.

(19)

2.3.1 Multikollinearitet: perfekt & operfekt

Multikollinearitet innebär att en eller fler kovariater beror av varandra och kan beskriva varandra via linjär kombinationer. Det finns dock två typer av multikollinearitet; perfekt och operfekt multikollinearitet.

Nedan beskrivs de båda typerna med respektive exempel som förhoppnings- vis illustrerar problemens natur.

2.3.2 Perfekt multikollinearitet[1]

Perfekt multikollinearitet innebär att en eller fler kovariater är linjärkom- binationer av varandra, låt oss ta ett exempel. Ponera att följande model används:

Y = β0+ X1β1+ X2β2+ X3β3+ ε (2.60)

Anta även att X1och X2är linjärkombinationer av varandra.

X1= 3X2 (2.61)

(1.36) säger då att X1och X2är perfekt korrelerade med varandra, om X2 är 2 ger då att X1 blir 6. Detta gör att OLS skattningen misslyckas med att skatta kovariaternas effekter, i exemplet innebär det kovariaterna X1och X2 koefficienterβ1ochβ2.

Varför misslyckas OLS? Det är för att när OLS gör sin skattning av koeffici- enternaβ väljer den ut en kovariat och kollar på dess inverkan på utfallet Y samtidigt som den håller resterande kovariater statiska, detta är intuitio- nen som fås av matematiken bakom beräkning av koefficienterna. Detta kan dock inte göras om perfekt multikollinearitet existerar mellan två eller fler kovariater. I exemplet ovan innebär det att när OLS rör på X1för att kolla dess effekt på Y kommer X2att röra sig perfekt med X1

2.3.3 Operfekt multikollinearitet [1]

Operfekt multikollinearitet innebär att en eller fler kovariater är linjärkom- binationer av varandra men till en viss grad. Låt oss återanvända exemplet som användes i fallet perfekt multikollinearitet.

Återigen antas följande model:

Y = β0+ X1β1+ X2β2+ X3β3+ ε (2.62)

Dock är X1och X2inte perfekt korrelerade:

(20)

X1= 3X2+ ε (2.63)

Det (1.38) säger är att X1är fortfarande korrelerade men endast till en viss grad, vilket innebär att kovariaterna inte rör sig perfekt med varandra i alla observationer.

Ett exempel är om 100 observationer finns tillgängliga och kovariaterna X1 och X2är korrelerade till 90 procent betyder det alltså att under 10 fall var dessa kovariater inte perfekt korrelerade. Intuitivt sett innebär det att 10 ko- efficienterna skattas m.h.a. 10 observationer. Det innebär i sin tur, med cen- trala gränsvärdessatsen som grund, att skattningarna inte blir önskevärda, hög varians. Hur man löser och testar för de två typerna av multikollinearitet tas upp i ett senare avsnitt.

2.3.4 Heteroskedasticitet

Figur 2.4: Felen har olika varians samt olika distribution[1]

Heteroskedasticitet är motsatsen till homoskedasticitet, när felets varians är konstant (1.3). Det som sker när felens varians ej är konstant är att felens distribution inte blir identiska, varianserna skiljer sig för varje observation, antagandet idd upphålls därför inte.

Fallen där heteroskedasticitet kan uppstå är t.ex. om data samlas på high scores i ett spel över tid. Det som får heteroskedasticitet att uppstå är att ju mer individen, individerna, får öva desto bättre borde individen bli och där av borde high score värdena variera mindre.

(21)

Grafiskt sätt blir det att distributionen varierar mindre över tid. I boken Ba- sic econometrics, skriven av Damodar N. Gujarati, tas exemplet på antalet skrivfel över tid där kovariaten är tid som spenderas på att öva skrift.

Figur 2.5: Skrivfel över tid[1]

Grafen visar hur felen varierar mindre desto mer som övas över tid.

2.3.5 Autokorrelation, serial korrelation[1]

Autokorrelation, eller serial korrelation, innebär att felet hos en observation påverkas av felet i observationen innan, vilket strider mot (1.4). Matematiskt kan det beskrivas på följande sätt:

Y = β0+ X1β1+ X2β2+ εt (2.64) Om felen nu är autokorrelerade fås följande:

εt = ρεt−1+ ut (2.65)

Vad ekvationen innebär är att omρ inte är 0, dvs är autokorrelerad, ger det att feletεt värde fås tillρ procent av felet, ut−1 i det föregående fallet, t-1.

Autokorrelation kan ibland vara kopplat med endogenitet och kan leda till att inte bara OLS blir ineffektiv utan att även skattarnaβ blir partiska vilket säger att andra bättre skattningar än OLS’s existerar. En matematisk beskriv- ning funkar som illustration.

(1.40) i (1.39)

Y = β0+ X1β1+ X2β2+ ρεt−1+ ut (2.66) Väntevärdet av ˆβ, använder (1.19), blir följande:

(22)

E[ ˆβ] = E[(XtX)−1XtXβ] + E[(XtX)−1ε] (2.67) E[ ˆβ] = E[β] + E[(XtX)−1ε] (2.68)

Om en eller fler kovariater är korrelerade med feletε kommer väntevärdet ej bli noll för den andra termen till höger om lika med tecknet, vilket kommer leda till att ˆβ blir partisk, baised.Om istället ingen kovariat är korrelerad med feletε blir ˆβ opartisk.

2.3.6 Endogenitet [1]

När en kovariat är okorrelerad med feletε kallas den för exogen men när kovariaten eller kovariaterna är korrelerad med felet sägs det eller de vara endogena. Detta leder till att de kovariater som är korrelerade med felet blir partiska och leder till dåliga skattningar av kovariaternas respektiveβ.

(23)

2.4 Tester för problem [1]

Det finns tester för att finna problem med regressionsmodellen dock kan inte alla problem testas för som t.ex. endogenitet. De problem vars tester förklaras i detta avsnitt blir för heteroskedasticitet, autokorrelation och mul- tikolliniearitet.

Detta avsnitt kommer att bestå av fyra tester för heteroskedasticitet, varav de tre första är parametriska, en för autokorrelation och avslutas med ett test för multikolliniearitet.

2.4.1 Langrage multiplier: Breusch-Pagan test[1]

I Breusch-Pagan testet använder man en regressionsmodell för att avgöra om variansen är konstant eller ej, om det är homo- eller heteroskedastiskt.

σi2= α1+ α2Z2,i. . .αpZp,i (2.69) Där hypotesen och dess restriktioner är:

H0:α2= α3= . . . = αi (2.70)

p− 1 rest riktioner (2.71)

Breusch-Pagan testet utförs på följande sätt:

1. Skatta parametrarna ˆβ0...bet aˆ k för att fåβO LSˆ . 2. Beräkna residualerna ˆui.

3. kvadrera residualerna ˆui→ ˆui2.

4. Skatta parametrarnaαi, därifrån tas R2fram.

5. Beräkna sedan Langrange multiplier statistiken: N R2

6. Jämför sedan Langrange multiplier statistiken medχ2(p−1), ta beslut där efter.

2.4.2 Langrage multiplier: Glejser test[1]

Glejser testet liksom Breusch-pagan testet använder sig av en regressions- modell för att testa hypotesen, homoskedasticitet. Regressions modellen i Glejser testet är följande:

σi = α1+ α2Z2,i. . .αpZp,i (2.72)

(24)

Hypotes:

H0:α2= α3= . . . = αi (2.73)

p− 1 rest riktioner (2.74)

Testet utförs på följande sätt:

1. Skatta parametrarna ˆβ0...bet aˆ k för att fåβO LSˆ . 2. Beräkna residualerna ˆui.

3. Skatta parametrarnaαi.

4. Beräkna sedan Langrange multiplier statistiken: N R2

5. Jämför sedan Langrange multiplier statistiken medχ2(p−1), ta beslut där efter.

2.4.3 Langrage multiplier: Park test[1]

Park testet skiljer något mer ifrån de två förstnämnda testerna då testet är adapterat för olinjära modeller, när man t.ex. skall testa heteroskedasticitet hos en linjär sannolikhets modell. Proceduren och hypotsen är dock i stort sätt de samma.

Regressions modellen:

l nσi2= α1+ α2Z2,i. . .αpZp,i (2.75) Hypotes:

H0:α2= α3= . . . = αi (2.76)

p− 1 rest riktioner (2.77)

Testets utförande:

1. Skatta parametrarna ˆβ0...bet aˆ k för att fåβO LSˆ . 2. Beräkna residualerna ˆui.

3. kvadrera residualerna ˆui→ ˆui2och ta sedan dess ln.

4. Skatta parametrarnaαi.

5. Beräkna sedan Langrange multiplier statistiken: N R2

6. Jämför sedan Langrange multiplier statistiken medχ2(p−1), ta beslut där efter.

(25)

2.4.4 White’s test

White’s test till skillnad från de tre ovannämnda är att den inte är paramet- risk, Breusch-Pagan, Glejser och Park testen används när regressions model- lens typ av heteroskedasticitet är av specifik form. Om specifikationerna av heteroskedasticiteten inte är känd då använda White’s test helst då den inte har behov av att veta vad heteroskedasticitetens specifikation är.

Regressionsmodellen som används för att skattaσ2är lik (1.69) dock tar den även med kvadraterna och kombinationerna av de olika Z. Just för White’s test kan det vara bra med ett exempel som illustrerar proceduren.

Antag följande regressionsmodell:

Yi = ˆβ1+ ˆβ2X2,i+ ˆβ3X3,i+ ˆui (2.78) Ta sedan fram residualerna ˆui.σ skattas då m.h.a. residualerna ˆui. Kvadreras residualerna kan följande regressionsmodell för variansen,σi2, användas:

σi2= α1+ α2Z2,i+ α3Z3,i+ α4Z2,i2+ α5Z3,i2 (2.79)

6Z2,iZ3,i

βˆi används som Zi i regressionsmodellen förσi2,(1.79) :

σi2= β1+ β2Z2,i+ β3Z3,i+ β4Z2,i2+ β5Z3,i2 (2.80)

6Z2,iZ3,i

En regression körs sedan m.h.a (1.80) där R2tas fram vilket sedan används för att testa hypotesen:

H0:α1= α2= α3= α4= α5= α6= 0 (2.81) H1:α1= α2= α3= α4= α5= α66= 0 (2.82)

Test statistiken:

N R2> χ2(P − 1) (2.83)

Där P-1 är antalet oberoende variabler i regressions modellen förσi2. Beslut tas efter jämförelsen (1.82).

(26)

2.4.5 Autokorrelation test: Durbin-Watson test [1]

d = Pn

t=2(ˆut− ˆut−1)2 Pt=n

t=1uˆ2t (2.84)

Durbin watson d statistiken är ett väldigt berömt test av autokorrelation, dock kan testet endast tillämpas på autorergressiva modeller av första ord- ningen dvs:

ut = ρut−1+ εt (2.85)

Figur 2.6: Durbin watson statistiken[1]

Beslutet om hypotesen förkastas eller inte tas efter vad d värdet hamnar i för område, se figur 2.6.

2.4.6 Multikolliniearitet: korrelationsmatris , tolerans och vari- ance inflation [1]

För multikolliniearitet funkar korrelationsmatrisen ypperligt. Vad matrisen visar är korrelationen mellan kovariaterna. önskas ett bättre och mer speci- fikt värde på korrelationen mellan kovariaterna är tolerans och VIF.

Toleransen och VIF beräknas på följande sätt :

(27)

t ol er ance= 1 − Rj2

(2.86)

V I F = 1

t ol er ance (2.87)

Där Rj2är godness of fit för regressionen.

Tumregeln för att tolka VIF och toleransen är att ju närmare toleransen är 1 desto mindre kollinearitet existerar och desto närmare VIF är 10 desto större kollinearitet existerar.

2.5 Logistisk regression [2]

Vid beräkning av sannolikhet för en viss händelse skall värdemängden vara begränsad till värden inom intervallet 0 till 1. Tyvärr uppfylls inte det här kravet när man utför en OLS regression då y:s värdemängd hamnar utanför det nämnda intervallet,[0, 1].

På grund av utfallens natur, utfallen antar endast två värden, varierar felen olika mycket vilket leder till heteroskedasticitet. Detta är dock inte ett pro- blem i logistisk regression då heteroskedasticitet är en del av dess natur.

Multikolliniearitet är ett större problem då regressionen är väldigt känslig för korrelationer mellan kovariater.

2.5.1 Bakgrund

Logistisk regression bygger på oddsen att en händelse sker och jämföra det med att händelsen ej sker t.ex. att få en 3:a vid ett tärningskast, oddsen skul- le då bli följande:

od ds(3) = 1

5 (2.88)

1 : 5 (2.89)

Detta kan även tas fram genom att ta sannolikheten att få en 3:a delat på sannolikheten att ej få en 3:a :

(28)

od ds(3) = P(3)

1− P(3) (2.90)

od ds(3) =

1 6 5 6

(2.91)

od ds(3) = 1

5 (2.92)

Odds kan därför skrivas:

od ds(x) = P(X )

1− P(X ) (2.93)

och med hjälp av den naturliga logaritmen fås följande:

Lo g(odds) = ln P(X )

1− P(X ) (2.94)

Detta ger logit-linken, Y= Logit(p)= log(odds) där Y är ekvivalent med den generella regressions modellen.

Y = β0+

n

X

i=1

Xiβi+ ε (2.95)

Lo g(odds) = β0+

n

X

i=1

Xiβi+ ε (2.96)

ln P(X )

1− P(X ) = β0+

n

X

i=1

Xiβi+ ε (2.97)

Härifrån kan P(händelse) lösas ut:

P(X )

1− P(X ) = eβ0+Pni=1Xiβi (2.98) P(X ) = eβ0+Pni=1Xiβi+ P(X )eβ0Pni=1Xiβi (2.99)

P(X ) = eβ0+Pni=1Xiβi

1− eβ0+Pni=1Xiβi (2.100)

Sannolikheten kan nu bestämmas.

References

Related documents

Man vill då att eleverna ska kunna se döden från flera olika perspektivet och inte endast en, vilket kan bidra till att man får en större förståelse för andra människors sätt

This thesis was conducted in the context of virtual meetings, which was explored and examined through the independent variable technostress in relation to the dependent

As previously discussed in section 4.2 meeting structures other than change request meetings (risk assessment and pro- ject management meetings), pre-project (pre-studies),

The hypothesis of the present study was that the rehabilitation-related results, including knee function during the first days after surgery and knee function and basic mobility

AMSTAR-2 has a more detailed as- sessment of the risk of bias in SLRs due to the primary studies included, and how the review authors have dealt with such bias when interpret-

We consider both SRD (constant bit rate (CBR)) and LRD (variable bit rate (VBR)) traffic models when deriving network delays and power performance for the ILP proposed models.. For

The Supporter Liaison Officer (SLO) role became incorporated into the UEFA li- censing system from the 2012/13 season (UEFA 2012). The introduction of article 35 into the UEFA