• No results found

Prissättningsanalys av annonser på internet: En analys av variabler som påverkar slutpriset

N/A
N/A
Protected

Academic year: 2022

Share "Prissättningsanalys av annonser på internet: En analys av variabler som påverkar slutpriset"

Copied!
66
0
0

Loading.... (view fulltext now)

Full text

(1)

INOM

EXAMENSARBETE TEKNIK, GRUNDNIVÅ, 15 HP

STOCKHOLM SVERIGE 2016,

Prissättningsanalys av annonser på internet

En analys av variabler som påverkar slutpriset GUSTAF ERLANDSSON

CHRISTOFER TÄRNELL

(2)
(3)

Prissättningsanalys av annonser på internet

En analys av variabler som påverkar slutpriset

G U S T A F E R L A N D S S O N C H R I S T O F E R T Ä R N E L L

Examensarbete inom teknik: Tillämpad matematik och industriell ekonomi (15 hp) Civilingenjörsutbildning i industriell ekonomi (300 hp)

Kungliga Tekniska högskolan 2016 Handledare på KTH: Thomas Önskog, Jonatan Freilich Examinator: Henrik Hult

TRITA-MAT-K 2016:13 ISRN-KTH/MAT/K--16/13--SE

Royal Institute of Technology SCI School of Engineering Sciences KTH SCI SE-100 44 Stockholm, Sweden

(4)
(5)

Sammanfattning

Den h¨ar rapporten unders¨oker vilka faktorer som p˚averkar priss¨attningen av annonser p˚a internet. F¨or att komma fram till ett resultat anv¨andes statistisk analys p˚a drygt 70000 datapunkter som erh¨olls av f¨oretaget Wiget Media. Mo- dellerna som anv¨ands har anpassats till datan med hj¨alp av regressionsanalys, ar genomg˚aende analyser av datan har genomf¨orts f¨or att f˚a fram de mest ampliga modellerna. Regressionen utf¨ordes med hj¨alp av mjukvaruprogrammet R och strukturering av datan gjordes med hj¨alp av Excel och Stata. Resultatet av unders¨okningen visar p˚a att l¨ander, kategorier och plattform ¨ar variabler som spelar stor roll vid priss¨attning.

Rapporten unders¨oker ¨aven hur man som m¨aklare p˚a internet kan utforma priss¨attningsstrategier. F¨or att komma fram till ett resultat gjordes grundli- ga litteraturstudier om e-priss¨attning. Olika priss¨attningsstrategier diskuteras och resulterar i en slutsats som rekommenderar m¨aklare p˚a internet att anv¨anda en auktionsbaserad priss¨attningsmodell.

(6)

Abstract

This thesis investigates factors that affect the prices of online ads. Statistical analysis was applied in order to draw conclusions from the data recieved from the company Wiget Media. Regression analysis was used to derive models to fit the data. The regression was performed with the software R and the structure of the data was handeled with Excel and Scala. The results from the thesis indicates that countries, categories and platforms are important factors when pricing online ads.

Furthermore the thesis investigates and develop a pricing strategy for online borkers. A thorough litterature study regarding online-pricing was performed to derive a pricing strategy suitable for the brokers market and company structure.

Different pricing strategies are discussed and conclude in a recommendation to implement an auction-based pricing model.

(7)

F¨ orord

Vi vill rikta ett stort tack till handledarna av uppsatsen, Thomas ¨Onskog och Jonatan Freilich, f¨or deras rekommendationer och v¨agledning.

Ett stort tack riktas ¨aven till Wiget Media, d¨ar Armin Eftekhari och Robin Eklund var kontaktpersoner. De tillhandah¨oll data och var v¨aldigt hj¨alpsamma vid utformning av fr˚agest¨allningen.

Ett stort tack riktas ¨aven till v˚ara klasskamrater som givit feedback p˚a rappor- ten.

(8)

Beteckningar

V iewers - Antal visningar av en annons P rice - Pris i CPM

C** - C st˚ar f¨or land, ** st˚ar f¨or landskoden.

P F - Plattform OS - Operativsystem cat - Kategori

T imeInter - Tidsintervall

(9)

Inneh˚ all

1 Inledning 8

1.1 Bakgrund . . . . 8

1.2 Problemformulering och fr˚agest¨allning . . . . 8

1.3 Syfte . . . . 8

2 Metod 9 2.1 Dataset . . . . 9

2.1.1 Databehandling . . . . 9

2.1.2 Behandling av avvikelser i datan . . . . 9

2.2 Avgr¨ansningar . . . . 10

3 Teoretisk bakgrund 11 3.1 Linj¨ar regression . . . . 11

3.2 Ordinary Least Square, OLS . . . . 11

3.3 Val av kovariat . . . . 12

3.4 Akaike Information Criterion (AIC) . . . . 12

3.5 Baeysian Information Criterion (BIC) . . . . 12

3.6 Skillnader mellan AIC och BIC . . . . 13

3.7 Dummyvariabler . . . . 13

3.8 orklaringsgrad . . . . 13

3.9 averkningsgrad och Cohen’s rule . . . . 13

3.10 F¨ordelning- och hypotesteori . . . . 14

3.10.1 Typ I och typ II fel . . . . 14

3.11 F-f¨ordelning . . . . 15

3.12 Hypotestest f¨or linj¨ara modeller . . . . 15

3.13 Konfidensintervall . . . . 15

3.13.1 Bonferroni . . . . 16

3.14 Heteroskedasticitet . . . . 16

3.14.1 Identifiering och ˚atg¨ardande av heteroskedasticitet . . . . 16

3.14.2 Breusch-Pagan test . . . . 17

3.14.3 White’s Consistent Variance Estimatior . . . . 17

3.15 Problem med heteroskedasticitet . . . . 18

3.15.1 Endogenitet . . . . 18

3.15.2 Simultanitet och saknad av relevanta kovariat . . . . 19

3.16 ˚Atg¨arder f¨or endogenitet . . . . 19

3.16.1 Instrumentella variabler . . . . 19

3.16.2 Durbin-Wu-Hausmann test . . . . 19

3.16.3 2-SLS . . . . 19

3.17 Multikollinj¨aritet . . . . 20

3.17.1 Imperfekt multikollinj¨aritet . . . . 20

3.17.2 Perfekt multikollinj¨aritet . . . . 20

3.18 Variance Inflation Factor (VIF) . . . . 20

4 Unders¨okning och behandling av dataset och modell 22 4.1 orklaring av kovariat . . . . 22

4.1.1 V iewers . . . . 22

4.1.2 P rice . . . . 22

4.1.3 Plattform . . . . 22

(10)

4.1.4 OS . . . . 22

4.1.5 Land . . . . 22

4.1.6 Tid . . . . 23

4.1.7 Kategori . . . . 23

4.2 Test av heteroskedasticitet . . . . 23

4.3 Uppst¨allning av modell . . . . 24

4.4 Reducering av modell . . . . 25

4.5 Unders¨okning av multikollinj¨aritet genom VIF-test . . . . 25

4.6 QQ-plot . . . . 26

4.7 Endogenitet . . . . 27

5 Resultat 30 5.1 Regressionens koefficienter . . . . 30

5.1.1 averkan fr˚an viewers . . . . 30

5.1.2 averkan fr˚an l¨ander . . . . 30

5.1.3 averkan fr˚an plattform . . . . 31

5.1.4 averkan fr˚an OS . . . . 32

5.1.5 averkan fr˚an tiden . . . . 33

5.1.6 averkan fr˚an kategorierna . . . . 33

6 Diskussion 35 6.1 Kovariat . . . . 35

6.1.1 Viewers . . . . 35

6.1.2 Plattform . . . . 35

6.1.3 Operativsystem (OS) . . . . 35

6.1.4 Kategori . . . . 36

6.1.5 Land . . . . 36

6.1.6 Tid . . . . 36

7 Slutsats 37 8 Priss¨attningsstrategi f¨or m¨aklare p˚a internet 38 8.1 Introduktion . . . . 38

8.1.1 Typer av annonsering . . . . 38

8.2 Avgr¨ansning . . . . 38

8.3 aklare p˚a internet . . . . 39

8.4 Generell int¨aktsmodell . . . . 39

8.5 Digitala annonser . . . . 39

8.6 Marknadsekonomi . . . . 40

8.7 Priss¨attningsteori . . . . 41

8.8 Grundl¨aggande priss¨attningsmodeller . . . . 42

8.8.1 Platt priss¨attning . . . . 42

8.8.2 Priss¨attning efter anv¨andning . . . . 43

8.8.3 Priss¨attning efter belastning . . . . 43

8.9 Dynamisk priss¨attning . . . . 43

8.9.1 Annonserad priss¨attning . . . . 44

8.9.2 Auktionsbaserad priss¨attning . . . . 44

8.9.3 Kvantitet priss¨attning . . . . 44

8.10 Utbud och efterfr˚agan p˚a marknaden under ett dygn . . . . 44

8.11 M¨ojliga metoder f¨or att m¨ota ¨andringar i efterfr˚agan . . . . 45

(11)

8.11.1 Surge-priss¨attning ( ¨Ubers priss¨attningsmodell) . . . . 46 8.11.2 Auktionsbaserad priss¨attning med begr¨ansade resurser . . 47

9 Diskussion 49

9.1 Annonserad priss¨attning . . . . 49 9.2 Auktionsbaserad priss¨attning . . . . 49 9.3 Kvantitet priss¨attning . . . . 50

10 Slutsats 50

Referenser 51

11 Appendix 53

11.1 Resultat fr˚an regression med alla kovariat . . . . 53 11.2 Resultat fr˚an regression utan CAT . . . . 54 11.3 Resultat fr˚an regression utan CAT och catLinkShortener . . . . . 55 11.4 Resultat fr˚an regression utan CAT, catLinkShortener och CDE . 56 11.5 Resultat fr˚an regression utan CAT, catLinkShortener, CDK och

catDownloadSitesAdultContent . . . . 56 11.6 Konfidensintervall f¨or slutgiltiga modellen . . . . 57

Figurer 58

Tabeller 58

(12)
(13)

1 Inledning

1.1 Bakgrund

Under det senaste decenniet har marknadsf¨oring p˚a internet blivit allt vanli- gare och det investeras i dagsl¨aget stora summor pengar p˚a att marknadsf¨ora sig online. Allt fr˚an reklamkampanjer som kommuniceras till kund via vide- os till annonser p˚a webbplatser som ¨ar t¨ankt att vara riktad till den specifi- ka anv¨andaren. Annonser s¨aljs via n˚agot som kan liknas vid en m¨aklare, d¨ar aklaren best¨ammer trafiken p˚a hemsidan, inneb¨arandes att de har r¨att att alja vad som ska visas f¨or anv¨andaren. F¨oretag kan k¨opa r¨att till annonsplats a dessa hemsidor. Vilka komponenter som spelar st¨orst roll i priss¨attningen av dessa annonsplatser ¨ar vad den h¨ar rapporten kommer behandla.

Wiget Media ¨ar ett av m˚anga f¨oretag som agerar som m¨aklare av annonser a hemsidor. Det ¨ar ett f¨oretag som haft god tillv¨axttakt p˚a annonsmarknaden a senare tid, d¨ar den egentliga konkurrensen ligger i att skapa en effektiv algoritm samt program. Detta f¨or att p˚a ett enkelt s¨att kan distribuera trafik a hemsidorna samtidigt som man h¨amtar ut information om anv¨andaren f¨or att kunna rikta annonserna till den specifika anv¨andaren. Eftersom aff¨arsmodellen ar ut p˚a att s¨alja f¨or s˚a mycket som m¨ojligt men samtidigt inte ha f¨or stora kostnader sj¨alva har f¨oretagets fokus endast legat p˚a kod och effektivisering av befintliga system. Wiget Media har d¨arf¨or ingen tydlig uppfattning ang˚aende vilka faktorer som spelar in p˚a priss¨attningen, det vill s¨aga om det finns variabler som ger st¨orre effekt ¨an andra f¨or det slutgiltiga priset. Av den anledningen

¨ar faktorer som p˚averkar priss¨attningen av annonser p˚a internet ett aktuellt omr˚ade att studera. Dels f¨or f¨oretaget som inte har n˚agon egen utv¨ardering av priss¨attningen samt att det ¨ar intressant f¨or marknaden i stort d˚a det inte finns agon liknande studie som har gjorts.

1.2 Problemformulering och fr˚agest¨allning

Fr˚agest¨allningarna som behandlas i kandidatexamensarbetet lyder som f¨oljande:

i) ”Vilka variabler p˚averkar priss¨attningen av annonser p˚a internet mest?”

Det ¨ar ocks˚a av intresse att unders¨oka hur man utformar prisstrategier f¨or aklare p˚a internet, d¨arav formuleras INDEK-fr˚agan som f¨oljande:

ii) ”Hur kan en prisstrategi f¨or m¨aklare p˚a internet utformas?”

1.3 Syfte

Arbetets syfte ¨ar att analysera de olika faktorerna som p˚averkar priss¨attningen av annonser p˚a internet. Detta g¨ors med hj¨alp av statistiska metoder. Arbetet

¨ar t¨ankt att bidra till att identifiera och definiera de mest v¨asentliga fakto- rerna i priss¨attningen av annonser p˚a internet, samt hur m¨aklare p˚a internet kan utforma en effektiv priss¨attningsstrategi. Arbetet ska genom ovanst˚aende bidra med relevanta resultat f¨or f¨oretaget Wiget Media, som ¨ar f¨oretaget som tillhandah˚aller datan som analysen grundar sig p˚a.

(14)

2 Metod

Den h¨ar rapporten ¨ar uppdelad i tv˚a delar. I den f¨orsta delen unders¨oks vilka faktorer som spelar st¨orst roll vid priss¨attning av annonser p˚a internet. I den andra delen av rapporten utformas en priss¨attningsstrategi f¨or m¨aklare p˚a in- ternet. F¨or att komma fram till ett resultat g¨allande f¨orsta delen av rapporten gjordes f¨orst en litteraturstudie inom regressionsanalys. D¨arefter applicerades teorin p˚a en upps¨attning datapunkter f¨or att f˚a fram ett resultat. Utifr˚an resul- taten drogs slutsatser om vilka faktorer som p˚averkar priset mest.

I den andra delen av rapporten gjordes en litteraturstudie om grundl¨aggande priss¨attningsmodeller samt en studie av dynamiska priss¨attningsmodeller f¨or att kunna besvara rapportens fr˚agest¨allning. Utifr˚an fakta fr˚an litteraturstudien och konkreta exempel utformades en priss¨attningsstrategi som m¨aklare p˚a internet kan applicera.

2.1 Dataset

alet med rapporten ¨ar att anv¨anda data fr˚an annonsmarknaden f¨or att kunna ge ett precist svar p˚a fr˚agan om vilka faktorer som p˚averkar priset mest. Data- setet som anv¨ands f¨or att besvara den f¨orsta fr˚agest¨allningen tillhandah¨olls av oretaget Wiget Media, som ¨ar ett av m˚anga f¨oretag som agerar som m¨aklare p˚a annonsmarknaden. Innan behandling av datan bestod datasetet av drygt 70000 datapunkter.

2.1.1 Databehandling

Datan analyserades med multipel linj¨ar regression f¨or att dra slutsatser om vilka faktorer som p˚averkar priss¨attning av annonser p˚a internet. Vidare unders¨oktes kovaritens relevans genom konfidensintervallsunders¨okningar. Responsvariabeln var priset p˚a annonserna och de oberoende variablerna var egenskaperna som definierar annonsen. Omr˚aden som analyseras samt modellerna ˚aterfinns nedan.

Variabler som hade liten relevans i modellen st¨orde resultaten av den. Ge- nom verktyg inom regressionsanalys kan man fastst¨alla om en variabel ska vara med i modellen eller inte. Det finns tv˚a typer av verktyg f¨or att analysera vari- ablernas relevans, grafiska metoder och signifikanstest metoder. De grafiska me- toderna inneb¨ar att man tittar p˚a plottar av residualen mot data, histogram och sannolikhetsf¨ordelning etc. Grafiska unders¨okningsmetoder som gjordes i denna rapport var, QQ-plot och unders¨okning av endogenitet samt heteroskedasticitet genom plot. Signifikanstester som anv¨andes var P-v¨ardes test och F-test genom Breusch-Pagan f¨or att testa hetroskedasticitet samt VIF-test f¨or att unders¨oka mulitkollinj¨aritet i variabler.

Ber¨akningarna f¨or dessa metoder utf¨ordes i R, dock gjordes viss strukture- ring och sortering av datan med hj¨alp av Excel och Scala.

2.1.2 Behandling av avvikelser i datan

Vid inspektion av data uppt¨acktes flertalet problem och avvikelser. En del av datan gick ej att anv¨anda i modellen d˚a de skulle generera fel i skattningen av kovariaten. Till en b¨orjan skapades en modell som var t¨ankt att vara anpassad till hela datasetet, men efter flertalet f¨ors¨ok och ytterliggare inspektion av datan

(15)

kunde inte en modell med tillr¨ackligt h¨og validitet skapas. En f¨orsta ˚atg¨ard blev att ta bort extrempunkter i datan, vilket innebar att extremt h¨oga v¨arden p˚a priset togs bort. ¨Aven datapunkter med l˚agt pris och f˚a antal V iewers togs bort d˚a det f¨or f¨oretaget ¨ar intressant att unders¨oka annonserna som har st¨orre averkan p˚a int¨akterna.

Det uppstod ¨aven en dummyvariabel som var sv˚ar att tolka, enligt datan tolkades ett operativsystem som Unknown. Denna variabel anses vara ett fel i datan d˚a f¨oretagets system inte kan identifiera ett specifikt operativsystem. Den- na variabel ˚aterfanns bara i ˚atta datapunkter och togs d¨arf¨or bort d˚a p˚averkan a resultatet var liten. Det fanns ytterligare ett operativsystem som inte l¨astes av korrekt fr˚an f¨oretaget. WindowsPhone tolkades som en station¨ar plattform men d˚a detta ¨ar om¨ojligt ans˚ags ¨aven denna vara felaktigt, d¨arf¨or plockades

¨aven datan med denna variabel bort.

2.2 Avgr¨ansningar

Datam¨angden ¨ar stor och avgr¨ansningar av antal datapunkter m˚aste g¨oras.

Ut¨over begr¨ansningen av datapunkter begr¨ansas arbetet ¨aven till att endast behandla l¨ander inom Europa samt ett f˚atal kategorier av hemsidor f¨or att ojligg¨ora en effektiv modell. Valet av begr¨ansningarna ovan gjordes i samtyc- ke med Wiget Media med motiveringen att det ¨ar de st¨orre marknaderna och vissa utvalda variabler som ¨ar mest intressanta.

(16)

3 Teoretisk bakgrund

3.1 Linj¨ar regression

Inom matematisk statistik ¨ar linj¨ar regression en vanlig metod att anv¨anda.

Metoden anv¨ands n¨ar man vill f¨orklara en beroende responsvariabels p˚averkan fr˚an en samling oberoende variabler, ¨aven kallat kovariat. F¨orh˚allandet mellan dessa beskrivs av f¨oljande ekvation:

yi=X

xikβk+ ei (1)

Som kan skrivas som f¨oljande:

Y = Xβ + e

ar Y =

y1

y2

... yn

, X =

1 x1,1 x1,2 . . . x1,k

1 x2,1 x2,2 . . . x2,k

... ... ... . .. ... 1 xn,1 xn,2 . . . xn,k

, β =

β0

β1

... βk

, e =

e1

e2

... en

I ekvation (1) ¨ar y den beroende variabeln. Variabeln beskrivs av kovariaten xi samt feltermen ei . D¨ar ei antas vara oberoende mellan observationerna och antev¨ardet σ ok¨ant s˚adant att:

E[ei] = 0 och E[e2i] = σ2

Det sista f¨orh˚allandet g¨aller endast vid homskedasticitet och inte vid hetros- kedsticitet, vilket tas upp i ett senare avsnitt. [1]

Den f¨or modellen ber¨aknade βi anger f¨orh˚allandet mellan en f¨or¨andring i responsvariabeln y motsvarande en ¨andring i kovariatet xi adan att:

βi= δy

δx (2)

3.2 Ordinary Least Square, OLS

β ¨ˆ ar ok¨and och uppskattas f¨or att kunna beskriva f¨orh˚allandet mellan respon- svariabeln yi, kovariaten xioch feltermen ei. Ett s¨att att uppskatta β ¨ar genom metoden OLS, vilken minimerar kvadratsumman av feltermen e2. Det uppskat- tade β betecknas som ˆβ. Genom en omskrivning av normalekvationen nedan kan ˆβ uppskattas:

Xte = 0ˆ (3)

Genom ins¨attning av ekvation (1) i (3) f˚as en OLS estimation av ˆβ s˚adan att:

β = (Xˆ tX)−1XtY (4)

(17)

Kovariansmatrisen av ˆβ skrivs som f¨oljande:

Cov( ˆβ) = E[( ˆβ − β]E[( ˆβ − β)t] = (XtX)−1Xt2X(XtX)−1 En opartisk uppskattning f¨or σ2 ges av:

s2= 1

n − k − 1e2|

Vilket ger en skattning av kovariansmatrisen som ser ut som f¨oljande:

C ˆov( ˆβ) = (XtX)−1s2

Detta g¨aller endast f¨or modeller d¨ar datan ¨ar homoskedastisk, i annat fall kommer den skattade matrisen bli inkonsistent och White’s Consistence Vari- ence Estimator m˚aste appliceras. [1]

3.3 Val av kovariat

Det kan vara sv˚art att avg¨ora vilka kovariat som skall inkluderas i en modell eller ej. Vid val av kovariat finns det tv˚a olika tester f¨or att avg¨ora om ett kovariat ska vara med i modellen eller inte. AIC-test och BIC-test [1] ¨ar de tv˚a testen som anv¨ands f¨or detta.

3.4 Akaike Information Criterion (AIC)

or att m¨ata den relativa kvalit´en hos en modell givet en upps¨attning data kan AIC anv¨andas. Testet kan ses som avv¨agning mellan “f¨orklaringsgrad” och modellens komplexitet (antal kovariat). I n¨astan alla fall beskrivs den b¨asta modellen av den modell som genererar l¨agst resultat hos f¨aljande uttryck:

AIC = nln(|ˆe|2) + 2k (5)

Ovanst˚aende ekvation (5) identifierar modeller som ¨ar ¨overestimerade sett till det optimala. D¨arf¨or v¨aljer man den modell som ger l¨agst resultat. Denna modell ¨ar den mest l¨ampade och f¨orh˚allandevis h¨og f¨orklaringsgrad sett till andra modeller man kan st¨alla upp med samma dataset [2] [1].

3.5 Baeysian Information Criterion (BIC)

Ett annat s¨att att m¨ata den relativa kvalit´en hos en modell given en upps¨attning data ¨ar att anv¨anda sig av BIC. Man kan se testet som en avv¨agning mellan

“f¨orklaringsgrad” och modellens komplexitet (antal kovariat). Den b¨asta model- len avg¨ors efter minimering av f¨oljande uttryck:

BIC = nln(|ˆe|2) + kln(n) (6)

Ekvation (6) identifierar modeller som ¨ar ¨overestimerade och precis som f¨or AIC-testet v¨aljs den modell som minimerar ekvation (6). Denna modell ¨ar den mest l¨ampade och har f¨orh˚allandevis h¨og f¨orklaringsgrad. [1]

(18)

3.6 Skillnader mellan AIC och BIC

Det ¨ar inga st¨orre skillnader mellan AIC och BIC enligt ekvation (5) och (6) ovan. Den enda skillnaden ¨ar den sista termen. AIC har en 2k term medan BIC har en kln(n) term. B˚ada ¨ar h¨arledda fr˚an samma informationsteori och ramverk men skiljer sig i prioriteringar, d¨ar BIC ofta reducerar modellen mer

¨an AIC g¨or. Det mest l¨ampade testet att applicera beror p˚a modellen. [3]

art att ta i beaktning ¨ar att det inte alltid ¨ar optimalt att reducera en modell bara f¨or att testerna s¨ager s¨ager det. N¨ar skillnaden mellan tv˚a modeller

¨ar liten ¨ar intuitionen hos den som st¨aller upp modellen l¨ampligare att anv¨anda.

3.7 Dummyvariabler

Inf¨orandet av dummyvariabler sker p˚a grund av att en del datatyper inte ¨ar kvantifierbara. Att dela upp dessa datatyper i dummyvariabler ¨ar en effektiv metod att behandla data f¨or att g¨ora den anv¨andbar. Nedan f¨oljer en beskrivning av hur en dummyvariabel definieras och anv¨ands.

at xi vara en dummyvaribel som har f¨oljande egenskaper:

xi = 0, om observationen ¨ar inaktiv xi = 1, om observationen ¨ar aktiv

ar xi ¨ar aktiv kommer den beroende responsvariabeln ¨oka med βi [1].

or att unders¨oka skillnader mellan k¨on kan man inf¨ora en dummyvariabel vilken utreder om en observation ¨ar en kvinna eller ej. Det skulle kunna se ut som f¨oljande:

xi = 0, om det ¨ar en man xi = 1, om det ¨ar en kvinna

3.8 F¨orklaringsgrad

R2¨ar beteckningen f¨or f¨orklaringsgrad inom statistik. Konstanten f¨orklarar hur bra modellen ¨ar anpassad till datan. R2-koefficienten anger hur bra variationen i den beroende variabeln y som kan f¨oklaras av variation i de oberoende variab- lerna x. M˚alet ¨ar att uppn˚a ett h¨ogt v¨arde f¨or att minimera feltermerna och ha en v¨al anpassad modell till regressionslinjen.[4] R2 definieras som f¨oljande:

R2= V ar(X ˆβ)

V ar(Y ) = 1 − V ar(ˆe)

V ar(Y ) (7)

Ett R2arde n¨ara 1 visar p˚a att modellen ¨ar v¨al anpassad till datan, medan ett l¨agre v¨arde indikerar att modellen inte tar h¨ansyn till alla feltermer.

3.9 P˚averkningsgrad och Cohen’s rule

averkningsgraden eller effektstorleken m¨ater hur stor p˚averkan ett kovariat har p˚a en modell. Till skillnad fr˚an signifikanstest ¨ar effektstorleken oberoende av storleken p˚a datan. [5] Effektstorleken kan uttryckas p˚a flera s¨att, men i rapporten kommer den endast uttryckas som η2. η2 definieras som f¨oljande:

(19)

η2=eˆ2ef f ect ˆ

e2total (8)

ar ˆe2ef f ect ¨ar kvadratsumman av p˚averkan fr˚an kovariaten som unders¨oks och ˆe2total ¨ar kvadratsumman av alla kovariat. F¨or att avg¨ora hur st˚ar p˚averkan ett kovariat har, kan man anv¨anda sig av Cohen’s rule. Cohen’s rule ¨ar en tumregel f¨or att avg¨ora p˚averkan hos ett kovariat, d¨ar Cohen definierat storleken av p˚averkan i kategorierna small, medium och large [6].

Cohen’s tumregel

Impact: Small Medium Big

η2: 0.02 0.13 0.26

3.10 F¨ordelning- och hypotesteori

or att kunna dra slutsatser om en upps¨attning data beh¨over man g¨ora ett hypotestest. Den vanliga processen f¨or testet ¨ar:

1. Definiera nollhypotesen H0 samt en alternativ hypotes H1.

2. G¨or ett statistiskt antagande om datan, exempelvis om datan ¨ar oberoende eller ett antagande g¨allande observationernas f¨ordelning.

3. Best¨am vilket test som ska anv¨andas och definiera testet f¨or relevant F- statistika.

4. Definiera en signifikansniv˚a α ,vilket ¨ar den l¨agsta niv˚a som nollhypotesen kommer f¨orkastas p˚a. Oftast anv¨ands en signifikansniv˚a p˚a 5%.

5. Den erh˚allna f¨ordelningen kommer dela upp F-statistikan i tv˚a delar, en ar nollhypotesen f¨orkastas med sannolikhet α och en d¨ar nollhypotesen inte f¨orkastas.

6. Ber¨akna Fobs kopplat till F-statistika.

7. Slutligen f¨orkastar man eller beh˚aller nollhypotesen. Hypotesen f¨orkastas med signifikansniv˚an α om Fobs ligger utanf¨or konfidensintervallet [7].

3.10.1 Typ I och typ II fel

Ibland dras fel slutsats fr˚an hypotestestet. Dessa ben¨amns Typ I och Typ II fel och definieras nedan som:

• Typ I ¨ar felaktigt f¨orkastande av en sann nollhypotes

• Typ II ¨ar att ej f¨orkasta en falsk nollhypotes

Risken att detta sker ¨ar med sannolikheten p˚a signifikansniv˚an α f¨or Typ I fel samt med β f¨or Typ II. D¨ar β ¨ar relaterat till styrkan hos ett statistiskt test som definieras enligt 1 − β.

(20)

3.11 F-f¨ordelning

F-f¨ordelningen definieras som f¨orh˚allandet mellan tv˚a chi-kvadrat f¨ordelningar.

a grund av detta f¨orh˚allande ¨ar F-f¨ordelningen f¨orskjuten ˚at h¨oger. F-f¨ordelningen definieras som f¨oljande [8]:

F (n, p) =

χ2(n) n χ2(p)

p

(9)

3.12 Hypotestest f¨or linj¨ara modeller

Rapporten kr¨aver signifikanstest f¨or flera kovariat. Detta g¨ors genom att de- finiera en nollhypotes f¨or att testa en grupp av kovariat p˚a signifikansniv˚a α:

H0 i = 0, ∀i = 1, 2, ..., n , n ∈ N H1 i 6= 0, ∀i = 1, 2, ..., n , n ∈ N

ar man g¨or ett signifikanstest f¨or en koeffecient βi adderas restriktioner till modellen. Om man testar f¨or n restriktioner, k¨ors f¨orst regressionen utan restriktionerna (βi6= 0) f¨or att best¨amma ˆe. Sedan k¨ors regressionen igen under restriktion (βi= 0) f¨or att kunna best¨amma ˆe. F-statistiken ser d¨arf¨or ut som oljande:

F = n − k − 1 r (e2|

e2|− 1) (10)

F ¨ar F (r, n − k − 1) f¨ordelad[1]. Testet ser ut som f¨oljande:

orkasta H0om F > Fα(r, n − k − 1)

ar Fα(r, n − k − 1) ¨ar den kumulativa distributionsfunktionen.

3.13 Konfidensintervall

or att med s¨akerhet kunna fastst¨alla att ett kovariat ger ett positivt eller negativt utslag mot benchmarken ¨ar det viktigt att unders¨oka kovariatets konfi- densintervall. ¨Ar det endast positivt eller endast negativt kan man dra slutsatsen att effekten av kovariatet p˚a modellen antingen ger ett positivt eller negativt ut- slag. Inneh˚aller konfidensintervallet m¨angden 0 kan man inte dra n˚agon slutsats vilken p˚averkan kovariatet har. Det vanligaste s¨attet att unders¨oka konfidensin- tervallet hos ett enskilt kovariat βi a signifikansniv˚an 1 − α ¨ar genom f¨oljande ekvation:

βi = ˆβi±p

Fα(1, n − k − 1)SE( ˆβi) (11) ar Fα(1, n−k−1) ¨ar den kumulativa distributionsfunktionen med en frihets- grad i t¨aljaren och n − k − 1 frihetsgrader i n¨amnaren, SE( ˆβi) ¨ar den estimerade feltermen f¨or ˆβi [1].

(21)

3.13.1 Bonferroni

ar man unders¨oker en hypotes f¨or flera kovariat samtidigt m˚aste man korrigera or detta i testet av konfidensintervallet. Ett vanligt s¨att att unders¨oka hypotesen or flera kovariat samtidigt ¨ar att anv¨anda Bonferroni. Det ¨ar ett test som ¨ar likt det vanliga testet f¨or konfidensintervall, men det ¨ar korrigerat f¨or antalet kovariat man unders¨oker samtidigt. Signifikansniv˚an man unders¨oker hypotesen a blir d¨arf¨or 1 − α

#r, d¨ar α st˚ar f¨or vilken signifikansniv˚a man vill unders¨oka och d¨ar #r st˚ar f¨or antalet kovariat som unders¨oks i hypotestestet [1].

3.14 Heteroskedasticitet

Den linj¨ara regressionsmodellen beskrivs som f¨oljande:

yi=X

xikβk+ ei

Antagandet f¨or homoskedasticitet, som ¨ar det vanligaste f¨orekommande an- tagandet ¨ar att feltermerna ei har samma standardavvikelse σ, vilket beskrivs enligt f¨oljande:

E[ei] = 0 och E[e2i] = σ2

Men d˚a feltermerna kan vara normalf¨ordelade inneb¨ar det att ovanst˚aende kriterium inte alltid ¨ar uppfyllt, d˚a definieras feltermerna enligt f¨oljande:

E[ei] = 0, E[e2i] = σi2 och E[e4i] < ∞

Ovan ses definitionen f¨or hur feltermerna hos en heteroskedstisk modell be- skrivs, vilket k¨annetecknas av att feltermerna ei inte antar samma v¨arden f¨or alla termer [1].

3.14.1 Identifiering och ˚atg¨ardande av heteroskedasticitet

Har man felaktigt definierat en modell som homoskedastisk fast den egentli- gen ¨ar heteroskedstisk kommer man st¨ota p˚a problem. Parametriseringarna blir inkonsistenta p˚a grund av den felaktiga specificeringen att standardavvi- kelsen f¨or varje felterm antar samma v¨arde. Detta leder till att eventuella F-test kopplat till resultatet av regressionen blir ogiltig. Det ¨ar d¨arf¨or viktigt att un- ders¨oka om man har heteroskedasticitet i en modell, vilket man p˚a ett enkelt och ¨oversk˚adligt s¨att kan g¨ora genom att plotta feltermen ˆe f¨or regressionen p˚a den beroende variabeln Y (se Figur1).

(22)

Figur 1: Homoskedasticitet vs Hetroskedasticitet

3.14.2 Breusch-Pagan test

Ett annat s¨att att identifiera heteroskedasticitet i en modell ¨ar att applicera Breusch-Pagan test f¨or heteroskedasticitet. Man unders¨oker d˚a ifall den estime- rade variansen V ar(ˆe) ¨ar beroende av kovariaten som anv¨ands i modellen. Om den estimerade variansen ¨ar beroende av kovariaten betyder det att modellen

¨ar heteroskedstisk.

Som tidigare definierat ¨ar ett villkor f¨or homoskedasticitet att E[e2i] = σ2i, vil- ket betyder att variansen inte ¨ar beroende p˚a kovariaten. F¨or att utf¨ora Breush- Pagan testet beh¨over man variansen f¨or modellen vilket man kan f˚a ut genom att ta medelv¨ardet av alla kvadrerade feltermer ˆe2, sedan st¨aller man upp sin hypotes vilket kan se ut som f¨oljande:

H0 : Modellen ¨ar homoskedastisk H1 : Modellen ¨ar heteroskedastisk

arefter k¨ors en regression p˚a ˆe2 som oberoende variabel med kovariaten X, regressionen beskrivs som f¨oljande:

ˆ

e2 = Xβ + u, d¨ar u ¨ar notationen f¨or regressionens felterm.

Man kan testa hypoteserna genom att k¨ora ett F-test. Om F-testet kan kon- firmera att variablerna ¨ar beroende (jointly significant) f¨or den signifikansniv˚an man vill unders¨oka kan nollhypotesen f¨orkastas givet att man testar f¨or homos- kedasticitet [10].

3.14.3 White’s Consistent Variance Estimatior

Det finns ytterligare tillv¨agag˚angss¨att f¨or att handskas med heteroskedasticitet.

En m¨ojlig l¨osning f¨or att minska heteroskedasticiteten ¨ar att anv¨anda sig av White’s Consistent Variance Estimator som utg˚ar fr˚an att ˆβ ¨ar en unbaised estimering av β, det vill s¨aga E( ˆβ) = β. Kovariansmatrisen beskrivs s˚aledes som f¨oljande:

cov( ˆβ) = (XtX)−1XtD(ˆe2)X(XtX)−1 (12) I ekvation (12) ¨ar D(ˆe2) en diagonalmatris av storleken n x n med diago- nalen fylld av elementen ˆe2i. Till ovanst˚aende formel beh¨ovs en modifikation,

(23)

vilket ¨ar att en faktorterm om n

n − k − 1 or multipliceras med uttrycket. Det- ta eftersom man vill minimera summan av |ˆe2|. Men n¨ar detta g¨ors utan den amnda modifikationen underestimeras det verkliga v¨ardet av |e2|, d¨arf¨or l¨aggs

termen n

n − k − 1 som agerar som en typ av ad-hoc kompensation. Den mer robusta kovariansmatrisen beskrivs d¨arf¨or som f¨oljande [1]:

ov( ˆβ) = (XtX)−1XtD(ˆe2)X(XtX)−1 n

n − k − 1 (13)

3.15 Problem med heteroskedasticitet

3.15.1 Endogenitet

Endogenitet uppst˚ar ifall feltermen ˆe ¨ar v¨al korrelerad med en eller flera kovariat som ing˚ar i modellen. Det h¨ar f˚ar konsekvenser i form av att resultaten fr˚an OLS-regressionen blir inkonsistenta [13]. Om man misst¨anker att ett eller flera kovariat i en modell kan bidra till endogenitet kan man unders¨oka dessa variabler genom en plott med feltermen ˆe p˚a y-axeln mot det valda kovariatet p˚a x-axeln.

Om det visar sig att det finns en linj¨ar trend i plotten mellan dessa visar det p˚a endogenitet.

Figur 2: Endogenitet

I ovanst˚aende figur ses ett exempel p˚a en plott mellan variabler som ¨ar endogena. P˚a y-axeln ˚aterfinns feltermerna fr˚an regressionen f¨or den modell man unders¨oker och p˚a x-axeln ¨ar variabeln som unders¨oks f¨or endogenitet.

Anledningen till att plotten ovan visar p˚a endogenitet ¨ar f¨or att feltermerna

¨

ar beroende av variabeln p˚a x-axeln vilket illustreras genom den linj¨ara (r¨oda) linjen.

(24)

3.15.2 Simultanitet och saknad av relevanta kovariat

I rapporten finns det m¨ojlighet att st¨ota p˚a endogenitet i modellerna, vilket skulle kunna uppst˚a p˚a grund av simultanitet. Simultanitet inneb¨ar att den oberoende variabeln Y ¨ar korrelerad med en eller flera av kovariaten vilket blir ett problem d˚a orsak och samband f˚ar betydelse f¨or resultatet av korrelerade variablerna, vilka p˚averkas i b˚ada riktningarna.

Saknad av relevanta kovariat ¨ar en annan anledning till varf¨or endogenitet uppst˚ar. Det inneb¨ar att komponenter av feltermen i en modell ibland kan kor- relera med vissa kovariat, som kan identifieras. F¨or att ˚atg¨arda problemet ¨ar en osning att l¨agga till det kovariat som saknas, vilket g¨or modellen komplett.

3.16 ˚Atg¨arder f¨or endogenitet

3.16.1 Instrumentella variabler

Instrumentella variabler inneb¨ar att man med hj¨alp av en eller fler variabler kan beskriva en annan o¨onskad variabel. En instrumentell variabel ¨ar effektiv att anv¨anda f¨or att motverka endogenitet hos variabler. F¨or att kunna inf¨ora en instrumentell variabel kr¨avs det att den ¨ar v¨al korrelerad med den o¨onskade variabeln samt att den inte ¨ar korrelerad med feltermen.

3.16.2 Durbin-Wu-Hausmann test

Det finns flera tillv¨agag˚angss¨att f¨or att identifiera endogenitet i en modell. F¨or att unders¨oka om en eller flera av kovariaten i en given modell ¨ar endogen kan man applicera Durbin-Wu-Hausmanns test. Det inneb¨ar att man utf¨or en OLS regression f¨or de endogena variablerna p˚a de instrumentella variablerna, regressionen ser ut som f¨oljande:

x = Zα + u (14)

ar ˆu fr˚an regressionen i ekvation (14) anv¨ands f¨or en ny regression, i vilken man unders¨oker om ˆu ger n˚agot signifikant utslag p˚a resultatet. Detta g¨ors genom att man utf¨or en OLS-regression av ˆu med X. Ekvationen illustreras som f¨oljande:

Y = Xβ + Υˆu + e (15)

Testet f¨or eventuell signifikans hos feltermen ˆu utformas som ett hypotestest med f¨oljande uppst¨allning [9]:

H0 = ˆΥ if tested variable is exogenous.

H1 6= ˆΥ if tested variable is endogenous.

3.16.3 2-SLS

ar det uppst˚ar endogenitet i en modell betyder det att minst en av kovariaten

¨ar endogen, vilket inneb¨ar att den endogena variabeln ¨ar korrelerad med fel- termen. Den vanligaste ˚atg¨arden f¨or att l¨osa problemet ¨ar att applicera 2-SLS (“Two Stage Least Square”). F¨orsta steget ¨ar att inf¨ora instrumentella variabler

(25)

som kan ers¨atta den endogena variabel. De variabler som fr˚an b¨orjan var exo- gena samt de nya variablerna som beskriver den endogena variabeln definieras i en ny matris Z. Om Z har fler kolumner ¨an X m˚aste X projiceras p˚a Z, vilket ors genom f¨oljande:

X = Z(Zˆ tZ)−1ZtX (16)

Normalekvationen beskrivs s˚aledes som:

X ˆˆe = 0 (17)

Vilket g¨or att punktskattningen av β definieras som f¨oljande:

β = ( ˆˆ XtX)−1XˆtY (18) Vilket ger estimationen av White’s robusta kovariansmatris f¨oljande utseen- de:

ov( ˆβ) = ( ˆXtX)−1XˆtD(ˆe2) ˆX( ˆXtX)−1 n

n − k − 1 (19)

3.17 Multikollinj¨aritet

Det finns tv˚a typer av multikollinj¨aritet, imperfekt multikollinj¨aritet och perfekt multikollinj¨aritet.

3.17.1 Imperfekt multikollinj¨aritet

Mulitkollinj¨aritet uppst˚ar d˚a estimeringen fr˚an OLS inte har n˚agon unik l¨osning.

Detta h¨ander ifall tv˚a eller flera av kovariaten ¨ar linj¨art beroende, vilket inneb¨ar att man kan beskriva ett kovariat som en linj¨arkombination av en eller flera and- ra kovariat. F¨or att uppt¨acka multikollinj¨aritet observerar man de uppskatta- de standardavvikelserna f¨or regressionskoefficienterna. Om standardavvikelserna antar h¨oga v¨arden ¨ar det troligt att multikollinj¨aritet existerar i modellen. F¨or att eliminera multikollinj¨ariteten tar man bort de linj¨art beroende variablerna fr˚an modellen, vilka man identifierar fr˚an kovariatens respektive VIF-v¨arde.

3.17.2 Perfekt multikollinj¨aritet

Perfekt multikollinj¨aritet inneb¨ar att tv˚a av de beskrivande variablerna ¨ar helt korrelerade med varandra. Ett exempel p˚a detta ¨ar om man genomf¨or en regres- sion med en variabel f¨or m¨an och en variabel f¨or kvinnor, d¨ar de n¨amnda va- riablerna ¨ar helt korrelerade med varandra, eftersom att man inte kan vara en kvinna och man p˚a samma g˚ang. D¨armed finns det inte en unik l¨osning och perfekt multikollinj¨aritet uppst˚ar. F¨or att identifiera detta unders¨oker man ko- variatens respektive VIF-v¨arde.

3.18 Variance Inflation Factor (VIF)

Multikollinj¨aritet kan uppt¨ackas genom att titta p˚a kovariatens VIF-v¨arden.

VIF indikerar hur mycket st¨orre variansen ¨ar j¨amf¨ort med vad den skulle varit om kovariatet var helt okorrelerat med de andra. Om det finns en modell d¨ar man misst¨anker att det f¨orekommer k multikollinj¨ar kovariat, ber¨akna d˚a k

(26)

VIF-v¨arden, en f¨or varje Xi. K¨or sedan en vanlig OLS regression med Xi som responsvariabel p˚a de andra kovariaten, vilket kan definieras som f¨oljande:

Xi= 1γ0+ γ1Xi+1+ γ2Xi+2+ γ3Xi+3+ γ4Xi+4+ ... + γkXi+k+ ei

ar ¨ar i = 1, 2, ..., k VIF-v¨ardet ber¨aknas genom f¨oljande:

V IF ( ˆβi) = 1

1 − R2i (20)

En tumregel vid bed¨omning av resultatet fr˚an ekvation (20) ¨ar att VIF-v¨arde

> 10 indikerar h¨og multikollinj¨aritet [16].

References

Related documents

Den ovanst˚ aende bevistekniken ¨ar ett modernt p˚ afund och knepet att skapa en l¨amplig tv˚ a- dimensionell f¨ordelning

[r]

Inf¨or beteckningarna I=”Valt ¨apple ¨ar ett Ingrid-Marie”, C=”Valt ¨apple ¨ar ett Cox Orange”. och M=” ¨ Applet

Resonemang, inf¨ orda beteck- ningar och utr¨ akningar f˚ ar inte vara s˚ a knapph¨ andigt presenterade att de blir sv˚ ara att f¨ olja.. ¨ Aven endast delvis l¨ osta problem kan

Resonemang, inf¨ orda beteck- ningar och utr¨ akningar f˚ ar inte vara s˚ a knapph¨ andigt presenterade att de blir sv˚ ara att f¨ olja.. ¨ Aven endast delvis l¨ osta problem kan

Antalet kunder som bes¨ oker de tv˚ a aff¨ arerna en timme kan beskrivas med Poissonf¨ ordelningar.. Det genomsnittliga antalet kunder som bes¨ oker de tv˚ a aff¨ arerna ¨ ar

Vid bed¨ omningen av l¨ osningarna av uppgifterna i del 2 l¨ aggs stor vikt vid hur l¨ osningarna ¨ ar motiverade och redovisade. T¨ ank p˚ a att noga redovisa inf¨ orda

I en simbass¨ang finns ett halvcirkelformat f¨onster D med radie R och vars medelpunkt befinner sig p˚a djupet h, d¨ar h &gt; R, en-