• No results found

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

N/A
N/A
Protected

Academic year: 2021

Share "Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT"

Copied!
19
0
0

Loading.... (view fulltext now)

Full text

(1)

Kapitel 18: LINJÄRA

SANNOLIKHETSMODELLER,

LOGIT OCH PROBIT

Regressionsanalys handlar om att estimera hur medelvärdet för en variabel (y) varierar med en eller flera oberoende variabler (x). Exempel: Hur varierar genomsnittlig lön med utbildning? Hur varierar genomsnittlig livslängd med inkomst och kön? Hur varierar genomsnittlig avkastning på en aktie beroende på veckodagen?

I alla de här exemplen är utfallsvariabeln kvantitativ (lön, livslängd, avkastning). Men det finns heller inget som hindrar oss från att köra en regression då utfallsvariabeln är binär, dvs. då utfallsvariabeln bara antar två värden (0 och 1). Exempel: Vi samlar in data för ett tusental amerikaner och mäter om dessa stödjer Trump (=1) eller Hillary (=0). Vi samlar in data för ett hundratal låntagare och studerar om dessa lyckades betala tillbaka i tid (=1) eller inte (=0).

Notera här att medelvärdet för en binär variabel är en andel.

Exempel: Vi har samlat in data för 100 låntagare varav 70 betalade tillbaka i tid. Medelvärdet för den här variabeln blir då 0,7 vilket är andelen som betalade tillbaka i tid, eller sannolikheten att en person betalade tillbaka i tid. Med en binär utfallsvariabel så tittar vi alltså på andelar eller sannolikheter:

Hur stor andel av låntagare betalar tillbaka i tid och hur varierar detta beroende på kön, ålder och utbildning? Eller med andra ord: Hur varierar sannolikheten att betala tillbaka i tid beroende på kön, ålder och utbildning?

Vi kan tänka oss att modellera den här sannolikheten på lite olika sätt. Om vi estimerar sannolikheten att betala tillbaka i tid som en linjär funktion av x-variablerna så kallas detta för en linjär sannolikhetsmodell. Vi kan då använda OLS på traditionellt sätt.

I nästa avsnitt ska vi se ett exempel på vad det här kan betyda. I avsnitt 18.2 och 18.3 ska vi se på två alternativa metoder, logit och probit, som också används för att estimera sannolikheter. I avsnitt 18.4 diskuterar vi maximum likelihood som är den estimator som används vid logit och probit.

(2)

18.1 DEN LINJÄRA SANNOLIKHETSMODELLEN

Exempel: Nedan ser du ett utdrag av data för de personer som steg ombord på Titanic år 1912. Vi vill beskriva hur sannolikheten att överleva varierar som en funktion av biljettpriset. Utfallsvariabeln – överlevde – är nu binär; den antar värdet 1 för de som överlevde och annars värdet 0.

Namn biljettpris överlevde

Allen, Miss. Elisabeth Walton 211,3375 1 Allison, Master. Hudson Trevor 151,55 1 Allison, Miss. Helen Loraine 151,55 0 Allison, Mr. Hudson Joshua Creighton 151,55 0 Allison, Mrs. Hudson J C (Bessie Waldo

Daniels) 151,55 0

Anderson, Mr. Harry 26,55 1

Andrews, Miss. Kornelia Theodosia 77,9583 1

Andrews, Mr. Thomas Jr 0 0

Appleton, Mrs. Edward Dale (Charlotte

Lamson) 51,4792 1

Zimmerman, Mr. Leo 7,875 0

Nedan har vi kört en vanlig regression (OLS) med överleva som utfall och biljettpriset som oberoende variabel. Inom parentes ges det robusta standardfelet1:

ö𝑣𝑒𝑟𝑙𝑒𝑣𝑎̂ = 0,31 + 0,0023𝑝𝑟𝑖𝑠 (0,00026)

För en person som betalat 100 pund för biljetten så blir prediktionen 0,54:

ö𝑣𝑒𝑟𝑙𝑒𝑣𝑎̂ = 0,31 + 0,0023 𝑝𝑟𝑖𝑠⏟

100

= 0,54

1 Den linjära sannolikhetsmodellen är per konstruktion hetero- skedastisk, därför använder vi robusta standardfel. Vi kan se att modellen är heteroskedastisk på följande sätt: Variansen för en binär variabel ges av p(1-p). I detta exempel är p andelen överlevare (eller sannolikheten för att överleva). För de som betalat ett tillräckligt högt biljettpris så är denna sannolikhet hög och för de som betalat ett lågt biljettpris är sannolikheten lägre. Låt oss jämföra en person som har en överlevnadssannolikhet på 0,9 med en som har en sannolikhet på 0,5. I det första fallet bli överlevnadsvariansen 0,9(1-0,9) = 0,09 och i det andra fallet 0,5(1-0,5) = 0,25. Överlevnadsvariansen skiljer sig alltså mellan olika biljettpriser.

(3)

En sådan person predikteras alltså ha en 54-procentig sannolikhet att överleva. Och för varje extra pund som man spenderar på biljetten så ökar denna sannolikhet med 0,0023 eller 0,23 procentenheter. Den här effekten är signifikant (t = 0,0023/0,00026 = 8,85; p-värdet ≈ 0,000).

I det här fallet passar det data bättre att mäta biljettpriset på en logaritmerad skala:

ö𝑣𝑒𝑟𝑙𝑒𝑣𝑎̂ = −0,07 + 0,16 ∙ ln (𝑝𝑟𝑖𝑠) (0,013)

Då biljettpriset ökar med 1 procent så ökar sannolikheten att överleva med 0,0016 eller 0,16 procentenheter.

Vi kan också inkludera flera oberoende variabler i den här regressionen. Här har vi dessutom kontrollerat för kön och ålder:

ö𝑣𝑒𝑟𝑙𝑒𝑣𝑎̂ = −0,02 + 0,11 ∙ ln(𝑝𝑟𝑖𝑠) + 0,49 ∙ 𝑘𝑣𝑖𝑛𝑛𝑎

−0,0024 ∙ å𝑙𝑑𝑒𝑟

Då biljettpriset ökar med 1 procent så ökar sannolikheten att överleva med 0,0011 eller 0,11 procentenheter, kontrollerat för kön och ålder. Vi ser också att sannolikheten att överleva är 49 procentenheter högre för kvinnor än för män, och att chansen att överleva minskar med åldern; för varje extra år minskar denna sannolikhet med 0,24 procentenheter.

Det går alltså bra att använda OLS även om utfallsvariabeln är binär. Men i praktiken är det ändå vanligare att använda alternativa metoder. I nästa avsnitt ska vi diskutera den populäraste av dessa: logistisk regression (logit). Men för att se varför logit är populärare än OLS, så ska vi börja med att diskutera kritiken mot den linjära sannolikhetsmodellen.

Kritik mot linjära sannolikhetsmodeller

Linjära sannolikhetsmodeller kritiseras eftersom de kan ge orimliga prediktioner, sannolikheter som ligger under 0 eller över 1.

Exempel forts. Vi estimerade sannolikheten att överleva som en funktion av biljettpriset, kön och ålder:

ö𝑣𝑒𝑟𝑙𝑒𝑣𝑎̂ = −0,02 + 0,11 ln(𝑝𝑟𝑖𝑠) + 0,49𝑘𝑣𝑖𝑛𝑛𝑎 − 0,0024å𝑙𝑑𝑒𝑟

(4)

Hur ser prediktionerna ut för olika personer i data? Jo, för de allra flesta ligger sannolikheten att överleva någonstans mellan 0 och 1 (precis som man skulle förvänta sig). Men det finns också en passagerare med en sannolikhet på 107 procent: Miss. Anna Ward var en 35-årig kvinna som betalade 512 pund för sin biljett:

ö𝑣𝑒𝑟𝑙𝑒𝑣𝑑𝑒̂ = −0,02 + 0,11 ∙ ln (𝑝𝑟𝑖𝑠⏟

512

) + 0,49 ∙ 𝑘𝑣𝑖𝑛𝑛𝑎⏟

1

−0,0024 ∙ å𝑙𝑑𝑒𝑟⏟

35

≈ 1,07

Vi vet att den här prediktionen är felaktig, men då vi använder en linjär modell så finns det inget som ser till att prediktionerna faktiskt hamnar mellan 0 och 1. Eftersom överlevnads- sannolikheten ökar linjärt med biljettpriset (mätt på en loggad skala) så kan vi alltid få en överlevnadssannolikhet som hamnar över 100 procent bara vi sätter biljettpriset tillräckligt högt. Den linjära modellen kan alltså inte vara korrekt. Den kan ge bra approximationer för begränsade värden på x, men den kan inte vara fullständigt korrekt. Vi ska nu se på en annan modell – logit – som är konstruerad så att de predikterade sannolikheterna alltid hamnar där de ska.

(5)

18.2 LOGISTISK REGRESSION (LOGIT)

Exempel forts. Låt oss utgå från regressionen:

ö𝑣𝑒𝑟𝑙𝑒𝑣𝑎̂ = 0,31 + 0,0023𝑝𝑟𝑖𝑠

Här beskriver vi sannolikheten för att överleva som en linjär funktion av biljettpriset. När vi däremot estimerar en logistisk regression så beskriver vi oddset för att överleva som en multiplikativ modell av biljettpriset. I det här fallet ges den funktionen av:

𝑜𝑑𝑑𝑠𝑒𝑡 𝑓ö𝑟 𝑎𝑡𝑡 ö𝑣𝑒𝑟𝑙𝑒𝑣𝑎̂ = 0,41 ∙ 1,01𝑝𝑟𝑖𝑠

Låt oss fundera på vad den här regressionen säger. Precis som tidigare så kan vi använda den här regressionen för att göra prediktioner. För en passagerare som betalat 0 pund för biljetten så blir oddset för att överleva 0,41:

𝑜𝑑𝑑𝑠𝑒𝑡 𝑓ö𝑟 𝑎𝑡𝑡 ö𝑣𝑒𝑟𝑙𝑒𝑣𝑎̂ = 0,41 ∙ 1,01𝑝𝑟𝑖𝑠

= 0,41 ∙ 1,010= 0,41 ∙ 1

= 0,41

För en passagerare som betalat 1 pund blir oddset 0,414:

𝑜𝑑𝑑𝑠𝑒𝑡 𝑓ö𝑟 𝑎𝑡𝑡 ö𝑣𝑒𝑟𝑙𝑒𝑣𝑎̂ = 0,41 ∙ 1,01𝑝𝑟𝑖𝑠

= 0,41 ∙ 1,011= 0,41 ∙ 1,01

≈ 0,414

För en som betalat 2 pund blir oddset 0,422:

𝑜𝑑𝑑𝑠𝑒𝑡 𝑓ö𝑟 𝑎𝑡𝑡 ö𝑣𝑒𝑟𝑙𝑒𝑣𝑎̂ = 0,41 ∙ 1,01𝑝𝑟𝑖𝑠

= 0,41 ∙ 1,012= 0,41 ∙ 1,01 ∙ 1,01

≈ 0,422

Och för en passagerare som betalat 3 pund blir oddset 0,41 ∙ 1,013= 0,41 ∙ 1,01 ∙ 1,01 ∙ 1,01. Om vi multiplicerar med 1,01 ännu en fjärde gång så får vi oddset för en som betalat 4 pund. Oddset för överleva ökar alltså med en faktor på 1,01 för varje extra pund man betalat för biljetten. Eller med andra ord: Oddset för att överleva ökar med 1 procent för varje extra pund man betalat för biljetten.

Låt oss repetera:

𝑜𝑑𝑑𝑠𝑒𝑡 𝑓ö𝑟 𝑎𝑡𝑡 ö𝑣𝑒𝑟𝑙𝑒𝑣𝑎̂ =0,41∙1,01𝑝𝑟𝑖𝑠

(6)

0,41 är oddset för att överleva då priset sätts lika med 0. Då priset ökar med 1 pund så ökar oddset för att överleva med en faktor på 1,01, dvs. 1 procent. Vi kallar detta estimat (1,01) för en oddskvot2.

Anta att vi istället hade fått följande resultat:

𝑜𝑑𝑑𝑠𝑒𝑡 𝑓ö𝑟 𝑎𝑡𝑡 ö𝑣𝑒𝑟𝑙𝑒𝑣𝑎̂ =0,25∙2,0𝑝𝑟𝑖𝑠

0,25 är oddset att överleva för en person som betalade 0 pund för sin biljett. Och då priset ökar med 1 pund så ökar oddset för att överleva med en faktor på 2 vilket är en ökning med 100 procent.

Eller anta att vi istället hade fått följande resultat:

𝑜𝑑𝑑𝑠𝑒𝑡 𝑓ö𝑟 𝑎𝑡𝑡 ö𝑣𝑒𝑟𝑙𝑒𝑣𝑎̂ =0,25∙3,0𝑝𝑟𝑖𝑠

Då priset ökar med 1 pund så ökar oddset för att överleva med en faktor på 3 vilket är en ökning med 200 procent.

Eller anta att vi istället hade fått följande resultat:

𝑜𝑑𝑑𝑠𝑒𝑡 𝑓ö𝑟 𝑎𝑡𝑡 ö𝑣𝑒𝑟𝑙𝑒𝑣𝑎̂ =0,25∙0,9𝑝𝑟𝑖𝑠

Då priset ökar med 1 pund så minskar oddset för att överleva med 10 procent.

I exemplet ovan så tänkte vi oss att oddset för att överleva var 0,25, givet att man betalat 0 pund för biljetten. Men vad betyder då ett odds på 0,25? Jo, detta betyder att det går 0,25 överlevare på varje person som dog. Eller med andra ord: Det går då 25 överlevare per 100 döda. Ett odds på 0,25 motsvaras alltså av en sannolikhet på 20 procent: I en grupp på 125 personer så är det 100 som dör och 25 som överlever: 25/125 = 0,2.

Vi kan göra om ett odds till en sannolikhet genom följande formel:

𝑠𝑎𝑛𝑛𝑜𝑙𝑖𝑘ℎ𝑒𝑡 = 𝑜𝑑𝑑𝑠 𝑜𝑑𝑑𝑠 + 1

När vi predikterat oddset för att överleva för olika personer i data så kan vi alltså skriva om dessa odds till sannolikheter. I figuren nedan har vi ritat ut sannolikheten för att överleva mot

2 1,01 är kvoten mellan två odds: Oddset att överleva då man betalat k+1 pund, genom oddset för att överleva då man betalat k pund.

(7)

biljettpriset. (Här har vi använt oss av regressionen som bygger på riktiga data: 𝑜𝑑𝑑𝑠𝑒𝑡 𝑓ö𝑟 𝑎𝑡𝑡 ö𝑣𝑒𝑟𝑙𝑒𝑣𝑎̂ = 0,41 ∙ 1,01𝑝𝑟𝑖𝑠.)

Vi ser alltså att sannolikheten att överleva är en icke-linjär funktion av biljettpriset: Sannolikheten ökar brant i början men den här positiva effekten avtar då biljettpriset blir tillräckligt högt. Och när biljettpriset nått 500 pund så är överlevnads- sannolikheten praktiskt taget 1. Men den kommer aldrig att bli större än 1 (oavsett biljettpris). Och på motsvarande sätt kan vi aldrig få negativa sannolikheter.

Logiten

Exempel forts. Vi beskrev oddset för att överleva genom uttrycket:

𝑜𝑑𝑑𝑠𝑒𝑡 𝑓ö𝑟 𝑎𝑡𝑡 ö𝑣𝑒𝑟𝑙𝑒𝑣𝑎̂ = 0,41 ∙ 1,01𝑝𝑟𝑖𝑠

Om vi tar den naturliga logaritmen på båda sidor får vi följande uttryck:

𝐥𝐧 (𝒐𝒅𝒅𝒔𝒆𝒕 𝒇ö𝒓 𝒂𝒕𝒕 ö𝒗𝒆𝒓𝒍𝒆𝒗𝒂)̂ = ln(0,41) + pris ∙ ln(1,01) = −𝟎, 𝟖𝟗 + 𝟎, 𝟎𝟏 ∙ 𝒑𝒓𝒊𝒔 Den här ekvationen säger precis samma sak som tidigare: För varje extra pund du betalar för biljetten så ökar oddset för att överleva med 1 procent. Notera att det här är motsvarande tolkning som i alla regressioner med loggat utfall!

0 0.2 0.4 0.6 0.8 1 1.2

0 100 200 300 400 500 600

Sannolikhet

biljettpris

Sannolikheten för att överleva Titanic

(8)

När vi på det här sättet tar den naturliga logaritmen av ett odds så kallas detta för en logit. Exempel: För en passagerare som betalat 0 pund för biljetten så är den naturliga logaritmen av oddset –0,89. Eller så kan vi kortare säga att logiten är -0,89.

Exempel forts. Här har vi istället beskrivit oddset för att överleva som en funktion av biljettpriset mätt på en loggad skala:

𝑜𝑑𝑑𝑠𝑒𝑡̂ = 0,08 ∙ 1,97ln (𝑝𝑟𝑖𝑠) Logiten för att överleva ges då av:

ln (𝑜𝑑𝑑𝑠𝑒𝑡)̂ = −2,49 + 0,68 ∙ 𝑙𝑛 (𝑝𝑟𝑖𝑠)

När biljettpriset ökar med 1 procent så ökar oddset för att överleva med 0,68 procent. I figuren nedan har vi illustrerat det här sambandet grafiskt; men här tittar vi på hur sannolikheten för att överleva varierar med biljettpriset:

Exempel forts. Här har vi även kontrollerat för ålder och kön:

𝑜𝑑𝑑𝑠𝑒𝑡̂ = 0,06 ∙ 1,86ln(𝑝𝑟𝑖𝑠)∙ 0,99å𝑙𝑑𝑒𝑟∙ 10𝑘𝑣𝑖𝑛𝑛𝑎 ln (𝑜𝑑𝑑𝑠𝑒𝑡)̂ = −2,8+ 0,6 ln(𝑝𝑟𝑖𝑠)− 0,01å𝑙𝑑𝑒𝑟+ 2,3𝑘𝑣𝑖𝑛𝑛𝑎 Det spelar ingen roll vilken av dessa funktioner vi använder när vi tolkar resultatet. Båda beskriver exakt samma sak, bara uttryckt på olika sätt. Låt oss utgå från den färgglada logit- varianten: Då priset ökar med 1 procent så ökar oddset för att

0 0.2 0.4 0.6 0.8 1 1.2

0 100 200 300 400 500 600

Sannolikhet

Biljettpris

Sannolikheten för att överleva Titanic

(9)

överleva med 0,6 procent (kontrollerat för kön och ålder). Då åldern ökar med ett år så minskar oddset för att överleva med 1 procent (kontrollerat för biljettpris och kön). Oddset för att överleva är 900 procent högre bland kvinnor än bland män (kontrollerat för biljettpris och ålder).

Notera: Koefficienten för kvinna är 2,3 vilket motsvarar en effekt på 900 procent. Det motsvarar alltså inte en effekt på 230 procent. Den här tolkningen skulle vara korrekt om koefficienten varit närmare 0. Exempel: Om koefficienten för kvinna hade varit 0,08 så hade vi sagt att oddset för att överleva är 8 procent högre bland kvinnor än bland män. Men den här regeln är approximativ och funkar bara bra för små procentuella effekter (+/- 10 procent). För att få den exakta procenten så tar vi istället 100*[exp(koefficienten)-1]. I detta exempel:

100 ∙ [exp(2,3) − 1] ≈ 900 %

Låt oss ännu se på hur resultatet kan se ut i ett statistiskt programpaket (STATA). När du kör en logistisk regression så kan du beställa resultatet i de två olika ”format” som vi sett på här:

(1) Beskriver oddset som en multiplikativ modell av de oberoende variablerna:

𝑜𝑑𝑑𝑠𝑒𝑡̂ =0,06 ∙ 1,86ln(𝑝𝑟𝑖𝑠)∙ 10𝑘𝑣𝑖𝑛𝑛𝑎∙ 0,99å𝑙𝑑𝑒𝑟

(2) Beskriver logiten som en linjär funktion av de oberoende variablerna:

ln (𝑜𝑑𝑑𝑠𝑒𝑡)̂ =−2,78 + 0,62ln(𝑝𝑟𝑖𝑠)+ 2,3𝑘𝑣𝑖𝑛𝑛𝑎− 0,01å𝑙𝑑𝑒𝑟 Du ser båda dessa utskrifter på nästa sida.

(10)

Låt oss ännu se på några andra nyckelsiffror ur dessa regressionsutskrifter. Vi ser att regressionsmodellen har signifikant förklaringsstyrka: LR chi2 = 368,24; p-värdet ≈ 0,0000. LR chi2-värdet är alltså motsvarigheten till ett F-värde då vi använder OLS. Vi ser också att biljettpriset har en signifikant effekt på oddset att överleva: z = 7,28; p-värdet ≈ 0,000. Z-värdet är alltså motsvarigheten till ett t-värde då vi använder OLS.3

3 Se den första utskriften ovan (1): Om vi här tar den första oddskvoten (1,86) genom standardfelet (0,159) så får vi ett värde på ~11,7 och inte 7,28 som är z-värdet. Jämför detta med den andra utskriften (2): Om vi här tar den första koefficienten (0,62) genom standardfelet (0,085) så får vi z-värdet (7,28). Vad är det som pågår här? Jo, sampling- fördelningen för en oddskvot följer en lognormalfördelning, medan samplingfördelningen för en loggad oddskvot följer en normal- fördelning. I utskrift (2) har vi just loggade oddskvoter och då kan vi testa om resultatet är signifikant genom att dela dessa med sina standardfel.

(11)

Marginaleffekter

Exempel forts. Vi hade regressionen:

𝑜𝑑𝑑𝑠𝑒𝑡̂ = 0,06 ∙ 1,86ln(𝑝𝑟𝑖𝑠)∙ 10𝑘𝑣𝑖𝑛𝑛𝑎∙ 0,99å𝑙𝑑𝑒𝑟 ln (𝑜𝑑𝑑𝑠𝑒𝑡)̂ = −2,8 + 0,6 ln(𝑝𝑟𝑖𝑠) − 0,01å𝑙𝑑𝑒𝑟 + 2,3𝑘𝑣𝑖𝑛𝑛𝑎 Här ser vi till exempel att då åldern ökar med ett år så minskar oddset för att överleva med 1 procent, kontrollerat för biljettpris och kön. Men vad betyder det? Hur mycket minskar då sannolikheten för att överleva? Det finns inget enkelt svar på den frågan; hur mycket sannolikheten minskar beror också på din ålder i utgångsläget, vad du betalat för biljetten och ditt kön.

Effekten av att åldern ökar med ett år kommer alltså att skilja sig mellan olika personer i data (beroende på deras värden på x- variablerna). Om vi räknar ut denna effekt skilt för varje person i data och sedan tar medelvärdet av alla dessa effekter, så får vi det som kallas för den genomsnittliga marginaleffekten.4 Med hjälp av STATA kan vi räkna ut genomsnittliga marginaleffekter automatiskt:

När biljettpriset ökar med 1 procent så ökar sannolikheten för att överleva i snitt med ~0,001 eller ~0,1 procentenheter, kontrollerat för kön och ålder. Sannolikheten för att överleva är i snitt ~37 procentenheter högre bland kvinnor än bland män

4 Rent tekniskt så får vi en marginaleffekt genom att ta fram ett uttryck som beskriver sannolikheten för att överleva som en funktion av x- variablerna. Vi deriverar denna sannolikhet med avseende på x- variabeln av intresse. Detta ger oss följande uttryck: b*p*(1-p) där b är koefficienten av intresse och p är den estimerade sannolikheten för ett gynnsamt utfall (där p skiljer sig mellan olika personer). Vi räknar därefter ut marginaleffekten skilt för varje person i data. Medelvärdet av dessa är den genomsnittliga marginaleffekten.

(12)

(kontrollerat för biljettpriset och ålder). Och när åldern ökar med ett år så minskar sannolikheten för att överleva i snitt med ~0,2 procentenheter (kontrollerat för biljettpris och kön).

Att presentera resultatet

Man kan presentera resultatet från en logistisk regression på olika sätt. Det vanligaste är att antingen visa de genomsnittliga marginaleffekterna, oddskvoterna eller bägge (vilket jag gjort i tabellen nedan). Här är GME en är förkortning för genomsnittlig marginaleffekt.

(1) (2)

VARIABLER GME Oddskvoter

Ln(biljettpris) 0.100*** 1.860***

(0.0128) (0.159)

Kvinna 0.374*** 10.11***

(0.0134) (1.590)

Ålder -0.00225** 0.986**

(0.000878) (0.00539)

Konstant 0.0618***

(0.0180)

Observationer 1,037 1,037

Standardfel inom parenteser

*** p<0.01, ** p<0.05, * p<0.1

(13)

18.3 PROBIT

Precis som logit så är probit också en modell där vi beskriver sannolikheten för ett gynnsamt utfall som en icke-linjär funktion av x-variablerna. Men tolkningen av resultatet skiljer sig från logit.

Exempel forts. Nedan har vi använt Titanic-data och estimerat hur sannolikheten att överleva varierar som en funktion av biljettpriset, mätt på en loggad skala. Vi har här estimerat en probit:

Vi kan använda den här modellen för att prediktera sannolikheten för att överleva, och hur denna sannolikhet varierar med biljettpriset. För en probit ges denna sannolikhet av:

Pr(ö𝑣𝑒𝑟𝑙𝑒𝑣𝑎) = Pr(𝑍 ≤−1,54 + 0,417 ∙ ln(𝑝𝑟𝑖𝑠𝑒𝑡)) där Z är en standardiserad normalfördelad variabel. Exempel:

För en person som betalat 100 pund för biljetten så blir den sannolikheten 65 procent:

Pr(ö𝑣𝑒𝑟𝑙𝑒𝑣𝑎) = Pr (𝑍 ≤−1,54 + 0,417 ∙ ln (𝑝𝑟𝑖𝑠𝑒𝑡⏟

100

))

= Pr(𝑍 ≤ 0,38) ≈ 0,65

(14)

För övrigt är det svårt att tolka koefficienterna från en probit. En positiv koefficient betyder att sannolikheten för att överleva ökar med den x-variabeln; en negativ koefficient betyder att sannolikheten för att överleva minskar med den x-variabeln. I det här exemplet är koefficienten för ln(biljettpriset) 0,417.

Sannolikheten att överleva ökar alltså med biljettpriset. Men är 0,417 en stor eller liten positiv effekt? Detta är inte särskilt lätt att bedöma.5 Men precis som vid logit kan vi också här uttrycka effekten som en genomsnittlig marginaleffekt:

Då biljettpriset ökar med 1 procent så ökar sannolikheten för att överleva i snitt med 0,0015 eller 0,15 procentenheter.

Logit kontra probit: Vilket är bättre?

I praktiken har det liten betydelse om man väljer logit eller probit. Figuren nedan illustrerar detta. Här har vi använt Titanic- data och predikterat sannolikheten för att överleva som en funktion av biljettpriset (mätt på en loggad skala), kön och ålder.

På x-axeln visas de predikterade sannolikheterna från en logit; på y-axeln visas motsvarande sannolikheter från en probit.

5 Vi förflyttar oss då 0,417 steg högerut på z-skalan. Det här har ganska stor betydelse om vi innan befann oss vid z = 0, men marginell betydelse om vi innan befann oss vid z = -3 eller z = 3.

(15)

Korrelationen är 0,9999; modellerna gör här mer eller mindre identiska prediktioner.

De genomsnittliga marginaleffekterna är också praktiskt taget lika stora oavsett modell, vilket tabellen nedan visar.

Tabell: Sannolikheten för att överleva Titanic (GME)

(1) (2)

VARIABLER LOGIT PROBIT

Ln(biljettpris) 0.100*** 0.102***

(0.0128) (0.0130)

Kvinna 0.374*** 0.392***

(0.0134) (0.0158)

Ålder -0.00225** -0.00225**

(0.000878) (0.000874)

Observationer 1,037 1,037

Standardfel inom parenteser

*** p<0.01, ** p<0.05, * p<0.1

Det spelar med andra ord egentligen ingen roll vilket vi väljer (logit eller probit). Detta är i första hand en fråga om vad man själv föredrar. De flesta väljer då logit, eftersom man då kan tolka resultatet i termer av oddskvoter.

En notering här på slutet: Den linjära sannolikhetsmodellen (OLS) är inte heller särskilt dum, även om den kanske har lite skamfilat rykte. I tabellen nedan ser du en jämförelse mellan LOGIT, PROBIT och OLS. Alla estimat är genomsnittliga

(16)

marginaleffekter.6 Skillnaden mellan OLS och de andra modellerna är för det mesta rätt liten.

Tabell: Sannolikheten för att överleva Titanic (GME)

(1) (2) (3)

VARIABLER LOGIT PROBIT OLS

Ln(biljettpris) 0.100*** 0.102*** 0.106***

(0.0128) (0.0130) (0.0137)

Kvinna 0.374*** 0.392*** 0.491***

(0.0134) (0.0158) (0.0292)

Ålder -0.00225** -0.00225** -0.00237**

(0.000878) (0.000874) (0.000948)

Observationer 1,037 1,037 1,037

Standardfel inom parenteser. OLS: Robusta standardfel.

*** p<0.01, ** p<0.05, * p<0.1

6 Vid OLS så är regressionskoefficienterna samtidigt de genomsnittliga marginaleffekterna.

(17)

18.4 MAXIMUM LIKELIHOOD

När du kör en logit eller probit så får du fram estimaten genom en metod som kallas för maximum likelihood. Vi kan också se detta i regressionsutskriften; programmet gör så kallade

”itereringar” och beräknar varje gång fram något som kallas för en ”log-likelihood” (se utskriften nedan). I det här fallet blev ”log- likelihooden” -827,01596 i den sista itereringen. Den här siffran säger något om hur bra vår modell presterar. Ju närmare 0 vi kommer i den sista itereringen, desto bättre är biljettpriset på att prediktera vem som överlever och vem som dör.

För att förstå vad detta handlar om så ska vi lära oss vad maximum likelihood-metoden går ut på. Vi ser detta bäst genom ett exempel: Säg att du jobbar på en bank och vill estimera sannolikheten för att en kund lyckas betala tillbaka ett lån i tid.

För enkelhetens skull ska vi tänka oss att data bara täcker 4 personer varav 3 betalade tillbaka i tid:

1, 1, 1, 0

När vi använder maximum likelihood-estimatorn väljer vi det estimat för får parameter (p) som maximerar sannolikheten för att få det sampel som vi faktiskt fått.

Låter det krångligt? Låt mig ta ett exempel. Anta att 𝑝 = 0,5:

Sannolikheten för att en kund betalar tillbaka i tid är 50 procent.

Hur stor är då sannolikheten för att få det sampel som vi faktiskt har fått, dvs. först tre personer som betalade tillbaka i tid och sedan en som inte gjorde det? Jo, den sannolikheten är 6,25 procent:

Pr(𝑑𝑎𝑡𝑎|𝑝 = 0,5) = 0,5 ∙ 0,5 ∙ 0,5 ∙ (1 − 0,5) = 0,0625

(18)

Eller anta att 𝑝 = 0,6: Sannolikheten för att en kund betalar tillbaka i tid är 60 procent. Hur stor är då sannolikheten för att få det sampel som vi faktiskt har fått? Jo, den sannolikheten är 8,64 procent:

Pr(𝑑𝑎𝑡𝑎|𝑝 = 0,6) = 0,6 ∙ 0,6 ∙ 0,6 ∙ (1 − 0,6) = 0,0864 Och om sannolikheten för att en kund betalar tillbaka i tid är p så blir sannolikheten:

Pr(𝑑𝑎𝑡𝑎|𝑝) = 𝑝 ∙ 𝑝 ∙ 𝑝 ∙ (1 − 𝑝) = 𝑝3(1 − 𝑝)

Frågan vi ställer oss: För vilket värde på p blir denna sannolikhet som allra störst? Jo, detta händer då p = 0,75. Vi kan se detta genom att derivera uttrycket ovan, sätta derivatan lika med 0 och lösa ut p. Men här är ett litet trick: Ibland är det lättare att först logaritmera ett uttryck innan man deriverar:

ln(Pr(𝑑𝑎𝑡𝑎|𝑝)) = 3 ln(𝑝) + 𝑙𝑛(1 − 𝑝)

Man bryter inte mot några regler på det här sättet: Det värde på p som maximerar sannolikheten för data, är också det värde som maximerar den sannolikheten men mätt på en loggad skala.

När vi kör en logit eller probit så är principen exakt densamma, bara att p i uttrycket ovan då är en funktion av våra oberoende variabler. Anta att vi vill estimera en logit där vi beskriver sannolikheten för att överleva Titanic (p) som en funktion av biljettpriset. Den logaritmerade sannolikheten för att få det datamaterial vi faktiskt har fått blir då:

ln(Pr(𝑑𝑎𝑡𝑎|𝑝)) = ∑[ln(𝑝𝑖) ö𝑣𝑒𝑟𝑖+ ln (1 − 𝑝𝑖)(1 − ö𝑣𝑒𝑟𝑖)]

där över är en binär variabel som antar värdet 1 för de som överlevde och annars värdet 0, och där:

𝑝𝑖 = e𝛽0+𝛽1pris 1 + e𝛽0+𝛽1pris

Vi ska alltså bestämma värdena för 𝛽0 och 𝛽1 så att den loggade sannolikheten blir så hög som möjligt, eller så att log-likelihood- funktionen får ett så stort värde som möjligt. Det här är inget enkelt problem att lösa, inte ens för en dator. De facto måste datorn pröva sig fram på motsvarande sätt som vi prövade oss fram i bankexemplet genom att först sätta p = 0,5 och därefter p = 0,6. Datorn löser alltså problemet genom att använda en iterativ

(19)

metod och i varje iterering så kommer log-likelihooden lite närmare 0. I det här exemplet stannade vi slutligen på - 827,01596.

References

Related documents

REGLAB Tylösand 10/2 2016 Herman Geijer.1. *   Apokalyps eller

Tinnitus är en hörselskada som ökar bland ungdomar. Med hur många procent har antalet hörselskadade elever ökat på Haga Musikskola?.. Avrunda Zll

I London finns världens näst längsta tunnelbanenät. Det är 415

Jämfört med fjärde kvartalet 2019 ökade nettoom- sättningen rensat för valutaeffekter med 26 procent och rörelseresultatet (EBITA) ökade med 21 procent i SEK.. Den

Koncernens resultat före skatt för tredje kvartalet ökade med 22 procent och uppgick till 36,5 (30,0) MSEK...

2) För andra kvartalet har IFRS 16 en positiv effekt på EBITA-resultatet med 1,0 MSEK, och hade den nya standarden inte tillämpats hade EBITA uppgått till 71 (64) MSEK..

Om IFRS 16 inte hade tillämpats hade koncernens resultat före skatt ökat till 24 (15) MSEK.. Koncernens lönsamhet har påverkats positivt av för- bättrade resultat i BTS

Rosario Ali Taikon, från tidningen É Romani Glinda, påpekade att språk kan vara ett problem, att romer lär sig romanes men inte majoritetsspråket.. – Vi kommer