VALET AV MODELL OCH JUSTERADE R2

(1)

VALET AV MODELL OCH

JUSTERADE R ²

Anta att du vill mäta effekten av x på y, och du har sex möjliga kontrollvariabler. Men ska vi inkludera alla och i så fall hur?

När man ”bygger” en regressionsmodell så finns det många val att ta ställning till. Med sex möjliga kontrollvariabler så finns det 64 möjliga kombinationer bara i valet av kontrollvariabler. Och för varje kontrollvariabel finns det antagligen också flera möjliga funktionella former (linjär, kvadratisk, logaritmisk, fixa effekter).

Och om vi dessutom beaktar alla möjliga interaktionstermer som vi potentiellt också kunde inkludera så börjar möjligheterna svämma över.

Så hur väljer man den ”bästa” modellen? Tja, det här är ännu ett olöst problem inom statistiken. Det finns inte ett rätt svar, men det finns några riktlinjer. Låt oss se på dem nu.

Kontrollera inte för ett utfall

Säg att du vill mäta effekten av utbildning på lön: Hur stor är avkastningen på en magisterutbildning i Finland? I det här fallet skulle vi inte kontrollera för yrke. Varför inte? Jo, om vi kontrollerar för yrke så ställer vi oss frågan: Om jag jämför personer med samma yrke, ser jag då att personer med högre utbildning i snitt tjänar bättre? Vilken märklig frågeställning!

Personer med hög utbildning får ju bättre betalt just eftersom de kan jobba inom högbetalda yrken. Ditt yrke är alltså en effekt av din utbildning.

Eller säg att vi vill mäta effekten av en sockerskatt på folkhälsan.

I det här fallet skulle vi inte kontrollera för priset på socker eller konsumtionen av socker. Sockerskatten har ju potentiellt en effekt på folkhälsan just eftersom den höjer priset och sänker konsumtionen. Om vi kontrollerar för detta så har vi ju eliminerat hela den effekt vi är ute efter att mäta.

(2)

Kontrollera inte för variabler i onödan

Varför kontrollerar vi överhuvudtaget för något? Jo, eftersom vi då kan få ett renare mått på den effekt vi egentligen vill mäta.

Exempel: Är lärare utan formell behörighet sämre än behöriga lärare? För att ta reda på detta jämför vi resultaten på ett nationellt matteprov mellan elever som undervisats av behöriga lärare med sådana som undervisats av obehöriga. Men är dessa grupper verkligen jämförbara? Vilken typ av kommuner och skolor anställer obehöriga mattelärare? Det är antagligen mindre kommuner ute i periferin som har svårt att attrahera sökande.

Om det går sämre för dessa elever så behöver det förstås inte bero på att läraren är obehörig; dessa elever hade kanske presterat sämre i vilket fall som helst. För att göra grupperna mer jämförbara så inkluderar vi kontrollvariabler (t.ex. resurser per elev, kommunens arbetslöshetsgrad, inkomstnivå, befolk- ningstäthet, etnisk och språklig fördelning, osv.). Om vi fortfarande ser att elever med obehöriga lärare presterar sämre så är det nu mera troligt att detta faktiskt har med läraren att göra.

Men att kontrollera för många variabler är inte alltid bättre.

Kostnaden kan bli ett högt standardfel, dvs. ett osäkert estimat.

Eller med andra ord: Att kontrollera för lite allt möjligt – bara för säkerhets skull – är därför inte heller att rekommendera.

Jämför den justerade förklaringsgraden

Nedan ser du resultatet från tre regressioner. Datamaterialet består av 601 gifta amerikaner. I alla regressioner har vi beskrivit antalet utomäktenskapliga affärer som en funktion av ett antal oberoende variabler, bland annat antalet år som gift. Vi har testat tre olika specifikationer: Vi har (1) inkluderat antalet år som gift linjärt, (2) inkluderat antalet år som gift kvadratiskt, (3) inkluderat fixa effekter för antalet år som gift.

(3)

Tabell: Regressioner med antalet utomäktenskapliga affärer som utfall

(1) (2) (3)

VARIABLER

Man (dummy) 0.0213 0.0303 0.0351

(0.288) (0.288) (0.292)

Barn (dummy) -0.172 -0.354 -0.346

(0.359) (0.382) (0.387)

Utbildning -0.0105 -0.0175 -0.0176

(0.0599) (0.0601) (0.0604) Mycket lycklig (dummy) -0.958*** -0.948*** -0.945***

(0.281) (0.281) (0.283)

År som gift 0.0983*** 0.267** -

(0.0292) (0.127)

(År som gift)² - -0.00955 -

(0.00695) Fixa effekter för

”år som gift”

Konstant

-

1.304

-

1.092

Ja

0.977 (0.967) (0.979) (1.328)

Observationer 601 601 601

R² 0.0537 0.0567 0.0575

Justerad R² 0.046 0.047 0.040

Standardfel inom parenteser

*** p<0.01, ** p<0.05, * p<0.1

Vilken av dessa tre specifikationer är bäst? Ett vanligt sätt att diskriminera mellan olika specifikationer är att jämföra den justerade förklaringsgraden (sista raden i tabellen ovan).

Enligt denna så är modell (2) att föredra eftersom den justerade förklaringsgraden är som högst här.

Så vad är då den justerade förklaringsgraden och hur skiljer den sig från den ”vanliga” förklaringsgraden (R²)? Jo, en förklaringsgrad är ett mått på hur stor andel av variationen i y som förklaras av x-variablerna. Då vi inkluderar fler x-variabler så kommer R² att öka (den kan åtminstone aldrig sjunka). Detta gäller även om vi, till exempel, adderade ”ett tärningskast” till modellen. Enligt R² så är en kvadratisk funktion därför bättre en linjär, och fixa effekter är bättre än allt annat. Eller med andra ord: Ju mer komplicerad modell, desto högre R². R² är alltså inte ett mått som är anpassat för att välja mellan olika specifikationer.

Den justerade förklaringsgraden däremot straffar modeller som inkluderar x-variabler med mycket låg förklaringsförmåga.

VALET AV MODELL OCH JUSTERADE R2