• No results found

VALET AV MODELL OCH JUSTERADE R2

N/A
N/A
Protected

Academic year: 2021

Share "VALET AV MODELL OCH JUSTERADE R2"

Copied!
3
0
0

Loading.... (view fulltext now)

Full text

(1)

VALET AV MODELL OCH

JUSTERADE R 2

Anta att du vill mäta effekten av x på y, och du har sex möjliga kontrollvariabler. Men ska vi inkludera alla och i så fall hur?

När man ”bygger” en regressionsmodell så finns det många val att ta ställning till. Med sex möjliga kontrollvariabler så finns det 64 möjliga kombinationer bara i valet av kontrollvariabler. Och för varje kontrollvariabel finns det antagligen också flera möjliga funktionella former (linjär, kvadratisk, logaritmisk, fixa effekter).

Och om vi dessutom beaktar alla möjliga interaktionstermer som vi potentiellt också kunde inkludera så börjar möjligheterna svämma över.

Så hur väljer man den ”bästa” modellen? Tja, det här är ännu ett olöst problem inom statistiken. Det finns inte ett rätt svar, men det finns några riktlinjer. Låt oss se på dem nu.

Kontrollera inte för ett utfall

Säg att du vill mäta effekten av utbildning på lön: Hur stor är avkastningen på en magisterutbildning i Finland? I det här fallet skulle vi inte kontrollera för yrke. Varför inte? Jo, om vi kontrollerar för yrke så ställer vi oss frågan: Om jag jämför personer med samma yrke, ser jag då att personer med högre utbildning i snitt tjänar bättre? Vilken märklig frågeställning!

Personer med hög utbildning får ju bättre betalt just eftersom de kan jobba inom högbetalda yrken. Ditt yrke är alltså en effekt av din utbildning.

Eller säg att vi vill mäta effekten av en sockerskatt på folkhälsan.

I det här fallet skulle vi inte kontrollera för priset på socker eller konsumtionen av socker. Sockerskatten har ju potentiellt en effekt på folkhälsan just eftersom den höjer priset och sänker konsumtionen. Om vi kontrollerar för detta så har vi ju eliminerat hela den effekt vi är ute efter att mäta.

(2)

Kontrollera inte för variabler i onödan

Varför kontrollerar vi överhuvudtaget för något? Jo, eftersom vi då kan få ett renare mått på den effekt vi egentligen vill mäta.

Exempel: Är lärare utan formell behörighet sämre än behöriga lärare? För att ta reda på detta jämför vi resultaten på ett nationellt matteprov mellan elever som undervisats av behöriga lärare med sådana som undervisats av obehöriga. Men är dessa grupper verkligen jämförbara? Vilken typ av kommuner och skolor anställer obehöriga mattelärare? Det är antagligen mindre kommuner ute i periferin som har svårt att attrahera sökande.

Om det går sämre för dessa elever så behöver det förstås inte bero på att läraren är obehörig; dessa elever hade kanske presterat sämre i vilket fall som helst. För att göra grupperna mer jämförbara så inkluderar vi kontrollvariabler (t.ex. resurser per elev, kommunens arbetslöshetsgrad, inkomstnivå, befolk- ningstäthet, etnisk och språklig fördelning, osv.). Om vi fortfarande ser att elever med obehöriga lärare presterar sämre så är det nu mera troligt att detta faktiskt har med läraren att göra.

Men att kontrollera för många variabler är inte alltid bättre.

Kostnaden kan bli ett högt standardfel, dvs. ett osäkert estimat.

Eller med andra ord: Att kontrollera för lite allt möjligt – bara för säkerhets skull – är därför inte heller att rekommendera.

Jämför den justerade förklaringsgraden

Nedan ser du resultatet från tre regressioner. Datamaterialet består av 601 gifta amerikaner. I alla regressioner har vi beskrivit antalet utomäktenskapliga affärer som en funktion av ett antal oberoende variabler, bland annat antalet år som gift. Vi har testat tre olika specifikationer: Vi har (1) inkluderat antalet år som gift linjärt, (2) inkluderat antalet år som gift kvadratiskt, (3) inkluderat fixa effekter för antalet år som gift.

(3)

Tabell: Regressioner med antalet utomäktenskapliga affärer som utfall

(1) (2) (3)

VARIABLER

Man (dummy) 0.0213 0.0303 0.0351

(0.288) (0.288) (0.292)

Barn (dummy) -0.172 -0.354 -0.346

(0.359) (0.382) (0.387)

Utbildning -0.0105 -0.0175 -0.0176

(0.0599) (0.0601) (0.0604) Mycket lycklig (dummy) -0.958*** -0.948*** -0.945***

(0.281) (0.281) (0.283)

År som gift 0.0983*** 0.267** -

(0.0292) (0.127)

(År som gift)2 - -0.00955 -

(0.00695) Fixa effekter för

”år som gift”

Konstant

-

1.304

-

1.092

Ja

0.977 (0.967) (0.979) (1.328)

Observationer 601 601 601

R2 0.0537 0.0567 0.0575

Justerad R2 0.046 0.047 0.040

Standardfel inom parenteser

*** p<0.01, ** p<0.05, * p<0.1

Vilken av dessa tre specifikationer är bäst? Ett vanligt sätt att diskriminera mellan olika specifikationer är att jämföra den justerade förklaringsgraden (sista raden i tabellen ovan).

Enligt denna så är modell (2) att föredra eftersom den justerade förklaringsgraden är som högst här.

Så vad är då den justerade förklaringsgraden och hur skiljer den sig från den ”vanliga” förklaringsgraden (R2)? Jo, en förklaringsgrad är ett mått på hur stor andel av variationen i y som förklaras av x-variablerna. Då vi inkluderar fler x-variabler så kommer R2 att öka (den kan åtminstone aldrig sjunka). Detta gäller även om vi, till exempel, adderade ”ett tärningskast” till modellen. Enligt R2 så är en kvadratisk funktion därför bättre en linjär, och fixa effekter är bättre än allt annat. Eller med andra ord: Ju mer komplicerad modell, desto högre R2. R2 är alltså inte ett mått som är anpassat för att välja mellan olika specifikationer.

Den justerade förklaringsgraden däremot straffar modeller som inkluderar x-variabler med mycket låg förklaringsförmåga.

References

Related documents

Carl- Johan Torstenson (M) yrkar att ärendet återremitteras på grund av sent väckt ärende, samt att nämnden inte har fullständiga ekonomiska underlag med motivering till

Enligt en lagrådsremiss den 21 januari 2016 (Finansdepartementet) har regeringen beslutat inhämta Lagrådets yttrande över förslag till lag om ändring i lagen (2003:1223) om

Barn- och utbildningsnämnden ger barn- och utbildningschefen i uppdrag att undersöka möjligheten att omorganisera den pedagogiska omsorgen i Alunda så att verksamheten blir

Barn- och utbildningsnämnden föreslår att Gräsö skolas upptagningsområde uppgår i Öregrunds skolas upptagningsområde från vårterminen 2020. Paragrafen förklaras

Lennart Norén (S) Marie Hägerbaum (S) Josefine Nilsson (C) Sabina Vidén (S) Christer Lindström (M) Sabina Stål (KD) Maria Arvidsson (L) Filip Uthammar (M). Övriga deltagande

Miljö- och konsumentnämnden beslutar att de ledamöter och ersättare som närvarar vid seminarium om Barnkonventionen i styrning och ledning den 5 september 2019 får ersättning

Höjningen måste ske samordnat så att äldre arbetssökande kan få stöd genom arbetsmarknadspolitiska program och insatser fram till pension även när pensionsåldern höjs.. En

När programmet för företagsutlåning via penningpolitiska motparter lanserades den 12 mars beslutade direktionen att ramen för denna skulle vara 500 miljarder. Hittills har