• No results found

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

N/A
N/A
Protected

Academic year: 2021

Share "Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING"

Copied!
8
0
0

Loading.... (view fulltext now)

Full text

(1)

Kapitel 17:

HETEROSKEDASTICITET,

ROBUSTA STANDARDFEL OCH

VIKTNING

När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population där feltermen har väntevärde 0 för alla värden på x: E(u|x) = 0. Och vi antar att feltermen är homoskedastisk. Om dessa antaganden är uppfyllda så är OLS-estimatorn väntevärdesriktig och de traditionella standardfelen är giltiga.

Dessutom säger man då att OLS-estimatorn är BLUE (best linear unbiased estimator) vilket betyder att OLS-estimatorn är väntevärdesriktig och mer träffsäker än alla andra linjära estimatorer.1

När bryter vi mot dessa antaganden i praktiken? Om vi, till exempel, använt fel funktionell form så bryter vi mot antagandet om att E(u|x) = 0. Då är OLS-estimatorn inte längre väntevärdesriktig. Men som vi sett i kapitel 15 så kan vi ofta transformera data för att få en bättre beskrivning av sambandet mellan x och y. Att använda en kvadratisk funktion är ett exempel på en sådan transformation.

Om feltermen är heteroskedastisk så är de konventionella standardfelen inte längre giltiga; vi kan då få större t-värden och lägre p-värden än vi egentligen borde ha (eller tvärtom). Det här kan låta rätt illa, men som vi kommer att se i det här kapitlet så finns det en enkel lösning.

1 Ibland brukar man också nämna ännu ett antagande: Att feltermen är normalfördelad. Det här antagandet ser till att samplingfördelningen för regressionskoefficienten också är normalfördelad, vilket behövs när vi vill testa om sambandet i data är signifikant. Men som vi har sett så är det här antagandet mindre kritiskt i praktiken; om vi bara drar ett tillräckligt stort sampel så ser centrala gränsvärdessatsen till att samplingfördelningen är approximativt normalfördelad i alla fall.

(2)

17.1 ATT UPPTÄCKA HETEROSKEDASTICITET

Heteroskedasticitet betyder att feltermsvariansen skiljer sig mellan olika värden på x. Vi ser detta genom att spridningen i data runt regressionslinjen varierar mellan olika värden på x.

Nedan visas två exempel på detta. I figur A är spridningen i data större för höga värden på x. Figur B bygger på samma data, men här har vi ritat upp residualerna mot x.

Spridningsdiagram C är också ett exempel på heteroskedasticitet.

Här antar x fyra olika värden (1, 2, 3 och 4) där spridningen i data är som störst för värdena 2 och 4, och som lägst för värdena 1 och 3. Figur D bygger på samma data, men här har vi ritat upp residualerna mot x.

Om vi har en multipel regression så betyder homoskedasticitet att feltermsvariansen är lika stor för alla kombinationer av värden på x-variablerna. Man kan då grafiskt upptäcka heteroskedasticitet genom att rita upp residualerna mot olika x- variabler eller mot de predikterade värdena på y.

Det finns också formella tester som kan upptäcka heteroskedasticitet. Två kända är Whites och Breush-Pagans tester. Vi kommer dock inte att diskutera dessa här, för som vi kommer att se i nästa avsnitt så är det inte heller avgörande att veta om feltermen de facto är homo- eller heteroskedastisk.

(3)

17.2 VAD GÖRA?

Det finns tre vanliga sätt att hantera heteroskedasticitet:

1) Heteroskedasticitets-robusta standardfel 2) Transformera data (logaritmera utfallvariabeln) 3) Viktning

Heteroskedasticitets-robusta standardfel

De flesta statistiska programpaket kan i dag räkna ut det som kallas för heteroskedasticitets-robusta standardfel eller kortare robusta standardfel (andra namn är White standardfel eller Huber-White standardfel). Och det räcker vanligtvis med ett knapptryck. De robusta standardfelen är konsistenta oavsett om feltermen är homo- eller heteroskedastisk, och oavsett vilken typ av heteroskedasticitet det i så fall är frågan om. De robusta standardfelen är oftast större än de konventionella, men i de flesta fall är skillnaden inte särskilt dramatisk.

Nedan visas resultatet från två körningar baserade på samma data som i spridningsdiagram A (avsnitt 17.1). Det här är alltså ett datamaterial som karaktäriseras av stark heteroskedasticitet.

I den första körningen har vi inte justerat för detta och fått ett standardfel på ~32. I den andra körningen har vi justerat för heteroskedasticitet och fått ett robust standardfel på ~36. Det här påverkar också t-värdet som minskar från 7,00 till 6,35; F-värdet minskar också. Notera dock att regressionslinjen (interceptet och regressionskoefficienten) förblir oförändrad.

(4)

Så när ska man använda robusta standardfel istället för konventionella? Vi använder robusta standardfel åtminstone om dessa skiljer sig på ett betydelsefullt sätt från de konventionella.

Men om skillnaden är marginell så har det förstås ingen praktisk betydelse.2

Logaritmera utfallsvariabeln

Genom att logaritmera utfallsvariabeln kan vi ibland stabilisera feltermsvariansen. Figuren nedan illustrerar varför. Här tittar vi på sambandet mellan antalet skolår och lön. Spridnings- diagrammet bygger på data för 3010 amerikanska löntagare.

2 Varför någonsin använda konventionella standardfel om de robusta alltid är giltiga? Anta att vi använder konventionella standardfel. Om feltermen då är homoskedastisk och normalfördelad så kommer t- statistikan att följa en exakt t-fördelning, dvs. ge oss exakta p-värden.

Med robusta standardfel får vi i detta exempel approximativa p-värden som blir mer pricksäkra ju större samplet är.

(5)

Figuren visar att spridningen i data ökar med antalet skolår. I det här fallet finns det en naturlig förklaring: Lönen ökar inte linjärt med antalet skolår, utan snarare exponentiellt; antalet skolår har alltså en procentuell effekt på lönen. Men det här betyder också att spridningen i data tenderar öka med antalet skolår. Varför? Jo, anta att lönen i snitt ökar med 5 procent för varje extra skolår.

För vissa är lönen kanske någon procentenhet större än predikterat, för andra någon procentenhet lägre. Men sådana procentuella avvikelser kommer absolut sett att synas mer ju högre lönen är (1 procent av 1000 är 10; 1 procent av 10 000 är 100.) Vi kan dock eliminera den här typen av heteroskedasticitet genom att mäta lönen på en logaritmerad skala, vilket vi gjort i figuren nedan. (Nu kanske det ser ut som att spridningen i data fortfarande ökar med antalet skolår, men detta är inte fallet.

Illusionen beror på att vi har fler observationer för personer med många skolår.)

(6)

Viktning för aggregerade data

Viktad regression betyder att man ger olika vikter till olika observationer. Anta att du vill mäta sambandet mellan arbetslöshet och brottslighet och använder data för olika länder i världen. Men ska Andorra verkligen få samma vikt som USA eller Kina? Eller säg att du har data för olika företag och mäter sambandet mellan satsningar på FoU och företagets produktivitet. Men ska Bosses bilfirma verkligen få samma vikt som Microsoft? När vi på det här sättet har aggregerade data så är det inte ovanligt att man väljer att ge olika vikt till olika observationer. Med aggregerade data avses att utfallsvariabeln är ett slags medelvärde (t.ex. antalet brott per 1000 invånare, vinst per anställd).

Exempel: Vi vill studera ojämlikheten inom den svenska skolan.

Spridningsdiagrammet nedan bygger på data för 290 svenska kommuner och beskriver sambandet mellan kommunens medianinkomst och genomsnittligt antal meritpoäng bland elever i årskurs nio, där medianinkomsten mäts på en logaritmerad skala. Nedan ges regressionslinjen med standardfelet inom parentes:

𝑚𝑒𝑟𝑖𝑡𝑝𝑜ä𝑛𝑔̂ = −355 + 47 ∙ ln (𝑚𝑒𝑑𝑖𝑎𝑛𝑖𝑛𝑘𝑜𝑚𝑠𝑡) (7,5)

Då medianinkomsten ökar med en procent så ökar meritpoängen i snitt med 0,47 poäng. Det här är ett signifikant samband (t = 47/7,5 = 6,27; p-värdet ≈ 0,000).

I regressionen nedan har vi istället gett större vikt till kommuner med många niondeklassare: En kommun med 200 nionde-

(7)

klassare har fått dubbelt så stor vikt som en kommun med 100 niondeklassare som i sin tur har fått dubbelt så stor vikt som en kommun med 50 niondeklassare. Det här är ett exempel på en viktad regression (WLS, weighted least squares).

Spridningsdiagrammet nedan illustrerar data, där storleken på en cirkel är proportionerlig mot antalet niondeklassare i den kommunen. Regressionslinjen ges nu av:

𝑚𝑒𝑟𝑖𝑡𝑝𝑜ä𝑛𝑔̂ = −716 + 77 ∙ ln (𝑚𝑒𝑑𝑖𝑎𝑛𝑖𝑛𝑘𝑜𝑚𝑠𝑡) (7,0)

Då medianinkomsten ökar med 1 procent så ökar meritpoängen i snitt med 0,77 poäng. Det här är ett signifikant samband (t = 77/7,0 = 11,0; p-värdet ≈ 0,000).

Många upplever nog intuitivt att viktning är rimligt då vi jobbar med data på kommun- eller landsnivå. Men vad har viktning egentligen med heteroskedasticitet att göra?

Jo, när vi viktar så tänker vi oss att stora kommuner (med många niondeklassare) har mer att berätta om det samband som vi vill mäta. Anta att vi har en liten kommun med bara ett fåtal niondeklassare. Då är det möjligt att alla dessa elever – bara av slumpen – råkar ha höga meritpoäng (även om medianinkomsten skulle vara låg i den kommunen). Eller tvärtom så kanske alla råkar ha låga meritpoäng. För små kommuner kommer det genomsnittliga antalet meritpoäng att variera mer beroende på slumpmässiga tillfälligheter. Om vi däremot har en stor kommun, säg miljontals niondeklassare, så får slumpen inte samma möjlighet att styra utfallet. Vi kan också se detta i data; när vi jämför det genomsnittliga antalet meritpoäng från ett år till ett

(8)

annat så ser vi klart större variation i små kommuner än i stora.

Man kunde på sätt och vis säga att en stor kommun ”talar mera sanning” än en liten. Eller på ekonometrispråk: Felterms- variansen är lägre för stora kommuner än för små. Det här beaktar vi genom att ge större vikt till stora kommuner. På det här viset kan vi få lägre standardfel, dvs. säkrare estimat; vi ger ju större tyngd åt mer ”informativa” kommuner. Detta är också vad som hände i det här exemplet där standardfelet sjönk från 7,5 till 7,0.

När vi på det här sättet använder viktad regression så kommer vi dessutom att få en homoskedastistisk felterm – givet att feltermsvariansen faktiskt sjunker i proportion till antalet niondeklassare i kommunen. Det här antagandet är kanske inte alltid helt realistiskt, men det finns då inget som heller hindrar oss från att kombinera viktning med robusta standardfel.

Det går förstås också bra att inkludera flera oberoende variabler i den här typen av viktade regressioner. Nedan har vi också kontrollerat för antalet niondeklassare i kommunen (mätt på en loggad skala):

References

Related documents

Från att förskolläraren hade ett styrdokument som beskrev att demokratin ska komma till uttryck genom vardaglig handling från förskolläraren (Socialstyrelsen, 1993) så har detta

Då sysselsättningsgraden ökar med en procentenhet så minskar antalet självmord i snitt med 0,25 per hundratusen män.. Eller med andra ord: Då sysselsättningsgraden

Jag har valt att ta mig an mitt material utifrån en jämförande analytisk ingång där jag både tittat på hur de olika områdena var för sig framställs men framför allt fokuserat

Branschfolk och lärare är eniga om att grunderna för yrket är det viktigaste för att uppnå anställningsbarhet. En skillnad är synen på utbildning där endast en från branschen

För- hoppningen är att viktningsmetoden skall vidareutvecklas för att även inkludera miljöpåverkan kopplad till indirekt resursanvändning och viktning av human- och

En större del av eleverna utan profil (70,3 %) trodde inte att de kommer att få användning av delmoment celler i framtiden, i förhållande till eleverna med kulturprofil (40 %), 1-2

bekvämlighetsurval är svårt att generalisera, eftersom det inte säkert går att veta för vilken population stickprovet är representativt. Respondenterna i denna studie kan

Använd denna smiley när du är klar med en uppgift beroende på situationen så kan smileyn även betyda att du undrar vad du ska göra härnäst. Använd denna smiley när du