• No results found

Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA

N/A
N/A
Protected

Academic year: 2021

Share "Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA"

Copied!
16
0
0

Loading.... (view fulltext now)

Full text

(1)

Kapitel 22: KLUSTRADE SAMPEL

OCH PANELDATA

Statistiska tester bygger alltid på vissa antaganden. Är feltermen homoskedastisk? Är den normalfördelad? Dessa antaganden är faktiskt aldrig uppfyllda i praktiken, åtminstone om vi ser på dem med matematikerns stränga ögon. Men vi behöver inte ligga sömnlösa. Normalfördelningsantagandet är bara kritiskt när vi jobbar med små datamaterial (tacka centrala gränsvärdes- satsen!). Och om feltermen är heteroskedastisk så kan vi använda robusta standardfel och kommer då oftast att märka att inget dramatiskt förändrades. Men det finns ett antagande som däremot ofta har stor praktisk betydelse: Antagandet om att vi har dragit ett slumpmässigt sampel.

Varför är det här antagandet så viktigt? Delvis handlar det om att samplet då kan antas likna populationen, åtminstone om vi drar ett tillräckligt stort sampel. Men vi behöver inte heller dra ett slumpmässigt sampel för att det här ska vara fallet; detta gäller också många andra samplingstrategier, till exempel klustrade sampel. Det som däremot skiljer slumpmässigt dragna sampel från klustrade sampel är antagandet om att vi gjort oberoende mätningar. Det kan här vara en poäng att repetera idén om oberoende mätningar:

Den svenska reality-showen FC Z bygger på idén om att nördar är dåliga fotbollsspelare. Programmet går ut på att en känd fotbollsspelare tränar ett gäng ”nördar” och i slutet spelar de en match mot Djurgården. Men är nördar dåliga fotbollsspelare?

Kanske ligger det något i det. Vi har experimenterat med att låta nördar och ”övriga” skjuta mot ett mål på 30 meters avstånd.

Data visar antalet träffar (1) och missar (0):

Nördarna: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1 Övriga: 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0

Bland nördarna har vi 2 träffar av 22. Bland ”övriga” har vi 11 träffar av 22. Detta ser definitivt ut som en signifikant skillnad.

Men låt oss nu säga att bland nördarna var alla skott förutom ett skjutna av Pelle (här utmärkt i rött):

(2)

Nördarna: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1 Övriga: 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0

Vi ser nu att det är fel att påstå att nördar är sämre på fotboll.

Snarare visar experimentet att Pelle är dålig på fotboll. Det här exemplet visar vad som menas med beroende mätningar; att Pelle gjort de första 21 skotten gör dessa mätningar beroende – de hänger ihop.

Många tycker nog intuitivt att det känns fel att behandla detta datamaterial precis på samma sätt som om alla Pelles skott vore skjutna av olika nördar. Men det är inte bara när vi har flera mätningar för en och samma person som problemet uppstår. I det här kapitlet ska vi börja med att fundera över hur man hanterar klustrade sampel; en samplingstrategi som tenderar att generera just beroende mätningar.

(3)

22.1 KLUSTRADE SAMPEL OCH TEST GÄLLANDE

MEDELVÄRDEN

Figuren nedan illustrerar varför vi generellt sett inte kan behandla klustrade sampel på samma sätt som slumpmässigt dragna sampel. Vi kan tänka oss att rutfälten representerar en stad bestående av 25 stadsdelar. Figuren till vänster representerar ett slumpmässigt sampel av stadsborna. I figuren till höger har vi istället slumpmässigt valt ut fem stadsdelar och därefter samlat in data för personerna i de samplade stads- delarna. Detta är alltså ett klusterurval. Bägge samplen består av 60 observationer, men det slumpmässiga samplet är mer representativt för staden i sin helhet. Det är som om det klustrade samplet egentligen innehöll färre observationer än det gör. Om vi inte beaktar detta så blir resultaten från de statistiska testerna missvisande.

Låt oss säga att vi vill mäta genomsnittlig inkomst bland stadsborna. Då vi samplar stadsdelar så kan det hända att vi råkar få med oss en eller ett par stadsdelar där det bara bor rika personer, eller tvärtom, bara fattiga. Eller med andra ord: Vårt estimat (𝑥̅) varierar relativt kraftigt från ett sampel till ett annat beroende på vilka stadsdelar vi råkar sampla. Standardfelet bör reflektera detta, men det sker inte automatiskt. Då vi använder default-funktionerna i statistiska programpaket så behandlar programmet data som om det vore slumpmässigt draget;

standardfelet blir då generellt sett för litet.

Det kan vara värt att notera att det inte är något fel på vårt estimat (𝑥̅). Stickprovsmedelvärdet är fortfarande en väntevärdesriktig estimator, givet att vi samplat stadsdelarna slumpmässigt.

(4)

Exempel: Vi har en stad och från denna samplar vi slumpmässigt tio stadsdelar. Sen samlar vi in inkomstdata för personerna som bor i dessa. Vissa stadsdelar är större än andra, men i genomsnitt bor det 20 personer i varje stadsdel. Totalt består samplet alltså av 200 personer. Nedan visas ett utdrag av data:

id

(stadsdel) id

(inom stadsdelen) Inkomst

1 1 2575

1 2 2871

1 3 2618

... ... ...

1 24 3008

2 1 1788

2 2 2462

2 3 1843

... ... ...

2 23 2107

10 1 2250

10 2 1734

10 3 2089

... ... ...

10 29 1877

Vi vill nu estimera genomsnittlig inkomst i staden (µ). I populationen gäller att µ = 2000 (detta är ett fiktivt dataset). Men hur ser det ut i samplet? Tabellen nedan visar resultatet:

Genomsnittsinkomsten är ~2103 euro och konfidensintervallet går från ~2031 till ~2176 euro. Som du märker så innehåller konfidensintervallet inte sanningen (µ = 2000). Det här beror inte bara på slumpen; problemet är att vi ignorerat klustringen.

Det enklaste sättet att hantera klustrade sampel är att beräkna något som kallas för kluster-robusta standardfel eller klustrade standardfel.

(5)

Klustrade standardfel

Ett klustrat standardfel är ett standardfel som beaktar att observationerna inom ett kluster korrelerar. I det här exemplet vill vi beakta att inkomsterna inom en stadsdel korrelerar1. Nedan visas resultatet då vi använder klustrade standardfel i STATA:

Vi kan jämföra detta med det förra resultatet. Medelvärdet är samma (~2103) men standardfelet har mer än fördubblats (från

~37 till ~84). Detta ger oss ett bredare konfidensintervall som nu innefattar sanningen (µ = 2000) precis som vi skulle förvänta oss.

Klustrade standardfel är ett sätt att hantera klustringen. En annan populär metod är det som kallas för slumpeffekts- estimatorn:

Slumpeffekter (eng. random effects)

Utskriften nedan visar resultatet då vi använder det som kallas för slumpeffekts-estimatorn.2 Här har vi kört en regression med bara ett intercept och inga oberoende variabler; interceptet blir då estimatet för µ.

1 Tänk dig att vi samplar en massa stadsdelar och två personer från varje stadsdel. Sen ritar vi upp data i ett spridningsdiagram där vi lägger den ena personens inkomst på x-axeln och den andras på y-axeln.

Hur skulle ett sådant spridningsdiagram se ut? Jo, tänk dig nu att vissa stadsdelar är rika och andra fattiga. I de rika stadsdelarna bor det mestadels rika personer och i de fattiga mestadels fattiga. Vi skulle då se en positiv korrelation i vårt spridningsdiagram: Om en person är rik så gäller detta sannolikt också den andra, och tvärtom.

2 Det finns egentligen inget riktigt etablerat namn på svenska, men

”slumpeffekts-estimatorn” används ibland. Det engelska namnet är betydligt kändare: Random effects estimator

(6)

Estimatet ligger på ~2091 euro vilket skiljer sig lite från tidigare.

Varför? Jo, slumpeffekts-estimatorn viktar observationerna annorlunda än ett enkelt medelvärde. En stor stadsdel får större tyngd än en liten, men korrelationen i inkomster inom stadsdelar spelar också roll. Låt oss fundera lite mer på vad det här betyder.

I tabellen ovan ser vi en korrelationskoefficient (rho = 0,43).

Denna visar att 43 procent av variationen i inkomster kan förklaras av klyftorna mellan olika stadsdelar. För att se varifrån den här siffran kommer så är det användbart att utgå från en modell som beskriver data:

𝐼𝑛𝑘𝑜𝑚𝑠𝑡𝑖𝑗= 𝜇 + 𝑣𝑖𝑗, 𝑑ä𝑟 𝑣𝑖𝑗= 𝑢𝑖+ 𝜀𝑖𝑗 𝑑ä𝑟 𝑖 = 1, 2, … , 10 och 𝑗 = 1, 2, … , 𝐽𝑖

i är ett index för stadsdel (stadsdel 1, 2, ...., 10) och j är ett index för individer (med 20 personer från en stadsdel så har vi j = 1, 2, ..., 20 för den stadsdelen). Genomsnittsinkomsten ligger på 2000 euro (𝜇 = 2000) och 𝑣𝑖𝑗 är feltermen som visar hur mycket en persons inkomst avviker från 2000. Vi kan dela in feltermen i två komponenter; en som är specifik för varje stadsdel (u) och en som är specifik för varje individ inom den stadsdelen (𝜀). Anta att en viss stadsdel har en genomsnittsinkomst på 2100 euro och att en viss person från denna stadsdel tjänar 2150 euro. För denna person har vi att u = 100 och 𝜀 = 50.

(7)

Man kan nu visa att korrelationen i inkomster mellan två slumpmässigt utvalda personer från samma stadsdel ges av3:

𝐶𝑜𝑟𝑟(𝐼𝑛𝑘𝑜𝑚𝑠𝑡𝑖𝑎, 𝐼𝑛𝑘𝑜𝑚𝑠𝑡𝑖𝑏) = 𝐶𝑜𝑟𝑟(𝑣𝑖𝑎, 𝑣𝑖𝑏) = 𝜎𝑢2 𝜎𝑢2+ 𝜎𝜀2 Här har vi indexerat den första personen med a och den andra med b. 𝝈𝒖𝟐 är variansen i inkomster mellan stadsdelar; 𝝈𝜺𝟐 är variansen i inkomster inom stadsdelar. Den här korrelationen beskriver hur stor andel av den totala variationen i inkomster (𝜎𝑢2+ 𝜎𝜀2) som kan förklaras av variationen mellan stadsdelar (𝜎𝑢2). Man kallar detta för inomklasskorrelationen (engelska:

intraclass correlation, ICC). I det här exemplet var inomklasskorrelationen 0,43:

𝐶𝑜𝑟𝑟(𝑣̂𝑖𝑎, 𝑣𝑖𝑏)= 𝑠𝑢2

𝑠𝑢2+𝑠𝜀2= 345,62

345,62+396,32≈ 0,43

Den här korrelationen lär oss om hur inkomsterna är fördelade över invånarna i den här staden. Finns det stora klyftor i inkomster mellan stadsdelar (Manhattan kontra Bronx) eller hittas variationen främst mellan individer? Det finns här två extremfall: Inomklasskorrelationen är 0 och inomklass- korrelationen är 1.4 Om inomklasskorrelationen är 0 så betyder det att det inte finns några skillnader i inkomster mellan olika

3 Det här uttrycket gäller givet vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel stadsdelar (iid), och att personerna från en sådan stadsdel kan betraktas som ett slumpmässigt urval (iid) där variansen i inkomster är lika stor för varje stadsdel.

4 Inomklasskorrelationen kan inte bli negativ; vi beräknar ju den som en kvot mellan varianser.

(8)

stadsdelar. Vårt ”slumpeffekts-estimat” blir då ett enkelt stickprovsmedelvärde. Om inomklasskorrelationen är 1 så betyder det att alla individer från samma stadsdel har identiska inkomster. Vårt ”slumpeffekts-estimat” blir då inkomsten för en genomsnittlig stadsdel.

Varifrån kommer namnet (slumpeffekter)? Jo, med en slumpeffekt så avser man den stadsdelsspecifika komponenten av feltermen, dvs. ui i modellen nedan:

𝐼𝑛𝑘𝑜𝑚𝑠𝑡𝑖𝑗= 𝜇 + 𝑣𝑖𝑗, 𝑑ä𝑟 𝑣𝑖𝑗= 𝑢𝑖+ 𝜀𝑖𝑗

När vi samplar en stadsdel så är det slumpen som avgör om stadsdelen i fråga är rik eller fattig beroende på vilken stadsdel vi råkar sampla. Därför är 𝑢𝑖 en slumpmässig avvikelse från medelvärdet (𝜇) eller en slumpeffekt.5

5 För att vara korrekt så är slumpeffekts-estimatorn egentligen en familj av estimatorer. Det finns olika sätt att beräkna inomklasskorrelationen vilket i sin tur kommer att påverka estimatet för 𝜇. En sådan metod förkortas GLS (från engelskans generalized least squares). En annan sådan metod förkortas MLE (från engelskans maximum likelihood estimator). Regressionsutskriften ovan visar att vi använt GLS vilket är default-funktionen i STATA.

(9)

22.2 REGRESSIONER MED KLUSTRADE SAMPEL

Innan vi ser på hur man kan köra regressioner med klustrade sampel så kan det vara en idé att göra en uppdelning mellan två typer av regressionsmodeller: behandling på gruppnivå och behandling på individnivå. Vi ser bäst skillnaden genom ett exempel.

Exempel: Är erfarna lärare bättre? Vi vill studera denna fråga och samplar 100 klasser i årskurs nio, sedan samlar vi in data för eleverna i de samplade klasserna. För varje elev mäter vi resultatet på ett nationellt matteprov samt mattelärarens arbetserfarenhet. I regressionsmodellen nedan så är erfaren en dummy som antar värdet 1 om läraren har minst fem års erfarenhet och annars värdet 0. Utfallsvariabeln (poäng) mäter elevens resultat på matteprovet. i indexerar klasser och j elever.

𝑝𝑜ä𝑛𝑔𝑖𝑗= 𝛽0+ 𝛽1𝑒𝑟𝑓𝑎𝑟𝑒𝑛𝑖+ 𝑣𝑖𝑗 𝑑ä𝑟 𝑣𝑖𝑗 = 𝑢𝑖+ 𝜀𝑖𝑗 I det här fallet mäts behandlingen på gruppnivå; alla elever i samma klass har samma lärare; det finns ingen variation i lärarens erfarenhet inom klasser (därför har vi bara ett index, i, för den här variabeln). Men anta istället att syftet är att mäta om det finns en könsskillnad i matteresultat:

𝑝𝑜ä𝑛𝑔𝑖𝑗 = 𝛽0+ 𝛽1𝑓𝑙𝑖𝑐𝑘𝑎𝑖𝑗+ 𝑣𝑖𝑗 𝑑ä𝑟 𝑣𝑖𝑗 = 𝑢𝑖+ 𝜀𝑖𝑗

Behandlingen mäts nu på individnivå, dvs. det finns både flickor och pojkar inom en och samma klass.

Behandling på gruppnivå

Då behandlingen mäts på gruppnivå så använder vi samma metoder som tidigare; OLS med klustrade standardfel eller slumpeffekts-estimatorn.

Exempel forts: Är erfarna lärare bättre? Tabellen nedan visar resultatet då vi använder (1) OLS med konventionella standardfel, (2) OLS med klustrade standardfel och (3) slumpeffekts-estimatorn (RE).

(10)

(1) (2) (3)

VARIABLER OLS OLS +

klustrat

RE

Erfaren 6.967*** 6.967** 7.513***

(0.831) (2.739) (2.420)

Intercept 69.00*** 69.00*** 68.31***

(0.707) (2.418) (2.054)

Observationer 1,500 1,500 1,500

R2 0.045 0.045

Antal klasser 100

Standardfel inom parenteser

*** p<0.01, ** p<0.05, * p<0.1

Som du ser så är estimaten ungefär lika stora i alla tre kolumner (och identiska i kolumn 1 och 2). Den stora skillnaden ligger i standardfelen; dessa är på tok för små då vi använder OLS med konventionella standardfel (1).

Hur tolkar vi estimaten? Estimaten tolkas på samma sätt oavsett estimator: Matteresultatet är i snitt ~7 poäng högre då läraren är erfaren. Slumpeffekts-estimatorn ger dock ett lite annorlunda estimat vilket beror på viktningen.

Inget hindrar oss här från att kontrollera för andra x-variabler. I tabellen nedan visas resultaten då vi kontrollerat för ln(inkomst) (genomsnittlig inkomst i kommunen, mätt på en loggad skala) och elever (antalet elever på klassen). Vi har också inkluderat två variabler mätta på elevnivå: flicka (en dummy för flickor) och betyg (elevens snittbetyg i andra ämnen än matematik). Återigen blir de konventionella standardfelen alldeles för små, åtminstone för de variabler som mäts på klassnivå.

(11)

(1) (2) (3)

VARIABLER OLS OLS +

klustrat

RE

Klassnivå:

Erfaren 3.471*** 3.471*** 3.407**

(0.643) (1.215) (1.357)

Ln(inkomst) 27.65*** 27.65*** 28.10***

(0.861) (2.690) (1.859)

Elever -0.164** -0.164 -0.136

(0.0726) (0.180) (0.152) Elevnivå:

Flicka 0.551 0.551 0.309

(0.568) (0.565) (0.508)

Betyg 2.825*** 2.825*** 2.787***

(0.409) (0.335) (0.365)

Intercept -157.9*** -157.9*** -161.3***

(7.203) (20.66) (14.07)

Observationer 1,500 1,500 1,500

R2 0.445 0.445

Antal klasser 100

Standardfel inom parenteser

*** p<0.01, ** p<0.05, * p<0.1

Låt oss titta närmare på resultatet från modellen som använder slumpeffekter (RE). I tabellen nedan har vi estimerat tre modeller: (1) En modell som bara innehåller ett intercept, (2) en modell som inkluderar alla variabler på klassnivå och (3) en modell som dessutom inkluderar kontrollvariablerna på elevnivå.

(12)

(1) (2) (3)

VARIABLES RE RE RE

Klassnivå:

Erfaren 3.478** 3.407**

(1.357) (1.357)

Ln(inkomst) 27.90*** 28.10***

(1.860) (1.859)

Elever -0.126 -0.136

(0.152) (0.152) Elevnivå:

Flicka 0.309

(0.508)

Betyg 2.787***

(0.365)

Intercept 73.72*** -138.9*** -161.3***

(1.133) (13.77) (14.07)

Observations 1,500 1,500 1,500

Antal klasser ICC

100 0.56

100 0.23

100 0.24 Standardfel inom parenteser

*** p<0.01, ** p<0.05, * p<0.1

Notera att inomklasskorrelationen (ICC) varierar mellan specifi- kationerna. I den första modellen (1) är inomklasskorrelationen 0,56: 56 procent av variationen i poäng kan förklaras av skillnader mellan klasser och resten förklaras av skillnader mellan elever som tillhör samma klass.

I nästa kolumn (2) inkluderar vi de oberoende variablerna som mäts på klassnivå. Inomklasskorrelationen sjunker nu till 0,23;

efter att vi inkluderat lärarens erfarenhet, hur rik kommunen är och antalet elever i klassen så kan 23 procent av den resterande variationen i poäng förklaras av skillnader mellan klasser. Ju fler variabler vi inkluderar på klassnivå desto lägre blir inomklasskorrelationen, dvs. vi har då förklarat varför vissa klasser klarar sig bättre än andra och då kvarstår mindre övriga svängningar mellan klasserna.

I den sista kolumnen (3) har vi inkluderat kontrollvariablerna som mäts på elevnivå vilket här gör att inomklasskorrelationen återigen ökar marginellt (från 0,23 till 0,24).

Inomklasskorrelationen beskriver alltså hur stor andel av den oförklarade variationen i antalet poäng som kan härledas till

(13)

skillnader mellan klasser kontra skillnader mellan elever inom samma klass.

Låt oss ännu se på hur resultatet från den sista regressionen (3) kan se ut i ett statistiskt programpaket (STATA):

Från regressionsutskriften ser vi att regressionsmodellen har signifikant förklaringsstyrka: Wald chi2 = 319,19; p-värdet = 0,000. Wald chi2 är alltså motsvarigheten till F-testet då vi använder OLS.

Vi ser också att antalet elever i klassen inte har signifikant effekt på poängresultatet: z = -0,90; p-värdet = 0,371. Z-värdet är alltså motsvarigheten till t-värdet då vi använder OLS.

[Notering: Data från exemplet ovan är fejkat.]

Klustrade standardfel eller slumpeffekts-estimatorn?

Vi har sett två olika metoder för att hantera klustring: OLS med klustrade standardfel och slumpeffekts-estimatorn. Så vilken metod är bättre? I praktiken har det sällan någon större betydelse. En fördel med klustrade standardfel är att de samtidigt hanterar eventuell heteroskedasticitet. Slumpeffekts- estimatorn å andra sidan är generellt sett effektivare, vilket betyder att vi tenderar få något mer träffsäkra estimat med denna metod. Men det finns heller inget som hindrar oss från att kombinera bägge metoderna, dvs. använda slumpeffekts-

(14)

estimatorn tillsammans med klustrade standardfel. Detta kan ses som ett sätt att ”täta igen alla möjliga hål”. Vi använder slumpeffekts-estimatorn som potentiellt är effektivare än OLS, men om våra antaganden om feltermen inte riktigt stämmer så hanteras detta av de klustrade standardfelen.

Behandling på observationsnivå – fixa effekter

Om behandlingen däremot sker på observationsnivå så finns det ytterligare ett tredje sätt att hantera klustringen: Fixa effekter.

Exempel forts: Anta i exemplet ovan att vårt mål är att mäta könsskillnaden i matteresultat:

𝑝𝑜ä𝑛𝑔𝑖𝑗 = 𝛽0+ 𝛽1𝑓𝑙𝑖𝑐𝑘𝑎𝑖𝑗+ 𝑣𝑖𝑗 𝑑ä𝑟 𝑣𝑖𝑗 = 𝑢𝑖+ 𝜀𝑖𝑗

x-variabeln av intresse (flicka) mäts nu på elevnivå. Ett alternativt sätt att hantera klustringen är då att estimera en regression med klassfixa effekter; vi inkluderar då en dummy- variabel för varje klass, vilket i det här fallet betyder 99 dummyvariabler (där en av klasserna blir referens):

𝑝𝑜ä𝑛𝑔𝑖𝑗 = 𝛽0+ 𝛽1𝑓𝑙𝑖𝑐𝑘𝑎𝑖𝑗+ 𝑘𝑙𝑎𝑠𝑠𝑓𝑖𝑥𝑎 𝑒𝑓𝑓𝑒𝑘𝑡𝑒𝑟 + 𝜀𝑖𝑗 Nedan visas resultatet i STATA:

Koefficienten för flicka är ~0,4: Flickor snittar ~0,4 poäng högre än pojkar på matteprovet, men skillnaden är inte signifikant (t = 0,70, p-värdet = 0,481). (Även om STATA inte skriver ut

(15)

klasseffekterna i regressionsutskriften, så har de ändå tagits med.)

I regressionen nedan har vi ännu inkluderat de andra oberoende variablerna: Om läraren är erfaren eller inte, hur rik kommunen är (linkomst), antalet elever på klassen och elevens genomsnittliga betyg i andra ämnen:

Notera här att STATA slänger bort tre x-variabler: erfaren, linkomst och elever. Det här är alla sådana variabler som mäts på klassnivå. Varför har STATA slängt dessa? Jo, vi har ju kontrollerat för vilken klass en elev går i. När vi mäter effekten av att vara flicka så betyder det att vi ställer oss frågan: Om jag jämför personer som går i samma klass, ser jag då att flickor i snitt presterar bättre eller sämre än pojkar? Och när vi mäter effekten av att ha en erfaren lärare så ställer vi oss frågan: Om jag jämför personer som går i samma klass, ser jag då att de med en erfaren lärare klarar sig bättre eller sämre än de med en oerfaren? Men det här blir ju en omöjlig fråga att besvara – alla som går i samma klass har samma lärare! Därför kan vi inte mäta den här effekten, eller effekten av någon sådan variabel som har samma värde för alla som går i samma klass. Det här är ett exempel på det som kallas för perfekt multikollinearitet: Vi kan inte identifiera en viss effekt eftersom det inte finns någon variation i den variabeln, efter att vi kontrollerat för en eller flera andra variabler. I det här

(16)

exemplet finns det, till exempel, ingen variation i antalet elever i klassen då vi jämför elever från samma klass.

Är det då ett problem att vi inte kan kontrollera för erfaren, linkomst och elever? Nej. Genom att inkludera klassfixa effekter så kontrollerar vi ändå indirekt för alla dessa variabler: Om vi jämför elever från samma klass så jämför vi samtidigt elever med samma lärare, elever som kommer från lika rika kommuner och som går i lika stora klasser. Vi kontrollerar alltså för allt sådant som är gemensamt för alla elever som går i samma klass. Det här är också den största fördelen med att använda just fixa effekter:

Vi kontrollerar då ”automatiskt” för allt sådant som är konstant inom klasser. Eller med andra ord: Vi utnyttjar bara variationen inom klasser. Det här är också anledningen till att fixa effekter är populärt när man jobbar med den här typen av data.

Finns det då någon nackdel med att använda fixa effekter? Ja, ibland kan kostnaden bli ett stort standardfel. Anta i det här exemplet att det bara finns lite variation i kön inom klasser. Det här knappast fallet i Finland, men i många andra länder är det vanligt med könssegregerade klassrum. I det fallet skulle vi antagligen få ett stort standardfel: Det finns helt enkelt inte särskilt mycket variation i kön inom klassrummen (och det är ju den variationen vi utnyttjar när vi mäter könsskillnaden i matteresultat). I så fall kan man argumentera att slumpeffekts- estimatorn eller OLS med klustrade standardfel är att föredra.

Det går också bra att kombinera fixa effekter med klustrade standardfel. På så vis får vi ett standardardfel som dessutom hanterar eventuell heteroskedasticitet.

22.3 ATT ANVÄNDA GRUPPEN SOM SIN EGEN

KONTROLL

-

22.4 PANELDATA

-

References

Related documents

Det som är förtydligat i lagen är till exempel att rektor skyndsamt ska utreda om en elev behöver särskilt stöd och att stödet ska ges utifrån elevens behov och i den

Solvang, 1991, ss. Då vår studie, vilken utgår från det fenomenografiska perspektivet, syftar till att undersöka hur några grundskollärare uppfattar begreppet inkludering samt

Ställs en heterogen skola med hög andel elever med annan etnisk bakgrund och socioekonomiskt svag bakgrund mot en homogen skola där den stora majoriteten av eleverna har

Regeringen har, den 12 januari 2017, uppdragit åt Trafikverket att snarast vidta åtgärder för att i egen regi organisera och bedriva verksamhet för.. leveransuppföljning och

Regeringen har gett Trafikverket i uppgift att vita åtgärder för att organisera och bedriva manuell underhållsbesiktning i egen regi mot bakgrund av att staten behöver ökad kunskap

Trafikverket har hittills inte funnit att det förelegat grund för att vare sig häva något kontrakt eller utesluta leverantörer från att delta i upphandling av baskontrakt väg –

Om det inte är möjligt att skifta strömavtagare, bör lokföraren samråda med eldriftledare och tågklarerare innan fordonet får fortsätta till närmsta lämpliga driftplats..

Då kan målvakten rulla ut bollen eller spela bollen till närmaste medspelare som får chansen att vända upp och passa bollen vidare, innan de hamnar under press från attackerande