Kapitel 19: NATURLIGA EXPERIMENT OCH INSTRUMENT

(1)

Kapitel 19: NATURLIGA

EXPERIMENT OCH INSTRUMENT

Är höga familjeinkomster ett skydd mot panikångest bland barn?

Vi har studerat ett hundratal barn och funnit att panikångest är vanligare bland barn till fattiga än bland barn till rika. Betyder det här att höga inkomster skyddar mot panikångest? Nej, inte nödvändigtvis; det finns andra möjliga förklaringar till skillnaden. Även om vi bortser från effekten av pengarna så lär det finnas systematiska skillnader i familjeegenskaper och uppväxt- förhållanden mellan barn till fattiga och rika. Så hur ska vi kunna veta om pengarna i sig hjälper? En möjlighet är att kontrollera för de bakomliggande variablerna. Detta kräver förstås att vi vet vilka de är, och att vi har data för dem. I praktiken har vi sällan tillgång till den typen av information, utan vi tvingas spekulera.

Det finns inte heller någon statistiskt metod för att testa ifall vi kontrollerat för rätt variabler. Det optimala vore därför att göra ett randomiserat experiment där vissa familjer lottas ut och får en rejäl inkomstökning; senare kommer vi tillbaka och jämför förekomsten av panikångest mellan grupperna. Men detta kan vi naturligtvis inte göra i praktiken; det skulle ses som oetiskt och dessutom bli extremt dyrt. Men vänta lite nu. Detta är ju exakt vad lottobolagen gör varje lördag. I princip kunde vi alltså utnyttja lottobolagen istället för att lotta själva.

När vi låter någon annan ta över rollen som lottdragare så har vi ett naturligt experiment. Lottdragaren kan vara en politiker, ett företag eller naturliga omständigheter som gör att individer tilldelas olika behandlingar på ett ”slumpartat sätt”. Ett naturligt experiment är alltså en observationell studie, men den har karaktären av ett randomiserat experiment; det finns någon form av ”naturlig lottning” som vi kan utnyttja för att göra mer trovärdiga jämförelser. För att få en bättre känsla för hur naturliga experiment kan gå till så ska vi se på några praktiska exempel i nästa avsnitt. I avsnitt 20.2 lär vi oss en statistisk teknik – instrumentvariabel-metoden – som kan användas för att jobba med den här typen av data.

(2)

19.1 NATURLIGA EXPERIMENT, NÅGRA EXEMPEL

År 1884 dog 616 londonbor i kolera under loppet av några månader. John Snow var en vetenskapsman som ville veta varför.

Genom att tala med folk på gatan så kunde han skapa sig en hypotes: Det hade med vattnet att göra. Den här hypotesen visade sig vara riktig; hushåll som fick sitt vatten från Southwark

& Vauxhalls vattenkompani drabbades i betydligt större utsträckning än de som fick sitt vatten från konkurrenten. Det visade sig att Southwark & Vauxhall tog sitt vatten från en del av Themsen som var förorenat av avloppsvatten.

På vilket sätt var detta ett naturligt experiment? För att se varför så kan vi börja med att fundera på hur ett randomiserat experiment hade sett ut; man hade då låtit slumpmässigt utvalda personer dricka dåligt vatten och andra bra. På sätt och vis var detta också vad som hände; utifrån gamla och mer eller mindre godtyckligt fattade beslut så fick vissa hushåll vatten från Southwark & Vauxhall medan andra fick vatten från konkurrenten. Snow skrev: ”Each company supplies both rich and poor, both large houses and small; there is no difference either in the condition or occupation of the persons receiving the water of the different Companies. […] It is obvious that no experiment could have been devised which would more thoroughly test the effect of water supply on the progress of cholera than this.”

Det är inte ovanligt att forskare använder just geografiska gränser i naturliga experiment. Ett annat exempel kommer från Card & Krueger (1994). De ställde sig följande fråga: Ökar arbets- lösheten om minimilönerna höjs? Ett randomiserat experiment skulle här kunna innebära att man höjer minimilönerna, men låter den nya lagen gälla bara slumpmässigt utvalda företag.

Sedan jämför man trenden i antalet nyrekryteringar mellan företagen. Men så här orättvisa lagar ser man väl aldrig i verklig- heten? Nja, kanske inte, men det finns situationer som kommer väldigt nära. Card & Krueger utnyttjade att minimilönerna höjdes i New Jersey. Sedan jämförde de trenden i antalet nyrekryteringar bland snabbmatsföretag som låg vid gränsen New Jersey-Pennsylvania. De fann att höjningen av minimilönerna inte ökade arbetslösheten; snarare var det tvärtom.

(3)

Andra studier utnyttjar istället nyckfullheten hos vädret. Miguel, Satyanath, and Sergenti (2004) studerade ekonomins effekt på inbördeskrig i Afrika. De kunde då utnyttja ekonomiska chocker styrda av vädret. Ett annat exempel kommer från Sverige. I april år 1986 exploderade kärnkraftverket i Tjernobyl och skickade ut radioaktivt nedfall över Europa. N.N. () tittade på konsekvenserna för svenska barn; de ville veta om effekten av Tjernobyl kunde ses i skolbetygen. De kunde här utnyttja två sorters variation i graden av exponering. För det första, radioaktivt nedfall varierar med regnmängd; områden som drabbades av mycket regn fick högre doser. För det andra, barn som är i tidigt fosterstadium är känsligare inför radioaktivitet.

Man kunde då jämföra barn som råkade vara i fosterstadiets mest kritiska månader med sådana som var något yngre eller äldre. Man fann att Tjernobylkatastrofen fått signifikanta och negativa effekter på skolbetyg.

Låt oss jämföra det senaste exemplet med ett randomiserat experiment:

- Randomiserat experiment: Lotten avgör graden av expo- nering.

- Naturligt experiment: Vädret och födelsemånad avgör graden av exponering.

Man säger här att man utnyttjar exogen variation i graden av exponering om selektionen (vädret/födelsemånaden) inte korrelerar med utfallet, förutom genom x. Barn från regniga områden ska alltså ha lika bra betyg som barn från soliga områden – om det inte vore för Tjernobylkatastrofen. Barn som var i fosterstadiet under de mest kritiska månaderna ska ha lika bra betyg som andra barn – om det inte vore för Tjernobyl- katastrofen.

Motsatsen till exogen variation är endogen variation. Detta skulle till exempel vara fallet om barn från områden som drabbades av mera regn hade haft sämre betyg oavsett. Eller om barn som var i fosterstadiet under de mest kritiska månaderna hade haft sämre betyg än andra barn även om Tjernobyl- katastrofen aldrig hade inträffat.

Enbart då vi utnyttjar exogen variation i x så kan vi påstå att vi mäter en kausal effekt. Ett randomiserat experiment är utformat just för att se till att detta är fallet; lotten avgör ju vilken behandling du får, men lottens utfall korrelerar inte med y

(4)

förutom genom behandlingen. När vi har ett naturligt experiment är det sällan lika självklart att variation i x är exogen. Däremot kan det ibland finnas tillfälle att testa detta: I studien med Tjernobylkatastrofen kunde vi till exempel använda data för nästa årgång av barn där ingen drabbats av Tjernobyl: Ser vi fortfarande att betyget varierar med väder och födelsemånad?

Om inte så har vi ett övertygande argument för att påstå att vi mätt den kausala effekten. Man kallar detta för ett falsifieringstest, dvs. man mäter effekten i ett annat sampel där det inte ska finnas någon effekt givet att variation i x är exogen.

(5)

19.2 INSTRUMENT

Stannar tonårspojkar i växten om de börjar röka? Vi har samlat in data för tusentals pojkar i 18-årsåldern varav en tredjedel röker.

Rökarna är i genomsnitt 4 centimeter kortare än icke-rökarna med ett standardfel på 0,1 centimeter – en klart signifikant skillnad. Betyder det här att man blir kortare av att röka? Nej, inte nödvändigtvis; det kan finnas andra förklaringar till skillnaden i längd: Rökare kanske oftare kommer från arbetar- familjer som i snitt är kortare; rökare kanske generellt har en osundare livsstil vilket också påverkar längden; kanske rökning är vanligare i vissa delar av landet och att längd varierar mellan landsdelar. Det finns många möjliga förklaringar till skillnaden i längd mellan grupperna. För att besvara den kausala fråge- ställningen så ska vi istället ta en helt annan infallsvinkel:

År 1995 ändrades lagen i Finland. Från att man kunnat köpa cigaretter som 16-åringar så måste man nu vara 18 år gammal.

Pojkarna i vårt datamaterial föddes år 1978/1979; vissa kunde lagligt köpa cigaretter då de fyllde 16 medan andra måste vänta till 18. Detta hade en effekt på rökningen: Bland dem som kunde köpa cigaretter redan vid 16 så blev 38 procent rökare; bland övriga var siffran 28 procent. Det är en skillnad på 10 procentenheter. Vi kan också se en skillnad i längd mellan grupperna:

Pojkarna som kunde köpa cigaretter vid 16 blev i genomsnitt 0,25 centimeter kortare än de som fick vänta till 18.

Standardfelet för skillnaden är 0,1 – en signifikant skillnad.

Slutsats: Då andelen rökare ökar med 10 procentenheter så minskar längden i snitt med 0,25 centimeter.

Det här är ett exempel på ett naturligt experiment där selektionen är din födelsedag – när du råkade födas har en effekt på chansen att du blir rökare. Men notera att selektionen inte styr ditt öde, långt därifrån: Många av dem som fyllde 16 efter reformen blev rökare i alla fall och många av dem som fyllde 16 före reformen blev rökfria. Det är i den här typen av situationer som vi använder instrumentvariabel-metoden (IV-metoden).

Vi ser bäst vad denna går ut på genom att fortsätta vårt exempel.

Vi sa att då andelen rökare ökar med 10 procentenheter så minskar längden i snitt med 0,25 centimeter. Så vad betyder det här? Hur stor är då effekten av rökning på längd? Om vi kan anta att hela längdskillnaden mellan grupperna (0,25 centimeter) drivs av att det finns 10 procentenheter fler rökare i ena

(6)

gruppen, så betyder det att rökning ger en längdminskning på 2,5 centimeter. Detta estimat (2,5 centimeter) är instrument- variabel-estimatet. Notera att detta är ett betydligt lägre än den råa skillnaden i längd mellan rökare och icke-rökare (4 centimeter).

I det här exemplet kallar vi reformen för ett instrument;

reformen är ett instrument för att isolera rökningens kausala effekt på längden. Mer konkret så är instrumentet i detta exempel en dummy-variabel som indikerar om du fick köpa cigaretter vid 16 års ålder eller inte.

Om du använder ett statistiskt programpaket så är det oftast enkelt att få fram estimat med hjälp av IV-metoden. Det räcker ofta med att du anger vilken variabel som är x-variabel (rökning);

vilken som är utfallsvariabel (längd) och vilken variabel som är instrumentet. Nedan kallas instrumentet efter – en dummy som antar värdet 1 för dem som fyllde 16 efter reformen och värdet 0 för övriga:

Vi kan också komma fram till det här estimatet genom att köra regressioner i två steg:

1. Estimera effekten av instrumentet på x-variabeln. Spara prediktionerna, 𝑥̂.

Estimerar effekten av reformen (efter) på rökning:

𝑟ö𝑘𝑎𝑟𝑒̂ = 0,38 − 0,10 ∙ 𝑒𝑓𝑡𝑒𝑟

Sparar prediktionerna (variabeln 𝑟ö𝑘𝑎𝑟𝑒̂ ) som blir 0,38 för dem som fick köpa tobak vid 16 års ålder och 0,28 för övriga.

2. Estimera effekten av 𝑥̂ på utfallsvariabeln.

(7)

Estimerar effekten av 𝑟ö𝑘𝑎𝑟𝑒̂ på längd. Estimatet blir ungefär - 2,5:

Notera att detta är exakt samma estimat som tidigare. Av den här orsaken kallar vi också IV-metoden för tvåstegs-minsta- kvadratmetoden. Det engelska namnet är kanske kändare; two- stage least squares, 2SLS.

Det kan här vara värt att nämna att även om estimatet blir korrekt då man kör regressioner i två steg, så blir standardfelet felaktigt. Du kan också se att standardfelet skiljer sig mellan tvåstegsproceduren (1,179) och programmets inbyggda 2SLS- procedur (1,117).

Giltiga instrument

IV-metoden kan hjälpa oss att lösa ett mycket vanligt problem:

Hur besvarar vi kausala frågor med hjälp av observationella data? Det är därför förståeligt att detta är en metod som vuxit i popularitet. Men det är inte någon standardlösning som vi alltid kan använda oss av; i praktiken kan det vara svårt att hitta giltiga instrument.

Ett instrument är giltigt om det skapar exogen variation i x- variabeln. Eller med andra ord: Ett instrument är giltigt om det har en effekt på utfallsvariabeln, men enbart genom x- variabeln. Så är reformen ett giltigt instrument för rökning? Ja, givet att längden ökat efter reformen men enbart på grund av minskad rökning. Säg att pojkarna som fyllde 16 efter reformen blev 0,25 centimeter längre av någon annan orsak, till exempel en liberalare inställning till tillväxthormoner inom hälsovården. I så fall kommer IV-metoden inte besvara den fråga vi hade tänkt oss;

instrumentet är då ogiltigt.

(8)

Ibland går det dock att rädda lite ”halvtaskiga” instrument. Säg att pojkarna som fyllde 16 efter reformen blev 0,25 centimeter längre både på grund av minskad rökning men också på grund av en liberalare inställning till tillväxthormoner inom hälsovården.

Om vi har tillgång till data för användningen av tillväxthormoner så kan vi rädda instrumentet; vi kunde då kontrollera för att användningen av tillväxthormoner ökat och instrumentet skulle återigen vara giltigt. Rent tekniskt skulle detta innebära att vi lägger in en kontrollvariabel för användningen av tillväxt- hormoner i både första och andra steget. Denna strategi är vanlig; då man använder instrument brukar man dessutom kontrollera för alla relevanta variabler som man har data för.

Det kan också vara bra att tillägga att det inte finns något krav på att instrumentet ska ha en kausal effekt på x-variabeln. Anta att reformen egentligen varit verkningslös; att rökningen minskade berodde istället på tidsandan (det slutade vara tufft att röka). Det här är inte ett problem; så länge ökningen i längd beror på minskad rökning så spelar det ingen roll om det var reformen, tidsandan eller något helt annat som drev utvecklingen.

Lokal genomsnittlig behandlingseffekt, LATE

Om vi har ett giltigt instrument så får vi väl ett giltigt estimat för den kausala effekten? Tja, detta beror på vad vi menar med ”den kausala effekten”. Ofta brukar man då avse den genomsnittliga behandlingseffekten (engelska: average treatment effect, ATE).

Det är förstås möjligt att effekten av en behandling skiljer sig mellan olika personer; vissa pojkar kanske påverkas starkt av rökning och andra inte alls. ATE är då den genomsnittliga kausala effekten av rökning. Men instrumentvariabel-metoden kan bara ge oss ett giltigt estimat för den lokala genomsnittliga behand- lingseffekten (engelska: local average treatment effect, LATE). Så vad är LATE? Jo, LATE är den genomsnittliga kausala effekten bland dem som påverkades av instrumentet.

Tidigare såg vi att reformen ledde till att rökningen minskade från 38 till 28 procent. För att ta ett konkret exempel: Säg att vi har 100 pojkar i respektive grupp (före & efter). Antalet rökare minskade då från 38 till 28 personer. Vi kan tänka på detta som att 10 pojkar påverkades av reformen, dvs. 10 pojkar skulle ha rökt om det inte hade varit för reformen. Vi vet förstås inte vilka pojkar det är frågan om; allt vi vet är att 10 pojkar färre röker

(9)

efter reformen. Dessa 10 pojkar är förklaringen till att längden i snitt ökat efter reformen. Och det är denna ökning som vi använder för att få fram vårt estimat. Om alla pojkar hade påverkats av reformen (om vi gått från 100 rökare till 0 rökare) så är det förstås möjligt att vi fått ett systematiskt högre eller lägre estimat. Och egentligen är det ju denna effekt vi hade velat kunna mäta.

Omvänd kausalitet

I exemplet ovan så var rökarna i genomsnitt 4 centimeter kortare än icke-rökarna. Men vi kan inte påstå att detta är en kausal effekt. Vi diskuterade redan en möjlig förklaring; att skillnaden drivs av bakomliggande faktorer. En annan möjlighet är att sambandet drivs av omvänd kausalitet. Säg att kortare tonårspojkar oftare blir rökare just på grund av längden (de kanske vill ”kompensera”). Detta skulle vara ett exempel på omvänd kausalitet. Fungerar instrumentet ändå? Svaret är ja, givet att instrumentet är giltigt. De facto är IV-metoden det enda sättet att hantera omvänd kausalitet då vi jobbar med observationella data. Om det finns bakomliggande faktorer så kan vi kontrollera för dessa, men omvänd kausalitet kan enbart hanteras genom IV-metoden.

Standardfelet ökar

Låt oss jämföra resultatet från vanlig OLS med resultatet från IV- metoden:

OLS: 𝑙ä𝑛𝑔𝑑̂ = 179,7 − 4,0 ∙ 𝑟ö𝑘𝑛𝑖𝑛𝑔 (0,108)

IV: 𝑙ä𝑛𝑔𝑑̂ = 179,2 − 2,5 ∙ 𝑟ö𝑘𝑛𝑖𝑛𝑔 (1,117)

Förutom att estimaten förändras så ökar också standardfelet dramatiskt; från 0,108 till 1,117. Detta är intuitionen: Då vi använder ett instrument så utnyttjar vi inte all variation i x för att få fram effekten, utan vi utnyttjar enbart den exogena delen, dvs.

den del av variationen som påverkas av instrumentet. Det är som om vi hade haft ett mindre sampel.

(10)

Så vad betyder det här i praktiken? Jo, att IV-metoden ofta kräver stora sampel för att vi ska få precisa estimat. Detta gäller i synnerhet om vi har ett svagt instrument. Svaga instrument är sådana där korrelationen mellan instrumentet och x är svag. Som tumregel brukar man säga att instrumentet är svagt om F-värdet är mindre än 10 i regressionen från första steget.

Robusta standardfel

Det finns inget som hindrar oss från att använda hetero- skedasticitets-robusta standardfel tillsammans med IV-metoden.

I exemplet ovan har detta dock liten betydelse för resultatet.

Nedan ges det robusta standardfelet inom klamrar.

IV: 𝑙ä𝑛𝑔𝑑̂ = 179,2 − 2,5 ∙ 𝑟ö𝑘𝑛𝑖𝑛𝑔 (1,117)

[… ]

19.3 INSTRUMENT, NÅGRA EXEMPEL

(11)

(12)

Kapitel 19: NATURLIGA EXPERIMENT OCH INSTRUMENT