Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

(1)

Kapitel 12: TEST GÄLLANDE EN

GRUPP KOEFFICIENTER - ANOVA

12.1 ANOVA I EN MULTIPEL REGRESSION

Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information om 293 amerikanska manliga arbetare. Egenföretagare är en dummy som antar värdet 1 för egenföretagare och värdet 0 för andra arbetare; alder mäter personens ålder och ln(timlön) är timlönen mätt på en loggad skala.

id egenföretagare alder ln(timlön)

1 0 32 1,955861

2 1 31 0,357674

3 1 44 3,021887

4 0 64 1,011601

5 0 41 2,957511

... ... ... ...

293 0 35 0,364643

Regressionen nedan visar att egenföretagarna tjänar cirka 4 procent mer än övriga kontrollerat för ålder. Men skillnaden är inte signifikant, t = 0,041/0,100 = 0,41 (standardfel ges inom parentes). Däremot har ålder en signifikant effekt på lönen; för varje ytterligare år så ökar lönen med cirka 1 procent, t = 0,010/0,003 ≈ 3,33.

ln⁡(𝑡𝑖𝑚𝑙ö𝑛)̂ = 1,30 + 0,041 ∙ 𝑒𝑔𝑒𝑛𝑓ö𝑟𝑒𝑡𝑎𝑔𝑎𝑟𝑒 + 0,010 ∙ 𝑎𝑙𝑑𝑒𝑟

⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(0,100)⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(0,003)⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡

Nedan visas resultatet då vi kört regressionen med hjälp av statistikprogrammet STATA:

(2)

I rött ges resultatet från t-testerna. Men dessa är inte de enda tester som finns med i regressionsutskriften. Regressions- utskriften innehåller också ett annat test som kallas för F-testet.

Inrutat i blått finns det så kallade F-värdet (6,54) med tillhörande p-värde (0,0017). Så vad använder vi detta test till? Jo, här kan vi se om regressionsmodellen som helhet har signifikant förklaringsstyrka. Eftersom p-värdet (0,0017) är mindre än 0,05 så är svaret ja. Vi ska nu se närmare på vad det här betyder. Och vi ska börja med att repetera förklaringsgraden.

Förklaringsgraden, R²

I regressionen ovan så är förklaringsgraden 0,0432. (Du hittar förklaringsgraden under F-testet: R-squared = 0,0432.) Det betyder att 4,32 procent av variationen i loggade löner kan förklaras av x-variablerna (egenföretagare, alder). Förklarings- graden är alltså en andel och kan därför anta värden mellan 0 och 1.

Det kan vara bra att fundera på vad de två extremfallen betyder.

Vad skulle det betyda om förklaringsgraden vore 1? Jo, det betyder att 100 procent av variationen i utfallsvariabeln (y) kan förklaras av x-variablerna; residualen är då noll för varje obser- vation i data.

Residualen visar skillnaden mellan det verkliga värdet på y och prediktionen. Exempel: Den första personen i data är inte egenföretagare (egenföretagare = 0) och 32 år gammal. Han predikteras då tjäna ~1,62 enheter:

ln⁡(𝑡𝑖𝑚𝑙ö𝑛)̂ = 1,30 + 0,041 ∙ 𝑒𝑔𝑒𝑛𝑓ö𝑟𝑒𝑡𝑎𝑔𝑎𝑟𝑒⏟

=0

+ 0,010 ∙ 𝑎𝑙𝑑𝑒𝑟⏟

=32

(3)

= 1,62

Men personen tjänar egentligen ~1,96 enheter, dvs. ungefär 0,34 enheter mer än predikterat. Residualen är alltså ~0,34 enheter.

På det här viset kan vi ta fram residualen för varje person i data:

id egenföretagare alder ln(timlön) Prediktion Residual

1 0 32 1,955861 1,622449 0,3334121

2 1 31 0,357674 1,653214 -1,29554

3 1 44 3,021887 1,785371 1,236516

4 0 64 1,011601 1,947757 -0,9361566

5 0 41 2,957511 1,713942 1,243569

... ... ... ... ... ...

293 0 35 0,364643 1,652947 -1,288304

Om vi hade en regression där alla residualer vore noll så skulle x- variablerna prediktera utfallsvariabeln perfekt. Förklarings- graden skulle vara 1.

Vad skulle det betyda om förklaringsgraden vore 0? Jo, det betyder att 0 procent av variationen i y förklaras av x- variablerna. Det här skulle innebära att vi hade en regression där alla regressionskoefficienter vore 0:

ln⁡(𝑡𝑖𝑚𝑙ö𝑛)̂ = 1,69 + 𝟎 ∙ 𝑒𝑔𝑒𝑛𝑓ö𝑟𝑒𝑡𝑎𝑔𝑎𝑟𝑒 + 𝟎 ∙ 𝑎𝑙𝑑𝑒𝑟 Om vi ändå använde den här regressionen för att göra prediktioner så skulle alla personer i data ha en predikterad loggad lön på 1,69 enheter. 1,69 är den genomsnittliga loggade lönen i data. Det här skulle betyda att x-variablerna inte bidrar med någon information alls; om vi ska gissa hur mycket en person tjänar så gör vi bäst i att bara använda medelvärdet.

F-värdet

Exempel forts. I regressionen ovan så är förklaringsgraden 0,0432: Cirka 4 procent av variationen i löner kan förklaras av x- variablerna (egenföretagare, alder). Men detta är förklarings- graden i samplet: Är det möjligt att populationens förklaringsgrad egentligen är noll? Det skulle betyda att den sanna effekten av att vara egenföretagare är noll (βegen = 0) och att den sanna effekten av ålder är noll (βalder = 0). Vi kallar denna möjlighet för noll- hypotesen.

(4)

Den andra möjligheten är att åtminstone en av effekterna (βegen, βalder eller bägge) är olika noll. Eller med andra ord: Den sanna förklaringsgraden är större än noll. Vi kallar denna möjlighet för mothypotesen.

Kan vi förkasta nollhypotesen om att populationens förklarings- grad är noll? För att svara på den frågan så skulle vi vilja veta hur vanligt är det att få en förklaringsgrad på 0,0432 bara av slumpen. Är detta något som händer ofta då den sanna förklaringsgraden är noll, eller är detta något som händer sällan?

Det går att räkna ut den sannolikheten: I det här fallet så är sannolikheten för att bara av slumpen få ett sampel där förklaringsgraden blir 0,0432 eller större 0,17 procent:

P(R² ≥ 0,0432) = 0,0017

Den uppmätta förklaringsgraden i samplet hör alltså till de 0,17 procent extremaste som man kan få bara av slumpen. Även om förklaringsgraden (0,0432) är liten, så är det alltså mycket osannolikt att få en såhär pass ”hög” förklaringsgrad bara av slumpen. Vi säger då att regressionsmodellen har signifikant förklaringsstyrka: p-värdet är 0,0017 som är mindre än 0,05.

Eftersom p-värdet är mindre än 0,01 så har regressionsmodellen också signifikant förklaringsstyrka på 1-procentsnivån.

Notera här att p-värdet (0,0017) är samma p-värde som ges i regressionsutskriften, inringat i blått:

F-testet används alltså för att ta reda på om regressionsmodellen har signifikant förklaringsstyrka. Men varifrån kommer då F- värdet på 6,54?

F-värdet är en transformation av förklaringsgraden (R²):

(5)

𝐹 = 𝑅²⁄𝑝

(1 − 𝑅²) (𝑛 − 𝑝 − 1)⁄

där p är antalet oberoende variabler. Vi kan nu räkna ut att F- värdet är 6,54:

𝐹 = 𝑅²⁄𝑝

(1 − 𝑅²) (𝑛 − 𝑝 − 1)⁄ = 0,0432/2

(1 − 0,0432)/(293 − 2 − 1)≈ 6,54 Ju större förklaringsgrad, desto större F-värde. Om förklarings- graden istället hade varit 0,5 så hade vi fått ett F-värde på 145:

𝐹 = 𝑅²⁄𝑝

(1 − 𝑅²) (𝑛 − 𝑝 − 1)⁄ = 0,5/2

(1 − 0,5)/(293 − 2 − 1)= 145 När vi vill ta reda på sannolikheten för att, bara av slumpen, få ett sampel där förklaringsgraden blir minst 0,0432 så är det samma sak som att ställa sig frågan: Hur stor är sannolikheten för att, bara av slumpen, få ett F-värde på minst 6,54? Eller med andra ord:

𝑃(𝑅²≥ 0,0432) = 𝑃(𝐹 ≥ 6,54)

Vi såg redan att den sannolikheten är 0,0017. Figuren nedan illustrerar detta:

Det här är ett exempel på en F-fördelning. Om nollhypotesen är sann (den sanna förklaringsgraden är noll) så får vi ett sampel där F-värdet hamnar någonstans mellan 0 och 3 i 95 procent av fallen. (Ett F-värde någonstans mellan 0 och 3 motsvarar här en förklaringsgrad någonstans mellan 0 och 0,02.) Om vårt F-värde faller inom detta intervall (om R² blir mindre än 0,02) så är

(6)

resultatet insignifikant; den uppmätta förklaringsgraden i samplet skulle kunna skyllas på slumpen. I 5 procent av fallen får vi ett F-värde som är större än 3. Om vi får ett sampel där F- värdet blir 3,0 så betyder det att samplet hör till de 5 procent mest extrema som man kan få bara av slumpen och p-värdet är då 0,05; vi har då ett bra stöd för att påstå att den sanna förklaringsgraden är större än 0. Men vi fick ett F-värde på 6,54 vilket ger ett p-värde på 0,0017. Regressionsmodellen har med andra ord signifikant förklaringsstyrka också på 1-procents- nivån: p-värdet = 0,0017 < 0,01.

I det här exemplet så är 3,0 det kritiska värdet på 5-procents- nivån. Det krävs med andra ord ett F-värde på 3,0 eller större för att resultatet ska vara signifikant på 5-procentsnivån (för att p- värdet ska bli mindre än 0,05). Det kritiska värdet på 1- procentsnivån är 4,7; det krävs ett F-värde på 4,7 eller större för att resultatet ska vara signifikant på 1-procentsnivån (för att p-värdet ska bli mindre än 0,01).

Hur stora de kritiska värdena är varierar från fall till fall;

sannolikheten för att bara av slumpen få ett sampel där F-värdet blir större än 6,54 beror också på antalet observationer (n) och antalet oberoende variabler (p). Det här betyder att F-fördel- ningens utseende varierar beroende på n och p. Man säger att F- fördelningen har två parametrar som bestämmer hur den ser ut.

Vi kan jämföra detta med normalfördelningen som också har två parametrar (µ och σ) som bestämmer hur normalfördelningen ser ut. F-fördelningens parametrar kallas för frihetsgradsantalet i täljaren och frihetsgradsantalet i nämnaren. Frihetsgradsantalet i täljaren är antalet oberoende variabler (p); frihetsgradsantalet i nämnaren är antalet observationer (n) minus antalet oberoende variabler (p) minus ett (n-p-1):

𝐹 = 𝑅²⁄𝑝

(1 − 𝑅²) (𝑛 − 𝑝 − 1)⁄

Säg att vi drar ett sampel och får ett F-värde på 6,54 (precis som tidigare). Precis som tidigare tänker vi oss att vi har 239 observationer, men anta att vi nu har 10 oberoende variabler: p = 10, n – p – 1 = 228. Figuren nedan visar hur den här F- fördelningen ser ut. Det kritiska värdet på 5-procentsnivån är nu 1,87 och på 1-procentsnivån 2,40. P-värdet är 0,000000007.

(7)

T-test kontra F-test

Exempel forts. Vi beskrev noll- och mothypoteserna:

Nollhypotesen: Den sanna effekten av att vara egenföretagare är noll (βegen = 0) och den sanna effekten av ålder är noll (βalder = 0).

Eller med andra ord: Populationens förklaringsgrad är 0.

Mothypotesen: Åtminstone en av effekterna är olika noll ↔ populationens förklaringsgrad är större än 0.

Ett signifikant resultat betyder att vi kan ”förkasta nollhypotesen”. Men behöver vi verkligen ett F-test för att avgöra detta? Vi vet ju redan att ålder har en signifikant effekt på lön:

Om ålder har en signifikant effekt på lön så måste väl också F- testet per konstruktion visa att regressionsmodellen har signifikant förklaringsstyrka? Svaret är nej. Anta att nollhypotesen är sann; ingen av x-variablerna har någon effekt på utfallsvariabeln. Ju fler x-variabler vi inkluderar i regressionen, desto högre är sannolikheten för att åtminstone en effekt ändå

(8)

blir signifikant. Nedan visas ett exempel på detta. Här har vi en regression med 20 oberoende variabler (x1, x2, ..., x20). Ingen av dessa har egentligen någon effekt på utfallsvariabeln; de effekter vi ser i data beror på slumpen. I de flesta fall har vi fått estimat som ligger nära 0 och som är icke-signifikanta. Men det finns ett misstag; t-testet visar att effekten av x4 är signifikant.

Ju fler t-tester desto större är chansen för att åtminstone ett sådant här misstag begås. (På samma sätt som chansen för att få en sexa ökar ju fler gånger vi kastar en tärning.) Om, de facto, ingen av x-variablerna har någon effekt på utfallsvariabeln så kan vi ändå förvänta oss att 5 procent av effekterna blir signifikanta:

Vi säger ju att en effekt är signifikant om den hör till de 5 procent extremaste som man kan få bara av slumpen – i 5 procent av fallen är slumpen framme och ger oss ett signifikant resultat av misstag.

I fallet ovan så är populationens sanna förklaringsgrad 0; ingen av de 20 x-variablerna har någon egentlig effekt på utfallsvariabeln. F-testet visar också att regressionsmodellen inte har en signifikant förklaringsstyrka (F = 0,89, p-värdet = 0,6023).

På motsvarande sätt kan det också finnas situationer där F-testet blir signifikant trots att ingen av de enskilda t-testerna ger

(9)

signifikanta resultat. I vissa regressioner är det tydligt att någon (eller flera) x-variabler har en effekt på utfallsvariabeln, men det är svårt att peka ut vilken eller vilka. Detta inträffar då x- variablerna är starkt korrelerade. Vi kan förstå detta genom följande analogi: Säg att du gått ner tio kilo efter att du börjat träna och ändrat diet. Det kan då vara svårt att avgöra om träningen eller dieten var orsaken (eller om bägge bidrog).

Träning och diet är så att säga starkt korrelerade; du började med bägge samtidigt. Men även om det är svårt att påstå att

”träningen har effekt” eller att ”dieten har effekt” så är det lätt att påstå att ”träningen eller dieten (eller bägge) har effekt”, vilket skulle motsvara ett signifikant resultat på F-testet trots att ingen av de enskilda t-testerna är signifikanta.

F-test och t-test används generellt sett för att besvara olika frågeställningar. Med ett undantag: Om vi bara har en oberoende variabel så är t-testet och F-testet exakt samma sak.

Exempel forts. Nedan visas resultat från en regression med loggad timlön som utfallsvariabel och dummyn egenföretagare som oberoende variabel. Här har vi inte kontrollerat för ålder.

Egenföretagarna tjänar i snitt drygt 4 procent mer än övriga arbetare, men skillnaden är inte signifikant (t = 0,42, p-värdet = 0,676). Regressionsmodellen har inte heller signifikant förklaringsstyrka (F = 0,17, p-värdet = 0,6765). Notera här att p- värdena är lika stora. Detta beror på att bägge testar exakt samma sak. När vi bara har en oberoende variabel så kommer vi från t-värdet till F-värdet genom att kvadrera t-värdet: 0,42² ≈ 0,17.

(10)

12.2 ANOVA I REGRESSIONER MED

FAKTORVARIABLER

Om du läser en statistisk rapport där man gjort en multipel regression så är chansen stor att de inte rapporterar resultatet från F-testet. Ofta ligger intresset i att estimera effekten av en x- variabel på utfallsvariabeln, kontrollerat för några andra variabler. Om regressionsmodellen har signifikant förklarings- styrka eller inte är då irrelevant.

Men det finns också fall där F-testet är av huvudsakligt intresse.

Detta gäller inte minst då vi har regressioner med faktor- variabler. Vi ska se två exempel på det här.

Exempel: Vi ska lansera en ny läskedryck och ska nu besluta oss för vilken färg vi vill använda på förpackningen. Vi utför följande experiment. Tio kvartersbutiker ingår i studien; fem av dessa lottas ut och får röda läskeburkar medan de andra fem får blåa.

Efter en vecka mäter vi försäljningen i varje butik (mätt som antalet backar). Tabellen nedan visar data.

Butik Färg Röd Försäljning

1 Blå 0 5

2 Blå 0 7

3 Blå 0 5

4 Blå 0 6

5 Blå 0 2

6 Röd 1 9

7 Röd 1 7

8 Röd 1 6

9 Röd 1 7

10 Röd 1 6

I genomsnitt såldes 5 backar av de blåa burkarna och 7 backar av de röda. Det är en genomsnittlig skillnad på 2 backar. Eller uttryckt som en regression: 𝑓ö𝑟𝑠ä𝑙𝑗𝑛𝑖𝑛𝑔̂ = 5 + 2 ∙ 𝑟ö𝑑.

Är skillnaden signifikant? Nästan. Standardfelet för skillnaden är 1 vilket ger ett t-värde på 2 (t = 2/1 =2). Detta motsvarar ett p- värde på 0,081. (I det här exemplet räcker ett t-värde på 2 inte riktigt till för att skillnaden ska bli signifikant på 5- procentsnivån. Detta beror på att samplet är så pass litet, bara tio observationer.)

Men anta nu att vi istället hade gjort följande experiment: Vi använder nu 15 butiker varav fem lottas ut för att få röda burkar;

(11)

fem får blåa burkar och fem får vita. Ett utdrag av data visas nedan:

Butik Färg Röd Blå Försäljning

1 Blå 0 1 5

2 Blå 0 1 7

3 Blå 0 1 5

4 Blå 0 1 6

5 Blå 0 1 2

6 Röd 1 0 9

7 Röd 1 0 7

8 Röd 1 0 6

9 Röd 1 0 7

10 Röd 1 0 6

11 Vit 0 0 4

12 Vit 0 0 4

13 Vit 0 0 4

14 Vit 0 0 1

15 Vit 0 0 2

I genomsnitt såldes 5 backar av de blåa burkarna; 7 backar av de röda och 3 backar av de vita. Uttryckt som en regression så kan vi beskriva dessa skillnader som:

𝑓ö𝑟𝑠ä𝑙𝑗𝑛𝑖𝑛𝑔̂ = 3 +4 ∙ 𝑟ö𝑑+2 ∙ 𝑏𝑙å

där referensgruppen är vita burkar. Färg kallas här för en faktor;

när vi inkluderar information om burkarnas färg genom en rad dummy-variabler så har vi gjort en regression med en faktorvariabel.

Har regressionen signifikant förklaringsstyrka? Svaret är ja: F- värdet är 8,57 och p-värdet är 0,0049:

Regressionsmodellen har med andra ord också signifikant förklaringsstyrka på 1-procentsnivån (0,0049 < 0,01). Eller med andra ord: Vi kan förkasta nollhypotesen om att den sanna

(12)

förklaringsgraden är noll. Men i det här exemplet så kan vi också formulera nollhypotesen på ett annat mer intuitivt sätt:

Nollhypotesen: 𝜇_{𝑣𝑖𝑡𝑎}= 𝜇_{𝑟ö𝑑𝑎} = 𝜇_𝑏𝑙å

Om den sanna förklaringsgraden är noll så betyder det att försäljningen inte varierar beroende på burkens färg eller med andra ord: Genomsnittlig försäljning är lika stor oavsett färg:

𝜇_{𝑣𝑖𝑡𝑎}= 𝜇_{𝑟ö𝑑𝑎} = 𝜇_𝑏𝑙å. Detta är i sin tur samma sak som att säga att det inte finns några verkliga genomsnittliga skillnader mellan röda och vita burkar, eller mellan blåa och vita burkar: βröda = 0, βblå = 0.

Mothypotesen: Åtminstone en av grupperna (vita, röda, blåa) skiljer sig från de övriga.

I det här fallet kunde vi konstatera att det finns signifikanta skillnader i genomsnittlig försäljning beroende på burkens färg.

F-testet säger dock inte vilka färger som skiljer sig signifikant från andra; eller om det finns signifikanta skillnader mellan alla tre färger.

När man på det här viset testar om det finns skillnader i medelvärden mellan grupper så kallar man det för en envägsvariansanalys (envägs-ANOVA).

Exempel: Hur varierar tentresultat beroende på hur mycket man sovit natten innan tenten? Efter en stor tentamen låter vi studenterna fylla i en enkät där de uppskattar hur många timmar de sov natten innan. De kan välja mellan följande alternativ: 0-2 timmar, 2-4 timmar, 4-6 timmar och 6+ timmar. I tabellen nedan presenteras genomsnittligt resultat för varje sömngrupp (1-4).

Sömngrupp Medelvärde # obs.

1 (0-2 timmar) 49,8 11

2 (2-4 timmar) 61,9 8

3 (4-6 timmar) 66,1 31

4 (6+ timmar) 78,0 50

Samma information som presenteras i tabellen ovan kan vi också beskriva genom en regression:

𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑡̂ = 49,8 + 12,1 ∙ 𝑠ö𝑚𝑛2 + 16,3∙𝑠ö𝑚𝑛3 + 28,2 ∙ 𝑠ö𝑚𝑛4

(13)

där sömn2 en dummy som antar värdet 1 för dem som sov 2-4 timmar och värdet 0 för övriga; sömn3 är en dummy som antar värdet 1 för dem som sov 4-6 timmar och värdet 0 för övriga;

sömn4 är en dummy för dem som sov 6+ timmar och värdet 0 för övriga. Referensgruppen är de som sovit 0-2 timmar. Den här regressionen visar exempelvis att de som sov 6+ timmar (sömn4

= 1) i snitt presterade 28,2 procentenheter bättre än de som sov 0-2 timmar.

Så finns det signifikanta skillnader i genomsnittligt tentresultat beroende på sömngrupp? Regressionsutskriften nedan visar att svaret är ja (F = 11,84; p-värdet = 0,000).

Notera här att det här inte betyder att vi skulle ha visat att det finns skillnader mellan alla fyra grupper; utan bara att åtminstone en sömngrupp skiljer sig från de andra.

Exempel forts. Anta att vi nu också frågat studenterna hur många timmar de jobbat med kursen per vecka (variabeln timmar). Ett utdrag av data ges nedan:

Id Sömn Sömn2 Sömn3 Sömn4 Timmar Resultat

1 1 0 0 0 8 42

2 3 0 1 0 6 54

3 4 0 0 1 11 93

4 4 0 0 1 6 68

5 2 1 0 0 10 52

... ... ... ... ... ... ...

100 4 0 0 1 10 75

Vi har då möjlighet att ställa oss följande fråga: Om vi kontrollerar för antalet arbetstimmar, finns det då fortfarande skillnader i resultat beroende på sömngrupp? Vi inkluderar då antalet arbetstimmar (timmar) som en oberoende variabel i regressionen vilket ger resultatet:

(14)

Regressionsekvationen:

𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑡̂ = 19,1 + 2,6 ∙ 𝑠ö𝑚𝑛2 + 6,3 ∙ 𝑠ö𝑚𝑛3 + 10,6 ∙ 𝑠ö𝑚𝑛4 + 4,2 ∙ 𝑡𝑖𝑚𝑚𝑎𝑟

Som du märker så minskar nu skillnaderna mellan sömn- grupperna. Exempel: Tidigare såg vi att de som sovit 6+ timmar i snitt skrivit 28,2 procentenheter bättre än de som sovit 0-2 timmar. Men då vi kontrollerar för antalet arbetstimmar så sjunker skillnaden till 10,6 procentenheter. (Det här betyder att personer som sovit 6+ timmar i snitt jobbat mer under kursens lopp, vilket delvis förklarar varför de klarar sig bättre på tenten.) Tidigare såg vi att det fanns signifikanta skillnader i tentamensresultat beroende på sömngrupp. Men frågan blir nu:

Finns det fortfarande signifikanta skillnader mellan sömngrupper efter att vi kontrollerat för tentamensresultat?

Nollhypotesen: Kontrollerat för antalet arbetstimmar så finns det inga genomsnittliga skillnader i tentamensresultat beroende på sömngrupp. Eller med andra ord:

𝛽_{𝑠ö𝑚𝑛2}= 0, 𝛽_{𝑠ö𝑚𝑛3} = 0, 𝛽_{𝑠ö𝑚𝑛4}= 0

Mothypotesen: Åtminstone en av grupperna skiljer sig från de övriga. Eller med andra ord: Åtminstone en av effekterna (𝛽_{𝑠ö𝑚𝑛2}, 𝛽_{𝑠ö𝑚𝑛3}, 𝛽_{𝑠ö𝑚𝑛4}) är olika noll.

Så kan vi förkasta nollhypotesen om ”inga skillnader”? Från regressionsutskriften ovan så ser vi att regressionsmodellen har signifikant förklaringsstyrka (F = 81,21; p = 0,000). Men det här är inte samma sak som att fråga om det finns signifikanta skillnader mellan sömngrupper kontrollerat för antalet

(15)

arbetstimmar. Regressionsutskriften ger oss inte svaret på den här frågan, men vi kan beställa detta F-test skilt:

F-värdet är 4,87 och p-värdet är 0,0034. Det finns med andra ord fortfarande signifikanta skillnader i tentamensresultat beroende på sömngrupp, även efter att vi kontrollerat för antalet arbets- timmar. F-testet säger alltså inte att det finns skillnader mellan alla fyra sömngrupper (kontrollerat för antalet arbetstimmar) men bara att åtminstone en grupp skiljer sig från de andra.

Rent konkret så kan vi räkna ut detta F-värde genom följande formel:

𝐹 =(𝑅_𝑚𝑒𝑑² − 𝑅_{𝑢𝑡𝑎𝑛}² )/(𝑝_𝑚𝑒𝑑− 𝑝_{𝑢𝑡𝑎𝑛})⁡

(1 − 𝑅_𝑚𝑒𝑑² )/(𝑛 − 𝑝_𝑚𝑒𝑑− 1)

där 𝑅_𝑚𝑒𝑑² är förklaringsgraden i en regression där vi tagit med alla oberoende variabler; 𝑝_𝑚𝑒𝑑 är antalet oberoende variabler i den regressionen. 𝑅_{𝑢𝑡𝑎𝑛}² är förklaringsgraden i en regression där vi inte tagit med sömngrupperna som dummyvariabler, dvs. en regression med enbart en oberoende variabel: timmar. 𝑝_{𝑢𝑡𝑎𝑛} är antalet oberoende variabler i den regressionen. Regressions- utskriften nedan visar att 𝑅_𝑚𝑒𝑑² =0,7737; 𝑝_𝑚𝑒𝑑= 4.

(16)

Regressionsutskriften nedan visar att 𝑅_{𝑢𝑡𝑎𝑛}² =0,7390 och 𝑝_{𝑢𝑡𝑎𝑛}= 1.

Vi kan nu räkna ut att F-värdet är 4,87:

𝐹 =(𝑅_𝑚𝑒𝑑² −𝑅_{𝑢𝑡𝑎𝑛}² )/(𝑝_𝑚𝑒𝑑− 𝑝_{𝑢𝑡𝑎𝑛})⁡

(1 −𝑅_𝑚𝑒𝑑² )/(𝑛 − 𝑝_𝑚𝑒𝑑− 1)

= (0,7737−0,7390)/(4 − 1)

(1 −0,7737)/(100 − 4 − 1)≈ 4,87

I det här fallet följer F-värdet en F-fördelning med (4-1) frihetsgrader i täljaren och (100-4-1) frihetsgrader i nämnaren:

De kritiska värdena på 5- och 1-procentsnivån är 2,71 och 4,00.

Eftersom 4,87 är större än det kritiska värdet på 1-procentsnivån så är resultatet signifikant på 1-procentsnivån. Tidigare såg vi också att p-värdet var 0,0034.

(17)

Det här F-testet är en generaliserad version av de F-tester vi sett på tidigare. Om vi vill testa om regressionsmodellen som helhet har signifikant förklaringsstyrka så vill vi, så att säga, se om en regression som inkluderar alla x-variabler är signifikant bättre på att prediktera utfallsvariabeln än en regression utan några x- variabler (bara ett intercept = medelvärdet för utfallsvariabeln).

En regression utan x-variabler har 𝑅_{𝑢𝑡𝑎𝑛}² = 0 och 𝑝_{𝑢𝑡𝑎𝑛}= 0 vilket tar oss tillbaka till det ”gamla” F-testet:

𝐹 =(𝑅_𝑚𝑒𝑑² −𝑅_{𝑢𝑡𝑎𝑛}² )/(𝑝_𝑚𝑒𝑑− 𝑝_{𝑢𝑡𝑎𝑛})⁡

(1 −𝑅_𝑚𝑒𝑑² )/(𝑛 − 𝑝_𝑚𝑒𝑑− 1) = 𝑅²/𝑝

(1 − 𝑅²)/(𝑛 − 𝑝 − 1)

Test gällande en delgrupp koefficienter

I exemplet ovan så använde vi F-testet för att se om det finns signifikanta skillnader i tentamensresultat beroende på sömn- grupp (kontrollerat för antalet arbetstimmar).

Nollhypotesen gällde då en delgrupp av koefficienterna i regressionen:

𝛽_{𝑠ö𝑚𝑛2}= 0, 𝛽_{𝑠ö𝑚𝑛3} = 0, 𝛽_{𝑠ö𝑚𝑛4}= 0

Det finns dock inget som säger att dessa koefficienter (β) måste vara just koefficienter för dummy-variabler skapade utifrån en faktorvariabel (sömngrupp).

F-testet kan generaliseras till att testa vilken delgrupp av koefficienter som helst.

Exempel: Tabellen på nästa sida är klippt ur artikeln Stature and Status: Health, Ability and Labor Market outcomes. Här har man mätt sambandet mellan längd och lön för ett sampel brittiska män och kvinnor. Man har också kontrollerat för testresultat i ung ålder (Test scores ages 5 and 10) där testresultatet mäter antalet poäng på kognitiva tester. Se samplet för männen, den andra kolumnen. Regressionen:

ln(𝑒𝑎𝑟𝑛𝑖𝑛𝑔𝑠)̂ = 𝑎 + 0,004 ∙ ℎ𝑒𝑖𝑔ℎ𝑡 + 𝑏₂∙ 𝑡𝑒𝑠𝑡5 + 𝑏₃∙ 𝑡𝑒𝑠𝑡10 där test5 är testresultat vid fem års ålder och test10 är testresultat vid 10 års ålder. Den enda regressionskoefficienten som ges i tabellen är den för height. På raden för ”Test scores ages 5 and 10” får vi istället ett F-test (F = 31,11, p-värdet =

(18)

0,000). Så vad visar det här F-testet? Jo, att testresultat i ung ålder har en signifikant effekt på löner i vuxen ålder (kontrollerat för längd). I den här studien är det ointressant att göra en skillnad mellan effekten av testresultat vid 5 och 10 års ålder; istället testar författarna om dessa variabler tillsammans bidrar till att förklara variationen i löner. Och svaret är ja (p-värdet ≈ 0).

(19)

(20)

Antaganden

De villkor som gäller för t-testet gäller också för F-testet. Här är bara en kort repetition: 1) Slumpmässigt draget sampel eller ett sampel som stratifierat på en eller flera x-variabler i regressionen. 2) Utfallsvariabeln är normalfördelad för olika värden på x-variablerna, eller så har vi ett relativt stort sampel.

3) Homoskedasticitet: Variansen i utfallsvariabeln är jämnstor för olika värden på x-variablerna.