ÖVNINGSUPPGIFTER KAPITEL 11
ANOVA I EN MULTIPEL REGRESSION
1. I en amerikansk studie samlade man in data för 601 gifta personer, och mätte hur många utomäktenskapliga affärer de haft under det senaste året. Man mätte också personernas kön (dummyn man som antar värdet för män och värdet 0 för kvinnor), ålder, antalet år som gift (årsomgift) och om de har barn eller inte (dummyn barn som antar värdet 1 om personen har barn och annars värdet 0).
Nedan visas en regressionsutskrift där utfallsvariabeln är antalet affärer som personen haft under det senaste året; de oberoende variablerna är man, ålder, årsomgift och barn. Har regressionen signifikant förklaringsstyrka? Motivera kortfattat.
2. Nedan visas ett klipp ur artikeln Interrelationships between income, health and the environment: extending the environmental Kuznets curve hypothesis.
Författarna använder data för olika länder i världen och ser bland annat hur länders ”kommersiella energianvändning” (ENPC) kan förklaras av ekonomiska och demografiska faktorer.
Vilket eller vilka av följande påståenden är korrekta?
a. Regressionsmodellen har signifikant förklaringsstyrka.
b. F-testet visar att 6,96 procent av variationen i kommersiell energi- användning (ENPC) kan förklaras av de oberoende variablerna.
c. Författarna kan förkasta nollhypotesen om att ingen av de oberoende variablerna har någon effekt på utfallsvariabeln (ENPC).
3. På ett företag vill man testa om arbetserfarenhet leder till att arbetarna blir snabbare på att göra vissa rutinuppgifter. Man låter 50 arbetare genomgå ett test där de ska slutföra en rutinuppgift på tid. Sedan mäter man sambandet mellan anställningstid och resultat på testet. Man kontrollerar också för personernas kön och ålder. Nedan visas ANOVA-tabellen från den här regre- ssionen. Vi vill nu testa om regressionsmodellen har signifikant förklarings- styrka.
a. Beskriv noll- och mothypotesen.
b. I ANOVA-tabellen ovan så fattas F-värdet. Hur stort är det? Hur stort är p- värdet?
c. Har regressionen signifikant förklaringsstyrka? I så fall, är förklarings- styrkan signifikant också på 1-procentsnivån?
4. Nedan visas en löneregression med loggad lön som utfallsvariabel; facket är en dummy som antar värdet 1 för fackmedlemmar och värdet 0 för övriga;
utbildning mäter utbildning i antal år. Standardfel genom inom parentes.
Samplet består av 245 kvinnliga amerikanska arbetstagare. Har regressions- modellen signifikant förklaringsstyrka? Det kritiska värdet på 5-procentsnivån är 3,03.
ln(𝑙ö𝑛)̂ = 0,69 + 0,217 ∙ 𝑢𝑛𝑖𝑜𝑛 + 0,094 ∙ 𝑒𝑑𝑢𝑐𝑅2= 0,24
(0,094)(0,011)
5. I en studie vill man ta reda på om det finns skillnader i intelligens beroende på stjärntecken. Man låter hundratals personer skriva ett intelligenstest och frågar också om deras stjärntecken. Sedan gör man totalt 66 stycken t-tester; ett där man ser om det finns en signifikant skillnad i intelligens mellan väduren och oxen; ett annat där man ser om det finns en signifikant skillnad mellan oxen och tvillingarna, osv. (När man gjort alla parvisa jämförelser så adderar detta till 66 tester). Man får totalt tre stycken signifikanta skillnader och drar slutsatsen att det finns skillnader i intelligens mellan dessa stjärntecken. Förklara vad som är fel med denna slutsats.
ANOVA I REGRESSIONER MED FAKTORVARIABLER
6. Integreras invandrare bättre om de anländer till Finland före skolstarten än om de anländer senare? Vi samlar in data för 224 invandrare där vissa anlände före skolstarten, andra anlände under lågstadieperioden och ytterligare en tredje grupp är andra generationens invandrare (deras föräldrar invandrare men personen själv föddes här). I regressionen nedan är utbildning personens totala utbildningsmängd i vuxen ålder; före är en dummy för personer som anlände före skolstarten och efter är en dummy för dem som anlände efter skolstarten.
Referensgruppen är andra generationens invandrare.
𝑢𝑡𝑏𝑖𝑙𝑑𝑛𝑖𝑛𝑔̂ = 13,6 − 1,8 ∙ 𝑓ö𝑟𝑒 − 2,0 ∙ 𝑒𝑓𝑡𝑒𝑟𝑅2= 0,0346
a. Du vill testa om det finns signifikanta skillnader i utbildningsmängd beroende på när personen invandrat. Beskriv noll- och mothypotesen.
b. Kan nollhypotesen förkastas? Det kritiska värdet på 5-procentsnivån är 3,04.
7. I en amerikansk studie samlade man in data för 601 gifta personer och mätte hur många utomäktenskapliga affärer de haft under det senaste året. Man frågade också hur lyckliga personerna är i sitt äktenskap (mycket lycklig, lycklig, som snittet, olycklig). Figuren nedan sammanfattar skillnaderna i antalet affärer
beroende på lyckonivå; i paragrafen under ges statistik för materialet. Finns det signifikanta skillnader i antalet affärer beroende på lyckonivå? I så fall, på vilken signifikansnivå? De kritiska värdena på 5- och 1-procentsnivån är 2,63 och 3,82.
R2 = 0,0958; SStotal = 6529,082; SSregression = 625,651; SSresidual = 5903,430.
Notering: I föreläsningsanteckningarna betecknas SSregression med SSM;
SSresidual betecknas med SSI och SStotal betecknas SST.
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5
Mycket lycklig Lycklig Som snittet Olyckligare än snittet
Genomsnittligt antal affärer