• No results found

4. Praktiskt metod

4.8 Antaganden inom regressionsanalys

För att OLS-regressionen ska vara tillförlitlig nog att estimera samband mellan den beroende variabeln och de oberoende variablerna finns det sju stycken klassiska antaganden som måste vara uppfyllda (Studenmund, 2014, s. 98). När en eller flera av dessa antaganden inte är uppfyllda rekommenderar Studenmund (2014, s. 98) att en annan metod istället kan vara att föredra framför OLS. Resultatet av detta är att vanligtvis undersöka att ens modell uppfyller kraven för att den ska antas vara tillförlitlig och om de är uppfyllda är OLS den bästa tekniken att använda (Studenmund, 2014, s. 98). De sju klassiska antaganden som bör vara uppfyllda innan det är möjligt att gå vidare med resultatanalysen är enligt Studenmund (2014, s. 98) följande:

1. Regressionsmodellen är linjär, korrekt specificerad och har en additiv felterm 2. Feltermen har ett populationsmedelvärde som är noll

3. Samtliga oberoende variabler är okorrelerade med feltermen

4. Observationer från feltermen är okorrelerade med varandra (ingen seriekorrelation förekommer)

5. Feltermen har en konstant varians, dvs ingen heteroskedasticitet förekommer 6. Inga oberoende variabler är en perfekt linjär funktion av en annan oberoende

variabel (ingen multikolinjäritet) 7. Feltermen är normalfördelad

Nedan kommer vi att beskriva hur vi har gått tillväga för att utvärdera vår modell i förhållande till de sju klassiska antaganden presenterade ovan. Vi kommer att visa hur vi har gjort för att se om kraven är uppfyllda. Om något visar sig inte vara uppfyllt kommer vi att resonera för hur vi går till väga för att vår modell ska vara så tillförlitlig som möjligt.

1. Regressionsmodellen är linjär, korrekt specificerad samt har en additiv felterm Detta antagande behöver inte betyda att underliggande teori är linjär, ytterligare två attribut måste vara uppfyllda för att antagandet ska kunna hålla (Studenmund, 2014, s 98). Det första innebär att ekvationen antas vara korrekt uppställd, om en variabel lämnats utanför eller att en extra variabel inkluderats i modellen så kommer ekvationen mest troligt inte fungera som den ska och producera felaktiga resultat (Studenmund, 2014, s 98). Det andra innebär att en slumpmässig felterm antas lagts till i ekvationen (Studenmund, 2014, s 98). Denna term måste vara additiv sådan och ska inte kunna multipliceras eller divideras med någon annan variabel i ekvationen (Studenmund, 2014, s 98).

För att testa så att vår modell uppfyllt detta antagande har vi med hjälp av STATA tagit fram en scatterplot. För att undersöka om modellen följer antagandet om linjäritet kollar vi på förhållandet mellan våra residualer på y-axeln och våra fitted values på x-axeln. Om

residualerna i en scatterplot inte bildar ett tydligt mönster kan modellen antas vara linjär.

Utifrån vår scatterplot som visas i Figur 4 nedan kan vi se att ett tydligt mönster framgår vilket gör att vi antar att modellen uppfyller antagandet. Med någorlunda fantasi går det att se en viss pyramidform vilket kan bero på att vi har ett mindre urval men vi gör antagandet att det ser ut att vara tillräckligt linjärt för att vi ska kunna gå vidare med vår modell.

Figur 5. Scatterplot mellan modellens residualer och fitted values

2. Feltermen har ett populationsmedelvärde som är noll

Antagandet innebär att en helt slumpmässig felterm adderas till ekvationen för att ta hänsyn till variationen i den beroende variabeln vilket inte förklaras av modellen (Studenmund, 2014, s 99). När hela populationen för möjliga felvärden tas till hänsyn så borde medelvärdet vara noll (Studenmund, 2014, s 99). För ett litet urval är det inte alltid möjligt att medelvärdet är exakt noll men ju större urvalet blir rör sig medelvärdet alltid mot noll (Studenmund, 2014, s 100). Regressionsmodellen kompenserar automatiskt för risken att medelvärdet i populationen inte är noll genom att addera en konstant i modellen.

Detta är något som gör att vi känner oss säkra med att vårat urval, om än litet, kan approximativt ha ett populationsmedelvärde som ligger nära noll.

3. Samtliga oberoende variabler är okorrelerade med feltermen

Detta antagande innebär att de observerade värdena för de förklarande variablerna är oberoende av värdena på feltermen (Studenmund, 2014, s 101). Om istället den oberoende variabeln och feltermen skulle vara korrelerade med varandra så skulle OLS med största sannolikhet bidra till att feltermen påverkar den oberoende variabeln som beskriver variationen i den beroende variabeln. Med andra ord så skulle feltermen indirekt beskriva variationen i Y (Studenmund, 2014, s 101). Om feltermen och den oberoende variabeln vore positivt korrelerade så skulle till exempel den beräknade koefficienten förmodligen vara högre än den annars vore och således ge ett missvisande resultat (Studenmund, 2014, s 101). När detta antagande inte är uppfyllt beror det oftast på grund av att forskaren har uteslutit en viktig förklarande variabel vilken med enkelhet kan förklaras som omitted variable bias. För att vi inte ska bryta mot detta så har vi försökt

inkludera de variabler som vi tror har en stor påverkan på vår beroende variabel. Till vår hjälp av vi tittat på studier av Cohen et al. (2019) och Blundell-Wignall & Roulet (2013) som testat snarlika teorier och hypoteser som vi kommer att genomföra. Risken för omitted variable bias är något som vi är medvetna om kan förekomma då det finns en mängd olika variabler som kan påverka företags val gällande utdelningar, återköp och nyemissioner.

4. Observationer från feltermen är okorrelerade med varandra (ingen seriekorrelation förekommer)

Detta innebär att observationerna av feltermen är tagna slumpmässigt och oberoende av varandra, om systematisk korrelation mellan observationer från feltermen förekommer så blir det svårare att via OLS få korrekta estimat av koefficientens standardavvikelse (Studenmund, 2014, s 101). Om det till exempel skulle finnas en positiv observation av feltermen så skulle sannolikheten att observationen från nästa observation också skulle vara positiv (Studenmund, 2014, s 101). Detta innebär att båda observationerna från feltermen är positivt korrelerade och en sådan korrelation skulle bryta mot detta antagande (Studenmund, 2014, s 101).

För att testa om vi har seriekorrelation i vår modell har vi genomfört ett Durbin-Watson test vilket är en vanlig metod att använda (Studenmund, 2014, s. 333). Testet visar värden mellan 0 och 4 där ett värde nära två 2 indikerar att låg eller ingen seriekorrelation förekommer. Eftersom vi jobbar med tidsseriedata är vi mest oroliga över seriekorrelation och värden under 2 visar att det kan finnas tendenser till autokorrelation. Vi genomförde ett Durbin-Watson test som visade ett värde på 1,164589 vilket gör att vi kan förkasta nollhypotesen och således anta att det förekommer seriekorrelation i vår modell.

Studenmund (2014, s. 338) menar att ett signifikant Durbin-Watson test kan vara en indikation på att modellen lider av omitted variable bias vilket gör att vi kommer att vara extra försiktiga vid tolkningen av resultatet. För att hantera problemet med seriekorrelation kommer vi att presentera resultatet med en modell som innehåller Newey-West standardfel samt en vanlig regressionsmodell. Logiken bakom Newey-West standardfel är att seriekorrelation inte i sig påverkar koefficienten och värde i regressionen utan endast standardfelen (Studenmund, 2014, s. 342). Newey-West tester beräknar standardfel som generellt sett är mer tillförlitliga även om de är biased till följd av seriekorrelation (Studenmund, 2014, s. 342). Typiskt sett så innebär det att standardfelen i ett Newey-West test är större vilket i sin tur gör att t-värden blir större och p-värden mindre vilket minskar sannolikheten för att en koefficient ska vara signifikant skiljt från noll (Studenmund, 2014, s. 342).

Tabell 1. Durbin-watson test

5. Feltermen har en konstant varians, dvs ingen heteroskedasticitet förekommer Med detta antagande så ska variansen i fördelningen där feltermen är tagen ifrån, vara konstant (Studenmund, 2014, s 102) . Detta innebär att där observationerna av feltermen tas ifrån antas de komma från identiska fördelningar (Studenmund, 2014, s 102).

Motsatsen till detta skulle vara att variansen skulle förändras efter varje observation, det vill säga ju längre ut kommer på x-axlen desto större avstånd mellan punkterna till regressionslinjen (Studenmund, 2014, s 102). Istället ska avståndet mellan datapunkterna vara på samma avstånd till regressionslinjen hela tiden (Studenmund, 2014, s 102). Att bryta mot detta antagande skulle innebära att det fanns heteroskedasticitet i datan (Studenmund, 2014, s 103).

För att se om vi har tendenser till heteroskedasticitet i vår data har vi genomfört ett Breusch-Pagan test. Testet visar att det inte förekommer någon stark heteroskedasticitet i vår modell (p-värde 0,1145) och vi kan inte förkasta Ho om konstant varians. De tendenser till heteroskedasticitet är något som Newey-West standardfelen också tar hänsyn till och eftersom vi kommer att presentera resultatet med Newey-West så är detta något vi är anser är acceptabelt.

Tabell 2. Resultat från Breusch-pagan test

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Ho: Constant variance

Variabler: fitted values of Nettoutd_c

chi2(1) = 2.49

Prob > chi2 = 0.1145

6. Inga oberoende variabler är en perfekt linjär funktion av en annan oberoende variabel (ingen multikolinjäritet)

Perfekt multikolinjäritet mellan två oberoende variabler innebär att i själva verket är samma variabel, eller att den ena är en multipel av den andra (Studenmund, 2014, s 103).

Detta leder till att den relativa ökningen mellan en förklarande variabel matchas med exakt samma relativa ökning hos den andra variabeln även om den totala ökningen hos variablerna är densamma (Studenmund, 2014, s 103). Detta leder till att OLS

approximationen inte kan urskilja variablerna från varandra (Studenmund, 2014, s 103).

Perfekt multikolinjäritet är ofta ett resultat av att forskarna inte tar hänsyn till likheter i de till synes oberoende variablerna. Detta kan om så är fallet enkelt åtgärdas genom att ta bort en av de perfekt korrelerade variablerna från ekvationen (Studenmund, 2014, s 103).

För att undersöka om vi har multikolinjäritet har vi först tittat på en korrelationsmatris över vår data, se Tabell 1 nedan. Här är vi främst intresserade av hur de oberoende variablerna FED, KostEK-Baa och Nettolån korrelerar med varandra.

Tabell 3. Korrelationsmatris

Nettoutbetalning FED KostEK-AAA Nettolån

Nettoutbetalning 1.00

FED 0.8269 1.00

KostEK-AAA -0.0381 -0.2867 1.00

Nettolån 0.4684 0.4202 -0.4178 1.00

Tabellen visar att det råder relativt låg korrelation mellan de oberoende variablerna vilket indikerar att det modellen inte kommer att lida av multikolinjäritetsproblem och att vi inte behöver fundera om vi har två variabler som förklarar samma sak. För att säkerställa att detta antagande inte är brutet har vi låtit modellen genomgå ytterligare ett test.

Ett sätt för mäta hur betydande multikolinjäriteten i en modell är kan VIF-tester genomföras. VIF, eller variance inflation factor, testar i vilken grad en förklarande variabel redan kan vara förklarad av de andra förklarande variablerna i modellen. Testet visar ett VIF-värde för varje oberoende variabel där ett högre värde indikerar starkare multikolinjäritet (Studenmund, 2014, s 273). Det finns inget kritiskt VIF-värde som en forskare bör följa, men en vanlig tumregel enligt Studenmund (2014, s 274) är att VIF-värden över fem indikerar att multikolinjäriteten är hög.

För att vår modell ska uppfylla kravet har vi genomfört ett VIF-test som visar att väldigt liten multikolinjäritet förekommer. VIF-värdena och korrelationsmatrisen indikerar att vi inte behöver oroa oss över att antagandet inte är uppfyllt.

Tabell 4. Tabell över variablernas VIF-värden

Variabel VIF 1/VIF

Nettolån 1.38 0.727136

FED 1.24 0.808492

KostEK-BAA 1.23 0.810471

Mean VIF 1.28

7. Feltermen är normalfördelad

Det sista antagandet innebär att observationerna av feltermen är tagna från en klockformad normalfördelad fördelning som följer ett systematiskt mönster (Studenmund, 2014, s 104). Detta antagande är till största del för att testa de uppsatta hypoteserna eftersom hypotestest antar att observationerna är approximativt normalfördelade (Studenmund, 2014, s 103).

Vi gjorde ett histogram för residualerna samt genomförde ett Jarque-Bera test i STATA för att säkerställa att våra residualer är normalfördelade. Jarque-Bera testet visade ett p-värde på 0,5556. Testet kontrollerar att residualerna är normalfördelade. Nollhypotesen för testet är att residualerna är normalfördelade. Ett värde på 0,5556 gör att vi inte kan förkasta nollhypotesen om att våra residualer är normalfördelade. Tillsammans med testet är vi därmed trygga med att våra residualer är normalfördelade.

Figur 6. Normalfördelningskurva för residualerna

Related documents