• No results found

3. Metod

3.7 Test av modellens tillförlitlighet

Inom regression och mer specifikt OLS görs det olika antaganden för att just denna metod ska anses vara den bäst lämpade estimatorn, de så kallade “Classical Assumptions”. Om dessa antagande inte uppfylls är det möjligt att andra typer av metoder är bättre lämpade för att göra en uppskattning. Två av dessa antaganden som denna studies modell riskerar att inte uppfylla är först att feltermen har konstant varians och därefter att ingen förklarande variabel är en perfekt linjär funktion av någon annan förklarande variabel. Om det första antagandet inte uppfylls innebär det att modellen har drabbats av heteroskedasticitet vilket innebär att feltermen inte har konstant varians. Skulle det andra antagandet inte uppfyllas innebär det i sin tur att modellen lider av multikollinearitet där en eller flera förklarande variabler är en perfekt linjär funktion av en annan förklarande variabel. I följande del kommer homoskedasticitet och multikollinearitet att förklaras närmare och hur denna studie förhåller sig till detta (Studenmund, 2006).

3.7.1 Heteroskedasticitet

Om en regressionsmodell lider av heteroskedasticitet bryter det mot ett av de antaganden som nämndes tidigare och som måste uppfyllas för att regressionen ska vara korrekt utförd. I det antagandet som görs är alla observationer av feltermen dragna från samma fördelning som har ett medelvärde noll och en varians på σ2. Vilket i sin tur innebär att σ2 inte förändras för olika observationer. Tillståndet som beskrivs kallas för homoskedasticitet och innebär att variansen av

fördelningen är konstant. Om det istället råder heteroskedasticitet beror feltermens varians istället på varje enskild observation och således varierar variansen beroende på varje observation. Heteroskedasticitet kan uppstå i alla typer av data, men det är vanligare i data där det råder stor skillnad mellan det största observerade värdet och det minsta observerade värdet i den beroende variabeln. Dessa skillnader är vanligast i tvärsnittsdata eftersom data där kommer från samma tidsperiod, men observationerna görs av olika enheter i populationen som kan variera mycket. Det faktiska värdet för dessa feltermer är inte direkt observerbara, men utan konstant varians så kommer OLS regressionen att ge felaktiga estimat av standardfelen för koefficienterna. Standardfelen även kallat residualer är till skillnad från feltermen observerbara och representerar den verkliga skillnaden. Uttryck i en graf visas heteroskedasticitet ofta som att desto högre värde på Z desto högre varians hos residualen. Där Z är en exogen variabel som inte tillhör regressionsmodellen det vill säga det standardfel som regressionsmodellen inte kan förklara (Studenmund, 2006).

Eftersom denna studie består av tvärsnittsdata och en beroende variabel med stor variation så finns det risk för heteroskedasticitet. För att säkerställa om det finns sådan finns det olika typer av tester som kan göras i programvaran Stata. Ett av dessa är ett Breush-Pagan test där nollhypotesen är att variansen för standardfelen är konstanta och det P-värde som testas är 0.05. Om testet överstiger detta värde så innebär det att nollhypotesen inte förkastas och således är variansen för standardfelen konstant och det råder homoskedasticitet (Breush & Pagan, 1979). I våra regressionsmodeller fann vi heteroskedasticitet i flertalet av körningarna i Stata vilket presenteras i tabell 12 under Bilaga.

För att komma tillrätta med problemet med heteroskedasticitet går det använda sig av Robusta standardfel. Den typ av standardfel som använts mest är de som baseras på White (1980) arbete enligt Imbens och Kolesár (2016). Det som skiljer robusta standardfel från vanliga standardfel är att de oftast blir större, men de påverkar inte regressionskoefficienterna nämnvärt. Däremot påverkas signifikansen i modellerna eftersom det robusta standardfelet är större. Studien har valt att köra robusta standardfel i alla regressioner trots att alla inte led av heteroskedasticitet. Valet att göra så beror på att alla data i studien ska vara jämförbar och således öka studiens validitet.

3.7.2 Multikollinearitet

Ett av de antagande som bör uppfyllas för en regressionsmodell är att det inte råder perfekt multikollinearitet. Detta skulle innebära att en oberoende variabel är en perfekt linjär funktion av någon annan oberoende variabel i samma modell. Detta sker sällan likväl kan multikollinearitet vara ett problem om det är för stor korrelation mellan de olika oberoende variablerna. Givet att det finns en signifikant korrelation mellan två oberoende variabler innebär detta att om en förändras så förändras den andra lika mycket. Problemet med detta är att OLS då får svårt att urskilja vilken av variablerna som har effekt på den beroende variabeln. En bieffekt av detta är att variansen och standardfelen för estimaten ökar eftersom modellen får svårare att särskilja variablerna och kompenserar för detta (Studenmund, 2006).

För att undersöka huruvida det råder multikollinearitet är det lämpligt att utforma en korrelationsmatris. I en sådan matris kommer varje variabels korrelationskoefficient (r) anta ett värde mellan -1 och 1. Om någon av dessa variablers r-värde uppgår till de två extremvärdena innebär det att en oberoende variabel är en linjär funktion av den andra oberoende variabeln, antingen negativt eller positivt. Skulle r-värdet istället vara noll innebär det att det inte råder någon korrelation alls. Att det inte råder någon korrelation alls är föga troligt och det centrala är därmed om det uppstår för hög korrelation. Det finns ingen bestämd gräns på hur hög denna gräns är och varje studie har olika utgångspunkter. Studenmund (2006) menar däremot att 0.8 är ett vanligt värde som många studier använder sig utav och således väljer även vår studie en likadan gränsdragning. För att kontrollera de oberoende variablernas korrelation genomförs ett korrelationstest. Är studiens data normalfördelad går det att använda sig av Pearsons korrelationsmatris och är den inte normalfördelad bör Spearmans användas (More, McCabe, Alwan & Craig, 2016). Vidare menar författarna att det är svårt att avgöra om ens data är exakt normalfördelat eller inte, men enligt centrala gränsvärdessatsen antas det vara normalfördelat om urvalet består av fler än 100 observationer. Således genomfördes Pearsons korrelationstest som konstaterade att inga av de förklarande variablerna korrelerar mer än 0.8 vilket gör att vi kan utesluta multikollinearitet och således gå vidare med de utvalda variablerna. De variabler som hade högst korrelation var storlek och lönsamhet år 2018 de korrelerade 0.3166, hela resultatet presenteras i tabell 9 och 10 under bilaga.

Trots att studien inte lider av multikollinearitet enligt vår korrelationsmatris så finns det enligt Studenmund (2006) risker med att enbart förlita sig på en sådan matris. Detta beror på att när en modell innehåller flera än två variabler finns risken att ett lågt r-värde inte behöver indikera att multikollinearitet inte råder trots att ett högt r-värde skulle inneburit en hög sannolikhet för multikollinearitet. För att ytterligare säkerställa frånvaro av multikollinearitet så är det möjligt att utföra ett så kallat VIF-test (Variance Inflation Factor). Studenmund (2006) framhäver att detta är ett lätt sätt att utesluta för hög korrelation mellan de oberoende variablerna. VIF är ett index som beskriver hur mycket multikollinearitet har ökat variansen i en koefficient. Där ett högt VIF värde påvisar att korrelationen har ökat variansen som i förlängningen påverkar studiens t-värde och signifikansen hos varje variabel. Likt korrelationsmatrisen så finns det inget förutbestämt värde som definierar om det råder multikollinearitet, men en riktlinje som används är ett VIF-värdet inte bör överstiga 5. Det absolut lägsta värdet på VIF är 1 och det innebär att det inte råder någon multikollinearitet överhuvudtaget (Studenmund, 2006). I denna studie ligger VIF-värdena nära 1 till stor grad där det högsta VIF-värdet uppgick till 1.13. Detta är således långt ifrån det övre gränsvärdet och ingen multikollinearitet råder. Beräkningarna presenteras i tabell 11 under bilaga.

Related documents