Kontroll av antaganden i regressionsmodell

Den multipla regressionsanalysen bygger på ett antal antaganden om variablerna som användes i analysen (Osborne & Waters, 2002). Enligt Djurfeldt et al. (2013) antar modellen bland annat att residualen är positiv och skild från noll. Det innebär att i varje analys finns det rum för andra variabler än de undersökta oberoende variablerna som har en påverkan på den beroende variabeln. Antagandet är till fördel för samhällsvetenskapliga studier eftersom en social händelse kan ha oändligt många orsaker (ibid.).

Det finns även flertalet andra antaganden som behöver uppfyllas för att modellen ska visa tillförlitliga resultat (Osborne & Waters, 2002). Om dessa antaganden inte uppfylls kan resultaten inte påstås vara pålitliga, vilket resulterar i över- eller underskattning av signifikans eller effektstorlek (ibid.). För att kunna dra pålitliga slutsatser utifrån studiens regressionsanalyser har vi därför testat modellens antaganden och säkerställt att residualen i modellen var låg. Detta ger studiens oberoende variablerna större signifikans. De antaganden som testats beskrivs närmare i kommande avsnitt.

3.6.1 Linjäritet

För att kunna utföra en multipel regressionsanalys behöver det vara ett linjärt samband mellan den beroende och de oberoende variablerna eftersom analysen endast kan uppskatta förhållandet noggrant om förhållandena var linjära i sin natur (Osborne & Waters, 2002).

Vidare menar forskarna att det finns många fall inom samhällsvetenskapen där icke-linjära relationer uppstår och därför var det viktigt att göra analyser för att undersöka icke-linjäritet.

Om förhållandet mellan de oberoende variablerna och den beroende variabeln inte var linjärt kunde resultaten av regressionsanalysen att underskatta det sanna sambandet och vid multipla regressioner fanns risker för överskattning av andra oberoende variabler som delar varians med den aktuella oberoende variabeln (ibid.).

44 Det finns flera olika sätt att identifiera icke-linjäritet (Osborne & Waters, 2002). En metod var att använda teorier och tidigare forskning som kan ge information till den kommande analysen (ibid.). Tidigare forskning har identifierat icke-linjära samband för några variabler (e.g.

Campbell & Mínguez-Vera, 2008; Carter et al., 2003; Joecks et al., 2013). Resultaten gav oss en fingervisning att våra variabler troligtvis kunde innehålla icke-linjära samband. Dock menar Osborne och Waters (2002) att enbart använda tidigare forskning för att identifiera icke-linjära samband inte är tillräckligt. Därför föreslår forskarna en annan metod för att upptäcka icke-linjäritet; nämligen genom att undersöka residualerna i diagram. Man får då ett spridningsdiagram som indikerade på om förhållandet var linjärt eller ej (ibid.). I denna studie har vi därför undersökt om det funktionella sambandet mellan beroende och de oberoende variablerna var linjärt med hjälp av spridningsdiagram.

Vid icke-linjära samband krävs det att man först linjäriserar sambandet för att kunna utföra den multipla linjära regressionsanalysen. Ett mycket vanligt sätt att hantera situationer där det finns icke-linjära samband var att logaritmiskt transformera variabeln (Benoit, 2011). Att använda logaritmen för en eller flera variabler istället för det ologaritmerade formatet gör det effektiva förhållanden icke-linjärt, samtidigt som den linjära modellen bevaras (ibid.).

3.6.2 Homoskedasticitet

Homoskedasticitet innebär att variansen på felen i variablerna ska vara jämnt fördelat genom hela regressionsmodellen (Osborne & Waters, 2002). När variansen på felen är olika för variablerna i modellen kan man misstänka att heteroskedasticitet råder (Djurfeldt et al., 2013).

Det innebär att spridningen ökar eller minskar i modellen och leder till att precisionen i modellen reduceras och i slutändan producerar modellen sämre resultat (ibid.).

För att åtgärda heteroskedasticitet i multipla regressionsanalyser kan man på olika sätt transformera de oberoende variablerna för att få en jämnare och mer rimlig spridning (Djurfeldt et al., 2013). De möjligheter som författarna nämner är bland annat genom kvadrering av de oberoende variablerna eller använda den naturliga logaritmen. Flertalet av variablerna i studien har logaritmerats och således har problem med heteroskedastisk data minskat. För att åtgärda eventuella kvarvarande problem med heteroskedastisk data klustrades även standardfelen i regressionsmodellerna. Klustringen skedde på företagsnivå. På så sätt transformerades data till mer homoskedastisk data och inga vidare åtgärder behövde utföras.

45 3.6.3 Normalitet

Att undersöka variabelns normalfördelning är av stor vikt inom regressionsanalyser. En skev fördelning på variablerna kan påverka sambandet och signifikanstester (Osborne & Waters, 2002), vilket kan innebära risker för felaktiga generaliseringar på populationen. En generell regel man kan utgå från är att ju större urvalet är, desto större är sannolikheten att urvalet är normalfördelat och det approximerade värdet på variabeln överensstämmer med det faktiska värdet (Djurfeldt et al., 2013). Enligt Stock och Watson (2015) kan approximering kring variablernas normalfördelning göras vid stora urval. Författarna menar att ett stort urval är när n > 100 och att man då kan anta variabeln normalfördelad, om det inte finns goda skäl att tänka annorlunda.

Ett statistiskt säkert sätt att undersöka normalfördelningen är att använda sig av två mått som mäter ojämn fördelning: skevhet och kurtosis (Djurfeldt et al., 2013). Skevheten mäter asymmetrin hos variabelns värden. Om diagrammet är skevt åt vänster blir måttet negativt samt skevhet åt höger innebär att måttet blir positivt. Vid en symmetrisk fördelning är alltså värdet nära 0 (ibid.). Enligt Djurfeldt et al., (2013) refererar kurtosis till fördelningens toppighet. Vid en normalfördelad variabel är värdet nära 3 i kurtosis-mått (ibid.).

För att bekräfta antagandet om normalitet undersöktes variablerna genom mätning av variablernas skewness och kurtosis. Efter en analys på undersökningen av normalfördelningen hittades goda skäl till att anta att några av variablerna inte var normalfördelade. I de fall variablerna inte var normalfördelade har dessa logaritmerats med hjälp av den naturliga logaritmen.

3.6.4 Multikollinearitet

Vid en multipel regressionsanalys kan det finnas samband mellan de oberoende variablerna var för sig eller gruppvis (Djurfeldt et al., 2013). Samvariation mellan två eller flera av de oberoende variablerna kallas multikollinearitet och kan negativt påverka regressionsanalysens förklaringsgrad (ibid.). För att testa om det fanns samvariation mellan de oberoende variablerna undersökte vi om dessa korrelerar med varandra med hjälp av Pearsons korrelationsmatris. Det förekommer ofta ett svagt samband mellan de oberoende variablerna som inte orsakar skeva resultat. Därför förväntade vi oss en viss korrelation mellan de oberoende variablerna. Dock

46 bör inte korrelationen mellan de oberoende variablerna överstiga 0,8 då detta, enligt Djurfeldt et al. (2013) tyder på starka samband mellan variablerna. Genom att beakta multikollinearitet undveks missvisande resultat i studien.

Efter analys för multikollinearitet kunde vi bekräfta att ingen av de oberoende variablerna korrelerade med varandra över den tillåtna gränsen då inget värde översteg 0,8. Således uppfylldes antagandet om icke-multikollinearitet och ingen vidare åtgärd behövde utföras.

3.6.5 Autokorrelation

Autokorrelation innebär att det existerar en automatisk korrelation mellan de oberoende variablerna. Värdet på en variabel vid tidpunkten 𝑡₁ är starkt beroende av värdet vid tidpunkten 𝑡₀. På grund av detta är autokorrelation särskilt vanligt förekommande i studier som undersöker samma variabler under en längre tidsperiod (Djurfeldt, 2009). Studiens regressionsmodeller bestod av paneldata och därför fanns risk för autokorrelation.

Genom att klustra data på företagsnivå korrigerade modellerna för autokorrelation. Således antogs feltermerna vara oberoende och problem med autokorrelation undveks.

In document Jämställdhet till varje pris?: En kvantitativ studie om finansiell prestation och jämställdhet i de svenska börsbolagens ledningsgrupper (Page 51-54)