• No results found

5. PRAKTISK METOD

5.1 A NTAGANDEN VID LINJÄR REGRESSION

När en kvantitativ studie görs inom det ekonomiska området är den i särklass vanligaste metoden för regressionsanalys OLS, eller minsta kvadrat-metoden. OLS står för Ordinary Least Squares och bygger på att regressionslinjen placeras så nära det observerade datamaterialet som möjligt (Stock & Watson, 2015, s. 162–167). För att kunna använda sig av minsta kvadrat-metoden för att estimera en modell krävs det att ett antal antaganden uppfylls.

5.1.1 Väntevärde noll

Det första antagandet är att feltermen skall ha ett väntevärde som går mot noll (Stock &

Watson, 2015, s. 245). Figuren nedan visar ett histogram över feltermen för regressionen skapad i studien. De gula staplarna visar feltermen. Linjen som löper över figuren med en topp över nollan är normalfördelad. Utifrån bilden går det att utröna att feltermen är approximativt normalfördelad. Det finns en tydlig centrering kring noll. Även om en del av värdena på feltermen uppgår till över tusen, kompenseras detta av tjockare, högre staplar på andra sidan. Med denna information går det att säga att antagandet att feltermen har väntevärdet noll är uppfyllt.

Fig. 13, histogram över feltermen

Enligt Stock & Watson (2015, s. 245) är detta ett av de viktigaste kriterierna att uppfylla vid användning av minsta kvadrat-metoden. Antagandet om att feltermens väntevärde är noll givet ett värde på X, utgår från principen att en del av observationerna i modellen placerar sig på ett högre värde än regressionslinjen, det vill säga att en del av värdepapperna avkastar

mer än medelvärdet i modellen. Detta innebär att feltermen är större än noll (𝑢𝑖 > 0).

Motsvarande går att säga åt andra hållet; en del av observationerna ligger under medelvärdet. Alla aktier och fonder kan givetvis inte avkasta mer än medelvärdet. Det ger att feltermen blir mindre än noll (𝑢𝑖 < 0) (Stock & Watson, 2015, s. 170–171). En del värden på feltermen kommer ha ett högre värde än noll, och några andra ett mindre. Att ett enskilt värde på feltermen skiljer sig från noll är inget problem, så länge det finns ett motsvarande värde på andra sidan nollan. Detta kommer ge att feltermens väntevärde uppgår till noll. Om så inte vore fallet finns risk för snedvridning orsakad av uteblivna variabler (Stock & Watson, 2015, s. 170–171, 245). Matematiskt skrivs detta som:

𝐸(𝑢𝑖|𝑋1𝑖, 𝑋2𝑖, . . . , 𝑋𝑘𝑖) = 0 5.1.2 Oberoende och slumpmässigt urval

Det andra antagandet som görs vid linjär regression är att urvalet skall vara oberoende och lika fördelat (Stock & Watson, 2015, s. 172, 245). Under avsnitt 4.1 där datainsamling beskrivs förklaras de variabler som modellen innefattar är i grund och botten rapporterade av delvis publika värdepappersmarknader som i sin tur får uppgifterna som de olika kurserna baserar sig på från företagen själva i form av års- och kvartalsrapporter eller av fonderna på liknande sätt. Urvalet av fonder och investmentbolag är heller inte slumpmässigt, då de nio största av respektive har valts ut.

Stock & Watson (2015, s 90) förklarar att det som menas med så kallad simple random sampling, eller ett slumpmässigt urval är att n stycken identiteter är dragna ur en och samma population, där alla identiteter i denna population har samma sannolikhet att bli vald. Värdet på den slumpmässiga variabeln Y för den i:te slumpmässigt dragna observationen benämns Yi. Eftersom alla identiteter har samma sannolikhet att bli vald och distributionen för Y densamma föra alla i, betyder det att den slumpmässiga variabeln Y är slumpmässig och oberoende. Med andra ord är distributionen av 𝑌𝑖 densamma för alla i = 1 ,...., n och alla Y är oberoende av varandra (Stock & Watson 2015, .s 89-90).

Betyder detta då att studien som genomförs faller på grund av att urvalet inte är slumpmässigt? Nej, Stock & Watson (2015, s. 172) fortsätter gällande det andra antagandet vid linjär regression och skriver att alla studier inte kan baseras på slumpmässiga urval. Ett exempel Stock & Watson (2015, s. 172) lyfter är när de identiteter studien baseras på är bestämda i förväg av forskaren. I detta fall varierar inte värdena över olika insamlingar, som det gör om urvalet är slumpmässigt och oberoende. Förenklat betyder detta att om studien som här genomförs skulle genomföras igen nästa år, så skulle kurserna för fonderna och investmentbolagen vara de samma över samma tidsperiod. När studier baseras på data enligt detta sätt brukar det kallas att X (de oberoende variablerna) är non-random eller icke-slumpmässigt utvalda och resultaten av ett icke-slumpmässigt urval gäller även om urvalet är non-random, eller icke slumpmässigt, eftersom utfallet på Y (den beroende variabeln) är slumpmässigt (Stock & Watson, 2015, s. 172–173). Avslutningsvis menar Stock & Watson (2015, s. 173) att när urvalet är non-random blir det lite speciellt. Om datat till exempel är paneldata, vilket datat som ligger till grund för denna studie är (Stock & Watson, 2015, s.

397–412), tillkommer ett antagande för att en regressionsanalys ska fungera, vilket gör att ett fjärde antagande tillkommer nedan till skillnad från om vi endast skulle gjort en regression med en oberoende variabel (Stock & Watson, 2015, s. 175, 412).

5.1.3 Stora outliers

Det tredje antagandet är att stora outliers inte får förekomma. Figuren nedan visar de indexerade kurserna över åren 1999 till 2018. Utifrån observationerna syns det att det inte finns några stora outliers i datat. Det går att argumentera för att investmentbolagens regressionslinje (Fitted values) skulle vara något flackare och eventuellt lägre ner om några av de högsta observationerna eliminerades. Att eliminera dessa känns dock felaktigt, då dessa observationer de facto beskriver utvecklingen av några investmentbolag och att eliminera dessa skulle då felaktigt försämra investmentbolagens genomsnittliga prestation.

Fig. 14, observationer

Anledningen till att stora outliers, eller extremvärden, inte ska finnas med i datat, eller antas vara osannolika är för att om sådana finns med i datat kommer OLS - minsta kvadrat-metoden att vara missvisande. Som förklarat ovan skulle studien som utförs visa ett annat genomsnitt, en annan orange linje, för investmentbolag om de tre översta observationerna eliminerades (Stock & Watson, 2015, s. 173). Stock & Watson (2015, s. 173) fortsätter att förklara detta matematiskt och då genom att X och Y upphöjt till fyra inte är lika med noll;

0 < 𝐸(𝑋𝑖4) < ∞ och 0 < 𝐸(𝑌𝑖4) < ∞

Vilket med andra ord kan förklaras som att X och Y har ändlig kurtosis (Stock & Watson, 2015, s. 173).

Stock & Watson (2015, s. 71) beskriver kurtosis av en distribution som ett mått på hur mycket massa som finns i svansarna och därför ett mått på hur mycket av variansen från Y som kommer från extremvärden. En fördelning som har kurtosis som överstiger 3 kallas för

leptokurtic eller helt enkelt tungsvansad. En fördelnings kurtosis beräknas (Stock & Watson

Det fjärde antagandet är att det inte får förekomma någon perfekt multikollinearitet (Stock

& Watson 2015, s. 412). Ett test för perfekt multikollinearitet är det så kallade variance inflation factor eller VIF-test. Ett VIF-värde över 10 anses vara en slags gräns, det innebär nödvändigtvis inte att modellen innehåller perfekt multikollinearitet men en vidare undersökning behövs enligt en supportsida för statistikprogrammet STATA från The University of Utah (2019). VIF-test för modellen som används i studien framgår nedan.

Tabell 2, VIF-test understiger 10. Med andra ord finns det ingen risk för perfekt multikollinearitet i modellen som helhet. 1/VIF är ett mått som anger tolerans och används för att se graden av kollinearitet. Ett så kallat toleransvärde lägre än 0.1 kan jämföras med ett VIF-värde på över 10. Att BNP och KPI troligtvis förklaras till hög grad av varandra är ingenting som kommer som en chock. Flertalet tester gällande vilken av dem - eller om någon av dem ens skulle vara med utfördes. Modellen anses bäst genom att ha de båda med, även ekonomisk teori talar för att de båda, inte nödvändigtvis, men troligtvis bör vara med vilket har resulterat i att de båda behålls i modellen. Notera att ett VIF-värde över 10 alternativt 1/VIF-värde under 0.1 innebär att en vidare undersökning behövs, inte att modellen är fullständigt felaktig.

Ett nytt regressionstest genomfördes där BNP och KPI togs bort från modellen. Det ledde till ett resultat med lägre förklaringsgrad, där alla variabler var signifikanta. Den modellen gav ett VIF-värde som uppgick till 2,30. Den gamla modellen behölls dock, då den hade ett VIF-värde som inte översteg problemgränsen och en högre förklaringsgrad. Ekonomisk teori talar dessutom för att både BNP och KPI skall vara med.

Perfekt multikollinearitet innebär att någon eller några variabler i modellen är en perfekt linjär funktion av någon av de andra variablerna. Stock & Watson (2015, s. 246) förklarar att det inte går att förklara den beroende variabeln med en oberoende variabel som förklaras av en annan oberoende variabel i samma modell. Om modellen innehåller detta problem så kommer respektive statistikprogram att antingen släppa en av de oberoende variablerna, alternativt vägra att kalkylera modellen. Det går med andra ord inte att skapa en regression om denna innehåller perfekt multikollinearitet (Stock & Watson, 2015, s. 246).

5.1.5 Heteroskedasticitet & slutsats

Något som utöver de fyra antagandena kan skapa problem vid linjär regression är heteroskedastiska feltermer. Att feltermerna är heteroskedastiska innebär att variansen i feltermerna ökar när värdet på X ökar (Stock & Watson, 2015, s. 204). Figuren nedan visar hur feltermen ser ut i modellen som skapats.

Fig.15, heteroskedastiska feltermer

Figuren konstaterar att feltermen är heteroskedastisk. För att kontrollera för heteroskedasticitet krävs att standardfelen korrigeras. Detta kan göras med så kallade robusta standardfel eller genom Driscoll-Kraay-standardfel, som är robusta för heteroskedasticitet och korrigerar tvärsnittsberoende. Dessa standardfel förklaras vidare i kapitel 5.3. Vid Driscoll-Kraay-standardfel antas heteroskedasticitet, oavsett om det faktiskt finns eller inte. Detta tillsammans med figur 12 ger att ytterligare tester för heteroskedasticitet inte utförs.

Om de fyra antagandena är uppfyllda och heteroskedasticitet är åtgärdat kan modellen antas förklara det som önskas förklaras på ett tillförlitligt sätt.

Om allt detta är uppfyllt, är OLS-estimatorn BLUE enligt Gauss-Markov-teoremet. BLUE står för Best (most efficient) Linear conditionally Unbiased Estimator och innebär att en matris av regressorer; X, kommer den minsta kvadrat-estimatorn, 𝛽̂1 att ha den minsta möjliga variansen av 𝛽1 (Stock & Watson, 2015, s. 210). Om antagandena ovan inte höll och heteroskedasticitet i feltermen inte åtgärdades skulle det betyda att studiens resultat, skillnaden i avkastning mellan sverigefonder och investmentbolag inte skulle estimeras på bästa möjliga sätt och resultatet skulle inte vara lika tillförlitligt.

Related documents