1
Användandet av algoritmer inom investeringar kopplat till OMX30
Tillämpning av maskininlärning inom portföljhantering En K-Betydelsemetod
Skribent: Simon Larsson Olsson
Examinator: Maria Smolander, maria.smolander@sh.se Handledare: Darush Yazdanfar, darush.yazdanfar@sh.se Södertörns högskola
Kandidatuppsats 15 Hp
Finansiering | Höstterminen 2020
2
Sammanfattning
Många investerare använder olika typer av analysmetoder innan ett beslut fattas oberoende av om investeringen är på kort eller lång sikt. Valet av vilken analysmetod som används avgörs generellt av riskbenägenheten hos investeraren, avlägsnande av partiskhet och beloppsstorleken på investeringen. En metod som har studerats är användandet av maskininlärning vid analys av data. Fördelen med maskininlärning är att metoden framgångsrikt hanterar komplexa, icke- linjära och icke-stationära problem. I denna uppsats kommer det att undersökas huruvida oövervakad maskininlärning, vilket använder K-betydelsemetoden. Denna metod har inte undersökts i någon större utsträckning, varken i praktiken eller i teorin kring hur denna metod presterar jämfört med aktiemarknaden i stort.
Datan som används i denna studie för K-betydelsemetoden är historisk data från den svenska aktiemarknaden mellan 1 januari 2018 och 2 november 2020. K-betydelsens analys består av avkastningen av samtliga aktier som inkluderas inom OMX30 och den genomsnittliga avvikelsen, vilket skapade ett kluster med 11 aktier som kunde generera en relativ hög avkastning jämfört med resterande aktier.
För att analysera om de genererade klustren var acceptabla gjordes en analys av sharpe-ratio och nedåtgående risk, vilket visade att portföljen hade en bra riskjusterad avkastning men ett sämre resultat på nedåtgående risk.
Nyckelord: Maskininlärning, K-betydelse, oövervakadinlärning, aktiemarknad, OMX30, portfölj, diversifiering
3
Abstract
Many investors use different types of data methods before making a decision, regardless of whether it is long or short term. The choice of which analysis method is generally determined by risk, removal of bias and the cost. One method that has been investigated is the use of machine lerning in data analysis. The advantage of machine lernig is that the method
successfully handles comples, non-linear and non-stationary problems. In this essay, it will be investigated whether unattended machine learning, which uses the K-meaning method, which is a method that has not been investigated to any great extent either in practice or in theory to create a beneficial portfolio.
The data used for the k-meaning method was historical data from the Swedish stock market between 1 January 2018 and 2 November 2020. The k-meaning analysis consists of the return of all shares included within OMX30 and the average deviation, which created a cluster of 11 shares that could generate a relatively high return compared to the remaining shares.
To analyze whether the generated cluster were acceptable, an analysis of the sharpe-ratio and downward risk was preformed, which showed that the portfolio had a good risk-adjusted return but a worse result on downward risk.
Keywords: Machine learning, k-means, unsupervised learning, stock market, OMX30, portfolio, diversification
4
Förord
Jag vill uttrycka min tacksamhet till alla personer som har stöttat mig direkt eller indirekt under detta forskningsprojekt. Först och främst vill jag uttrycka min djupaste och uppriktiga tacksamhet till min handledare doktor Darush Yazdanfar för att ge ovärderlig vägledning genom hela processen. Jag vill också tacka medstudenter för alla synpunkter och värdefulla råd.
5
Ordlista
HTF Högfrekvenshandel
Decimalicering Prissättning i decimalform på aktiemarknaden
Fragmentering En aktie vilket handlas över flertalet marknadsplatser
NYSE New York aktiemarknad
NASDAQ USA aktiemarknad
Dark pool Privata aktiemarknader för handel med värdepapper som inte är tillgängliga för investerare
Day-trader Investerare som köper och säljer värdepapper under samma handelsdag för att skapa en vinst
Diversifiering Att sprida sin riskexponering genom investeringar i flertalet branscher och produkter
Systematisk risk Risk som är förknippad med konjunkturer, världshändelser, räntor och tillgång på råvaror samt kapital.
Synkretisk risk Lagändringar, skattereformer, räntehöjningar, naturkatastrofer, politisk instabilitet, förändringar i utrikespolitiken,
valutavärdeändringar, bankers misslyckande, ekonomiska lågkonjunkturer.
OMX30 De trettio mest omsatta bolagen på stockholmsbörsen OMX S. All-share Samtliga aktier listade på stockholmsbörsen
PCA Huvudkomponentsanalys
MPT Moderna portföljteorin
AI Artificiellintelligens
EMH Effektiva marknadshypotesen
SSE Summan av kvadratiska skillnader mellan samtliga observationer och dess grupps medelvärde
6
Innehållsförteckning
1 Inledning ... 8
1.1 Bakgrund ... 8
1.1.1 Aktiemarknaden och Stockholmsbörsen ... 8
1.1.2 Risktagande på aktiemarknaden ... 9
1.1.3 Högfrekvenshandel och användandet av algoritmer på aktiemarknaden ... 10
1.1.4 För- och nackdelar med högfrekvenshandel och användandet av algoritmer ... 10
1.1.5 Maskininlärning och användande av algoritmer samt K-betydelsemetoden ... 11
1.2 Problemformulering ... 11
1.3 Forskningsfråga ... 11
1.4 Syfte ... 12
1.5 Avgränsningar ... 12
2 Teori ... 14
2.1 Den effektiva marknadshypotesen ... 14
2.2 Diversifiering... 14
2.2.1 Strategisk tillgångsallokering ... 15
2.2.2 Taktisk tillgångsallokering ... 15
2.3 Principal component analysis ... 15
2.4 Modern portföljteori ... 16
2.5 Maskininlärning ... 16
2.5.1 Övervakad & oövervakad maskininlärning ... 16
2.5.2 K-Betydelse kluster ... 17
2.6 Tidigare forskning ... 18
2.7 Hypotes ... 22
3 Metod ... 23
3.0.1 Forskningsstrategi ... 23
3.1 Val av data ... 23
3.2 Datainsamling ... 23
3.3 Databehandling ... 23
3.4 Utvärderingsmetoder ... 24
3.4.1 Armbågsmetoden ... 25
3.4.2 Beräkning av varians av valda kluster ... 26
3.4.3 Bedömning av testresultat ... 27
3.5 Prestation & riskanalys ... 27
3.6 Validitet och Reliabilitet ... 27
3.7 Etiska betänkligheter ... 27
7
4 Resultat ... 29
4.1 Bearbetning av insamlad data ... 29
4.2 K-betydelsens resultat ... 29
4.2.1 SSE-poäng av data ... 29
4.2.2 K-betydelsemetoden med K=6 ... 30
4.2.3 Tillämpning av K-betydelsen i undergruppskluster 1,3,4,5 ... 30
4.2.3.1 K-betydelse för undergruppskluster... 31
4.3 Diversifieringav den slutgiltiga portföljen ... 31
4.4 T-test av studien ... 32
4.5 Sharpe-kvot ... 33
4.6 Negativ risk vid investering ... 33
5 Analys ... 34
6 Diskussion ... 37
6.1 Styrkor och svagheter ... 38
6.2 Betydelse ... 40
6.3 Framtida forskning ... 40
7 Slutsats ... 41
Källhänvisning ... 42
Elektroniska Källor ... 47
Källhänvisning till ekvationer ... 48
Bilagor ... 49
Bilaga 1 ... 49
Bilaga 2 ... 50
Bilaga 3 ... 51
Bilaga 4 ... 52
Bilaga 5 ... 53
Bilaga 6 ... 54
8
1 Inledning
Detta kapitel består av fem avsnitt. De första avsnitten är en allmän bakgrund, vilket skall presentera grundläggande information för ämnet. Det andra avsnittet är problemformulering vilket följs av forskningsfrågan och därefter syftet. Avslutningsvis presenteras avgränsningar för studien.
1.1 Bakgrund
1.1.1 Aktiemarknaden och Stockholmsbörsen
En aktiemarknad är en handelsplattform där handel med värdepapper sker (Kamal, 2013).
Denna handel kan ske på olika plattformar men den vanligaste typen är en aktiebörs, till exempel Stockholmsbörsen eller NASDAQ. Den största delen av handeln på Stockholmsbörsen utgöras av en andrahandsmarknad av aktier (Kamal, 2013). Dagens investerare på Stockholmsbörsen är svenska hushåll, utländska ägare samt institut (Boxir, 2020) som ställer höga krav på den finansiella marknaden. Dessa krav innefattar bland annat transparens och tillgänglighet på aktier (finansinspektionen, 2001).
Den främsta anledningen till att aktiemarknaden existerar är att möjliggöra för investerare att köpa aktier men även för organisationer att kunna sälja en del av sitt företag (Sveriges rikes lag, 2018). Aktiemarknaden fungerar som en medlare mellan investerare och företag och skapar säkerhet för båda parter (Atack & Neals, 2009). Anledningen till att företag skulle sälja delar eller hela organisationen är vanligtvis för att skapa en viss likviditet för företaget, vilket i sin tur kan ge organisationen många fördelar, exempelvis att göra det möjligt för organisationen att kunna växa snabbare eller för att lära känna sitt eget värde på marknaden (Atack & Neals, 2009). Huvudmotivet för investerare att köpa aktier i en organisation är en förväntan på en positiv avkastning framöver (Schreder, 1962).
Stockholmsbörsen som även agerar under namnet Nasdaq Stockholm är den primära aktiemarknaden som är verksam i Sverige med över 200 nordiska aktier. Sektorn för dessa företag är grundläggande material, konsumtionsvaror, konsumenttjänster, ekonomi, vård och omsorg, industri, råvaror, teknik, telekommunikation och verktyg. Utöver detta är det viktigt att notera att det finns ett index som heter OMX30 vilket inkluderar de trettio mest omsatta aktierna på Stockholmsbörsen. Detta index är skapat för att representera hela den svenska aktiemarknaden. (Nasdaq,2020) (omxs30,2020).
9 Likviditeten på en aktie avgörs av hur stor handeln är i den aktuella aktien. En större handel leder till högre likviditet och gör det enklare för investerare att köpa och sälja det aktuella värdepappret. En hög likviditet leder ofta till att fler investerare är intresserade av att handla med den underliggande aktien då en låg likviditet leder till svårigheter och högre kostnader för att köpa och sälja aktien. Prissättningen på aktiemarknaden sker löpande och innebär att globala händelser eller nyheter i det underliggande bolaget kan leda till snabba och stora kursförändringar. Volatiliteten i en aktie innebär kursförändringar i aktien, en hög volatilitet innebär stora kursförändringar gentemot medelvärdet på aktien. (Malagon, et al., 2018).
1.1.2 Risktagande på aktiemarknaden
Studier tyder på att investerare med en kortsiktig investeringshorisont är mer intresserade av irrationell felprissättning eller rationella förskjutningar i underliggande riskpremier medan investerarna med en längre horisont är betydligt mer intresserade av långsiktiga komponenter.
En viktig faktor som påverkar valet av en lång- eller kortsiktig investering är den underliggande risken i investeringen, till exempel risken för felprissättning och risken för bolagskonkurs.
(Botshekan & Lucas ,2017) Enligt Liu finner vi ingen korrelation mellan risk och avkastning på kort sikt. På lång sikt finner vi dock en signifikant positiv korrelation mellan risk och avkastning för den kinesiska aktiemarknaden, vilket kan bero på rationaliteten på lång sikt.
Däremot på kort sikt finner vi inte samma korrelation på grund av det som Liu kallar för kaos, vilket innefattar risken för under- och övervärdering kopplat till informationsflöden och globala händelser (Liu, 2020).
En faktor som minskar risken i portföljen är diversifiering. Detta görs vanligtvis genom att investera i företag som normalt sett inte påverkar varandra (Crezée & Swinkels, 2010) (Bessler, et al, 2017). Enligt Kryzanowski så fungerar diversifiering så att den totala risken för en portfölj konvergerar till ”Systematisk eller marknadsmässig eller icke-synkretisk risk eftersom portföljens storlek tenderar att vara oändlig” (Kryzanowski, 2010). Detta innebär att om en aktie plötsligt faller i pris innebär det inte att hela aktiemarknaden faller.
Sharpe-ratio, även känd som Sharpe index, används ofta som ett alternativ för att beräkna en investerings resultat efter justering för dess risk. Resultat av sharpe-ratio som är under 1 anses dålig, överstiger 1 anses bra, överstiger 2 anses mycket bra och över stiger 3 anses som exceptionellt bra. (Kaplanski et al, 2016) (Corporate Finance Institutet, 2020).
10 1.1.3 Högfrekvenshandel och användandet av algoritmer på aktiemarknaden
I samband med att den amerikanska aktiemarknaden decimaliserades, började handlas i cent och inte enbart hela dollar, och att enskilda aktier fragmenterades, började handlas på flertalet olika marknadsplatser, så uppstod det som kallas för högfrekvenshandel (HFT). HFT har och fortsätter att utvecklas kontinuerligt i och med digitaliseringen. Investerare tänker sällan på att liknande fenomen har funnits sedan aktiemarknaden introducerades år 1862 då institutionella handlare som på bästa sätt försöker utföra kundordrar och day-trades med förhoppningen om en positiv avkastning genom att köpa aktier billigt och sälja dem dyrt, skillnaden med HTF är enbart att den utförs elektroniskt. (Vindevåg, 2016) HFT påverkar eventuellt enskilda aktier men också aktiemarknaden som helhet (Idrees,2019).
1.1.4 För- och nackdelar med högfrekvenshandel och användandet av algoritmer
HFT skapar både för- och nackdelar för investerare på aktiemarknaden så som ökad likviditet men också en lägre volatilitet. Att använda sig av algoritmer inom aktiehandeln kan innebära att mer rationella beslut fattas och att de emotionella aspekterna kopplade till beslutsfattandet elimineras.
HFT kan dock även leda till felaktiga beslut i oförutsedda situationer. En konsekvens av att finansmarknaderna automatiseras är en högre omsättningshastighet och då finns det mindre tid för mänsklig eftertanke i stressade situationer. (Brownlee,2018)
Knight Capital var ett bolag som ägnade sig åt HFT och som 2012 förlorade över 460 miljoner dollar på en halvtimme efter teknisk problematik med en algoritm. Företaget återhämtade sig aldrig efter denna händelse trots att Knight Capital innan det var den största aktören på den amerikanska marknaden med sina 17,3% marknadsandelar på New York Stock Exchange (NYSE) samt 16,9% på NASDAQ och med sina handelsvolymer som uppgick till 3,3 miljarder affärer om dagen.
(Securities Exchange act, 2013) Studier kring HFT kan eventuellt förhindra liknande händelser att uppstå vilket i sin tur kan förhindra ekonomiska krascher på marknader som HFT och algoritmer används på (Hagströmer & Nordén,2013).
Även om flertalet personer förknippar HFT med enbart negativa aspekter kan HFT bidra till en mer gynnsam likviditet samt en stabiliserad volatilitet på marknaden. Detta gynnar de privata investerarna likväl som företag och institut i en stor utsträckning. Utvecklingen det senaste decenniet visar också stora regelförändringar som gjort marknaden väldigt fragmenterad, att enskilda aktier handlas på flertalet olika marknadsplatser. Det gynnar robothandlarna som använder sig av HFT, men skapar en komplex och svårhanterlig situation för övriga investerare på aktiemarknaden.
När samma värdepapper handlas på många olika handelsplatser, så som alternativa aktiemarknader
11 och så kallade dark pools är det svårare för övriga investerare att få överblickpå vad som pågår på aktiemarknaden. (Brogaard et al, 2018) (Hagströmer & Nordén,2013). Utöver detta skall investerare som ej använder sig av HFT eller algoritmer ta hänsyn till hur lång- eller kortsiktig investeringen skall vara. Detta gör investeringarna än mer komplexa. (Brogaard et al, 2015) 1.1.5 Maskininlärning och användande av algoritmer samt K-betydelsemetoden
Maskininlärning är en typ av inlärningsmetod hos robotar. Det är en beräkningsmetod som medför en viss grad av intelligens och som har visat sig vara framgångsrik inom flertalet olika områden som kräver analyser av datamängder som är komplexa till sin natur. Detta gör att det även har använts på aktiemarknaden och det har visat sig att det leder till en ökad avkastning i aktieportföljen. (Verbraeken, 2020) Det finns flertalet olika typer av maskininlärning varav en kallas för oövervakad maskininlärning. Denna kräver en specifik algoritm som skapar, sammansätter samt analyserar portföljen vilket kallas K-betydelsemetoden (Zhu et al, 2018).
K-betydelsemetoden har inte använts i någon större utsträckning på aktiemarknaden vilket gör studier av denna metod aktuella. Detta för både dagens och framtidens forskning, och för att kunna skapa en förståelse för händelser som inträffar på aktiemarknaden kopplade till användande av algoritmer och i förlängningen HFT.
1.2 Problemformulering
Den huvudsakliga anledningen till att investerare börjar agera på aktiemarknaden är att skapa en positiv avkastning i sin aktieportfölj (Schreder, 1962) (Blaurock et al, 2018). HFT skapar både för- och nackdelar för investerare på aktiemarknaden vilket gör ämnet högst aktuellt att studera. Om man som investerare uppfattar att klimatet på aktiemarknaden är styrt av algoritmer som agerar på marknaden och att det möjligen missgynnar investerarna så kan det tänkas skapa en oro. Det kan resultera i att investerare avstår från en eventuell entré på aktiemarknaden då den kan uppfattas som abstrakt redan innan algoritmer adderas. (Hurd & Rohwedder, 2012) 1.3 Forskningsfråga
• Vilka samband finns det mellan användning av algoritmer för portföljsammansättning och högre avkastning på investeringar på Stockholmsbörsen?
12
1.4 Syfte
Syftet med studien är att undersöka huruvida en sammansatt portfölj baserad på en algoritm framtagen med K-betydelsemetoden genererar en högre avkastning jämfört med index OMX30 på Stockholmsbörsen under perioden 1 november 2017 till 2 november 2020.
1.5 Avgränsningar
Studien kommer att analysera effekten av användandet av algoritmer kopplat till OMX30 inom tidsintervallet 1 november 2017 till och med den 2 november 2020. Denna avgränsning görs då OMX Stockholm All-share (förkortas OMXS och är ett index som inkluderar samtliga noterade bolag på stockholmsbörsen) korrelerar väl med OMX30 men med en något förhöjd volatilitet på OMXS (nasdaqomxnordic,2020). Dessutom begränsas studien till OMX30 med hänsyn till den begränsade tid som finns för utförandet av denna studie. En ytterligare faktor till att använda OMX30 i studien är att insamling av datan blir enklare men även effektiv (Denscombe, 2014).
För att skapa en rättvis bild av den aktuella aktiemarknaden, som även passar in i dagens marknadsförhållanden, gjordes periodavgränsningen med syftet att få tillräckligt med aktuell data.
En sammanfattning av samtliga källor som använts i bakgrunden finns sammanfattade i tabell 1.
Tabell 1. Sammanställning av källor till bakgrundsinformation och relevans för studien
Författare År Land Urval Relation till uppsatsen
Schreder 1962 USA Dow-Jones
Period: 1949–1961
Syftet med aktieinvesteringar Finansinspektionen 2001 Sverige Svenska investerare Krav på aktiemarknaden Atack & Neals 2009 England Litteratur Grunden till notering på
aktiemarknaden Crezée & Swinkels 2010 Holland S&P 500,
period: 2000–2009
Diversifiering Kryzanowski 2010 Kanada TSX-börsen,
Period 1975–2003
Diversifiering Hurd,MD &
Rohwedder
2012 USA 31 observationer på den amerikanska aktiemarknaden
Period: 2008–2011
Synen på aktiemarknaden
Hagströmer &
Nordén
2013 Holland OMX30,
Period: 8/2–10 – 31/3–12
Synen på HFT
Kamal 2013 Turkiet Data från olika marknadsuppkomster Utvecklingen av aktiemarknaden Securities
Exchange act of 1934
2013 USA Knight Capital Group Period: 2012–2013
HFT:s negativa påverkan
Denscombe 2014 England Litteratur Forskningsurval
Brogaard et al. 2015 Sverige OMX30,
Period: 2012 – 2014
Investeringshorisont
Kaplanski 2016 Sharpe-kvot Tolkning av sharpe-kvot
Vindevåg 2016 Sverige Stockholmsbörsen Aktiemarknadens grundande
Bessler et al. 2017 England, Wales
Black-Litterman modellen Period: 1993–2011
Diversifiering Botshekan & Lucas 2017 England S&P 500,
Period: 1963–2012
Investeringshorisont
13
Blaurock et al. 2018 USA 9000 observationer
från Thomson Reuters Datastream
Syftet med entré på aktiemarknaden Brogaard, et al. 2018 Sverige Data från NASDAQ,
Period: 2008–2009
HFT:s påverkan
Brownlee 2018 Australien Litteratur Tillvägagångsätt inom handel
Malagon, et al. 2018 Colombia Data från CRSP (Chicago Research Stock Prices), NYSE, AMEX &
NASDAQ Period: 1963–2015
Likviditet & volatilitet
Sveriges rikes lag 2018 Sverige Aktiebolagslag (2005:551) Lagar och regler kring aktier Zhu, X. et al. 2018 Kina Feature Selection Using Similarity
(FSUS)
Multi‐Cluster‐based Feature Selection (MCFS)
K-betydelsen
Idrees 2019 Indien NSE-börsen
Period: 2012–2016
Krav och påverkan på marknaden
Hagströmer 2019 Sverige Intervju HFT:s grundande
Boxir 2020 Sverige OMXS Ägarfördelningen på OMXS
Corporate Finance 2020 USA Sharpe-kvot Tolkning av sharpe-kvot
Nasdaq 2020 Sverige OMXS Jämförelseindex
Nasdaqomxnordic 2020 Sverige OMXS & OMX30 Korrelation mellan OMXS &
OMX30
OMXS30 2020 Sverige OMX30 Jämförelseindex
Liu 2020 Litauen Shanghai & Shenzhen börsen, Period: 1997–2017
Risk och avkastning Verbraeken 2020 USA Oövervakadmaskinlärning,
Period: 2020
Maskinlärning
14
2 Teori
Detta kapitel presenterar teorier samt tidigare forskning vilket har legat till grund för studiens metoder, data och analyser vilket slutligen avslutas med hypotesen vilket är kopplat till studien.
2.1 Den effektiva marknadshypotesen
En hypotes som bör noteras vid analys av aktiemarknaden är den effektiva marknadshypotesen (EMH) vilket grundar sig i att det inte bör finnas någon vinst genom analys på aktiemarknadens data. Enligt EMH ska priset på en aktie alltid samt fullständigt återspegla all tillgänglig information om samtliga företag som inkluderas på aktiemarknaden. (Fama, 1970).
Däremot motbevisas hypotesen genom att avancerad datainsamling samt analyser av marknaden kan generera en högre avkastning. Man menar på att investerares reaktioner på marknaden men också ofullständig information skapar anomalier, men i allmänhet är marknaden fortfarande effektiv. (Lekovic,2018). Warren Buffet som är en av de mest kända investeraren i världen, hävdar att många investerare uppnår en högre avkastning på aktiemarknaden än vad indexfonder gör. Vilket också skulle tyda på att marknaden är ineffektiv till viss mån. (Business Insider, 2010).
Tidigare forskning antyder därför att det finns två uppenbara problem med den effektiva marknadshypotesen. Den första typen av problematik ligger i teoretiska paradoxer, det vill säga inkonsekvenser i teorin. En av de viktigaste paradoxerna är att om investerare på aktiemarknaden ansåg att marknaden var effektiv skulle marknaden upphöra. Detta eftersom eventuella avslöjanden av övervärderade/undervärderade aktier ej skulle existera. (Grossman
& Stiglitz, 1980) (Fama, 1970).
Den andra problematiken är om deltagarna på aktiemarknaden ansåg att aktiemarknaden var fullt ut ineffektiv vilket skulle resultera i att marknaden på sikt skulle bli allt mer effektiv.
Däremot skulle marknaden initialt vara mindre intressant att undersöka då informationsflödet skulle vara lågt. (Grossman & Stiglitz, 1980) (Fama, 1970). Utöver detta hävdar Grossman och Stiglitz att marknadsaktörer som arbetar för att skapa och stimulerar utvecklingen av den effektiva marknaden måste få en ersättning för sitt agerande vilket skulle vara direkt felaktigt då EMH förnekar all möjlighet till ekonomisk ersättning. (Grossman & Stiglitz, 1980)
2.2 Diversifiering
Anledningen till att flertalet personer väljer att avstå från att investera på aktiemarknaden är på grund av riskuppfattningen (Aragó & Fernández-Izquierdo, 2003) (Alltommarknaden, 2019).
15 Ett signifikant sätt att minska risken i sin portfölj är med hjälp av diversifiering, däremot finns det studier som antyder att ett större antal innehav i portföljen kan påverka avkastningen negativt (Alexeev & Dungey, 2015) (Sharma & Vipul, 2018). Detta eftersom en portfölj med ett stort antal olika tillgångar troligtvis medför stora driftkostnader samt avgifter (Alexeev &
Dungey, 2015) (Sharma & Vipul, 2018). Tidigare studier visar att man som investerare kan ha en mångsidig portfölj med hjälp av 6–15 olika tillgångsslag (exempelvis aktier, råvaror och obligationer) i portföljen (Alexeev & Dungey, 2015). Utöver detta skall investeraren ta hänsyn till hur portföljfördelningen skall se ut baserat på en procentuell fördelning eller substansvärdet som skall investeras. I denna studie kommer det göras ett försök att automatisera denna process enbart genom att inkluderas aktier vilket exkluderar övriga typer av tillgångar som innefattas inom diversifiering och allokering exempelvis: obligationer, råvaror, räntor, valutor och global exponering (ibid). Genom att generalisera allokering kan det kategoriseras till två grundläggande typer av allokering vilket är strategisk och taktisk tillgångsallokering.
2.2.1 Strategisk tillgångsallokering
Det är den traditionella metoden som i princip innebär att bibehålla en väl allokerad portfölj och inte ändra fördelningen baserat på tillgångsallokering. Det är helt i linje med investerarens mål och risk men tar heller inte hänsyn till några positiva eller negativa nyheter om tillgången. Vilket denna studies portfölj kommer att utgå ifrån. (Butler et al, 2016).
2.2.2 Taktisk tillgångsallokering
Taktisk tillgångsallokering är en mer modern jämfört med den strategiska. Denna strategi baseras övergripande på tre olika värdepapper; främst aktier, obligationer eller likvida medel.
Den grundas på relativa resultat av tillgångsslag och kortsiktiga justeringar i tillgångsallokering görs ofta. På så sätt kan portföljen prestera en högre avkastning och därmed prestera bättre än jämförelseindex. In- och utträde i tillgångar måste på så vis tidsoptimeras. (Butler et al, 2016) (Bellu &Conversano, 2020).
2.3 Principal component analysis
Många analytiker använder sig av en metod som kallas för principal component analysis (PCA metoden). Denna metod är väl testad inom flertalet områden, allt ifrån statistik till medicinsk forskning. PCA skapar artificiella variabler vilket i sin tur skall maximera variationen av variablerna i analysen. Detta görs för att identifiera korrelationen mellan aktier och med hjälp av detta kan investerare skapa sig en väl diversifierad portfölj genom att analysera två eller fler oberoende variabler, baserat på algoritmisk applikation av komponenter som märks utifrån en given heuristik. (Sharma & Vipul,2018).
16
2.4 Modern portföljteori
Ett alternativ till PCA-metoden är den så kallade Modern portföljteori (MPT) (Markowitz,1952). MPT försöker att maximera portföljens förväntade avkastning baserat på riskfaktorerna i investeringarna (Markowitz, 1952) (Esfahani, et al, 2016). Teorin bakom MPT är att inkludera olika tillgångar vilket inte fullständigt korrelerar med varandra och där med skapar en mindre risk i portföljen utan någon negativ påverkan gällande avkastning (tillgångsallokering). Detta tillvägagångssätt ignorerar den kortsiktiga finansmarknads- dynamiken som investerare exponeras för, som i allmänhet fokuserar på mål med en begränsad tidshorisont. Faktum är att den teoribaserade optimala portfördelningen är känsliga för avkastningsförväntningar, som vanligtvis är svåra att fastställa. Utöver detta kan historiska avkastningar resultera i missvisande utgångspunkter för framtida avkastning (Ni et al, 2011) Med denna typ av problematik i åtanke används liknande tillvägagångsätt som i MPT i denna studie, genom att använda sig av medelvariansen för att utvärdera hur stora riskfaktorerna är i portföljen (Markowitz, 1952) (Esfahani, et al, 2016) och därefter att jämföra den årliga avkastningen samt medelvariansen för bolagen som inkluderas i OMX30.
2.5 Maskininlärning
Maskininlärning är en undergrupp till artificiell intelligens (AI) som har på senare tid växt sig oerhört populär bland olika typer av dataanalys (Moreo, et al, 2019). Den huvudsakliga filosofin bakom AI är att skapa en ”smart” maskin med hjälp av olika typer av beräkningar samt algoritmer (Alloghani, et al, 2020). Steget efter detta är att inte bara skapa en ”smart” maskin utan en maskin som även kan lära sig själv baserat på tidigare utfall. Detta görs med hjälp av datakoder vilket genereras med hjälp av beräkningsanalyser och statistik som i sin tur ligger till grund för maskinens beslutsfattande/agerande. (Moreo, et al, 2019).
2.5.1 Övervakad & oövervakad maskininlärning
Övervakad maskininlärning innefattar alltid någon typ av data sedan tidigare som skall representera all typ av data. Den tidigare datan är oftast ett resultat som innefattar någon typ av
”rätt svar”. Vanligtvis krävs det någon eller några metoder för att skapa denna typ av sammanställning innan analytiker kan använda sig av en övervakad inlärningsmetod.
(Abhijit,2017)
Oövervakad maskininlärning innebär att man presenterar en funktion där utfallet inte är känt och där ”rätt svar” ej är angett. Exempel på detta kan vara historisk data. Om en analytiker skall använda sig av oövervakad maskininlärning krävs det en formel alternativt en beräkning vilket
17 kontinuerligt räknar ut vad händelseförloppet skall utmynna i. Dessa typer av mönster som beräknas måste analytikern bedöma om resultaten är rimliga för användning inom en oövervakad inlärningsmetod. Vi kan även se liknade inlärningsmetoder hos oss människor. Om ett litet barn exponeras mot en bild på en bil vid flertalet tillfällen och sedan ser en bil köra förbi vid ett promenadtillfälle kommer barnet att känna igen att det är en bil. Även om bilen skulle sakna visa delar kan vi väldigt snabbt avgöra vad vi ser framför oss. (demenscentrum,2020) Vad som är mycket svårare än att avgöra om det är en bil man ser framför sig är att se mönster eller göra beräkningar som skall ligga till grund för investeringar, exempelvis trender vilket ses i figur 1 (Miroslav, 2017).
a)
b)
Figur 1. Exempel på trender på aktiemarknaden. På y-axlarna anges pris per aktie i kronor och på x-axlarna anges antal handelsdagar på aktiemarknaden. I figur 1a ses exempel på en uppåtgående trend på aktiemarknaden. I figur 1b ses exempel på en nedåtgående trend på aktiemarknaden.
I denna studie kommer användningen av oövervakat lärande användas då målet är att utesluta den mänskliga interaktionen i så stor utsträckning som möjligt och även undersöka huruvida maskiner kan göra bättre bedömningar vid investeringar jämfört med mänskliga individer.
2.5.2 K-Betydelse kluster
När man använder sig av oövervakat lärande finns det flertalet metoder att använda beroende på vad forskaren söker för resultat eller hur datan presenteras för forskaren. En välanvänd metod vid analys av oövervakat lärande är K-betydelsen (Jha & Saha, 2019) (Kyan et al., 2014).
Genom denna metod skapas det kluster, vilket är ett sätt för forskaren att avslöja eventuella
0 5 10 15
0 2 4 6 8 10 12
0 5 10 15
0 2 4 6 8 10 12
18 grupper av observationer, trender, kraftigt avvikande data jämfört med medelvärdet (så kallade outliners) samt likheter mellan testerna (Eriksson et al., 2013) (Kyan et al., 2014).
Målet med K-betydelsen är att dela upp ett datarum i K-prototyper vilket betyder att forskaren bestämmer hur många datauppsättningar analysen skall innefatta (Antal kluster = K).
För att bestämma centrumpunkterna för K kan en slumpmässig process göras alternativt ett aktivt val. Denna process upprepas tills det inte finns någon större förbättring av antalet kluster, vilket kan ses som ett optimalt antal kluster. Denna procedur görs för att minska kvadratavståndet (SSE) mellan alla prover och deras representativa prototyper (Kyan et al., 2014), vilket innebär att man söker ett så lågt SSE värde som möjligt.
Slutligen kan resultatet analyseras med ett T-test om vi antar att den insamlade datan är normalfördelad, vilket denna studie har utgått ifrån. Om datan inte skulle betraktats som normalfördelad, kan man använda sig av Kruskal-Wallis-testet för att genomföra hypotesprövningen som krävs för studien. (Bargagliotti et al, 2015)
2.6 Tidigare forskning
En metod för att framställa algoritmer för att generera en portfölj som genererar en högre positiv avkastning är K-betydelsemetoden vilket vi har undersökt i vår studie. K-betydelsemetoden och dess användning på aktiemarknaden är ej särskilt väl studerad och mängden forskningsresultat är begränsad. Den forskning som däremot har gjorts på området har sammantaget talat för att K-betydelsemetoden kan användas för att generera en högre positiv avkastning på portföljen jämfört med jämförelseindex. K-betydelsemetoden har tidigare använts inom andra områden där kategorisering och klustersammansättning används. Inom dessa områden har K-
betydelsemetoden visat sig vara en effektiv metod.
Det har gjorts ett antal tidigare empiriska forskningar vilket angriper kunskapen och tillvägagångsättet med att använda sig av K-betydelsen inom diversifiering och portföljhantering. Chen och Xu (2014) utformade sin studie baserat på K-betydelsen vilket var den uteslutande metoden att analysera sex slumpmässigt utvalda aktier på Shanghaibörsen under perioden 2000 till 2012. Forskarna ville visa med sin studie att man kan skapa en väl presterande portfölj utan några komplicerade matematiska modeller och tidskrävande uppskattningar. För att visa potentialen av metoden antogs problematik gällande portföljval i flertalet perioder, utöver detta antas ett dynamiskt riskmått vilket är överlägset större än vad
19 tidigare litteratur antar. Slutligen gjordes en serie numerisk experiment på de aktier vilket inkluderades inom studiens avgränsningar. Resultatet i studien var signifikant och visade att användandet av K-betydelsemetoden ledde till en positiv riskjustering samt en positiv högre avkastning på portföljen. (Chen & Xu, 2014).
Korzeniewski (2017) såg en efterfråga födas när investerar använde sig av statistiska modeller för att skapa sig en väl diversifierad portfölj och därmed optimera sina positioner på aktiemarknaden. I studien som skulle möta investerarnas behov används K-betydelsemetoden i en kombination med Partitioning Around Medoids (PAM), vilket ska generera ett antal portföljpositioner samt välja olika klusterrepresentanter baserat på prestation. Studien visade att användandet av K-betydelsemetoden i kombination med PAM gav en högre positiv avkastning på investeringen baserat på de tjugo mest likvida aktierna på Warszawabörsen (WIG20) under perioden 2011 till 2014. Resultatet var signifikant. (Korzeniewski, 2017) 2008 genomförde Marney en studie där K-betydelsemetoden användes i kombination med self- organizing map (SOM). SOM är en metod som används inom neurala nätverkstekniker, dessa tekniker är ett samlingsnamn av beräkningar och algoritmer som möjliggör att artificiell intelligens att blir självlärande. Studien granskar de hundra största bolagen på Londonbörsen under perioden 1993–2003 och visar att det inte finns någon signifikans gällande användandet av dessa metoder och en högre positiv avkastning på aktiemarknaden. Forskaren gör antagandet att aktiemarknaden fortsätter att bli effektivare som ett resultat av ökad kollektiv förståelse i kombination med att allt mer kraftfulla dataanalystekniker används. (Marney, 2008).
Från artikeln av Elazouni (2006) kan vi se att klustersammansättningar med hjälp av K- betydelsemetoden kan användas även utanför aktiemarknaden, vilket i denna studie genererade en bild av olika entreprenörers kompetens att slutföra projektet i tid, inom budgeten och enligt förväntade kvalitetsstandarder. I denna typ av sammanhang används metoden för att skapa en hierarkisk sammanställning av de olika entreprenörerna, för att sedan urskilja den optimala entreprenören baserat på likviditet, aktivitet, lönsamhet och kvalité. Studien genomfördes 2012 i Saudiarabien och inkluderade 245 entreprenörer. Studiens resultat stödjer användandet av K- betydelsemetoden även utanför aktiemarknaden. (Elazouni, 2006).
Som företag försöker man optimera sin ekonomiska ställning kontinuerligt. I studien från Klotz och Lindermeir (2015) har K-betydelsemetoden använts för att förbättra beslutsfattandet i kreditportföljförvaltning. Metodens syfte skall bidra med att hitta likheter i datastrukturer vilket i sin tur skall användas för att urskilja kontraktspecifikationer med låg respektive hög
20 vinstpotential för finansiella institut och banker. Forskaren belyser att denna typ av strategiskt upplägg baseras på flera möjliga inställningar som måste justeras manuellt i modellen. Detta leder till flertalet olika utfall baserat på datainmatning och därmed kan inte fullständiga validitetsaspekter tillgodoses. (Klotz och Lindermeir, 2015).
Att prognostisera den potentiella avkastningen på investeringar kopplade till aktiemarknaden är en väldigt krävande process och aspekter kring detta tar Dias et al (2019) upp i sin studie för att skapa ett algoritmiskt upplägg som föreslår en unik beslutsmodell för day-traders. Med detta i åtanke utvecklades modellen med en fusionsmetod för att klassificera olika aktier med hjälp av maskininlärning. Med support vector machine (SVM) genereras de första datapunkterna och med hjälp av medelvarians (MV) görs sedan det slutgiltiga beslutet avseende investeringen.
Studien baseras på och jämförs med Sao Paulo Stock Exchange Index (Ibovespa) där forskarna får fram ett signifikant resultat gällande högre positiv avkastning genom att använda metoder för att avgöra portföljhantering och diversifierad. (Dias et al, 2019).
Forskningen som presenteras av Khedmati och Azin (2020) är en typ av portföljsammansättningsalgoritm vilket följer strukturen mönstermatchningsprincipen, algoritmerna fattar beslut om den optimala portföljen i varje beräkningsperiod och uppdaterar beräkningarna i början av nästföljande period. Inledningsvis användes K-betydelsen för att skapa klustersammansättningar. För att inkludera transaktionskostnaden i portföljoptimeringen användes fyra algoritmer: KMNLOG, KMDLOG, SPCLOG och HRCLOG baserat på studiens syfte. Denna metod i studien tillämpades på hela NASDAQ, NYSE och slumpmässiga aktier från index Nasdaq-100, Dow Jones och S&P 500 under olika tidsperioder. Resultatet i studien var signifikant och visade att metoden gav högre positiv avkastning jämfört med jämförelseindex. (Khedmati och Azin, 2020).
Cheong et al genomförde 2017 en studie för att undersöka användandet av ekvationer för att framställa en portfölj som genererar en högre positiv avkastning jämfört med jämförelseindex.
Studien genomfördes i två faser. Först utvecklades en sammansättning av aktier för att skapa en portfölj genom en klusteranalys av investerarinformation. Därefter användes algoritmer för att optimera fördelningen av aktierna för att generera en högre avkastning. Slutsatsen av studien visar att användandet av flerstegsportföljoptimeringsschemat för aktiv portföljförvaltning ger högre positiv avkastning på portföljen jämfört med tidigare föreslagna metoder för den koreanska aktiemarknaden. (Cheong et al, 2017).
21 En sammanställning av referenser för kapitel 2 ses i tabell 2 samt en separat sammanställning av artiklar vilka bidrog med relevanta inslag till studien (bilaga 1).
Tabell 2. Sammanställning av referenser för kapitel 2.
Författare År Land Urval Relation till uppsatsen
Markowitz 1952 USA Dow-Jones Modern portfolio theory (MPT)
Fama 1970 USA Dow-Jones
Period: 1957–1962
EMH
Grossman & Stiglitz 1980 USA Tidigare forskning EMH Aragó & Fernández-
Izquierdo
2003 Spanien IBEX-35 index Period: 1993–1999
Riskuppfattning kring aktiemarknaden Delgado-Rodriguez &
Llorca
2004 Spanien Tidigare litteratur och studier av ämnet
Aspekter kring bias inom forskning Atack & Neals 2009 England Litteratur Grunden till notering på aktiemarknaden
Business Insider 2010 USA Intervju Warren Buffets syn på aktiemarknaden
Ni et al 2011 Kina NYSE, AMEX & NASDAQ Missvisande uppskattningar baserat på historiskavkastning
Eriksson et al. 2013 Sverige Huvudkomponentanalys (PCA) och Projektioner till latenta strukturer (PLS)
Faktorer inom K-betydelsen
Kyan et al. 2014 Kanada Självorganiserad trädkarta (SOTM) och Självorganiserad hierarkisk varianskarta (SOHVM)
Faktorer inom K-betydelsen
Alexeev & Dungey 2015 England, Wales
S&P 500, Period:2003–2011
diversifiering och kostnader
Bargagliotti et al 2015 England Litteratur Kruskal-Wallis-testet
Butler et al 2016 USA Litteratur Tillgångsallokering
Esfahani et al 2016 Iran Modern portfolio theory (MPT) Investeringar baserat på varians
Abhijit 2017 USA Vektoranalys,
Linjära funktioner &
Skalanalys
Övervakad maskinlärning
Miroslav 2017 USA Vektoranalys &
K-betydelsen
Oövervakad maskinlärning Lekovic 2018 Serbien Effektivitetstester på
finansmarknaden och tidigare forskning
Faktorer som talar emot EMH
Sharma & Vipul 2018 USA, Kanada
Tre jämförelsegrupper med 25 länder
Period: 1990
Diversifiering & korrelation
Sveriges rikes lag 2018 Sverige Aktiebolagslag (2005:551) Lagar och regler kring aktier
Alltommarknaden 2019 Sverige OMXS Diversifiering
Jha & Saha 2019 Indien Indiska telekombranschen K-betydelsens användning Moreo et al. 2019 Italien 6 olika uppsättningar av data med
olika mängd variabler
Maskinlärnings grund Alloghani et al. 2020 USA Utvalda skrifter från den fjärde
internationella konferensen i mjuk beräkning inom datavetenskap, Period: 2018
Syftet med AI
Bellu & Conversano 2020 Tyskland Börshandlade fonder (ETF) Från flertalet marknader
Tillgångsallokering
Demenscentrum 2020 Sverige Människor Inlärningsprocess hos människan
Nasdaq 2020 USA OMX30 Aktiedata
Sveriges Riksbank 2020 Sverige Sverige Betalningsmetoder kopplat till digitalisering
22
2.7 Hypotes
Följande hypotes har formulerats i studien: användandet av K-betydelsemetoden för att sortera fram ett antal bolag ur OMX30 resulterar i högre avkastning jämfört med index OMX30 under en given tidsperiod.
H0: Det finns ingen signifikant skillnad mellan portföljen skapad av K-betydelsen och OMX30 under given period
H1: Portföljen skapad med K-betydelsen har presterat en bättre avkastning än OMX30 under given period
23
3 Metod
Metodkapitlet förklarar hur denna studie genomfördes, inklusive urval av data för analys av de använda metoderna.
3.0.1 Forskningsstrategi
Studien kommer att utgå från en deduktiv forskningsprocess, vilket innebär att den kommer utgå från slutsatser i tidigare forskning. Tillvägagångssättet som kommer att användas i studien är den kvantitativa metoden då tanken är att metoder och teorier som används ska grunda sig på tidigare genomförda studier.
Huvudstrategin för denna studie var att använda den oövervakade inlärningsmetoden K- betydelsemetoden för att skapa en portfölj som kan ge högre positiv avkastning än index OMX30. När K-betydelsen är bestämd kan en djupgående analys göras vilket kan återspegla om oövervakade inlärningsmetoder är mer fördelaktiga att använda sig av inom aktiehandel jämfört med ett underliggande index.
3.1 Val av data
Denscombe gjorde 2014 en jämförelse av OMXS och OMX30. Det visade sig att korrelationen mellan dessa index överensstämde mycket väl, men med en viss volatilitetsskillnad där volatiliteten var något högre på OMXS (Denscombe, 2014). En ytterligare faktor till att använda OMX30 i studien är att insamling av datan blir enklare men även effektivare (Denscombe, 2014). För att skapa en så rättvisande bild av aktiemarknaden, som även passar in i dagens marknadsförhållanden gjordes periodavgränsningen med syftet att få tillräckligt med aktuell data. (nasdaqomxnordic,2020) Informationen erhölls direkt från Nasdaqs hemsida (Nasdaq, 2020) (se bilaga 2).
3.2 Datainsamling
Datainsamlingen skedde genom att samla in den historiska datan, vilket inkluderande aktiernas stängningskurser varje handelsdag, från den 1 november 2017 till den 2 november 2020 från Yahoo Finance. Yahoo Finance är en leverantör av reala men även historisk data kopplat till aktiemarknaden vilket är gratis samt tillgänglig för alla intresserade. (Clayton & Schmidt, 2017). Baserat på avgränsningarna som gjorts sparades datan i datorprogrammet Excel för att senare kunna göra en behandling av datan.
3.3 Databehandling
De insamlade uppgifterna var data från samtliga svenska aktier som inkluderas i OMX30, under tidsperioden 1 november 2017 till den 2 november 2020 för att få fram K-betydelsen inom
24 ramen för studiens avgränsningar. För varje år beräknades den årliga genomsnittliga avkastningen för respektive aktie genom att summera aktiernas årliga avkastning och därefter dividera med antalet år som inkluderades i studien, formeln för detta se i ekvation 1. Variansen av respektive aktie beräknades enligt ekvation 2. Den genomsnittliga variansen beräknades sedan med hjälp av ekvation 3.
Den genomsnittliga avkastningen kan illustreras matematiskt som:
𝐺𝑒𝑛𝑜𝑚𝑠𝑛𝑖𝑡𝑡𝑙𝑖𝑔 𝑎𝑣𝑘𝑎𝑠𝑡𝑛𝑖𝑛𝑔 = ∑ 𝐴𝑣𝑘𝑎𝑠𝑡𝑛𝑖𝑛𝑔 𝑝𝑒𝑟 å𝑟
𝐴𝑛𝑡𝑎𝑙 å𝑟 (1)
(Average return definition, Investopedia 2020) Variansen kan illustreras matematiskt som:
𝑉𝑎𝑟𝑖𝑎𝑛𝑠𝑒𝑛(𝑠2) = ∑ (𝑥𝑖−𝑥̅)2
𝑛 𝑖=1
𝑛 (2)
𝑥𝑖 = 𝑉ä𝑟𝑑𝑒𝑡 𝑓𝑟å𝑛 𝑑𝑎𝑡𝑎𝑖𝑛𝑠𝑎𝑚𝑙𝑖𝑛𝑔𝑒𝑛 𝑥̅ = 𝐺𝑒𝑛𝑜𝑚𝑠𝑛𝑖𝑡𝑡
𝑛 = 𝐴𝑛𝑡𝑎𝑙 𝑎𝑘𝑡𝑖𝑒𝑟 𝑖 𝑝𝑜𝑟𝑡𝑓𝑜𝑙𝑖𝑜𝑛 (Variance, Investopedia 2020)
Den årliga genomsnittliga variansen kan illustreras matematiskt som:
𝐺𝑒𝑛𝑜𝑚𝑠𝑛𝑖𝑡𝑡𝑙𝑖𝑔 𝑣𝑎𝑟𝑖𝑎𝑛𝑠 = ∑(𝑣𝑎𝑟𝑖𝑎𝑛𝑠)
𝐴𝑛𝑡𝑎𝑙 å𝑟 (3)
Den årliga förändringen av aktiekursen samt variansen separerades och kategoriserades för bolagen för att kunna lägga grunden för K-betydelsemetoden. När detta var genomfört tillämpades utvärderingsmetoden för att kunna bestämma K i studien.
3.4 Utvärderingsmetoder
I motsats till övervakad inlärning där vi har den grundläggande sanningen för att utvärdera modellens prestanda, har klusteranalys inte ett gediget utvärderingsvärde som vi kan använda för att utvärdera resultatet av olika klusteralgoritmer. Eftersom K-betydelsen kräver K som ingående värde och inte lär sig detta av befintlig data, finns det inget rätt svar gällande antalet kluster som borde användas i analysen (Kyan, et al., 2014). I denna studie togs K fram genom intuition och för att göra detta användes en variant av armbågsmetoden.
25 3.4.1 Armbågsmetoden
När all data är bearbetad och redo för analys är det viktigt att få vetskapen om antalet K som skall användas. (Kyan et al, 2014) (Alm & Britton, 2008) Armbågsmetoden kan användas för att ge en indikation om vad ett adekvat K-värde skulle vara baserat på kvadratavståndet (SSE) mellan datapunkter och deras tilldelade klustercentroid, för detta se ekvation 4. (Kyan et al, 2014) (Alm & Britton, 2008).
SSE kan illustreras matematiskt som:
𝑆𝑆𝐸 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑓(𝑥𝑖))2 (4)
𝑦𝑖 = 𝑖 𝑣ä𝑟𝑑𝑒 𝑠𝑜𝑚 𝑠𝑘𝑎𝑙𝑙 𝑓ö𝑟𝑢𝑡𝑠𝑒𝑠
𝑥𝑖 = 𝑖 𝑣ä𝑟𝑑𝑒 𝑝å 𝑑𝑒𝑛 𝑓ö𝑟𝑘𝑙𝑎𝑟𝑎𝑛𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑛 𝑓(𝑥𝑖) = ä𝑟 det 𝑓ö𝑟𝑢𝑡𝑠𝑎𝑔𝑑𝑎 𝑣ä𝑟𝑑𝑒𝑡 𝑝å 𝑦𝑖
K-värdet analyseras genom medelvärdet av SSE för respektive kluster. SSE visar hur nära centroiden de ingående delarna av klustret ligger. Ett lågt medelvärde på SSE innebär alltså en bättre uppskattning av K än vad ett högre SSE-värde skulle göra. (Skikit learn, 2019).
Värdena som fås fram plottas sedan i en graf som i sin tur illustrerar att adderingen av fler kluster initialt ger mer korrekt information inom respektive kluster. Vid en viss punkt kommer dock informationsförbättringen att minska drastiskt vid tillägg av fler kluster vilket leder till att grafen får en tydlig vinkling. Denna typ av vinkling ses inringad i grafen i figur 2.
(Thorndike, 1953).
Figur 2. Exempel på sambandet mellan SSE-poäng och antalet valda kluster. På X-axeln ses antalet kluster som använts. På Y-axeln ses det beräknade SSE-poängen. Ett högre antal kluster ger lägre SSE- poäng.
För att få ett adekvat antal kluster i vår studie användes en variant av armbågsmetoden. K- betydelsemetoden i denna studie använde sig av en approximation av antalet kluster som skall
0 5 10 15 20 25
0 2 4 6 8 10
26 användas samt ett icke slumpmässigt val av de första centroidpunkterna (Skikit learn, 2019).
Test av olika K-värden gjordes i programmet Excel och för respektive K-värde beräknades SSE.
Datan som behövdes för att beräkna SSE hämtades från Nasdaq. SSE-värdena och K-värdena plottades i en graf i programmet Excel och det antal kluster som motsvarade vinklingen i grafen (liknande den som ses i figur 2) valdes som studiens K-värde.
3.4.2 Beräkning av varians av valda kluster
Efter att det optimala K-värdet till studien bestämts görs en beräkning av den optimala klustersammansättningen (där SSE-medelvärdet för respektive kluster ska bli så lågt som möjligt). Denna beräkning genomfördes i Excel med hjälp av ekvation 4. Därefter beräknades respektive klusters genomsnittliga varians genom beräkning med ekvation 2 samt beräkning av respektive klusters genomsnittliga avkastning enligt ekvation 1. 2. Beräkningen genomfördes i programmet Excel. Därefter exkluderades de kluster (och därigenom de aktier som ingått i dessa kluster) som genererat en negativ avkastning.
Sedan gjordes en ny beräkning för att bestämma det optimala K-värdet, på samma sätt som vid föregående beräkning av det optimala K-värdet. Därefter gjordes en beräkning för optimal klustersammansättning (av de kvarvarande aktierna) med hjälp av ekvation 4 i programmet Excel. Därefter beräknades respektive klusters genomsnittliga varians genom beräkning med ekvation 2 samt beräkning av respektive klusters genomsnittliga avkastning enligt ekvation 1.
Beräkningen genomfördes i programmet Excel. Sedan exkluderades återigen de kluster, och därigenom de aktier som ingått i dessa kluster, som genererat en negativ avkastning samt även de kluster som presterat påtagligt lägre avkastning.
Därefter genomförs ett T-test. Detta kan göras då det antas att datan är normalfördelad, att data normalt inte distribueras till att kontrollera om portföljen skapades med hjälp av K- betydelsemetoden och det antas även att T-testet inte görs för att undersöka om portföljen överträffar OMX30 i värdeutveckling, för detta se ekvation 2 & 5. (Bridget & Sawilowsky, 1999)
T-testet kan illustreras matematiskt som:
𝑡 = 𝑥̅1−𝑥̅2
√𝑠2(1 𝑛1+1
𝑛2)
(5)
(Unequal Variance T-Test, investopedia,2020)
27 Resultatet av beräkningen av T-testet används sedan för att avgöra huruvida det finns en skillnad i prestation av index OMX30 och portföljen som satts samman med hjälp av K- betydelsemetoden.
3.4.3 Bedömning av testresultat
För att jämföra testresultaten för den slutliga sammansatta portföljen och jämförelseindex OMX30 användes T-test. Signifikansnivån var satt till α ≥ 0,95.
3.5 Prestation & riskanalys
Studiens sammansatta portföljs resultat analyserades genom den så kallade sharpe-kvot, vilket beräknades enligt ekvation 6.
𝑆ℎ𝑎𝑟𝑝𝑒 − 𝑘𝑣𝑜𝑡 = 𝐴𝑣𝑘𝑎𝑠𝑡𝑛𝑖𝑛𝑔−𝑅𝑖𝑠𝑘𝑓𝑟𝑖𝑡𝑡𝑘𝑎𝑝𝑖𝑡𝑎𝑙
𝑆𝑡𝑎𝑛𝑑𝑎𝑟𝑑𝑎𝑣𝑣𝑖𝑘𝑒𝑙𝑠𝑒𝑛 𝑓ö𝑟 𝑝𝑜𝑟𝑡𝑓ö𝑙𝑗𝑎𝑣𝑘𝑎𝑠𝑡𝑛𝑖𝑛𝑔𝑒𝑛 (6) (Sharpe-kvot, Investopedia, 2020)
Utöver detta analyserades även den nedåtgående risken för portföljen genom att beräkna den nedåtgående standardavvikelsen enligt ekvation 7 för att undersöka det värsta tänkbara scenariot för investeringen.
Standardavvikelsen beräknas som:
𝜎 = √∑ (𝑥𝑖−𝑥̅)2
𝑁 𝑖−1
𝑛−1 (7)
(Standard Deviation, Investopedia,2020) 3.6 Validitet och Reliabilitet
Denna studie inkluderade granskade artiklar. Studien inkluderade dock vissa ogranskade källor, exempelvis för ekvationer men även information från ogranskade rapporter från svenska institut och myndigheter. Information hämtades även från databaser som är väl använda.
Informationsinsamlingen gjordes för att skapa en så rättvisande bild som möjligt men även för att kunna få en hög validitet, vilket syftar till att studien studerar rätt aspekter. Studien presenteras även i detalj för att bibehålla en hög reliabilitet, för att skapa en hög tillförlitlighet men även underlätta för att replikera studien. (Collis & Hussey, 2014)
3.7 Etiska betänkligheter
Förhållningssätt till etiska aspekter och principer är av största vikt inom alla former av forskning. I denna studie har författaren behövt förhålla sig till de etiska aspekterna som innebär
28 att tidigare forskning eller andra källor ej plagieras, att resultaten är sanningsenliga och att datan används på ett rättvist sätt och ej förvrängs. (Sagarin et al, 2014) (Gustafsson et al, 2005) I denna studie är insamlad data hämtad från granskade källor vilket överensstämmer med Collis
& Hussey (2014) beskrivning av ett etiskt skrivande. Datan har ej manipulerats och all aktuell data inom forskningsprojektets gränser har inkluderats. Utöver detta har tidigare forskning och andra källor ej plagierats.
29
4 Resultat
I detta kapitel presenteras uppsatsens resultat av K-betydelsemetoden samt presentation av den slutgiltiga portföljen.
4.1 Bearbetning av insamlad data
Mängden data som samlades in för vardera aktie var 1005 datapunkter, vilket resulterade i totalt 30 150 datapunkter för perioden 1 november 2017 till och med den 2 november 2020 efter att all data var insamlad. Som tidigare nämnts omvandlades uppgifterna till genomsnittlig årlig avkastning och procentuell årlig avvikelse för varje aktieslag inom OMX30 (se bilaga 3).
Resultatet kan även plottas för att få en mer beskrivande bild av förändringen inom aktierna vilket kan ses i figur 3.
Figur 3. Plott. På Y-axeln kan vi se den genomsnittliga avkastningen och på X-axeln den genomsnittliga variansen.
4.2 K-betydelsens resultat 4.2.1 SSE-poäng av data
Datan som samlades in bearbetades i Excel och användes för att göra en primär K-betydelse.
Detta användes för att få fram den bästa SSE-poängen för att i sin tur få fram det optimala K- värdet. Beräkningarna för detta ses i bilaga 4. Det finns en signifikant förbättring av resultat av SSE från K=4 till K=5, som sjunker från över 21 till cirka 16,5. Vid K=6 är SSE-poängen ännu lägre med SSE-poäng runt 13. Graf över K-värdena och respektive SSE-poäng ses i figur 4.
30 Figur 4. Sambandet mellan SSE-poäng och antalet valda kluster där samtliga 30 aktier inkluderas. På X-axeln ses de testade antalet kluster. På Y-axeln ses det beräknade SSE-poängen.
4.2.2 K-betydelsemetoden med K=6
Tabell 3. Genomsnittlig avkastning och varians för respektive kluster. Denna beräkning innefattar samtliga 30 aktier i OMX30.
Kluster Genomsnittlig avkastning
Genomsnittlig varians
Aktier
1 0,238333333 0,200380208 4st
2 -0,021 0,2847935 2st
3 0,015933333 0,341948302 5st
4 0,31425 0,114856951 3st
5 0,128848485 0,254232593 11st
6 -0,328016667 0,039961467 5st
Vid användandet av K=6 visar det att klustersammansättning två och sex ger en genomsnittlig negativ avkastning vilket leder till att aktierna inom dessa två klustersammansättningar exkluderades. Utöver detta kan vi även urskilja en låg varians på samtliga kluster (nära noll) (se tabell 3). Detta resulterade i att sju aktier (de som inkluderades i kluster två och sex) exkluderades.
4.2.3 Tillämpning av K-betydelsen i undergruppskluster 1,3,4,5
K-betydelsemetoden på undergrupperna, vilka hade en positiv genomsnittlig avkastning bestående av 23 aktier (se bilaga 5), resulterade i optimala K=6 SSE = 4,06. I figur 5 ses föreslagna K-värden och beräknade SSE-värden. Den föreslagna klusterfördelningen kan ses i bilaga 6.
0 5 10 15 20 25
0 2 4 6 8
31 Figur 5. Sambandet mellan SSE-poäng och antalet valda kluster där de 23 utvalda aktierna inkluderas. På X-axeln ses de testade antalet kluster. På Y-axeln ses det beräknade SSE-poängen.
4.2.3.1 K-betydelse för undergruppskluster
Tabell 4. Genomsnittlig avkastning och varians för portföljen innehållande de 23 utvalda aktierna.
Kluster
Genomsnittlig avkastning
Genomsnittlig
varians Aktier
1 0,049111413 0,310048407 4st
2 0,227173913 0,203368992 4st
3 0,109425466 0,289625574 7st
4 0,23451087 0,203656082 4st
5 -0,136054348 0,299964336 1st
6 0,303623188 0,118185672 3st
Även denna beräkning gav ett optimalt K=6, vilket resulterade i att fem av sex kluster hade en positiv avkastning vilket kan ses i tabell 4. Kluster fem samt de innefattade aktierna exkluderades då de gav en negativ avkastning. Kluster ett och tre, samt de inkluderade aktierna i respektive kluster, exkluderades baserat på att de presterat en påtagligt lägre avkastning jämfört med övriga kvarvarande kluster. Detta resulterade i att ytterligare 12 aktier exkluderades och att totalt 11 aktier inkluderades i den slutgiltiga portföljen.
4.3 Diversifieringav den slutgiltiga portföljen
Den slutgiltiga portföljen i studien bestod av 11 aktier vilka anges i tabell 5. Resultatet av portföljens diversifiering innebar att vi fick en spridning av aktierna inom sju olika branscher:
industri, sjukvård, teknik, konsumtion, råvaror, tjänster och kommunikation. Vilka aktier som faller inom vilken bransch anges i tabell 5.
0 2 4 6 8
0 2 4 6 8