Användandet av algoritmer inom investeringar kopplat till OMX30

(1)

1

Användandet av algoritmer inom investeringar kopplat till OMX30

Tillämpning av maskininlärning inom portföljhantering En K-Betydelsemetod

Skribent: Simon Larsson Olsson

Examinator: Maria Smolander, maria.smolander@sh.se Handledare: Darush Yazdanfar, darush.yazdanfar@sh.se Södertörns högskola

Kandidatuppsats 15 Hp

Finansiering | Höstterminen 2020

(2)

2

Sammanfattning

Många investerare använder olika typer av analysmetoder innan ett beslut fattas oberoende av om investeringen är på kort eller lång sikt. Valet av vilken analysmetod som används avgörs generellt av riskbenägenheten hos investeraren, avlägsnande av partiskhet och beloppsstorleken på investeringen. En metod som har studerats är användandet av maskininlärning vid analys av data. Fördelen med maskininlärning är att metoden framgångsrikt hanterar komplexa, icke- linjära och icke-stationära problem. I denna uppsats kommer det att undersökas huruvida oövervakad maskininlärning, vilket använder K-betydelsemetoden. Denna metod har inte undersökts i någon större utsträckning, varken i praktiken eller i teorin kring hur denna metod presterar jämfört med aktiemarknaden i stort.

Datan som används i denna studie för K-betydelsemetoden är historisk data från den svenska aktiemarknaden mellan 1 januari 2018 och 2 november 2020. K-betydelsens analys består av avkastningen av samtliga aktier som inkluderas inom OMX30 och den genomsnittliga avvikelsen, vilket skapade ett kluster med 11 aktier som kunde generera en relativ hög avkastning jämfört med resterande aktier.

För att analysera om de genererade klustren var acceptabla gjordes en analys av sharpe-ratio och nedåtgående risk, vilket visade att portföljen hade en bra riskjusterad avkastning men ett sämre resultat på nedåtgående risk.

Nyckelord: Maskininlärning, K-betydelse, oövervakadinlärning, aktiemarknad, OMX30, portfölj, diversifiering

(3)

3

Abstract

Many investors use different types of data methods before making a decision, regardless of whether it is long or short term. The choice of which analysis method is generally determined by risk, removal of bias and the cost. One method that has been investigated is the use of machine lerning in data analysis. The advantage of machine lernig is that the method

successfully handles comples, non-linear and non-stationary problems. In this essay, it will be investigated whether unattended machine learning, which uses the K-meaning method, which is a method that has not been investigated to any great extent either in practice or in theory to create a beneficial portfolio.

The data used for the k-meaning method was historical data from the Swedish stock market between 1 January 2018 and 2 November 2020. The k-meaning analysis consists of the return of all shares included within OMX30 and the average deviation, which created a cluster of 11 shares that could generate a relatively high return compared to the remaining shares.

To analyze whether the generated cluster were acceptable, an analysis of the sharpe-ratio and downward risk was preformed, which showed that the portfolio had a good risk-adjusted return but a worse result on downward risk.

Keywords: Machine learning, k-means, unsupervised learning, stock market, OMX30, portfolio, diversification

(4)

4

Förord

Jag vill uttrycka min tacksamhet till alla personer som har stöttat mig direkt eller indirekt under detta forskningsprojekt. Först och främst vill jag uttrycka min djupaste och uppriktiga tacksamhet till min handledare doktor Darush Yazdanfar för att ge ovärderlig vägledning genom hela processen. Jag vill också tacka medstudenter för alla synpunkter och värdefulla råd.

(5)

5

Ordlista

HTF Högfrekvenshandel

Decimalicering Prissättning i decimalform på aktiemarknaden

Fragmentering En aktie vilket handlas över flertalet marknadsplatser

NYSE New York aktiemarknad

NASDAQ USA aktiemarknad

Dark pool Privata aktiemarknader för handel med värdepapper som inte är tillgängliga för investerare

Day-trader Investerare som köper och säljer värdepapper under samma handelsdag för att skapa en vinst

Diversifiering Att sprida sin riskexponering genom investeringar i flertalet branscher och produkter

Systematisk risk Risk som är förknippad med konjunkturer, världshändelser, räntor och tillgång på råvaror samt kapital.

Synkretisk risk Lagändringar, skattereformer, räntehöjningar, naturkatastrofer, politisk instabilitet, förändringar i utrikespolitiken,

valutavärdeändringar, bankers misslyckande, ekonomiska lågkonjunkturer.

OMX30 De trettio mest omsatta bolagen på stockholmsbörsen OMX S. All-share Samtliga aktier listade på stockholmsbörsen

PCA Huvudkomponentsanalys

MPT Moderna portföljteorin

AI Artificiellintelligens

EMH Effektiva marknadshypotesen

SSE Summan av kvadratiska skillnader mellan samtliga observationer och dess grupps medelvärde

(6)

6

Innehållsförteckning

1 Inledning ... 8

1.1 Bakgrund ... 8

1.1.1 Aktiemarknaden och Stockholmsbörsen ... 8

1.1.2 Risktagande på aktiemarknaden ... 9

1.1.3 Högfrekvenshandel och användandet av algoritmer på aktiemarknaden ... 10

1.1.4 För- och nackdelar med högfrekvenshandel och användandet av algoritmer ... 10

1.1.5 Maskininlärning och användande av algoritmer samt K-betydelsemetoden ... 11

1.2 Problemformulering ... 11

1.3 Forskningsfråga ... 11

1.4 Syfte ... 12

1.5 Avgränsningar ... 12

2 Teori ... 14

2.1 Den effektiva marknadshypotesen ... 14

2.2 Diversifiering... 14

2.2.1 Strategisk tillgångsallokering ... 15

2.2.2 Taktisk tillgångsallokering ... 15

2.3 Principal component analysis ... 15

2.4 Modern portföljteori ... 16

2.5 Maskininlärning ... 16

2.5.1 Övervakad & oövervakad maskininlärning ... 16

2.5.2 K-Betydelse kluster ... 17

2.6 Tidigare forskning ... 18

2.7 Hypotes ... 22

3 Metod ... 23

3.0.1 Forskningsstrategi ... 23

3.1 Val av data ... 23

3.2 Datainsamling ... 23

3.3 Databehandling ... 23

3.4 Utvärderingsmetoder ... 24

3.4.1 Armbågsmetoden ... 25

3.4.2 Beräkning av varians av valda kluster ... 26

3.4.3 Bedömning av testresultat ... 27

3.5 Prestation & riskanalys ... 27

3.6 Validitet och Reliabilitet ... 27

3.7 Etiska betänkligheter ... 27

(7)

7

4 Resultat ... 29

4.1 Bearbetning av insamlad data ... 29

4.2 K-betydelsens resultat ... 29

4.2.1 SSE-poäng av data ... 29

4.2.2 K-betydelsemetoden med K=6 ... 30

4.2.3 Tillämpning av K-betydelsen i undergruppskluster 1,3,4,5 ... 30

4.2.3.1 K-betydelse för undergruppskluster... 31

4.3 Diversifieringav den slutgiltiga portföljen ... 31

4.4 T-test av studien ... 32

4.5 Sharpe-kvot ... 33

4.6 Negativ risk vid investering ... 33

5 Analys ... 34

6 Diskussion ... 37

6.1 Styrkor och svagheter ... 38

6.2 Betydelse ... 40

6.3 Framtida forskning ... 40

7 Slutsats ... 41

Källhänvisning ... 42

Elektroniska Källor ... 47

Källhänvisning till ekvationer ... 48

Bilagor ... 49

Bilaga 1 ... 49

Bilaga 2 ... 50

Bilaga 3 ... 51

Bilaga 4 ... 52

Bilaga 5 ... 53

Bilaga 6 ... 54

(8)

8

1 Inledning

Detta kapitel består av fem avsnitt. De första avsnitten är en allmän bakgrund, vilket skall presentera grundläggande information för ämnet. Det andra avsnittet är problemformulering vilket följs av forskningsfrågan och därefter syftet. Avslutningsvis presenteras avgränsningar för studien.

1.1 Bakgrund

1.1.1 Aktiemarknaden och Stockholmsbörsen

En aktiemarknad är en handelsplattform där handel med värdepapper sker (Kamal, 2013).

Denna handel kan ske på olika plattformar men den vanligaste typen är en aktiebörs, till exempel Stockholmsbörsen eller NASDAQ. Den största delen av handeln på Stockholmsbörsen utgöras av en andrahandsmarknad av aktier (Kamal, 2013). Dagens investerare på Stockholmsbörsen är svenska hushåll, utländska ägare samt institut (Boxir, 2020) som ställer höga krav på den finansiella marknaden. Dessa krav innefattar bland annat transparens och tillgänglighet på aktier (finansinspektionen, 2001).

Den främsta anledningen till att aktiemarknaden existerar är att möjliggöra för investerare att köpa aktier men även för organisationer att kunna sälja en del av sitt företag (Sveriges rikes lag, 2018). Aktiemarknaden fungerar som en medlare mellan investerare och företag och skapar säkerhet för båda parter (Atack & Neals, 2009). Anledningen till att företag skulle sälja delar eller hela organisationen är vanligtvis för att skapa en viss likviditet för företaget, vilket i sin tur kan ge organisationen många fördelar, exempelvis att göra det möjligt för organisationen att kunna växa snabbare eller för att lära känna sitt eget värde på marknaden (Atack & Neals, 2009). Huvudmotivet för investerare att köpa aktier i en organisation är en förväntan på en positiv avkastning framöver (Schreder, 1962).

Stockholmsbörsen som även agerar under namnet Nasdaq Stockholm är den primära aktiemarknaden som är verksam i Sverige med över 200 nordiska aktier. Sektorn för dessa företag är grundläggande material, konsumtionsvaror, konsumenttjänster, ekonomi, vård och omsorg, industri, råvaror, teknik, telekommunikation och verktyg. Utöver detta är det viktigt att notera att det finns ett index som heter OMX30 vilket inkluderar de trettio mest omsatta aktierna på Stockholmsbörsen. Detta index är skapat för att representera hela den svenska aktiemarknaden. (Nasdaq,2020) (omxs30,2020).

(9)

9 Likviditeten på en aktie avgörs av hur stor handeln är i den aktuella aktien. En större handel leder till högre likviditet och gör det enklare för investerare att köpa och sälja det aktuella värdepappret. En hög likviditet leder ofta till att fler investerare är intresserade av att handla med den underliggande aktien då en låg likviditet leder till svårigheter och högre kostnader för att köpa och sälja aktien. Prissättningen på aktiemarknaden sker löpande och innebär att globala händelser eller nyheter i det underliggande bolaget kan leda till snabba och stora kursförändringar. Volatiliteten i en aktie innebär kursförändringar i aktien, en hög volatilitet innebär stora kursförändringar gentemot medelvärdet på aktien. (Malagon, et al., 2018).

1.1.2 Risktagande på aktiemarknaden

Studier tyder på att investerare med en kortsiktig investeringshorisont är mer intresserade av irrationell felprissättning eller rationella förskjutningar i underliggande riskpremier medan investerarna med en längre horisont är betydligt mer intresserade av långsiktiga komponenter.

En viktig faktor som påverkar valet av en lång- eller kortsiktig investering är den underliggande risken i investeringen, till exempel risken för felprissättning och risken för bolagskonkurs.

(Botshekan & Lucas ,2017) Enligt Liu finner vi ingen korrelation mellan risk och avkastning på kort sikt. På lång sikt finner vi dock en signifikant positiv korrelation mellan risk och avkastning för den kinesiska aktiemarknaden, vilket kan bero på rationaliteten på lång sikt.

Däremot på kort sikt finner vi inte samma korrelation på grund av det som Liu kallar för kaos, vilket innefattar risken för under- och övervärdering kopplat till informationsflöden och globala händelser (Liu, 2020).

En faktor som minskar risken i portföljen är diversifiering. Detta görs vanligtvis genom att investera i företag som normalt sett inte påverkar varandra (Crezée & Swinkels, 2010) (Bessler, et al, 2017). Enligt Kryzanowski så fungerar diversifiering så att den totala risken för en portfölj konvergerar till ”Systematisk eller marknadsmässig eller icke-synkretisk risk eftersom portföljens storlek tenderar att vara oändlig” (Kryzanowski, 2010). Detta innebär att om en aktie plötsligt faller i pris innebär det inte att hela aktiemarknaden faller.

Sharpe-ratio, även känd som Sharpe index, används ofta som ett alternativ för att beräkna en investerings resultat efter justering för dess risk. Resultat av sharpe-ratio som är under 1 anses dålig, överstiger 1 anses bra, överstiger 2 anses mycket bra och över stiger 3 anses som exceptionellt bra. (Kaplanski et al, 2016) (Corporate Finance Institutet, 2020).

(10)

10 1.1.3 Högfrekvenshandel och användandet av algoritmer på aktiemarknaden

I samband med att den amerikanska aktiemarknaden decimaliserades, började handlas i cent och inte enbart hela dollar, och att enskilda aktier fragmenterades, började handlas på flertalet olika marknadsplatser, så uppstod det som kallas för högfrekvenshandel (HFT). HFT har och fortsätter att utvecklas kontinuerligt i och med digitaliseringen. Investerare tänker sällan på att liknande fenomen har funnits sedan aktiemarknaden introducerades år 1862 då institutionella handlare som på bästa sätt försöker utföra kundordrar och day-trades med förhoppningen om en positiv avkastning genom att köpa aktier billigt och sälja dem dyrt, skillnaden med HTF är enbart att den utförs elektroniskt. (Vindevåg, 2016) HFT påverkar eventuellt enskilda aktier men också aktiemarknaden som helhet (Idrees,2019).

1.1.4 För- och nackdelar med högfrekvenshandel och användandet av algoritmer

HFT skapar både för- och nackdelar för investerare på aktiemarknaden så som ökad likviditet men också en lägre volatilitet. Att använda sig av algoritmer inom aktiehandeln kan innebära att mer rationella beslut fattas och att de emotionella aspekterna kopplade till beslutsfattandet elimineras.

HFT kan dock även leda till felaktiga beslut i oförutsedda situationer. En konsekvens av att finansmarknaderna automatiseras är en högre omsättningshastighet och då finns det mindre tid för mänsklig eftertanke i stressade situationer. (Brownlee,2018)

Knight Capital var ett bolag som ägnade sig åt HFT och som 2012 förlorade över 460 miljoner dollar på en halvtimme efter teknisk problematik med en algoritm. Företaget återhämtade sig aldrig efter denna händelse trots att Knight Capital innan det var den största aktören på den amerikanska marknaden med sina 17,3% marknadsandelar på New York Stock Exchange (NYSE) samt 16,9% på NASDAQ och med sina handelsvolymer som uppgick till 3,3 miljarder affärer om dagen.

(Securities Exchange act, 2013) Studier kring HFT kan eventuellt förhindra liknande händelser att uppstå vilket i sin tur kan förhindra ekonomiska krascher på marknader som HFT och algoritmer används på (Hagströmer & Nordén,2013).

Även om flertalet personer förknippar HFT med enbart negativa aspekter kan HFT bidra till en mer gynnsam likviditet samt en stabiliserad volatilitet på marknaden. Detta gynnar de privata investerarna likväl som företag och institut i en stor utsträckning. Utvecklingen det senaste decenniet visar också stora regelförändringar som gjort marknaden väldigt fragmenterad, att enskilda aktier handlas på flertalet olika marknadsplatser. Det gynnar robothandlarna som använder sig av HFT, men skapar en komplex och svårhanterlig situation för övriga investerare på aktiemarknaden.

När samma värdepapper handlas på många olika handelsplatser, så som alternativa aktiemarknader

(11)

11 och så kallade dark pools är det svårare för övriga investerare att få överblickpå vad som pågår på aktiemarknaden. (Brogaard et al, 2018) (Hagströmer & Nordén,2013). Utöver detta skall investerare som ej använder sig av HFT eller algoritmer ta hänsyn till hur lång- eller kortsiktig investeringen skall vara. Detta gör investeringarna än mer komplexa. (Brogaard et al, 2015) 1.1.5 Maskininlärning och användande av algoritmer samt K-betydelsemetoden

Maskininlärning är en typ av inlärningsmetod hos robotar. Det är en beräkningsmetod som medför en viss grad av intelligens och som har visat sig vara framgångsrik inom flertalet olika områden som kräver analyser av datamängder som är komplexa till sin natur. Detta gör att det även har använts på aktiemarknaden och det har visat sig att det leder till en ökad avkastning i aktieportföljen. (Verbraeken, 2020) Det finns flertalet olika typer av maskininlärning varav en kallas för oövervakad maskininlärning. Denna kräver en specifik algoritm som skapar, sammansätter samt analyserar portföljen vilket kallas K-betydelsemetoden (Zhu et al, 2018).

K-betydelsemetoden har inte använts i någon större utsträckning på aktiemarknaden vilket gör studier av denna metod aktuella. Detta för både dagens och framtidens forskning, och för att kunna skapa en förståelse för händelser som inträffar på aktiemarknaden kopplade till användande av algoritmer och i förlängningen HFT.

1.2 Problemformulering

Den huvudsakliga anledningen till att investerare börjar agera på aktiemarknaden är att skapa en positiv avkastning i sin aktieportfölj (Schreder, 1962) (Blaurock et al, 2018). HFT skapar både för- och nackdelar för investerare på aktiemarknaden vilket gör ämnet högst aktuellt att studera. Om man som investerare uppfattar att klimatet på aktiemarknaden är styrt av algoritmer som agerar på marknaden och att det möjligen missgynnar investerarna så kan det tänkas skapa en oro. Det kan resultera i att investerare avstår från en eventuell entré på aktiemarknaden då den kan uppfattas som abstrakt redan innan algoritmer adderas. (Hurd & Rohwedder, 2012) 1.3 Forskningsfråga

• Vilka samband finns det mellan användning av algoritmer för portföljsammansättning och högre avkastning på investeringar på Stockholmsbörsen?

(12)

12

1.4 Syfte

Syftet med studien är att undersöka huruvida en sammansatt portfölj baserad på en algoritm framtagen med K-betydelsemetoden genererar en högre avkastning jämfört med index OMX30 på Stockholmsbörsen under perioden 1 november 2017 till 2 november 2020.

1.5 Avgränsningar

Studien kommer att analysera effekten av användandet av algoritmer kopplat till OMX30 inom tidsintervallet 1 november 2017 till och med den 2 november 2020. Denna avgränsning görs då OMX Stockholm All-share (förkortas OMXS och är ett index som inkluderar samtliga noterade bolag på stockholmsbörsen) korrelerar väl med OMX30 men med en något förhöjd volatilitet på OMXS (nasdaqomxnordic,2020). Dessutom begränsas studien till OMX30 med hänsyn till den begränsade tid som finns för utförandet av denna studie. En ytterligare faktor till att använda OMX30 i studien är att insamling av datan blir enklare men även effektiv (Denscombe, 2014).

För att skapa en rättvis bild av den aktuella aktiemarknaden, som även passar in i dagens marknadsförhållanden, gjordes periodavgränsningen med syftet att få tillräckligt med aktuell data.

En sammanfattning av samtliga källor som använts i bakgrunden finns sammanfattade i tabell 1.

Tabell 1. Sammanställning av källor till bakgrundsinformation och relevans för studien

Författare År Land Urval Relation till uppsatsen

Schreder 1962 USA Dow-Jones

Period: 1949–1961

Syftet med aktieinvesteringar Finansinspektionen 2001 Sverige Svenska investerare Krav på aktiemarknaden Atack & Neals 2009 England Litteratur Grunden till notering på

aktiemarknaden Crezée & Swinkels 2010 Holland S&P 500,

period: 2000–2009

Diversifiering Kryzanowski 2010 Kanada TSX-börsen,

Period 1975–2003

Diversifiering Hurd,MD &

Rohwedder

2012 USA 31 observationer på den amerikanska aktiemarknaden

Period: 2008–2011

Synen på aktiemarknaden

Hagströmer &

Nordén

2013 Holland OMX30,

Period: 8/2–10 – 31/3–12

Synen på HFT

Kamal 2013 Turkiet Data från olika marknadsuppkomster Utvecklingen av aktiemarknaden Securities

Exchange act of 1934

2013 USA Knight Capital Group Period: 2012–2013

HFT:s negativa påverkan

Denscombe 2014 England Litteratur Forskningsurval

Brogaard et al. 2015 Sverige OMX30,

Period: 2012 – 2014

Investeringshorisont

Kaplanski 2016 Sharpe-kvot Tolkning av sharpe-kvot

Vindevåg 2016 Sverige Stockholmsbörsen Aktiemarknadens grundande

Bessler et al. 2017 England, Wales

Black-Litterman modellen Period: 1993–2011

Diversifiering Botshekan & Lucas 2017 England S&P 500,

Period: 1963–2012

Investeringshorisont

(13)

13

Blaurock et al. 2018 USA 9000 observationer

från Thomson Reuters Datastream

Syftet med entré på aktiemarknaden Brogaard, et al. 2018 Sverige Data från NASDAQ,

Period: 2008–2009

HFT:s påverkan

Brownlee 2018 Australien Litteratur Tillvägagångsätt inom handel

Malagon, et al. 2018 Colombia Data från CRSP (Chicago Research Stock Prices), NYSE, AMEX &

NASDAQ Period: 1963–2015

Likviditet & volatilitet

Sveriges rikes lag 2018 Sverige Aktiebolagslag (2005:551) Lagar och regler kring aktier Zhu, X. et al. 2018 Kina Feature Selection Using Similarity

(FSUS)

Multi‐Cluster‐based Feature Selection (MCFS)

K-betydelsen

Idrees 2019 Indien NSE-börsen

Period: 2012–2016

Krav och påverkan på marknaden

Hagströmer 2019 Sverige Intervju HFT:s grundande

Boxir 2020 Sverige OMXS Ägarfördelningen på OMXS

Corporate Finance 2020 USA Sharpe-kvot Tolkning av sharpe-kvot

Nasdaq 2020 Sverige OMXS Jämförelseindex

Nasdaqomxnordic 2020 Sverige OMXS & OMX30 Korrelation mellan OMXS &

OMX30

OMXS30 2020 Sverige OMX30 Jämförelseindex

Liu 2020 Litauen Shanghai & Shenzhen börsen, Period: 1997–2017

Risk och avkastning Verbraeken 2020 USA Oövervakadmaskinlärning,

Period: 2020

Maskinlärning

(14)

14

2 Teori

Detta kapitel presenterar teorier samt tidigare forskning vilket har legat till grund för studiens metoder, data och analyser vilket slutligen avslutas med hypotesen vilket är kopplat till studien.

2.1 Den effektiva marknadshypotesen

En hypotes som bör noteras vid analys av aktiemarknaden är den effektiva marknadshypotesen (EMH) vilket grundar sig i att det inte bör finnas någon vinst genom analys på aktiemarknadens data. Enligt EMH ska priset på en aktie alltid samt fullständigt återspegla all tillgänglig information om samtliga företag som inkluderas på aktiemarknaden. (Fama, 1970).

Däremot motbevisas hypotesen genom att avancerad datainsamling samt analyser av marknaden kan generera en högre avkastning. Man menar på att investerares reaktioner på marknaden men också ofullständig information skapar anomalier, men i allmänhet är marknaden fortfarande effektiv. (Lekovic,2018). Warren Buffet som är en av de mest kända investeraren i världen, hävdar att många investerare uppnår en högre avkastning på aktiemarknaden än vad indexfonder gör. Vilket också skulle tyda på att marknaden är ineffektiv till viss mån. (Business Insider, 2010).

Tidigare forskning antyder därför att det finns två uppenbara problem med den effektiva marknadshypotesen. Den första typen av problematik ligger i teoretiska paradoxer, det vill säga inkonsekvenser i teorin. En av de viktigaste paradoxerna är att om investerare på aktiemarknaden ansåg att marknaden var effektiv skulle marknaden upphöra. Detta eftersom eventuella avslöjanden av övervärderade/undervärderade aktier ej skulle existera. (Grossman

& Stiglitz, 1980) (Fama, 1970).

Den andra problematiken är om deltagarna på aktiemarknaden ansåg att aktiemarknaden var fullt ut ineffektiv vilket skulle resultera i att marknaden på sikt skulle bli allt mer effektiv.

Däremot skulle marknaden initialt vara mindre intressant att undersöka då informationsflödet skulle vara lågt. (Grossman & Stiglitz, 1980) (Fama, 1970). Utöver detta hävdar Grossman och Stiglitz att marknadsaktörer som arbetar för att skapa och stimulerar utvecklingen av den effektiva marknaden måste få en ersättning för sitt agerande vilket skulle vara direkt felaktigt då EMH förnekar all möjlighet till ekonomisk ersättning. (Grossman & Stiglitz, 1980)

2.2 Diversifiering

Anledningen till att flertalet personer väljer att avstå från att investera på aktiemarknaden är på grund av riskuppfattningen (Aragó & Fernández-Izquierdo, 2003) (Alltommarknaden, 2019).

(15)

15 Ett signifikant sätt att minska risken i sin portfölj är med hjälp av diversifiering, däremot finns det studier som antyder att ett större antal innehav i portföljen kan påverka avkastningen negativt (Alexeev & Dungey, 2015) (Sharma & Vipul, 2018). Detta eftersom en portfölj med ett stort antal olika tillgångar troligtvis medför stora driftkostnader samt avgifter (Alexeev &

Dungey, 2015) (Sharma & Vipul, 2018). Tidigare studier visar att man som investerare kan ha en mångsidig portfölj med hjälp av 6–15 olika tillgångsslag (exempelvis aktier, råvaror och obligationer) i portföljen (Alexeev & Dungey, 2015). Utöver detta skall investeraren ta hänsyn till hur portföljfördelningen skall se ut baserat på en procentuell fördelning eller substansvärdet som skall investeras. I denna studie kommer det göras ett försök att automatisera denna process enbart genom att inkluderas aktier vilket exkluderar övriga typer av tillgångar som innefattas inom diversifiering och allokering exempelvis: obligationer, råvaror, räntor, valutor och global exponering (ibid). Genom att generalisera allokering kan det kategoriseras till två grundläggande typer av allokering vilket är strategisk och taktisk tillgångsallokering.

2.2.1 Strategisk tillgångsallokering

Det är den traditionella metoden som i princip innebär att bibehålla en väl allokerad portfölj och inte ändra fördelningen baserat på tillgångsallokering. Det är helt i linje med investerarens mål och risk men tar heller inte hänsyn till några positiva eller negativa nyheter om tillgången. Vilket denna studies portfölj kommer att utgå ifrån. (Butler et al, 2016).

2.2.2 Taktisk tillgångsallokering

Taktisk tillgångsallokering är en mer modern jämfört med den strategiska. Denna strategi baseras övergripande på tre olika värdepapper; främst aktier, obligationer eller likvida medel.

Den grundas på relativa resultat av tillgångsslag och kortsiktiga justeringar i tillgångsallokering görs ofta. På så sätt kan portföljen prestera en högre avkastning och därmed prestera bättre än jämförelseindex. In- och utträde i tillgångar måste på så vis tidsoptimeras. (Butler et al, 2016) (Bellu &Conversano, 2020).

2.3 Principal component analysis

Många analytiker använder sig av en metod som kallas för principal component analysis (PCA metoden). Denna metod är väl testad inom flertalet områden, allt ifrån statistik till medicinsk forskning. PCA skapar artificiella variabler vilket i sin tur skall maximera variationen av variablerna i analysen. Detta görs för att identifiera korrelationen mellan aktier och med hjälp av detta kan investerare skapa sig en väl diversifierad portfölj genom att analysera två eller fler oberoende variabler, baserat på algoritmisk applikation av komponenter som märks utifrån en given heuristik. (Sharma & Vipul,2018).

(16)

16

2.4 Modern portföljteori

Ett alternativ till PCA-metoden är den så kallade Modern portföljteori (MPT) (Markowitz,1952). MPT försöker att maximera portföljens förväntade avkastning baserat på riskfaktorerna i investeringarna (Markowitz, 1952) (Esfahani, et al, 2016). Teorin bakom MPT är att inkludera olika tillgångar vilket inte fullständigt korrelerar med varandra och där med skapar en mindre risk i portföljen utan någon negativ påverkan gällande avkastning (tillgångsallokering). Detta tillvägagångssätt ignorerar den kortsiktiga finansmarknads- dynamiken som investerare exponeras för, som i allmänhet fokuserar på mål med en begränsad tidshorisont. Faktum är att den teoribaserade optimala portfördelningen är känsliga för avkastningsförväntningar, som vanligtvis är svåra att fastställa. Utöver detta kan historiska avkastningar resultera i missvisande utgångspunkter för framtida avkastning (Ni et al, 2011) Med denna typ av problematik i åtanke används liknande tillvägagångsätt som i MPT i denna studie, genom att använda sig av medelvariansen för att utvärdera hur stora riskfaktorerna är i portföljen (Markowitz, 1952) (Esfahani, et al, 2016) och därefter att jämföra den årliga avkastningen samt medelvariansen för bolagen som inkluderas i OMX30.

2.5 Maskininlärning

Maskininlärning är en undergrupp till artificiell intelligens (AI) som har på senare tid växt sig oerhört populär bland olika typer av dataanalys (Moreo, et al, 2019). Den huvudsakliga filosofin bakom AI är att skapa en ”smart” maskin med hjälp av olika typer av beräkningar samt algoritmer (Alloghani, et al, 2020). Steget efter detta är att inte bara skapa en ”smart” maskin utan en maskin som även kan lära sig själv baserat på tidigare utfall. Detta görs med hjälp av datakoder vilket genereras med hjälp av beräkningsanalyser och statistik som i sin tur ligger till grund för maskinens beslutsfattande/agerande. (Moreo, et al, 2019).

2.5.1 Övervakad & oövervakad maskininlärning

Övervakad maskininlärning innefattar alltid någon typ av data sedan tidigare som skall representera all typ av data. Den tidigare datan är oftast ett resultat som innefattar någon typ av

”rätt svar”. Vanligtvis krävs det någon eller några metoder för att skapa denna typ av sammanställning innan analytiker kan använda sig av en övervakad inlärningsmetod.

(Abhijit,2017)

Oövervakad maskininlärning innebär att man presenterar en funktion där utfallet inte är känt och där ”rätt svar” ej är angett. Exempel på detta kan vara historisk data. Om en analytiker skall använda sig av oövervakad maskininlärning krävs det en formel alternativt en beräkning vilket

(17)

17 kontinuerligt räknar ut vad händelseförloppet skall utmynna i. Dessa typer av mönster som beräknas måste analytikern bedöma om resultaten är rimliga för användning inom en oövervakad inlärningsmetod. Vi kan även se liknade inlärningsmetoder hos oss människor. Om ett litet barn exponeras mot en bild på en bil vid flertalet tillfällen och sedan ser en bil köra förbi vid ett promenadtillfälle kommer barnet att känna igen att det är en bil. Även om bilen skulle sakna visa delar kan vi väldigt snabbt avgöra vad vi ser framför oss. (demenscentrum,2020) Vad som är mycket svårare än att avgöra om det är en bil man ser framför sig är att se mönster eller göra beräkningar som skall ligga till grund för investeringar, exempelvis trender vilket ses i figur 1 (Miroslav, 2017).

a)

b)

Figur 1. Exempel på trender på aktiemarknaden. På y-axlarna anges pris per aktie i kronor och på x-axlarna anges antal handelsdagar på aktiemarknaden. I figur 1a ses exempel på en uppåtgående trend på aktiemarknaden. I figur 1b ses exempel på en nedåtgående trend på aktiemarknaden.

I denna studie kommer användningen av oövervakat lärande användas då målet är att utesluta den mänskliga interaktionen i så stor utsträckning som möjligt och även undersöka huruvida maskiner kan göra bättre bedömningar vid investeringar jämfört med mänskliga individer.

2.5.2 K-Betydelse kluster

När man använder sig av oövervakat lärande finns det flertalet metoder att använda beroende på vad forskaren söker för resultat eller hur datan presenteras för forskaren. En välanvänd metod vid analys av oövervakat lärande är K-betydelsen (Jha & Saha, 2019) (Kyan et al., 2014).

Genom denna metod skapas det kluster, vilket är ett sätt för forskaren att avslöja eventuella

0 5 10 15

0 2 4 6 8 10 12

0 5 10 15

0 2 4 6 8 10 12

(18)

18 grupper av observationer, trender, kraftigt avvikande data jämfört med medelvärdet (så kallade outliners) samt likheter mellan testerna (Eriksson et al., 2013) (Kyan et al., 2014).

Målet med K-betydelsen är att dela upp ett datarum i K-prototyper vilket betyder att forskaren bestämmer hur många datauppsättningar analysen skall innefatta (Antal kluster = K).

För att bestämma centrumpunkterna för K kan en slumpmässig process göras alternativt ett aktivt val. Denna process upprepas tills det inte finns någon större förbättring av antalet kluster, vilket kan ses som ett optimalt antal kluster. Denna procedur görs för att minska kvadratavståndet (SSE) mellan alla prover och deras representativa prototyper (Kyan et al., 2014), vilket innebär att man söker ett så lågt SSE värde som möjligt.

Slutligen kan resultatet analyseras med ett T-test om vi antar att den insamlade datan är normalfördelad, vilket denna studie har utgått ifrån. Om datan inte skulle betraktats som normalfördelad, kan man använda sig av Kruskal-Wallis-testet för att genomföra hypotesprövningen som krävs för studien. (Bargagliotti et al, 2015)

2.6 Tidigare forskning

En metod för att framställa algoritmer för att generera en portfölj som genererar en högre positiv avkastning är K-betydelsemetoden vilket vi har undersökt i vår studie. K-betydelsemetoden och dess användning på aktiemarknaden är ej särskilt väl studerad och mängden forskningsresultat är begränsad. Den forskning som däremot har gjorts på området har sammantaget talat för att K-betydelsemetoden kan användas för att generera en högre positiv avkastning på portföljen jämfört med jämförelseindex. K-betydelsemetoden har tidigare använts inom andra områden där kategorisering och klustersammansättning används. Inom dessa områden har K-

betydelsemetoden visat sig vara en effektiv metod.

Det har gjorts ett antal tidigare empiriska forskningar vilket angriper kunskapen och tillvägagångsättet med att använda sig av K-betydelsen inom diversifiering och portföljhantering. Chen och Xu (2014) utformade sin studie baserat på K-betydelsen vilket var den uteslutande metoden att analysera sex slumpmässigt utvalda aktier på Shanghaibörsen under perioden 2000 till 2012. Forskarna ville visa med sin studie att man kan skapa en väl presterande portfölj utan några komplicerade matematiska modeller och tidskrävande uppskattningar. För att visa potentialen av metoden antogs problematik gällande portföljval i flertalet perioder, utöver detta antas ett dynamiskt riskmått vilket är överlägset större än vad

(19)

19 tidigare litteratur antar. Slutligen gjordes en serie numerisk experiment på de aktier vilket inkluderades inom studiens avgränsningar. Resultatet i studien var signifikant och visade att användandet av K-betydelsemetoden ledde till en positiv riskjustering samt en positiv högre avkastning på portföljen. (Chen & Xu, 2014).

Korzeniewski (2017) såg en efterfråga födas när investerar använde sig av statistiska modeller för att skapa sig en väl diversifierad portfölj och därmed optimera sina positioner på aktiemarknaden. I studien som skulle möta investerarnas behov används K-betydelsemetoden i en kombination med Partitioning Around Medoids (PAM), vilket ska generera ett antal portföljpositioner samt välja olika klusterrepresentanter baserat på prestation. Studien visade att användandet av K-betydelsemetoden i kombination med PAM gav en högre positiv avkastning på investeringen baserat på de tjugo mest likvida aktierna på Warszawabörsen (WIG20) under perioden 2011 till 2014. Resultatet var signifikant. (Korzeniewski, 2017) 2008 genomförde Marney en studie där K-betydelsemetoden användes i kombination med self- organizing map (SOM). SOM är en metod som används inom neurala nätverkstekniker, dessa tekniker är ett samlingsnamn av beräkningar och algoritmer som möjliggör att artificiell intelligens att blir självlärande. Studien granskar de hundra största bolagen på Londonbörsen under perioden 1993–2003 och visar att det inte finns någon signifikans gällande användandet av dessa metoder och en högre positiv avkastning på aktiemarknaden. Forskaren gör antagandet att aktiemarknaden fortsätter att bli effektivare som ett resultat av ökad kollektiv förståelse i kombination med att allt mer kraftfulla dataanalystekniker används. (Marney, 2008).

Från artikeln av Elazouni (2006) kan vi se att klustersammansättningar med hjälp av K- betydelsemetoden kan användas även utanför aktiemarknaden, vilket i denna studie genererade en bild av olika entreprenörers kompetens att slutföra projektet i tid, inom budgeten och enligt förväntade kvalitetsstandarder. I denna typ av sammanhang används metoden för att skapa en hierarkisk sammanställning av de olika entreprenörerna, för att sedan urskilja den optimala entreprenören baserat på likviditet, aktivitet, lönsamhet och kvalité. Studien genomfördes 2012 i Saudiarabien och inkluderade 245 entreprenörer. Studiens resultat stödjer användandet av K- betydelsemetoden även utanför aktiemarknaden. (Elazouni, 2006).

Som företag försöker man optimera sin ekonomiska ställning kontinuerligt. I studien från Klotz och Lindermeir (2015) har K-betydelsemetoden använts för att förbättra beslutsfattandet i kreditportföljförvaltning. Metodens syfte skall bidra med att hitta likheter i datastrukturer vilket i sin tur skall användas för att urskilja kontraktspecifikationer med låg respektive hög

(20)

20 vinstpotential för finansiella institut och banker. Forskaren belyser att denna typ av strategiskt upplägg baseras på flera möjliga inställningar som måste justeras manuellt i modellen. Detta leder till flertalet olika utfall baserat på datainmatning och därmed kan inte fullständiga validitetsaspekter tillgodoses. (Klotz och Lindermeir, 2015).

Att prognostisera den potentiella avkastningen på investeringar kopplade till aktiemarknaden är en väldigt krävande process och aspekter kring detta tar Dias et al (2019) upp i sin studie för att skapa ett algoritmiskt upplägg som föreslår en unik beslutsmodell för day-traders. Med detta i åtanke utvecklades modellen med en fusionsmetod för att klassificera olika aktier med hjälp av maskininlärning. Med support vector machine (SVM) genereras de första datapunkterna och med hjälp av medelvarians (MV) görs sedan det slutgiltiga beslutet avseende investeringen.

Studien baseras på och jämförs med Sao Paulo Stock Exchange Index (Ibovespa) där forskarna får fram ett signifikant resultat gällande högre positiv avkastning genom att använda metoder för att avgöra portföljhantering och diversifierad. (Dias et al, 2019).

Forskningen som presenteras av Khedmati och Azin (2020) är en typ av portföljsammansättningsalgoritm vilket följer strukturen mönstermatchningsprincipen, algoritmerna fattar beslut om den optimala portföljen i varje beräkningsperiod och uppdaterar beräkningarna i början av nästföljande period. Inledningsvis användes K-betydelsen för att skapa klustersammansättningar. För att inkludera transaktionskostnaden i portföljoptimeringen användes fyra algoritmer: KMNLOG, KMDLOG, SPCLOG och HRCLOG baserat på studiens syfte. Denna metod i studien tillämpades på hela NASDAQ, NYSE och slumpmässiga aktier från index Nasdaq-100, Dow Jones och S&P 500 under olika tidsperioder. Resultatet i studien var signifikant och visade att metoden gav högre positiv avkastning jämfört med jämförelseindex. (Khedmati och Azin, 2020).

Cheong et al genomförde 2017 en studie för att undersöka användandet av ekvationer för att framställa en portfölj som genererar en högre positiv avkastning jämfört med jämförelseindex.

Studien genomfördes i två faser. Först utvecklades en sammansättning av aktier för att skapa en portfölj genom en klusteranalys av investerarinformation. Därefter användes algoritmer för att optimera fördelningen av aktierna för att generera en högre avkastning. Slutsatsen av studien visar att användandet av flerstegsportföljoptimeringsschemat för aktiv portföljförvaltning ger högre positiv avkastning på portföljen jämfört med tidigare föreslagna metoder för den koreanska aktiemarknaden. (Cheong et al, 2017).

(21)

21 En sammanställning av referenser för kapitel 2 ses i tabell 2 samt en separat sammanställning av artiklar vilka bidrog med relevanta inslag till studien (bilaga 1).

Tabell 2. Sammanställning av referenser för kapitel 2.

Författare År Land Urval Relation till uppsatsen

Markowitz 1952 USA Dow-Jones Modern portfolio theory (MPT)

Fama 1970 USA Dow-Jones

Period: 1957–1962

EMH

Grossman & Stiglitz 1980 USA Tidigare forskning EMH Aragó & Fernández-

Izquierdo

2003 Spanien IBEX-35 index Period: 1993–1999

Riskuppfattning kring aktiemarknaden Delgado-Rodriguez &

Llorca

2004 Spanien Tidigare litteratur och studier av ämnet

Aspekter kring bias inom forskning Atack & Neals 2009 England Litteratur Grunden till notering på aktiemarknaden

Business Insider 2010 USA Intervju Warren Buffets syn på aktiemarknaden

Ni et al 2011 Kina NYSE, AMEX & NASDAQ Missvisande uppskattningar baserat på historiskavkastning

Eriksson et al. 2013 Sverige Huvudkomponentanalys (PCA) och Projektioner till latenta strukturer (PLS)

Faktorer inom K-betydelsen

Kyan et al. 2014 Kanada Självorganiserad trädkarta (SOTM) och Självorganiserad hierarkisk varianskarta (SOHVM)

Faktorer inom K-betydelsen

Alexeev & Dungey 2015 England, Wales

S&P 500, Period:2003–2011

diversifiering och kostnader

Bargagliotti et al 2015 England Litteratur Kruskal-Wallis-testet

Butler et al 2016 USA Litteratur Tillgångsallokering

Esfahani et al 2016 Iran Modern portfolio theory (MPT) Investeringar baserat på varians

Abhijit 2017 USA Vektoranalys,

Linjära funktioner &

Skalanalys

Övervakad maskinlärning

Miroslav 2017 USA Vektoranalys &

K-betydelsen

Oövervakad maskinlärning Lekovic 2018 Serbien Effektivitetstester på

finansmarknaden och tidigare forskning

Faktorer som talar emot EMH

Sharma & Vipul 2018 USA, Kanada

Tre jämförelsegrupper med 25 länder

Period: 1990

Diversifiering & korrelation

Sveriges rikes lag 2018 Sverige Aktiebolagslag (2005:551) Lagar och regler kring aktier

Alltommarknaden 2019 Sverige OMXS Diversifiering

Jha & Saha 2019 Indien Indiska telekombranschen K-betydelsens användning Moreo et al. 2019 Italien 6 olika uppsättningar av data med

olika mängd variabler

Maskinlärnings grund Alloghani et al. 2020 USA Utvalda skrifter från den fjärde

internationella konferensen i mjuk beräkning inom datavetenskap, Period: 2018

Syftet med AI

Bellu & Conversano 2020 Tyskland Börshandlade fonder (ETF) Från flertalet marknader

Tillgångsallokering

Demenscentrum 2020 Sverige Människor Inlärningsprocess hos människan

Nasdaq 2020 USA OMX30 Aktiedata

Sveriges Riksbank 2020 Sverige Sverige Betalningsmetoder kopplat till digitalisering

(22)

22

2.7 Hypotes

Följande hypotes har formulerats i studien: användandet av K-betydelsemetoden för att sortera fram ett antal bolag ur OMX30 resulterar i högre avkastning jämfört med index OMX30 under en given tidsperiod.

H₀: Det finns ingen signifikant skillnad mellan portföljen skapad av K-betydelsen och OMX30 under given period

H₁: Portföljen skapad med K-betydelsen har presterat en bättre avkastning än OMX30 under given period

(23)

23

3 Metod

Metodkapitlet förklarar hur denna studie genomfördes, inklusive urval av data för analys av de använda metoderna.

3.0.1 Forskningsstrategi

Studien kommer att utgå från en deduktiv forskningsprocess, vilket innebär att den kommer utgå från slutsatser i tidigare forskning. Tillvägagångssättet som kommer att användas i studien är den kvantitativa metoden då tanken är att metoder och teorier som används ska grunda sig på tidigare genomförda studier.

Huvudstrategin för denna studie var att använda den oövervakade inlärningsmetoden K- betydelsemetoden för att skapa en portfölj som kan ge högre positiv avkastning än index OMX30. När K-betydelsen är bestämd kan en djupgående analys göras vilket kan återspegla om oövervakade inlärningsmetoder är mer fördelaktiga att använda sig av inom aktiehandel jämfört med ett underliggande index.

3.1 Val av data

Denscombe gjorde 2014 en jämförelse av OMXS och OMX30. Det visade sig att korrelationen mellan dessa index överensstämde mycket väl, men med en viss volatilitetsskillnad där volatiliteten var något högre på OMXS (Denscombe, 2014). En ytterligare faktor till att använda OMX30 i studien är att insamling av datan blir enklare men även effektivare (Denscombe, 2014). För att skapa en så rättvisande bild av aktiemarknaden, som även passar in i dagens marknadsförhållanden gjordes periodavgränsningen med syftet att få tillräckligt med aktuell data. (nasdaqomxnordic,2020) Informationen erhölls direkt från Nasdaqs hemsida (Nasdaq, 2020) (se bilaga 2).

3.2 Datainsamling

Datainsamlingen skedde genom att samla in den historiska datan, vilket inkluderande aktiernas stängningskurser varje handelsdag, från den 1 november 2017 till den 2 november 2020 från Yahoo Finance. Yahoo Finance är en leverantör av reala men även historisk data kopplat till aktiemarknaden vilket är gratis samt tillgänglig för alla intresserade. (Clayton & Schmidt, 2017). Baserat på avgränsningarna som gjorts sparades datan i datorprogrammet Excel för att senare kunna göra en behandling av datan.

3.3 Databehandling

De insamlade uppgifterna var data från samtliga svenska aktier som inkluderas i OMX30, under tidsperioden 1 november 2017 till den 2 november 2020 för att få fram K-betydelsen inom

(24)

24 ramen för studiens avgränsningar. För varje år beräknades den årliga genomsnittliga avkastningen för respektive aktie genom att summera aktiernas årliga avkastning och därefter dividera med antalet år som inkluderades i studien, formeln för detta se i ekvation 1. Variansen av respektive aktie beräknades enligt ekvation 2. Den genomsnittliga variansen beräknades sedan med hjälp av ekvation 3.

Den genomsnittliga avkastningen kan illustreras matematiskt som:

𝐺𝑒𝑛𝑜𝑚𝑠𝑛𝑖𝑡𝑡𝑙𝑖𝑔 𝑎𝑣𝑘𝑎𝑠𝑡𝑛𝑖𝑛𝑔 = ∑ 𝐴𝑣𝑘𝑎𝑠𝑡𝑛𝑖𝑛𝑔 𝑝𝑒𝑟 å𝑟

𝐴𝑛𝑡𝑎𝑙 å𝑟 (1)

(Average return definition, Investopedia 2020) Variansen kan illustreras matematiskt som:

𝑉𝑎𝑟𝑖𝑎𝑛𝑠𝑒𝑛(𝑠²) = ^∑ ^(𝑥^𝑖^−𝑥̅)²

𝑛 𝑖=1

𝑛 (2)

𝑥_𝑖 = 𝑉ä𝑟𝑑𝑒𝑡 𝑓𝑟å𝑛 𝑑𝑎𝑡𝑎𝑖𝑛𝑠𝑎𝑚𝑙𝑖𝑛𝑔𝑒𝑛 𝑥̅ = 𝐺𝑒𝑛𝑜𝑚𝑠𝑛𝑖𝑡𝑡

𝑛 = 𝐴𝑛𝑡𝑎𝑙 𝑎𝑘𝑡𝑖𝑒𝑟 𝑖 𝑝𝑜𝑟𝑡𝑓𝑜𝑙𝑖𝑜𝑛 (Variance, Investopedia 2020)

Den årliga genomsnittliga variansen kan illustreras matematiskt som:

𝐺𝑒𝑛𝑜𝑚𝑠𝑛𝑖𝑡𝑡𝑙𝑖𝑔 𝑣𝑎𝑟𝑖𝑎𝑛𝑠 = ^{∑(𝑣𝑎𝑟𝑖𝑎𝑛𝑠)}

𝐴𝑛𝑡𝑎𝑙 å𝑟 (3)

Den årliga förändringen av aktiekursen samt variansen separerades och kategoriserades för bolagen för att kunna lägga grunden för K-betydelsemetoden. När detta var genomfört tillämpades utvärderingsmetoden för att kunna bestämma K i studien.

3.4 Utvärderingsmetoder

I motsats till övervakad inlärning där vi har den grundläggande sanningen för att utvärdera modellens prestanda, har klusteranalys inte ett gediget utvärderingsvärde som vi kan använda för att utvärdera resultatet av olika klusteralgoritmer. Eftersom K-betydelsen kräver K som ingående värde och inte lär sig detta av befintlig data, finns det inget rätt svar gällande antalet kluster som borde användas i analysen (Kyan, et al., 2014). I denna studie togs K fram genom intuition och för att göra detta användes en variant av armbågsmetoden.

(25)

25 3.4.1 Armbågsmetoden

När all data är bearbetad och redo för analys är det viktigt att få vetskapen om antalet K som skall användas. (Kyan et al, 2014) (Alm & Britton, 2008) Armbågsmetoden kan användas för att ge en indikation om vad ett adekvat K-värde skulle vara baserat på kvadratavståndet (SSE) mellan datapunkter och deras tilldelade klustercentroid, för detta se ekvation 4. (Kyan et al, 2014) (Alm & Britton, 2008).

SSE kan illustreras matematiskt som:

𝑆𝑆𝐸 = ∑^𝑛_𝑖=1(𝑦_𝑖 − 𝑓(𝑥_𝑖))² (4)

𝑦_𝑖 = 𝑖 𝑣ä𝑟𝑑𝑒 𝑠𝑜𝑚 𝑠𝑘𝑎𝑙𝑙 𝑓ö𝑟𝑢𝑡𝑠𝑒𝑠

𝑥_𝑖 = 𝑖 𝑣ä𝑟𝑑𝑒 𝑝å 𝑑𝑒𝑛 𝑓ö𝑟𝑘𝑙𝑎𝑟𝑎𝑛𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑛 𝑓(𝑥_𝑖) = ä𝑟 det 𝑓ö𝑟𝑢𝑡𝑠𝑎𝑔𝑑𝑎 𝑣ä𝑟𝑑𝑒𝑡 𝑝å 𝑦_𝑖

K-värdet analyseras genom medelvärdet av SSE för respektive kluster. SSE visar hur nära centroiden de ingående delarna av klustret ligger. Ett lågt medelvärde på SSE innebär alltså en bättre uppskattning av K än vad ett högre SSE-värde skulle göra. (Skikit learn, 2019).

Värdena som fås fram plottas sedan i en graf som i sin tur illustrerar att adderingen av fler kluster initialt ger mer korrekt information inom respektive kluster. Vid en viss punkt kommer dock informationsförbättringen att minska drastiskt vid tillägg av fler kluster vilket leder till att grafen får en tydlig vinkling. Denna typ av vinkling ses inringad i grafen i figur 2.

(Thorndike, 1953).

Figur 2. Exempel på sambandet mellan SSE-poäng och antalet valda kluster. På X-axeln ses antalet kluster som använts. På Y-axeln ses det beräknade SSE-poängen. Ett högre antal kluster ger lägre SSE- poäng.

För att få ett adekvat antal kluster i vår studie användes en variant av armbågsmetoden. K- betydelsemetoden i denna studie använde sig av en approximation av antalet kluster som skall

0 5 10 15 20 25

0 2 4 6 8 10

(26)

26 användas samt ett icke slumpmässigt val av de första centroidpunkterna (Skikit learn, 2019).

Test av olika K-värden gjordes i programmet Excel och för respektive K-värde beräknades SSE.

Datan som behövdes för att beräkna SSE hämtades från Nasdaq. SSE-värdena och K-värdena plottades i en graf i programmet Excel och det antal kluster som motsvarade vinklingen i grafen (liknande den som ses i figur 2) valdes som studiens K-värde.

3.4.2 Beräkning av varians av valda kluster

Efter att det optimala K-värdet till studien bestämts görs en beräkning av den optimala klustersammansättningen (där SSE-medelvärdet för respektive kluster ska bli så lågt som möjligt). Denna beräkning genomfördes i Excel med hjälp av ekvation 4. Därefter beräknades respektive klusters genomsnittliga varians genom beräkning med ekvation 2 samt beräkning av respektive klusters genomsnittliga avkastning enligt ekvation 1. 2. Beräkningen genomfördes i programmet Excel. Därefter exkluderades de kluster (och därigenom de aktier som ingått i dessa kluster) som genererat en negativ avkastning.

Sedan gjordes en ny beräkning för att bestämma det optimala K-värdet, på samma sätt som vid föregående beräkning av det optimala K-värdet. Därefter gjordes en beräkning för optimal klustersammansättning (av de kvarvarande aktierna) med hjälp av ekvation 4 i programmet Excel. Därefter beräknades respektive klusters genomsnittliga varians genom beräkning med ekvation 2 samt beräkning av respektive klusters genomsnittliga avkastning enligt ekvation 1.

Beräkningen genomfördes i programmet Excel. Sedan exkluderades återigen de kluster, och därigenom de aktier som ingått i dessa kluster, som genererat en negativ avkastning samt även de kluster som presterat påtagligt lägre avkastning.

Därefter genomförs ett T-test. Detta kan göras då det antas att datan är normalfördelad, att data normalt inte distribueras till att kontrollera om portföljen skapades med hjälp av K- betydelsemetoden och det antas även att T-testet inte görs för att undersöka om portföljen överträffar OMX30 i värdeutveckling, för detta se ekvation 2 & 5. (Bridget & Sawilowsky, 1999)

T-testet kan illustreras matematiskt som:

𝑡 = ^𝑥̅¹^−𝑥̅²

√𝑠²(¹ 𝑛1+¹

𝑛2)

(5)

(Unequal Variance T-Test, investopedia,2020)

(27)

27 Resultatet av beräkningen av T-testet används sedan för att avgöra huruvida det finns en skillnad i prestation av index OMX30 och portföljen som satts samman med hjälp av K- betydelsemetoden.

3.4.3 Bedömning av testresultat

För att jämföra testresultaten för den slutliga sammansatta portföljen och jämförelseindex OMX30 användes T-test. Signifikansnivån var satt till α ≥ 0,95.

3.5 Prestation & riskanalys

Studiens sammansatta portföljs resultat analyserades genom den så kallade sharpe-kvot, vilket beräknades enligt ekvation 6.

𝑆ℎ𝑎𝑟𝑝𝑒 − 𝑘𝑣𝑜𝑡 = 𝐴𝑣𝑘𝑎𝑠𝑡𝑛𝑖𝑛𝑔−𝑅𝑖𝑠𝑘𝑓𝑟𝑖𝑡𝑡𝑘𝑎𝑝𝑖𝑡𝑎𝑙

𝑆𝑡𝑎𝑛𝑑𝑎𝑟𝑑𝑎𝑣𝑣𝑖𝑘𝑒𝑙𝑠𝑒𝑛 𝑓ö𝑟 𝑝𝑜𝑟𝑡𝑓ö𝑙𝑗𝑎𝑣𝑘𝑎𝑠𝑡𝑛𝑖𝑛𝑔𝑒𝑛 (6) (Sharpe-kvot, Investopedia, 2020)

Utöver detta analyserades även den nedåtgående risken för portföljen genom att beräkna den nedåtgående standardavvikelsen enligt ekvation 7 för att undersöka det värsta tänkbara scenariot för investeringen.

Standardavvikelsen beräknas som:

𝜎 = √^∑ ^(𝑥^𝑖^−𝑥̅)²

𝑁 𝑖−1

𝑛−1 (7)

(Standard Deviation, Investopedia,2020) 3.6 Validitet och Reliabilitet

Denna studie inkluderade granskade artiklar. Studien inkluderade dock vissa ogranskade källor, exempelvis för ekvationer men även information från ogranskade rapporter från svenska institut och myndigheter. Information hämtades även från databaser som är väl använda.

Informationsinsamlingen gjordes för att skapa en så rättvisande bild som möjligt men även för att kunna få en hög validitet, vilket syftar till att studien studerar rätt aspekter. Studien presenteras även i detalj för att bibehålla en hög reliabilitet, för att skapa en hög tillförlitlighet men även underlätta för att replikera studien. (Collis & Hussey, 2014)

3.7 Etiska betänkligheter

Förhållningssätt till etiska aspekter och principer är av största vikt inom alla former av forskning. I denna studie har författaren behövt förhålla sig till de etiska aspekterna som innebär

(28)

28 att tidigare forskning eller andra källor ej plagieras, att resultaten är sanningsenliga och att datan används på ett rättvist sätt och ej förvrängs. (Sagarin et al, 2014) (Gustafsson et al, 2005) I denna studie är insamlad data hämtad från granskade källor vilket överensstämmer med Collis

& Hussey (2014) beskrivning av ett etiskt skrivande. Datan har ej manipulerats och all aktuell data inom forskningsprojektets gränser har inkluderats. Utöver detta har tidigare forskning och andra källor ej plagierats.

(29)

29

4 Resultat

I detta kapitel presenteras uppsatsens resultat av K-betydelsemetoden samt presentation av den slutgiltiga portföljen.

4.1 Bearbetning av insamlad data

Mängden data som samlades in för vardera aktie var 1005 datapunkter, vilket resulterade i totalt 30 150 datapunkter för perioden 1 november 2017 till och med den 2 november 2020 efter att all data var insamlad. Som tidigare nämnts omvandlades uppgifterna till genomsnittlig årlig avkastning och procentuell årlig avvikelse för varje aktieslag inom OMX30 (se bilaga 3).

Resultatet kan även plottas för att få en mer beskrivande bild av förändringen inom aktierna vilket kan ses i figur 3.

Figur 3. Plott. På Y-axeln kan vi se den genomsnittliga avkastningen och på X-axeln den genomsnittliga variansen.

4.2 K-betydelsens resultat 4.2.1 SSE-poäng av data

Datan som samlades in bearbetades i Excel och användes för att göra en primär K-betydelse.

Detta användes för att få fram den bästa SSE-poängen för att i sin tur få fram det optimala K- värdet. Beräkningarna för detta ses i bilaga 4. Det finns en signifikant förbättring av resultat av SSE från K=4 till K=5, som sjunker från över 21 till cirka 16,5. Vid K=6 är SSE-poängen ännu lägre med SSE-poäng runt 13. Graf över K-värdena och respektive SSE-poäng ses i figur 4.

(30)

30 Figur 4. Sambandet mellan SSE-poäng och antalet valda kluster där samtliga 30 aktier inkluderas. På X-axeln ses de testade antalet kluster. På Y-axeln ses det beräknade SSE-poängen.

4.2.2 K-betydelsemetoden med K=6

Tabell 3. Genomsnittlig avkastning och varians för respektive kluster. Denna beräkning innefattar samtliga 30 aktier i OMX30.

Kluster Genomsnittlig avkastning

Genomsnittlig varians

Aktier

1 0,238333333 0,200380208 4st

2 -0,021 0,2847935 2st

3 0,015933333 0,341948302 5st

4 0,31425 0,114856951 3st

5 0,128848485 0,254232593 11st

6 -0,328016667 0,039961467 5st

Vid användandet av K=6 visar det att klustersammansättning två och sex ger en genomsnittlig negativ avkastning vilket leder till att aktierna inom dessa två klustersammansättningar exkluderades. Utöver detta kan vi även urskilja en låg varians på samtliga kluster (nära noll) (se tabell 3). Detta resulterade i att sju aktier (de som inkluderades i kluster två och sex) exkluderades.

4.2.3 Tillämpning av K-betydelsen i undergruppskluster 1,3,4,5

K-betydelsemetoden på undergrupperna, vilka hade en positiv genomsnittlig avkastning bestående av 23 aktier (se bilaga 5), resulterade i optimala K=6 SSE = 4,06. I figur 5 ses föreslagna K-värden och beräknade SSE-värden. Den föreslagna klusterfördelningen kan ses i bilaga 6.

0 5 10 15 20 25

0 2 4 6 8

(31)

31 Figur 5. Sambandet mellan SSE-poäng och antalet valda kluster där de 23 utvalda aktierna inkluderas. På X-axeln ses de testade antalet kluster. På Y-axeln ses det beräknade SSE-poängen.

4.2.3.1 K-betydelse för undergruppskluster

Tabell 4. Genomsnittlig avkastning och varians för portföljen innehållande de 23 utvalda aktierna.

Kluster

Genomsnittlig avkastning

Genomsnittlig

varians Aktier

1 0,049111413 0,310048407 4st

2 0,227173913 0,203368992 4st

3 0,109425466 0,289625574 7st

4 0,23451087 0,203656082 4st

5 -0,136054348 0,299964336 1st

6 0,303623188 0,118185672 3st

Även denna beräkning gav ett optimalt K=6, vilket resulterade i att fem av sex kluster hade en positiv avkastning vilket kan ses i tabell 4. Kluster fem samt de innefattade aktierna exkluderades då de gav en negativ avkastning. Kluster ett och tre, samt de inkluderade aktierna i respektive kluster, exkluderades baserat på att de presterat en påtagligt lägre avkastning jämfört med övriga kvarvarande kluster. Detta resulterade i att ytterligare 12 aktier exkluderades och att totalt 11 aktier inkluderades i den slutgiltiga portföljen.

4.3 Diversifieringav den slutgiltiga portföljen

Den slutgiltiga portföljen i studien bestod av 11 aktier vilka anges i tabell 5. Resultatet av portföljens diversifiering innebar att vi fick en spridning av aktierna inom sju olika branscher:

industri, sjukvård, teknik, konsumtion, råvaror, tjänster och kommunikation. Vilka aktier som faller inom vilken bransch anges i tabell 5.

0 2 4 6 8