Investerarnas position : En studie om semantisk analys av forumstrådar på wallstreetbets.

(1)

Linköpings universitet | Institutionen för datavetenskap Kandidatuppsats, 18 hp | Kognitionsvenskap Vårterminen 2021 | LIU-IDA/KOGVET-G--21/027--SE Linköpings universitet SE-581 83 Linköping 013-28 10 00, www.liu.se

Investerarnas position

En studie om semantisk analys av forumstrådar på wallstreetbets.

__________________________________________________________________________

Författare:

Olof Josefsson

Handledare: Michaela Socher Examinator: Carine Signoret

(2)

Upphovsrätt

Detta dokument hålls tillgängligt på Internet – eller dess framtida ersättare – under 25 år från publiceringsdatum under förutsättning att inga extraordinära omständigheter uppstår. Tillgång till dokumentet innebär tillstånd för var och en att läsa, ladda ner, skriva ut enstaka kopior för enskilt bruk och att använda det oförändrat för ickekommersiell forskning och för undervisning. Överföring av upphovsrätten vid en senare tidpunkt kan inte upphäva detta tillstånd. All annan användning av dokumentet kräver upphovsmannens medgivande. För att garantera äktheten, säkerheten och tillgängligheten finns lösningar av teknisk och administrativ art. Upphovsmannens ideella rätt innefattar rätt att bli nämnd som upphovsman i den omfattning som god sed kräver vid användning av dokumentet på ovan beskrivna sätt samt skydd mot att dokumentet ändras eller presenteras i sådan form eller i sådant sammanhang som är kränkande för upphovsmannens litterära eller konstnärliga anseende eller egenart. För ytterligare information om Linköping University Electronic Press se förlagets hemsida:

http://www.ep.liu.se/.

Copyright

The publishers will keep this document online on the Internet – or its possible replacement – for a period of 25 years starting from the date of publication barring exceptional circumstances. The online availability of the document implies permanent permission for anyone to read, to download, or to print out single copies for his/hers own use and to use it unchanged for noncommercial research and educational purpose. Subsequent transfers of copyright cannot revoke this permission. All other uses of the document are conditional upon the consent of the copyright owner. The publisher has taken technical and administrative measures to assure authenticity, security and accessibility. According to intellectual property law the author has the right to be mentioned when his/her work is accessed as described above and to be protected against infringement. For additional information about the Linköping University Electronic Press and its procedures for publication and for assurance of document integrity, please refer to its www home page:

http://www.ep.liu.se/.

(3)

(4)

Förord

(5)

Abstract

This thesis was aimed to evaluate if sentiment related to stocks expressed on the subforum

“Wallstreetbets” also reflects the traded volume in the stock market. For this purpose, a collection of comment data from posts filtered under the “Hot” section was issued between the 6th_{of April 2021}

and the 20th_{of April 2021 on daily basis at 22.00 (GMT+2). The comments were preprocessed to filter}

out noise, and thereafter comments that contained mentions of stocks were analyzed using VADER, an algorithm for grading sentiment. In total sentiment regarding 13 different stocks were fitted into a mixed effect model with random slopes and intercepts. The results showed a positive correlation between sentiment expressed and the traded volume. This indicates that by studying the forum we can better understand how people invested in stocks make investment decisions, which potentially could lead to a competitive advantage over time.

(6)

Innehåll

1. Inledning ... 1

2. Teoretisk bakgrund ... 2

2.1 EMH och beteendeekonomi ... 2

2.2 Semantisk analys ... 3

2.3 Semantisk analys och aktiemarknaden ... 4

2.4 VADER ... 6

2.5 Reddit ... 7

2.5.1 Grunderna för hur Reddit fungerar ... 7

2.5.2 Hur Reddits flöde fungerar ... 7

2.5.3 Hur Reddits kommentarsystem fungerar ... 9

2.6 Motivering ... 9

3. Metod ... 11

3.1 Val kopplade till Reddits funktionaliteter ... 11

3.2 Datainsamling ... 11 3.2.1 API ... 12 3.2.2 Reddit-API ... 12 3.2.3 Databehandling ... 13 3.2.4 Aktier ... 17 3.2.5 Börsdata ... 19 3.3 Etik ... 19 3.4 Förarbete för analys ... 20

3.5 Linear Mixed-Effect-Model (LMEM) ... 24

4. Resultat ... 26

5. Diskussion ... 28

5.1 Resultatdiskussion ... 28

(7)

5.3 Reddit och extrahering av sentiment ... 31

6. Slutsats och framtida studier ... 32

7. Referenser ... 34

8. Bilagor ... 37

8.1 Bilaga A – Histogram för fördelning av poäng per dag och aktie ... 37

8.2 Bilaga B – Regressions- och residualplottar ... 47

(8)

1

1. Inledning

Under inledningen av 2021 inträffade en tidigare aldrig skådad incident på finansmarknaden, då en koalition av privata investerare koordinerade sitt handlande av gamestop-aktien på subforumet wallstreetbets på Reddit. Tillsammans motsatte det de sig en short-position, det vill säga en position där man tror på att aktiekursen kommer gå ner. Detta var en position som gick emot investeringar från stora hedgefonder. Händelseförloppet utvecklades till att få drastiska följder, då aktien rusade flera hundra procent (Hedgefonder Kräver Hårdare Regler Efter Aktiepumpning | SVT Nyheter, 20/05/21). Efterskalvet av händelsen känns fortfarande av, då kongressen i USA hållit ett förhör om händelsen men kanske det viktigaste av allt – forumets medlemmar har ökat från runt 2.2 miljoner medlemmar den 28 januari 2021 i samband med att fenomenet inträffade, till att passera 10 miljoner medlemmar i slutet av april (R/Wallstreetbets Subreddit Stats (Wallstreetbets), 10/05/21).

Onekligen har intresset för forumet ökat inte bara av privata investerare som hoppas kunna hitta nästa trend på plattformen, utan även större företag inom finansvärlden tvingas erkänna plattformen som en inflytelserik spelare i det större finansspelet. Men går det att i större

utsträckning uttyda inställningar och attityder gentemot aktier på forumet? Ett område fokuserat på dessa fenomen är semantisk analys (Liu, 2012), som ämnar förstå vad det är som uttrycks och relatera det till dess rätta kontext, men även automatisera det så att större datamängder kan analyseras. Men givet att språket på sociala medier tenderar att vara väldigt regellöst, skapar det svåra förutsättningar att modellera i. Däremot ger nya algoritmer som VADER (Hutto & Gilbert, 2014), som utvecklats för att kunna ta hänsyn till den språkliga variation som kan förekomma, förutsättningar för att kunna lyckas med detta. Men även om det är möjligt att uttyda inställningar och attityder gentemot aktier på forumet; bidrar denna information till att man skulle kunna läsa av samband mellan opinion på forumet och inköp på aktiemarknaden, och använda denna funna information i ett fördelaktigt syfte? Enligt Efficient Market Hypothesis (Fama, 1970) är svaret nej då marknaden rättas efter att investerare är rationella, och all tillgänglig information är redan

inkorporerad i den rationella bedömningen av marknadsläget. Detta är något som

beteendeekonomin argumenterar emot (Shiller, 2003), som i stället menar på att kognitiva och psykologiska effekter kan påverka investerare, och därmed även dess inställning och förhållning till marknaden.

Dessa frågor ämnar denna explorativa studie ta reda på genom att granska sentiment kring diskuterade aktier på forumet, och därefter sätta detta i förhållande till den upphandlade volymen av omnämnda aktier.

(9)

2

2. Teoretisk bakgrund

I syfte att kunna förstå hur studien tagits fram krävs en förståelse för den teoretiska bakgrund som ligger till grund för studien. Den presenteras i följande avsnitt tillsammans med en motivering för varför studien är relevant.

2.1 EMH och beteendeekonomi

1970 presenterades en sammanställning av ”Efficient Market Hypothesis” (EMH) av Eugene Fama, i vilken han etablerade bilden av en effektiv marknad (Fama, 1970). Med detta syftade han på att i en fri marknad så återspeglar priset all tillgänglig information vilket i sin tur, i realtid, reflekterar

marknadens inställning då investerare agerar rationellt utefter den information som finns tillgänglig. Fama myntade tre former av en effektiv marknad, som på olika nivåer beaktar styrkan och vidden av den tillgängliga informationen.

Figur 1: Illustration av effektiva marknads-hypotesen.

Weak-Form alternativt en lågeffektiv marknad, består informationen som beslutar priset enbart av historiska priser. På denna effektivitetsnivå tjänar tekniska analyser mycket lite till, då det tidigare marknadspriset redan reflekteras i det nuvarande priset, vilket därmed inte ger investeraren någon ny information att agera utefter. Semi-Strong effektivitet syftar till en marknad där priset baseras på all tillgänglig offentlig information. Givet att priset beslutas av att investerare agerar rationellt utefter den tillgängliga informationen bör marknadspriset även på denna effektivitetsnivå redan spegla detta, och således inte ge någon marknadsmässig fördel för investerare. Slutligen så syftar

Strong-Strong-Form

Weak-Form

Semi-Strong

All historical prices and returns All information, public and private

(10)

3

Form på en marknad där all information, både offentlig och sådant som är privat och konfidentiellt, reflekteras i priset. Utifrån denna syn på marknaden kan investerare aldrig långvarigt få en

konkurrensmässig fördel. Detta då när ny information exponeras för marknaden, exempelvis privat sådan, så integreras denna information i marknadspriset, och det rättar sig därefter. Inom fältet av beteendeekonomi har idén om EMH utmanats (Shiller, 2003), däribland på grund av fluktueringar och återkommande avvikelser från en bilden effektiv marknad. Beteendeekonomin menar på att psykologiska och kognitiva effekter kan påverka investeraren, och därmed även dess inställning och förhållning till marknaden. Exempelvis har Tversky och Kahneman (1974) visat hur heuristiker påverkar beslutsfattande, vilka kan leda till felaktiga eller opålitliga slutsatser. Detta exemplifierar icke-logiska komponenter som influerar mänsklig informationsbearbetning, något en rationell investerare inte skulle besitta. Enligt EHM uppnås dock en jämvikt för detta fenomen då när en irrationell investerare köper, säljer den smarte investeraren och vice versa. Detta motsägs dock av beteendeekonomin, som menar att effekten av en irrationell och en smart investerare inte är ekvivalent. Detta har prövats i studier (Barberis & Shleifer, 2003; De Long et al., 1990), där det bland annat framkommit att den smarta investeraren amplifierar effekten av den irrationelle investeraren, genom att proaktivt göra investeringar som de tror sig kunna tjäna mer på.

En bristfällighet i antagandet om att marknaden styrs av enbart rationella investerare och beslut öppnar således för att beakta ekonomiskt beslutstagande hos investerare som något märkbart påverkat av mänsklig irrationalitet. Att studera den tillgängliga informationen i en semi-effektiv marknad kan därmed ge konkurrensmässiga fördelar. Detta då marknadspriset enbart är tänkt att reflektera rationellt investerande, så irrationella effekter är inte inkorporerade i marknadens analys av den tillgängliga informationen. Är underlaget som studeras tillräckligt stort och inflytelserikt, bör den mätbara effekten av det således kunna speglas direkt i marknaden.

2.2 Semantisk analys

På wallstreetbets utgörs den tillgängliga informationen som finns att tillgå formen av text, och det är genom detta medium som användare kommunicerar tankar, åsikter och uppfattningar till varandra. I syfte att kunna förstå användarna, behöver man därmed förstå vad det är som skrivs på forumet. Ett område fokuserat på konceptet att analysera text är semantisk analys, vilket kan definieras som studiet av att avkoda text på det vis som läsaren uppfattar den (Goddard & Schalley, 2010). För att lyckas med att skapa metoder och programvara som kan möta de utmaningar som text på sociala medier medför, är en förståelse för hur sådan text är strukturerad och utformad viktigt. En förståelse för den domän man skall analysera blir därmed något utav ett måste (Liu, 2012). Detta förklaras av att text på sociala medier inte följer samma språkliga regler som texter vi stöter på i exempelvis tidningar eller böcker. Det är därmed viktigt att både förstå och kunna hantera text som innehåller

(11)

4

språkligt oväsen, noise (Dey & Haque, 2008). Att ta hänsyn till varians som kan förekomma blir också en viktig aspekt av semantisk analys på sociala medier. Användare på nätforum kan uttrycka samma entitet på många olika vis, vilket skapar en utmaning i att lyckas fånga så många av dessa olika vis som möjligt (Liu, 2012). Exempelvis kan varumärken uttryckas på flertalet vis, men med den gemensamma nämnaren att de alla syftar på samma entitet. I en studie där semantisk analys användes för att predicera rörelser i aktiemarknaden användes både $MSFT och #Microsoft för att syfta till Microsofts aktie (Pagolu et al., 2016), då sentiment från bägge notationer kan antas syfta till samma entitet. Samtidigt motiverades att enbart använda $-notationen i en annan studie som fokuserade på Twitter data (Mao et al., 2012), då man riskerar att ta med oäkta benämningar om man använder enbart versaler (exempelvis CAT och A som är akronym för aktier, samtidigt som det är två vanliga ord på engelska). Det är således viktigt med en förståelse för den domän man tänker applicera semantisk analys på, i syfte att kunna förarbeta data så väl som möjligt, så att den blir lämplig för senare analys.

Först då kan man fokusera på den andra aspekten av semantisk analys, nämligen att utvinna åsikter och inställningar ur de insamlade textsegmenten. Åsikter är en central aspekt av nästan alla mänskliga sysselsättningar, och något som i stor utsträckning influerar vårt beteende (Liu, 2012). Hur människor uppfattar och ser på världen, och de beslut vi tar är till stor del begränsat och påverkat av vad andra människor tycker och tänker. Ett beslut tas därför ofta, när möjligheten ges, utifrån hur andra tänkt kring ett liknande eller samma val som de ställdes inför (Liu, 2012). I takt med den ökade tillgången till internet ökar även tillgängligheten till information (Pang & Lee, 2008), och internet och sociala medier blir därmed en stor och lättillgänglig datakälla när det kommer till att ta reda på åsikter och uppfattningar som florerar i andras huvuden (Neri et al., 2012; Zhai & Massung, 2016). Wallstreetbets är inget undantag från detta, då det är ett forum med över tio miljoner medlemmar. Men tio miljoner medlemmar innebär på gott och ont mycket aktivitet, och det medför således utmaningen i att sålla vad som är värdefull information och vad som inte är det. Liu lägger betoning på att det ofta inte räcker med enbart en persons åsikt, utan för att en åsikt skall övervägas som ett direktiv för handling krävs det att det finns en konsensus, där flera användare delar samma

uppfattning.

2.3 Semantisk analys och aktiemarknaden

Användandet av semantisk analys som grund för att förstå aktiemarknaden har utförts i flertalet tidigare studier. Gidófalvi (2001) studerade möjligheten att förutspå aktiekurser genom att använda tidsintervall för aktiepris och ge förändringen i ett givet intervall en etikett (positivt, negativt eller oförändrat). Denna förändring jämfördes därefter mot nyhetsartiklar vars sentiment, en attityd eller inställning som uttrycks genom text, även de graderades (upp, ner eller oförändrat). Naive Bayes

(12)

5

användes för att klassa artiklar. Resultatet visade att en prediktion utifrån sentimentet gjord på ett intervall tjugo minuter innan till tjugo minuter efter det att nyhetsartikeln blivit publik var möjlig.

Många studier har fokuserat på att analysera hur aktivitet på Twitter reflekteras i

förändringar på aktiemarknaden. Bollen och Mao (2011) använde en metod där de klassade tweets utefter sex olika humör; lugn, alert, säker, vital, snäll och glad. De använde SOFNN, en typ av neuralt nät för att eliminera oväsen i data, och fann att sentiment av klassen lugn effektivt kunde förklara 87% av variansen gällande upp och nedgångar i Dow Jones Industrial Average (DJIA), ett aktieindex från amerikanska marknaden. Studien indikerar därmed att allmänhetens inställningar och humör går att läsa av från sentiment från ett mikrobloggsforum som Twitter. Därutöver noterade de en indikation på att förändringar i sentimentdata reflekterades tre till fyra dagar senare i

aktiemarknaden, vilket skiljer sig från antydanden i Gidófalvis resultat (2001). En fortsättningsstudie på detta var Mittal (2011) som också använde data från Twitter till grund för prediktion. Ett samband undersöktes mellan humör från en storskalig datainsamling och DJIA. Granger kausalitet, ett

statistiskt mått för att jämföra hur väl en tidsserie predicerar en annan, applicerades och fann i kontrast att både humören lugn och glad hade prediktiv förmåga. Resultat blev något lägre än Bollen och Maos, med en uppmätt förklaringsgrad på 75,6%. Utifrån sitt resultat drar Mittal slutsatsen att människors humör påverkar deras investeringsbeslut. Samtidigt nämner Mittal att det inte finns en direkt korrelation mellan personer som använder Twitter och personer som investerar i aktier. Detta öppnar för att ett forum orienterat kring investeringar i aktier kan vara bättre på att reflektera den generella inställningen hos de som faktiskt investerar i aktier.

Studier har även fokuserat på att undersöka korrelationen mellan antalet tweets per dag som nämner aktier i Standard & Poor 500 (S&P 500), vilket är det näst största indexet i USA efter DJIA, och hur detta relaterade till pris och volym (Mao et al., 2012). Deras analys utfördes på tre nivåer;

indexnivå, industrisektorsnivå och individuell företagsnivå. På individuell företagsnivå användes Twitterdata där Apples aktie nämndes. Deras resultat visade på starkast korrelation mellan

upphandlad volym och absolut prisförändring. Deras modell hade en förklaringsgrad på 68% när det kom till stängningspris på indexnivå, och variansen av volym förklarades även till 68% på

marknadsnivå. På individuell företagsnivå var förklaringsgraden något lägre, uppmätt till 52%. Observationer visade att desto längre tidsserie, desto färre fel. Mer data var därmed önskvärt. Skillnaden i förklaringsgrad beroende på om de enbart studerade en eller flera aktier, grupperade på antingen index- eller industrinivå, öppnar även för att en analysmetod som kan beakta

klustereffekter har bättre möjligheter att fånga förändringar. De noterade även ett samband mellan antalet omnämningar och förklaringsgraden, där fler omnämningar ledde till ett bättre resultat.

(13)

6

Samtidigt nämns att deras urvalsprocess för att identifiera aktier var en begränsning i studien, då de enbart tog med benämningar med aktiesymbolen med ett prefix i form av ett dollartecken.

I en annan studie undersöktes hur tidsserier på aktiemarknaden korrelerade med aktiviteten i mikro-bloggande (Ruiz et al., 2012). Källan för data utgjordes av inlägg på plattformen Twitter. Resultatet indikerade på att aktiviteten på plattformen kunde utgöra en användbar variabel för marknadsanalys och därmed även utgöra strategiskt värde för investeringsstrategier. Deras studie utförde även en komparativ analys mellan volym och pris, och fann att korrelationen var starkare mellan den upphandlade volymen än med priset för aktien. Twitter utgjorde även data källan för en annan studie (Smailović et al., 2013), där prediktion baserades på att klassificera innehållet som antingen positivt eller negativt, för att därefter ytterligare förbättra klassificeringen med en Support Vector Machine (SVM) som kategoriserade sentimentet i tre kategorier: positiv, negativ och neutral. Möjligheten att kunna fördela sentimentet i tre kategorier var därmed fördelaktigt gentemot endast två kategorier.

2.4 VADER

Tidigare nämndes att en stor utmaning med att analysera text från sociala medier var att den underliggande strukturen och variationen i språket var svår att modellera (Liu, 2012), vilket gör det svårt att veta inställningen av det som skrivs. En algoritm som utvecklats för just detta syfte är Valence Aware Dictionary and sEntiment Reasoner (VADER) (Hutto & Gilbert, 2014). VADER har tidigare applicerats för semantisk analys och klassificering av text, där det underliggande språket var okänt (Borg & Boldt, 2020; Pano & Kashef, 2020), och har visat sig vara väldigt effektiv när det kommer till att analysera språk i sociala medier (Hutto & Gilbert, 2014). Vid en komparativ analys av olika tillgängliga metoder för semantisk analys presterade VADER generellt sett bättre än övriga metoder. Resultatet för den semantiska analysen produceras som en vektor normaliserad till ett värde mellan -1 och 1, vilket representerar en sammansättning av en normaliserad och viktad poäng då inget enskilt sentiment i meningen får avgörande styrka.

Fördelarna med VADER gentemot andra analysmetoder menar författarna, är att den är flexibel i sitt användningsområde (Hutto & Gilbert, 2014). Det extensiva ordbiblioteket den är utformad att använda tillåter även att den effektivt kan appliceras i nya kontexter, då det tillåter att den inte behöver träning eller inlärning för att användas. Detta är i kontrast mot andra tekniker, som kan kräva timtals av träning innan de producerar ett stabilt resultat (Hutto & Gilbert, 2014).

Därutöver är det en av få algoritmer som kan hantera emojis, något som förekommer i stor utsträckning på sociala medier.

(14)

7

2.5 Reddit

Kommande sektion förklarar forumet Reddit och dess funktionalitet.

2.5.1 Grunderna för hur Reddit fungerar

Reddit är en samlingstråd där användare kan göra inlägg (Homepage - Reddit, 23/03/21). Dessa inlägg skrivs av användaren själv, men de behöver följa vissa riktlinjer och regler som en gemenskap har satt upp. För att se till att dessa regler efterföljs så har varje gemenskap moderatorer och bottar som städar upp och filtrerar vilket innehåll som visas på forumet. Förutsatt att trådskaparen är behörig till att göra inlägg så kommer varje nytt inlägg börja med en poäng. Därutöver kan användarna i ett underforum interagera med de inlägg som postas. Användarna kan kommentera och rösta om vad de tycker om inlägget. En positiv röst gör så att inläggets poäng kommer öka, och en negativ röst minskar poängen. Poängen är en approximation som inte är 1:1 förhållande. Detta för att minska möjligheten att i realtid kunna påverka ett inläggs poäng. Som användare finns det

därmed en osäkerhet kring exakt hur många poäng, det vill säga hur många användare, som röstat upp eller ner ett inlägg. Även kommentarer associeras med en viss poäng, och på samma vis som med inläggen så kan användarna interagera med kommentarerna. Även kommentarer börjar med en poäng som start.

För hålla koll på en användares poäng har systemet Karma inrättats. En användares Karma är ett intyg på hur andra användare anser att ens handlingar på forumet är vettiga. En användare som enbart gör inlägg som röstas ned kommer därmed att ha en negativ Karma, medan en användare vars handlingar på forumet uppskattas kommer ha en positiv Karma. Det är således ett mått för att mäta populariteten av de handlingar man gör på forumet. Vidare så delas Karma in i två områden. Det ena är Karma man får för inlägg man gör på forumet, medan det andra är Karma man får för kommentarer man gör på forumet.

Vidare så kan varje underforum på Reddit inrätta egna regler och ställa krav på användarna. På underforumet wallstreetbets finns vissa begränsningar i syfte att bättre kunna hålla koll på användarna som kommenterar på forumet. För att vara behörig till att göra inlägg på forumet så krävs att användarens konto har varit registrerat i minst 45 dagar, att det gått 30 dagar sen

användaren skapade sin första forumstråd på Reddit, att användaren har en kombinerad Karma som överstiger 50, att användarens Karma för kommentarer överstiger tio och att användarens Karma för inlägg överstiger tio.

2.5.2 Hur Reddits flöde fungerar

Flödet av inlägg på Reddit dikteras av vilken inställning som användaren nyttjar för att organisera sitt flöde. Då Reddit har gått från att vara open-source till att inte längre vara det är det omöjligt att säga

(15)

8

exakt hur dessa inställningar fungerar. Vad som finns att tillgå är arkiverad open-sourcekod samt blogginlägg från tiden då sidan fortfarande var open-source, vilken presenteras löpande i texten nedan. Utifrån denna information kan ungefärliga antaganden göras om hur sortering går till i grova drag. Nedan presenteras de sorteringsmöjligheter som finns och bilden av hur de fungerar.

En användare kan välja att sortera inlägg genom följande kategorier: - Best.

o Inställningen väljer ut de bästa inläggen från alla trådar som man följer. Inställningen kan ej väljas när man tittar på ett specifikt underforum och därmed inte intressant för studien.

- Hot.

o Inställningen sorterar inläggen efter vad som är heta ämnen just nu. Sorteringen lägger stor vikt vid tid som en parameter för att justera flödet, där nyare inlägg generellt har lättare för att komma med högt upp i sorteringen (How Reddit Ranking Algorithms Work | by Amir Salihefendic | Hacking and Gonzo | Medium, 25/03/21). Hot är även den sorteringsinställning som är förvald för användare när de går in i ett underforum.

- New.

o Inställningen sorterar inlägg efter tidpunkten då de postades utan att ta hänsyn till andra parametrar.

- Top.

o Inställningen sorterar inlägg efter antalet poäng de har. Det inkluderas även en tidsparameter som användaren kan justera för att ändra under vilken tidsperiod sorteringen skall visa inlägg från.

- Rising.

o Rising är den inställning som erfar mycket aktivitet i form av röster och kommentarer just nu.

Inlägg kan även filtreras med hänsyn till tid. Tidsfilter på Reddit är löpande, och gäller enligt angiven period. Vidare så använder Reddit en funktion kallad ”Flair”. Detta är ett sätt att klassificera varje inlägg med en etikett som indikerar vad för typ av inlägg det är. Med detta följer en funktion som gör så att användarna kan filtrera vilka inlägg som visas utefter vilken typ av etikett ett inlägg har. Då forumet är en plattform där användarna fritt kan posta inlägg bildar etiketterna en smidig metod för att filtrera inlägg utefter vilken målgrupp de riktar sig till. Följande etiketter finns att välja bland på wallstreetbets: ”YOLO”, ”DD”, ”Discussion”, ”News”, ”Gain”, ”Loss”, ”Meme” och ”Earnings Thread”. ”Yolo” rör trådar där användarna gör riskfulla satsningar. ”DD” är analyser, utförda av

(16)

9

användarna själva. I ”Discussion” kan användarna lägga upp trådar som rör olika ämnen de är intresserade av att diskutera. I ”News” diskuteras nyheter relaterade till världen men även forumet i sig. ”Gain” respektive ”Loss” är kanaler där användarna kan publicera trådar som visar hur mycket de har tjänat alternativt förlorat. ”Earningsthread” en veckovis diskussionstråd där en allmän prediktion om hur vissa aktier kommer fluktuera under den kommande veckan. Slutligen är etiketten ”Meme” inriktat på mer humoristiska inlägg.

2.5.3 Hur Reddits kommentarsystem fungerar

Då denna studie ämnar fånga en allmän inställning till aktier genom diskussion, behöver den data som används vara så representativ som möjligt. För insamling av data behöver därmed en förståelse för hur Reddits kommentarsystem fungerar och vilken påverkan detta har på vad användarna ser när de läser kommentarer etableras då detta kan influera deras attityd därmed hur de själva uttrycker sin åsikt.

Reddits kommentarsystem är utformat så att de kommentarer som är högst rankade visas för användarna oavsett tidpunkten som de postades (How Not To Sort By Average Rating – Evan Miller, 25/03/21; How Reddit Ranking Algorithms Work | by Amir Salihefendic | Hacking and Gonzo | Medium, 23/03/21). Detta görs genom en algoritm som balanserar proportionen av antalet positiva graderingar med osäkerheten från en begränsad mängd observationer (Wilson, 1927). Det är en statistik ansats som bygger på diskret sannolikhetsfördelning då dess stokastiska variabler har ett ändligt utfallsrum; antingen positiv eller negativ. Algoritmen använder ett 95% konfidensintervall baserat på den data som finns tillgänglig, det vill säga fördelningen av tidigare röster, för att estimera sannolikheten att den uppmätta fördelningen är representativ. Konfidensintervallet utgör en

hypotetisk representation baserat på ett statistiskt urval, som grundar för sorteringen av

kommentarer. Användandet av algoritmen leder till att varje kommentar graderas proportionerligt utefter sitt 95% konfidensintervall. Därutöver så kommer intervallet kontinuerligt uppdateras

beroende på ställningstaganden från nya användare som interagerar med kommentaren. Exponering leder även till mer röster som i sin tur betyder mer data att basera uppskattningen på, vilket i sin tur minskar osäkerheten. Resultatet blir att sortering via konfidensintervallet bortprioriterar antalet röster en kommentar har, och väger i stället en kommentar utifrån proportionen av antalet positiva röster samt antalet personer som röstat om kommentaren. Följden detta får för användarna är att de kommentarer som prioriteras i deras flöden representerar den allmänna opinionen.

2.6 Motivering

Med underlag för att marknaden inte styrs av enbart rationella investerare och beslut (Shiller, 2003), går det att betrakta ekonomiskt beslutstagande som något märkbart påverkat av mänsklig

(17)

10

irrationalitet. Kan vi förstå hur människor fattar ekonomiska beslut, kan denna information appliceras för att ge konkurrensmässiga fördelar i en semi-effektiv marknad. Åsikter har uppmärksammats som en grundpelare i mänskligt beslutsfattande (Liu, 2012), och delar många människor samma åsikt kan det ge upphov till att åsikten betraktas som ett direktiv för handling. Kopplat till detta har tidigare studier uppmärksammat att sentiment uttryckt på mikrobloggsforumet Twitter speglar allmänhetens opinion, vilken i sin tur reflekteras i aktiemarknaden (Bollen & Mao, 2011; Mao et al., 2012; Mittal, 2011; Ruiz et al., 2012; Smailović et al., 2013). Däremot

uppmärksammas det att Twitter inte är ett forum orienterat kring aktier, och att ett sådant forum potentiellt skulle kunna vara mer lämpat att studera, då sentiment på ett sådant forum kan anses reflektera de människor som är investerade i aktier. Detta öppnar för att granskning av sentiment på aktieforumet wallstreetbets inte bara är möjligt, utan att det även skulle kunna vara mer lämpligt för åsikter och attityder kopplade till aktiemarknaden.

Ytterligare har algoritmen VADER framgångsfullt använts för att analysera semantiska data där den underliggande strukturen varit okänd (Hutto & Gilbert, 2014), något som lämpar sig väl för en explorativ studie. Den har även jämförts med andra metoder för att utföra semantisk analys, och presterat i överkant i denna jämförelse. Därutöver använder den sig av tre kategorier vid

klassificering av sentiment, något som visat sig ge bättre resultat vid studier inriktade på att läsa av sentiment och relatera det till aktiemarknaden (Smailović et al., 2013).

Den teoretiska bakgrunden stödjer därmed motiveringen om att den frågeställning som tagits fram för studien är relevant, grundad och utvecklande:

- Kan sentimentanalys av inlägg på wallstreetbets användas för att påvisa ett samband med trender för de diskuterade aktierna?

(18)

11

3. Metod

I följande avsnitt presenteras studiens metod; hur applikationer som använts fungerar och olika metodval som gjorts.

3.1 Val kopplade till Reddits funktionaliteter

I denna studie samlades data in utifrån sorteringsinställningen Hot. Detta motiverades av att Hot visar aktuella ämnen i den mening att det är de inlägg där många av användarna röstar och kommenterar. Denna sorteringsinställning för inlägg överensstämde därmed med den teoretiska bakgrunden att för att en åsikt skall betraktas som handlingsdirektiv, krävs det att flera användare delar samma uppfattning (Liu, 2012). Gällande tidsfiltret som inlägg kan sorteras enligt, motiverade denna studies frågeställning samt syfte att data skulle samlas in på en basis som går att koppla samman med börsdata. För att kunna få kommentarsdata som var jämförbar med aktiedata från samma dygn som senare kunde jämföras, ställdes tidsfiltret in till att visa inlägg publicerade under de senaste 24 timmarna. Det löpande tidsfiltret innebar att en fast tidpunkt för extrahering av data säkerställde att ett inlägg aldrig analyserade två gånger samt att kommentarsdata kunde kopplas till ett dygn.

För att få med inlägg som reflekterar allmänhetens inställning ansågs det vara viktigt att fånga olika typer av diskussioner kring aktiemarknaden. Utifrån detta valdes följande etiketter ut för denna studie: ”YOLO”, ”DD”, ”Discussion”, ”News”, ”Gain”, ”Loss” och ”Earnings Thread”. Etiketten ”Meme” togs således inte med i studien, då inlägg kopplade till den är mer humoristiska.

För att välja ut kommentarer som var representativa för den allmänna opinionen användes de högst rankade kommentarerna. Då dessa kommentar är tänkt att representera den allmänna opinionen, bör de även motsvara de kommentarer som har störst inflytande över användarnas attityd (Liu, 2012). Att samla in data utifrån de högst rankade kommentarerna motiverades därmed av att en sådan metod representerar en inställning som delas av flertalet användare, vilket krävs för att det skall anses som en beaktansvärd åsikt.

Den tidsperiod som kommentarer samlades in på var från den 6e april 2021 till den 20e april 2021.

3.2 Datainsamling

Insamling av data har skett genom två olika API. Vad dessa är och hur de använts presenteras i kommande avsnitt.

(19)

12

3.2.1 API

API är en förkortning för Application Programming Interface. Det är ett gränssnitt som bestämmer vilka interaktioner som kan ske mellan olika mjukvaror och hårdvaror som agerar mellanhänder (Lahey, 2016). Det bestämmer vilka handlingar som kan utföras, hur de utföras, formatet på den data som utbyts och övriga konventioner som bestämts. Användarmässigt bidrar en API med möjligheten att kommunicera med exempelvis en server, och däribland extrahera data från servern. Man kan genom en API ansluta till servern, begära att få tillgång och spara en viss data utan att behöva gå in på det grafiska gränssnittet.

3.2.2 Reddit-API

Den API som användes för att samla in data från forumtrådar i wallstreetbets var Reddits egna API PRAW (PRAW: The Python Reddit API Wrapper — PRAW 7.2.1.Dev0 Documentation, 05/03/21). Detta är ett open-source projekt, och koden finns att tillgå för allmänheten på deras github sida (Home · Reddit-Archive/Reddit Wiki, 05/03/21). För att kunna nyttja PRAW krävs ett konto på Reddit. Därutöver krävs det att man registrerar sig som skriptutvecklare för att få åtkomst till den användardata som finns tillgänglig.

Den API som Reddit tillhandahåller görs så med ett par funktionella begränsningar. Beroende på huruvida användaren är en premiumanvändare eller ej så sätts det olika begränsningar på hur många anrop man kan göra till servern och även storleken på dessa begränsas (API · Reddit-Archive/Reddit Wiki · GitHub, 05/03/21). Som icke-premiumanvändare är man begränsad till 100 instanser per anrop, exempelvis så är 100 trådinlägg max som man kan få ut i ett endaste anrop. I denna studie användes ingen registrerad premiumanvändare. Gränsen för att extrahera

kommentarer om en användare vill åt alla tillgängliga kommentarer, det vill säga analysera hela kommentarsträd som finns kopplat till ett inlägg, kan variera. För att få åtkomst till alla kommentarer behöver man veckla ut trädstrukturen som Reddit använder för sitt kommentarsystem, och man kan som icke-premiumanvändare få fram som högst 20 kommentarer per anrop. Vidare så är tjänsten begränsad till totalt 60 anrop per minut. En konsekvens av detta är att utvecklare som vill söka av ett inlägg med en större mängd kommentarer än vad konventionerna tillåter, blir tidsmässigt begränsad på grund av tjänsten tar längre tid att utföra. Eftersom Reddit är ett forum vars innehåll uppdateras i realtid medför all bearbetningstid att innehållet på forumet förändras. Således går det inte att söka av flairs under exakt lika förutsättningar, det vill säga ett fast klockslag för start och slut för hämtning av data, då bearbetningsprocessen varierar tidsmässigt beroende på hur kommentarsträdet ser ut. För att kompensera detta så väl som möjligt genomfördes extrahering av data vid samma

starttidpunkt för respektive kategori under 15 dagars tid. För att hämtning av data skulle ske så exakt som möjligt upprättades ett automatiskt arbetsschema med ett fast intervall för hämtning av data.

(20)

13

Detta var inställt på köras 22:00:00 UTC+01:00. Tidpunkten valdes utifrån funktionaliteten av Reddits sorteringsfilter, då detta säkerställde att ett trådinlägg enbart kan kopplas till ett dygn i analysen, detsamma gäller för kommentarer då dessa är bundna till inlägget. Därutöver motiverades klockslaget för hämtning av data att tidpunkten sammanfaller med att det är då Nasdaq och New York Stock Exchange stänger, de två största börserna i USA (Börsen Idag - Aktiekurser,

Aktiemarknaden, Öppettider | Swedbank, 13/04/21). Inlägg och kommentarer kan på så vis kopplas till ett dygn på den amerikanska börsen.

De script som använts för att samla in kommentarsdata är skrivna i Python (GitHub - OLGJ, n.d.). Scriptet ansluter till Reddits databas visa PRAW och definierar därefter vilken flair som skall sökas av. Den sorterar inläggen efter inställningen ”hot”, och väljer ut upp till de 25 översta inläggen som finns att tillgå som publicerats under det senaste dygnet. 25 inlägg är en övre gräns, vilket betyder att om det ej finns 25 aktuella inlägg så söker programmet av så många som det finns tillgängliga. Därefter säkerställs att varje inlägg har en poäng som är minst två, varpå

kommentarsträdet vecklas ut. Då Reddit endast tillåter att en tråd klassificeras med en flair

implicerade det att varje kommentar var unik sett till dess ID. Detta säkerställer att ingen tråd kan ha flera taggar, och därmed finns det inga dubbletter i databasen. De kommentarerna med en poäng över två lagrades tillsammans med ett datum, ett kommentars-id och ett id på kommentarsföräldern. Om kommentaren var på den högsta instansen motsvarade id på kommentarsföräldern inlägget. Denna data sammanfattades tillsammans i en lista, som därefter bearbetades och slutligen lagrades i ett Excelark för varje motsvarande vecka som data extraheras. Excelark sorterades utifrån den flair som tråden skapades med. Scriptet är detsamma för varje flair som söks av.

3.2.3 Databehandling

Då kommentarer från sociala medier på nätet kan vara väldigt innehållsmässigt varierande utfördes en behandlingsprocess av den insamlade data. Detta utfördes även i syfte att göra data så lämplig som möjligt för analys med algoritmen VADER. Nedan presenteras de olika kontroller som utförts för de insamlade kommentarerna.

Reddit erbjuder användare möjligheten att formatera sina inlägg på olika vis. För att undvika att kommentarer extraherades med formatering, extraherades kommentarer i html format genom att använda BeautifulSoup (Beautifulsoup4 · PyPI, 13/04/21). BeautifulSoup agerar som en tolk, och översätter i detta fall den ursprungliga textformateringen till ett format där formateringen inte blir en del av texten. På så vis undveks att formatering som i figuren nedan återfanns i data.

(21)

14

Figur 2: Formateringsmöjligheter på Reddit (Commenting - Reddit.Com, 13/03/21).

Vidare så behövda data bearbetas ytterligare för att vara så användbar som möjligt. Vid en första granskning av data uppdagades ett par återkommande uttryck som förhindrade en effektiv semantisk analys. Kommentarer som direkt togs bort var sådana som explicit utryckte att de var bottar eller som var tomma fält. Därutöver togs länkar bort från kommentar, samt hänvisningar till specifika användare uttrycka i formen ”r/Användarnamn”. En annan förekomst som togs bort vid första insamlingen var förekomster av ”\n”, vilka betecknar ett radbyte.

Vid en andra behandlingsfas hade insamlingen av data pågått en längre tid, vilket motiverade en mer grundlig åskådning av data. Denna resulterade i ett par semantiska uttryck som alla behövde

bearbetas för att optimera en analys med VADER. Då inga kommentarer av flairen Earningsthread hade samlats in, togs denna flairs datakolumn bort. Nedan presenteras de funktioner som använts för att bearbeta data, vad de gör och i den ordning de använts. För att identifiera uttryck har Regular expressions använts (Re — Regular Expression Operations — Python 3.9.5 Documentation,

20/05/21). Regular expressions är ett sätt att skapa mönster av text, som bland annat kan användas för att identifiera, ersätta och ta bort text.

Raw_removals():

Det första som behövde korrigeras var tomma datafält (exempelvis på grund av att en kommentar enbart bestått av en länk vilken sedermera tagits bort), kommentarer som tagits bort eller raderats. Denna funktion såg till detta, och tog bort den rad från data som kommentaren tillhörde.

(22)

15

Ett par uttryck som var domänspecifika för Reddit identifierades i data. Sedan tidigare hade

förekomster av formen ”r/Användarnamn” tagits bort. En noggrannare inspektion identifierade även uttryck skrivna på formen ”R/Användarnamn” samt hänvisningar till andra Subreddits.

Number_and_characters():

För att optimera analys med VADER har en hänsyn tagits till förekomsten av nummer och speciella uttryckssymboler. VADER stödjer bland annat användandet av skiljetecken i form av utropstecken, punkter och frågetecken (VADER), likväl som att det har ett brett stöd för emojis och uttryck. Med inspiration från Pano & Kashef (2020) separerades uttryckssymboler från skiljetecken av att det räknades som en uttryckssymbol om en upprepning om något av följande tecken förekom bredvid varandra:

=@&_*#>:`\</{})]|%;~-([+^”

Då semantiken av siffor är arbiträrt i det avseendet att en hög siffra kan representera något bra (1000kr) eller något dåligt (1000 dödsfall), har VADER en begränsad förmåga att hantera siffror. Däremot har det ett visst stöd för uttryck där siffror är en del av uttrycket;

8) – är ett positivt uttryck. :1 – är ett negativt uttryck.

En konsekvens som inte nämns av Pano & Kashef som väljer att ta bort alla siffor, blir att även semantiska uttryck som de ovan tas bort i bearbetningsprocessen. Om man betraktar exemplet nedan kan se hur detta tydligt kan påverka det uppmätta sentimentet i en mening. Däremot är antalet uttryck där siffror tillämpas i VADER väldigt få. Därmed gjordes en bedömning om att borttagandet av siffror leder till mindre oväsen i data.

Figur 3: Illustrering av hur gradering av sentiment kan skiljas åt mellan olika meningar.

Whitespace_removals():

Denna funktion såg till att alla upprepningar av blanksteg togs bort. Alla överflödiga blanksteg i mening togs bort, exempelvis om en mening hade en upprepning av flertalet blanksteg i följd så ersattes följden med enbart ett blanksteg.

(23)

16

Figur 4: Processen för hur data har behandlats.

Ovan beskrivs ordningen av hur de olika bearbetningsfunktionerna har implementerats. Nedan beskrivs ett exempel på hur en mening som går igenom behandlingsfasen kan se ut innan, under och efter den stegvisa fasen.

Figur 5: Exempel på hur en mening går igenom en itererings-process.

Varje ord som VADER inte känner igen ökar den neutrala kvoten. Detta betyder därmed att varje ord som inte finns i VADERS lexikon påverkar den slutgiltiga poängen som en mening får. Det finns två

raw_removals() reddit_unique() raw_removals()

number_and_characters() raw_removals() whitespace_removals()

raw_removals() Resultat

reddit_unique()

u/aUsername TSLA calls up 14% today? Nah I ain’t sellin :) Tar bort u/aUsername.

numbers_and_characters()

TSLA calls up 144% today? Nah I ain’t sellin :) Tar först bort 144.

Därefter %.

whitespace_removals()

TSLA calls up today? Nah I ain’t sellin :) Tar bort blanksteg i början av mening.

Resultat

(24)

17

sätt att hantera detta, där båda medför konsekvenser för den slutgiltiga semantiska graderingen av meningen. En metod är att jämföra varje ord i en mening med det lexikon som VADER tillhandahåller, och om ett ord inte finns med där tar man bort det ur meningen. Man lämnas då med någonting som VADER känner igen till 100%. Däremot kan man ha altererat uppbyggnaden av meningen så att dess skick inte längre representerar den ursprungliga meningen, vilket leder till att man potentiellt graderar en mening med en felaktig poäng. Den andra metoden man kan välja är att inte ta skala bort något från en mening om man inte är säker på vad det är man skalar bort. Man ökar då utfallet för den neutrala kvoten, vilket sin tur drar ner det positiva alternativt negativa utfallet. Men då det krävs mer positivt alternativt negativt sentiment för att väga över den sammanslagna poängen, kan man vara mer säker på att sitt utfall stämmer. Grundat i detta togs beslutet att låta VADER hantera så mycket som möjligt av en mening efter att den genomgått förarbetningsprocessen, men inte ta bort ord som inte förekommer i VADERs lexikon.

Sammanfattningsvis så har kommentarer bearbetats i syftet att göra data mer lämplig för senare analys med VADER. Dock medför naturen av kommentarer på sociala medier att allt inte kan kontrolleras för. Uttryck kan skilja sig åt på otaligt många vis, och det finns ingen garanti för denna studie att de filter som använts extensivt täcker alla möjliga förekomster som kan påverka resultatet. Däremot bör dessa som nämnt enbart få en neutral inverkan på det slutgiltiga resultatet. Den totala mängden insamlade kommentarer summeras till 101 681, där nedan lista presenterar hur många kommentarer som analyserats för varje flair.

Tabell 1: Totala antalet insamlade kommentarer, fördelat på varje flair.

Flair Kommentarer DD 6093 News 71 365 YOLO 10 340 Loss 8283 Gain 2030 Discussion 3570 TOTALT 101 681

3.2.4 Aktier

För att identifiera namnen på de potentiella aktierna som diskuteras på forumet användes två csv filer hämtade från Nasdaq (Stock Screener | Nasdaq, 29/03/21). Den ena filen bestod av aktier från New York stock Exchange, och den andra med aktier från NASDAQ. En filtrering gjordes med en gräns på 5$, utefter riktlinjen att Wallstreetbets inte tillåter diskussioner kring frimärksaktier. Det som återstod var potentiella aktier som undersöktes ifall de diskuterades på wallstreetbets.

(25)

18

För att sedermera identifiera om någon av dessa diskuterades på forumet valdes en

metodisk tillvägagång där säkerhet i den extrahering som gjordes kunde etableras. Enligt de tidigare studierna presenterade i den teoretiska bakgrunden finns det för- och nackdelar med hur man väljer att extrahera data. I denna studie valdes följande metod. Kommentarer där aktier benämns enligt följande notation extraherades: $Aktie (oavsett små eller stora bokstäver). Likväl så valdes det att ord där skrivna på formen AKTIE extraherades som en etikett på en aktie. Däremot togs ord skrivna i formen Aktie eller aktie inte med. Detta motiverades av att en sådan tillvägagång gav en

tillförlitlighet i hur data betraktades. Akronymen för vissa aktier är desamma som reguljära ord, vilket skapar en svårighet i när dessa skall identifieras. Då kommentarerna inte har förbehandlats med avseende på förekomster av versaler och gemener i meningarna grundat i att VADER har underlag för att hantera detta, återfinns det en risk i att en akronym för en aktie förväxlas med ett ord som det delar stavelse med. Då de potentiella aktie-etiketterna uppgick till över 5000, genomfördes ett urval i den insamlade data för att identifiera aktier som var aktuella för diskussion på wallstreetbets. En gränsdragning på mer än 280 benämningar användes för att sålla ut de mest diskuterade aktierna. Fem förekomster valdes bort med mer än 280 benämningar valdes bort. På grund av ambiguitet sållades DD bort, vilket på wallstreetbets är en förkortning för Due Dilligence. COIN valdes bort då den registrerades på börsen senare än den tidsperiod som används i analysen påbörjades. Även A, C och K valdes bort, då dessa förekomster är svåra att verifiera med den metod som användes för identifiering. En sållning av kommentarer gjordes även efter att VADER graderat kommentarerna, där alla kommentarer med en poäng på 0.0 togs bort. Detta gjordes då en poäng på 0.0 representerar en mening som är enbart neutralt graderat, vilket bland annat är ett resultat av att VADER inte känt igen orden som förekom i meningen. Slutligen återstod kommentarer som åsyftade 14 olika aktier. Det totala antalet kommentarer var 11 672, där sentimentet från varje kommentar graderades med en poäng mellan -1 och 1. Nedan presenteras fördelningen av hur många kommentarer som analyserats för varje aktie.

Tabell 2:Totala antalet benämningar för de 14 mest omnämna aktierna.

AKTIE BENÄMNINGAR GME 2953 PLTR 2195 TSLA 1230 ASO 864 AAPL 832 AMC 561 APHA 534 AMD 472 CLOV 400 MVIS 374 BB 365

(26)

19 BABA 356 NIO 286 VIAC 280 TOTALT 11 672

3.2.5 Börsdata

För att samla in börsdata användes (Yahoo Finance - Stock Market Live, Quotes, Business & Finance News, 04/05/21). Den data som samlades in gällde volym och pris för tidsperioden 06/04/21 – 20/04/21. Då börsen är stängd på helger saknades börsdata för dessa dagar. För att fylla ut denna data användes en konkav approximation för de saknade värdena, då denna metod är motiverad av att börsdata vanligtvis följer en konkav funktion utom då kraftiga avvikelser av uppgångar och nedgångar förekommer (Mittal, 2011). Approximationen beräknades enligt att om volym eller pris för en given dag betecknas med x, och nästa tillgängliga datapunkt är y, med n dagar av saknade data, beräknas nästkommande dag genom (x+y)/2. Samma funktion används därefter rekursivt tills alla saknade datapunkter är beräknade.

I tidigare studier som jämfört hur aktiemarknaden korrelerar med mikrobloggande har det framkommit att upphandlad volym är ett starkare mått när det kommer till korrelation (Ruiz et al., 2012). Därtill så uppenbarades det att ett företags skuldsituation vägde in i hur stark korrelationen var mellan aktien och hur den diskuterades på nätet. Oavsett om skuldsituationen var negativ eller positiv, så var korrelationen starkare. Detta tordes vara beroende på att aktien kunde förväntas stiga alternativt att aktien var en kandidat för blankning. Denna studie har begränsats till att inte studera företags skulder.

3.3 Etik

Vid utformandet av studier där åsikter och kommentarer som människor yttrat används i ett

analytiskt syfte bör vissa etiska aspekter gällande extrahering och användning av sådan data beaktas. Ingen data bör samlas in eller analyseras utan ett medgivande till att det är okej, och inte heller skall man som forskare försöka kartlägga identiteter. I Reddits User Agreement (User Agreement - October 15, 2020 - Reddit, 19/04/21) uppges följande; “You retain any ownership rights you have in Your Content, but you grant Reddit the following license to use that Content: When Your Content is created with or submitted to the Services, you grant us a worldwide, royalty-free, perpetual, irrevocable, non-exclusive, transferable, and sublicensable license to use, copy, modify, adapt, prepare derivative works of, distribute, store, perform, and display Your Content and any name, username, voice, or likeness provided in connection with Your Content in all media formats and channels now known or later developed anywhere in the world. This license includes the right for us to make Your Content

(27)

20

available for syndication, broadcast, distribution, or publication by other companies, organizations, or individuals who partner with Reddit.

When using or accessing Reddit, you must comply with these Terms and all applicable laws, rules, and regulations.”

Ovan syftar på vad användare som brukar Reddits tjänster ger sitt medgivande till då de väljer att använda tjänsten. Utformandet av studien gör därmed inga överträdelser när det kommer att agera utan medgivande, utan håller sig inom ramarna för vad användarna gett sitt medgivande till. Vidare så har Reddit en API som även den regleras av villkor som beskriver vad man får och inte får använda tjänsten till (Reddit API Terms of Use, 19/04/21);

“Your Use of Reddit APIs.

a. License. Subject to the terms and conditions of these Terms, Reddit grants You a worldwide, non-exclusive, non-transferable, non-sublicensable, and revocable license to use the Reddit APIs in accordance with the terms and conditions set forth herein. All rights not expressly granted to you are reserved by Reddit.

Reddit user photos, text and videos ("User Content") are owned by the users and not by Reddit. Subject to the terms and conditions of these Terms, Reddit grants You a exclusive, non-transferable, non-sublicensable, and revocable license to copy and display the User Content using the Reddit API through your application, website, or service to end users. You may not modify the User Content except to format it for such display.”

I studien har allt material extraherat från Reddit genom att bruka deras API skett så utifrån dessa föreskrifter. Vid arbete med den insamlade data har inga försök till att extrahera någon personlig information som kan länka samman en individ till ett inlägg gjorts. Data har arbetats med på ett sådant vis att anonymitet bevaras, samt att alla benämningar av användarnamn har tagits bort från data. Detta säkerställer att studien utförts på ett etiskt korrekt vis, då den tagit hänsyn till de etiska överväganden som studien ställts inför.

3.4 Förarbete för analys

I syfte att kunna genomföra en analys och därmed få fram ett resultat, behövde data formateras. Insamlingsprocessen samt evaluering utförd med VADER resulterade i longitudinella data som sträckte sig över ett spann på 15 dagar. Genom att visualisera fördelning av sentiment-poäng för varje aktie med histogram samt lådagram kunde en förståelse kring hur karakteristiska drag av den insamlade data såg ut etableras. Nedan presenteras först ett lådagram med summerad poäng för alla dagar för respektive aktie.

(28)

21

Figur 6: Lådagram för variansen av sentimentpoäng för respektive aktie. Högsta poäng är 1 och minsta är -1.

Lådagramet indikerade på att distributionen av poäng och variansen var snarlik mellan de olika aktierna. Givet höjden av lådorna samt sträckningen av morrhåren, indikerade detta på att poängen varierar mycket. Detta kunde även styrkas vid närmare granskning av fördelningen av sentiment för respektive dag och aktie, där fördelningen i histogrammen sällan var normalfördelat (se bilaga A).

Figur 7: Exempel på fördelning av poängen från insamlade kommentarer gällande en aktie för en given dag. I exemplet användes poängen som fick representera sentimentet från den dagen kolumnen 0.4–0.5, vilket motsvarar den absoluta frekvensen.

På grund av att distributionen av poäng för respektive dag och aktie inte var normalfördelat, användes en distribution för att beräkna den absoluta frekvensen för poängen för varje dag för respektive aktie. Distributionen av poäng som en mening kunde ha fördelades i 20 kategorier, i syfte att ge varje kategori lika stort intervall. Den mest frekventa kategorin representerade poängen för sentimentet från den dagen. Om det var ett ojämnt antal staplar som var lika höga, det vill säga flera segment med lika många tillhörande kommentarer, valdes stapeln i mitten. Om det var ett jämnt

(29)

22

antal staplar med samma höjd, valdes den mittersta vänsterpositionerade stapeln. På så vis säkerställdes att varje dag representerades av enbart ett värde.

Efter detta skapades plottar för de linjära regressionerna och residualerna för att säkerställa att residualerna var normalfördelade samt att det återfanns ett linjärt samband (se bilaga B). En mätning togs bort då den var starkt avvikande och influerande för det linjära sambandet.

Figur 8: Till vänster regressionsplott med avvikande observation (4) inkluderad. Till höger uppdaterad plott utan avvikande observation (4).

Givet att mätningar för aktien ”CLOV” enbart bestod av sex datapunkter, togs denna även bort från materialet. Detta motiverades av att sex datapunkter är väldigt få observationer för att basera en regressionslinje på, samt att det var avvikande från övriga dataserier som hade ett genomsnitt på ca 14 observationer. En sammanställning av de linjära regressionerna för varje aktie presenteras nedan, vilken inkluderar 183 observationer fördelat på 13 aktier.

(30)

23

Figur 9: Regressionslinje av poängen för respektive aktie. Varje aktie har en registrerad sentimentpoäng per dag. De färgkodade förkortningarna syftar till de 13 olika aktierna.

Från diagrammet kan det konstateras att regressionslinjerna för de olika aktierna har varierande startpunkt och lutning. Detta indikerar på att sentimentet över den registrerade tidsperioden är skiftande för de olika aktierna. Vi kan exempelvis konstatera att ASO har en i kontrast väldigt negativ utveckling av sentimentpoäng jämfört med AMC som har en positiv utveckling. Vidare presenteras ett linjediagram där utvecklingen av den upphandlade volymen går att beskåda.

(31)

24

Figur 10: Upphandlad volym för de 13 aktierna över den observerade tidsperioden. De färgkodade förkortningarna syftar till de 13 olika aktierna.

I linjediagrammet noteras att inget exakt mönster går att avläsa, utan volymen för de olika aktierna skiljer sig åt. Vi kan exempelvis att betrakta PLTR och MVIS; den förstnämnda registrerar stora förändringar i den upphandlade volymen över den uppmätta tidsperioden. Detta kan kontrasteras gentemot MVIS som bortsett från en liten skillnad från dag två till tre, annars ligger på en relativt konstant nivå.

Sammanfattningsvis återfinns vissa karakteristiska drag i data, utöver konstateranden att den är longitudinell, grupperad och linjär. Utvecklingen av sentiment gällande de olika aktierna skiljer sig åt. Likväl är volymen av vilken aktierna handlas med varierande.

3.5 Linear Mixed-Effect-Model (LMEM)

De karakteristiska dragen av data, samt studiens frågeställning om huruvida effekten av uttryckt sentiment på wallstreetbets speglas i den upphandlade volymen, motiverade en statistisk analys i form av en Linear Mixed-Effect-Model (LMEM) med slumpmässiga intercept och lutningar. LMEM är en typ av linjär regressionsmodell, vilka kan ge en uppskattning av effekten från en förklarande variabel hos en responsvariabel. I modellen som togs fram agerade volym responsvariabel, medan poängen för det uttryckta sentimentet agerade förklarande variabel. I modellen togs det hänsyn till att de olika aktierna hade olika intercept för volymen de handlades med, samt att det togs hänsyn till lutningen för respektive kluster. Fördelen med att använda LMEM gentemot andra linjära modeller

(32)

25

är att LMEM kan ta hänsyn till hur effekter skiljer sig åt mellan grupper, och att den är mer robust när det kommer till att hantera urval med ett färre antal observationer (Gelman & Hill, 2006). När data är grupperad i olika kluster är LMEM även fördelaktig att använda då modellen tar hänsyn till att data består olika kluster genom att analysen utförs på flera nivåer, vilket i sin tur ger en bättre

uppskattning av standardavvikelser. Utifrån resultatet av modellen kan man studera hur stor del av variansen i upphandlad volym som förklaras av det uttryckta sentimentet, och om det är ett positivt eller negativt samband.

Den statistiska modellen i studien togs fram med hjälp av programvaran Statsmodels som finns tillgänglig i Python-biblioteket (Seabold & Perktold, 2010). Modellen skrevs in i programmet enligt nedan.

final_volume_model = smf.mixedlm("Transformed_Volume ~ Score", data = final_model_data, groups = final_model_data['Stock'],

re_formula = 'Score') final_volume_fit = final_volume_model.fit()

Modellen implementerades med REML, då detta är fördelaktigt för en modell anpassad med slumpmässiga effekter (Stat, 2011).

(33)

26

4. Resultat

Detta avsnitt presenterar resultatet från den statistiska utvärderingen.

I tabellen nedan presenteras resultatet från den statistiska analysen. Antaganden som uppfylls för modellen är att det återfinns ett linjärt samband, normalfördelade residualer, homogen varians samt ingen autokorrelation (se bilaga C).

Tabell 3: Sammanfattning av resultatet från modellen. Intercept är modellens intercept. Score syftar till sentimentpoäng. Group Var syftar på variansen i intercept mellan kluster. Group x Score Cov syftar till interaktionen mellan kluster och sentimentpoäng. Score Var syftar till variansen i sentimentpoäng mellan olika kluster.

Linear Mixed-Effect-Model resultat

Parameter Koefficient z p>|z|

Intercept 330,777 4,417 0,000

Score 39,102 2,386 0,017

Group Var 8,265

Group x Score Cov 0,249

Score Var 0,007

I tabellen ovan går det att utläsa de parametrar som modellen använder vid uppskattningen av den generella regressionslinjen för alla aktier. Modellen rapporterar även signifikanta p-värden för Intercept och Score, där Score syftar på sentimentpoäng. Därutöver var modellen konvergerande. Ett F-test för modellens parametrar beräknades till 2,79698638, p=0,0275, df[D]=179, df[N]=4. Detta visar på att modellen är signifikant.

Utifrån parametrarna som presenteras i Tabell 1 kan vi beräkna den generella ekvationslinjen för regressionen under tidsperioden i, (i = 1, … 15):

𝑌(𝑖)= 330.777402 + 39.101520𝑖 + 8.264719𝑖 + 0.248543𝑖 + 0.007475𝑖 + 𝜀

Då modellen anpassades med varierande intercept och lutning för respektive aktie är det även intressant att presentera dessa resultat. I tabellen nedan presenteras de olika intercepten och lutningen för regressionslinjen för respektive aktie.

(34)

27

Tabell 4:De beräknade intercepten och lutningarna för respektive regressionslinje för respektive aktie. Parametrar för respektive regressionslinje för respektive aktie

Aktie Intercept Lutning

AAPL 551,911565 16,597515 AMC 41,025065 1,233766 AMD 79,586422 2,383380 APHA -198,555139 -5,971121 ASO -303,477233 -9,126417 BABA -120,227299 -3,615469 BB -255,850455 -7,694138 GME -254,445766 -7,651897 MVIS -229,392931 -6,898490 NIO 401,725293 12,080977 PLTR 181,160735 5,478134 TSLA -29,967507 -0,901285 VIAC 135,507251 4,075044

Regressionslinjen med hänsyn till slumpmässigt intercept och lutning för respektive aktie j, (j = GME, …, VIAC), för tidsperioden i, (i = 1, … 15), ges av följande parametrar:

𝑌(𝑖𝑗) = (330.777402 + 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡𝑖𝑗) + (39.101520𝑖 + 𝑙𝑢𝑡𝑛𝑖𝑛𝑔𝑖𝑗) + 𝜀𝑖𝑗

Från Tabell 4 går det att avläsa respektive regressionslinje för varje aktie, där slumpmässigt intercept och lutning använts. Vi kan notera att för alla aktier återges linjen med en positiv lutning, vilket betyder att det finns ett positivt samband mellan sentiment på wallstreetbets och omsättning av volym. När sentiment blir positivt, ökar omsättningen av volym. Blir sentimentet negativt, minskar omsättningen. Studerar vi Tabell 4 kan vi se att det är en skillnad i lutningen, det vill säga effekten av observerat sentiment varierar mellan aktierna. Om vi jämför AAPL gentemot ASO, är lutningen på regressionslinjen för AAPL brantare. Detta betyder att en större del av variansen för omsatt volym förklaras av sentiment för AAPL gentemot variansen som förklaras av sentiment som rör ASO.

(35)

28

5. Diskussion

Nedan presenteras en diskussion av resultatet samt studiens styrkor och begränsningar.

5.1 Resultatdiskussion

Den statistiska analysen indikerade på att de parametrar som använts i modellen var signifikanta och att modellen var konvergerande, och vi kan därmed anta att uppskattade värden för parametrarna i Tabell 1 och Tabell 2 inte är slumpmässiga. Den generella regressionslinjen visade på det finns ett positivt samband mellan sentimentet på wallstreetbets och den upphandlade volymen. Sambanden var även positiva vid beräkningen av regressionslinjen för respektive aktie. Utifrån detta kan vi dra slutsatsen att sentimentet på wallstreetbets reflekteras i den upphandlade volymen av den aktuella aktien. Detta resultat gäller de aktier som observerats och under den tidsperiod som data samlades in. Vidare noterades skillnader i respektive regressionslinje för de olika aktierna, där både lutning och intercept varierade. Att intercepten varierade talar om att volymen med vilken aktierna handlas med varierar. Att lutningen varierade tyder på att effekten av det uppmätta sentimentet skiljer sig åt mellan de olika aktierna. Ett exempel på vad detta innebär illustreras tydligt om man jämför lutningskoefficienten för AAPL och ASO (se Tabell 4). För en uppskattning av volym under perioden multipliceras lutningskoefficienten med sentimentpoängen. Är poängen 1 blir lutningen för AAPL 55,699035 och 29,975103 för ASO, och om poängen är 1 blir lutningen 55,699035 respektive -29,975103. Således märks effekten av observerat sentiment av tydligare, det vill säga en större skillnad i upphandlad volym, desto större värde på lutningskoefficienten.

Gällande beteendeekonomins ställningstagande gentemot EMH stödjer resultatet från denna studie beteendeekonomin. Studien belyser argumentet hämtat från beteendeekonomin att det psykologiska gruppbeteendet inte beaktas (Shiller, 2003). Denna studie indikerar på att allmänhetens inställning och position gentemot aktiemarknaden går att läsa av från forumet wallstreetbets. En trolig förklaring till detta är att investerare som söker sig till forumet blir influerade av de mest ansedda kommentarerna, och använder dessa som investeringsråd. Detta överensstämmer med teorier om att människor till stor del är influerade av vad andra tycker och tänker (Liu, 2012). Framför allt visar studien även på att det går att få en marknadsmässig fördel av att studera wallstreetbets, då marknadsmässiga beteenden går att uttyda för de mest diskuterade aktierna. Det bör dock

uppmärksammas att denna studie är begränsad till de aktier och den tidsperiod som studerats. Börsmarknaden är en tidsserie påverkad av många faktorer, och det är naivt att tro att det går att studera effekten av kommentarer kring alla aktier som nämns på forumet. Resultatet kan därmed komma att se olika ut om samma aktier analyseras men under tidsperiod då de inte är ett lika hett