Diskussion - Investerarnas position : En studie om semantisk analys av forumstrådar på wallstre

Nedan presenteras en diskussion av resultatet samt studiens styrkor och begränsningar.

5.1 Resultatdiskussion

Den statistiska analysen indikerade på att de parametrar som använts i modellen var signifikanta och att modellen var konvergerande, och vi kan därmed anta att uppskattade värden för parametrarna i Tabell 1 och Tabell 2 inte är slumpmässiga. Den generella regressionslinjen visade på det finns ett positivt samband mellan sentimentet på wallstreetbets och den upphandlade volymen. Sambanden var även positiva vid beräkningen av regressionslinjen för respektive aktie. Utifrån detta kan vi dra slutsatsen att sentimentet på wallstreetbets reflekteras i den upphandlade volymen av den aktuella aktien. Detta resultat gäller de aktier som observerats och under den tidsperiod som data samlades in. Vidare noterades skillnader i respektive regressionslinje för de olika aktierna, där både lutning och intercept varierade. Att intercepten varierade talar om att volymen med vilken aktierna handlas med varierar. Att lutningen varierade tyder på att effekten av det uppmätta sentimentet skiljer sig åt mellan de olika aktierna. Ett exempel på vad detta innebär illustreras tydligt om man jämför lutningskoefficienten för AAPL och ASO (se Tabell 4). För en uppskattning av volym under perioden multipliceras lutningskoefficienten med sentimentpoängen. Är poängen 1 blir lutningen för AAPL 55,699035 och 29,975103 för ASO, och om poängen är -1 blir lutningen -55,699035 respektive - 29,975103. Således märks effekten av observerat sentiment av tydligare, det vill säga en större skillnad i upphandlad volym, desto större värde på lutningskoefficienten.

Gällande beteendeekonomins ställningstagande gentemot EMH stödjer resultatet från denna studie beteendeekonomin. Studien belyser argumentet hämtat från beteendeekonomin att det psykologiska gruppbeteendet inte beaktas (Shiller, 2003). Denna studie indikerar på att allmänhetens inställning och position gentemot aktiemarknaden går att läsa av från forumet wallstreetbets. En trolig förklaring till detta är att investerare som söker sig till forumet blir influerade av de mest ansedda kommentarerna, och använder dessa som investeringsråd. Detta överensstämmer med teorier om att människor till stor del är influerade av vad andra tycker och tänker (Liu, 2012). Framför allt visar studien även på att det går att få en marknadsmässig fördel av att studera wallstreetbets, då marknadsmässiga beteenden går att uttyda för de mest diskuterade aktierna. Det bör dock

uppmärksammas att denna studie är begränsad till de aktier och den tidsperiod som studerats. Börsmarknaden är en tidsserie påverkad av många faktorer, och det är naivt att tro att det går att studera effekten av kommentarer kring alla aktier som nämns på forumet. Resultatet kan därmed komma att se olika ut om samma aktier analyseras men under tidsperiod då de inte är ett lika hett

samtalsämne, då tidigare studier visat på att antalet omnämningar är en faktor som påverkar mätbarheten av effekten (Mao et al., 2012).

Att lutningskoefficienterna mellan olika aktier skiljer sig åt kan förklaras av hur många som är investerade i en aktie. Från Tabell 2 går det exempelvis att läsa av att de tre största

lutningskoefficienterna tillhörde de aktier som det handlades mest med, och de tre lägsta lutningskoefficienterna tillhörde de aktier som handlades det handlades minst med. Detta kan kontrasteras mot siffror gällande antalet observerade kommentarer för varje aktie, där GME var den aktie som i särklass blev omnämnd flest gånger. Samtidigt nämner Mittal i sin studie att det är troligt att den generella opinionen av aktiemarknaden reflekteras tydligare bland användare som är

investerade i aktiemarknaden (Mittal, 2011). Det är även rimligt att anta att desto större volymer en aktie handlas med, desto fler kan antas vara investerade i aktien. Givet att wallstreetbets är ett forum förknippat med aktieinvesterade användare, är det därmed inte orimligt att anta att ration gällande hur många som är investerade i en aktie återspeglas bland användarna på forumet, vilket i sin tur kan påverka effekten av det sentiment som förknippas med aktien.

Denna studie begränsade sig till att inte undersöka om sentiment reflekteras i aktiemarknaden med en viss fördröjning (lagg). Således kan inga slutsatser dras om huruvida sentiment på wallstreetbets tyder på samma mönster som nämns i tidigare studier som var orienterade på andra plattformar (Bollen & Mao, 2011; Gidófalvi, 2001).

5.2 Modelldiskussion

De karakteristiska drag som återfanns i data motiverade att använda LMEM för analys, då

möjligheten att ta hänsyn till slumpmässiga effekter i ett kluster reducerar sannolikheten att göra typ 1 och typ 2 fel (Crawley, 2013). Därutöver motiveras det att ytterligare ta hänsyn till karakteristiska drag som återfinns inom kluster, då magnituden av varians inom respektive grupp men även mellan olika grupper kan variera (Harrison et al., 2018). Att utesluta denna information ur modellen kan därmed få konsekvensen att olika nyanser och mönster i data inte reflekteras i den anpassade modellen. Från Tabell 4 finner vi stöd för detta beslut, då vi exempelvis kan utläsa att de olika intercepten för vilka volymen av de olika aktierna handlades med var varierande, likväl som att effekten av det uppmätta sentimentet varierade mellan de olika aktierna. Läsaren bör även påminnas om att metoden för insamling av data riktar in sig på 13 specifika aktier, och det är information kring dessa som modellen är anpassad att ta reda på. Samtidigt belyser Harrison et al. (2018) även att en modell som utformas med både slumpmässiga intercept och lutning för varje kluster ställer krav på ett större urval, där minst fem olika kluster krävs för att modellen skall förbli robust när

slumpmässiga intercept används (Harrison, 2015). Det krävs även att antalet observationer för respektive kluster har ett balanserat antal observationer. Detta motiverade att ta bort CLOV ur

analysen då antalet observationer för den aktie enbart var sex, vilket skiljde sig från övriga aktier. Givet de förutsättningar som fanns motiverades det även att inte begränsa modellen till ett delat intercept för alla grupper, då detta kan driva upp risken att göra typ 1 och typ 2 fel (Schielzeth & Forstmeier, 2009). Att inte begränsa modellen till ett delat intercept är även befogat när man studerar data grupperad i olika kluster, då genom att tillåta olika intercept kan man ta hänsyn till skillnader som existerar mellan de olika klustren. Att anpassa en Mixed-Effect-Model med hänsyn till skillnader i lutning ställer som tidigare nämnt krav på mer data (Harrison et al., 2018). Att inte göra så kan dock leda till en ökad risk för typ 1 fel, och de p-värden som generas är mer noggranna än om modellen inte tillåter varians i lutning mellan grupper när data talar för att sådana skillnader finns (Schielzeth & Forstmeier, 2009). Effekten av att ignorera gruppvisa skillnader blir även mer markant när urvalet är mindre. Studier har påvisat att den statistiska styrkan var cirka 25% mindre när gruppvisa skillnader ignorerades i ett urval bestående av 10 grupper och 5 observationer per grupp (Aarts et al., 2015). Med hänsyn till karakteristiska drag som återfanns i data och urvalets storlek, är modellen därmed väl motiverad för en explorativ studie. Med det sagt är komplexiteten av de olika avvägningar som behöver göras vid användandet av en LMEM sammanfattningsvis extensiva, och inte alltid helt glasklara. Vid utformandet av modellen behöver flera parametrar övervägas: vad är det som mäts, hur ser den insamlade data ut och vilka egenskaper kan utläsas av att studera data.

Med dessa överväganden i beaktning har modellen i denna studie utformats och applicerats på goda grunder, där resultatet av modellen kan betraktas som signifikant. Det finns även anledning att anta att den LMEM modell som använts i studien varit effektiv med avseende på att den

möjliggör att det tas hänsyn till klustereffekter, vilket överensstämmer med tidigare studier (Mao et al., 2012). Men med det sagt uppmärksammas att detta är en explorativ studie, och att resultatet hade behövts verifieras på ett större datamaterial. Detta hade tillåtit att minska risken för typ 1 och typ 2 fel, då desto större datamaterial desto troligare är det att faktiska förhållanden återspeglas i urvalet (Banerjee et al., 2009).

En annan betydande faktor vid utformningen av modellen var hur sentimentpoäng för respektive dag valdes. Den icke-normalfördelade poängfördelningen som kunde konstateras i fördelningen av poäng genom histogrammen motiverade att en alternativ tillvägagång. Utifrån hur fördelningen såg ut, motiverades absolut frekvens som det mest lämpliga måttet. Detta kan däremot ha påverkat resultatet av modellen, då en alternativ metod eventuellt hade genererat ett annorlunda resultat. Således är fördelningen av sentimentpoäng något som framtida studier bör beakta

noggrant, då fördelningen kan tänkas skilja sig från denna studie, vilket hade motiverat ett annat tillvägagångssätt.

5.3 Reddit och extrahering av sentiment

I studien har ett par antaganden gjorts kring hur Reddits nuvarande kommentarsystem fungerar utifrån tiden då det var ett open-source projekt, och tidigare blogginlägg från deras koncern. Utifrån denna premiss går det dock inte att exakt säga hur dess sorteringsinställningar av kommentarer fungerar, då deras programvara kan ha blivit uppdaterad och genomgått förändringar. Däremot är den generella idéen kring hur forumet fungerar transparent, då det är funktioner designade för användarna. Exempelvis ligger det i Reddits intresse att har sorteringsinställningar av forumsinlägg som användarna förstår, då det främjar användarvänlighet. Således bör den grova uppskattning av hur forumet fungerar vara välgrundad, men inget som går att fastslå. Studien utformades utifrån vetskapen om denna begränsning, och har vidtagit försiktighetsåtgärder om möjligt. Ett exempel på detta är att kommentarer togs med för analys om de hade en poäng som överskred ett. Detta motiverades av att det går att pröva de grundläggande funktionerna av deras kommentarsystem, som ger ett standardiserat värde på ett till varje ny kommentar. En poäng som överskrider ett indikerar således på att kommentaren representerar en positiv åsikt från åtminstone två personer. Däremot extraherades ingen övrig information om poängen på kommentarer, det hade exempelvis kunnat vara lockande att även spara ner poängen för att på så vis kunna vikta sentiment utifrån detta, då sådana försök hade skett på bekostnad av både reliabilitet och validitet.

En annan aspekt som bör diskuteras är hur och om en aktie benämns i en kommentar, och hur detta relaterar till implementationen med VADER. I studien valdes att enbart registrera

sentiment kring kommentarer som specifikt nämnde en aktie. En styrka med denna metod är att det är konsekvent med identifieringen av aktier, samt att det går att säkerställa att kommentaren syftar till en viss aktie. På nätforum där inga direkta direktiv förekommer kring att användare måste hålla sig till ämnet, blir detta en styrka då metoden säkerställer att sentimentet syftar till en aktie. En konsekvens av detta blir dock att kommentarer som inte specifikt nämnde en aktie sållades bort, vilket då även kan medföra att representationen av den generella inställningen som

forumsanvändarna har gentemot aktien blir missvisande. Studiens longitudinella utformning bemöter detta till viss del, då upprepade mätningar bör spegla den övergripande inställningen till aktien ändå. Samtidigt återfanns dagar då aktier saknade alternativt hade få benämningar, och en filtrering som potentiellt sållade bort inlägg blir då mer inflytelserik. En alternativ metod för att bemöta detta, på bekostnad av precisionen i data, hade kunnat vara att söka av ett inlägg efter huruvida en aktie nämns av trådskaparen och därefter klassa alla kommentarer nedanför i

hierarkiska strukturen utifrån den aktie som nämns av trådskaparen. Om ingen aktie identifierades i trådskaparens inlägg, skulle nästa instans sökas av och tidigare beskrivna metodik skulle kunna användas. En sådan metod hade haft styrkan att sentiment kan beräknas utifrån alla kommentarer

och relateras till en aktie. Detta hade resulterat i mer datamaterial, men ingen garanti för hur relevant data är. Samtidigt skulle det kunna fånga en diskussionsaspekt i kommentarsfältet som den metod som använts i studien inte fångat. En svaghet hade dock varit att så fort en kommentar ledde in på att beröra en annan aktie skulle detta missats helt. Slutligen hade det även varit möjligt att kombinera de två metoder diskuterats ovan, eller givetvis att göra på något annat sätt. Det hela grundar sig i att vara en avvägning mellan kvantitet kontra tillförlitlighet. I studien motiverades en metod som prioriterade precision med hänsyn till att Reddit är ett internetforum, vars karakteristiska drag ofta är mycket oväsen i det som skrivs.

I studiens bearbetningsprocess av insamlad kommentarsdata filtreras kommentarer från bottar som följer Reddits användarvillkor bort (Reddit API Terms of Use, 19/04/21). Däremot är det omöjligt att verifiera att alla följer dessa användarvillkor, och således går det inte heller att

säkerställa att inga kommentarer, antingen skapade av eller manipulerade av bottar, ingår i den analyserade data.

En annan aspekt som studien inte tagit hänsyn till är idiomatiska uttryck som är reserverade till plattformen. Med detta menas att ord som vanligtvis kan betrakta som negativa, kan i

sammanhanget uttrycka något positivt. Likväl kan det vara tvärtom, eller uttryck som i andra sammanhang inte har den innebörd som de har när de uttrycks på forumet. Konsekvensen detta medför är att analysen med VADER kan ha påverkats, då dess ordbibliotek inte programmerades för att ta hänsyn till alla varianter som kan tänkas förekomma på forumet. VADER stödjer i en viss utsträckning flera olika böjningsformer av ord, vilket kan tänkas täcka delar av uttryck på forumet. Däremot kan studiens utformande inte garantera att somliga idiomatiska uttryck som kan tänkas förekomma på wallstreetbets analyseras korrekt.

In document Investerarnas position : En studie om semantisk analys av forumstrådar på wallstreetbets. (Page 35-39)