• No results found

Maskininlärning som medel för att förutsäga NBA:s mest värdefulla spelare

N/A
N/A
Protected

Academic year: 2021

Share "Maskininlärning som medel för att förutsäga NBA:s mest värdefulla spelare"

Copied!
14
0
0

Loading.... (view fulltext now)

Full text

(1)

GRUNDNIVÅ, 15 HP

,

STOCKHOLM SVERIGE 2019

Maskininlärning som medel för att

förutsäga NBA:s mest värdefulla

spelare

TOM BERG

SERGEJ ENGSTRÖM

KTH

(2)

This research has been conducted within the field of industrial engineering and computer science. Emphasis in this study has been on machine learning and to what extent it can be used to predict the recipients of individual awards in sports, based on the data behind their performances. For this work, different machine learning algorithms have been used and evaluated to predict the outcome of the “most valuable player” award in the National Basketball Association. Quantitative data have been gathered from almost 20 seasons to build a base for the machine learning fitting. The selection of features and tuning of hyperparameters have been optimized to improve the predictions. The algorithms have been gauged and compared in different ways to find out how to maximize the accuracy. The conclusion of the study was that the results can be predicted with an R2-score higher than 80% and that each method that was tested predicted more than half of the MVPs.

Denna studie har utförts inom områdena industriell ekonomi och datateknik. Fokus har legat på maskininlärning och med vilken precision det kan användas för att förutspå mottagare av

idrottsutmärkelser, baserat på deras individuella prestationer. I arbetet har olika maskininlärningsalgoritmer använts och utvärderats för att förutsäga vem som utses till den mest värdefulla spelaren i National Basketball Association. Kvantitativa data har samlats in från nästan 20 säsonger för att lägga grunden för träningen av algoritmerna. Features har valts ut och hyperparametrar har ställts in för att optimera förutsägelserna. Algoritmerna har sedan utvärderats och jämförts för att kunna maximera precisionen. Arbetet resulterade i förutsägelser med R2-scores på över 80% samt att varje metod förutsåg fler än hälften av alla MVPs.

I. INLEDNING

Efter varje säsong i NBA (National Basketball Association) delas en mängd utmärkelser ut till spelare baserat på deras individuella prestationer under det gångna året. Den mest prestigefyllda utmärkelsen anses vara ”Most Valuable Player” (MVP). Priset delas ut till spelaren som ansetts ha bidragit mest till sitt lags framgångar under säsongen.

Då NBA är en av världens största och ständigt växande organisationer [1], engagerar sig många investerare i dess verksamhet. MVP-vinnaren är relevant för företag och organisationer som vill utnyttja spelarens ökade

marknadsföringsförmåga. För dessa företag kan det vara viktigt att skriva marknadsföringsavtal med dessa spelare innan deras värde realiseras. Varje år sker även vadhållning

Skribenter av rapporten är Tom Berg och Sergej Engström. All text har bearbetats och diskuterats av båda skribenterna. Inget stycke är skrivet utan att båda personerna har fått göra förändringar i flera iterativa steg. Programmen som användes under studiens gång har utvecklats i en väldigt lik process där

där miljardbelopp satsas på sportresultat [2], varav basket är en av de mest populära sporterna att satsa på [3]. I dagsläget är sportsbetting olagligt i de flesta stater i USA men flera stater har visat intresse för att legalisera det [4]. Det kan potentiellt bidra till den redan starkt växande sportligan NBA, som har möjligheten att ta del av intäkterna.

Med detta ökande engagemang i åtanke är det till synes oundvikligt att mer och mer resurser kommer att läggas på att ta fram metoder som förutspår dessa resultat. Syftet med denna studie är därför att undersöka i vilken utsträckning maskininlärning kan användas för att förutsäga vem som utses till MVP. Maskininlärningsmodellen kommer baseras på tidigare säsongers vinnare och deras respektive prestationer. II. BAKGRUND

NBA är en av världens största idrottsligor och omsätter flera miljarder dollar per säsong [5]. Dessa intäkter beror i stor utsträckning på hur attraktiv organisationen är, både på och vid sidan om planen. För ett enskilt lag är det därav viktigt att det går bra både sportsligt och att laget har spelare som publiken kan se upp till, gå på matcher för att se, samt köpa dess tröjor. En metod som visat sig framgångsrik genom åren är att ha de största stjärnorna i sitt lag. Det kan vara spelare som har en underhållande spelstil eller personlighet som bidrar till nöjet av att gå och titta på en match. Det kan vara unga spelare med hög potential där fansen intresserar sig för deras personliga utveckling och dess eventuella framtida framgång, men ett av de lättaste sätten att skapa ett intresse för

organisationen är att kontraktera de absolut bästa spelarna som kommer bidra till sportsliga framgångar. [6]

Det finns många sätt att mäta en spelares skicklighet men det kanske yttersta beviset på att personen bidrar och skapar värde för organisationen är om den utses till ligans mest värdefulla spelare (MVP). Denna utmärkelse som delas ut efter säsongen, är den enskilt mest prestigefulla och kan förhöja såväl

spelarens som organisationens värde. Detta innebär att spelaren kan väntas dra in mer pengar till dess lag, öka försäljningen av produkter hos sponsorer, samt öka det allmänna intresset för just den spelaren. Det kan vara avgörande för företag att i ett tidigt stadie kontraktera dessa

båda skribenterna kodat enskilda stycken som sedan redigerats av den andre skribenten.

Maskininlärning som medel för att förutsäga

NBA:s mest värdefulla spelare

(3)

spelare, redan innan de tilldelas utmärkelsen, för att kunna dra nytta av deras dragningskraft. [6]

Vilken spelare som utses till MVP har även visat sig kunna engagera människor som satsar pengar på sport. Det har visat sig att just denna kategori växt fram som en av de populäraste på betting-sajter när det kommer till NBA och det är därför av yttersta vikt att det finns metoder för att förutspå vem som med störst sannolikhet kommer bli MVP, både för dessa bettingföretag men även för de individer som satsar sina pengar.

Utmärkelsen MVP har sedan säsongen 1980–1981 utsetts av en jury bestående av sportjournalister och andra människor insatta i sporten från USA och Kanada. Varje medlem i juryn får, efter att säsongen är färdigspelad, rösta på fem spelare som mottager 10, 7, 5, 3 respektive 1 poäng. Sedan säsongen 1999–2000 har antalet jurymedlemmar varierat mellan ca 100 och 130 [7] [8]. Spelarna rankas därefter utefter hur många poäng de mottagit och den vars totalsumma är störst vinner utmärkelse MVP. [9]

A. Mål

Målet med arbetet är att med hjälp av maskininlärning kunna med hög precision förutse poängfördelningen efter röstningen samt vem som kommer tilldelas utmärkelsen MVP. Detta kommer förhoppningsvis resultera i en metod som, givet parametrar kopplade till spelares och dess lags framgångar, kan ta fram vilka spelare som med störst sannolikhet kommer vinna.

Detta kommer dels vara relevant för basketintresserade som vill läsa och spekulera om ämnet för nöjes skull men det kan även vara av intresse för diverse företag som vill tjäna pengar på spelares individuella dragningskraft. Det kan röra sig om allt från idrottslag till sko- och klädföretag, betting-sajter, tidningar och tv-kanaler.

Utöver dessa är resultatet intressant för nästan alla sporter i världen. Kanske går liknande förutsägelser att göra även där.

B. Samhälleliga och Etiska Aspekter

I allmänhet finns det inga etiska aspekter direkt kopplade till arbetet. Däremot kan det i viss utsträckning kan leda till att människor kan hamna eller fastna i spelmissbruk, då ökade hjälpmedel kan uppmuntra spelande. Detta är såklart något som bör undvikas men denna risk anses inte vara särskilt stor. [10] Det kan även finnas en risk att delar av

spänningsmomentet vid omröstningen försvinner men inte heller detta är särskilt troligt om inte metoden är perfekt.

III. VETENSKAPLIG FRÅGA

Med vilken precision kan maskininlärning användas för att förutse poängfördelningen efter omröstningen samt vilken spelare som vinner MVP?

A. Förväntat Vetenskapligt Resultat

Arbetet kan visa på bredden av applikationsområden för maskininlärning. Om det går att, med hög precision, förutspå den mest värdefulla spelaren i NBA, bör samma koncept

kunna appliceras på flertalet andra sporter där den mest värdefulla deltagaren ska utses.

Hypotesen som ska testas är om det är möjligt att skapa ett maskininlärningsprogram som, med hög precision, kan förutsäga hur MVP-rösterna kommer fördelas och därmed vem som kommer utses till den mest värdefulla spelaren baserat på den nuvarande säsongens resultat. Programmet kommer kunna testas på tidigare säsonger för att avgöra kvalitén av förutsägelsen.

IV. TEORI

A. NBA – Statistik och statistiska begrepp

Inom sporten har försök gjorts att förbättra och förenkla statistiken för att bättre representera en spelares prestationer. Ett antal avancerade statistiska begrepp tagits fram vars syfte är att ge en bättre beskrivning av spelarnas kvalitéer. Några av dessa begrepp presenteras nedan.

1) True Shooting, Effective Field Goal & Field Goal

True shooting (TS%), Effective Field Goal (eFG%) och Field Goal (FG%) är alla tre statistiska mätetal som försöker visa hur effektivt en spelare är gör poäng.

FG% beräknas som antalet skott spelaren har tagit som resulterade i poäng dividerat med totala antalet försök. Detta mätetal är tämligen simpelt och tydligt men det ger inte en rättvisande bild av hur effektiv spelaren är.

eFG% gör ett försök att ta hänsyn till att lyckade skott kan vara värda olika. Inom sporten kan skotten vara värda ett, två eller tre poäng. Detta mätetal, till skillnad från FG%, viktar spelarens effektivitet från trepoängsavstånd för att ge en bättre beskrivning av spelarens effektivitet.

TS% tar nästa steg i försöket att beskriva spelares effektivitet genom att även ta hänsyn till hur väl spelaren skjuter

straffkast. TS% beräknas med följande ekvation: 𝑇𝑆% = 𝑃𝑇𝑆 / 2 ∗ (𝐹𝐺𝐴 + (0.44 ∗ 𝐹𝑇𝐴))

(PTS = Spelarens gjorda poäng, FGA = Totala antalet skott, FTA = Totala

antal straffkast)

Faktorn 0.44 är förhållandet mellan hur många straffkast som genereras från två- respektive trepoängsskott. För NBA är den just 0.44 men varierar i olika sammanhang. [11]

2) Win shares

Win Shares (WS) är en spelarstatistik vars mål är att försöka dela upp lagets framgång till de enskilda spelarna. WS kan förenklat beskrivas som hur många vinster en enskild spelare bidrog med till sitt lag. WS beräknas baserat på individuell spelarstatistik men även statistik för resten av ligan. Summan av ett lags individuella WS är ungefär lika med lagets totala vinster. Konceptet WS delas oftast upp i tre kategorier. ”Offensive WS” (OWS), “Defensive WS” (DWS) och “WS per 48 minuter” (WS/48). [12]

(4)

3) Box Plus Minus & Value Over Replacement Player

Box Plus Minus (BPM) är en spelarstatistik framtagen för att mäta spelarens totala bidrag till lagets gjorda poäng. BPM representerar antalet poäng, per 100 bollinnehav, som spelaren var på plan. I allmänhet innebär +5 BPM att spelaren har bidragit till 5 poäng mer än den genomsnittliga NBA spelaren, vilket anses vara väldigt bra. BPM använder gammal statistik för att avgöra vad som är en genomsnittlig spelare i NBA. Det existerar även en separat men väldigt lik uträkning som beräknar den offensiva komponenten av BPM, Offensive Box Plus/Minus (OBPM). Den defensiva delen sägs sedan vara differensen mellan BPM och OBPM, Defensive Box Plus/Minus (DBPM).

Value Over Replacement Player (VORP) bygger vidare på att BPM inte visar hur många av lagets spelade minuter spelaren var på planen. En spelare med +9 BPM som spelade 80% av lagets matchminuter har ett högre värde för laget än en spelare med +9.1 BPM som bara spelade 75% av lagets minuter. VORP visar alltså spelarens värde över en genomsnittlig ersättare och är troligtvis en bättre beskrivning av en spelares bidrag. [13]

B. Maskininlärning

1) Support Vector Regression

Skillnaden mellan Support Vector Regression (SVR) och vanlig regression är att SVR inte försöker minimera felet. Istället försöker den rama in felet inom vissa gränser. Förenklat kan det förklaras som att försöka hitta de två linjer på lika stort avstånd från hyperplanet som innefattar så många datapunkter som möjligt. [14]

Vid implementation av SVR finns det i huvudsak fyra viktiga hyperparametrar att justera; ”kernel”, ”epsilon”, ”gamma” och ”C”. Kernel är funktionen som mappar data av lägre

dimension till högre. Gamma är en koefficient till kernel. Epsilon specificerar epsilon-tuben, inom vilken inga straff ges till punkter med förutspådda poäng mindre än epsilon till det faktiska värdet. C är straffparametern som anger hur högt straffet är för att befinna sig utanför epsilon-tuben. [15] Att justera dessa hyperparametrar är i de flesta fall väldigt tidskrävande. De resultatförbättringar som kan uppnås vid bra hyperparameterjustering är enorm och mer de mer

tidskrävande metoderna som Gridsearch kan vara värda att implementera för att få ett bra resultat. [16]

2) Random Forest Regressor

Random Forest (RF) Regressor tränar flera unika beslutsträd som sedan kombineras. Regressorn använder sig av

medelvärdet av varje beslutsträds förutsägelse. Resultatet är en metod som normalt är bättre än någon av de unika trädens. Random Forest regression minskar också risken för överanpassning gentemot att endast använda enskilda beslutsträd. [17]

Vid implementation av Random Forest Regressor finns det flertalet hyperparametrar som kan förbättra resultatet. Användningen av många är situationsbaserade och beroende på situationen kan olika parametrar behöva justeras. Nedan

följer de hyperparametrar som justerades för att optimera modellen: [15]

• N_estimators: Representerar hur många beslutsträd som bygger upp regressionen.

• Max_depth: Representerar djupet av varje beslutsträd. Ett djupare träd delar på sig fler gånger och fångar mer information av data. Ett djupare träd kan alltså riskera att överanpassning.

• Min_samples_split: Minsta antalet träningsdata som behövs innan en nod i ett beslutsträd kan dela på sig.

3) K-Nearest Neighbours

Principen bakom K-Nearest Neighbours (KNN) är att hitta ett givet antal förvalda träningspunkter närmast testpunkten, alltså dess ”närmaste grannar”. Regressionen använder sedan punkternas närmaste grannar för att förutsäga resultatet baserat på dess värden. [15]

Viktiga parametrar vid implementation av KNN är:

• weights: Bestämmer hur de närmaste punkterna till testpunkten viktas. Kan exempelvis viktas på avstånd eller att alla har samma värde.

• algorithm: Bestämmer vilken algoritm som används för att hitta de närmaste punkterna.

• p: Bestämmer hur avstånden i algoritmen ska beräknas. Vanligast är Euclidian eller Manhattan. • n_neighbours: Representerar antalet punkter som tas

hänsyn till.

C. Porters Five Forces

Porters Five Forces analys av den konkurrenskraftiga miljön för spelare i NBA baseras på Porters publikation om ”Competitive advantage” som visar hur en industris konkurrenskraft kan delas upp på fem olika krafter [18]. Modellen kommer användas med perspektivet av den enskilde spelaren och hur konkurrenskraften förändras inom industrin förändras vid vinst av utmärkelser.

Implementationen av Porters femkraftsmodell är dock inte alltid lika enkel som det från början var tänkt. Det är lätt att analysen inte blir tillräckligt djup och att slutsatser dras som inte stämmer överens med verkligheten. För att undvika några av fällorna som existerar vid implementationen kan en färdig guide vara till hjälp. [19]

D. Tidigare Studier

2016 utfördes ett liknande arbete på Cornell University [18] där det undersöktes hur maskininlärning kan användas för att undersöka vilka parametrar som är väsentliga för att ett NBA-lag ska ta sig till slutspel. I arbetet användes “Tree

Classification” med klassificeringen “True” eller “False” beroende på om ett lag tagit sig till slutspel, samt 26 parametrar. Arbetet ledde till att de kunde identifiera vilka parametrar som var mest centrala för huruvida ett lag ska ta sig till slutspel. Detta arbete är relevant för detta då det med

(5)

stor sannolikhet kommer användas en liknande slags parametrar och eventuellt en liknande klassificering vilket innebär att en motsvarande metod rimligtvis kan användas. I en annan liknande studie från 2017 [19] var syftet att förutsäga vilka spelare som, genom en liknande urvalsprocess som till MVP, skulle utses till All-star i NBA. Där användes “Random Forest Regression” för att även här ta fram vilka parametrar som är mest centrala för att en spelare ska kunna bli en All-star. Det har även gjorts fler studier där maskininlärning använts för att göra liknande förutsägelser. De studierna har bland annat undersökt vilka matchrelaterade faktorer som är mest centrala för vilket lag som vinner basketmatcher [20] samt tagit reda på hur NFL-spelare bäst väljs ut i Fantasy Football för att bygga upp vinnande lag [21]. En ytterligare studie som kan ses som extra relevant är en från 2017 vars syfte var att förutspå fotbollsspelares löner baserat på deras sportsliga prestationer, personligheter, ålder med mera [22]. Denna studie tar, till skillnad från många andra, hänsyn till de mer subjektiva bedömningar av spelare som ligger bakom kontraktsförslag. Detta påminner om den bedömning som experterna gör när de röstar på MVP i NBA.

Resultatet av dessa studier indikerar att det i hög utsträckning är möjligt att dra slutsatser om olika parametrars betydelse för att göra förutsägelser. En annan viktig slutsats är att det är möjligt att dra gedigna slutsatser och basera förutsägelser på en relativt liten datamängd, i flera av studierna var

datamängden som låg till grund för modellen i runt 10 spelare per år, vilket även kommer vara den storlek på datamängd som kommer användas i detta arbete.

V. METOD

A. Programmeringsspråk:

All programmering utfördes i språket Python. Python valdes framförallt för att kunna utnyttja maskininlärningsbiblioteket scikit-learn (SL).

Två olika kategorier av program utvecklades. Dels skrevs program vars syfte var att generera filer med all relevant data som i ett format så att de kunde användas i maskininlärningen. Utöver dessa skapades även program som utförde själva maskininlärningen, samt utvärdering av modellerna.

B. Regression eller klassifikation:

Valet gjordes att regression var ett bättre alternativ än klassifikation för att besvara frågeställningen. En av fördelarna med regression var att det lättare skulle gå att utnyttja den poängfördelning som röstningen genererade. Vidare kan en regression tydligare visa skillnaderna mellan spelarna och om programmet appliceras säsongsvis kan enkelt den spelaren med högst poäng förutsäges som MVP. Vid klassifikation fanns det svårigheter med att skilja på spelare som ligger i toppen av röstningen samt att flera spelare kan klassificeras till MVP under en säsong. Något som inte är realistiskt.

C. Data

Datainsamlingen skedde från hemsidan Basketball-Reference. Data som samlades in kunde delas upp i tre olika kategorier.

• Spelarstatistik: Hämtades från två tabeller på Basketball-Reference. NBA Player Stats: Per Game samt NBA Player Stats: Advanced.

• Lagstatistik: Hämtades från tabellen Expanded Standings på Basketball-Reference

• Röstningsstatistik: Hämtades från tabellen Most Valuable Player på Basketball-Reference.

D. Val av parametrar

Valet av vilka parametrar som skulle inkluderas i modellen skedde i tre steg. I det första steget användes kunskap om sporten samt tidigare arbeten [23] för att grovt sortera ut de statistiska parametrar som kunde korrelera med att spelaren väljs till MVP. Detta skedde med förhållningen att hellre ta med för många än för få parametrar. Det andra steget var att använda SL metoden ”SelectKBest” [15]. Sista steget var att gallra bort de parametrar som inte skulle bidra till modellen. Samtliga parametrar var av typen att förutsägelsen inte påverkades negativt då de togs bort.

Vid det valet av vilka parametrar som kunde användas i maskininlärningsprogrammet fanns det tre olika aspekter att ta hänsyn till. Den första var vilka parametrar som rimligtvis kan indikera att spelaren är bra, då en bra spelare rimligtvis bör korrelera med att vinna MVP. Flera parametrar såsom poäng, assister, steals, blockade skott, returer var några av de mätetal som togs med. Den andra aspekten är att de som röstar inte värderar statistik lika i olika sammanhang. Det finns alltså en psykologisk aspekt där en viktig slutsats är att lagets resultat spelar väldigt stor roll. Tekniskt sett skulle den statistiskt bästa spelaren kunna spela för det sämsta laget men historiskt är det nästan alltid en spelare från de högst rankade lagen som vinner MVP. Det betyder alltså att lagets vinster samt lagets

placering i ligan är viktiga parametrar. På samma sätt är det väldigt ovanligt att en spelare som varit skadad eller av någon anledning inte spelat majoriteten av lagets matcher får röster, oavsett hur väl spelaren presterat.

Tabellen nedan visar de senaste MVP-vinnarna, hur många matcher (av 82 möjliga) de spelade den säsongen samt deras lags placering.

Tabell I. Spelade matcher & Lagplacering för tidigare vinnare År MVP Spelade matcher Lagets placering 2018 James Harden 72 1 2017 Russell Westbrook 81 10 2016 Stephen Curry 79 1 2015 Stephen Curry 80 1 2014 Kevin Durant 81 2 2013 Lebron James 76 1

(6)

Den tredje aspekten är att försöka gallra bland de avancerade statistiska begreppen. Många av dessa mätetal är inte perfekta eller heltäckande men experter menar att de ger en bättre bild av spelare än den enklare klassiska statistiken [24]. De flesta har tydliga styrkor och svagheter. Av den anledningen inkluderades de avancerade statistiska mätetalen som kan indikera spelares värdeskapande och effektivitet.

Efter den initiala sorteringen av parametrar användes SL metoden SelectKBest för att identifiera parametrar som inte alls korrelerar med vem som får MVP. f_regression en linjär modell för att testa den individuella effekten av varje enskild variabel och även mutual_info_regression, som mäter beroendet mellan två variabler, användes.

Tabellen nedan visar vilka parametrar som fick lägst samt högst poäng i testerna. Båda testerna identifierade FG%, FT%. 3P% som de parametrarna som korrelerar minst med

poängfördelningen. Dessa parametrar var därför naturliga att ta bort för att förbättra och effektivisera modellen.

Tabell II: Parametrar med lägst samt högst poäng (Tabellen följer inte poängordningen)

f_regression mutual_info_regression Lägst Högst Lägst Högst

DBPM Vinster Blocks OWS

FG% WS/48 FG% WS/48

FT% Assists FT% Assists

3P% Poäng 3P% Poäng

E. Förbättring av regressionen: 1) Förbehandling av data

Generellt kan inlärningsalgoritmer dra nytta av att indata är standardiserad. Standardisering innebär att datamängden mer eller mindre är normalfördelad utan medelvärdes- och enhetsvarians. Om en parameters varians skiljer sig med flera magnituder i jämförelse med de andra parametrarna kan den dominera inlärningsfunktionen och därmed göra det svårt att lära av de andra parametrarna.

För att motverka detta användes SL verktyget StandardScaler för att skala ned träningsparametrarna. [15]

2) Test-/Träningsuppdelning

För att undvika överanpassning vid förbättring av

inlärningsalgoritmen var det viktigt att dela upp träningsdata och testdata. [25] Då inlärningsprogrammets syfte var att förutsäga resultatet för en hel säsong gjordes test- och träningsuppdelningen säsongsvis.

Programmets syfte är att förutsäga framtiden. Det innebär att endast data från innan valet skedde kan användas för att programmet ska testas så realistiskt som möjligt. I praktiken innebär det alltså att för att förutsäga resultatet av säsongen

2011–2012 (testsäsongen) tränades programmet endast på säsonger fram till och med 2010–2011 (träningssäsonger).

3) Träning på tidigare säsonger

För att uppnå ett realistiskt resultat krävdes det att programmet endast tränades på säsonger innan testsäsongen. Det skapade ett problem då antalet träningssäsonger minskade för äldre säsonger. Identifiering av antalet träningssäsonger som behövdes för att träna programmet var alltså nödvändigt för att veta hur långt bak i tiden testsäsongen kunde vara.

Identifieringen gjordes genom att studera inlärningskurvan som presenteras i figurerna I, II och III. Inlärningen planas ut efter cirka 1500 träningsexempel vilket motsvarar cirka fem säsonger. Innebörden blir att varje förutsägelse kan baseras på fem föregående säsongers data.

4) GridSearchCV

För att välja hyperparametrar till regressionsalgoritmerna användes GridSearchCV från SL. GridSearchCV använde en fit- och en score-metod som anger värden för specificerade parametrar som beskrev hur bra förutsägelsen blev med just de inställningarna. Detta innebar att en mängd

hyperparametervärden kunde testas och jämföras med varandra på ett strukturerat vis. [15]

Testen gjordes i tre steg:

(1) Använd GridSearchCV med en tiologaritmisk skala på varje hyperparameter. Från 0.01 till 1000.

(2) Identifiera de värde på hyperparametrarna som ger högst R2-score.

(3) Utgå från det bästa resultatet men kör igen med två hyperparametervärden. Ett hälften så stort som det nuvarande optimala och ett dubbelt så stort. Upprepa steg 3 till R2-score inte förbättrades.

F. Utvärdering av regressionen:

Vid utvärdering av regressionen gjordes ett antal tester. Nedan följer en förklaring av de utvärderingsverktyg som användes. I resultatdelen av arbetet presenteras resultatet av att applicera dem på vår regression mer utförligt.

1) Naiv Metod

För att utvärdera maskininlärningsmetoden kan en ”naiv” metod användas. En naiv metod är en väldigt simpel metod för att utföra samma förutsägelse som

maskininlärningsprogrammet. Syftet med denna metod var att ha ett basfall att jämföra de andra modellerna med för att se om maskininlärning ger en markant bättre förutsägelse. Den naiva metoden som användes var:

𝑇𝑜𝑡𝑎𝑙𝑠𝑢𝑚𝑚𝑎 = (𝑃𝑜ä𝑛𝑔 + 𝑅𝑒𝑡𝑢𝑟𝑒𝑟 + 2 ∗ 𝐴𝑠𝑠𝑖𝑠𝑡𝑒𝑟) ∗ 𝑆𝑝𝑒𝑙𝑎𝑑𝑒 𝑀𝑎𝑡𝑐ℎ𝑒𝑟

Spelarna rankades därefter efter deras totalsumma. Antalet assister viktades högre än poäng och returer då värdet av en assist ofta likställs med ungefär två poäng. De fyra som

(7)

mätetal som används i ekvationen är tänkta att ge en

övergripande bild av spelares värdeskapande, dels genom att ta med de tre oftast förekommande men även antalet spelade matcher för att betona det totala bidraget till laget.

2) Mean Squared error

Mean squared error (MSE) beräknas som en funktion av det verkliga och det förutsagda värdet enligt:

MSE(y, ŷ) = 1 nsamples ∑ (yi− yî ) 2 nsamples−1 i=0 .

Det ger alltså medelvärdet av det kvadratiska felet för varje datapunkt. [15]

3) R2-Score

R2-score ger ett värde som beskriver hur välanpassat

maskininlärningsprogrammet är, det vill säga hur bra

förutsägelserna är i jämförelse med det sanna värdet. Om R2 är

1 innebär det att regressionens förutsägelser perfekt passar de sanna värdena. Ett värde under 0 innebär att regressionen är sämre än medelvärdet, och att det därmed hade varit bättre att använda en konstant förutsägelse. Det beräknas med följande funktion: [15] R2(y, ŷ) = 1 −∑ (yi− ŷ)i 2 n i=1 ∑ni=1(yi− y̅)2 4) Plottning av inlärningskurvorna

Formen och dynamiken hos en inlärningskurva kan användas för att diagnosticera beteendet av regressionen. Det som framförallt är vanligt är att, utifrån kurvan, se huruvida modellen är över-, under- eller välanpassad.

Inlärningskurvorna användes framförallt för att avgöra hur många datapunkter som var nödvändiga till att träna regressionen. Figurerna nedan visar inlärningskurvorna över fem säsonger. Det syns tydligt att både tränings- och

valideringskurvans lutning avtar och når en relativt stabil nivå efter ungefär 1600 datapunkter. Detta innebar att mer data inte nödvändigtvis leder till en markant förbättring av

förutsägelsen. [26]

Figur I: Inlärningskurvan för RF regressionen

Figur II: Inlärningskurvan för SVM regressionen

Figur III: Inlärningskurvan för KNN regressionen

5) Porters femkraftsmodell

För att identifiera hur utnämnandet av MVP är ekonomiskt relevant kunde Porters femkraftsmodell appliceras på spelare i NBA. Därmed gick det att urskilja vad som påverkar

marknadsdynamiken inom den branschen och vad som ligger bakom hur individuella spelare kan tjäna på att utses till MVP när det kommer till sponsoravtal och andra intäktskällor. Resultatet av porteranalysen presenteras sist i resultatdelen. VI. RESULTAT

Syftet med detta arbete har varit att undersöka i vilken utsträckning det är möjligt att förutspå poängfördelningen efter MVP-röstningen och vem som därmed tilldelas utmärkelsen MVP i NBA. Ett antal metoder har optimerats genom att ställa in olika hyperparametrar och sedan tränats och testats på samma indata. Utvärderingen av metoderna går dock att göra på flera olika sätt och följande sätt att mäta kan anses beskriva precisionen av förutsägelsen och presenteras därmed nedan:

(8)

• Metodens R²-score, jämför förutsägelserna med det verkliga utfallet för olika säsonger och därmed ger en bild av hur precis modellen är. R²-score kommer även vara den metod på vilken mest fokus läggs då fler datapunkter kan användas.

• Huruvida metoden i fråga lyckades förutsäga vem som mottog flest MVP-poäng i röstningen och därmed utsågs till MVP för en given säsong och hur stor andel av alla testade säsonger detta uppnåddes. • Hur många spelare som metoden lyckades förutsäga

som placerades bland de 3 respektive 7 första utan hänsyn till inbördes ordning.

• Metodens MSE som mäts på liknande sätt som R²-score.

A. Val av hyperparametrar och features

Med hjälp av GridsearchCV var det möjligt att optimera kombinationen av hyperparametrar som användes. Följande inställningar användes i algoritmen:

Tabell III: Optimala Hyperparametrar

SVR KNN RF

kernel: “rbf” n_neighbours: 7 Min_samples_split: 2 epsilon: 0,015 weights: uniform n_estimators: 70 gamma: 0,001 max_depth: 3 C: 5

Efter att ha använt SL metoden SelectKBest med algoritmer mutual_info_regression och f_regression valdes följande parametrar för att optimera igenkänningen och

förutsägelserna.

Tabell IV: Parametrar som användes i regressionen Beskrivning Beräkning

Spelarens namn och efternamn

Procent av matcher spelade Spelade matcher/Totalt antal matcher

Points Antal poäng / Spelade matcher Blocks Antal block / Spelade matcher Steals Antal steals / Spelade matcher Assists Antal assister / Spelade matcher Returer Antal returer / Spelade matcher Lagets antal vinster

Lagets placering i ligan Skillnaden i placering jämfört med förra året

Huruvida spelaren fick MVP röster

Spelarens placering i listan av personer som fick röster

% av totala möjliga poäng Antal Poäng / Maximala poäng

Tabell V: De avancerade statistiska parametrar som användes i regressionen Förkortning Begrepp

PER Player efficiency rating TS% True Shooting % OWS Offensive Win Shares DWS Defensive Win Shares WS/48 Win Shares / 48 minuter OBPM Offensive Box Plus Minus DBPM Deffensive Box Plus Minus BPM Box Plus/Minus

VORP Value Over Replacement Player eFG% Effective Field Goal %

B. Utvärdering av modellerna

Följande R²-score uppmättes för de 14 senaste säsongerna när algoritmen tränade på de fem säsonger som föregick den som skulle förutsägas:

Figur VI: R²-score för varje enskild säsong

Nedan följer två tabeller som visar den genomsnittliga poängen för respektive säsong, samt de riktningskoefficienter som gavs vid linjär regression av graferna i figur VI.

Tabell VI: Genomsnittligt R²-score för varje metod

Metod Genomsnittligt R²-score senaste 14 säsongerna

SVR 0,657 KNN 0,655 RF 0,613

Tabell VII: Riktningskoefficient vid linjär regression av figur 3 Metod Riktningskoefficient

SVR 0,04328 KNN 0,04154 RF 0,04154

Grafen nedan visar antalet korrekta gissningar av 14 möjliga för respektive metod.

(9)

Metod Antal korrekta av 14 Procent Korrekt SVR 10 71,43 KNN 9 64,29 RF 7 50,00 Naiv 4 28,57

Vilka säsonger som respektive metod förutspådde korrekt MVP illustreras i grafen nedan:

Figur V: Vilka år varje modell lyckades förutspå MVP

Nedan visas hur många av de 3, respektive 7, bästa spelarna varje säsong som i genomsnitt förutsågs utan hänsyn till inbördes ordning:

Tabell IX: Genomsnittliga top3/top7 gissningar för varje regression Metod Genomsnitt topp

3 gissningar Genomsnitt topp 7 gissningar SVR 2,000 5,357 KNN 1,857 5,357 RF 1,857 4,786 Naiv 1,429 3,429

Antalet korrekta gissningar för varje säsong illustreras även i graferna nedan:

Figur VI: Antalet förutspådda av topp 3 enligt varje modell

Figur VII: Antalet förutspådda av topp 7 enligt varje modell

I följande tabell visas riktningskoefficienterna som fås vid linjär regression av ovan grafer:

Tabell X: Visar riktningskoefficienten för regression av Figur VI & VII Metod Riktningskoefficient topp 3 Riktningskoefficient topp 7 SVR 0,12747 0,09451 KNN 0,04396 0,09451 RF 0,07473 0,16923 Naiv 0,03854 -0,08241

Även SL MSE har använts för att utvärdera precisionen i förutsägelserna. Följande resultat uppmättes för de 14 säsongerna:

Figur VIII: Mean Squared Error * 10-3 per säsong enligt varje metod

C. MVP säsongen 2018–2019

När de tre algoritmerna sedan applicerades på data från säsongen 2018–2019, vars MVP fortfarande inte var utsedd, gavs följande förutsägelser:

(10)

Figur IX: Poängandelen som förutsågs av varje modell 2019

D. Porters femkraftsmodell

Nedan följer resultatet av den porteranalys som genomfördes. Den visar hur en spelares status påverkas då den utses till MVP och hur detta eventuellt kan påverka förhandlingsstyrka.

1) Kunders förhandlingsstyrka

För en NBA-spelare är kunderna främst det lag spelaren tillhör, samt företag som sponsorer. För båda dessa parter är det av intresse att spelaren har ett starkt och välkänt varumärke vilket kan generera intäkter i form av sålda matchbiljetter, matchkläder och andra kringprodukter, eventuella framgångar för reklamkampanjer som involverar spelaren, etc. Ju starkare varumärke en spelare har desto färre alternativ finns det för kunderna att välja mellan, vilket ökar spelarens förhandlingsförmåga. Det är därför ytterst relevant huruvida en spelare utses till MVP då detta tenderar att öka efterfrågan bland kunderna. I grafen nedan syns till exempel hur spelare som utsetts till MVP de senaste åren i allmänhet fick betydligt högre intäkter från sponsorer året efter de vunnit i jämförelse med året innan.

Figur X: Sponsorintäkter för de fem senaste vinnarna av MVP i miljoner dollar. Året innan samt året efter de vann MVP.

2) Leverantörers förhandlingsstyrka

Även här är laget som spelaren tillhör den främsta

leverantören. De bättre spelarna kan i väldigt hög utsträckning välja vilket lag som de vill spela för och ges möjligheten att

exponeras sportsligt. Ju sämre spelaren är desto färre alternativ existerar vilket ökar förhandlingsstyrkan för spelaren. Att utses till MVP leder generellt till att fler lag intresserar sig för spelaren ur både ett sportslig och marknadsperspektiv. Kraften från leverantörerna är därmed relativt låg.

3) Substitut

När det kommer till basketlagen finns det inte många substitut då det endast är just basketspelare som är av sportsligt värde för dem. En given spelare har därför inga andra att förhålla sig till, annat än andra basketspelare. För företag och sponsorer finns det däremot flera substitut. Beroende på vad det är för slags företag kan det finnas fler sätt att marknadsföra sig själva än att associera sig med en basketspelare. Det går att välja utövare av andra sporter, andra individer med starka varumärken som inte alls utövar sport, eller helt andra reklamkampanjer som inte innefattar kända människor. Oavsett företagens val av marknadsföring är ett starkt varumärke hos NBA-spelare något som stärker deras position och förhandlingsstyrka gentemot företagen och öppnar upp för mer lukrativa samarbeten, något som följer av att en spelare utses MVP.

4) Konkurrens från nya aktörer

Då det endast utses en MVP per säsong i NBA är det ytterst svårt att komma som ny aktör och konkurrera med de spelare som tjänar allra bäst i ligan. Det är svårt dels ur ett sportsligt perspektiv då en spelare måste prestera i världsklass under en längre period, men också svårt att bli lika populär bland fans och slutkonsumenter utan att vara i topp sportsligt. För att stärka sitt personliga varumärke tillräckligt för att kunna konkurrera om de största pengarna krävs prestationer i världsklass på basketplanen. Bortsett från detta finns det inga egentliga trösklar eller annat som hindrar en individ från att konkurrera med etablerade aktörer på marknaden.

5) Konkurrens mellan befintliga aktörer

Konkurrensen mellan andra NBA-spelare är nog den kraft som påverkar spelares förhandlingsstyrka mest. Givet en spelare i den absoluta toppen av NBA finns det väldigt stor konkurrens mellan andra spelare och det är mycket subjektivitet som ligger bakom individers bedömning av spelarna samt vems varumärke som är starkare eller svagare. Det spelar roll vilket lag spelaren tillhör, hur spelaren ser ut och agerar i media samt hur spelaren presterar rent sportsligt

och det allmänna narrativet kring spelaren. Ett sätt för

spelare att särskilja sig från de andra i toppen är dock att utses till MVP och därmed sticka ut jämfört med andra bra spelare.

VII. Diskussion

Då resultatet av detta arbete går att mäta på flera sätt, och samtliga metoder har sina för- och nackdelar, är det viktigt att diskutera vilka sätt utvärderingsmetoder som är mest relevanta och ger mest rättvisande bild.

A. Diskussion kring utvärderingsmetoderna: 1) Naiv modell

Syftet med den naiva modellen var i grund och botten att undersöka om maskininlärning är nödvändigt och om det ger

14 6 12 14 20 35 12 35 19 17

(11)

en bättre förutsägelse än en mycket enklare modell. Den modell som användes hade kunnat se ut på flera olika sätt men då den inkluderades som ett simpelt alternativ valdes

statistiska mätetal som är lätta att begripa och som ofta diskuteras av basketintresserade. Modellen tog även hänsyn till antal spelade matcher för att på ett så enkelt sätt som möjligt ge en bild av magnituden av vilken spelaren bidragit till sitt lag under säsongen. Fördelen med denna modell är att den är väldigt lätt att förstå men den har desto fler

begränsningar. Dels förutsäger den inte poängfördelningen utan endast den inbördes ordningen, vilket gör att det inte går att ta fram R²-score eller MSE för den modellen. Den begränsade komplexiteten leder även till att den presterar sämre än de tre huvudmodellerna enligt de applicerbara utvärderingsmetoderna. Den naiva metoden är både sämst på att förutsäga MVP men även spelare som hamnar topp 3 eller topp 7. Trots den begränsade mängden data som går att utvärdera är en rimlig slutsats som kan dras att de tre maskininlärningsmodellerna är betydligt skickligare på att förutse ordningen på spelarna. Att ha i åtanken är att den naiva metoden troligen kan förbättras. Ett sätt skulle kunna vara att använda sig av avancerade statistiska parametrar. Processen att förbättra den naiva modellen är dock inte lika intuitiv som att applicera maskininlärningsmodeller och mycket hög kunskap om sporten är ett krav. Modellen är inte längre naiv och det är argumenterbart att det då är enklare att

implementera en maskininlärningsmodell.

2) R²-score / MSE:

Då samtliga modeller tränas och testas i samma sammanhang kommer det inte spela någon roll vilken skala som används. R-score och MSE kommer därför att kunna användas på samma sätt och det går att byta ut den ena mot den andra om det till exempel är av intresse att jämföra de olika algoritmerna med varandra. Fördelen med dessa utvärderingsmetoder är att de beskriver precisionen i hela förutsägelsen vilket ger en större provstorlek och blir därmed mer exakt om helheten står i fokus. Den beskriver hur långt från det faktiska antalet poäng som förutsägelsen hamnade, något som bland annat kan vara bra då det är väldigt jämt mellan flera spelare och det viktiga inte blir den inbördes ordningen.

Nackdelen med detta sätt att räkna är att det i praktiken inte är lika intressant med det som sker längre ned i listan, dvs de spelare som knappt får några poäng. I och med att det endast är ett fåtal spelare som tilldelas poäng och den absoluta majoriteten får noll poäng leder till att onödigt stor vikt riskerar att läggas vid dessa spelare när det är toppspelarna som är de enda relevanta.

I genomsnitt hamnar alla tre metoder på en R²-score på över 60% vilket kan tolkas som att över 60% av poängfördelningen kan förklaras av just den data och den modell som tagits hänsyn till i programmet. De övriga 40 procenten kan förklaras som en kombination av mänsklig oförutsägbarhet och annan data som är svårare att kvantifiera. I graferna för R²-score (figur VI) från de senaste 5–6 säsongerna blir det uppenbart att modellerna är mer precisa än tidigare år. Efter säsongen 2010–2011 håller sig samtliga metoder runt eller över 80% vilket tyder på att de ger bättre förutsägelser.

3) Förutsägelse av MVP:

Då det i mångas ögon är mest relevant vem som mottar allra flest röster och blir MVP går det att argumentera för att detta borde vara den utvärderingsmetod som tas mest hänsyn till. Problemet med detta är att det blir väldigt svårt att dra

slutsatser endast utifrån den då mängden datapunkter är ytterst begränsat (endast en MVP per säsong). Denna

utvärderingsmetod kommer därför endast ses som ett

komplement till R²-score, från vilken det är betydligt lättare att dra slutsatser. I grafen (figur V) för hur många korrekta gissningar respektive metod hade under de 14 senaste säsongerna som testades (SVR: 10/14=71,43%, KNN: 9/14=64,29%, RF: 7/14=50%) upptäcks en större variation. Enligt denna utvärderingsmetod är SVR och KNN betydligt bättre än RF. Det finns dock flera svagheter med detta sätt att utvärdera. Dels innebär en mindre provstorlek då endast 14 spelare testas för varje metod vilket minskar resultatets trovärdighet. Dessutom finns det en risk att för stor vikt läggs vid att få just dessa spelare rätt att det uppstår överanpassning, vilket innebär att modellen som helhet blir sämre för att överensstämma med godtyckligt valda kriterier.

Utvärderingsmetoden tar inte heller hänsyn till om det är väldigt jämnt mellan flera spelare i toppen. Under den praktiska fasen av detta arbete upptäcktes flera situationer där flera spelare hamnade på väldigt lika poängsummor och detta är något som denna metod inte tar hänsyn till.

4) Topp 3/ Topp 7:

Fördelen med att testa fler spelare i toppen än en enda är att utvärderingsmetoden inte längre är binär för varje given säsong. Det går exempelvis att gissa fel på vem som utses till MVP, då det kanske var jämt mellan de två första, utan att för den delen se modellen som misslyckad. Detta syns rätt tydligt om grafen för korrekt gissade MVPs (figur V) jämförs med graferna för korrekt gissade topp 3 och topp 7 (figur VI & figur VII). Det blir då tydligt hur stor skillnad det kan vara mellan olika säsonger i den första figuren samtidigt som det varierar betydligt mindre i de två senare. På det sättet är detta sätt att utvärdera mer förlåtande än att endast se till vem som blev MVP. En annan fördel med denna utvärderingsmetod jämfört med R²-score/MSE är att fokus fortfarande är på spelarna i toppen istället för att lägga mycket vikt vid spelare som är mindre relevanta. Utöver detta kan det vara en fördel att den faktiska poängsumman för varje enskild spelare inte spelar så stor roll, utan endast var de placerades i förhållande till andra spelare. Detta kan både vara mer förlåtande om det är jämnt mellan flera spelare men på samma gång kan problem uppstå då två spelare hamnar på varsin sida om till exempel topp 3 när det är väldigt jämnt mellan dem. Utöver detta går det att argumentera för att denna uppdelning i topp 3 och topp 7 är godtycklig och att annan uppdelning hade varit mer optimal.

B. Förbättringsområden för modellen:

När det kommer till vem som utses till MVP är det sportsliga kvantifierbara data som i allra högst utsträckning ligger bakom besluten hos de som röstar. Detta innefattar framför allt spelares individuella prestation och det är ovanligt att vinnaren inte ligger i topp vad gäller statistiska kategorier (flest poäng,

(12)

assist, etc.). Denna sorts data har tagits hänsyn till i den modell som utvecklats och är vad som ligger bakom en relativt hög precision. Däremot finns det andra aspekter som påverkar vilka spelare som får röster som är svårare att mäta och därmed svårare att ta med i en modell likt denna. Då det inte finns något entydig definition av vad det innebär att vara den “mest värdefulla spelaren” spelar den mänskliga faktorn in när det ska röstas. Alla ser på värdeskapande på olika sätt och som hemsidan FiveThirtyEight.com (som inriktar sig på

opinionsanalyser, politik, ekonomi och sport) uttryckte sig i sin podcast [27] handlar MVP-utmärkelsen väldigt mycket om “story telling” och inte bara om ren statistik. Vissa av dessa aspekter har tagits med i modellen, till exempel statistik om spelarens lagtillhörighet, antalet segrar samt hur laget placerade sig i tabellen. Detta är sådant som inte nödvändigtvis indikerar att en spelare är bättre men som tidigare nämnt har det visat sig vara högst relevant hur det går för laget när MVP ska utses. Utöver detta skulle det vara intressant att ta hänsyn till annan mer kvalitativ data, såsom prestation i viktiga matcher, hur spelaren leder laget och om det finns andra toppspelare i samma lag. Dessutom kan det allmänna narrativet kring spelaren påverka bedömningen. Har spelaren kommit tillbaka från en skada, gjort en av sina första säsonger i ligan eller börjar närma sig pensionen? Även huruvida spelaren är underhållande att se spela och om den kan bli ännu bättre kan påverka. Detta, med mera, har visat sig vara relevant när de som röstar diskuterar vem som förtjänar utmärkelsen men är svårare att mäta. Möjligen kan inhämtning av data som kan användas för att analysera dessa aspekter fås genom skrapning av tidningsartiklar eller sociala medier och på så sätt appliceras med en maskininlärningsmodell.

C. Förutsägbarheten hos MVP-röstningen:

Ses det till de resultat som arbetet genererade kan en del mönster uppmärksammas. Bland de de R²-scores och MSE som uppmättes för respektive säsonger syns det att

förutsägelsen tenderar att bli mer och mer precis ju för senare säsonger. De sämsta poängen åstadkoms för de tidigare säsongerna samtidigt som de bästa förutsägelserna gjordes för de senare. Samma tendenser blir uppenbara i vilken

utsträckning som algorittopmerna förutspådde MVP samt vilka som hamnade inom topp 3 och topp 7. För alla tre utvärderingsmetoder presterade algoritmerna bättre på de senare säsongerna och sämre på de tidigare. Allra störst var skillnaden när MVP skulle förutspås. Detta kan indikera att juryn som delar ut poäng inte resonerar på samma sätt som de gjorde förr. I och med att teknologin utvecklas och

organisationer spenderar mer och mer pengar på att få ett övertag är det oundvikligt att avancerad statistik inte blir en mer väsentlig del av NBA och aktörer som är engagerade i sporten. [28] Det gäller även att journalister och de som röstar på MVP idag har dels mer statistik att basera sina beslut på samtidigt som det även förväntas att de kan backa upp sina val på data. Det är alltså rimligt att kvantitativa data ger bättre förutsättningar att förutspå MVP idag jämfört med tidigare säsonger.

D. Arbetets relevans:

Trots de utvärderingar som utförts på modellen är det svårt att avgöra exakt hur precis den är och vilka effekter den skulle kunna få. Det kan dels vara värt att diskutera hur denna modell står sig mot människor insatta i NBA och deras förmåga att förutspå vem som utses till MVP. Även detta är svårt då det finns experter som har både större och lägre sannolikhet att ge korrekta förutsägelser. I ett scenario där modellen blir ännu mer sofistikerad och med högre träffsäkerhet lyckas ta hänsyn till rätt parametrar bör det även vara möjligt att förutspå event längre fram i tiden. Det skulle kunna utnyttjas av företag som vill samarbeta med spelare vars personliga varumärke kommer stärkas. Det skulle även kunna användas av NBA-lag som vill kontraktera spelare vars värde förutsägs kommer öka.

E. Slutsats

Syftet med detta arbete var att ta reda på med vilken precision det går att, med hjälp av maskininlärning, förutse

poängfördelningen och även vem som därmed utses till MVP. Metoden som utvecklades har utvärderats på flera olika sätt och resultatet visar bland annat att samtliga undersökta metoder förutsäger korrekt MVP i över 50% av fallen samtidigt som ett genomsnittligt R²-score på över 60% uppmätts. Det gick även att se att R²-score var runt eller över 80% de senaste säsongerna vilket indikerar att det blivit lättare med tiden, en trend som inte gett indikationer på att förändras. Även denna trend bekräftas av antalet korrekt förutspådda MVP:s var högre de senaste åren jämfört med de tidigare säsongerna. Därmed är en slutsats som dragits att det i hög utsträckning är möjligt att förutsäga en framtida MVP. En annan viktig slutsats är att samtliga maskininlärningsmetoder gav bättre resultat än den naiva metoden. Det finns därmed tydliga fördelar med att använda maskininlärning för att göra denna typ av förutsägelse, särskilt då det finns utrymme att skapa ännu mer komplexa modeller vilket lär öka precisionen ytterligare.

VIII. REFERENSER

[1] B. Ozanian, ”NBA Team Values 2019: Knicks on Top at $4 Billion,” 06 Feb 2019. [Online]. Available: https://www.forbes.com/sites/kurtbadenhausen/2019/02/

06/nba-team-values-2019-knicks-on-top-at-4-billion/#64b4794e6671. [Använd 10 Maj 2019]. [2] D. Smyth, ”US Sports Betting Revenue Tracker: States

Are Cashing In,” US BETTING, 18 April 2019. [3] Jackpot translation, ”Statista,” 05 Juni 2017. [Online].

Available:

https://www.jackpottranslation.com/2017/06/05/sports- translation-which-are-the-most-popular-sports-for-betting-around-the-world/. [Använd 20 Maj 2019]. [4] ”Legal Sports Report,” 2019. [Online]. Available:

https://www.legalsportsreport.com/sportsbetting-bill-tracker/. [Använd 16 Maj 2019].

[5] B. Adgate, ”Forbes,” 25 April 2018. [Online]. Available:

(13)

e-2017-18-season-was-great-for-the-nba/#2e6efd8e2ecb. [Använd 22 Maj 2019]. [6] Forbes, ”Forbes,” 2019. [Online]. Available:

https://www.forbes.com/nba-valuations/list/#tab:overall. [Använd 5 Maj 2019].

[7] A. Nathan, ” How the NBA MVP Voting Process Works, Announcement Date,” Bleacerreport, 14 April 2017. [Online]. Available:

https://bleacherreport.com/articles/2703746-how-the-nba-mvp-voting-process-works-announcement-date. [Använd 20 Februari 2019].

[8] Basketball Reference, ”NBA MVP & ABA Most Valuable Player Award Winners,” Sports Reference LCC, [Online]. Available: https://www.basketball-reference.com/awards/. [Använd 25 April 2019]. [9] W. contributors, ”NBA Most Valuable Player Award,”

Wikipedia, The Free Encyclopedia., 12 April 2019. [Online]. Available:

https://en.wikipedia.org/w/index.php?title=Special:Cite ThisPage&page=NBA_Most_Valuable_Player_Award &id=892132801. [Använd 20 Mars 2019].

[10] H. Egidius, ”Psykologi guiden,” [Online]. Available: https://www.psykologiguiden.se/psykologilexikon/?Loo kup=impulskontrollst%C3%B6rning,%20impulsst%C3 %B6rning. [Använd 20 Mars 2019].

[11] Basketball Reference, ”Glossary,” [Online]. Available:

https://www.basketball-reference.com/about/glossary.html. [Använd 22 Maj 2019].

[12] Basketball Reference, ”NBA Win Shares,” [Online]. Available:

https://www.basketball-reference.com/about/ws.html. [Använd 22 Maj 2019]. [13] Basketball Reference, ”Introducing Box Plus/Minus

(BPM),” 14 October 2014. [Online]. Available:

https://www.basketball-reference.com/about/bpm.html#vorp. [Använd 6 April 2019].

[14] N. &. S.-T. J. Cristianini, ”“Support Vector Machines,” in An Introduction to Support Vector Machines and Other Kernel-based Learning Methods, Cambridge: Cambridge University Press, 2000, pp. 93–124.”. [15] ”Scikit-learn: Machine Learning in Python, Pedregosa et

al., JMLR 12, pp. 2825-2830, 2011.”.

[16] ”Lameski P., Zdravevski E., Mingov R., Kulakov A. (2015) SVM Parameter Tuning with Grid Search and Its Impact on Reduction of Model Over-fitting. In: Yao Y., Hu Q., Yu H., Grzymala-Busse J. (eds) Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing.”. [17] G. Biau, ”Analysis of a Random Forests Model,”

Journal of Machine Learning Research, vol. 13, pp.

1063-1095, 2012.

[18] M. Porter, ”Competitive Strategy,” New York: Free

Press, 1980.

[19] M. E. Dobbs, ”Guidelines for applying Porter’s five forces framework: a set of industry analysis templates,”

Competitiveness Review, vol. 24, nr 1, pp. 32-45, 2014.

[20] E. Çene, ”What is the difference between a winning and a losing team: insights from Euroleague basketball,”

KB+ Bibsam Taylor & Francis Ssh + S&T Library 2018 Collection 2018-2020, vol. 1, nr 1, pp. 55-68,

2001.

[21] J. R. Landers och B. Duperrouzel, ”Machine Learning Approaches to Competing in Fantasy Leagues for the NFL,” IEEE Transactions on Games, vol. 11, nr 2, pp. 159-172, 2019.

[22] L. Yaldo och L. Shamir, ”Computational estimation of football player wages,” International Journal of

Computer Science in Sport, vol. 16, nr 1, pp. 18-38,

2017.

[23] P. Li, ”NBA MVP Prediction Model,” Towards Data Science, [Online]. Available:

https://towardsdatascience.com/nba-mvp-predictor-c700e50e0917. [Använd 27 April 2019].

[24] E. KHAN, ”Advanced NBA Stats for Dummies: How to Understand the New Hoops Math,” bleacherreport, 13 Oktober 2013. [Online]. Available:

https://bleacherreport.com/articles/1813902-advanced- nba-stats-for-dummies-how-to-understand-the-new-hoops-math#slide0. [Använd 15 Mars 2019].

[25] A. Bronshtein, ”Towards Data Science,” 17 Maj 2017. [Online]. Available:

https://towardsdatascience.com/train-test-split-and-cross-validation-in-python-80b61beca4b6. [Använd 20 Maj 2019].

[26] J. Brownlee, ”A Gentle Introduction to Learning Curves for Diagnosing Machine Learning Model Performance,” 27 February 2019. [Online]. Available:

https://machinelearningmastery.com/learning-curves-for-diagnosing-machine-learning-model-performance/. [Använd 05 Maj 2019].

[27] fivethirtyeight, ”The Stats Aren’t Sure That Giannis Should Be MVP,” 9 April 2019. [Online]. Available: https://fivethirtyeight.com/features/the-stats-arent-sure-that-giannis-should-be-mvp/. [Använd 20 April 2019]. [28] J. Ciolli, ”GOLDMAN SACHS: There's a fortune to be

made analyzing sports stats,” businessinsider, 13 Juli 2017. [Online]. Available:

https://www.businessinsider.com/goldman-sachs-sports-economy-analytics-statistics-2017-7?r=US&IR=T. [Använd 22 Maj 2019].

[29] K. I., ”Finding Common Characteristics Among NBA Playoff and Championship Teams: A Machine Learning Approach,” Cornell University, 2016.

[30] G. E.-N. A. M. A. &. E. S. Soliman, ”Predicting all star player in the national basketball association using random forest,” IntelliSys, 2017.

(14)

References

Related documents

Detta då en kund som skickat in varor till Sellpy och varit nöjd med resultatet både skulle kunna peka på att kunden i fråga kommer att komma tillbaka då den var nöjd med

Remissyttrande: Ändringar i lagstiftningen om sociala trygghetsförmåner efter det att Förenade kungariket har lämnat Europeiska unionen. Arbetsförmedlingen har beretts tillfälle

I promemorian Åtgärder för att mildra konsekvenserna på det sociala området vid ett avtalslöst brexitanges att 6 § lagen om sociala trygghetsförmåner efter det att Förenade

Genomgången av de förslag som läggs fram i promemorian och de överväg- anden som görs där har skett med de utgångspunkter som Justitiekanslern, utifrån sitt uppdrag, främst har

Samhällsvetenskapliga fakulteten har erbjudits att inkomma med ett yttrande till Områdesnämnden för humanvetenskap över remissen Socialdepartementet - Ändringar i lagstiftningen

Områdesnämnden för humanvetenskap har ombetts att till Socialdepartementet inkomma med synpunkter på remiss av Ändringar i lagstiftningen om sociala trygghetsförmåner efter det att

Sveriges a-kassor har getts möjlighet att yttra sig över promemorian ”Ändringar i lagstiftningen om sociala trygghetsförmåner efter det att Förenade kungariket har lämnat

- SKL anser att Regeringen måste säkerställa att regioner och kommuner får ersättning för kostnader för hälso- och sjukvård som de lämnar till brittiska medborgare i