Analys av prestations- och prediktionsvariabler inom fotboll

(1)

1

Analys av prestations- och

prediktionsvariabler inom fotboll

Kandidatuppsats, Statistiska institutionen, Uppsala Universitet

Marcus Ulriksson och Shahin Armaki

(2)

2

Sammanfattning

Uppsatsen ämnar att försöka förklara hur olika variabler angående matchbilden i en

fotbollsmatch påverkar slutresultatet. Dessa variabler är uppdelade i prestationsvariabler och kvalitétsvariabler. Prestationsvariablerna är baserade på prestationsindikatorer inspirerat av Hughes och Bartlett (2002). Kvalitétsvariablerna förklarar hur bra de olika lagen är. Som verktyg för att uppnå syftet används olika klassificeringsmodeller utifrån både

prestationsvariablerna och kvalitétsvariablerna. Först undersöktes vilka prestationsindikatorer som var viktigast. Den bästa modellen klassificerade cirka 60 % rätt och rensningar och skott på mål var de viktigaste prestationsvariablerna. Sedan undersöktes vilka prediktionsvariabler som var bäst. Den bästa modellen klassificerade rätt slutresultat cirka 88 % av matcherna. Utifrån vad författarna ansågs vara de viktigaste prediktionsvariablerna skapades en prediktionsmodell med färre variabler. Denna lyckades klassificera rätt cirka 86 % av matcherna. Prediktionsmodellen var konstruerad med spelarbetyg, odds på oavgjort och domare.

(3)

3

Innehållsförteckning

Sammanfattning ... 2 Introduktion ... 5 Syfte ... 5 Frågeställningar ... 5 Tidigare forskning ... 5 Metod ... 7 Metodval ... 7 Teori ... 9 Klassificering ... 9 Beslutsträd ... 10 Överanpassning ... 11 Bootstrapping ... 11 Bagging ... 12 Random forest ... 14 Adaoosting ... 16

Analys av väntesvärdesriktighet – balansgång med variansen ... 19

Bagging och Random Forest metoden sänker variansen ... 19

Adaboosting-metoden sänker biasen ... 21

(4)

4

Odds ... 25

Spelarbetyg ... 25

Ekvationsstruktur för prestationsvariabler ... 27

Ekvationsstruktur för prediktionsvariabler ... 27

Resultat och diskussion ... 28

(5)

5

Introduktion

Fotboll är en enkel sport att förstå och det är simpelt att utföra med tanke på låga krav när det gäller sportens utrustning. Fotboll är världens mest populära bollsport när det kommer till antalet utövare och åskådare. Det finns 250 miljoner fotbollsspelare i världen och det anses finnas 1,3 miljarder som är intresserade av sporten. Sammanlagt under matcherna i Fotbolls-VM 2010 tittades det totalt sett 26 miljarder gånger på tv-apparater världen över. (Brittanica, 2016)

Det stora intresset som kretsar kring fotboll gör det meningsfullt att på förhand försöka ta reda på hur en fotbollsmatch slutar. Att slå vad på matcher har kommit att bli en miljardindustri och det har utvecklat en ständig jakt på att tjäna pengar, dels för individer och för storskaliga företag. (Statista, u.å) Premier League är en världsomvälvande affärsverksamhet och är den mest populära fotbollsligan i världen med en tv-publik på 4,7 miljarder. (The Times, 2013) Med tanke på dess popularitet finns det också många tillgängliga verktyg och numeriska data som lämpar sig väl för statistiska undersökningar och analys.

Syfte

Syftet är att försöka förstå vilka variabler och egenskaper som har störst effekt när det

kommer till att nå fram till en korrekt prediktion på ett slutresultat i en fotbollsmatch. Tanken är att det ska ske med olika klassificeringsmodeller och testa vilken av dessa metoder som är bäst för att prediktera slutresultatet i fotbollsmatcher.

 Med de olika valda metoderna skall de viktigaste prestationsindikatorerna hittas

 Med de olika valda metoderna skall de viktigaste prediktionsvariablerna hittas

 Med det bästa prediktionsvariablerna skall en prediktionsmodell konstrueras

Frågeställningar

Frågeställningarna för denna uppsats är rättfram, baserat på syftet och tillgången till variablerna är dessa frågeställningar:

 Vilka är de viktigaste prestationsindikatorerna?

 Vilka prediktionsvariabler är bäst att prediktera med (antal mål uteslutet)?

 Hur presterar en prediktionsmodell med de viktigaste prediktionsvariablerna?

Tidigare forskning

Reep and Benjamin hävdar i en studie från 1968 att slumpen dominerade inom fotboll och huruvida en match slutade på ett visst sätt. Undersökningen försökte förklara skicklighet av ett fotbollslag med ett mått på hur framgångsrikt deras passningsspel var. Dock ledde inte ett framgångsrikt passningsspel till mål och vinster och ett lag som skapade fler målchanser behövde inte nödvändigtvis vara laget som vinner matchen. (Reep and Benjamin, 1968) En annan tidig studie av Hill (1974) försöker motbevisa och nyansera Reep och Benjamin slutsats. Studien hävdar att det inte endast beror på slumpen, utan istället att det finns inslag av både skicklighet- och slumpartade element som påverkar fotboll. Han samtycker med att det finns slump, framförallt i enskilda matcher, men resonerar att den slumpartade effekten inte har lika stor betydelse i det långa loppet, det vill säga över en hel säsong.

(6)

6

sluttabell skulle visa på samband mellan slutgiltiga sluttabeller i några utvalda fotbollsligor. Hill fann att det fanns ett samband och kunde på så sätt bevisa att fotboll inte endast är

slumpartat. Vilket då också gör prediktioner meningsfulla inom fotboll, om det finns samband att hitta. En studie av Maher (1982) lyckas sedan sammanfatta detta på ett bra sätt med

huvudtesen att tur är mer associerat under en enstaka match medan skickligheten lättare blir synlig under en längre period eller under en hel säsong.

En del av den tidigare forskningen kring prediktioner av fotbollsmatcher behandlar att antalet mål av ett fotbollslag i en fotbollsmatch följer en poissonfördelning eller en negativ

binomialfördelning. (Reep, Pollard, Benjamin 1971)(Maher 1982) Det fortsätter sedermera med att jämföra båda lagens förväntade antal mål och därefter se vilket lag som gör flest mål och då vinner matchen. Ett nyare forskningsområde är att tillämpa maskininlärningsmetoder för att förutspå om en fotbollsmatch slutar med hemmavinst, oavgjort eller bortavinst och därmed utelämna antalet mål. Trots utelämnandet av antalet mål erbjuder klassifikationerna utgången av matchen och därmed också vilken poäng ett lag ska få av respektive match. Detta räcker gott och väl för att bestämma om ett fotbollslag är mer framgångsrikt än ett annat fotbollslag i en fotbollsmatch men också seriespel.

(7)

7

Metod

Metodval

Ett vanligt tillvägagångsätt vid prediktioner på fotbollsmatcher är att låta antal mål ett lag kommer att göra vara den beroende variabeln. Modellerna försöker alltså att prediktera en siffra på hur många mål vardera lag gör. Med dessa prediktioner klassificeras ett slutresultat. I denna undersökning är antal mål inte av intresse. Istället kommer slutresultatet att

klassificeras direkt. Därför är det intressant att undersöka hur olika prestations- och kvalitetsvariabler relaterar till de olika slutresultaten, eller klasserna. Det finns olika klassificeringsmetoder för att hitta denna relation. Kumar (2013) använde sig av 20 olika regressionsmetoder med samma variabler för att sedan använda den bästa metoden som slutgiltig metod för att tolka relationen mellan spelarbetyg givna av Whoscored (2017) och de olika prestationsattributen för spelarna. På samma sätt har fyra klassificeringsmetoder valts som på ett eller annat sätt bygger på varandra för att klassificera relationen mellan de olika variablerna och slutresultatet. Den metod som presterar bäst kommer att användas som slutgiltig metod. Hur bra dessa variabler förklarar slutresultatet enligt den bästa metoden kommer att tolkas som hur betydelsefulla de är. Eftersom att en förändring i en specifik variabel och hur detta påverkar slutresultatet inte är intressant för undersökningen uteslöts linjära klassificeringsmetoder. Istället ligger intresset endast i hur stark påverkan variabeln har på slutresultatet. Exempelvis, om skott på mål är en variabel i denna undersökning, är det inte viktigt att veta hur en estimerad parameter ändras ifall ett lag har två skott på mål eller tre skott på mål. Hur stor påverkan en variabel har på slutresultatet är och hur denna kan användas för att prediktera slutresultat är mer intressant. Just därför används

(8)

8

I tabell 1 presenteras för- och nackdelar med de valda metoder.

Tabell 1 - En sammanfattning av för- och nackdelar för samtliga metoder

Fördelar

Nackdelar

Beslutsträd

Träden är visuellt bekväma och enkla att tolka Risken för överanpassning är hög

Det är möjligt att hantera kategoriska variabler Tenderar att ha mycket oförklarad variation Beslutsgränserna fungerar bra när de är parallella med

axlarna

Bagging

Reducerar variansen Svårt att visuellt tolka Kan hantera icke-linjär data

Random forest

Kan hantera icke-linjära samband Svårt att visuellt tolka

Kan hantera kategoriska värden Kan vara svårt att justera modellen till det korrekta Reducerar variansen jämfört med beslutsträd

Adaboosting

Enklare att tolka än bagging med tanke på att storleken på varje träd kan bestämmas, vilket skapar en samling av beslutsträd som kan tolkas som additiva modeller

Finns risk för överanpassning om för många iteartioner utförs

Kan hantera kategoriska värden Varje beslutsträd har låg varians och

(9)

9

Teori

Klassificering

Klassificering ämnar att tilldela olika objekt till en eller flera på förhand definierade kategorier. Detta kan göras på mängder av olika sätt med många olika metoder. Det som kännetecknar klassificeringen är att information bygger upp en klassificeringsmodell. Modellen syftar sedermera till att strukturera upp informationen och dela in den i klasser. Definition - I klassificering är uppgiften att lära upp en funktion. Informationen hjälper att bygga upp funktionen för att sedan kunna placera in objekten i de fördefinierade klasserna.

Informationen som ska bygga modellen kan både vara diskret och kontinuerlig. Däremot kräver en klassificeringsmodell att den beroende variabeln ska vara kategorisk. Denna förutsättning är det som skiljer klassificering från regression. I regression är den beroende variabeln kontinuerlig.

Klassificeringsmodeller kan användas både som beskrivande modeller och som predikterande modeller. En predikterande klassificeringsmodell är en modell som har för avsikt att förutspå vilken kategori en okänd observation ska tillhöra. Modellen ska automatiskt göra detta utifrån observationens och informationens olika egenskaper.

Varje klassificeringsteknik använder en upplärningsalgoritm som identifierar den mest lämpliga modellen som beskriver sambandet mellan informationen och kategorierna. Detta innebär att den genererade modellen både ska passa datan väl och korrekt kunna förutspå vilken kategori en, för modellen helt okänd, observation ska kategoriseras som. Detta innebär att avsikten för algoritmen är att bygga modeller som har en god generaliseringsförmåga. Det vill säga, modeller som kan kategorisera okända observationer. De flesta

klassificeringsalgoritmer strävar efter modeller som når flest antal rättklassificerade objekt. En förutsättning för att bygga en klassificeringsmodell är att den måste få öva. Det görs genom att modellen tränas upp med redan kända observationer med kända kategorier. Efter detta kan modellen ta sig an okända observationer. Utvärderingen av hur en

klassificeringsmodell presterar är baserad på hur många okända observationer den lyckas förutspå rätt respektive fel. Detta brukar åskådliggöras med en matris som summerar informationen.

1 2 3

1 11 21 31

2 12 22 32

3 13 23 33

Figur 1 - Visuellt exempel av hur information från en klassificeringsmodell kan sammanfattas. Grönt är rättklassificerat och rött är felklassificerat.

(10)

10

Informationen från matrisen kan brytas ner i ännu mindre beståndsdelar för att lättare kunna jämföra modellen med en annan. Detta går att göra med olika prestationsmått, nedan

åskådliggörs två av de mest simpla:

(3) (4)

(Tan, Steinbach, Kumar, 2006)

Beslutsträd

Det finns många olika klassificeringstekniker. En av dessa är beslutsträd som är en mycket användbar klassificeringsmetod. Beslutsträdet leder fram till en slutgiltig kategori genom att ställa olika frågor angående observationernas egenskaper. Detta går att åskådliggöra med ett träd där trädens grenar slutligen leder till en kategori. Det talas om tre olika beståndsdelar av beslutsträd. Dessa är:

 Rotnod – Roten i trädet vilket också är första frågan och det första beslutet som ska tas gällande observationen som ska klassificeras.

 Inre nod – Noder i trädet som varken är den första noden eller någon av lövnoderna. Dessa kopplar ihop roten med löven.

 Lövnod – Det slutgiltiga målet för beslutsträdet och det är här den slutgiltiga kategorin nås.

Rotnoden och de inre noderna innehåller olika testvillkor för att separera observationer med olika egenskaper från varandra.

Figur 2 - Exempel på ett beslutsträd

(11)

11

exponentiellt stora undersökningsområdet. Algoritmer har utvecklats med hänsyn till detta för att kunna skapa beslutsträd med rimlig pricksäkerhet under mer tidsmässigt resonliga former. Beslutsträd försöker att besvara huruvida datan ska delas upp. Varje steg i processen måste ha ett egenskapstest där observationerna delas upp i mindre delar. Det måste också finnas en metod där den kan specificera hur uppdelningen av en variabel ska gå till och likaså ett objektivt verktyg som kan utvärdera hur bra denna uppdelning blir. Ytterligare en fråga som trädet bör besvara är när uppdelningen bör ta slut. Det är möjligt att fortsätta tills alla

observationer är korrekt klassade alternativt att de har identiska egenskaper. Problemet med detta är dock att ett träningsträd som inte har en god generaliseringsförmåga riskerar att hamna i ett fenomen kallat överanpassning. (Tan, Steinbach, Kumar, 2006)

Överanpassning

En överanpassad modell sker när modellen passar träningsdatan bättre än vad den passar testdatan. Det är ofta möjligt att helt och hållet bygga en klassificeringsmodell som passar träningsdatan perfekt. Problemet med det är dock att då passar modellen sällan bra

tillsammans med ny och okänd data.

Träningsfel – Antalet felaktiga klassifikationer i träningsdatan

Generaliseringsfel – är det förväntade antalet fel av modellen på de okända observationerna. En bra modell kännetecknas av både lågt träningsfel och lågt generaliseringsfel. Om tränings- och generaliseringsfelet är stora och beslutsträdet är litet kallas det istället för att modellen är underanpassad. Risken för överanpassning ökar när trädet blir mer komplext och större. Av denna anledning föredras mindre beslutsträd och modeller. (Tan, Steinbach, Kumar, 2006) För att möjliggöra bättre modeller går det att producera fler träd och summera all information träden tillsammans skapar. För att förstå det tillvägagångsättet är bootstrapping en

nyckelförutsättning.

Bootstrapping

Om det finns en okänd fördelningfunktion för en population som kallas och ett stickprov av tas från den populationen. Då går det att se på stickprovet som en mängd av oberoende slumpmässiga observationer från och där parametern ska studeras. Eftersom är en funktion av de oberoende slumpmässiga observationerna från leder detta till att det finns både en sannolikhetsfördelning och en stickprovsfördelning. Dessa är båda bestämda av och av funktionen för . Det går inte att anta någonting om den här fördelningen med tanke på att är okänd, förutom den del som kommer från stickprovet. Om fördelningen av stickprovet är av intresse kommer det att stötas på problem. Om fördelningen var känd skulle det vara möjligt att göra antaganden angående stickprovsfördelningen. Om hade varit normalfördelad skulle det vara möjligt att skatta och då kunna dra statistiska slutsatser angående . Dock är, i de flesta verkliga situationer, en komplicerad funktion som är svår att hitta fördelningen för och att göra detta skulle överstiga den mänskliga analytiska förmågan.

Det som istället görs vid en icke-parametrisk bootstrap är att simulera data från den

(12)

12

som är slumpmässigt simulerad med återläggning från stickprovet

där varje observation har samma sannolikhet att bli vald. Varje uppsättning stickprov kallas där är det totala antalet bootstraps. Om

beräknas medelvärden och standardavvikelser för med följande ekvationer:

(5)

(6)

Vid simulering från stickprovet, med ett förväntat medelvärde , med en förväntad

standardavvikelse av och genom den centrala gränsvärdessatsen, simuleras ett stort antal

. Då borde vara det förväntade medelvärdet för en normalfördelad fördelning med en

förväntad standardavvikelse .

Förutsatt att det är en situation med två små stickprov med okända fördelningar från en population och båda stickproven kommer från samma fördelning. Om då medelvärdena studeras från de två stickproven kommer den okända fördelningen att skapa problem. Att använda ett t-test för det lilla stickprovet med den okända fördelningen vore inte en bra idé med tanke på att t-testet antar någon form av normalfördelning. Att dra någon statistisk slutsats av ett sådant test för datan vore inte lämpligt. Det här är ett fall där bootstrapping skulle kunna tillämpas. Att använda metoden för de båda stickproven skulle ge två normala fördelningar kring det förväntade medelvärdet och ett t-test skulle kunna tillämpas.

I vissa fall skulle bootstrapping kunna vara bättre än asymptotisk parameterskattning. Dock finns det flertalet motsägelsefulla argument mot metoden, nämligen att den skulle kunna ge inkonsistenta skattningar av parametrarna. (Hastie, Tibshirani, Friedman, 2009) Ett

tillämpningsområde för bootstrap-metoden är att bygga ett beslutsträd för varje bootstrap. Ett samlingsnamn för dessa typer av modell är ensemblemodeller.

Bagging

Baggingtekniken bygger på bootstrapping-metoden. I förra avsnittet behandlades hur den användes för att kunna göra mer noggranna skattningar för olika parametrar. I det här avsnittet kommer metoden att användas för att göra bättre skattningar för de faktiska prediktionerna. Idén bakom bagging-tekniken är att lära upp många enskilda klassificerare med bara delar av datan. Resultaten kommer sedan att kombineras för att minska risken för överanpassning i stickprovet som modellen har tränats med.

Om data representeras av: och är intresserade av för ett värde av . När bagging-metoden används startar processen med att olika

(13)

13

utvalda observationer med återläggning väljas från för att skapa ett beslutsträd. Om varje beslutsträd , där representeras av det :te bootstrap-stickprovet, skulle den slutgiltiga prediktionen vara det vägda snittet av varje beslutsträdsprediktion som ges av:

(7)

Det vanligaste är att en sådan ensemblemodell inte är uppbyggd av hela datasetet utan istället av en del av datasetet. Detta kallas träningsdata. När ett bag tas för att konstruera ett beslutsträd byggs det på ett stickprov . Där är en förutbestämd delmängd av

träningsdatan.

Det skulle vara möjligt att utföra en multipel linjär regression på datan för att få en

genomsnittlig modell. Skillnaden mellan bagging och en multipel linjär regressionsmodell är bland annat att en baggingmodell också kan anpassa sig till icke linjära dataset. Om datasetet är linjärt gäller följande:

när, . (8)

Om datasetet är linjärt är inte bagging rätt metod att tillämpa. Bagging är mestadels använt för att minska variansen, mer om det på sida 19. Metoden ökar inte modellens predikterande förmåga utan istället ser den till att prediktionen går mot det förväntade. Detta är vad som händer när stycken beslutsträd med hög oförklarad variation men nästan helt

(14)

14

Figur 3 - Figur som ger en visuell beskrivning på hur bagging-proceduren utförs

(Odacity 2016)

Random forest

De föregående avsnitten som behandlar beslutsträd, bootstrapping och bagging är nödvändiga för att förstå sig på random forest-metoden. Den liknar i hög grad bagging-metoden men istället för att använda samtliga variabler använder random forest-modellen ett antal slumpade variabler.

(15)

15

Random forest-metoden kan användas för att prediktera både numeriska och kategoriska värden. I fallet med numeriska prediktioner används följande ekvation:

(9)

I fallet med kategoriska värden används följande modell:

(10)

För att fortsätta förklara ekvation (10) går det att exemplifiera detta med en situation där det finns två klasser som ska klassificeras. Då är förväntningen att en av klasserna som ska

klassificeras, är snittet av den kumulativa summan för att just den klassen ska bli vald bland stycken prediktioner.

(16)

16

Figur 4 - Figur som ger en visuell beskrivning på hur random forest-proceduren utförs

Adaboosting

Adaboosting är en repeterande process, precis som bagging- och random forest-metoden. Den huvudsakliga skillnaden mellan bagging och adaboosting är att inom bagging väljs

observationerna slumpmässigt med samma sannolikhet och med återläggning. Med adaboosting frångås det konceptet och istället väljs inte alls observationerna med

(17)

17

Enklast är att grafiskt visualisera detta. Förutsatt att det finns data med två klasser och tio stycken observationer som fördelar sig på följande sätt (figur 5):

Figur 5- Adaboostexempel 1, observationer

Adaboosting-modellen inleder med att klassificera datan på enklast möjliga sätt. Detta sker helt utan vikter på alla observationer. Beslutsträdet skulle då kunna visualiseras på följande sätt:

Figur 6 - Adaboostexempel 2, inledande itearation

Ovan har datan blivit uppdelad i två (figur 6). Varje observation till höger om linjen(rött område) kommer att klassificeras som cirkel och observationerna till vänster om linjen(blått område) kommer att klassificeras som stjärnor. I exemplet går det att utläsa att tre

observationer har klassificerats fel. Två stycken cirklar har klassificerats som stjärnor och en stjärna har klassificerats som en cirkel.

(18)

18

Figur 7 - Adaboostexempel 3, Nästkommande iteration

Med detta tillvägagångssätt skulle -modellen kunna se ut på ovanstående sätt. Med hänvisning till figur 7 är nu istället två av de nyligen viktade cirklarna korrekt klassificerade. Dock har tre nya cirklar istället blivit felaktigt klassificerade som stjärnor. I ett efterföljande beslutsträd skulle istället dessa observationer bli viktade. Denna iterativa procedur repeteras stycken gånger, . Anledningen bakom detta är att skapa en rad olika svaga

klassificerare som tillsammans ska kunna klara av att dela in mer komplex data in i olika klasser.

Den slutgiltiga prediktionen för varje klass kommer att bestämmas av hur många gånger varje observation har klassificerats inom respektive klass när olika variabelvärden stoppas in i de olika beslutsträden. I slutändan kommer processen att välja den klassen som har förekommit flest gånger, denna röstas fram med en förknippad vikt till vardera röst.. Då följer det att funktionen ser ut på följande sätt:

(11)

I ekvation (11) beskriver hur stor vikt som är knuten till vardera beslutsträd i

ensemblemodellen. Den här vikten är en direkt konsekvens till andelen felklassifikationer för det konstruerade beslutsträdet.

Inledningsvis är det inga vikter fördelade över observationerna. Det första beslutsträdet skapas med observationer från och de observationer som är svårklassificerade blir viktade med en vikt . De svårare observationerna får en högre vikt och de som är korrekt klassificerade får lägre vikter. Detta innebär att varje steg för är beroende av föregående beslutsträd

(19)

19

(12)

Med en känd andel felklassifikationer från föregående beslutsträdet går det att vidare beräkna vikterna för nästa beslutsträd:

(13)

När vikterna för beslutsträdet är kända är det möjligt att fortsättningsvis fördela vikterna för de observationerna som var svårare att prediktera:

(14)

För varje steg kommer vikterna för varje observation förändras med hänsyn till ekvation (14). (Hastie, Tibshirani, Friedman, 2009)

Analys av väntesvärdesriktighet – balansgång med variansen

För att förstå varför dessa ensemblemodeller fungerar som de gör bör hänsyn tas till väntevärdesriktighet och variansavvägning:

Där

(15)

Enligt varians- och väntevärdesriktighetsavvägningen kan endast det förväntade kvadratfelet sänkas ifall eller i ekvation (15) sänks. (Hastie, Tibshirani och Friedman, 2009)

Ensemblemodeller tacklar detta problem på olika sätt. Bagging- och random forest-metoderna har låg bias och sänker variansen per iteration medan adaboost-metoden har låg varians och sänker biasen per iteration. Det innebär att ifall bagging- eller random forest-metoderna förklarar den beroende variabeln bäst är det en indikation på att de förklarande variablerna har låg bias och hög varians. Ifall adaboost-metoden förklarar den beroende variabeln bäst är det en indikation på att de förklarande variablerna har hög bias men låg varians.

Bagging och Random Forest metoden sänker variansen

Som tidigare nämnt, går det att utgå från stycken stickprov och dessa bygger stycken beslutsträd. Eftersom varje stickprov är likafördelade förväntas varje träd att ha lika

(20)

20

kommer vara identiska för varje enskilt träd. Eftersom väntevärdesriktigheten är densamma för alla beslutsträd innebär det att det enda som potentiellt kan förändra det förväntade kvadratfelet är variansen.

Med tanke på att det har bootstrappats många beslutsträd infaller risken att träden ska korrelera med varandra. Detta är något som bör tas hänsyn till. Förutsatt att varje prediktion av har samma varians , och att två prediktioner har korrelationer

. Den förväntade variansen för en random forest-modell ges av följande ekvation:

(16)

(Hastie, Tibshirani, Friedman, 2009)

(21)

21

Eftersom antalet använda variabler för att bagga varje träd är någonting som är av intresse, med tanke på effekten det har på variansen, finns det några tumregler att följa när en random forest ska anpassas.

 När den beroende variabeln är kategorisk är det standard att använda sig av antalet variabler och låta den minsta nodstorleken vara ett.

 När den beroende variabeln är numerisk är det standard att använda sig av antalet variabler och låta den minsta nodstorleken vara fem.

(Hastie, Tibshirani, Friedman, 2009)

Adaboosting-metoden sänker biasen

Efter det inledande beslutsträdet är skapat är resterande beslutsträd i ensemblemodellen skapade baserat på föregående beslutsträd. Beslutsträden är då skapade baserade på viktade observationer. Just eftersom att varje svag klassificerare är byggd på viktade observationer har den högre bias. Denna bias sjunker när flera iterationer utförts då det betyder att alla

observationer blivit viktade någon gång. Eftersom att observationerna är viktade baseras varje svag klassificerare på få observationer som är lika. Därför har varje svag klassificerare låg varians.

Betydelsen av variablerna

(22)

22

Data

Datainsamling

Undersökningen är en kvantitativ undersökning. Datan består av 380 observationer, vilket är samtliga matcher under Premier League säsongen 2015/2016. En observation innehåller information angående både hemma- och bortalagets olika prestationer i en specifik match. Datan är insamlad på olika sätt, dels genom färdig data och dels genom manuell insamling av vissa specifika variabler. Den färdiga datan kommer från Github (2016) och

Football-data.co.uk (2017). Båda dessa datamaterial innehåller information som är grundläggande när en fotbollsmatch ska sammanfattas med numerisk data. Det är svårt att få information

angående hur den färdiga data har hämtats in och detta leder till att det är svårt att försäkra sig om att denna data är fullständigt korrekt.

För att konkretisera den grundläggande datan ytterligare har det också samlats in än mer avancerad data. Detta krävde manuell insamling för att kunna få tillgång till önskvärd data. Den manuella insamlingen skedde på Whoscored (2017) som är en populär fotbollshemsida som presenterar en mängd information och statistik för flera fotbollsligor. Hemsidan hämtar sin detaljerade statistik från Opta sports som samlar stora mängder statistik för olika sporter. Opta offentliggör inte sin statistik utan säljer den till bettingsidor, medieföretag eller hemsidor som just Whoscored.

Whoscored betygsätter varje spelare enligt en algoritm som de inte offentliggör. Det finns undersökningar som förklarar vilka spelarattributer som påverkar denna algoritm (Kumar, 2013). Från Whoscored gick det också att ta reda på positioneringen för olika händelser. Positioneringen behandlades genom att dela in händelser i olika utformade zoner som var förutbestämda. Detta för att kunna summera prestationsvariabler ur en fotbollsmatch än mer specifikt. Den manuellt insamlade datan förlitar sig på det mänskliga ögat, vilket gör detta till subjektiv data. Detta innebär att det också kan innehålla fel i insamlandet av denna data. Allt som allt, fanns det tillgång till 39 variabler som hjälp att beskriva en fotbollsmatch.

Datahantering

I tidigare studier är ett vanligt tillvägagångssätt att använda sig av vad som rent allmänt kallas för ”Förväntat antal mål”- och ”Förväntat antal insläppta mål”-modeller. Dessa modeller predikterar hur många mål som förväntas göras och släppas in av vardera lag. Således går det att prediktera hemmavinst, bortavinst eller oavgjort. Dessa modeller brukar inte nödvändigtvis ta hänsyn till mycket mer än hur många mål ett lag har gjort och släppt in i tidigare matcher. Men det är mycket mer än antal gjorda mål per lag som sker i en fotbollsmatch. Denna undersökning ämnar att undersöka variabler som förklarar slutresultat med antal mål exkluderat.

Enligt Hughes & Bartlett (2002) är fotboll en invasionssport. Det invasionssporter har gemensamt är att dess prestationsindikatorer i stort sett ser likadana ut. En

(23)

23

Hughes & Bartlett (2002) förklarar också att invasionssporter har olika subgenrer. Av dessa subgenrer är sporten fotboll definierat som en målbegivande sport. Prestationsindikatorerna för denna subgenre är mål, passningar, tacklingar, skott, bollinnehav, positionering, fasta situationer och annat.

Figur 8- Figur som beskriver vilka prestationsindikatorer som påverkar framgång(Hughes & Barlett, 2002)

I figur 8 går det att utläsa vilka prestationsindikatorer som påverkar framgång enligt Hughes och Bartlett (2002). Dessa prestationsindikatorer har valts som förare för de oberoende variablerna. De variablerna kommer då att förklara prestationsindikatorer som i sin tur kommer att förklara framgången för lagen i matchen. Hädanefter kommer vad som allmänt kallas för prestationsvariabler att vara variabler som direkt eller indirekt förklarar något av dessa prestationsindikatorer.

Prestationsvariabler

När det är känt vilka prestationsindikatorer som förklarar framgång väljs variabler för att förklara prestationsindikatorerna i de 380 spelade matcherna i Premier League. Enligt figur 8 är följande prestationsindikatorer nyckeln till framgång och nedan följer variablerna som ämnar att mäta dessa:

Mål

Detta är den enda prestationsindikatorn som kommer att ignoreras helt och hållet. Modellerna ska inte ha någon känsla för antal gjorda mål under matchen utan kunna prediktera

(24)

24 Passningar

Prestationsindikatorn passningar förklaras av andelen rätt slagna passningar. Tacklingar

Tacklingar går att förklara med variabler från olika försvarsinsatser. Av prestationsvariablerna bli antal rensningar och antal blockade skott de variablerna som ska förklara

tacklingsindikatorn. Skott

Både skott och skott på mål är variabler som det finns förklaring i ifall ett lag vinner, förlorar eller spelar oavgjort. (Peñas, Ballesteros och Rey 2011) (Peñas, Lago-Ballesteros, Dellal och Gómez, 2010) I de mest simpla undersökningar tas inte hänsyn till vilket avstånd och vilken vinkel som avsluten är tagna ifrån. Alltså kommer modellerna att ge samma vikt till alla avslut. Deb och Dey (2017)förklarar hur avstånd och vinkel påverkar sannolikheten att ett avslut går i mål. Deb och Dey använder skottavstånd och skottvinkel som numeriska variabler som förklarar avstånd i meter och vinkel i antal grader. I denna uppsats har skotten istället delats upp i fem zoner som baseras på Deb och Dey’s undersökning men kommer alltså att ha en annan utformning. Den sista variabeln som kommer att förklara skott som indikator är antalet stora chanser ett lag har skapat under en match. Detta baseras på hur Whoscored (2017) har värderat chanserna.

Bollinnehav

Bollinnehavet är en variabel som signifikant beter sig annorlunda beroende på resultatet i matchen (Lago, Carlos & Martin, Rafael, 2007). Lag som ligger under har en tendens att ha högre bollinnehav än lag som leder eller ifall matchen är ett oavgjort resultat. Dessutom tenderar fotbollslag att ha högre bollinnehav på hemmaplan.

Positionering

Positioneringen i undersökningen mäts med en spelstilsvariabel. Denna är utfärdad genom en klusteranalys där lagen har delat upp sig i tre olika kluster. Klusteranalysen utfördes av författarna i ett tidigare opublicerat arbete. Denna variabel kommer att agera som en nominal variabel med tre olika kategorier beroende på vilket av de tre klustren respektive lag har kategoriserats inom.

Fasta situationer

De fasta situationerna mäts med hur många hörnor hemmalaget och bortalaget har fått i matcherna och hur många straffsparkar de båda lagen har fått.

Annat

Den sista prestationssindikatorn samlar de sista variablerna som inte hör hemma i någon annan indikator. Variablerna antalet röda kort och antalet offside är variabler som har kategoriserats in under annat.

(25)

25

lag den potentiellt valda domaren håller på och ifall den potentiellt valda domaren ska döma matcher på internationell nivå inom snar framtid (Premier League, 2016). Totalt har 19 domare dömt matcher under säsongen (tabell 2).

Tabell 2 - Antal matcher varje domare har dömt under Premier League-säsongen 2015/2016

Domare Antal matcher Domare Antal matcher

Marriner 24 Clattenburg 29 Taylor 31 Dean 26 Pawson 28 Jones 33 Scott 4 Oliver 28 Moss 25 Swarbrick 18 Friend 2 Tierny 4 Stroud 20 East 26 Mason 22 Madley 25 Atkinson 30 Attwell 1 Hooper 4

Lagkvalité

Odds

Som ett hjälpmedel till prestationsvariablerna har också hur bra lagen är försökts att mäta. För att mäta ett lags kvalité har oddsen innan den aktuella matchen tagits del av. Denna

information ger modellen en känsla för hur bra lagen är på förhand. Spelarbetyg

Ytterligare information om de aktuella prestationerna i en match från respektive spelare ges av spelarbetygen. Betygen kommer från whoscored.com (2017) som har betygsatt varje spelares prestation under en match. Spelarbetygvariabeln är ett snittbetyg på startelvan och de inbytta spelarna i vardera lag efter matchen och är producerad av whoscored.com (2017). De använder sig av en formel som de inte offentliggör för att beräkna detta betyg. Med 116, 63 och 174 spelarattributer för försvars-, mittfälts- och anfallspositioner har Kumar(2013) gjort modeller som predikterar spelarbetygen rätt för respektive positioner med 84 %, 82 % och 83 % säkerhet. (Kumar2013)

(26)

26

Prestationsvariabler

Variabler

Beskrivning

Passning

Rätt slagna passningar En procentandel som förklarar hur många av de slagna passningarna i en match som når sitt avsedda mål.

Tacklingar

Blockade skott Antal gånger ett avslut av motståndarlaget blockas av försvarande lag

Antal rensningar Antal gånger det försvarande laget rensar bollen. En rensning förekommer då det försvarande laget sparkar iväg bollen för att få bort den från en målfarlig situation.

Skott

Antal skott från olika zoner

En fotbollsplan är uppdelad i fem zoner. Zon ett är allmänt känd som målgården och är en delmängd av straffområdet, denna zon är blåmarkerad i figur 2. Resterande områden i straffområdet är uppdelade i två zoner. Zon två är markerad med röd färg. Zon tre är uppdelad i två områden och är spegelbilder av varandra. Denna zon är markerad med gul färg. Zon fyra ligger centralt och utanför straffområde men halvcirkeln är beräknad som en delmängd för denna

zon. Denna zon är lika bred (lodrätt i figuren) som zon ett och två. Tillsammans är zon ett, två och fyra de

centrala zonerna. Zon fyra är svart markerad. De gröna, icke-markerade områdena är tillsammans definierade som zon fem. Detta gäller också skott från egen planhalva fastän den delen inte är med i figur 2. Dessa zoner var konstruerade innan genomgången av alla matcher, antal avslut var visuellt noterade av författarna och uppdelade in i dessa zoner.

Totalt antal skott Det totala antalet skott ett lag skjuter per match

Totalt antal skott på mål Det totala antalet skott ett lag skjuter som träffar mål per match Totalt antal missade skott

Totalt antal stora chanser

Det totala antalet skott ett lag skjuter som missar mål per match

Det totala antalet skott, klassificerade som stora chanser enligt Whoscored (2017)

Bollinnehav

Bollinnehav Andelen tid ett lag har haft bollen inom laget per match

Positionering

Spelstil En kategorisk variabel med tre olika klasser som förklarar olika spelstilar för lagen

Fasta situationer

Hörnor Det totala antalet hörnor ett lag får per match Straffar Det totala antalet straffar ett lag får per match

Annat

Röda kort Det totala antalet ett röda kort ett lag får per match Offside Det totala antalet offside ett lag förorsakar per match

Domare En kategorisk variabel för respektive domare som har deltagit i matchen

Kvalitétsvariabler

Odds

Odds på hemmavinst Det givna oddset av Bet365 innan matchstart på att hemmalaget vinner matchen Odds på oavgjort Det givna oddset av Bet365 innan matchstart på att matchen slutar oavgjort Odds på bortavinst Det givna oddset av Bet365 innan matchstart på att bortalaget vinner matchen

Spelarbetyg

Spelarbetyg Betygen kommer från Whoscored (2017) som har betygsatt varje spelares prestation under en match och sammanfattat det till ett genomsnitt inom respektive lag.

Bästa spelare Bästa målskytt

Dummyvariabel som tar hänsyn till om lagets bästa spelare startade eller inte. Dummyvariabel som tar hänsyn till om lagets bästa målskytt startade eller inte

(27)

27 Ekvationsstruktur för prestationsvariabler

För att få en djupare inblick på vad som egentligen sker under en match används prestationsvariabler för att förklara framgången för ett fotbollslag. Ju mer detaljerat

prestationsindikatorerna är förklarade via prestationsvariablerna desto bättre bör modellerna bli. (ekvation 17) Ekvationsstruktur för prediktionsvariabler

I ekvation 18 används samtliga variabler

(28)

28

Resultat och diskussion

Syftet med undersökningen är inte att ta reda på vilka prestationsindikatorer eller vilka prestationsvariabler som är mest betydelsefulla under säsongen 2015-2016. Tanken är att snarare mer generellt ta reda på hur mycket de påverkar en fotbollsmatch. Dock bör försiktighet vidtas med att övergeneralisera resultaten över allt för stora tidsramar.

Då data är tillgänglig över hela säsongen kan överanpassning av modellen komma att bli ett problem. Därför delas datan upp i ett tränings- och testset. Uppdelningen av observationerna består av 75 % träningsdata och 25 % testdata. När beslutsträdet och de tre

ensemblemodellerna byggs konstrueras de med information från träningsdatan. Dock gäller ifall andelen felklassifikationer minskar på träningsmodellerna behöver inte det betyda att andelen felklassifikationer kommer att minska för testdatan. Det är möjligt att justera ensemblemodellernas iterationsantal och bootstrapandel för att sänka andelen

felklassifikationer. Målet med dessa modeller är att hitta den underliggande relationen som de oberoende variablerna har med den beroende variabeln. Ifall ensemblemodellerna överjusteras kommer de och beslutsträdet att försöka förklara den oförklarade variationen. Detta leder till att ensemblemodellerna och beslutsträdet blir överanpassade. Därför innebär det att modellen med lägst andel felklassifikationer i testdatan anses vara den bästa modellen.

De fyra valda metoderna som ska klassificera slutresultat i fotbollsmatcher och betydelsen av de olika prestationsindikatorerna är beslutsträd, bagging, random forest och adaboosting. Inledningsvis ska den bästa metoden av dem fyra väljas. Den bästa modellen definieras som den modell som har högst antal rättklassificerade matchresultat i testdatan.

När den bästa modellen erhållits kommer fortsättningsvis undersökningen att ta reda på vilka variabler som är viktigast för att förutspå hemmavinst, oavgjort eller bortavinst. Detta görs med måttet medelminskningen av de korrekt klassificerade observationerna för varje iteration. Prestationsindikatorernas betydelse kommer att tolkas som hur bra eller dåliga de är på att diskriminera slutresultatet i en match.

Prestationsvariabler

Det är olika parametrar som skall justeras för de olika ensemblemetoderna. Både bagging och random forest-metoden är ensemblemetoder som baseras på bootstrapping, vilket betyder att vid varje iteration slumpas en delmängd av träningsdatan för att bygga ett beslutsträd. Denna andel justerades till 60 %. Olika storlekar på denna andel testades men ledde inte till något förbättrat resultat.

För random forest-metoden är , där är det totala antalet variabler, rekommenderat som antalet slumpade variabler som ska bygga ett träd. I detta fall är , vilket avrundades till 6 stycken slumpade variabler. Om värdet på är för högt kommer träden att korrelera vilket leder till att variansen för ensemblemodellen ökar. Bagging-metoden använder variabler, alltså samtliga 37 prestationsvariabler.

(29)

29

Denna iteration väljs sedan som slutlig iterationspunkt för ensemblemodellen. I Figur 9 presenteras andelen felklassifikationer för adaboosting-metoden. Adaboosting-metoden är lite annorlunda gentemot bagging och random forest. Målet med ensemblemodellerna är att de ska sänka andelen felklassifikationer omgående för varje extra iteration. Adaboosting-metoden har en låg varians då den är uppbyggd på många svaga och viktade klassificerare. Istället får den lägre väntevärdesriktighet men att väntevärdesriktigheten ökar omgående för varje extra iteration.

Figur 9 - Figur som beskriver andelen felklassifikationer för varje iteration för ensemblemetoderna. Notera att Y-axlarna är olika stora och i random forest-metoden (uppe till vänster) är den svarta linjen den som representerar andelen

felklassifikationer.

I figur 9 visar det sig att adaboost-metoden presterar som bäst vid 55 iterationer. Fastän väntevärdesriktigheten ökar i träningsmodellen för varje iteration efter den 55:e, presterar den fortfarande aldrig lika bra i testdatan som vid den 55:e iterationen. Det kan bero på att

(30)

30

Bagging och random forest-metoderna är nästintill väntvärdesriktiga men dock är variansen hög. För varje iteration sänks variansen för dessa ensemblemodeller vilket sänker andelen felklassifikationer. I figur 9 presenteras andelen felklassifikationer för bagging-metoden. Den underliggande relationen mellan de oberoende variablerna och den beroende variabeln är som bäst representerad efter 22 iterationer. På samma sätt kan den iteration med lägst andel

felklassifikationer också hittas i figur 9 för random forest-metoden.

I tabell 4 presenteras en samanställning på hur bra samtliga ensemblemodeller och beslutsträdet predikterar slutresultatet vid de bästa iterationspunkterna (för varje ensemblemodell). % rättklassificerad träningsdata % rättklassificerad testdata Slumpade variabler Iterationer Bootstrap storlek Beslutsträd 78.2% 50% - - - Bagging 65.5% 61.2% 37 22 60% Random Forest 45% 58.7% 6 422 60% Adaboosting 100% 60% - 55 -

Tabell 4 - Tabell över hur de olika prestationsvariablerna presterade med de olika modellerna

Det enstaka beslutsträdet lyckades att prediktera 78 % rätt med träningsdatan och 50 % med testdatan. Detta tyder på att trädet blev överanpassat med tanke på den större andelen rätt på träningsdatan. Eftersom beslutsträdet inte återskapas mer än en gång gör att det inte går att visualisera felklassifikationsandelen med samma figur som med de övriga metoderna. Andelen felklassifikationer för varje iteration är alltså inget som går att återskapa för beslutsträdet då det endast bygger på en iteration.

Bagging-metoden presterade bäst om totala antalet rätt klassificerade observationer skulle vara det enda som det togs hänsyn till. Bagging-metoden har dock en grov tendens att underskatta antalet oavgjorda matcher.

Bagging

Adaboost

Predikterat

Verklig Bortavinst Oavgjort Hemmavinst Hemmavinst Oavgjort Bortavinst

Predikterat Verklig Bortavinst 21(80.8%) 10 3 3 9 17(65.4%) Bortavinst

Oavgjort 3 7(21.8%) 4 6 12(37.5%) 8 Oavgjort Hemmavinst 2 15 30(81.1%) 28 (75.7%) 11 1 Hemmavinst

Tabell 5 - Tabell som beskriver hur många hemmavinster, bortavinster och oavgjorda matcher med prediktion respektive de verkliga resultaten. De gröna fälten beskriver de rättklassificerade matcherna.

I tabell 5 presenteras även den rättklassificerade andelen för de olika klasserna producerade av adaboost och bagging-metoderna. Eftersom att dessa två metoder presterade jämnbra, 60 % respektive 61.2% rättklassade slutresultat. Därmed undersöks vidare endast hur bra dessa metoder var på att få rätt på de tre olika klasserna.

(31)

31

som oavgjorda, dock klassas endast 12 rätt. Alltså har bagging-metoden en tendens att överskatta antalet hemmavinster och bortavinster. Som konsekvens får metoden fler

rättklassificerade matcher inom dessa två klasser. Adaboost-metoden varken överskattar eller underskattar någon klass och ändå presterar den endast 1.2 procentenheter sämre än bagging-metoden över alla tre klasser. Därför anses adaboost-bagging-metoden vara den bästa fastän den har en lite högre andel felklassifikationer än bagging-metoden.

Adaboost-metoden är den valda metoden och 60 % av slutresultaten klassificerades rätt med dessa variabler. Målet med undersökningen var att förklara vilka av dessa variabler som är viktigast för att förklara framgång. I tabell 6 presenteras en tabell som rangordnar de viktigaste variablerna. Variablernas betydelse är definierat som ett medelvärde på antal felklassificerade observationer för varje iteration ifall den valda variabeln hade exkluderats, notera att det endast är 57 rätt klassificerade observationer.

Nr Variabel Medelminskning i rättklassificeringsantal

1 Rensning (B) 9.9534871 20 Skott zon 3 (H) 2.2135481 2 Rensning (H) 6.5584402 21 Skott zon 5 (H) 2.2020589 3 Skott på mål (H) 5.8200600 22 Spelstil (B) 2.0658208 4 Skott på mål (B) 5.2989733 23 Skott zon 4 (H) 2.0257483 5 Stora chanser (B) 5.1760515 24 Totalt antal skott (H) 1.9691497 6 % rättpassningar (B) 5.0867107 25 Skott zon 4 (B) 1.8983335 7 Hörnor (H) 3.9967889 26 Skott zon 5 (B) 1.7653063 8 % rättpassningar (H) 3.8436126 27 Skott zon 3 (B) 1.5584613 9 Bollinnehav (H) 3.5992318 28 Spelstil (H) 1.5329381 10 Offside (B) 3.3954700 29 Skott zon 1 (B) 1.2558536 11 Missade skott (H) 3.2336631 30 Misstag (H) 1.0662427 12 Missade skott(B) 2.8222742 31 Skott zon 1 (H) 0.8050820 13 Offside (H) 2.7497202 32 Misstag (B) 0.7804362 14 Totalt antal skott ((B) 2.6530265 33 Straff (B) 0.6868382 15 Blockade skott (B) 2.6271304 34 Bollinnehav (B) 0.6830668 16 Blockade skott (H) 2.4118269 35 Rött kort (B) 0.6750940 17 Stora chanser (H) 2.3784307 36 Straff (H) 0.3432073 18 Skott zon 2 (H) 2.3339202 37 Rött kort (H) 0.2065927 19 Skott zon 2 (B) 2.3274035

Tabell 6 - Medelminskning i rättklassificeringsandel, variablerna är sorterade över hur betydelsefulla de är för adaboost-metoden

(32)

32

Många rensningar har en positiv inverkan på slutresultatet. Ifall ett lag har rensat mer är det i genomsnitt ett tecken på att laget har presterat bättre. Ifall rensningsvariabeln för bortalaget hade tagits bort hade modellen i genomsnitt predikterat 9.95 matcher fel för varje iteration. Om rensningsvariabeln för hemmalaget hade exkluderats från modellen hade i genomsnitt 6.55 matcher predikterats fel för varje iteration.

Blockade skott är den sista av våra två försvarsvariabler. Den är dock inte lika viktig som antal rensningar enligt denna analys. Tillsammans sänks den genomsnittliga minskningen av rättklassificerade matcher med 2.6 respektive 2.4 för varje iteration ifall dessa variabler exkluderats separat. Denna variabel har en negativ påverkan ifall värdet ökar. Alltså har lag som blockat många skott en tendens att förlora matcher. Under en match är det självklart positivt att blocka ett skott från det försvarande lagets synvinkel. Men om det försvarande laget är i en situation där de har varit tvungna att blocka många skott har de förmodligen varit tillbakapressade och att motståndarlaget förmodligen varit nära att få igenom många skott. Det är nog detta som indirekt fångas upp med variabeln då det egentligen är positivt att blocka skott.

Den näst viktigaste prestationsvariabeln är antalet skott på mål. Detta är inget oväntat och ett ganska förväntat resultat. Förväntat antal mål-modeller brukar vara konstruerade kring denna variabel. Problemet med denna är att den inte tar hänsyn till avslutarens omgivning. Stora chanser är en avslutsvariabel som tar hänsyn till hur omgivningen sett ut vid avslutet. Som väntat är detta också en viktig prestationsvariabel. Det är dock viktigare för bortalaget att ha fler stora chanser än vad det är för hemmalaget. Andelen rätt slagna passningar är också en viktig prestationsvariabel. Lag med högre andel rätt slagna passningar har en tendens att vinna fler matcher. Detta är också något som kan tyckas vara självklart.

Bollinnehavet är en prestationsindikator som är viktig för hemmalaget men mindre viktig för bortalaget. Detta är den enda prestationsvariabeln som beter sig olikt ifall det är hemmalaget eller bortalaget som har ett högt eller lågt värde. Högre bollinnehav har då en positiv inverkan på resultatet. Den genomsnittliga rättklassifikationen minskar med 3.59 matcher för varje iteration ifall variabeln som förklarar bollinnehav för hemmalaget exkluderas. Men om samma variabel exkluderas för bortalaget minskar medelrättklassificeringsandelen med bara 0.68 matcher för varje iteration. Enligt denna analys är det alltså viktigt att ha högt

bollinnehav för hemmalaget dock är det inte lika viktigt för bortalaget. Detta kan bero på inställningen för de olika lagen. Hemmalag brukar oftast gå in i en match och försöka vinna den, vilket leder till att de bör spela med ett högre bollinnehav. Bortalag kan vara nöjda med ett oavgjort slutresultat och spela mer konservativt i anfallsspelet. Det är också vanligt att bortalagen spelar kontringsfotboll, vilket kan vara orsaken till varför bollinnehav är en oviktig prestationsvariabel för ett bortalag.

(33)

33

fler hörnor också är lag som har fler skott på mål eller att lag med fler hörnor oftast är lag som agerar mer offensivt under matcherna.

Mindre viktiga prestationsvariabler är spelstil, totalt antal skott från hemmalaget, misstag och skott från zon 1,3,4,5. Variablerna röda kort, straff och misstag har också definierats som icke viktiga enligt denna modell. Trots detta kan de vara viktiga variabler men eftersom att det sker sällan ändras det inte särskilt mycket ifall dessa variabler skulle exkluderats ur analysen. Variablerna blir alltså lidande med betydelsemåttet som används. Detta är en av nackdelarna med att definiera betydelsen av variablerna med måttet medelminskningen i antalet

rättklassificeringar vid exkluderandet av en variabel. Potentiellt sett kan ett rött kort under en match också leda till förändringar bland övriga variabler. Med ett rött kort har plötsligt ett lag en person färre på planen och detta kommer ändra förutsättningarna för hur övriga variabler reagerar. Därför finns möjlighet till att den variationen plockas upp av dessa variabler.

Prediktionsvariabler

(34)

34

Figur 10- Figur som beskriver andelen felklassifikationer för varje iteration för ensemblemetoderna. Notera att Y-axlarna är olika stora och i random forest-metoden (uppe till vänster) är den svarta linjen den som representerar andelen

felklassifikationer. % rättklassificerad träningsdata % rättklassificerad testdata Slumpade variabler Iterationer Bootstrap Storlek Beslutsträd _90.5% _78.9% _- _- _- Bagging _100% _87.4% _samtliga ₂₀₀ _60% Random Forest 100% 88.4% 6 576 60% Adaboosting _100% _90.5% _- ₂₀₆ _-

Tabell 7 - Tabell över hur samtliga variabler presterade med de olika modellerna

I tabell 7 presenteras andelen felklassifikationer för varje iteration för de olika

(35)

35

Om den bästa modellen ska väljas för att prediktera slutresultat är det inte helt rätt att endast utgå från vilken modell som hade lägst andel felklassifikationer vid en iteration. När en prediktion sker och slutresultaten inte finns till hands, kan ingen iterationspunkt hittas. Alltså måste antalet iterationer väljas innan prediktionerna görs. Därför väljs den bästa modellen baserat på hur bra de presterar i genomsnitt inom vissa iterationsramar.

Random forest-modellen presterade minst bra. Fastän denna modell hade en mindre lägsta andel felklassifikationer än bagging-modellen vid en specifik punkt behöver det inte betyda att random forest-modellen är mer konsistent.

Efter 30 iterationer blir bagging-modellen varken bättre eller, kanske till och med viktigare, sämre. Detta är en väldigt bra egenskap ifall prediktioner på slutresultat ska göras med denna modell. Dock är detta endast ett test baserat på just den aktuella tränings- och testdatan. Därmed går det inte att dra alltför generella slutsatser.

Adaboost-modellen presterar också bra, mellan iteration 180 och 380 fluktuerar andelen felklassifikationer häftigt mellan 10.5 % och 12.5 %. Vilket är den i genomsnitt bäst presterande modellen. Mellan dessa ramar når andelen felklassifikationer som lägst vid iteration 206. Vid denna iteration är andelen felklassifikationer nere vid 9.5%. Detta innebär att modellen bör utföras med ett iterationsnummer mellan 180 och 380 för att prediktera slutresultat med dessa variabler.

Adaboosting

Predikterat/Verklig Bortavinst Oavgjort Hemmavinst Bortavinst 23(88.5%) 4 0

Oavgjort 3 26(81.3%) 2

Hemmavinst 0 2 35(94.6%)

Tabell 8 - Resultatet från adaboost-metoden med samtliga variabler. De gröna fälten representerar rättklassificerade matcher.

I tabell 8 presenteras en prediktion med en iteration som ligger mellan 180 och 380. Just denna prediktion är den mest förekommande mellan dessa iterationer. En annan specifik prediktion kan både vara bättre och sämre men inte vanligare. Modellen är bra på att klassificera samtliga klasser med en total rättklassificeringsandel på 88.4%.

(36)

36 Nr Variabel Medelminskning i rättklassificeringsantal 1 Spelarbetyg (H) 25.46823446 2 Spelarbetyg (B) 25.00149436 3 Oavgjort odds 4.37971801 4 Antal missade skott (B) 2.65058385 5 Stora chanser (B) 2.47150186 6 Hemmavinst odds 2.43022285 7 Rensningar (B) 2.40065514 8 Domare 2.39843158 9 % rättpassningar (H) 2.12769372 10 Skott på mål (B) 1.97406563 11 Rensningar (H) 1.93738953 12 % rättpassningar (B) 1.88715741 13 Avslut zon 2 (H) 1.80270693 14 Bollinnnehav (H) 1.78593337 15 Avslut zon 2 (B) 1.69172401 16 Antal missade skott (H) 1.64317799 17 Offsides (B) 1.58590108 18 Offsides(H) 1.29731477 19 Antal blockade skott (H) 1.10383814 20 Skott zon 4 (B) 1.00039329

Tabell 9 - Tabell över medelminskning i rättklassificeringsantal med de 20 viktigaste variablerna för adaboost-metoden

I tabell 9 presenteras de tjugo viktigaste variablerna som diskriminerar slutresultat vid utförandet av adabooost-modellen. De är mätta med måttet medelminskning av antal

rättklassificerade matcher vid exkluderandet av just den specifika variabeln. Detta betyder att ifall en specifik variabel exkluderas kommer modellen att klassificera fler fel och antalet fler fel ges av tabell 9. Samtliga variabler undersöktes men tabell 9 presenterar endast de variabler som i genomsnitt skulle sänka antalet rättklassificerade matcher med minst en hel match. Målet med prediktionsmodeller är att med så få variabler som möjligt få så många

rättklassificerade prediktioner som möjligt. För varje variabel måste det göras en kvalificerad gissning som ska gå ihop med verkligheten. I modellen används 46 variabler. Alltså måste 46 värden gissas rätt för att klassificera 88.4% av matcherna rätt. Samtliga variabler är dock inte lika viktiga för att prediktera slutresultaten med. Därför är det mer betydelsefullt att gissa rätt på de viktigare variablerna då de har större effekt på slutprediktionen.

Först observeras det att modellen föredrar bortavariabler över hemmavariabler, av de tio viktigaste variablerna är fem bortavariabler och två hemmavariabler. Av de använda

prestationsvariablerna är antal rensningar fortfarande en av de viktigare variablerna. Detta är ännu en stark indikation på att antal rensningar är en bra prestationsvariabel för ”Förvänt antal insläppta mål”-modeller.

(37)

37

Spelarbetygsvariabeln för hemma- och bortalagen är de överlägset viktigaste variablerna för adaboost-modellen. I genomsnitt hade 25.5 respektive 25.0 rättklassificerade matcher

felklassificerats ifall dessa variabler exkluderats separat. Det är en felklassifikationesandel på 30.3% och 29.8%.

Domaren är en av de viktigare variablerna att prediktera slutresultat med. Ifall denna variabel hade exkluderats hade 2.39 matcher i genomsnitt för varje iteration missklassificerats. Det är en missklassifikationsandel på 2.84% och är den sjunde viktigaste variabeln som predikterats med. Vilken domare som dömer en match kan tolkas som viktigare än hemmalagets

bollinnehav, avslut från zon två av bortalaget eller andelen rättslagna passningar av hemmalaget. Den valda domaren har alltså en större påverkan på slutresultatet än 37

prestationsvariabler för de två olika lagen enligt modellen. Endast de två lagens spelarbetyg, antal missade skott, antal stora chanser och antal rensningar av bortalaget har en större påverkan på matchresultatet än domaren som dömer.

Det är väldigt intressant att domaren blev en av de viktigare variablerna att prediktera med. Alltså är den valda domaren på förhand en betydande faktor vid diskriminering av slutresultat. Innan några hastiga slutsatser dras är det värt att granska denna variabel och förstå hur

adaboost-metoden tolkar den.

Domare HemmaV Oavgjort BortaV Domare HemmaV Oavgjort BortaV

Marriner 10 5 3 Dean 8 6 7 Taylor 11 3 10 Jones 13 9 2 Pawson 8 12 3 Oliver 8 3 8 Scott 1 0 2 Swarbrick 5 4 4 Moss 7 4 4 Tierny 0 2 0 Friend 1 0 0 East 9 6 8 Stroud 5 3 8 Madley 11 4 5 Mason 8 2 9 Attwell 0 0 1 Atkinson 8 3 10 Hooper 0 0 1 Clattenburg 7 9 5

Tabell 10 - Fördelningen över hur de olika domarna har dömt i sina respektive matcher

I tabell 10 presenteras samtliga domare och slutresultaten på de matcher de har dömt. Denna tabell presenterar endast observationer i datasetet. Med andra ord är adaboost-modellen byggd på dessa observationer. För att förstå varför domarvariabeln blev så betydande måste den domaren som dömer en specifik match sammankopplas med resterande variabler.

Då ensemble-modellen är byggd på träningsobservationerna måste testobservationerna stämma samman med träningsobservationerna för att variabeln ska bli betydande. Ifall träningsobservationerna förklarar en stark positiv relation mellan antal stora chanser för hemmalaget och hemmavinst kommer en adaboost-modell konstrueras med antal stora chanser för hemmalaget som en av de mer betydande variablerna. Om sedan denna variabel också har en stark positiv relation med hemmavinst bland testobservationerna kommer variabeln att ha en hög siffra för medelminskning i rättklassificeringsandel. Detta är då en stark indikation på att fler stora chanser för hemmalaget diskriminerar hemmavinst.

(38)

38

en tendens att bli lika i testobservationerna, i samband med resterande variabler. I tabell 10 presenteras slutresultat på de matcher som Taylor och Marriner har dömt bland

träningsobservationerna. Marriner har en tendens att döma fler hemmavinster medan Taylor har en tendens att inte döma oavgjorda matcher. Då domarvariabeln är viktig betyder det att adaboost-modellen kommer tendera att gå mot en hemmavinst ifall Marriner dömer och mot ett oavgjort slutresultat ifall Taylor är domare. Detta blir då intressant beroende på hur resterande variabler agerar. Ifall bortalaget presterar lite bättre i de 39 variabler som var mindre viktiga än domarvariabeln men i en match som Marriner dömer kommer adaboost-modellen troligen att prediktera en hemmavinst eller oavgjort. På samma sätt kommer adaboost-modellen att prediktera hemmavinst eller bortavinst även ifall resterande mindre viktiga prestationsvariabler hänvisar till ett oavgjort resultat.

Samtliga domare har en egen matchresultatsfördelning, denna fördelning hålls jämn över träning- och testobservationerna vilket gör att domarna blir en betydande variabel att prediktera med.

Detta kan tolkas på många sätt. Blir domare som Marriner, Moss, Jones och Madley

påverkade av hemmasupportrarna då de har en tendens att döma hemmavinst eller oavgjort? Varför dömer Taylor, Stroud och Atkinson så få oavgjorda matcher?

(39)

39

Prediktionsmodellen

Figur 11 - Figur som beskriver andelen felklassifikationer för varje iteration för adaboost-metoden med prediktionsmodellen

Adaboosting

Predikterat/ Verklig

Bortavinst Oavgjort Hemmavinst Bortavinst 22(84.6%) 4 0

Oavgjort 4 26(81.3%) 3

Hemmavinst 0 2 34(91.9%)

Tabell 11- Tabell över hur adaboost-metoden presterade gentemot de verkliga slutresultaten. De gröna fälten representerar rätt klassificerade matcher.

I figur 11 och tabell 11 presenteras andelen felklassifikationer respektive de rättklassificerade matcherna i en adaboosting-ensemble med variablerna spelarbetyg för hemmalag, spelarbetyg för bortalag, odds på oavgjort och domare. Detta är en reducerad modell som kan användas för prediktion. I figur 11 kan det observeras att prediktionsmodellen i stort sätt presterar lika bra som den expanderande modellen. Speciellt om hänsyn tas till att 43 variabler har

exkluderats. Nr Variabel Medelminskning i rättklassificeringsantal 1 Spelarbetyg (H) 36.01814 2 Spelarbetyg (B) 32.80138 3 Oavgjort odds 18.53039 4 Domare 12.65009

Tabell 12 - Tabell som visar medelminskningen i rättklassificeringsantal för prediktionsmodellen med adaboost-metoden

(40)

40

viktigaste variablerna. Av de 82 rättklassificerade matcherna hade i genomsnitt 36.0 och 32.8 matcher för varje iteration felklassificerats vid exkluderandet av dessa variabler individuellt. Odds på oavgjort och domarvariabeln är två prediktionsvariabler som finns att använda redan innan matchen. Vilket gör dessa variabler väldigt användbara då det behövs göra någon form av gissning. I tabell 12 presenteras det att ett snitt på 18.5 matcher hade felklassificerats för varje iteration ifall odds på oavgjort-variabeln hade exkluderats.

Även här verkar domarvariabeln vara viktig. Hela 12.6 matcher hade felklassificerats ifall denna variabel hade exkluderats. Det är en ökning i andel felklassifikationer på hela 15.6 %. Detta är ännu en stark indikation på att domarna påverkar matchresultatet bortom

(41)

41

Slutsats

Klassificeringsmodeller har visat sig vara effektiva metoder för att prediktera fotbollsmatcher. Undersökningen nådde cirka 60 % rättklassificerade matcher vid användandet av

(42)

42

Appendix

Figur 12 - Beslutsträd med prestationsvariablerna

(43)

43

Referenser

Tryckta källor

Deb, S., Dey, D. (2017). Spatial modeling of shot conversion in soccer to single out goalscoring ability. University of Chicago.

Hastie, T., Tibshirani, R., Friedman, J. (2009) The elements of statistical learning – Data mining, Inference, and prediction. Second edition. Springer Series in Statistics Springer New York Inc.

Hill, I. (1974). Association football and statistical inference. Journal of the Royal Statistical Society, vol. 23, ss 203-208.

Hughes, M., Bartlett, R. (2002). The use of performance indicators in performance analytics. Journal of sports sciences, vol. 20:10, ss 739-754.

Joseph, A., Fenton, N.E., Neil, M. (2006). Predicting football results using Bayesian nets and other machine learning techniques. Knowledge-based systems, vol. 19, ss 544-553

Kumar, G. (2013). Machine learning for soccer analytics. University of Leuven.

Lago-Peñas, C., Lago-Ballesteros, J., Dellal, A., Gómez, M. (2010). Game-related statistics that discriminated winning, drawing and losing teams from the Spanish soccer league. Journal of sports science and medicine, vol. 9, ss 288-293

Lago-Peñas, C., Lago-Ballesteros, J., Rey, E. (2011). Differences in performance indicators between winning and losing teams in the UEFA Champions League. Journal of Human Kinetics, vol. 27, ss 135-146.

Lago, C och Martin, R. (2007). Determinants of possession of the ball in soccer. Journal of Sports Sciences, Vol. 25:9, ss 969-974

Liaw, A., Wiener, M. (2002). Classification and Regression by randomForest. R News, Vol. 2:3, ss 18-22

Maher, M.J. (1982). Modelling association football scores. Statistica Neerlandica, vol. 3, ss. 109-118

Reep, C., Benjamin, B. (1968). Skill and chance in association football. Journal of the Royal Statistical Society, vol. 131, ss 581-585.

Reep, C., Pollard, R., Benjamin, B. (1971) Skill and Chance in Ball Games. Journal of the Royal Statistical Society, vol. 134:4, ss 623-629

Tan, P., Steinbach, M., Kumar, V. (2006). Introduction to data mining. Boston: Pearson education, Inc.

Timmaraju, A.S., Palnitkar, A., Khanna, V. (2013). Game ON! Predicting English Premier League Match Outcomes. Stanford university.

(44)

44

Elektroniska källor

Ebner, S. The Times (2013-07-02). History and time are key to power of football, says Premier League chief.

Tillgänglig: https://www.thetimes.co.uk/article/history-and-time-are-key-to-power-of-football-says-premier-league-chief-3d3zf5kb35m [2017-05-17]

Encyclopaedia Britannica (2016-12-13). Football.

Tillgänglig: https://www.britannica.com/sports/football-soccer [2017-05-14]

ESPN, Alistair Tweedale (Whoscored). Corner kicks a dying art in the premier league. (2015-01-22)

http://www.espnfc.com/blog/tactics-and-analysis/67/post/2256611/corner-kicks-a-dying-art-in-the-premier-league [2017-05-16]

Football-data.co.uk (2017-05-18). Data.

Webbsida: http://www.football-data.co.uk/englandm.php

Tillgänglig via: http://www.football-data.co.uk/mmz4281/1516/E0.csv [2017-04-18] Github (2016-05-21). Data.

Tillgänglig: https://github.com/jargnar/premier-league-data/blob/master/2015-16/data.csv [2017-04-18]

Odacity (2016). Bootstrap aggregating bagging. [Video]. Tillgänglig: https://www.youtube.com/watch?v=2Mg8QD0F1dQ [2017-05-30].

Premier League. How and when are referees selected for matches? (2016-09-16) https://www.premierleague.com/news/102389 [2017-05-20]

Statista (inget år). Statistics and facts on Sports Betting.