I denna uppsatts tittar vi p˚a hur olika machine learning algoritmer presterar när man förutsp˚ar förseningar i t˚agtrafiken

(1)

Kandidatuppsats

Civilingenjör i datateknik 300 hp

Förutse försenade tåg med machine learning

Examensarbete i datateknik 15 hp

Halmstad 2018-09-16

(2)

(3)

Sammanfattning

This thesis investigates the performance of predicting train delays with diffe- rent machine learning algorithms. The machine learning algorithms that are studied and presented in this thesis are logistic regression, decision tree and neural network. We have tried to implement all of the above algorithms with the data that is collected by ourselves into our own database with the help of V¨asttrafiks open API. A brief description on our data that has been collected is presented, the fundamentals of the algorithms and general information about machine learning is presented. The algorithms are compared to each other and their performance are shown with the help of AUC score and a confusion matrix.

I denna uppsatts tittar vi p˚a hur olika machine learning algoritmer presterar när man förutsp˚ar förseningar i t˚agtrafiken. Machine learning metoderna som tas upp i denna rapport är logistic regression, decision tree och neural network.

Vi har försökt implementera alla tre ovan nämnda metoderna med data som vi själva har samlat in till v˚ar egen databas med hjälp av Västtrafiks öppna API. En beskrivning p˚a data som har samlats in diskuteras, grundläggande genomg˚ang av de olika metoderna och generell information om vad machine learning är. Metoderna ställs upp mot varandra och dess prestation visas upp med hjälp av AUC poäng samt confusion matrix.

(4)

(5)

Inneh˚all

1 Inledning 1

1.1 Syfte & m˚al . . . . 1

1.2 Problemformulering . . . . 2

1.3 Avgr¨ansningar . . . . 2

2 Bakgrund 3 2.1 Industriella produkter . . . . 3

2.1.1 Reseplanerare & trafikinfo . . . . 3

2.1.2 Google Maps, Din Tidslinje . . . . 4

2.1.3 Flygbolag varnar vid f¨orseningar . . . . 4

2.2 Relaterade arbeten . . . . 4

2.2.1 Machine learning . . . . 4

2.2.2 Andra metoder . . . . 9

3 Metod 11 3.1 Projektets faser . . . . 11

3.1.1 Utbildningsfas . . . . 11

3.1.2 Utf¨orandefas . . . . 11

3.1.3 Utv¨arderingsfas . . . . 11

3.2 Beslut . . . . 12

3.2.1 Val av kollektivtrafik . . . . 12

3.2.2 Val av data . . . . 12

3.2.3 Java . . . . 13

3.2.4 Python . . . . 13

3.2.5 Anaconda . . . . 13

3.2.6 Tensorflow . . . . 13

3.2.7 Versionshanetring . . . . 13

3.2.8 Databas . . . . 14

3.2.9 Supervised Machine Learning . . . . 14

3.3 Teori . . . . 14

3.3.1 Neural Network . . . . 14

3.3.2 Decision tree . . . . 16

3.3.3 Logistic regression . . . . 17

3.3.4 ROC kurva . . . . 19

(6)

3.3.5 AUC . . . . 20

3.3.6 Confusion Matrix . . . . 21

4 Resultat 23 4.1 Analys av data . . . . 23

4.1.1 Linjer . . . . 23

4.1.2 Stationer . . . . 24

4.1.3 Veckodagar . . . . 25

4.1.4 Resetider . . . . 26

4.1.5 Fortsatta f¨orseningar . . . . 27

4.2 Utv¨ardering av algoritmer . . . . 27

4.2.1 Logistic regression . . . . 27

4.2.2 Decision tree . . . . 28

4.2.3 Neural network . . . . 30

5 Diskussion 33 5.1 Fortsatt arbete . . . . 36

Litteraturf¨orteckning 37

A Tidsplan 39

(7)

Akronymer

API Application Programming Interface.

AUC Area Under Curve.

CM Confusion Matrix.

DT Decision Tree.

FN Falsk-Negativ.

FP Falsk-Positiv.

HL Hidden-Layer.

IL Input-Layer.

LR Logistic Regression.

ML Machine Learning.

MSE Mean Squared Error.

NN Neural Network.

OL Output-Layer.

ROC Receiver Operating Characteristics.

SML Supervised Machine Learning.

SN Sann-Negativ.

SP Sann-Positiv.

UML Unsupervised Machine Learning.

(8)

(9)

Kapitel 1

Inledning

Den regionala och lokala kollektivtrafiken har under 2005-2015¹¨okat med 32%.

Denna statistik visar att antalet p˚astigningar ökat varje ˚ar utan nedg˚ang. Ett linjärt beteende som allts˚a g˚ar upp˚at. Enligt resvaneundersökningen fr˚an period 2015-2016² stod kollektivtrafiken för 22.1% av resorna där det huvudsakliga

ärendet var arbets-, tjänste- och skoleresor. Jämfört med tidigare period 2011- 2012³ har arbets-, tjänste- och skoleresor ökat i kollektivtrafiken med 22.16%.

Användadet av kollektivtrafiken som transportmedel har allts˚a ökat generellt och även bland de som har viktiga tider att förh˚alla sig till. I projektet kommer det utvärderas om en Machine Learning (ML) algoritm kan kunna förutsäga förseningar i den kollektiva trafiken som sedan kan användas för att varna användaren för eventuella förseningar i förebyggande syfte att användaren inte kommer att bli försenad.

1.1 Syfte & m˚al

Syftet med detta projekt är att se ifall en ML algoritm kan användas för att förutse förseningar i den kollektiva trafiken. Ett bra resultat p˚a projektet skulle kunna leda till en lösning för resenärer och resebolag att göra kollektivtrafiken mer p˚alitlig, vilket skulle vara positivt. Med ML algoritmer kommer det allts˚a att undersökas ifall man kan f˚a en tillräckligt bra noggrannhet p˚a förutsägelsen av förseningar i dess förebyggande syfte. Data kommer samlas in fr˚an Västtrafik som har öppet Application Programming Interface (API)⁴ med information om deras resor i realtid. Projektetgruppen har inget samarbete med Västtrafik och kommer därför inte tilldelas ett färdigt dataset, utan data kommer enbart

1https://www.trafa.se/globalassets/statistik/kollektivtrafik/kollektivtrafik/

2009-2015/2015/kollektivtrafik-2015.pdf

2https://www.trafa.se/globalassets/statistik/resvanor/2016/rvu_sverige_

2016-reviderad-7-juli.pdf

3https://www.trafa.se/globalassets/statistik/resvanor/2016/rvu_sverige_

2016-reviderad-7-juli.pdf

4https://developer.vasttrafik.se

(10)

hämtas fr˚an deras API. Informationen är tillgänglig för allmänheten vilket ocks˚a betyder att den kan vara n˚agot begränsad i detaljer kring resorna. Projektets m˚al blir allts˚a att kunna se vilka resultat ML kan uppn˚a med den allmänna informationen fr˚an deras API.

1.2 Problemformulering

Applikationer som finns tillgängliga idag förutsp˚ar inte förseningar, den varnar när förseningen redan har skett. Kan ML lösa problemet och f˚a en bra noggrannhet p˚a sin förutsägelse? Finns det n˚agon relation mellan förseningarna och annan data som t.ex. tidpunkt, station eller tidigare förseningar? Om ML kan hitta en relation kan även trafikbolag använda sig av ML för att förutsp˚a förseningar och ˚atgärda problemen för att förhindra förseningar i största möjliga utsträckning.

• Vad finns det f¨or liknande produkter p˚a marknaden idag?

• Har V¨asttrafiks API tillr¨acklig data?

• Vilka modeller finns f¨or att utv¨ardera data?

• Vilken typ av ML kan l¨osa v˚art problem? Supervised Machine Learning (SML) eller Unsupervised Machine Learning (UML)?

• Hur mycket samplingsdata beh¨over man f¨or att uppn˚a en bra modell?

• Finns det n˚agon vetenskaplig forskning f¨or den valda modellen?

• Vilka sv˚arigheter har identifierats av andra l¨osningar?

• Kommer de förutsp˚adda förseningarna stämma överens med hur verkligheten ter sig?

• Vilket/vilka programmeringsspr˚ak ska anv¨andas?

• Hur ska de olika modellerna testas?

• Vad finns det f¨or f¨or-/nack-delar med den valda modellen?

1.3 Avgr¨ansningar

• Bara resor i V¨asttrafik.

• Det finns m˚anga bussar och t˚ag i V¨asttrafik. Vi kommer inte kolla alla linjer.

• Vi kommer använda oss av ML för att förutsäga förseningar.

(11)

Kapitel 2

Bakgrund

Projektgruppen är tv˚a studenter som studerar p˚a Högskolan i Halmstad till Ci- vilingenjör i datateknik. Idén för projektet uppkom d˚a b˚ada reser till och fr˚an skolan kollektivt och har över tv˚a ˚ars tid upplevt att förseningar förekommer med jämna mellanrum vilket har resulterat till missade föreläsningar etc. Ef- ter diskussion om problemet funderades det över om det skulle kunna finnas en lösning och hur man skulle kunna g˚a tillväga. Här uppkom själva idén att med hjälp ML kunna förutse förseningar och undvika att bli försenad.

Förhoppningsvis ocks˚a att i slutändan uppmuntra fler personer till att använda sig av den kollektiva trafiken.

2.1 Industriella produkter

2.1.1 Reseplanerare & trafikinfo

Sk˚anetrafiken¹ och Västtrafik² har b˚ada utvecklat tjänsten att kunna resepla- nera. Användaren lämnar information om vart resan ska börja, vart resan ska sluta, vilket datum och vilken tid resan avg˚ar eller när man ska ankomma till slutdestinationen. Informationen användaren f˚ar tillbaka är förslag p˚a när och vilket sätt som resan kommer att ske, om resan existerar. B˚ada resebolagen har

öppna API:s där samma funktioner/data kan tillhandah˚allas som deras reseplanerare har, vilket skulle ge projektets applikation möjlighet att nyttja dessa vid reseplanering. Detta sätt av planering sker dock manuellt av att användaren uppger information om resan vid varje resetillfälle. Där applikationens tanke är att även den processen ska automatiseras med hjälp av användarens kalender.

Resebolagen har ocks˚a trafikinformation t.ex. om det är vägarbeten eller andra faktorer som p˚averkar i kollektivtrafiken. De visar även vid information om en buss eller ett t˚ag skulle vara försenat i reseplaneraren. Detta bygger helt

1https://www.skanetrafiken.se/sok-resa/

2https://www.vasttrafik.se/reseplanering/

(12)

p˚a real-tidsinformation fr˚an bussens eller t˚agets nuvarande position och ingen förutsägelse fr˚an historisk data. All denna information m˚aste sökas upp av användaren själv i eget intresse att komma i tid.

2.1.2 Google Maps, Din Tidslinje

Google har utvecklat en funktion i deras applikation Google Maps som heter Din Tidslinje. I tjänsten uppger användaren vart denne arbetar, vilka tider hen ˚aker dit och hem. Applikationen tar inte emot ett flexibelt schema fr˚an en kalender utan ett fast schema fr˚an användarens inmatning. Visning av förseningar är begränsade, i vilken utsträckning är oklart eftersom Google själva inte uppger detta eller vart dom f˚ar informationen ifr˚an. Ingen förutsägelse av förseningar i kollektivtrafiken finns heller implementerad, utan ger användaren notiser om att bussen eller t˚aget användaren ska ta till eller fr˚an arbetet g˚ar om X antal minuter.

2.1.3 Flygbolag varnar vid f¨orseningar

Flygbolag som Norwegian har funktionen att vid inställda eller försenade flyg s˚a varnas användaren med sms till angivet mobilnummer vid bokning³. Norwegian har även utvecklat en applikation som istället ger användaren realtidsinforma- tion om hens flygresor och ger notiser om de skulle bli försenade.

2.2 Relaterade arbeten

Att förutsäga ankomsttider är inte en helt enkel process. Inga modeller kan ge ett resultat som ter sig exakt som verkligheten, utan här används olika algoritmer för att f˚a ett s˚a nära resultat som möjligt. Eftersom det inte finns ett exakt svar p˚a fr˚agan s˚a finns det m˚anga arbeten med olika tillvägag˚angssätt p˚a hur en bra modell kan se ut. Det har valts ut ett antal arbeten till projektet som kan vara av intresse.

2.2.1 Machine learning

ML är mycket användbar i m˚anga syften, man kan använda det för att förutsäga hur börsen eller aktier kommer att se ut i framtiden med hjälp av historisk data, analysera handskriven text och lära datorn att tolka denna text för att sedan skriva texten p˚a datorn, identifiera bilder, taligenkänning, m.m. Det finns olika algoritmer man kan använda sig av inom ML beroende p˚a vad man vill att datorn ska analysera och förutsäga. Algoritmer som är av intresse kommer att undersökas i projektet.

3https://www.norwegian.com/se/reseinformation/installda-flygresor/

forsenade-flygresor/

(13)

Supervised machine learning

SML eller ” Övervakat maskinlärande”är det vanligaste tillvägag˚angssättet när man använder sig av ML. Genom att f˚a inmatningsdata X s˚a mappas data till ett känt m˚al utdata Y som oftast är bestämd av människor själva. Sambandet kan enkelt förklaras med formel Y = f (X). Det kallas övervakat lärande d˚a processen där algoritmen lär sig hur den ska hantera indata är övervakat av en lärare. Den vet redan vilket m˚al indata ska till. Efter att algoritmen har f˚att göra sin förutsägelse s˚a kommer läraren att se om algoritmens förutsägelse stämmer

överens med det korrekta svaret [1]. Algoritmerna som kan användas är m˚anga och deras styrkor och svagheter varierar. De bör allts˚a anpassas efter syftet.

Figur 2.1: Diagram p˚a hur SML fungerar

Unsupervised machine learning

UML handlar om att hitta intressanta transformationer av indata utan n˚agon hjälp av n˚agra m˚al, dvs när man endast har inmatningsdata X och inte n˚agon motsvarande utdata Y , för ändam˚alet av data visualisation, data komprimering eller för att bättre först˚a relationerna mellan datan som man har tillgängligt.

Oftast använder man sig av UML för att bättre först˚a datan man har innan man försöker lösa ett SML problem [1]. Till skillnad fr˚an SML s˚a finns det inte n˚agot korrekt svar och det finns heller inte n˚agon lärare som kan rätta till algoritmen för att ge ett mer korrekt svar, dvs att man l˚ater algoritmen arbeta för sig själv för att upptäcka och presentera den intressanta strukturen i datan.

(14)

Figur 2.2: Diagram p˚a hur UML fungerar UML kan grupperas vidare till kluster och association problem.

• Kluster: Ett klusterproblem är där du vill hitta ärvande grupperingar i data som att kunna gruppera kunder och deras handelsvanor.

• Association: Ett associations lärningsproblem är när du vill hitta mönster som beskriver stora portioner av datan tillgänglig som t.ex. kunder som köper vara X tenderar till att köpa vara Y .

Arbeten med machine learning

Artikeln ”Railway passenger train delay prediction via neural network model”

[2] använder SML, och Neural Network (NN) utvärderas främst i artikeln för att försöka förutse förseningar p˚a t˚ag i Iran. I artikeln undersöks tre olika metoder för att definiera input-datan till nätverket: normaliserade real värden, binary-coding och binary set encoding. Därefter läggs det även p˚a ytterligare tre olika träningsmetoder till vardera input-metod för att jämföra snabbare eller l˚angsammare träningstider. Dessa metoder kallas snabb-, dynamisk- och multi- pel metod. Den snabba metoden använder sig av ett minamalt antal noder i ett Hidden-Layer (HL) för att f˚a ner träningstiden. De andra tv˚a träningsmetoderna g˚ar ut p˚a att nätverket testar sig av olika storlekar p˚a antal noder och HL för att hitta bäst accuracy.

Dessa NN jämförs sedan med andra vanligt förekommande algoritmer som Decision Tree (DT) och Logistic Regression (LR). Resultatet visade att det föreslagna NN gav mycket bättre resultat än de andra algoritmena. De tre olika input metoderna visade inga större skillnader. Det bästa resultatet gavs av att använda sig av binary-encoding med snabb träningsmetod vilket gav en accuracy p˚a 92.18%. Nackdelen var att det tog längst tid för att träna detta nätverket.

DT gav en accuracy p˚a 64.42% och LR 63.71%. DT hade snabbast träningstid och LR var fjärde snabbast av elva möjliga.

I rapporten ”Application of Machine Learning Algorithms to Predict Flight Ar- rival Delays” [3] använder författarna följande SML algoritmer: DT, LR och NN för att förutsp˚a försenade ankomster för inrikesflygen i USA. Det dataset som

(15)

författarna använder sig av är fr˚an Kaggle⁴och finns tillgänglig för allmänheten, det inneh˚aller data för ˚ar 2015 med över 5 miljoner exempel och 30 parametrar.

Utav de 5 miljoner exempel som fanns valde författarna att använda 100000 för att träna och testa de tre algoritmerna, med en rekommenderad splittring- en 70-30 mellan träningsdata och testdata. Med hjälp av DT algoritmen fick man fram vikterna för alla parametrar, allts˚a deras avgörande betydelse för förutsägelserna, och författarna kom fram till att det endast var tre parametrar som hade större betydelse för förutsägelserna.

Alla algoritmerna presterade likvärdigt och fick samma AUC poäng 0.96 med nästintill identiska precision och recall värden. Precision och recall för de försenade förutsägelserna fr˚an varje algoritm som författarna fick är följande:

Tabell 2.1: Algoritmernas resultat fr˚an artikel [3]

Algoritm AUC Precision Recall

LR 0.96 0.92 0.89

DT 0.96 0.93 0.88

NN 0.96 0.91 0.90

Författarna av artikeln ”Cloud Based Flight Delay Prediction using Logistic Regression” [4] använder LR (SML) för att förutsäga avg˚angsförseningar bland flygresor. De använder sig av Microsoft Azure Learning Studio för att träna och testa modellen i molnet. De har även tagit väderinformation i ˚atanke för att se ifall vädret har n˚agon p˚averkan p˚a förseningarna. Resultatet de fick var en accuracy p˚a ungefär 80%, men ROC kurvan för deras implementation s˚ag inte s˚a bra ut vilket gav dem ett l˚agt AUC-värde. De beskriver i slutsatsen att en anledning till ett halvbra resultat kunde bero p˚a att de viktiga orsakerna till att förseningar sker kanske var parametrar som inte fanns med i deras dataset.

I arikeln ”A New Method to Alarm Large Scale of Flights Delay Based on Machi- ne Learning” [5] använder de sig först av UML p˚a datan insamlad fr˚an flygplat- sen för att f˚a fram de olika klasserna av avvikelse, dessa klasser framförs efter lärningsperioden för algoritmen. När de väl har f˚att fram klasserna använder de sig av SML p˚a denna datan för att bygga en varnings modell. Eftersom det finns m˚anga likheter av datan grupperas de olika förseningsklasserna med likheter med hjälp av klustering. Klustering är en UML process som nämndes tidigare, eftersom det inte finns n˚agra fördefinerade klasser och inga exempel p˚a vilken typ av önskvärd relation det bör finnas med datan är detta ett kluster problem [6]. För att förenkla problemet används k -Means algoritm för kluste- ringen och parametern är endast antal kluster.

Artikeln ”Iterative Machine and Deep Learning Approach for Aviation

Delay Prediction” [7] handlar ocks˚a om hur man kan f¨orutse f¨orseningar i flyg-

4https://www.kaggle.com/

(16)

branschen. Här används ocks˚a SML för att f˚a fram resultat, men p˚a ett n˚agot annorlunda sätt. Efter att de fick sitt dataset skalades denna ner n˚agot och det valdes ut information som inte var missvisande utan verklighetstrogen data.

Detta gjordes dels p˚a grund av f˚a fram riktig data men även spara p˚a resur- ser som den begränsade processorkraft de hade i undersökningen och det var helt enkelt för mycket data ursprungligen. De förklara vidare att fr˚an detta processade dataset var det 6 attribut som utmärkte sig vid förseningar:

Veckodag

1. 2. Ankomsttid 3. Avg˚angstid

Tidsf¨orbrukning

4. 5. F¨orseningstid 6. Distans

Författarna skriver ocks˚a i deras litterära undersökning av andras arbeten att dessa attribut kan tas fram med hjälp av OneR-algoritmen. När attribut och dataset var valt tränades detta p˚a NN och deep belief network där den förväntade utdatan var binär (SML) p˚a följande sätt:

0 = Inte f¨orsenad

a) b)1 = F¨orsenad

De använde sig av resilient backpropagation för att optimera sitt NN. Det justerar felet i nätverket som i slutändan avgör vad den givna indata kommer att ge för utdata, 0 eller 1. Resilient backpropagation är en p˚abyggnad av vanlig backpropagation och som till sin fördel g˚ar mycket snabbare att använda sig av när man ska träna nätverket enligt författarna. För att testa nätverket och dess noggrannhet gav man nätverket test data som nätverket inte hade f˚att träna p˚a. De testade även att ändra p˚a antalet lager och noder bland HL. Det som gav bästa resultatet var att använda sig av 1 layer och 3 noder i denna. Detta gav en förutsägelse p˚a 92% om flygen skulle bli försenade eller inte.

Figur 2.3: Illustration av f¨oreslagen modell fr˚an artikel [7]

(17)

2.2.2 Andra metoder

Det finns andra metoder man kan använda sig av utöver machine learning. I artikeln ”Forecasting algorithm of time arrival with statistical data using based on the principle of templates selection” [8] använder de sig av en enklare metod som inte är ML och resultatet de fick fram var rätt s˚a bra. Följande figur är tagen fr˚an artikeln som illustrerar hur metoden presterar gentemot verkligheten.

Figur 2.4: Jämförelse av förutsägelsen mot den verkliga händelsen [8]

Denna metod använder sig av en matematisk modell med flertalet olika parametrar för att kalkylera ankomsttid, det man kan göra med denna matematiska modell är: Z = förutsagd ankomsttid, Y = verkliga ankomsttid och X = Z − X vilket ger oss att X = förutsagd försening om X > 0. En av parametrarna som används i denna matematiska modell är B som är en konstant 1 ≥ B > 0, denna konstant fastställer trafikbelastningen och kan ändras beroende p˚a vilken tid p˚a dagen det är för att f˚a fram en mer nogrann förutsägelse av ankomsttiden.

(18)

(19)

Kapitel 3

Metod

3.1 Projektets faser

Projektet kommer delas upp i olika faser för att det ska bli praktiskt och finnas en struktur. Det börjar med en utbildningsfas, utförandefas, och utvärderingsfas.

3.1.1 Utbildningsfas

I denna fas kommer det att lyftas fram vad man har studerat för att uppn˚a projektets m˚al, dvs. de metoderna, algoritmerna och programmeringsspr˚ak som kan vara av intresse. Hur man ska utvärdera de olika algoritmernas resultat p˚a given data. Här kommer andra arbeten kring förseningar att undersökas för att kunna nyttja den informationen som redan finns kring ämnet

3.1.2 Utf¨orandefas

Här kommer programmeringen av projektet utföras. Uppsättning av att hämta och spara ner data till en databas. Det kommer även programmeras med ML algoritmer fr˚an befintliga bibliotek.

3.1.3 Utv¨arderingsfas

Under utvärderingsfasen kommer det utvärderas vilken ML modell som fungerar bäst till v˚art syfte. Vi kommer att använda träningsdata för att lära v˚ar modell och sen även använda testdata för att utvärdera hur väl dessa modeller prestera.

Aven andra verktyg f¨¨ or utvärdera algoritmerna kommer användas här.

(20)

3.2 Beslut

I den h¨ar delen av rapporten f¨orklaras vilka beslut som har tagits kring projektet.

Vilka vägval som har gjorts och förklaring p˚a vad dessa innebär.

3.2.1 Val av kollektivtrafik

Det har varit tv˚a resebolag fr˚an början som varit av intresse till projektet att hämta data fr˚an: Västtrafik och Sk˚anetrafiken. B˚ada resebolagen har öppna API:er där man gratis kan hämta information om deras resor i realtid. Ingen av dessa API:er erbjuder att kunna hämta historisk data vilket betyder att man inte kan se bak˚at i tiden huruvida resorna har varit försenade eller inte. Detta gör att data m˚aste loggas i realtid och samlas in för att kunna användas till projektet.

Efter jämförelse av de tv˚a resebolagens API:er konstateras att Västtrafik har en bättre plattform som är mer utvecklad och enklare att använda. Västtrafik kan skicka gensvar i JSON och har tydliga instruktioner som gör det enklare för projektdeltagarna som saknar tidigare erfarenheter med API:er. En annan fördel med Västtrafik var att man p˚a ett enkelt sätt kunde logga förseningar station för station och inte bara start- och slutstation p˚a en resa.

3.2.2 Val av data

Urvalet hos Västtrafik har ocks˚a begränsats d˚a det finns m˚anga linjer och det har valts ut 61 stycken som är pendel eller t˚ag. Parametrar som loggats och kan vara till användning är:

VasttrafikTripID - ID p˚a de olika linjerna.

Date - Datum p˚a resan.

Distance - Resans distans.

totalTime - Resans totala tid.

weekday - Veckodag.

departureTime - avg˚angstid.

arrivalTime - ankomsttid.

delayed - Om resan ¨ar f¨orsenad.

delay - F¨orseningstid.

cancelled - Om resan ¨ar inst¨alld.

stopID - Vilken station.

Utöver detta har ocks˚a tiderna alternativt förseningarna loggats för alla stationer och resor i realtid.

(21)

3.2.3 Java

Västtrafiks öppna API fungerar med m˚anga olika programmeringsspr˚ak. För- fattarna i detta projektet har en större erfarenhet i Java fr˚an tidigare kurser och kommer därför att använda sig av detta för att jobba mot API:t. Västtrafiks API använder sig av OAUTH2¹autentisering för att kunna göra anrop till deras API. Här kommer ett flertal bibliotek utvecklade av Google² användas för att hämta accesstokens (Autentiserings nyckel). Med dessa nycklar kan man sedan skapa GET anrop till API:t för att helt enkelt göra anrop p˚a vilken data man vill ha fr˚an dem. Utvecklingsmiljön som kommer användas för Java är Eclipse.

Maven kommer att användas för att slippa lägga till biblioteken p˚a ett lokalt sätt.

JSON-bibliotek kommer att användas i Västtrafiks API d˚a de har stöd för att kunna skicka gensvar i JSON-format istället för XML. Det g˚ar snabbare att parsa information med JSON än XML.

3.2.4 Python

Python är ett objektorienterad programmeringsspr˚ak med ett rikt standardbib- liotek samt andra kraftfulla bibliotek som används för ML. Största anledningen till varför Python används är p.g.a. att man kan enkelt interagera med databasen, skapa dataramar som används vid träning av de olika algoritmerna och ett rikt bibliotek med ML algoritmer. Python har även bra bibliotek för visualise- ring vilket är händigt när man ska utvärdera algoritmerna.

3.2.5 Anaconda

Anaconda³ är en gratis och open-source distribution av Python som används för datavetenskap och machine learning relaterade applikationer vars m˚al är att förenkla pakethanteringen. Med hjälp av anaconda kan vi simpelt installera de bibliotek som behövs.

3.2.6 Tensorflow

Tensorflow⁴är en öppen källkod bibliotek som används inom machine learning.

Det används för b˚ade forskning och produktion p˚a Google och är utvecklad av Google Brain Team.

3.2.7 Versionshanetring

I projektet kommer Github⁵ användas för versionshantering av kod. Man kan enkelt skapa flera versioner av en kod vid vägskäl där man inte är säker p˚a

1https://oauth.net/2/

2https://developers.google.com/api-client-library/java/

3https://www.anaconda.com/what-is-anaconda/

4https://www.tensorflow.org/

5https://github.com/features

(22)

vilket alternativ som är bäst utan att man behöver komma ih˚ag vad som lades till eller togs bort. Det g˚ar att lägga till egna kommenterar vid ändringar.

3.2.8 Databas

Java används för att logga inkommande data fr˚an API:et till databasen d˚a Java har bibliotek s˚a att man kan koppla upp sig mot olika versioner av databaser, i detta fall är det en MariaDB⁶databas. D˚a en av studenterna har en NAS med Synology OS hemma har man installerat MariaDB p˚a den samt phpMyAdmin⁷ för att kunna hantera databasen p˚a ett simpelt sätt. Man har valt MariaDB eftersom det har samma syntax som MySQL vilket är vad man har g˚att genom p˚a högskolan och p.g.a. att det är öppen källkod.

3.2.9 Supervised Machine Learning

Anledningen till att SML valdes berodde d˚a att projektets data redan är kategoriserad likt artiklarna om förseningar [2, 3, 4, 7]. Hade projektets data inte varit kategoriserad hade UML varit lämpligt att använda i projektet. Majo- riteten av artiklarna använder sig av NN som antingen den enda algoritmen eller som huvudalgoritm vilket gav ett stort intresse att undersöka. DT och LR var ocks˚a vanligt förekommande och kunde även de uppvisa goda resultat i de relaterande arbetena kring förseningar. Därför valde projektgruppen att även inkludera dessa för att kunna jämföra resultaten. Parametrarna i artiklarnas dataset hade ocks˚a m˚anga likheter med projektets, vilket gjorde deras val av algoritmer intressanta att utvärdera för detta projektets syfte. Här kunde man

även inkluderat flera algoritmer som skulle kunna användas till projektets syfte, men med begränsade kunskaper och tid s˚a valde projektgruppen att förh˚alla sig till NN, DT och LR.

3.3 Teori

3.3.1 Neural Network

Ett nerual network ¨ar ett n¨atverk best˚aende av noder som ligger i olika lager.

Dessa lager ¨ar Input-Layer (IL), HL och Output-Layer (OL) [9].

IL tar in alla parametrar som man har i sin data. Efter detta kommer parametrarna g˚a vidare till HL. Exemplet i figur 3.5 finns det endast ett lager i HL, men det kan vara fler och med varierande m¨angd av noder i vardera, vilket kan ge annorlunda resultat. OL utger vilket svar algoritmen har kommit fram till.

Detta lager kan ocks˚a best˚a av fler noder.

Varje nod med ing˚angar innehar ett värde av en summa som kallas aktiveringsfunktion a. Detta är en summa av varje vikt w som multipliceras med dess föreg˚aende nod x. Efter summeringen subtraheras detta med en faktor θ som

6https://mariadb.org/about/

7https://www.phpmyadmin.net/

(23)

Figur 3.1: Ett exempel p˚a NN

heter bias. Bias är en tröskel till aktiveringsfunktionen, vilket betyder att bia- sens värde bestämmer huruvida en nod ska vara aktiverad (ha n˚agon p˚averkan) p˚a nätverket. Här är ett exempel p˚a hur en aktiveringsfunktion för en nod kan se ut:

a = w₁x₁+ w₂x₂+ ... + w_nx_n− θ eller

a = (

n

X

i=1

w_ix_i) − θ

Där n är antalet noder. Här är en illustraion p˚a hur det kan se ut:

Figur 3.2: Nod med ing˚angar fr˚an noder i f¨oreg˚aende lager

Tr¨aning av NN sker genom att justera vikterna mellan noderna samt biasen.

När algoritmen tränas med data jämför den sitt svar med vad svaret egentligen skulle vara. Här används en förlust-funktion för att minimera antalet fel i algoritmen. Det finns flera olika funktioner för att göra detta, men för att nämna n˚agon och kanske den mest kända är Mean Squared Error (MSE) en s˚adan [10].

MSE räknar ut snittet p˚a hur mycket algoritmens svar varierar i förh˚allande till det riktiga svaret. Funktionen ser ut p˚a följande sätt där N är antal exempel, y

¨

ar det riktiga svaret och y⁰ ¨ar algoritmens svar:

(24)

M SE = _N¹

N

X

i=1

(y_i− y_i⁰)²

MSEs egenskap att vara kvadratiskt ger möjlighetgen att hitta ett lokalt minimum och här kan man använda optimerare till funktionen som bl.a. sjunkgra- dient för att hitta ett globalt minimum och därmed minimera förlust-funktionen.

NN kan användas när problemen är linjära eller icke-linjära vilket är en fördel.

Den är snabb p˚a att hitta trender och samband i data vilket kanske skulle kunna vara en nästintill omöjlighet för användaren att göra annars eller kunna förklara den. Den mest använda modellen är med multi-lager vilket är beskrivet ovan.

Det finns allts˚a ett eller fler HL i nätverket. Fördelen med att ha fler lager är att nätverket blir bättre mot irrelevant brus och data. Dock kan problem uppst˚a när man bestämmer antalet HL. Har man för f˚a kan algoritmen approximationer bli d˚aliga och har man för m˚anga lager riskerar algoritmen att generalisera data p˚a d˚aligt sätt, även kallat over-fitting [11].

3.3.2 Decision tree

DT är en klassificerare som bygger p˚a att försöka hitta de bästa parametrarna för att p˚a s˚a sätt dela upp ett dataset i mindre delar och hitta rätt svar [12]. Trädet

¨

ar uppbyggt av noder som alla representerar en parameter ifr˚an ett dataset och dess grenar representerar de olika v¨ardena som denna parametern kan anta.

Trädets rot är början av trädet och denna rot företräder den parameter som bäst delar p˚a ett dataset.

Figur 3.3: Ett exempel p˚a DT

De vanligaste sätten att dela noder i DT kan delas in i tv˚a klasser: axel- parallella och sneda [13]. Det är dessa delningar av noder som avgör hur trädet kommer att bli konstruerat. B˚ade axel-parallella och sneda delningar använder sig av en linjär metod vid delning där metoden väljer att dela noders grenar i ett eller flera hyperplan. Som tidigare nämnts representerar allts˚a dessa grenar olika värden som parametern kan anta. Alla dessa grenar kan visas p˚a en graf som olika regioner p˚a grafen exempel p˚a detta visas i figur 3.4.

(25)

(a) Axel-parallell (b) Sned

Figur 3.4: Exempel p˚a axel-parallella grenar i en graf i figur 3.4a och sneda grenar i en graf i figur 3.4b.

Axel-parallella träd där alla parametrar i ett dataset har ändliga värden kan skapa ett icke-binärt träd där varje nod skapar sig s˚a m˚anga grenar som den bara kan vilket kan vara väldigt bra. Detta kan dock komma med ett pris att storleken p˚a trädet blir väldigt stort. Sneda träd fungerar som binära träd och

är mer m˚angsidiga d˚a de inte behöver vara axel-parallella och kan skräddarsys p˚a ett bättre sätt. Utöver axel-parallella och sneda kan man även kombinera eller styckvist dela in regioner med andra metoder [13]

DT är en av de vanligaste och kraftfullaste algoritmerna att använda sig av när man utvinner data. Den är bra p˚a att kunna hitta mönster och beteenden i olika data [11].

Den har dock sina nackdelar där sm˚a förändringar i träningsdata kan ha stora förändringar p˚a trädet. En annan nackdel är att det kan skapa över-komplicerade träd där generaliseringen av träningsdata inte blir bra (over-fitting).

3.3.3 Logistic regression

LR är en modell som bygger p˚a att utdatan Y endast kan anta binära värden 1 eller 0. Det är en sigmoid-funktion som ritar upp en linje som h˚aller sig inom 0 ≤ Y ≤ 1. Sigmoid-funktionen ser ut p˚a följande sätt:

σ(X) = _1+e¹−X

Genom att ge indata X till funktionen kan man sedan l¨asa av p˚a Y -axeln vilken sannolikhet X har i sammanhanget, allts˚a bY .

(26)

Figur 3.5: Exempel p˚a LR

LR räknar ut sannolikheten för att n˚agot ska inträffa p över att det inte skulle inträffa 1 − p, detta förklaras i termer av odds [14].

odds =_1−p^p

I LR är p medelvärdet p˚a det förväntade svaret fr˚an given variabel x. En ekvation antas förklara relationen mellan p och x

y = β0+ β1x

Där β0och β1är faktorer till LR (förklaras längre ner). Beroende p˚a hur m˚anga parametrar ett dataset har s˚a kan denna ekvation utökas

y = β0+ β1x1+ ... + βnxn

Denna ekvationen är n˚agot lik den vi sett tidigare i NN. β0 är konstanttermen som avgör vart ekvationen skär y-axeln och β1, β2, ..., βn är koefficienter som motsvarar vikter till parametrarna x1, x2, ..., xn. Genom träning av algoritmen s˚a justeras dessa för att förbättra algoritmens svar. Problemet här är att x kan anta vilket värde som helst mellan −∞ och +∞. Detta betyder att svaret inte förh˚aller sig inom intervallet 0 och 1. Genom att använda naturliga logaritm ln p˚a odds och ställer mot den linjära funktionen löser detta problemet.

logit(y) = ln (_1−p^p ) = β₀+ β₁x₁+ ... + β_nx_n

Genom att ta inversen till logaritmen p˚a b˚ade sidor ges svaret vi k¨anner igen fr˚an hur en kurva i LR ser ut

y = _1−e−(β0+β1x1+...+βnxn)¹

LR är enkel att justera tröskeln p˚a för vad man anser vara d˚aliga svar fr˚an algoritmen eftersom den ger ett svar i sannolikhet. Den har sina fördelar att man inte behöver göra n˚agot antagande att linjära förh˚allanden finns mellan parametrarna och m˚alet man söker svar p˚a. En nackdel är att det kan krävas en större mängd data för att n˚a ett stabilt och trovärdigt svar fr˚an algoritmen [11].

(27)

3.3.4 ROC kurva

För att utvärdera algoritmerna kommer Receiver Operating Characteristics (ROC) graf att användas. Det är en teknik för att visualisera, organisera och välja algoritmer (classifiers) baserat p˚a deras prestation. [15] ROC-grafer har länge använts i signaldetektionsteori för att skildra avvägningen mellan träffgrad och falskalarmgrad, som t.ex. i arbetets sammanhang kan de fyra falskalarm- graderna beskrivas p˚a följande sätt:

Sann-Positiv (SP) - algoritmen förutsp˚ar att t˚aget blir försenat och det är försenat.

Sann-Negativ (SN) - algoritmen f¨orutsp˚ar att t˚aget inte blir f¨orsenat och det

¨ar inte f¨orsenat.

Falsk-Negativ (FN) - algoritmen förutsp˚ar att t˚aget är försenat och det är inte försenat.

Falsk-Positiv (FP) - algoritmen förutsp˚ar att t˚aget inte är försenat men det

¨ar f¨orsenat.

Spackman [16] var en av de första som demonstrerade värdet av att använda ROC-kurvan för att värdera och jämföra algoritmer. P˚a senare tid har användandet av ROC-kurvan inom ML ökat p.g.a. att simpla träffsäkerhets värderingar av algoritmer kan vara otillräckliga sätt att mäta algoritmens prestationsförm˚aga.

Figur 3.6: Exempel p˚a punkter i en ROC kurva

Punkt A i figur 3.6 betyder att algoritmen inte lyckades förutsäga n˚agot positiv resultat. Punkt B innebär att allting är perfekt allts˚a finns det inte n˚agra FP felbedömningar och den lyckas sätta alla SP scenarion. Punkt C innebär att algoritmen lyckas att förutsäga alla positiva förekomster korrekt men p˚a bekost- nad av att den förutsäger alla negativa förekomster inkorrekt. Man ska allts˚a försöka f˚a en punkt i den nordvästra hörnet för ett bra resultat, det innebär att den SP-graden är högre och FP-graden är lägre. F˚ar man en punkt under den diagonala linjen som punkt D i figuren innebär det att algoritmen har användbar

(28)

information men den applicerar informationen p˚a ett inkorrekt sätt. Den diagonala linjen representerar strategin av att slumpmässigt gissa svaret 50%. En punkt p˚a den diagonala linjen som punkten E innebär att algoritmen presterar lika bra som en algoritm som gissar slumpmässigt ifall t˚aget är försenat. Punkt E m˚a ha en bra grad för sann positiva förutsägelse, 80% i detta fallet men den förutsäger de falsk positiva scenarion fel i 80% av fallen ocks˚a.

3.3.5 AUC

En ROC-kurva är en tv˚a-dimensionel avbildning av algoritmens prestation. För att jämföra algoritmernas prestanda väjer man att använda sig av ett enda skalärvärde som representerar den förväntade prestationen. Den vanligaste metoden är att beräkna arean under ROC-kurvan, Area Under Curve (AUC).

Värdet av AUC kommer alltid att ligga mellan 0 och 1.0, men eftersom en algoritm som slumpmässigt gissar förutsägelsen producerar den diagonala linjen och har en area p˚a 0.5 s˚a ska inte en realistisk algoritm ha ett AUC värde under 0.5. Den bl˚aa linjen i figur 3.7 har nästan ett perfekt AUC värde, den orangea linjen har ett sämre AUC värde men fortfarande acceptabel d˚a det har ett högre AUC värde än den diagonala linjen.

Figur 3.7: Exempel p˚a ROC kurvor