Analys av nutidens tågindelning : Ett uppdrag framtaget av Trafikverket

(1)

Kandidatuppsats i Statistik

Analys av nutidens tågindelning

Ett uppdrag framtaget av Trafikverket

Molinia Gabrielsson Viktoria Grek

Avdelningen för Statistik och maskininlärning Institutionen för datavetenskap

Linköpings universitet

(2)

Handledare: Krzysztof Bartoszek Examinator: Annika Tillander

(3)

Abstract

The information used in this paper comes from Trafikverket’s delivery monitoring system. It consists of information about planned train missions on the Swedish railways for the years 2014 to 2017 during week four (except planned train missions on Roslagsbanan and Saltsjöbanan).

Trafikanalys with help from Trafikverket presents public statistics for short-distance trains, middle-distance trains and long-distance trains on Trafikanalys website. The three classes of trains have no scientific basis. The purpose of this study is therefore to analyze if today’s classes of trains can be used and which variables that have importance for the classification. The purpose of this study is also to analyze if there is a better way to categorize the classes of trains when Trafikanalys publishes public statistics. The statistical methods that are used in this study are decision tree, neural network and hierarchical clustering.

The result obtained from the decision tree was a 92.51 percent accuracy for the classification of Train type. The most important variables for Train type were

Train length, Planned train kilometers and Planned km/h.

Neural networks were used to investigate whether this method could also provide a similar result as the decision tree too strengthening the reliability. Neural networks got an 88 percent accuracy when classifying Train type. Based on these two results, it indicates that the larger proportion of train assignments could be classified to the correct Train Type. This means that the current classification of Train type works when Trafikanalys presents official statistics.

For the new train classification, three groups were analyzed when hierarchical clustering was used. These three groups were not the same as the group’s short-distance trains, middle-short-distance trains and long-short-distance trains. Because the new divisions have blended the various passenger trains, this result does not help to find a better subdivision that can be used for when Trafikanalys presents official statistics.

(4)

(5)

Sammanfattning

Datamaterialet som används i uppsatsen kommer ifrån Trafikverkets leveransupp-följningssystem. I datamaterialet finns information om planerade tåguppdrag för de svenska järnvägarna för år 2014 till 2017 under vecka fyra (bortsett från plane-rade tåguppdrag för Roslagsbanan och Saltsjöbanan).

Trafikanalys med hjälp av Trafikverket redovisar officiell statistik för kortdistans-tåg, medeldistanståg och långdistanståg på Trafikanalys hemsida. De tre tågka-tegorierna har inte någon vetenskaplig grund. Syftet med denna studie är därför att undersöka ifall dagens tågindelning fungerar och vilka variabler som häng-er ihop med denna indelning. Syftet är även att undhäng-ersöka om det finns någon bättre tågindelning som kan användas när Trafikanalys redovisar officiell statistik. De statistiska metoder studien utgått ifrån är beslutsträd, neurala nätverk och hierarkisk klustring.

Resultatet som erhölls från beslutsträdet var en ackuratess på 92.51 procent för klassificeringen av Tågsort. De variabler som hade störst betydelse för Tågsort var

Tåglängd, Planerade tågkilometrar och Planerad km/h.

Neurala nätverk användes för att undersöka om även denna metod kunde ge ett liknande resultat som beslutsträdet och därmed stärka tillförlitligheten. Neurala nätverket fick en ackuratess på 88 procent vid klassificeringen av Tågsort. Utifrån dessa två resultat tyder det på att den större andelen tåguppdrag kunde klassifice-ras till rätt Tågsort. Det innebär att nuvarande klassificering av Tågsort fungerar när Trafikanalys presenterar officiell statistik.

För den nya tågklassificeringen analyserades tre grupper när hierarkisk klustring användes. Dessa tre grupper liknande inte dagens indelning för kortdistanståg, medeldistanståg och långdistanståg. Eftersom att de nya indelningarna blandade de olika persontågen går det inte med detta resultat att hitta en bättre indelning som kan användas när Trafikanalys presenterar officiell statistik.

(6)

(7)

Innehåll

1 Inledning 1 1.1 Bakgrund . . . 1 1.2 Syfte . . . 2 1.2.1 Frågeställningar . . . 2 1.3 Uppdragsgivare . . . 3 1.4 Etiska aspekter . . . 3 2 Data 4 2.1 Beskrivning av data . . . 4 2.2 Responsvariabel . . . 5 2.3 Avgränsningar . . . 5 2.4 Databearbetning . . . 6 2.4.1 Aggregering . . . 6 2.4.2 Variabelbearbetning . . . 7 2.5 Bortfall . . . 8 3 Metod 9 3.1 Klassificeringsmetoder . . . 9 3.1.1 Beslutsträd . . . 10 3.1.2 Neurala nätverk . . . 12

3.2 Ackuratess och felkvot . . . 14

3.3 Hierarkisk klustring . . . 15 3.3.1 Olikhetsmatris . . . 15 3.3.2 Avståndsmått . . . 16 3.3.3 Länkningsmetoder . . . 16 3.3.4 Dendrogram . . . 18 3.4 Standardisering . . . 19 3.5 Programvaror . . . 20

4 Resultat och analys 21 4.1 Beskrivande statistik . . . 21

4.1.1 Histogram över förklaringsvariablerna . . . 21

4.1.2 Andelen tågsorter som planerades . . . 25

4.1.3 Andelen tågtyper som planerades . . . 25

4.1.4 Pendeltåg . . . 26 4.1.5 Flygtåg . . . 26 4.1.6 Regionaltåg . . . 27 4.1.7 Fjärrtåg . . . 27 4.1.8 Snabbtåg . . . 27 4.2 Klassificering . . . 28 4.2.1 Beslutsträd . . . 28 4.2.2 Neurala nätverk . . . 29

(8)

INNEHÅLL

4.3 Hierarkisk klustring . . . 30

5 Diskussion och slutsats 35 6 Bilagor 40 6.1 Beslutsträd . . . 40

6.2 Neurala nätverk . . . 41

6.2.1 Utskrift från de slutgiltiga vikterna . . . 41

6.2.2 Diagram på de slutgiltiga vikterna . . . 42

6.3 Hierarkisk klustring . . . 43

6.3.1 Två stycken kluster . . . 43

(9)

Figurer

2.1 Korrelation mellan framförda variabler och planerade variabler. . . 5

2.2 Andelen tåguppdrag som planerats mellan år 2014 till 2017 under vecka fyra. . . 6

3.1 Exempel på ett beslutsträds uppbyggnad. . . 10

3.2 Ett neuralt nätverk med Q stycken noder i outputlagret och med M stycken noder i det gömda lagret. . . 13

3.3 Exempel på single link. . . 16

3.4 Exempel på complete link. . . 17

3.5 Exempel på group average. . . 18

3.6 Exempel på ett dendrogram. . . 18

4.1 Histogram som visar fördelningen för variabeln Antalet dragfordon. . 21

4.2 Histogram som visar fördelningen för variabeln Antalet hjulaxlar. . . 22

4.3 Histogram som visar fördelningen för variabeln Antalet vagnar. . . . 22

4.4 Histogram som visar fördelningen för variabeln Planerade kilometrar. 23 4.5 Histogram som visar fördelningen för variabeln Planerad km/h. . . . 23

4.6 Histogram som visar fördelningen för variabeln Planerad tågtid. . . 24

4.7 Histogram som visar fördelningen för variabeln Tåglängd. . . . 24

4.8 Histogram som visar fördelningen för variabeln Tågvikt. . . . 25

4.9 Dendrogram för hierarkisk klustring. . . 31

6.1 Beslutsträdet . . . 40

6.2 Tabell för neurala nätverkets variabelvikter. . . 41

(10)

Tabeller

1.1 Exempel på punktlighetsstatistik som handlar om den procentuella

förseningen. . . 2

2.1 Variabelbeskrivning för variabler som används i uppsatsens analys. . 4

2.2 Förklaring av responsvaribeln Tågsort. . . . 5

2.3 Exempel på ett icke-komprimerat datamaterial, fiktiva siffror. . . . 7

2.4 Exempel på ett komprimerat datamaterial, fiktiva siffror. . . . 7

3.1 Exempel på olikhetsmatris, fiktiva siffror . . . . 15

4.1 Andelen tågsorter som planerades mellan år 2014 till 2017 vecka fyra. 25 4.2 Andelen tågtyper som planerades mellan år 2014 till 2017 vecka fyra. 26 4.3 Beskrivande statistik för pendeltåg. . . 26

4.4 Beskrivande statistik för flygtåg. . . 26

4.5 Beskrivande statistik för regionaltåg. . . 27

4.6 Beskrivande statistik för fjärrtåg. . . 27

4.7 Beskrivande statistik för snabbtåg. . . 27

4.8 Ackuratess och felkvot för beslutsträdet. . . 28

4.9 Förväxlingsmatris över de predikterade och sanna tåguppdragen för Tågsort för beslutsträdet. . . . 28

4.10 Variable importance för Tågsort . . . . 29

4.11 Felkvot och ackuratess för neurala nätverket. . . 29

4.12 Förväxlingsmatris över de predikterade och sanna tåguppdragen för Tågsort för neurala nätverket. . . . 30

4.13 Hierarkisk klustring, kluster 1. . . 32

4.16 Hierarkisk klustring, fördelning av Tågsort i de olika klustrena. . . . 33

4.17 Hierarkisk klustring, fördelning av Tågtyp i de olika klustrena. . . . 33

6.1 Hierarkisk klustring, fördelning av Tågsort i de olika klustrena. Två stycken kluster. . . 43

6.2 Hierarkisk klustring, fördelning av Tågtyp i de olika klustrena. Två stycken kluster. . . 43

6.3 Hierarkisk klustring, fördelning av Tågsort i de olika klustrena. Fyra stycken kluster. . . 43

6.4 Hierarkisk klustring, fördelning av Tågtyp i de olika klustrena. Fyra styken kluster. . . 43

(11)

TABELLER

Centrala begrepp

Dragfordon - Fordon med egen framdrivningsutrustning.

Fjärrtåg - Fjärrtåg klassas som långdistanståg på Trafikverket och Trafikanalys punktlighetsstatistik. Dessa tåg transporterar resenärer vanligtvis längre sträckor. Flygtåg - Flygtåg är ett tåg som transporterar personer från en tätort till en flygplats. I Sverige är det enda flygtåget Arlanda Express. Dessa klassas som kort-distanståg.

Pendeltåg - Pendeltåg är ett tåg som oftast går korta sträckor lokalt och klassas som kortdistanståg i Trafikverket och Trafikanalys punktlighetsstatisik.

Regionaltåg - Persontåg som avser att transportera resenärer regionalt. Regional-tåg är ett Regional-tåg som klassas som medeldistansRegional-tåg i Trafikverket och Trafikanalys punktlighetsstatistik.

ROS - Rådet för den officiella statistiken.

Sammanvägt tillförlitlighetsmått (STM) - Andelen planerade persontåg, dagen innan avgång, som ankommit till sin slutstation högst fem minuter efter avsatt tid.

Snabbtåg - Snabbtåg är ett tåg som transporterar personer längre sträckor med snabbare fart. Ett snabbtåg klassas som långdistanståg i Trafikverket och Trafika-nalys punktlighetsstatistik.

Tågsort - Persontåg delas in i tre tågsorter: kortdistanståg, medeldistanståg och långdistanståg. Klassningen av tågsort bestäms av respektive tågoperatör i samråd med Trafikverket och avser att avspegla såväl tågets transportuppgift som tekniska egenskaper (Lindberg och Norlin, 2018).

Tågtyp - Olika sorters persontåg. Dessa delas in som pendeltåg, flygtåg, regional-tåg, fjärrtåg och snabbtåg.

Tåguppdrag - Ett planerat/framfört persontågs ID-nummer. Uppehåll - Antalet destinationer ett tåguppdrag haft.

(12)

(13)

1. Inledning

1.1 Bakgrund

Trafikanalys publicerar officiell statistik för att erbjuda det svenska folket informa-tion, för till exempel forskning eller utredningsverksamhet. På Statistiska Central-byråns hemsida förklaras begreppet ”Sveriges officiella statistik”, där de förklarar att statistiken som skall presenteras ska vara objektiv, allmänt tillgänglig och va-ra försedd med beteckningen ”Sveriges officiella statistik”. Det är regeringen som beslutar om vilka myndigheter som ansvarar för att presentera officiell statistik. Totalt finns det 28 myndigheter som har blivit utsedda till att presentera denna sorts statistik. Myndigheterna väljer metoder och vilken typ av statistik som ska framgå i rapporterna. Dokumenten presenteras sedan varje år den 31 mars till regeringen (SCB, 2018).

En av dessa myndigheter som ansvarar för att ta fram officiell statistik är Trafika-nalys. En av delarna i den officiella statistiken som Trafikanalys tillhandahåller är punktlighetsstatistik på Sveriges järnvägar. Den statistik som Trafikanalys publi-cerar har tagits fram med hjälp av Trafikverket. Informationen som läggs upp på Trafikanalys hemsida är rapporter, tabellverk och dokument. I nuläget finns do-kumentationer för varje kvartal under år 2015, 2016, 2017 och 2018. I dokumenten finns det statistik om bland annat tågförseningar, sammanvägt tillförlitlighetsmått (STM) och hur många tåg som har blivit inställda (Lindberg och Norlin, 2018). Statistiken ska ge en tydligare bild över hur tågtrafiken har fungerat under det se-naste kvartalet. I rapporterna som publiceras på Trafikanalys sorteras informatio-nen utifrån de tre tågsorterna kortdistanståg, medeldistanståg och långdistanståg. Trafikanalys beskriver dessa tågsorter som:

• Kortdistanståg - Persontåg som avser att transportera resenärer lokalt. Tågen annonseras vanligtvis som pendeltåg eller flygtåg.

• Medeldistanståg - Persontåg som avser att transportera resenärer regionalt. Tågen annonseras vanligtvis som regionaltåg.

• Långdistanståg - Persontåg som avser att transportera resenärer interregionalt. Tågen annonseras vanligtvis som fjärrtåg, nattåg eller snabbtåg.

(14)

Inledning

I tabell 1.1 visas ett exempel på hur Trafikanalys presenterar punktlighetsstatistik på järnvägar för tågsorterna kortdistanståg, medeldistanståg och långdistanståg. I tabellen visas den procentuella förseningen för de olika tågsorterna för år 2015, 2016 och 2017. Denna tabell innehåller fiktiva siffror och kolumnen Total procent är den totala procenten som alla tre tågsorter har varit försenad.

Tabell 1.1: Exempel på punktlighetsstatistik som handlar om den procentuella förseningen.

År Total procent Kortdistanståg Medeldistanståg Långdistanståg

2015 10 10 12 9

2016 11 11 9 14

2017 10 8 11 10

Trafikanalys och Trafikverket har inte utfört någon studie gällande tågindelningen som visas i tabell 1.1. Det betyder att indelningen för Tågsort är en subjektiv bedömning.

1.2 Syfte

Trafikanalys med hjälp av Trafikverket redovisar officiell statistik för kortdistans-tåg, medeldistanståg och långdistanståg på Trafikanalys hemsida. De tre tågka-tegorierna har inte någon vetenskaplig grund. Syftet med denna studie är därför att undersöka ifall dagens tågindelning fungerar och vilka variabler som hänger ihop med denna indelning. Syftet är även att undersöka om det finns någon bättre tågindelning som kan användas när Trafikanalys redovisar officiell statistik.

1.2.1 Frågeställningar

• Fungerar den nuvarande indelningen av kortdistanståg, medeldistanståg och långdistanståg vid redovisning av officiell statistik för tåg?

• Vilka variabler hänger ihop med dagens tågindelning

• Går det att hitta någon bättre tågindelning för redovisning av officiell sta-tistik?

(15)

Inledning

1.3 Uppdragsgivare

Trafikverket skapades den första april 2010 när Banverket, Vägverket, Rikstrafi-ken och Rederinämnden slogs ihop. Trafikverket ansvarar över transportsystemet för järnvägstrafik, vägtrafik, sjöfart och luftfart. Utöver det ansvarar de även för underhållet av statliga vägar och järnvägar (Trafikverket, 2016).

Trafikverket är en svensk statlig förvaltningsmyndighet som har cirka 6 500 per-soner anställda. Huvudkontoret är beläget i Borlänge men regionkontor finns även i Luleå, Gävle, Stockholm, Eskilstuna, Göteborg och Kristianstad.

1.4 Etiska aspekter

Denna studie baseras på ett datamaterial som innehåller information om person-tåg inom Sveriges järnvägar (undantag gällande Roslagsbanan och Saltsjöbanan i Stockholm). I datamaterialet finns ingen information om hur många eller vem som köpt en tågresa hos vilket eller vilka företag. Detta gör att studiens resultat inte behöver hållas dold.

(16)

2. Data

2.1 Beskrivning av data

Datamaterialet som används i uppsatsen innehåller information om tåguppdrag som planerades under vecka fyra mellan år 2014 till 2017. Denna vecka valdes slumpmässigt ut av Trafikverket. Datamaterialet har hämtats från Trafikverkets leveransuppföljningssystem. Det ursprungliga datamaterialet var ickekomprime-rad data, det betyder att de sträckor tågen ska framföras har inte sammanställts från den första till den sista hållplatsen. Istället har samma tåguppdrag flera ob-servationer, där det finns information om bland annat varje uppehåll tåget skall passera/stanna på och hur lång sträckan är emellan. I det ursprungliga datamate-rialet fanns totalt tio stycken numeriska variabler, resterande 29 variabler innehöll information om bland annat datum, antal uppehåll, startdestinationer och slut-destinationer.

Tabell 2.1: Variabelbeskrivning för variabler som används i uppsatsens analys.

Variabel Variabelbeskrivning

Antalet dragfordon Antalet dragfordon på persontåget Antalet hjulaxlar Antalet hjulaxlar på persontåget Antalet vagnar Antalet vagnar på persontåget

Planerade tågkilometrar De antal kilometrar tåget planerades att åka

Planerad km/h Det genomsnittliga hastigheten (km/h) för det planerade tåguppdraget

Planerad tågtid De antal minuter tåget planerats att framföra Tåglängd Längden på persontåget i meter

Tågsort Kortdistanståg, medeldistanståg och långdistanståg Tågtyp Pendeltåg, flygtåg, regionaltåg, fjärrtåg och snabbtåg Tågvikt Tågets vikt, utan passagerare

Variablerna som visas i tabell 2.1 är de variabler som använts för studiens resul-tat. Denna studie analyserar det komprimerade datamaterialet som bestod av tio stycken variabler. Tågsort och Planerade km/h har skapats från de ursprungliga variablerna. Efter att aggregeringen utförts återstod 74 825 unika tåguppdrag.

(17)

Data

2.2 Responsvariabel

Datamaterialet som använts i denna uppsats innehåller två nominala variabler, varav den ena nominala variabeln Tågsort är datamaterialets responsvariabel.

Tågsort indikerar huruvida ett tåguppdrag klassats som ett kortdistanståg,

medel-distanståg eller långmedel-distanståg. Denna variabel har skapats från den ursprungliga variabeln Tågtyp. Variabelns uppbyggnad förklaras i tabell 2.2 nedan.

Tabell 2.2: Förklaring av responsvaribeln Tågsort.

Tågtyp Tågsort Pendeltåg Kortdistanståg Flygtåg Kortdistanståg Regionaltåg Medeldistanståg Fjärrtåg Långdistanståg Snabbtåg Långdistanståg

2.3 Avgränsningar

Datamaterialet innehåller enbart tåguppdrag mellan år 2014 till 2017 under vecka fyra och denna vecka är slumpmässigt utvald av Trafikverket. I det ursprungliga datamaterialet förekom variabler om planerade tåguppdrag och hur de planerade tåguppdragen framfördes. I figur 2.1 visas korrelationen mellan de planerade vari-ablerna och de framförda. Eftersom dessa variabler korrelerar högt med varandra innebär det att tågtiden och tågkilometrarna som planerades överensstämmer med de tåg som framfördes.

(18)

Data

Eftersom variablerna i figur 2.1 visar ungefär samma information kommer bara in-formation om de planerade variablerna eller det framförda variablerna att väljas. På grund av att variabeln Framförd tågtid innehöll ofullständiga rader i datama-terialet, valdes det att använda de planerade variablerna istället för de framförda.

Figur 2.2: Andelen tåguppdrag som planerats mellan år 2014 till 2017 under vecka fyra.

Det som visualiseras i figur 2.2 är att det förekommer en jämn andel planerade tåguppdrag under vardagarna, under helgerna planerades inte en lika stor an-del tåguppdrag. Eftersom föran-delningen inte överensstämmer mellan vardagar och helger har författarna av studien valt att enbart fokusera på tåguppdrag som pla-nerades under vardagar.

2.4 Databearbetning

2.4.1 Aggregering

Eftersom det ursprungliga datamaterialet var ett ickekomprimerat datamaterial har aggregering varit nödvändigt för studien. Datamaterialet har aggregerats ut-ifrån tåguppdragets startdatum. Det aggregerade datamaterialet består av sam-manfattad information från tåguppdragets alla uppehåll. De variabler som exi-sterade i det aggregerade datamaterialet visas i tabell 2.1. Variablerna Antalet

(19)

Data

dragfordon, Antalet hjulaxlar och Antalet vagnar tolkas som diskreta variabler

in-nan aggregering. Efter att aggregering utförts har dessa varit medelvärdet för hela tåguppdraget. Det innebär ifall ett tåg tillsätter en vagn på en hållplats kommer inte medelvärdet bli diskret.

Tabell 2.3: Exempel på ett icke-komprimerat datamaterial, fiktiva siffror.

Tåguppdrag Startdatum Datum Planerad tågtid Planerade tågkilometer

1 2017-01-23 2017-01-23 3.5 2.1

1 2017-01-23 2017-01-24 6.4 3.2

1 2017-01-23 2017-01-24 6.3 3.4

2 2017-01-25 2017-01-25 7.2 4.3

2 2017-01-25 2017-01-25 7.4 4.5

I tabell 2.3 visas ett exempel på två ickekomprimerade tåguppdrag. Tåguppdrag ett har tre stycken rader och tåguppdrag två har två stycken rader. Aggregeringen utfördes utifrån variabeln Startdatum. Det gjordes på grund av att nattåg kan annars sammanfogas som två tåguppdrag istället för ett.

Tabell 2.4: Exempel på ett komprimerat datamaterial, fiktiva siffror.

Tåguppdrag Planerad tågtid Planerade tågkilometer

1 16.2 8.7

2 14.6 8.8

I tabell 2.4 visar hur exemplet i tabell 2.3 blivit efter aggregeringen utförts.

2.4.2 Variabelbearbetning

Utifrån det ursprungliga datamaterialet har två stycken nya variabler skapats. Dessa variabler är Planerade km/h och Tågsort.

Variabeln Planerade km/h beräknas utifrån formel 2.1.

Planerad km/h = Planerade tågkilometrar

Planerad tågtid/60 (2.1)

Variabeln Planerad km/h är den genomsnittliga hastigheten för hela tåguppdra-get. Det innebär tågets framförda genomsnittshastighet från startdestination till slutdestination.

Variabeln Tågsort har skapats från variabeln Tågtyp. Denna variabel förklaras i tabell 2.2. Indelningen av Tågsort har utgått ifrån dokument som finns tillgängliga på Trafikanalys hemsida (Lindberg och Norin, 2018).

(20)

Data

2.5 Bortfall

Det ickekomprimerade datamaterialet efter rensning av data från helger innehöll 1 407 577 observationer, utöver det var inte alla rader kompletta för de utvalda variablerna (se tabell 2.1 för mer information om variablerna). Därför valdes det att exkludera de ickekompletta raderna för att uppnå likvärdighet i datamaterialet. Efter denna rensning återstod 1 402 598 observationer.

Det innebar att 4 979 observationer klassades som bortfall. De ickekompletta ra-derna beror på planerade tåg har blivit inställda och därmed saknat information om vilken Tågsort de tillhört. Eftersom antalet observationer som saknade data var litet, rensades dessa observationer bort från studien.

(21)

3. Metod

3.1 Klassificeringsmetoder

I detta kapitel kommer metoderna beslutsträd och neurala nätverk att presenteras. Dessa metoder har används för att studera möjligheten att klassificera in de olika tåguppdragen till ett kortdistanståg, medeldistanståg eller långdistanståg. För att förstärka tillförlitligheten av analysen användes två olika klassificeringsmetoder parallellt.

Beslutsträd och neurala nätverk används för att klassificera observationer till dess kända responsvariabel med hjälp av övriga befintliga variabler. Nedan visas två studier för att förstärka valet av dessa metoder.

S. Sarikan, Murat Ozbayoglu och Zilci (2017) använde sig av beslutsträd för att klassificera två olika fordonstyper. De fordonstyper som studerades var bilar och motorcyklar. Datamaterialet som användes i denna studie utgick från bilder på de olika fordonstyperna. Resultatet för studien visade att beslutsträdet kunde klassi-ficera bilarna och motorcyklarna till rätt fordonstyp. I en annan studie har Chen m. fl. (2017) använt sig av neurala nätverk för att klassificera tre olika modeller av bilar. Modellerna som studerades var sedan, minibuss och SUV. Datamaterialet som användes i denna studie utgick även det från bilder på de olika bilmodellerna. Resultatet i studien visade att metoden neurala nätverk kunde klassificera de olika bilmodellerna med en ackuratess på cirka 98 procent. Uppsatsens studie hämtar inte data från bilder, dock stärks valet av metoder eftersom båda visade på goda resultat.

Beslutsträd och neurala nätverk kommer att användas för att besvara studiens frågeställning om den nuvarande indelningen av tågsorter fungerar vid redovisning av offentlig statistik. Beslutsträd används även för att besvara studiens andra frågeställning om vilka variabler som hänger ihop med dagens tågindelning. När en modellering utförs för beslutsträd och neurala nätverk delas datamaterialet slumpmässigt in i tre mängder träningsmängd, valideringsmängd och testmängd. Träningsmängden är den del av datamaterialet som förbereds för att klassificera in rätt observation till rätt responsklass. För att klassificeringen inte skall överan-passas, används en datamängd som kallas för valideringsmängd och den hjälper träningsmängden vid modellering. Slutligen skall modellen som är konstruerad av både träningsmängden och valdieringsmängden testas, till detta används

(22)

test-Metod

mängden.

För att hitta rätt storlekar på de olika mängderna utförs flertalet tester för att inte klassificeringsmetoderna skall överanpassas, men ändå få en hög ackuratess. I denna studie visade de sig att den bästa klassificeringen för både beslutsträd och neurala nätverk var när träningsmängden bestod av 60 procent av datamaterialet, 20 procent är valideringsmängden och resterande 20 procent är testmängden.

3.1.1 Beslutsträd

En av uppsatsens metoder är beslutsträd och det är en teknik som används inom data mining. Metoden är populär att använda vid klassificering, eftersom den är lätt att förstå och analysera. Några av fördelarna med att använda metoden är att starkt korrelerade variabler inte kommer att påverka resultatet och att den är robust mot brus.

Ett beslutsträds process vid klassificering kan beskrivas att datamängden delas upp till mindre och mindre grupper, där målet med grupperna är att de ska bli så lika varandra som möjligt och ingå i samma klass.

(23)

Metod

I figur 3.1 illustreras ett exempel på hur ett beslutsträd ser ut med en nominal responsvariabel med tre klasser. Högst upp i trädet finns en rotnod, utifrån den skapas en regel som bestämmer vägen till antingen lövnoder som avslutar förgre-ningen, eller till nya noder som fortsätter att sätta upp nya regler tills att trädet nått komplett struktur. Varje observation i modellen klassificeras sedan till den regel som observationen tillhör.

När ett beslutsträd är komplett, menas det att förgreningen av trädet avtar och att det avslutats med lövnoder. I figur 3.1 har beslutsträdet nått en komplett struktur. Ett beslutsträd kan ibland avslutas tidigare än förväntat och det kan ske när ett träd nått sitt maximala djup eller när en förgrening blivit klar tidigare än förväntat. Ett maximalt djup sätts för att modellen för beslutsträdet inte ska bli överanpassat.

Inom metoden beslutsträd finns det olika föroreningsmått. Förorening sker när observationer med olika klasser hamnat i samma nod. Därför används förorenings-mått för att minska att observationer med olika klass hamnar inom samma nod. De föroreningsmått som kommer användas i denna studie är Entropi och Gini. Dessa föroreningsmått visas i formel 3.1 och formel 3.2.

Entropi(t) = − c X h=1 p(h|t) · log2p(h|t) (3.1) Gini(t) = 1 − c X h=1 [p(h|t)]2 (3.2)

där p(h|t) är andelen observationer som tillhör klass h för given nod t, c är antalet klasser och log2 är logaritmen med bas 2 (Tan, Steinbach och Kumar, 2006).

När ett beslutsträds algoritm väljer ut en regel för trädets förgrening görs det genom att ett obegränsat antal regler uppstår. Utifrån dessa regler väljs sedan den regel med högst informationsvinst ut. Informationsvinsten, ∆, visas i formel 3.3.

∆ = I(f örälder) − k X f =1 N (vf) N I(vf) (3.3)

där I(.) är föroreningsmåttet för en given nod, N är antalet observationer i föräldra-noden, k är antalet attributvärden och N(vf) är antalet observationer i barnnoden,

vf. Föräldranoden är den nod som finns innan den skapade noden. Beslutsträd

(24)

Metod

Variablers betydelse för beslutsträd

Variable importance är ett mått som kan användas inom beslutsträd för att ta

reda på hur mycket betydelse olika variabler har haft för skapandet av trädet. Importance-måttet ligger mellan 0 och 1. Ett värde nära 1 är en variabel som haft stor betydelse och ett värde nära 0 är en variabel som haft lite betydelse för trädet. Enligt de Ville (2006) beräknas importance-måttet genom att studera trädets splittrade noders och lövnoders beslutsregler. Ifall en variabel är viktig för en splittring kommer denna variabel ha ett högt importance-mått. För de variabler som har betydelse för många av trädets nivåer, kommer variabelns importance-mått att öka. Dock innebär det inte att de variabler som har betydelse för många splittringar behöver ha det högsta importance-måttet. De variabler som inte före-kommer i någon av trädets regler har ingen betydelse alls, därmed värdet 0. För att beräkna variable importance i ett beslutsträd används SSE (summan av avvikelserna mellan observation och modell). Måttet SSE beräknas som Gini mul-tiplicerat med antalet observationer i noden. Variable importance beräknas för varje använd variabel efter att trädet har tränats klart. Den används för att be-döma vilka variabler som är viktigast för responsvariabeln och är relaterad till den totala minskningen i SSE som användandet av variabeln bidrar till. Metoden variable importance beskrivs i (SAS Institute Inc., 2013).

3.1.2 Neurala nätverk

Neurala nätverk är en klassificeringsmetod eller regressionsmetod. I denna stuide används neurala nätverk som en klassificeringsmetod. Neurala nätverk kan använ-das för datamaterial med variabler med skalorna intervall, binär, nominal eller ordinal. Metoden är även den teknik som beskrivs som en av de mest avancerade teknikerna inom data mining. Klassificeringsmetoden neurala nätverk letar efter mönster i en del av datamaterialet som sedan kan tillämpas på en del eller hela datamaterialet (Hastie, Tibshirani och Friedman, 2001).

Neurala nätverk är en prediktiv metod som baseras på en mängd inmatade uppgif-ter som genererar utmatade uppgifuppgif-ter, även kallat för inputlager och outputlager (se figur 3.2). Dessa lager är sammankopplade i det neurala nätverket och mellan dessa lager kan det finnas ett eller flera gömda lager.

(25)

Metod

Figur 3.2: Ett neuralt nätverk med Q stycken noder i outputlagret och med M stycken noder i det gömda lagret.

Outputlagrets noder används för att klassificera det mönster som datamaterialets responsvariabel har, i denna studies fall en nominal responsvariabel. Mellan input-lagret (X1, ..., Xp) och outputlagret (Y1, ..., YQ), finns ett gömt lager (Z1, ..., ZM)

som innehåller de gömda noderna (figur 3.2). Anledningen till varför de kallas gömda noder är för att de inte har någon koppling till omgivningen. De gömda lagrets noder kan liknas vid linjärkombinationer av inputlagrets noder (Hastie, Tibshirani och Friedman, 2001). Nedan visas formel 3.4 för neurala nätverk.

Zm = σ(α0m+ α0mX), m = 1, ..., M

Vq = β0q+ βq0Z, q = 1, ..., Q

Yq = gq(V ), q = 1, ..., Q

(3.4)

där Z = (Z1, Z2, ..., ZM) och V = (V1, V2, ..., VQ), σ och g är aktiveringsfunktioner,

α0m och β0q är bias och αam och βbq är vikten av kopplingarna.

För att skatta vikterna används bakåtpropagering. Algoritmen startar med slump-mässiga startvikter, där antalet startvikter som undersöks är antalet preliminära körningar som tillåts. Startvikterna som ger den lägsta felfunktionen itereras sedan vidare tills att konvergens uppnås.

När ett neuralt nätverk framställs så letar algoritmen efter det nätverk som mini-merar felfunktionen. Det innebär att ett globalt minimum är målet för nätverket, det går dock inte att veta om det är ett globalt minimum som har hittats.

För denna uppsats har felfunktionen multipel Bernoulli-funktion valt att använ-das. Den multipla Bernoulli-funktionen rekommenderas att använda vid antingen nominal eller ordinal responsvariabel. Funktionen använder sig av målklassernas vektorer och nätverkets output-värden (Chow m. fl., 1994).

(26)

Metod

I det gömda lagret och outputlagret används Softmax som aktiveringsfunktion. Det är aktiveringsfunktionen som avgör hur nodens output kommer att se ut. Softmax passar bra att använda när responsvariabeln för ett datamaterial är nominal eller binär. Aktiveringsfunktionen Softmax visas i formel 3.5 (Hastie, Tibshirani och Friedman, 2001). Sof tmax = gq(V ) = eVq PQ l=1eVl (3.5)

där V finns i formel 3.4, l är index för output-värdena, så l = 1, ..., Q och e är exponentialfunktionen.

För metoden neurala nätverk kan olika antal gömda lager användas. I denna studie har ett gömt lager använts för att minimera risken för överanpassning och en allt för komplex modell. Det är även bra att pröva flera olika antal noder i det gömda lagret. Det för att kunna jämföra modellernas resultat.

3.2 Ackuratess och felkvot

För de båda klassificeringsmetoderna som använts i studien kommer måttet

ac-kuratess att beräknas. Acac-kuratessen beräknar hur stor andel av observationerna

i datamaterialet som klassificerats rätt och felkvot är andelen observationer som klassificerats fel. Ett högt värde på ackuratessen innebär en bättre klassificering (Tan, Steinbach och Kumar, 2006).

F elkvot = F

P (3.6)

där F är hur stort antal av observationerna som klassificerats fel och P är totala antalet prediktioner.

Ackuratess = T

P = 1 − F elkvot (3.7)

där T är hur stort antal av observationerna som klassificerats rätt och P är totala antalet prediktioner. I studiens resultat kommer ackuratessen multipliceras med 100 för att kunna tolka resultatet i procent.

(27)

Metod

3.3 Hierarkisk klustring

Metoden hierarkisk klustring används i denna studie för att studera ifall det finns någon bättre tåggruppering än dagens indelning kortdistanståg, medeldistanståg och långdistanståg.

I en studie om affärsmodeller för svenska kreditinstitut har de undersökt ifall de finns likheter i affärsmodeller för svenska kreditinstitut och för svenska filialer av utländsk bank. Deras studie syftar till att hitta företagskluster för liknande affärsmodeller för kreditinstitut. Denna studie använder sig av hierarkisk klustring med Ward’s länkningsmetod (Cronqvist och Smed, 2016). I studien fungerade deras val av metod. Därmed stärker denna studie att hierarkisk klustring med Ward’s länkningsmetod kan användas för att studera olika sorters grupper.

Metoden hanterar alla unika observationer som egna kluster i början. Sedan grup-peras dessa med hjälp av en vald länkningsmetod. Den valda länkningsmetoden binder ihop observationer till grupper och detta repeteras tills att bara en grupp återstår. Hur klustren bildas beror på länkningsmetod. För att dessa skall kun-na bindas ihop måste en olikhetsmatris beräkkun-nas. I olikhetsmatrisen beräkkun-nas ett avstånd mellan alla observationer/kluster för att se vilka som skall bindas tillsam-mans.

3.3.1 Olikhetsmatris

Olikhetsmatrisen är en m×m matris som innehåller avståndet mellan de kluster som skapats från föregående iteration. Första olikhetsmatrisen innehåller avstån-det mellan alla unika observationer. Denna information används sedan för att nästa upprepning ska kunna genomföras med hjälp av en länkningsmetod. För att kunna beräkna en olikhetsmatris måste ett avstånd mellan de olika klustren uppskattas.

Tabell 3.1: Exempel på olikhetsmatris, fiktiva siffror

Kluster A B C

A 0.0 23.4 10.2

B 23.4 0.0 3.4

C 10.2 3.4 0.0

I tabell 3.1 visas ett exempel med fiktiva siffror på hur en olikhetsmatris kan se ut. I det här fallet visas det att det längsta avståndet är mellan kluster A och B medan det kortaste avståndet är mellan kluster B och C.

(28)

Metod

3.3.2 Avståndsmått

I hierarkisk klustring används avståndsmått för att räkna ut avstånden i olik-hetsmatrisen. I denna uppsats har euklidiskt avstånd använts. Detta beror på att datamaterialet som används innehöll enbart kontinuerliga variabler.

Euklidiskt avstånd

Euklidiskt avstånd är sträckan som är kortast mellan de olika observationerna, därför kallas detta avstånd ibland för fågelvägen.

dij =

q

(xi1− xj1)2+ · · · + (xip− xjp)2 (3.8)

där dij är avståndet mellan observationerna i och j, x är variabler, p är antalet

variabler, det vill säga antalet dimensioner i det euklidiska rummet. Detta av-ståndsmått beskrivs i boken (Manly, 2004).

3.3.3 Länkningsmetoder

De vanligaste länkningsmetoderna är närmaste grannen (single link), yttersta gran-nen (complete link), genomsnittslänkning (group average) och Ward’s. Nedan kom-mer dessa länkningsmetoder förklaras.

Närmaste grannen (Single link)

Denna metod utgår ifrån kortaste avståndet i olikhetsmatrisen. Det innebär att denna länkar samman de kluster som är närmast varandra i olikhetsmatrisen. Metoden använder alla observationer utan att ta hänsyn till uteliggare. Det gör att resultatet från denna metod kan påverkas utav dem.

(29)

Metod

I figur 3.3 visas det visuellt hur denna metod arbetar. De två cirklar som visas i figuren är kluster medan prickarna inuti är observationer. I detta fall kommer dessa två kluster bindas ihop. Metoden beskrivs i boken (Tan, Steinbach och Kumar, 2006).

Yttersta granne (Complete link)

Länkningsmetoden yttersta granne (complete link) använder sig av de maximala avståndet istället för det minimala avståndet i olikhetsmatrisen. Efter alla maxi-mala avstånd är beräknade kommer de två kluster som har de kortaste maximaxi-mala avståndet länkas tillsammans. I figur 3.4 visas ett exempel på hur denna metod fungerar. De två heldragna cirklarna är redan skapade kluster medan prickarna är observationer. I detta fall kommer de två klusteren med kortast maximala avstånd länkas ihop, det illustreras med streckad cirkel. Metoden beskrivs i boken (Tan, Steinbach och Kumar, 2006).

Figur 3.4: Exempel på complete link.

Genomsnittslänkning (Group Average)

Genomsnittslänkning är en länkningsmetod som beräknar medelavståndet mellan alla observationer i ett kluster till alla observationer i ett annat kluster. När me-delavståndet är beräknat mellan alla kluster länkas de två kluster med det kortaste medelavståndet ihop. I figur 3.5 visas ett exempel på hur metoden fungerar. Cirk-larna symboliserar kluster medan punkterna visar observationer. Metoden beskrivs i boken (Tan, Steinbach och Kumar, 2006).

(30)

Metod

Figur 3.5: Exempel på group average.

Ward’s länkningsmetod

Ward’s länkningsmetod beräknar avståndet mellan de olika klusterna genom att studera kvadratfelet inom klustret om de skulle slås samman. Det betyder att den söker den sammanslagning som skulle innebära minst påverkan på variansen inom klustret. Metoden använder sig av kvadratfelet inom klustret istället för distanser mellan observationer, därför skiljer sig denna metod åt jämfört med närmaste grannen, yttersta grannen och genomsnittslänkning. Metoden beskrivs i boken (Tan, Steinbach och Kumar, 2006).

3.3.4 Dendrogram

Dendrogram är ett visuellt verktyg som används när hierarkisk klustring tillämpas. Dendrogram visar avståndet mellan klustrena när de sammanfogas på den lodräta axeln och observationsnumreringen visas på den vågräta axeln. Verktyget används för att studera hur många kluster som är lämpligt att analysera.

Tolkningen av ett dendrogram är subjektiv. Det innebär att antalet kluster beror på betraktaren. Dock brukar den generella bedömningen ligga i att studera var den största uppdelningen längs den lodräta axeln är.

(31)

Metod

I figur 3.6 visas ett exempel på hur ett dendrogram kan se ut. Utifrån figur 3.6 kan tre streckade linjer visualiseras. Dessa tre streckade linjer korsar två, tre och fyra lodräta linjer. Antalet korsade linjer visar antalet kluster som förslagsvis bör analyseras i detta fall. Det innebär två, tre eller fyra kluster bör studeras.

Steg i en hierarkisk klustring

I punktlistan presenteras de olika stegen som utförs i hierarkisk klustring.

1: Välj variabler som är intressanta för studien. 2: Standardisera dessa.

3: Beräkna en olikhetsmatris.

4: Länka ihop kluster med hjälp av angiven länkningsmetod.

5: Uppdatera olikhetsmatrisen för att återspegla närheten mellan det nya klustren

som skapats.

6: Repetera: Steg 4 och 5. Tills: Bara ett kluster kvarstår.

7: Konstruera dendrogram för att visualisera antalet kluster som bör analyseras. 8: Välj antalet kluster med hjälp av dendrogram.

3.4 Standardisering

Standardisering har utförts på studiens datamaterial för att förklaringsvariablerna har haft olika skalor. Metoder som använt standardisering är beslutsträd, neurala nätverk och hierarkisk klustring.

För att en variabel ska kunna standardiseras måste den vara numerisk. Efter en standardisering kommer medelvärdet bli noll och standardavvikelsen ett. De nya värdena för variabeln visar hur pass långt ifrån de ligger det förväntade värdet. Är värdet negativt ligger det under det förväntande värdet och tvärtom för ett positivt värde. I formeln 3.9 visas det att den standardiserade variabeln u för observation i, blir det nya värdet för uN y.

uN y =

ui − ¯u

s (3.9)

ui är observationen som ska standardiseras, ¯u är medelvärdet för fördelningen av

(32)

Metod

3.5 Programvaror

I uppsatsen har följande statistiska programvaror använts:

• SAS 9.4 - Skapandet av hierarkisk klustring.

• SAS Enterprise Miner 13.1 - Skapandet av beslutsträd och neurala nätverk. • R Studio - Användes för databearbetning och beskrivande statistik.

(33)

4. Resultat och analys

Första delen av detta kapitel behandlar beskrivande statistik för de planerade tågtyperna. I senare delkapitel presenteras resultaten från metoderna beslutsträd, neurala nätverk och hierarkisk klustring.

4.1 Beskrivande statistik

4.1.1 Histogram över förklaringsvariablerna

Variablerna som presenterades i tabell 2.1 i kapitel 2.1 kommer att visualiseras med hjälp av histogram. Variablerna Tågsort och Tågtyp kommer inte att presenteras med histogram och det beror på att dessa variabler är kategoriska.

Figur 4.1: Histogram som visar fördelningen för variabeln Antalet dragfordon.

I figur 4.1 befinner sig den största andelen Antal dragfordon vid värdet ett, det innebär att de flesta planerade tågen i datamaterialet har ett dragfordon under hela resans gång. Det finns även några observationer i figur 4.1 som ligger mellan 4 till 7 dragfordon.

(34)

Resultat och analys

Figur 4.2: Histogram som visar fördelningen för variabeln Antalet hjulaxlar.

Den största andelen hjulaxlar som visas i figur 4.2 har cirka tio stycken hjulaxlar, det är ungefär 40 procent av alla tåguppdrag i datamaterialet som har tio hjulaxlar under hela tåguppdragets resa. Alla tåguppdrag har mellan 0 till 50 hjulaxlar. Det är mellan 10 till 15 procent som har 15 till 30 stycken hjulaxlar.

Figur 4.3: Histogram som visar fördelningen för variabeln Antalet vagnar.

I figur 4.3 visas det att de flesta tåguppdrag, över 90 procent, har inga vangar. Det finns dock några observationer mellan tre till nio stycken vagnar.

(35)

Resultat och analys

Figur 4.4: Histogram som visar fördelningen för variabeln Planerade kilometrar.

I figur 4.4 visas fördelningen för variabeln Planerade tågkilometrar. Den största andelen visas omkring 120 kilometer. Denna variabel har dock några observationer som ligger vid 750 kilometer.

Figur 4.5: Histogram som visar fördelningen för variabeln Planerad km/h.

Ett planerat tåg kör i genomsnitt mellan 50 km/h till drygt 160 km/h. Detta visas i figur 4.5. Den största andelen tåguppdrag kör dock mellan 60 km/h till 120 km/h. ’

(36)

Resultat och analys

Figur 4.6: Histogram som visar fördelningen för variabeln Planerad tågtid.

Omkring 100 minuter är den vanligaste planerade tågtiden för ett planerat tågupp-drag i datamaterialet. Det visas i figur 4.6. Dock finns några få observationer som ligger på cirka 500 minuter.

Figur 4.7: Histogram som visar fördelningen för variabeln Tåglängd.

I figur 4.7 visas det att den största andelen planerade tåg är drygt 75 meter långa. Det finns några få observationer som ligger på ungefär 400 meter.

(37)

Resultat och analys

Figur 4.8: Histogram som visar fördelningen för variabeln Tågvikt.

Det flesta planerade tåg i datamaterialet är drygt 150 ton till 220 ton tunga. I figur 4.8 visas fördelningen för hur tung de olika persontågen är inom datamaterialet. Det finns några få planerade tåg som är drygt 700 ton.

4.1.2 Andelen tågsorter som planerades

I tabell 4.1 visas den totala andelen tågsorter som planerades.

Tabell 4.1: Andelen tågsorter som planerades mellan år 2014 till 2017 vecka fyra.

Kortdistanståg Medeldistanståg Långdistanståg

Totalt 50.3 % 42.2 % 7.5 %

Enligt tabell 4.1 består cirka 50 procent av datamaterialet av kortdistanståg. Även medeldistanstågen har en stor andel tåguppdrag på cirka 42 procent, medan lång-distanstågen enbart har en andel på cirka åtta procent.

4.1.3 Andelen tågtyper som planerades

I tabell 4.2 visas andelen för tågtyperna pendeltåg, flygtåg, regionaltåg, fjärrtåg och snabbtåg som planerades.

(38)

Resultat och analys

Tabell 4.2: Andelen tågtyper som planerades mellan år 2014 till 2017 vecka fyra.

Pendeltåg Flygtåg Regionaltåg Fjärrtåg Snabbtåg Totalt 44.4 % 5.9 % 42.2 % 3.1 % 4.4 %

Den största andelen tågtyper som planerades är pendeltåg och regionaltåg. Minsta andelen planerade tåg är fjärrtågen på drygt tre procent.

4.1.4 Pendeltåg

Tabell 4.3: Beskrivande statistik för pendeltåg.

Max Min Medel Median Standardavvikelse Planerad kilometrar 199.914 6.364 67.229 67.492 36.624

Planerad km/h 129.695 8.071 71.373 70.904 14.888 Planerad tågtid (min) 160.000 8.000 58.580 61.000 31.223 Tåglängd 240.000 5.000 132.980 100.000 63.173

Ett pendeltåg kör i snitt 6.7 mil med en tid på drygt 58.6 minuter från första till sista station. Medelhastigheten ligger på drygt 71.4 kilometer i timmen. Det minsta ett pendeltåg kör är 6.4 kilometer och den maximala sträckan är drygt 20 mil. Topphastigheten för ett planerat pendeltåg är 130 kilometer i timmen. Ett pendeltåg är som längst 240 meter och som minst fem meter.

4.1.5 Flygtåg

Tabell 4.4: Beskrivande statistik för flygtåg.

Ett flygtåg har en medelsträcka på 3.9 mil med en planerad genomsnittstid på 20 minuter. Flygtågets medelhastighet är 118 kilometer i timmen. Den planerade maxhastigheten är dock 147 km/h. Ett flygtåg är varken större eller mindre än 93 meter.

(39)

Resultat och analys

4.1.6 Regionaltåg

Tabell 4.5: Beskrivande statistik för regionaltåg.

Regionaltågets medeldistans är cirka 14 mil medan den längsta sträckan som pla-nerats är 61 mil. Den genomsnittliga hastigheten på ett regionaltåg är drygt 90 kilometer i timmen. Ett regionaltåg är som längst 556 meter och som minst 32 meter.

4.1.7 Fjärrtåg

Tabell 4.6: Beskrivande statistik för fjärrtåg.

Fjärrtåget längsta planerade sträcka är 152 mil medan kortaste är 1.7 kilometer. Dock brukar medelavstånden vara ungefär 38 mil. Ett fjärrtåg har en medelhas-tighet på 95 kilometer i timmen. Ett fjärrtåg är som längst 430 meter och som minst 55 meter.

4.1.8 Snabbtåg

Tabell 4.7: Beskrivande statistik för snabbtåg.

Ett snabbtåg har en medelhastighet på 127 km/h och har en medeldistans på drygt 45 mil. Den längsta sträckan ett snabbtåg planeras att köra är cirka 76 mil medan

(40)

Resultat och analys

de kortaste är 2.2 mil. Ett snabbtåg är som längst 330 meter och som minst 106 meter.

4.2 Klassificering

I detta kapitel kommer resultatet för beslutsträd och neurala nätverk att presen-teras. De båda metoderna har använt ett standardiserat datamaterial. Samtliga variabler som finns i tabell 2.1 har använts förutom variabeln Tågtyp. Det be-ror på att Tågsort skapades utifrån denna variabel och är responsvariabeln för klassificeringsmetoderna.

4.2.1 Beslutsträd

Beslutsträdet som skapats har provat flera olika djup, men det träd som gav bäst resultat och inte blev överanpassat var ett djup på tre och en splittring på tre, då responsvariabeln Tågsort har tre klasser. Föroreningsmåttet som användes för beslutsträdet var Gini då det gav lägst felkvot av de två föroreningsmåtten. Det fullständiga beslutsträdet går att betrakta i bilaga 6.1.

Tabell 4.8: Ackuratess och felkvot för beslutsträdet.

Felkvot Ackuratess 7.49 % 92.51 %

Tabell 4.8 visar att 92.51 procent av tåguppdragen har klassificerats till rätt

Tågs-ort med hjälp av beslutsträdet. Felkvoten i tabell 4.8 ligger på 7.49 procent vilket

tyder på att 7.49 procent av tåguppdragen har klassificerats till fel Tågsort. En förväxlingsmatris har tagit fram för att se hur stor andel tåguppdrag som predikterats till dess rätta Tågsort och hur stor andel som predikterats fel. En bra modell ska innehålla en stor andel tåguppdrag i diagonalen eftersom det betyder att tåguppdragen klassificerats rätt. Denna matris visas i tabell 4.9.

Tabell 4.9: Förväxlingsmatris över de predikterade och sanna tåguppdragen för Tågsort för beslutsträdet.

Sanna

Tågsort Kortdistanståg Medeldistanståg Långdistanståg

Predikterade Kortdistanståg 92.68 % 2.09 % 0.00 % Medeldistanståg 7.03 % 91.75 % 6.64 %

(41)

Resultat och analys

I tabell 4.9 har cirka 92.7 procent kortdistanståg, cirka 91.6 procent medeldi-stanståg och cirka 93.4 procent långdimedeldi-stanståg predikterats rätt. Cirka 0.3 procent långdistanståg har predikterats som kortdistanståg och cirka sju procent medeldi-stanståg har predikterats som kortdimedeldi-stanståg. Inget kortdimedeldi-stanståg har predikte-rats till ett långdistanståg och cirka 6.6 procent medeldistanståg har prediktepredikte-rats som långdistanståg. Utifrån tabell 4.8 och tabell 4.9 tyder dessa resultat på att större andelen tåguppdrag kunde klassificeras till rätt Tågsort med hjälp av för-klaringsvariablerna.

Tabell 4.10: Variable importance för Tågsort

Variabler Antal uppdelade regler Importance

Tåglängd 2 1.00 Planerade tågkilometrar 5 0.87 Planerad km/h 3 0.34 Planerad tågtid 1 0.08 Antal dragfordon 0 0.00 Antal vagnar 0 0.00 Antal hjulaxlar 0 0.00 Tågvikt 0 0.00

I tabell 4.10 visas vilka variabler som har haft betydelse för klassificeringen av

Tågsort. Den variabel som har högst importance i tabell 4.10 är Tåglängd. Plane-rade tågkilometrar och Planerad km/h har också haft stor betydelse för

beslutsträ-det, men även variabeln Planerad tågtid har haft lite betydelse. De variabler som inte haft någon betydelse alls för beslutsträdets klassificering var Antal dragfordon,

Antal vagnar, Antal hjulaxlar och Tågvikt.

4.2.2 Neurala nätverk

När neurala nätverk skapas anges alltid hur många noder nätverket ska innehålla och antalet gömda lager. För studiens neurala nätverk användes ett gömt lager, det för att inte få en allt för komplex modell. Det har prövats att använda flera olika antal noder (mellan fyra till nio stycken noder) i det gömda lagret för att få fram det bästa neurala nätverket och det bästa antalet noder var fem.

Tabell 4.11: Felkvot och ackuratess för neurala nätverket.

Felkvot Ackuratess 12.00 % 88.00 %

Tabell 4.11 visar att totalt 88 procent av tåguppdragen har klassificerats till rätt

(42)

Resultat och analys

procent vilket tyder på att 12 procent av tåguppdragen har klassificerats till fel

Tågsort.

En förväxlingsmatris har tagit fram för att se hur stor andel tåguppdrag som predikterats till dess rätta Tågsort och hur stor andel som predikterats fel. En bra modell ska innehålla en stor andel tåguppdrag i diagonalen eftersom det betyder att tåguppdragen klassificerats rätt. Denna matris visas i tabell 4.12.

Tabell 4.12: Förväxlingsmatris över de predikterade och sanna tåguppdragen för Tågsort för neurala nätverket.

Sanna

Tågsort Kortdistanståg Medeldistanståg Långdistanståg

Predikterade Kortdistanståg 90.12 % 8.77 % 0.00 % Medeldistanståg 9.46 % 85.96 % 14.40 %

Långdistanståg 0.43 % 5.27 % 85.60 %

I tabell 4.12 har cirka 90.1 procent kortdistanståg, cirka 86 procent medeldistans-tåg och 85.6 procent långdistansmedeldistans-tåg predikterats till rätt Tågsort. Cirka 0.4 procent långdistanståg har predikterats som kortdistanståg och cirka 9.5 procent medel-distanståg har predikterats som kortmedel-distanståg. Dock har cirka 8.8 procent kort-distanståg predikterats som medelkort-distanståg och cirka 5.3 procent långkort-distanståg har predikterats som medeldistanståg. Inget kortdistanståg har predikterats till ett långdistanståg och 14.4 procent medeldistanståg har predikterats som långdistans-tåg. Utifrån tabell 4.11 och tabell 4.12 tyder dessa resultat på att större andelen tåguppdrag kunde klassificeras till rätt Tågsort med hjälp av förklaringsvariabler-na.

4.3 Hierarkisk klustring

I detta kapitel kommer resultat av hierarkisk klustring presenteras. Hierarkisk klustring används för att undersöka ifall en bättre fördelning av tåguppdrag kate-goriseras när en oövervakad inlärning används, samt studera ifall liknelser mellan dess indelning och dagens tåggruppering tågsort existerar. För att studera ifall en bättre indelning existerar visas fördelningen i de olika klustren av variabeln

Tåg-typ, ifall en ny lätthanterlig indelning av Tågtyp existerar anser författarna att en

objektivt bättre fördelning är hittad. Samtliga variabler som finns i tabell 2.1 har använts i klustringen förutom variabeln Tågtyp och Tågsort.

I resultatet har Ward’s länkningsmetod anpassats. Denna metod gav en bättre uppdelning jämfört med metoderna närmaste grannen (single link), yttersta gran-ne (complete link), genomsnittslänkning (group Average). De andra metoderna aggregerade ihop datamaterialet till ett stort kluster, jämfört med

(43)

länkningsme-Resultat och analys

toden Ward’s som gav en uppdelning på tre kluster som visas i figur 4.9. Därför valdes det att studera resultatet från länkningsmetoden Ward’s i denna studie.

Figur 4.9: Dendrogram för hierarkisk klustring.

I figur 4.9 visas dendrogrammet för den hierarkiska klustringen. Dendrogrammet visar en uppdelning av datamaterialet på två, tre eller fyra grupper. Utifrån denna visualisering valdes det att studera tre kluster. Detta berodde på att författarna ansåg att det var den tydligaste uppdelningen men också för att jämföra likheter och olikheter mellan dagens tågindelning och den nya gruppering som visas i re-sultatet i detta kapitel. Dock visas fördelningen av två och fyra kluster för både

Tågsort och Tågtyp i bilaga (se 6.1, 6.2, 6.3 och 6.4).

I tabellerna 4.13, 4.14 och 4.15 visas information om de olika klustren. Informatio-nen som framgår i tabellerna är antalet tåguppdrag i klustren, det standardiserade medelvärdet, standardavvikelsen, minimala värdet och det maximala värdet för de förklarande variablerna.

(44)

Resultat och analys

Tabell 4.13: Hierarkisk klustring, kluster 1.

N Medelvärde Std Min Max

Antalet dragfordon 28 630 0.678 1.293 −1.566 11.248 Antalet hjulaxlar 28 630 0.458 0.904 −1.702 5.282 Antalet vagnar 28 630 −0.283 0.040 −0.285 1.423 Planerade tågkilometer 28 630 0.274 0.927 −0.903 4.564 Planerad km/h 28 630 −0.296 0.984 −2.197 2.962 Planerad tågtid 28 630 0.388 0.878 −0.998 4.452 Tåglängd 28 630 0.629 0.935 −1.771 6.700 Tågvikt 28 630 0.498 0.933 −1.785 5.003

I tabell 4.13 visas det att de 28 630 unika tåguppdrag har klassats i kluster ett. Dessa tåguppdrag har fler dragfordon och hjulaxlar, kör länge sträckor, är tyngre och är längre än det genomsnittliga tåguppdraget. Det visas för att dessa vari-abler har ett positivt medelvärde. De varivari-abler som har ett negativt medelvärde är variablerna Antalet vagnar och Planerad km/h. Det innebär att tåguppdragen som klassats i detta kluster har färre antal vagnar och kör långsammare än det genomsnittliga tåguppdraget.

Antalet dragfordon 40 017 −0.471 0.277 −1.566 0.764 Antalet hjulaxlar 40 017 −0.590 0.414 −1.702 0.293 Antalet vagnar 40 017 −0.285 0.003 −0.285 0.285 Planerade tågkilometer 40 017 −0.424 0.300 −0.944 0.794 Planerad km/h 40 017 0.021 0.850 −3.422 3.326 Planerad tågtid 40 017 −0.453 0.384 −1.076 1.903 Tåglängd 40 017 −0.642 0.393 −1.771 1.886 Tågvikt 40 017 −0.593 0.438 −1.785 0.246

Tabell 4.14 visar information om kluster två. I detta kluster har 40 017 unika tåguppdrag placerats. Alla medelvärden är negativa förutom ett, det medelvärde som är positivt är Planerad km/h, värdet för denna är 0.012. Detta värde är nära noll, det innebär att tåguppdragen i kluster två har en planerad medelhastighet som liknar det allmänna medelvärdet för det 74 825 unika tåguppdragen som analyserats i denna studie.

(45)

Resultat och analys

Antalet dragfordon 6178 −0.092 0.536 −1.566 1.929 Antalet hjulaxlar 6178 1.702 1.042 −0.739 6.678 Antalet vagnar 6178 3.158 1.111 0.501 9.396 Planerade tågkilometer 6178 1.480 1.961 −0.783 10.752 Planerad km/h 6178 1.236 1.005 −1.328 3.671 Planerad tågtid 6178 1.133 2.068 −0.907 14.180 Tåglängd 6178 1.247 1.000 −0.933 4.780 Tågvikt 6178 1.537 1.019 −0.750 5.826

I tabell 4.15 visas det tredje klustret. Antalet tåguppdrag i detta kluster är 6 178 stycken. Ett medelvärde är negativt och det är för variabeln Antalet dragfordon. Detta värde är −0.092, när denna siffra är nära noll innebär det att medelvärdet för tåguppdragen i kluster tre har nästan lika många dragfordon som det genom-snittliga tåguppdraget. Alla andra variabler är större än noll det innebär att tåget har ett högre medelvärde på dessa variabler. Variabeln Antalet vagnar visar att det är mycket fler vagnar på de tåguppdrag som ligger i detta kluster jämfört med kluster ett och två.

Tabell 4.16: Hierarkisk klustring, fördelning av Tågsort i de olika klustrena.

Kortdistanståg Medeldistanståg Långdistanståg Total

Kluster 1 20.3 % 14.6 % 3.4 % 38.3 %

Kluster 2 30.0 % 23.2 % 0.2 % 53.4 %

Kluster 3 0.0 % 4.4 % 3.9 % 8.3 %

Total 50.3 % 42.2 % 7.5 % 100.0 %

I tabell 4.16 visas fördelningen för tåguppdrag som finns i kluster ett, två och tre gällande den nutida tågindelningen. Det som visas är att kluster ett är blandad med både kortdistanståg, medeldistanståg och långdistanståg. Kluster två finns den största andelen för både kortdistanståg och medeldistanståg, detta kluster har också den minsta andelen långdistanståg på 0.2 %. I kluster tre visas den största andelen av långdistanståg på 3.9 procent och 4.4 procent medeldistanståg och inte ett enda kortdistanståg har klassats i denna grupp.

Tabell 4.17: Hierarkisk klustring, fördelning av Tågtyp i de olika klustrena.

Pendeltåg Flygtåg Regionaltåg Fjärrtåg Snabbtåg Total Kluster 1 20.3 % 0.0 % 14.6 % 1.5 % 1.9 % 38.3 % Kluster 2 24.1 % 5.9 % 23.2 % 0.2 % 0.0 % 53.4 % Kluster 3 0.0 % 0.0 % 4.4 % 1.4 % 2.5 % 8.3 %

(46)

Resultat och analys

I tabell 4.17 visas fördelningen för det tre olika klustren för variabeln tågtyp. I kluster ett är det flest pendeltåg och regionaltåg. Dock visas det att fjärrtåg och snabbtåg också klassats in i detta kluster. Flygtåg finns bara i kluster två, kluster två innehåller också pendeltåg och regionaltåg. Detta kluster har knappt några fjärrtåg eller snabbtåg. Kluster tre innehåller regionaltåg, fjärrtåg och snabbtåg.

(47)

5. Diskussion och slutsats

I denna studie har författarna använt beslutsträd, neurala nätverk samt hierarkisk klustring för att undersöka indelningen av tågkategorierna kortdistanståg, medel-distanståg och långmedel-distanståg. Den första frågeställningen var:

• Fungerar den nuvarande indelningen av kortdistanståg, medeldistanståg och långdistanståg vid redovisning av officiell statistik för tåg?

Beslutsträdet fick en ackuratess på 92.51 procent och det neurala nätverket en ac-kuratess på 88.0 procent. Båda klassificeringsmetodernas acac-kuratess är hög, vilket tyder på att den större andelen tåguppdrag kunde klassificeras till dagens indelning av Tågsort. I och med detta resultat tyder de på att den nuvarande klassificeringen av kortdistanståg, medeldistanståg och långdistanståg fungerar vid redovisning av Trafikanalys officiella statistik.

Det skiljer sig cirka 4.5 procentenheter mellan de olika klassificeringsmetoderna. Detta resultat kan bero på metodernas val av inställningar för föroreningsmått, felfunktion och aktiveringsfunktion, men även på vilka storlekar träningsmängden, valideringsmängden och testmängden har haft. Eftersom att båda metoderna vi-sade på hög ackuratess kan dagens indelning av Tågsort fungera att använda när Trafikanalys redovisar officiell statistik. Däremot finns det inget i detta resultat som säger att denna indelning är den lämpligaste.

Den andra frågeställningen var:

• Vilka variabler hänger ihop med dagens tågindelning?

De variabler som hade betydelse för klassificeringen av Tågsort för beslutsträdet var Tåglängd, Planerade tågkilometrar, Planerad km/h och Planerad tågtid.

Tåglängd, Planerade tågkilometrar och Planerad km/h var de variabler som hade

störst betydelse för klassificeringen. Tåglängd hade en importance på 1.00,

Plane-rade tågkilometrar en importance på 0.87 och Planerad km/h en importance på

0.34.

Variabeln Tåglängd kan ha haft betydelse för att de olika tågsorternas längd skil-jer sig. Ett kortdistanståg (pendeltåg och flygtåg) är som längst 240 meter och ett

(48)

Diskussion och slutsats

långdistanståg (fjärrtåg och snabbtåg) 430 meter. Planerade tågkilometrar hade den näst största betydelsen. Även här skiljer det sig maxvärdet, speciellt mellan kortdistanstågen och långdistanstågen på antalet kilometrar ett tåg planerat att åka. Ett kortdistanståg åker som längst 199 kilometrar och ett långdistanståg som längst 1 520 kilometrar. Planerad km/h skiljer sig också för kortdistanstågen och långdistanstågen. Medeldistanstågens (regionaltåg) värden för variablerna ligger mittemellan kortdistanstågens och långdistanstågens värden.

Detta kan ha påverkat resultatet för beslutsträdets och neurala nätverkets förväx-lingsmatriser. I förväxlingsmatriserna predikterades knappt inga långdistanståg till kortdistanståg och inget kortdistanståg predikterades till att vara ett långdistans-tåg. Däremot predikterades en mindre andel kortdistanståg och långdistanståg till att vara ett medeldistanståg för neurala nätverkets förväxlingsmatris. Vid en diskussion med en av Trafikverkets medarbetare (Sjöberg, 2018) kan detta även berott på att del tåguppdrag ibland blivit klassade som både kortdistanståg och medeldistanståg.

Den tredje frågeställningen var:

• Går det att hitta någon bättre tågindelning för redovisning av officiell sta-tistik?

För den nya grupperingen visades tre grupper. I den första gruppen förekom 28 630 stycken unika tåguppdrag för kortdistanståg, medeldistanståg och långdistanståg. Den andra gruppen innehöll 40 017 unika tåguppdrag, i detta kluster var det markant mer kortdistanståg och medeldistanståg, även alla flygtåg som studerades i datamaterialet klassades in i denna grupp. Grupp tre innehöll 6 178 tåguppdrag. I detta kluster förekom bara medeldistanståg och långdistanståg.

Eftersom att indelningen blandade de olika persontågen går det inte med detta resultat att hitta ett bättre sätt för indelningen av tågsorterna.

Fördelningen för Tågsort för de tre olika klustren kan återigen kopplas till den beskrivande statistiken men också till neurala nätverkets förväxlingsmatris. Medel-distanstågen är blandad i både kluster ett, två och tre, medan kortMedel-distanstågen bara förekommer i kluster ett och två och långdistanstågen bara finns i kluster ett och tre. Det tyder på att kortdistanstågen och långdistanstågen kan skilja sig, medan medeldistanstågen har svårare att klassas in i ett specifikt kluster.

Fördelningen av tågtyperna som delats in i kluster ett, två eller tre studeras ifall det går att hitta någon bättre indelning än dagens tåggruppering. En bättre in-delning i denna studie syftar på att hitta en ny inin-delning som är objektiv genom en oövervakad inlärning. Variabeln Tågtyp användes till detta för att hitta en ny indelning som är lätt att anpassa men också lätt att förstå. Det innebär ifall exempelvis alla pendeltåg hamnat i ett kluster medan alla flygtåg hamnat i ett