• No results found

3.3 Hierarkisk klustring

4.1.4 Pendeltåg

Tabell 4.3: Beskrivande statistik för pendeltåg.

Max Min Medel Median Standardavvikelse Planerad kilometrar 199.914 6.364 67.229 67.492 36.624

Planerad km/h 129.695 8.071 71.373 70.904 14.888 Planerad tågtid (min) 160.000 8.000 58.580 61.000 31.223 Tåglängd 240.000 5.000 132.980 100.000 63.173

Ett pendeltåg kör i snitt 6.7 mil med en tid på drygt 58.6 minuter från första till sista station. Medelhastigheten ligger på drygt 71.4 kilometer i timmen. Det minsta ett pendeltåg kör är 6.4 kilometer och den maximala sträckan är drygt 20 mil. Topphastigheten för ett planerat pendeltåg är 130 kilometer i timmen. Ett pendeltåg är som längst 240 meter och som minst fem meter.

4.1.5

Flygtåg

Tabell 4.4: Beskrivande statistik för flygtåg.

Max Min Medel Median Standardavvikelse Planerad kilometrar 39.400 5.060 39.270 39.230 0.519

Planerad km/h 147.110 30.570 118.360 117.690 9.478 Planerad tågtid (min) 21.000 5.000 20.030 20.000 0.293 Tåglängd 93.000 93.000 93.000 93.000 0.000

Ett flygtåg har en medelsträcka på 3.9 mil med en planerad genomsnittstid på 20 minuter. Flygtågets medelhastighet är 118 kilometer i timmen. Den planerade maxhastigheten är dock 147 km/h. Ett flygtåg är varken större eller mindre än 93 meter.

Resultat och analys

4.1.6

Regionaltåg

Tabell 4.5: Beskrivande statistik för regionaltåg.

Max Min Medel Median Standardavvikelse Planerad kilometrar 613.410 1.110 141.780 113.140 96.385

Planerad km/h 178.320 12.480 89.260 89.980 15.927 Planerad tågtid (min) 427.000 2.000 96.350 74.000 64.499 Tåglängd 556.000 32.000 92.843 60.000 62.432

Regionaltågets medeldistans är cirka 14 mil medan den längsta sträckan som pla- nerats är 61 mil. Den genomsnittliga hastigheten på ett regionaltåg är drygt 90 kilometer i timmen. Ett regionaltåg är som längst 556 meter och som minst 32 meter.

4.1.7

Fjärrtåg

Tabell 4.6: Beskrivande statistik för fjärrtåg.

Max Min Medel Median Standardavvikelse Planerad kilometrar 1520.050 17.070 382.260 322.690 294.517

Planerad km/h 147.68 19.420 95.240 96.030 12.431 Planerad tågtid (min) 1175.000 9.000 248.900 200.000 214.479 Tåglängd 430.000 55.000 192.622 188.000 81.262

Fjärrtåget längsta planerade sträcka är 152 mil medan kortaste är 1.7 kilometer. Dock brukar medelavstånden vara ungefär 38 mil. Ett fjärrtåg har en medelhas- tighet på 95 kilometer i timmen. Ett fjärrtåg är som längst 430 meter och som minst 55 meter.

4.1.8

Snabbtåg

Tabell 4.7: Beskrivande statistik för snabbtåg.

Max Min Medel Median Standardavvikelse Planerad kilometrar 756.740 21.960 449.400 455.730 146.863

Planerad km/h 162.760 23.960 126.680 129.780 16.215 Planerad tågtid (min) 427.000 11.000 208.200 196.000 68.109 Tåglängd 330.000 106.000 151.393 165.000 32.021

Ett snabbtåg har en medelhastighet på 127 km/h och har en medeldistans på drygt 45 mil. Den längsta sträckan ett snabbtåg planeras att köra är cirka 76 mil medan

Resultat och analys

de kortaste är 2.2 mil. Ett snabbtåg är som längst 330 meter och som minst 106 meter.

4.2

Klassificering

I detta kapitel kommer resultatet för beslutsträd och neurala nätverk att presen- teras. De båda metoderna har använt ett standardiserat datamaterial. Samtliga variabler som finns i tabell 2.1 har använts förutom variabeln Tågtyp. Det be- ror på att Tågsort skapades utifrån denna variabel och är responsvariabeln för klassificeringsmetoderna.

4.2.1

Beslutsträd

Beslutsträdet som skapats har provat flera olika djup, men det träd som gav bäst resultat och inte blev överanpassat var ett djup på tre och en splittring på tre, då responsvariabeln Tågsort har tre klasser. Föroreningsmåttet som användes för beslutsträdet var Gini då det gav lägst felkvot av de två föroreningsmåtten. Det fullständiga beslutsträdet går att betrakta i bilaga 6.1.

Tabell 4.8: Ackuratess och felkvot för beslutsträdet.

Felkvot Ackuratess 7.49 % 92.51 %

Tabell 4.8 visar att 92.51 procent av tåguppdragen har klassificerats till rätt Tågs-

ort med hjälp av beslutsträdet. Felkvoten i tabell 4.8 ligger på 7.49 procent vilket

tyder på att 7.49 procent av tåguppdragen har klassificerats till fel Tågsort. En förväxlingsmatris har tagit fram för att se hur stor andel tåguppdrag som predikterats till dess rätta Tågsort och hur stor andel som predikterats fel. En bra modell ska innehålla en stor andel tåguppdrag i diagonalen eftersom det betyder att tåguppdragen klassificerats rätt. Denna matris visas i tabell 4.9.

Tabell 4.9: Förväxlingsmatris över de predikterade och sanna tåguppdragen för Tågsort för beslutsträdet.

Sanna

Tågsort Kortdistanståg Medeldistanståg Långdistanståg

Predikterade Kortdistanståg 92.68 % 2.09 % 0.00 % Medeldistanståg 7.03 % 91.75 % 6.64 %

Resultat och analys

I tabell 4.9 har cirka 92.7 procent kortdistanståg, cirka 91.6 procent medeldi- stanståg och cirka 93.4 procent långdistanståg predikterats rätt. Cirka 0.3 procent långdistanståg har predikterats som kortdistanståg och cirka sju procent medeldi- stanståg har predikterats som kortdistanståg. Inget kortdistanståg har predikte- rats till ett långdistanståg och cirka 6.6 procent medeldistanståg har predikterats som långdistanståg. Utifrån tabell 4.8 och tabell 4.9 tyder dessa resultat på att större andelen tåguppdrag kunde klassificeras till rätt Tågsort med hjälp av för- klaringsvariablerna.

Tabell 4.10: Variable importance för Tågsort

Variabler Antal uppdelade regler Importance

Tåglängd 2 1.00 Planerade tågkilometrar 5 0.87 Planerad km/h 3 0.34 Planerad tågtid 1 0.08 Antal dragfordon 0 0.00 Antal vagnar 0 0.00 Antal hjulaxlar 0 0.00 Tågvikt 0 0.00

I tabell 4.10 visas vilka variabler som har haft betydelse för klassificeringen av

Tågsort. Den variabel som har högst importance i tabell 4.10 är Tåglängd. Plane- rade tågkilometrar och Planerad km/h har också haft stor betydelse för beslutsträ-

det, men även variabeln Planerad tågtid har haft lite betydelse. De variabler som inte haft någon betydelse alls för beslutsträdets klassificering var Antal dragfordon,

Antal vagnar, Antal hjulaxlar och Tågvikt.

4.2.2

Neurala nätverk

När neurala nätverk skapas anges alltid hur många noder nätverket ska innehålla och antalet gömda lager. För studiens neurala nätverk användes ett gömt lager, det för att inte få en allt för komplex modell. Det har prövats att använda flera olika antal noder (mellan fyra till nio stycken noder) i det gömda lagret för att få fram det bästa neurala nätverket och det bästa antalet noder var fem.

Tabell 4.11: Felkvot och ackuratess för neurala nätverket.

Felkvot Ackuratess 12.00 % 88.00 %

Tabell 4.11 visar att totalt 88 procent av tåguppdragen har klassificerats till rätt

Resultat och analys

procent vilket tyder på att 12 procent av tåguppdragen har klassificerats till fel

Tågsort.

En förväxlingsmatris har tagit fram för att se hur stor andel tåguppdrag som predikterats till dess rätta Tågsort och hur stor andel som predikterats fel. En bra modell ska innehålla en stor andel tåguppdrag i diagonalen eftersom det betyder att tåguppdragen klassificerats rätt. Denna matris visas i tabell 4.12.

Tabell 4.12: Förväxlingsmatris över de predikterade och sanna tåguppdragen för Tågsort för neurala nätverket.

Sanna

Tågsort Kortdistanståg Medeldistanståg Långdistanståg

Predikterade Kortdistanståg 90.12 % 8.77 % 0.00 % Medeldistanståg 9.46 % 85.96 % 14.40 %

Långdistanståg 0.43 % 5.27 % 85.60 %

I tabell 4.12 har cirka 90.1 procent kortdistanståg, cirka 86 procent medeldistans- tåg och 85.6 procent långdistanståg predikterats till rätt Tågsort. Cirka 0.4 procent långdistanståg har predikterats som kortdistanståg och cirka 9.5 procent medel- distanståg har predikterats som kortdistanståg. Dock har cirka 8.8 procent kort- distanståg predikterats som medeldistanståg och cirka 5.3 procent långdistanståg har predikterats som medeldistanståg. Inget kortdistanståg har predikterats till ett långdistanståg och 14.4 procent medeldistanståg har predikterats som långdistans- tåg. Utifrån tabell 4.11 och tabell 4.12 tyder dessa resultat på att större andelen tåguppdrag kunde klassificeras till rätt Tågsort med hjälp av förklaringsvariabler- na.

4.3

Hierarkisk klustring

I detta kapitel kommer resultat av hierarkisk klustring presenteras. Hierarkisk klustring används för att undersöka ifall en bättre fördelning av tåguppdrag kate- goriseras när en oövervakad inlärning används, samt studera ifall liknelser mellan dess indelning och dagens tåggruppering tågsort existerar. För att studera ifall en bättre indelning existerar visas fördelningen i de olika klustren av variabeln Tåg-

typ, ifall en ny lätthanterlig indelning av Tågtyp existerar anser författarna att en

objektivt bättre fördelning är hittad. Samtliga variabler som finns i tabell 2.1 har använts i klustringen förutom variabeln Tågtyp och Tågsort.

I resultatet har Ward’s länkningsmetod anpassats. Denna metod gav en bättre uppdelning jämfört med metoderna närmaste grannen (single link), yttersta gran- ne (complete link), genomsnittslänkning (group Average). De andra metoderna aggregerade ihop datamaterialet till ett stort kluster, jämfört med länkningsme-

Resultat och analys

toden Ward’s som gav en uppdelning på tre kluster som visas i figur 4.9. Därför valdes det att studera resultatet från länkningsmetoden Ward’s i denna studie.

Figur 4.9: Dendrogram för hierarkisk klustring.

I figur 4.9 visas dendrogrammet för den hierarkiska klustringen. Dendrogrammet visar en uppdelning av datamaterialet på två, tre eller fyra grupper. Utifrån denna visualisering valdes det att studera tre kluster. Detta berodde på att författarna ansåg att det var den tydligaste uppdelningen men också för att jämföra likheter och olikheter mellan dagens tågindelning och den nya gruppering som visas i re- sultatet i detta kapitel. Dock visas fördelningen av två och fyra kluster för både

Tågsort och Tågtyp i bilaga (se 6.1, 6.2, 6.3 och 6.4).

I tabellerna 4.13, 4.14 och 4.15 visas information om de olika klustren. Informatio- nen som framgår i tabellerna är antalet tåguppdrag i klustren, det standardiserade medelvärdet, standardavvikelsen, minimala värdet och det maximala värdet för de förklarande variablerna.

Resultat och analys

Tabell 4.13: Hierarkisk klustring, kluster 1.

N Medelvärde Std Min Max

Antalet dragfordon 28 630 0.678 1.293 −1.566 11.248 Antalet hjulaxlar 28 630 0.458 0.904 −1.702 5.282 Antalet vagnar 28 630 −0.283 0.040 −0.285 1.423 Planerade tågkilometer 28 630 0.274 0.927 −0.903 4.564 Planerad km/h 28 630 −0.296 0.984 −2.197 2.962 Planerad tågtid 28 630 0.388 0.878 −0.998 4.452 Tåglängd 28 630 0.629 0.935 −1.771 6.700 Tågvikt 28 630 0.498 0.933 −1.785 5.003

I tabell 4.13 visas det att de 28 630 unika tåguppdrag har klassats i kluster ett. Dessa tåguppdrag har fler dragfordon och hjulaxlar, kör länge sträckor, är tyngre och är längre än det genomsnittliga tåguppdraget. Det visas för att dessa vari- abler har ett positivt medelvärde. De variabler som har ett negativt medelvärde är variablerna Antalet vagnar och Planerad km/h. Det innebär att tåguppdragen som klassats i detta kluster har färre antal vagnar och kör långsammare än det genomsnittliga tåguppdraget.

Tabell 4.14: Hierarkisk klustring, kluster 2.

N Medelvärde Std Min Max

Antalet dragfordon 40 017 −0.471 0.277 −1.566 0.764 Antalet hjulaxlar 40 017 −0.590 0.414 −1.702 0.293 Antalet vagnar 40 017 −0.285 0.003 −0.285 0.285 Planerade tågkilometer 40 017 −0.424 0.300 −0.944 0.794 Planerad km/h 40 017 0.021 0.850 −3.422 3.326 Planerad tågtid 40 017 −0.453 0.384 −1.076 1.903 Tåglängd 40 017 −0.642 0.393 −1.771 1.886 Tågvikt 40 017 −0.593 0.438 −1.785 0.246

Tabell 4.14 visar information om kluster två. I detta kluster har 40 017 unika tåguppdrag placerats. Alla medelvärden är negativa förutom ett, det medelvärde som är positivt är Planerad km/h, värdet för denna är 0.012. Detta värde är nära noll, det innebär att tåguppdragen i kluster två har en planerad medelhastighet som liknar det allmänna medelvärdet för det 74 825 unika tåguppdragen som analyserats i denna studie.

Resultat och analys

Tabell 4.15: Hierarkisk klustring, kluster 3.

N Medelvärde Std Min Max

Antalet dragfordon 6178 −0.092 0.536 −1.566 1.929 Antalet hjulaxlar 6178 1.702 1.042 −0.739 6.678 Antalet vagnar 6178 3.158 1.111 0.501 9.396 Planerade tågkilometer 6178 1.480 1.961 −0.783 10.752 Planerad km/h 6178 1.236 1.005 −1.328 3.671 Planerad tågtid 6178 1.133 2.068 −0.907 14.180 Tåglängd 6178 1.247 1.000 −0.933 4.780 Tågvikt 6178 1.537 1.019 −0.750 5.826

I tabell 4.15 visas det tredje klustret. Antalet tåguppdrag i detta kluster är 6 178 stycken. Ett medelvärde är negativt och det är för variabeln Antalet dragfordon. Detta värde är −0.092, när denna siffra är nära noll innebär det att medelvärdet för tåguppdragen i kluster tre har nästan lika många dragfordon som det genom- snittliga tåguppdraget. Alla andra variabler är större än noll det innebär att tåget har ett högre medelvärde på dessa variabler. Variabeln Antalet vagnar visar att det är mycket fler vagnar på de tåguppdrag som ligger i detta kluster jämfört med kluster ett och två.

Tabell 4.16: Hierarkisk klustring, fördelning av Tågsort i de olika klustrena.

Kortdistanståg Medeldistanståg Långdistanståg Total

Kluster 1 20.3 % 14.6 % 3.4 % 38.3 %

Kluster 2 30.0 % 23.2 % 0.2 % 53.4 %

Kluster 3 0.0 % 4.4 % 3.9 % 8.3 %

Total 50.3 % 42.2 % 7.5 % 100.0 %

I tabell 4.16 visas fördelningen för tåguppdrag som finns i kluster ett, två och tre gällande den nutida tågindelningen. Det som visas är att kluster ett är blandad med både kortdistanståg, medeldistanståg och långdistanståg. Kluster två finns den största andelen för både kortdistanståg och medeldistanståg, detta kluster har också den minsta andelen långdistanståg på 0.2 %. I kluster tre visas den största andelen av långdistanståg på 3.9 procent och 4.4 procent medeldistanståg och inte ett enda kortdistanståg har klassats i denna grupp.

Tabell 4.17: Hierarkisk klustring, fördelning av Tågtyp i de olika klustrena.

Pendeltåg Flygtåg Regionaltåg Fjärrtåg Snabbtåg Total Kluster 1 20.3 % 0.0 % 14.6 % 1.5 % 1.9 % 38.3 % Kluster 2 24.1 % 5.9 % 23.2 % 0.2 % 0.0 % 53.4 % Kluster 3 0.0 % 0.0 % 4.4 % 1.4 % 2.5 % 8.3 %

Resultat och analys

I tabell 4.17 visas fördelningen för det tre olika klustren för variabeln tågtyp. I kluster ett är det flest pendeltåg och regionaltåg. Dock visas det att fjärrtåg och snabbtåg också klassats in i detta kluster. Flygtåg finns bara i kluster två, kluster två innehåller också pendeltåg och regionaltåg. Detta kluster har knappt några fjärrtåg eller snabbtåg. Kluster tre innehåller regionaltåg, fjärrtåg och snabbtåg.

5. Diskussion och slutsats

I denna studie har författarna använt beslutsträd, neurala nätverk samt hierarkisk klustring för att undersöka indelningen av tågkategorierna kortdistanståg, medel- distanståg och långdistanståg. Den första frågeställningen var:

• Fungerar den nuvarande indelningen av kortdistanståg, medeldistanståg och långdistanståg vid redovisning av officiell statistik för tåg?

Beslutsträdet fick en ackuratess på 92.51 procent och det neurala nätverket en ac- kuratess på 88.0 procent. Båda klassificeringsmetodernas ackuratess är hög, vilket tyder på att den större andelen tåguppdrag kunde klassificeras till dagens indelning av Tågsort. I och med detta resultat tyder de på att den nuvarande klassificeringen av kortdistanståg, medeldistanståg och långdistanståg fungerar vid redovisning av Trafikanalys officiella statistik.

Det skiljer sig cirka 4.5 procentenheter mellan de olika klassificeringsmetoderna. Detta resultat kan bero på metodernas val av inställningar för föroreningsmått, felfunktion och aktiveringsfunktion, men även på vilka storlekar träningsmängden, valideringsmängden och testmängden har haft. Eftersom att båda metoderna vi- sade på hög ackuratess kan dagens indelning av Tågsort fungera att använda när Trafikanalys redovisar officiell statistik. Däremot finns det inget i detta resultat som säger att denna indelning är den lämpligaste.

Den andra frågeställningen var:

• Vilka variabler hänger ihop med dagens tågindelning?

De variabler som hade betydelse för klassificeringen av Tågsort för beslutsträdet var Tåglängd, Planerade tågkilometrar, Planerad km/h och Planerad tågtid.

Tåglängd, Planerade tågkilometrar och Planerad km/h var de variabler som hade

störst betydelse för klassificeringen. Tåglängd hade en importance på 1.00, Plane-

rade tågkilometrar en importance på 0.87 och Planerad km/h en importance på

0.34.

Variabeln Tåglängd kan ha haft betydelse för att de olika tågsorternas längd skil- jer sig. Ett kortdistanståg (pendeltåg och flygtåg) är som längst 240 meter och ett

Diskussion och slutsats

långdistanståg (fjärrtåg och snabbtåg) 430 meter. Planerade tågkilometrar hade den näst största betydelsen. Även här skiljer det sig maxvärdet, speciellt mellan kortdistanstågen och långdistanstågen på antalet kilometrar ett tåg planerat att åka. Ett kortdistanståg åker som längst 199 kilometrar och ett långdistanståg som längst 1 520 kilometrar. Planerad km/h skiljer sig också för kortdistanstågen och långdistanstågen. Medeldistanstågens (regionaltåg) värden för variablerna ligger mittemellan kortdistanstågens och långdistanstågens värden.

Detta kan ha påverkat resultatet för beslutsträdets och neurala nätverkets förväx- lingsmatriser. I förväxlingsmatriserna predikterades knappt inga långdistanståg till kortdistanståg och inget kortdistanståg predikterades till att vara ett långdistans- tåg. Däremot predikterades en mindre andel kortdistanståg och långdistanståg till att vara ett medeldistanståg för neurala nätverkets förväxlingsmatris. Vid en diskussion med en av Trafikverkets medarbetare (Sjöberg, 2018) kan detta även berott på att del tåguppdrag ibland blivit klassade som både kortdistanståg och medeldistanståg.

Den tredje frågeställningen var:

• Går det att hitta någon bättre tågindelning för redovisning av officiell sta- tistik?

För den nya grupperingen visades tre grupper. I den första gruppen förekom 28 630 stycken unika tåguppdrag för kortdistanståg, medeldistanståg och långdistanståg. Den andra gruppen innehöll 40 017 unika tåguppdrag, i detta kluster var det markant mer kortdistanståg och medeldistanståg, även alla flygtåg som studerades i datamaterialet klassades in i denna grupp. Grupp tre innehöll 6 178 tåguppdrag. I detta kluster förekom bara medeldistanståg och långdistanståg.

Eftersom att indelningen blandade de olika persontågen går det inte med detta resultat att hitta ett bättre sätt för indelningen av tågsorterna.

Fördelningen för Tågsort för de tre olika klustren kan återigen kopplas till den beskrivande statistiken men också till neurala nätverkets förväxlingsmatris. Medel- distanstågen är blandad i både kluster ett, två och tre, medan kortdistanstågen bara förekommer i kluster ett och två och långdistanstågen bara finns i kluster ett och tre. Det tyder på att kortdistanstågen och långdistanstågen kan skilja sig, medan medeldistanstågen har svårare att klassas in i ett specifikt kluster.

Fördelningen av tågtyperna som delats in i kluster ett, två eller tre studeras ifall det går att hitta någon bättre indelning än dagens tåggruppering. En bättre in- delning i denna studie syftar på att hitta en ny indelning som är objektiv genom en oövervakad inlärning. Variabeln Tågtyp användes till detta för att hitta en ny indelning som är lätt att anpassa men också lätt att förstå. Det innebär ifall exempelvis alla pendeltåg hamnat i ett kluster medan alla flygtåg hamnat i ett

Diskussion och slutsats

annat, hade en bättre fördelning varit att inte använda sig av kortdistanståg utan bara pendeltåg och flygtåg när punktlighetsstatistiken presenteras. Dock visas ing- en uppenbar indelning gällande variabeln Tågtyp, därmed går det inte med detta resultat att hitta ett bättre sätt att dela in tågtyperna.

Vid skapandet av beslutsträdet har olika inställningar testats för trädet djup och föroreningsmått. Det är dock svårt att hitta de bästa inställningarna på grund av begränsade algoritmer inom beslutsträd och det har varit ett problem vid skapan- det av trädet. Mängden på träningsmängd, valideringsmängd och testmängd har även varit problematiskt under skapandet, eftersom ett träd lätt kan överanpassas. De mängder som tillslut gav ett träd som inte blev överanpassat var en tränings- mängd på 60 procent, en valideringsmängd på 20 procent och en testmängd på 20 procent.

Vid skapandet av neurala nätverk har flera antal olika noder testats och jämförts i det gömda lagret. Det för att jämföra vilket neuralt nätverk som gav det bästa resultatet. Ett problem vid skapandet av det neurala nätverket har varit att hitta vilka mängder som ska användas för träningsmängd, valideringsmängd och test- mängd för att nätverket till en början överanpassades. De mängder som tillslut inte gav ett överanpassat neuralt nätverk var en träningsmängd på 60 procent, en valideringsmängd på 20 procent och en testmängd på 20 procent. I neurala nät- verk är det svårt att tolka vikterna på variablerna, till skillnad mot beslutsträd där variable importance kunde tolkas lätt. Därför presenterades aldrig vikterna för variablerna i det neurala nätverket för studiens resultat. Trots det användes ändå neurala nätverk för att kunna stärka tillförlitligheten.

Olika frön har testats för indelningen av träningsmängd, valideringsmängd och testmängd när beslutsträd och neurala nätverk användes. Detta för att utesluta att slumpen är det som påverkat klassificeringsmetodernas resultat.

Vid valet av klassificeringsmetoder hade även multipel logistisk regression varit lämplig eftersom denna metod, precis som beslutsträd, kan ta fram vilka variabler som har störst inflytande på klassificeringen. Denna metod rekommenderar för- fattarna för vidare studier där det skulle kunde undersökas om samma eller olika variabler hänger ihop med dagens indelning för Tågsort.

Tolkning av ett dendrogram är en subjektiv bedömning, det innebär att antalet kluster kan variera beroende på betraktare. Det gör att detta visualiseringsverktyg har ett varierande resultat. I studiens fall kan både två eller fyra kluster vara relevant att undersöka. Dock valdes det i studien att analysera tre för att denna uppdelning var tydligast för författarna, men också för att det skulle vara intressant att se olikheter och likheter mellan dagens tåggruppering och den nya.

Under studiens gång har länkningsmetoderna närmaste grannar (single link), yt- tersta grannar (complete link), genomsnittslänkning (group average) och Ward’s

Diskussion och slutsats

testats. Närmaste grannar, yttersta grannar och genomsnittslänkning visades bara två kluster, ena klustret innehöll nästintill alla tåguppdrag i datamaterialet, medan det andra klustret bara tilldelades ett fåtal. Resultatet för dessa länkningsmeto- der var därmed mindre intressant för studien, därför testades länkningsmetoden Ward’s. Denna metod visade en ny uppdelning av datamaterialet till skillnad från de andra länkningsmetoderna.

När visualiseringsverktyg användes har några observationer varit uteliggare. Detta kan vara en bidragande orsak till varför många länkningsmetoder inte fungerade på ett önskvärt sätt.

Hierarkisk klustring är en långsam klustringsmetod, det gör att anpassningen av denna metod tar tid eller inte alls fungerar i vissa fall. Studiens datamaterial in- nehåller 74 825 observationer, denna allokering utfördes på cirka en och en halv timme i programvaran SAS 9.4. Programvaran R-Studio har inte kunnat använ- das när hierarkisk klustring allokerats. En anledning till detta problem kan varit författarnas datorer som inte är lämpade för denna allokeringsmängd.

Litteratur

Chen, Y. m. fl. (2017). Vehicle type classification based on convolutional neural

network. 2017 Chinese Automation Congress (CAC), 20-22 Oct, 201. doi: 10.

1109/CAC.2017.8243078.

Chow, M.-Y. m. fl. (1994). Bernoulli Error Measure Approach to Train Feedforward

Artificial Neural Networks for Classification Problems. Proceedings of 1994 IE-

EE International Conference on Neural Networks (ICNN’94), 28 June-2 Jul, 1994. doi: 10.1109/ICNN.1994.374136.

Cronqvist, E. och F. Smed (2016). Affärsmodeller på den svenska bankmarknaden. Examensarbete, KTH, Stockholm.

de Ville, B. (2006). Decision Trees for Business Intelligence and Data Mining:

Using SAS Enterprise Miner. SAS Institute Inc.

Hastie, T., R. Tibshirani och J. Friedman (2001). The Elements of Statistical Le-

arning. Data Mining, Inference, and Prediction. Springer, New York.

Lindberg, F. och A. Norin (2018). Punktlighet på järnväg 2017 kvartal 4. Trafika- nalys, 22 Jan 2018. url: https://www.trafa.se/globalassets/statistik/ bantrafik / punktlighet - pa - jarnvag / 2017 / punktlighet - pa - jarnvag - 2017-kvartal-4.pdf? (hämtad 4 febr. 2018).

Lindberg, F. och A. Norlin (2018). Punktlighet på järnväg. Trafikanalys. url: https : / / www . trafa . se / bantrafik / punktlighet - pa - jarnvag/ (hämtad 1 febr. 2018).

Manly, B. F. (2004). Multivariate Statistical Methods: A Primer, Third Edition. Chapman och Hall/CRC, New York.

S. Sarikan, S., A. Murat Ozbayoglu och O. Zilci (2017). Automated Vehicle Clas-

sification with Image Processing and Computational Intelligence. 2017 Elsevi-

er Science Publishers B. V. Amsterdam, The Netherlands, 1 Nov, 2017. doi: 10.1016/j.procs.2017.09.022.

SAS Institute Inc. (2013). SAS Enterprise MinerR TM 13.1: High-Performance

Procedures. Cary, NC: SAS Institute Inc.

SCB (2018). Samordning av Sveriges officiella statistik. Statistiska Centralbyrån.

Related documents