• No results found

Identifiering av områden med förhöjd olycksrisk för cyklister baserad på cykelhjälmsdata

N/A
N/A
Protected

Academic year: 2021

Share "Identifiering av områden med förhöjd olycksrisk för cyklister baserad på cykelhjälmsdata"

Copied!
31
0
0

Loading.... (view fulltext now)

Full text

(1)

Teknik och samh¨alle

Datavetenskap och medieteknik

Examensarbete 15 h¨ogskolepo¨ang, grundniv˚a

Identifiering av omr˚

aden med f¨orh¨ojd olycksrisk f¨or cyklister

baserad p˚

a cykelhj¨almsdata

Identification of areas with increased risk of accidents for cyclists based on bicycle helmet data

Sven Lindqvist

Johannes Roos

Examen: Kandidatexamen 180 hp Huvudomr˚ade: Datavetenskap Program: Systemutvecklare

Datum f¨or slutseminarium: 2020-06-01

Handledare: Jan Persson Examinator: Johan Holmgren

(2)

Sammanfattning

Antalet cyklister i Sverige v¨antas ¨oka under kommande ˚ar, men trots stora insatser f¨or trafiks¨akerheten minskar inte antalet allvarliga cykelolyckor i samma takt som bilolyckor. Denna studie har tittat p˚a cykelhj¨alm-tillverkaren H¨ovdings data som samlats in fr˚an deras kunder. Hj¨almen fungerar som en krockkudde som l¨oses ut vid en kraftig huvudr¨orelse som sker vid en olycka. Datan bets˚ar av GPS-positioner tillsammans med ett v¨arde fr˚an en Support Vector Machine (SVM) som indikerar hur n¨ara en hj¨alm ¨ar att registrera en olycka och d¨armed l¨osas ut. Syftet med studien var att analysera denna data fr˚an cyklister i Malm¨o f¨or att se om det g˚ar att identifiera platser som ¨ar ¨overrepresenterade i antalet f¨orh¨ojda SVM-niv˚aer, och om dessa platser speglar verkliga, potentiellt farliga trafiksituationer. Density-based spatial clustering of applications with noise (DBSCAN) anv¨andes f¨or att identifiera kluster av f¨orh¨ojda SVM-niv˚aer. DBSCAN ¨ar en o¨overvakad maskininl¨arningsalgoritm som ofta anv¨ands f¨or att klustra p˚a spatial data med brusdata i datam¨angden.

Fr˚an dessa kluster r¨aknades antalet unika cykelturer som genererat en f¨orh¨ojd SVM-niv˚a i klustret, samt totala antalet cykelturer som passerat genom klustret. 405 kluster identifierades och sorterades p˚a flest unika cykelturer som genererat en f¨orh¨ojd SVM-niv˚a, varp˚a de 30 ¨oversta valdes ut f¨or n¨armare analys. F¨or att validera klusterna mot regi-strerade cykelolyckor h¨amtades data fr˚an fr˚an Swedish Traffic Accident Data Acquisition (STRADA), den nationella olycksdatabasen i Sverige. De trettio utvalda klustren hade 0,082% cykelolyckor per unik cykeltur i klustren och f¨or resterande 375 kluster var siffran 0,041%. Antal olyckor per kluster i de utvalda trettio klustren var 0,46 och siffran f¨or ¨

ovriga kluster var 0,064. De topp trettio klustren kategoriserades sedan i tre kategorier. De kluster som hade en eventuell f¨orklaring till f¨orh¨ojda SVM-niv˚aer, som farthinder och kullersten gavs kategori 1. H¨ovding har kommunicerat att s˚adana inslag i underlaget kan generera en l¨agre grad av f¨orh¨ojd SVM-niv˚a. Kategori 2 var de kluster som hade haft en byggarbetsplats inom klustret. Kategori 3 var de kluster som inte kunde f¨orklaras med n˚agot av de andra tv˚a kategorierna. Andel olyckor per unik cykeltur i kluster som tillh¨orde kategori 1 var 0,068%, f¨or kategori 2 0,071% och kategori 3 0,106%.

Resultaten indikerar att denna data ¨ar anv¨andbar f¨or att identifiera platser med f¨orh¨ojd olycksrisk f¨or cyklister. Datan som behandlats i denna studie har en rad svagheter i sig varp˚a resultaten b¨or tolkas med f¨orsiktigthet. Exempelvis ¨ar datam¨angden fr˚an en kort tidsperiod, ca 6 m˚anader, varp˚a s¨asongsbetingat cykelbeteende inte ¨ar representerat i dataunderlaget. Det antas ¨aven f¨orekomma en del brusdata, vilket eventuellt har p˚averkat resultaten. Men det finns potential i denna typ av data att i framtiden, n¨ar mer data samlats in, med st¨orre tr¨affs¨akerhet kunna identifiera olycksdrabbade platser f¨or cyklister.

(3)
(4)

Abstract

The number of cyclists in Sweden is expected to increase in the coming years, but despite major efforts in road safety, the number of serious bicycle accidents does not decrease at the same rate as car accidents.

This study has looked at the data collected by the bicycle helmet manufacturer H¨ovding’s customers. The helmet acts as an airbag that is triggered when a strong head movement occurs in the event of an accident. The data consists of GPS positions along with a Sup-port Vector machine (SVM)- generated value which indicates how close the helmet is to registering an accident, and thus is triggered. The purpose of the study was to analyze this data from cyclists in Malm¨o to see if it’s possible to identify places that are over-represented in the number of elevated SVM levels, and whether these sites reflect real, potentially dangerous traffic situations. Density-based spatial clustering of applications with noise (DBSCAN) was used to identify clusters of elevated SVM levels. DBSCAN is an unsupervised clustering algorithm widely used when clustering on spatial data.

From these clusters, the number of unique cycle trips that generated an elevated SVM level in the cluster was calculated, as well as the total number of cycle trips that passed through each cluster. 405 clusters were identified and sorted by the highest number of unique bike rides that generated an elevated SVM level, whereupon the top 30 were selected for further analysis. In order to validate the clusters against registered bicycle accidents, data were obtained from the Swedish Traffic Accident Data Acquisition (STRADA), the national accident database in Sweden. The thirty selected clusters had 0.082 % cycling accidents per unique cycle trip in the clusters and for the remaining 375 clusters the figure was 0.041 %. The number of accidents per cluster in the selected thirty clusters was 0.46 and the number for the other clusters was 0.064.

The top thirty clusters were then categorized into three categories. The clusters that had a possible explanation for elevated SVM levels, such as cruise barriers and cobblestones were given category 1. H¨ovding has communicated that such elements in the substrate can generate elevated SVM levels. Category 2 was the clusters that had a construction site within the cluster. Category 3 was the clusters that could not be explained by any of the other two categories. The proportion of accidents per unique cycle trip in clusters belonging to category 1 was 0.068 %, for category 2 0.071 % and for category 3 0.106 %.

The results indicate that this data is useful for identifying places with increased risk of accidents for cyclists. The data processed in this study has a number of weaknesses in itself and the results should be interpreted with caution. For example, the data is from a short period of time, about 6 months, whereby seasonal cycling behavior is not represented in the data set. The data set is also assumed to contain some noisy data, which may have affected the results. But there is potential in this type of data so that in the future, when more data is collected, it can be used to identify places with higher risk of accidents for cyclists with greater accuracy.

(5)
(6)

Inneh˚

all

1 Bakgrund 1

1.1 Kort om cykling i Sverige . . . 1

1.2 Byggarbeten och hinder i trafikmilj¨o . . . 1

1.3 Cykeldata . . . 2

2 Problemformulering 2 3 Syfte 2 4 Forskningsfr˚agor 3 5 Relaterat arbete 3 5.1 M¨atning av cykling och cykelsituationer . . . 3

5.1.1 GPS-data i studier . . . 4 6 Teoretisk bakgrund 4 7 Metod 6 7.1 Datainsamling . . . 6 7.1.1 Cykeldata . . . 6 7.1.2 Byggarbetesdata . . . 7 7.1.3 Olycksdata . . . 8 7.2 Datafiltrering . . . 8

7.2.1 Cykelhj¨almdata fr˚an H¨ovding . . . 8

7.2.2 Byggarbetesdata . . . 9 7.2.3 Olycksdata . . . 10 7.3 Databearbetning . . . 10 7.3.1 Kluster . . . 10 7.3.2 STRADA . . . 12 7.3.3 Byggarbeten . . . 12 7.3.4 Kategorisering . . . 13 7.4 Metoddiskussion . . . 15 8 Resultat 17 9 Analys och Diskussion 19 9.1 Begr¨ansningar . . . 21

10 Slutsatser och vidare forskning 21

(7)
(8)

1

Bakgrund

1.1 Kort om cykling i Sverige

Sverige har ett nationellt m˚al att till 2025 ska andelen persontransporter med kollektivtra-fik, cykel och g˚ang vara minst 25 procent, uttryckt i personkilometer. P˚a sikt vill regeringen f¨ordubbla den andelen [1]. Varje dag cyklar 800 000 personer i Sverige och mellan ˚aren 2014-2016 cyklade i genomsnitt varje inv˚anare 220km per ˚ar [2].

Sedan b¨orjan av 2000-talet har antalet personer som lagts in p˚a sjukhus till f¨oljd av en trafikolycka i Sverige minskat med 40 procent. Fr¨amst ¨ar det bilolyckor som har minskat, fr˚an 5200 ˚ar 2001 till 2100 ˚ar 2017. D¨aremot har antalet cykelolyckor inte vi-sat samma kraftiga minskning. Antalet cykelolyckor d¨ar personen blev inlagd p˚a sjukhus uppm¨attes till 3600 ˚ar 2001 respektive 3100 ˚ar 2017 [3]. Det finns ett stort m¨orkertal g¨allande icke-allvarliga cykelolyckor d˚a de s¨allan rapporteras till myndigheter. ˚Ar 2013 var antalet cyklister som beh¨ovde s¨oka sjukv˚ard efter en olycka 23 000 [4].

Swedish TRaffic Accident Data Acquisition(STRADA) ¨ar ett informationssystem f¨or data om skador och olyckor inom v¨agtransportsystemet. Data rapporteras in fr˚an tv˚a olika k¨allor, fr˚an polisen och akutsjukv˚arden, f¨or att sparas i Transportstyrelsens olycks- och skadedatabas. H¨ar finns data kring var olyckan skedde, allvarlighetsgrad av olyckan, om-st¨andigheter kring olyckan samt vilka akt¨orer som var inblandade [5]. Det finns svagheter i denna data d˚a den ¨ar beroende av att olyckorna rapporteras in, vilket g¨ors i varierande ut-str¨ackning [6]. Polismyndigheten har en skyldighet att rapportera v¨agtrafikolyckor de f˚att k¨annedom om men sjukv˚ardens rapportering ¨ar i skrivande stund helt frivillig [7]. Man har sett i statistiken att polisen i regel endast rapporterar larmade olyckor med motorfordon och om det f¨oreligger brottsmisstanke eller allvarlig skada [6]. Fr˚an sjukv˚arden varierar det mycket n¨ar det g¨aller antalet rapporterade olyckor, b˚ade mellan olika sjukhus och fr˚an samma sjukhus ¨over tid. Lindriga skador som ej leder till akuta sjukhusbes¨ok rapporteras inte, vilket medf¨or ett stort bortfall [6]. 2016 rapporterades det in 36 100 olyckor fr˚an sjukv˚arden och polisen i Sverige, men det verkliga antalet olyckor ¨ar st¨orre p˚a grund av bortfall i rapporteringen [6].

1.2 Byggarbeten och hinder i trafikmilj¨o

˚

Atta av tio cykelolyckor ¨ar singelolyckor i Sverige och m˚anga av dessa beror p˚a att cy-klisterna har cyklat in i fasta eller tillf¨alliga f¨orem˚al i anslutning till v¨agen. En annan vanlig orsak till singelolyckor ¨ar att det legat grus eller andra l¨osa saker p˚a v¨agen [8]. I en rapport fr˚an Statens v¨ag- och transportforskningsinstitut (VTI) p˚apekas att cyklisters framkomlighet p˚averkas negativt av alla typer av byggarbeten i trafikmilj¨o d¨ar cyklister r¨or sig. Under ˚aren 2007-2012 identifierade rapporten 288 cykelolyckor som kan relateras till byggarbeten. Av de olyckor som intr¨affar i anknytning till byggarbeten i t¨atorter ¨ar de vanligaste orsakerna att cyklisten ramlat omkull p˚a kablar, slangar, r¨or etc. som legat p˚a v¨agen. ¨Aven andra anledningar som l¨ost grus, h˚al i v¨agen och diken n¨amns som an-ledningar. Cyklister har m¨ojlighet att anm¨ala brister kopplat till arbeten i anknytning till cykelv¨agar genom ”tyck till”-appar som Cykelfr¨amjandets ”Cykelrapporten”.

Genom att sammanst¨alla data fr˚an allm¨anheten g˚ar det att skapa en uppfattning om omfattningen av problemen f¨or cyklister kopplat till v¨agarbeten, men det beh¨ovs fler, och mer helt¨ackande s¨att att samla in data. Rapporten menar att det finns ett behov av mer

(9)

kunskap f¨or att b¨attre f¨orst˚a hur cyklister ska hanteras vid byggarbeten och i hur stor utstr¨ackning de p˚averkas av arbeten i anslutning till cykelmilj¨on [8].

1.3 Cykeldata

H¨ovding ¨ar ett f¨oretag som tillverkar ett huvudskydd f¨or oskyddade trafikanter i form av en halskrage med en inbyggd airbag som utl¨oses vid en olycka. En tillh¨orande mobilap-plikation samlar in data om cykelturen n¨ar hj¨almen ¨ar aktiverad. Applikationen samlar in GPS-data kring varje cykeltur, position, tidsst¨ampel samt en niv˚a f¨or hur n¨ara hj¨almen ¨ar att l¨osa ut. Denna niv˚a kalkyleras med en frekvens av 200 Hz [9] och den aktuella niv˚an sparas tillsammans med GPS-positionen, vilket sker ca var- varannan sekund [10]. Den-na niv˚a best˚ar av en femgradig skala, fr˚an oproblematisk cykling till utl¨ost hj¨alm. Dessa niv˚aer som beskriver hj¨almens status generaras av en Support Vector Machine(SVM). Vi-dare under studien kommer de fyra niv˚aer som representerar att hj¨almen varit n¨ara att l¨osas ut, eller har l¨ost ut att refereras till som ”f¨orh¨ojd SVM-niv˚a”.

2

Problemformulering

Antalet cyklister ¨okar i Sverige och det finns ambitioner fr˚an regeringsh˚all att det ska ¨

oka ytterligare i framtiden [1]. Trots stora insatser i cykelmilj¨o minskar inte allvarliga cykelolyckor i samma takt som allvarliga bilolyckor [3]. Det finns idag ett behov f¨or fler m¨atverktyg f¨or cykeltrafik och s¨att att generera mer kunskap kring cykelmilj¨o och farliga situationer kopplade till cykelmilj¨on [11]. H¨ovdinghj¨almar samlar idag in stora m¨angder data med eventuell potential att bidra med mer kunskap kring riskomr˚aden f¨or cyklister om datan analyserades. Att kunna identifiera platser med f¨orh¨ojd olycksrisk f¨or cyklister skulle kunna bidra i arbetet att minska antalet olyckor i cykeltrafiken. Eventuellt kan analys av data fr˚an cykelhj¨almar bidra med kunskap och p˚a s˚a s¨att vara en ny k¨alla till insikter kring olycksdrabbade platser i cykelmilj¨on.

3

Syfte

Denna studie ¨amnar fr¨amst att unders¨oka om man med data fr˚an cykelhj¨almar av typen H¨ovding 3 kan identifiera kluster med f¨orh¨ojda SVM-niv˚aer som har potential att spegla verkliga problematiska cykelsituationer. Syftet ¨ar att unders¨oka om det g˚ar att lokalisera platser som ¨ar ¨overrepresenterade i H¨ovdings data och om det g˚ar att utl¨asa n˚agot kring de trafikmilj¨oer som klustren identifierat. G˚ar det att utl¨asa om det finns en f¨orh¨ojd olycksrisk p˚a en plats med hj¨alp av data fr˚an H¨ovding? I vilken utstr¨ackning p˚averkar byggarbete i anknytning till cykeltrafik data genererad av H¨ovdings hj¨almar?

(10)

4

Forskningsfr˚

agor

Den fr˚aga som uppsatsen utg˚ar ifr˚an ¨ar:

Hur kan man anv¨anda data fr˚an cykelhj¨almar f¨or att identifiera platser med ¨okad olycks-risk f¨or cyklister?

F¨or att besvara denna fr˚aga har vi formulerat f¨oljande underfr˚agor:

1. I hur stor utstr¨ackning kan man identifiera platser med h¨ogre samst¨ammighet med faktiska olyckor ¨an andra platser, i en datam¨angd genererad av cykelhj¨almar?

2. Hur mycket p˚averkar ett aktivt byggarbete hj¨almarnas registreringar p˚a de platser identifierade i fr˚agest¨allning 1?

5

Relaterat arbete

5.1 M¨atning av cykling och cykelsituationer

Cykeltrafik i Sverige m¨ats idag framf¨orallt genom den nationella resvaneunders¨okningen samt olika fl¨odesm¨atningar i gaturummet [11]. B˚ada dessa m¨atmetoder inneb¨ar utmaning-ar och nackdelutmaning-ar. Resvaneunders¨okningen ¨ar en urvalsunders¨okning, i form av en telefo-nintervju, d¨ar respondenten f˚ar svara p˚a fr˚agor ang˚aende sina resvanor. Det finns en viss os¨akerhet i data som samlas in med intervjuer d˚a respondenten kan minnas fel och rap-portera felaktiga data. Det ¨ar ¨aven sv˚art att bryta ut regionala f¨orh˚allanden fr˚an denna unders¨okning [11].

Fl¨odesunders¨okningar sker ofta p˚a utvalda platser p˚a kraftigt trafikerade cykelstr˚ak, vilket kan medf¨ora missvisande data f¨or ett st¨orre sammanhang och leda till ¨overtolkning. Cyklingen ¨ar ofta mer varierad ¨an tex biltrafik d˚a cykling sker p˚a angivna cykelbanor, p˚a bilv¨agar samt i st¨orre utstr¨ackning utanf¨or de tyngst trafikerade omr˚adena, vilket g¨or det sv˚art att med fl¨odesm¨atningar f˚a en helhetsbild av cykeltrafiken [11].

Ett vanligt s¨att att identifiera farliga cykelsituationer ¨ar att analysera registrerade olycksfall och var de intr¨affat. Men denna teknik inneb¨ar att en rad tragiska h¨andelser beh¨over intr¨affa innan man kan identifiera dessa platser [12]. En studie utf¨ord i Warszawa anv¨ande sig av kamera¨overvakning vid utvalda v¨agkorsningar f¨or att identifiera farliga si-tuationer f¨or cyklister [12]. Man analyserade videomaterialet f¨or att identifiera situationer n¨ar cyklister utsattes f¨or risker i samband med korsningar d¨ar cyklisten delade trafikut-rymmet med biltrafik. Men studien efterlyser fler alternativa metoder f¨or att identifiera potentiellt farliga trafikplatser i ett tidigare skede ¨an vad de konventionella metoderna erbjuder.

En studie utf¨ord i Belgien presenterar en modell f¨or att f¨orutsp˚a riskomr˚aden f¨or cyklis-ter [13]. Forskarna har anv¨ant sig av k¨anda riskfaktorer f¨or cykelolyckor, och cykeltrafik-data f¨or att ta fram ett riskv¨arde p˚a en trafikstr¨acka f¨or att sedan korrelera detta mot verkliga olyckor. De tar med hj¨alp av korrelationsanalys fram en modell som kan f¨orutsp˚a var eventuella riskomr˚aden f¨or cykelolyckor kan finnas i Bryssel. Forskarna fann att vissa riskfaktorer hade st¨orre p˚averkan ¨an andra, d¨ar komplexa trafiksituationer, bro¨overfarter utan separat cykelv¨ag samt platser d¨ar cyklister har f¨oretr¨ade framf¨or bilister ¨ar n˚agra

(11)

av de riskfaktorer med h¨ogst p˚averkangrad. De fann ocks˚a, i motsats till en vanlig tro, att m¨otande cykeltrafik ¨ar f¨orenat med l¨agre olycksrisk. Forskarna f¨orklarade detta med att cyklister har h¨ogre koncentrationsniv˚a samt b¨attre uppsikt ¨over m¨otande trafik vilket medf¨or att riskerna minskar.

5.1.1 GPS-data i studier

Global Positioning System(GPS) ¨ar ett satellitnavigeringssystem som m¨ojligg¨or f¨or GPS-mottagare att best¨amma sin position (latitud, longitud, altitud). Det finns flera exempel p˚a n¨ar trafikrelaterad GPS-data samlats in via privatpersoner som underlag f¨or studier och kartl¨aggning av trafikfl¨oden.

Holmgren et al unders¨oker i sin studie [14] m¨ojligheterna att identifiera kluster d¨ar cy-klister har en ¨okad upplevd os¨akerhetsk¨ansla. Datam¨angden best˚ar av GPS-data d¨ar varje datapunkt ¨ar genererad via en knapptryckning vid upplevd os¨akerhetsk¨ansla av cyklisten sj¨alv. Studien visar att b˚ade K-Means och DBSCAN g˚ar att anv¨anda som klustringmeto-der, med b¨ast resultat n¨ar metoderna kombineras.

En studie fr˚an 2020 anv¨ander sig av GPS-data fr˚an cykelturer tillsammans med GPS-data fr˚an en mobilapplikation d¨ar cyklister trycker p˚a en knapp, som ¨ar monterad p˚a cykeln, n¨ar de upplever ett problem i cykelmilj¨on [15]. Studien ¨amnar att hitta problem i cykelmilj¨on genom att klustra p˚a knapptryckningar med hj¨alp av DBSCAN och sedan associera cykelturer som passerar klustret. Sedan presenteras en modell f¨or att ber¨akna var man ska g¨ora insatser f¨or att f¨orb¨attra cykelmilj¨on och f˚a optimal utdelning sett till att flest cyklister slipper ett hinder till minsta m¨ojliga kostnad [15].

Ett annat exempel ¨ar en studie fr˚an 2019 som anv¨ander GPS-data genererat i en mobilapplikation f¨or cyklister som registrerar en str¨acka man cyklat och vilka v¨agar man valt. Syftet med studien var att analysera GPS-datan f¨or att utifr˚an den kategorisera v¨agval kopplat till syftet med cykelturen, om det exempelvis var pendling till syssels¨attning eller om det var en cykeltur i n¨ojessyfte [16].

GPS-data anv¨ands ¨aven till andra trafikrelaterade studier. En studie fr˚an 2019 analyse-rade GPS-data fr˚an taxibilar i Beijing f¨or att genom klustringsanalys f¨orutsp˚a trafikstock-ningar [17]. Forskarna anv¨ande GPS-data f¨or att hitta trafikfl¨oden samt kluster av h¨og densitet av trafik f¨or att sedan utveckla en modell som kan f¨orutsp˚a var en trafikstockning kan komma att uppst˚a.

Det finns ett behov av mer helt¨ackande trafikdata om cykling ¨an vad de konventio-nella m¨atmetoderna som anv¨ands i Sverige tillhandah˚aller. GPS-data har visat sig vara anv¨andbart i studier som unders¨oker fenomen eller f¨orh˚allanden anknutna till cykling.

6

Teoretisk bakgrund

Icke-¨overvakad maskininl¨arning ¨ar ett omr˚ade inom artificiell intelligens som avser att detektera m¨onster i en datam¨angd som inte inneh˚aller f¨ordefinierade strukturer. En ana-lysmetod f¨or detta ¨ar klustring, d¨ar en datam¨angd grupperas i sm˚a delm¨angder d¨ar varje datapunkts egenskaper anses vara n¨armare de datapunkter i samma delm¨angd ¨an ¨ovriga datapunkter. Varje delm¨angd av datam¨angden kallas kluster och inneh˚aller datapunkter som av algoritmen anses ha liknande inneboende egenskaper [18].

(12)

Density-based spatial clustering of application with noise (DBSCAN) [19] ¨ar en v¨alanv¨and klustringsalgoritm p˚a spatial data som inneh˚aller brusdata [20]. Den anv¨ands inom omr˚aden som ingenj¨orskonst [21], kemi [22] samt medicin [23]. Algoritmen ¨ar utformad f¨or att hit-ta kluster av dahit-ta i dahit-tam¨angder som inneh˚aller brusdata utan att man p˚a f¨orhand har vetskap om hur m˚anga kluster det finns, eller deras utseende i en spatial rymd [20]. Al-goritmen fungerar p˚a s˚a s¨att att den givet en upps¨attning datapunkter i en spatial rymd f¨ors¨oker gruppera tillsammans punkter som har ett h¨ogt antal gemensamma grannar till ett kluster [19].

Algoritmen har f¨orutom datam¨angden tv˚a inparametrar,  som ¨ar maximala distansen en datapunkt f˚ar befinna sig ifr˚an en core point, samt minPts som definierar minimala antalet punkter som beh¨ovs f¨or att skapa ett kluster. En punkt kan vara klassificerad som en av de tre klasserna k¨arnpunkt, (direkt-/densitet-)n˚abar punkt eller bruspunkter enligt f¨oljande:

• Punkten p ¨ar en k¨arnpunkt om det finns minst minP ts punkter inom  avst˚and (p inkluderat)

• Punkten q ¨ar direkt n˚abar fr˚an punkt p om q ¨ar inom avst˚and  fr˚an p och p ¨ar en k¨arnpunkt

• Punkten q ¨ar densitet n˚abar fr˚an p om det finns en s¨okv¨ag p1, ..., pn d¨ar p1= p och

pn = q, d¨ar varje pi+1 ¨ar direkt n˚abar fr˚an pi. Detta medf¨or att alla punkter p˚a

s¨okv¨agen p1, ..., pn ¨ar k¨arnpunkter, f¨orutom m¨ojligtvis pn.

• Alla punkter som inte befinner sig inom avst˚and  fr˚an n˚agon annan punkt klassifi-ceras som bruspunkter.

Ett kluster k skapas om punkten p ¨ar en k¨arnpunkt och antalet punkter som ¨ar n˚abara (direkt eller densitet) ¨ar h¨ogre ¨an minP ts. Varje kluster inneh˚aller ˚atminstone en k¨arnpunkt och alla punkter som inte ¨ar en k¨arnpunkt men ing˚ar i n˚agot kluster utg¨or ytterkanterna p˚a klustret, d˚a dessa inte g˚ar att anv¨anda f¨or att hitta punkter l¨angre ut ifr˚an k¨arnpunkterna. ¨Aven k¨arnpunkter kan utg¨ora ytterkanterna i ett kluster. En av styrkorna med DBSCAN ¨ar att antalet kluster inte beh¨over definieras av anv¨andaren utan dessa ber¨aknas automatiskt av algoritmenen. DBSCAN anv¨ander n˚agon form av avst˚ ands-formel f¨or att ber¨akna vilka kluster som ligger inom avst˚andet  fr˚an respektive punkt. Denna best¨ams utan anv¨andaren, d¨ar euklidiskt avst˚and ¨ar den vanligaste implementatio-nen vid spatial klustring.

(13)

7

Metod

Den prim¨ara data ang˚aende cykling kommer fr˚an f¨oretaget H¨ovding och ¨ar genererad av deras kunder. Den inneh˚aller information om cykelturer och hj¨almens status. Andra datak¨allor som anv¨ands ¨ar information om byggnadsarbeten i Malm¨o som kommer fr˚an Malm¨o stads fastighets- och gatukontor som levererar datan p˚a beg¨aran. Data ang˚aende cykelolyckor beg¨ardes ut fr˚an STRADA. Denna data ¨ar inrapporterad av sjukv˚ardspersonal och polis i Sverige och omfattar olyckor d¨ar en cyklist varit inblandad. Denna data om-fattar ¨aven cyklister som inte anv¨ant en h¨ovdinghj¨alm.

Figur 1: Arbetsprocessens olika steg

Data filtreras och sorteras innan den bearbetas, se avsnitt nedan f¨or detaljerad beskriv-ning. Cykeldatan bearbetas f¨orst genom att klustra p˚a f¨orh¨ojda SVM-niv˚aer och d¨arefter genomf¨ors ber¨akningar p˚a varje individuellt kluster, se avsnitt Databearbetning f¨or de-taljerad beskrivning. Dessa kluster valideras sedan mot olycksdata f¨or att se klustrens samst¨ammighet med verkliga olyckor. De tre f¨orsta stegen under databearbetning sker iterativt. Olika sorteringar testas och om inga intressanta resultat hittas upprepas pro-cessen fr˚an klustring. ¨Aven olika inst¨allningar till klustringsalgoritmen testas f¨or att hitta en l¨amplig inst¨allning. Efter att l¨ampliga inparametrar till klustringsalgoritmen valts ut, samt att en l¨amplig sortering hittats v¨aljs topp 30 kluster ut f¨or kategorisering. Dessa 30 kategoriseras enligt modell beskriven i avsnitt Databearbetning och j¨amf¨ors sedan mot ¨

ovriga kluster sett till olycksrepresentation i klustren. Se Figur 1 f¨or schematisk beskriv-ning av arbetsprocessen. Byggarbetes-data anv¨ands f¨or att unders¨oka om ett byggarbete p˚averkar registreringen av f¨orh¨ojda SVM-niv˚aer hos cyklister som passerar platsen.

7.1 Datainsamling

7.1.1 Cykeldata

Insamlad data ang˚aende cykling kommer fr˚an cykelhj¨almtillverkaren H¨ovding och deras kunder. De kunder som har k¨opt en hj¨alm av version 3, H¨ovding 3, har m¨ojlighet att

(14)

lera en mobilapplikation p˚a sina telefoner. Denna applikation tillsammans med hj¨almen genererar under p˚ag˚aende cykelturer den data som denna uppsats valt att bearbeta och behandla.

Applikationen kommunicerar med hj¨alp av Bluetooth med hj¨almen och GPS-koordinater h¨amtas ifr˚an mobilens inbyggda GPS-mottagare. F¨or att h˚alla nere batterif¨orbrukningen anv¨ands de GPS-koordinater som mobilen automatiskt h¨amtar, ist¨allet f¨or att tvinga mo-bilen att h¨amta en ny. Detta medf¨or att frekvensen p˚a GPS-punkter varierar, men h˚aller sig kring en punkt varannan sekund.

N¨ar applikationen f˚ar en ny GPS-koordinat skickas en f¨orfr˚agan till hj¨almen. Hj¨almen svarar h¨ar med ett System Mode. Denna status ¨ar nuvarande status p˚a hj¨almen. Vid normal status returneras en nolla, men ¨aven viss annan information kan returneras. F¨or fullst¨andig beskrivning se Tabell 1.

Tabell 1: Komplett lista ¨over System Modes

System mode Beskrivning 0 Bluetooth inactive 1 Bluetooth active 2 Deployed 4 SVM Low 5 SVM Medium 6 SVM High 7 Active Misuse 8 Battery Low 9 Temperature out of range

F¨or denna studie ¨ar de intressanta niv˚aerna att klustra p˚a System Mode 2,4,5 och 6, det vill s¨aga de tillf¨allen d¨ar hj¨almen l¨ost ut eller registrerat en f¨orh¨ojd risk f¨or att l¨osa ut. SVM i SVM Low/Medium/High st˚ar f¨or System Vector Mode, det v¨ardet som hj¨almens algoritm returnerar.

Dessa niv˚aer tillsammans med GPS-koordinaten och tidpunkt sparas sedan ner till mobilen f¨or att efter avslutad cykeltur laddas upp till H¨ovdings databas ¨over cykelturer. Datan som denna studie har tillg˚ang till ¨ar helt anonymiserad, till den grad att varje cykeltur endast bestod av en serie av GPS-koordinater med tillh¨orande SVM-niv˚a och tidpunkt. Det g˚ar inte att l¨asa ut vilken hj¨alm eller anv¨andare som har genomf¨ort vilken cykeltur.

Totalt ing˚ar 16 760 cykelturer i datam¨angden. Cykelturerna har skett i Malm¨o, eller i n¨ara anknytning till Malm¨o. Cykelturerna har genererats under perioden fr˚an 2019-09-11 till 2020-02-27.

7.1.2 Byggarbetesdata

Data kring byggarbeten beg¨ardes ut fr˚an Malm¨o stads Fastighets- och gatukontor i form av en fil inneh˚allandes historisk data kring byggarbeten i Malm¨o. Endast arbeten som p˚agick i trafikmilj¨o, dvs p˚a eller i anslutning till gatumilj¨o, inkluderas. Datan inneh˚aller information om var arbetet p˚agick, n¨ar det startade och n¨ar det avslutades. ¨Aven kort beskrivning av arbetet och vem som utf¨ort det finns med i datam¨angden.

(15)

7.1.3 Olycksdata

Olycksstatistik h¨amtades fr˚an STRADA. Datan inneh˚aller information kring olyckor d¨ar en cyklist varit inblandad under aktuellt tidsspann som data fr˚an H¨ovding omfattar. Sammanlagt fanns 675 olyckor d¨ar cyklister varit inblandade i den datam¨angd tillhan-dah˚allen av STRADA. 29 av dessa hade ej en definierad position varp˚a de utesl¨ots fr˚an datam¨angden. Datan innefattar var olyckan skett, vilka akt¨orer som var inblandade, even-tuella omst¨andigheter som f¨oranledde olyckan f¨or att n¨amna n˚agra. Det ¨ar enbart posi-tionen f¨or olyckor inom det relevanta tidsspannet som denna studie anv¨ant. Inom ramen f¨or denna studie finns inte m¨ojlighet att analysera de specifika olyckorna i detalj varp˚a detaljdata kring varje olycka inte anv¨ands.

7.2 Datafiltrering

7.2.1 Cykelhj¨almdata fr˚an H¨ovding

Alla cykelturer som inneh˚aller f¨arre ¨an tio GPS-punkter, har en total tid under 20 sekunder eller en total str¨acka under 50 meter anses vara f¨or sm˚a f¨or analys och tas bort fr˚an datam¨angden.

F¨or att handskas med GPS-punkter som har en uppenbart felaktig position, dvs att positionen ligger l˚angt ifr˚an ¨ovriga positioner i cykelturen, men har en tidsst¨ampel som tillsynes st¨ammer, anv¨andes hastigheten mellan tv˚a positioner f¨or att identifiera dessa. D˚a alla punkter kommer i kronologisk ordning s¨akerst¨alls hela tiden att nuvarande filtrerad del av cykelturen ¨ar korrekt. N¨ar en punkt tr¨affas p˚a som eventuellt ¨ar felaktig ¨ar det d¨armed s¨akerst¨allt att det inte ¨ar f¨oreg˚aende punkt som ligger fel. Om en uppm¨att has-tighet mellan tv˚a GPS-punkter ¨overstiger 50 km/h anses den senare av punkterna vara felaktig och kommer uteslutas fr˚an datam¨angden. Den positionen tas bort med effekten att cykelturen f˚ar ett litet tidsglapp d¨ar punkten l˚ag, men f¨oljer den t¨ankta cykelturen med st¨orre precision. Se Figur 2 och Figur 3.

Figur 2: Figuren visar en cykeltur med en uppenbart felaktig punkt. Denna punkt blir d˚a borttagen

(16)

Figur 3: Den r¨odmarkerade str¨ackan ¨ar den str¨ackan som ers¨atter de felaktiga str¨ackorna efter borttagande av felaktig punkt i Figur 2

Om en str¨acka mellan tv˚a GPS-punkter i samma cykeltur ¨overskrider 200 meter be-traktas detta som att det saknas data i cykeltursegmentet och denna delstr¨acka markeras som ”invalid” i datam¨angden. Skillnaden i tid mellan punkterna ¨ar rimliga, men av ok¨and anledning har inga punkter registrerats l¨angs den str¨ackan. Denna ”invalid” flagga anv¨ands senare i databearbetningen. En delstr¨acka ¨ar en str¨acka mellan tv˚a GPS-punkter i en cy-keltur.

Av de initiala 16 760 cykelturerna och 3 606 005 GPS-punkterna fanns nu 15 363 respektive 3 587 911 kvar. Av dessa GPS-punkter var det 20 416 som inneh¨oll en f¨orh¨ojd SVM-niv˚a f¨ordelat enligt Tabell 2.

Tabell 2: Tabell ¨over f¨ordelning av System mode i den datam¨angd som anv¨ands

System Mode Antal

2 33 4 17 662 5 2700 6 21 Totalt 20 416 7.2.2 Byggarbetesdata

Byggarbeten med en sluttid innan b¨orjan eller med en starttid efter slutet p˚a den da-tam¨angd ifr˚an H¨ovdings filtrerades bort d˚a dessa ej kommer p˚ag˚a under den intressanta tidsperioden. Det inneb¨ar att endast de arbeten som p˚ab¨orjats, avslutats eller fortl¨opt ¨

over hela tidsspannet inkluderas.

D˚a varje byggarbete, med bara ett datumintervall, kunde best˚a av flera omr˚aden med stort avst˚and mellan varandra delades dessa upp till flertalet byggarbeten ist¨allet. Detta f¨or att i senare skede enklare ber¨akna vilka kluster som ¨overlappar vilka byggarbeten. D˚a b˚ade starttid och sluttid endast var ett datum skapas problem f¨or arbeten som ber¨aknades vara utf¨orda under en dag. Vid dessa tillf¨allen sattes starttiden till 07:00 och sluttiden till

(17)

17:00 p˚a n¨amnda datum. Efter dessa filtreringar inneh¨oll datam¨angden 4881 olika platser med byggarbeten.

7.2.3 Olycksdata

Ur olycksdatan tillhandh˚allen av STRADA filtrerades alla olyckor utanf¨or det relevan-ta tidsspannet bort, och kvar blev 646 olyckor. Ur dessa sparades endast positionen f¨or olyckan.

7.3 Databearbetning

7.3.1 Kluster

Ur de filtrerade cykelturerna extraheras alla GPS-punkter som har en SVM-status 2,4,5 eller 6, det vill s¨aga de punkter med en f¨orh¨ojd SVM-niv˚a. Studien anv¨ander sig av en befintlig implementation av DBSCAN f¨or att g¨ora ber¨akningar[24]. Inparametrar till denna implementation valdes till  = 8 och minP ts = 4, d¨ar 8 ¨ar maximala avst˚andet i meter som en punkt f˚ar befinna sig ifr˚an en core-point f¨or att tillh¨ora ett kluster, och 4 ¨ar minsta antal punkter det beh¨ovs f¨or att bilda ett kluster.

Dessa inst¨allningar valdes efter en l˚ang rad tester med olika parametrar d˚a dessa in-st¨allningar genererade relativt avskilda och distinkta kluster. Om klusterna ¨ar v¨aldigt stora innefattar de m˚anga olika trafiksituationer vilket g¨or det sv˚art att utl¨asa n˚agot om en specifik avgr¨ansad plats. I Figur 4 visas skillnaden mellan att ha h¨ogre v¨arden mot mindre v¨arden som inparametrar till DBSCAN.

Figur 4: Skillnad mellan klustringsinst¨allningar. I bl˚att visas kluster genererade med =25 och minPts=5, i rosa visas kluster genererade med =8 och minPts=4.

(18)

D¨arf¨or valdes inst¨allningar som genererade sm˚a, distinkta kluster som ¨ar avgr¨ansade till ett relativt litet omr˚ade. DBSCAN genererade 405 kluster och d¨arefter ber¨aknades f¨oljande information ur datam¨angden:

(a) Vilka punkter utg¨or klustrets gr¨anser / kanter. Dessa ber¨aknas med hj¨alp av concave-hull algoritmen [25]. Som inparameter till denna algoritm anv¨andes det h¨ogsta v¨ardet av 3 och antalet SVM-punkter i klustret dividerat med tv˚a. Detta f¨or att f˚a en utformning p˚a klustrerna som b¨attre f¨oljde gatubilden och inte str¨ackte sig ¨over hus.

(b) Antal unika cykelturer som passerar igenom klustret under den aktuella tidsperioden, det vill s¨aga de cykelturer som har minst en GPS-punkt inom klustrets gr¨anser.

(c) Antal unika cykelturer som har en eller flera GPS-punkter med f¨orh¨ojd SVM-niv˚a inom klustret under den aktuella tidsperioden.

(d) Andelen unika cykelturer som har en f¨orh¨ojd SVM-niv˚a i klustret, det vill s¨aga kvoten mellan c) och b). d = c/b

(e) Hur m˚anga olyckor registrerade i STRADA ligger i, och i omedelbar n¨arhet till klustret. De olyckor som ligger inom 4 meter fr˚an klustrets gr¨ans betraktas ligga i klustrets omedelbara n¨arhet.

(f) Klustrets livsl¨angd: Antalet dygn ifr˚an f¨orsta till sista SVM-niv˚a i klustret. Denna siffra anv¨ands senare vid analys av byggarbetens p˚averkan p˚a SVM-niv˚aerna.

(g) Under hur l˚ang tid klustret haft minst ett byggarbete ¨overlappande. Flera ¨overlappande samtidigt ber¨aknas bara som ett.

(h) Medelhastigheten inom varje kluster f¨or alla cykelturer, respektive f¨or alla cykelturer med minst en SVM-notering.

D˚a positions-datan fr˚an H¨ovding har viss varians i sin frekvens finns risken att en cykeltur som passerat igenom ett kluster inte har en GPS-registrering i klustret, varp˚a denna cykeltur inte registreras. F¨or att kompensera detta kontrolleras f¨or varje kluster de cykelturer som inte redan ¨ar registrerade i klustret om det finns en sektion som korsar klustret, ¨aven om cykelturen inte har en GPS-punkt i klustret. Med sektion menas h¨ar en str¨acka mellan tv˚a GPS-punkter i en cykeltur. Endast de sektioner som inte ¨ar markerade som ”invalid” inkluderas.

Ut¨over detta kommer den totala vikten f¨or varje kluster att ber¨aknas. Vikten ber¨aknas genom formeln:

P × SV M4+ Q × SV M5+ R × SV M6+ S × SV M2

SV M4+ SV M5+ SV M6+ SV M2

(19)

D˚a SVM-niv˚aer ¨ar p˚a oridnal skalniv˚a ¨ar det sv˚art att vikta dem p˚a ett bra s¨att f¨or att deras inb¨ordes skillnad mellan de olika stegen ¨ar ok¨and. Tre olika viktningar i olika granul¨aritet testades experimentellt f¨or att se om de visade sig generera intressanta resultat. D¨arf¨or ber¨aknades det tre olika viktningar med olika v¨arden p˚a P, Q, R och S enligt Tabell 3 nedan. Tre vanliga matematiska skalor valdes godtyckligt av forskarna som inparametrar till formlen.

Tabell 3: Lista ¨over v¨arden f¨or viktber¨akning

Viktning P Q R S Linj¨ar 4 5 6 7 Exponentiell 2 4 8 16

Logaritmisk 1 10 100 1000

7.3.2 STRADA

De kluster av SVM-niv˚aer som identifierats kontrolleras mot olycksdata fr˚an STRADA. Om en olycka ligger inom ett kluster eller i dess omedelbara n¨arhet registreras detta och sammanst¨alls i en tabell. Visuell kontroll av kluster och olyckspunkt utritat p˚a en karta utf¨ordes p˚a klustren f¨or att validera att registreringen var korrekt.

¨

Aven de olyckor som ligger p˚a, eller i omedelbar n¨arhet till klustrets gr¨ans r¨aknas in i klustret om avst˚andet ej ¨overstiger 4 meter (se Figur 5 p˚a n¨asta sida d¨ar olyckan ligger strax utanf¨or klustrets gr¨ans, men betraktas tillh¨ora klustret.). Detta p˚a grund av att det finns en viss os¨akerhet i STRADAs position-data samt ¨aven i position-data fr˚an H¨ovding. Avst˚andet valdes till 4 meter d˚a det ¨ar det halverade v¨ardet p˚a .

7.3.3 Byggarbeten

Data om byggarbeten mappas mot de kluster av SVM-niv˚aer som identifierats av DB-SCAN. Fyra v¨arden f¨or varje kluster ber¨aknas:

(A) Antal cykelturer i klustret med f¨orh¨ojd SVM-niv˚a under byggarbete. (B) Antal cykelturer i klustret utan f¨orh¨ojd SVM-niv˚a under byggarbete.

(C) Antal cykelturer i klustret med f¨orh¨ojd SVM-niv˚a utan att byggarbete p˚ag˚att. (D) Antal cykelturer i klustret utan f¨orh¨ojd SVM-niv˚a utan att byggarbete p˚ag˚att.

Med dessa fyra v¨arden kunde en differens ber¨aknas, h¨ar efter kallad byggarbeteindex (BAI):

BAI = A A + B−

C

C + D (2)

N¨ar v¨ardet fr˚an Ekvation 2 ¨ar positivt visar det att det ¨ar en f¨orh¨ojd risk att generera en SVM-niv˚a under ett aktivt byggarbete, och n¨ar v¨ardet ¨ar negativt p˚avisar det att det ¨

ar en minskad risk. D˚a v¨ardet ¨ar noll betyder det att byggarbetet inte haft n˚agon inverkan p˚a resultatet.

(20)

Figur 5: Svart prick markerar olycka. Rosa linje markerar klustrets gr¨ans.

7.3.4 Kategorisering

Efter utr¨akningarna utf¨ordes en rad olika sorteringar p˚a dessa kluster. Sortering p˚a procen-tuell andel av cykelturer som genererat en SVM-niv˚a i klustret, medelhastighet i klustret och h¨ogst SVM-vikt, enligt Ekvation 1, men ingen av dessa visade n˚agra intressanta re-sultat g¨allande samst¨ammighet med olycksstatistik fr˚an STRADA.

Ist¨allet sorterades klustren p˚a totalt antal cykelturer som inneh¨oll en f¨orh¨ojd SVM-registrering i klustret. Detta inneb¨ar att de kluster som har st¨orst dataunderlag i antal cykelturer med f¨orh¨ojd SVM-niv˚a sorterades h¨ogst. D¨arefter granskades topp 30 av dessa kluster n¨armare.

H¨ovding har informerat att kullersten och andra tydliga f¨or¨andringar i underlag som farthinder kan generera f¨orh¨ojda SVM-niv˚aer. Vi vet att byggarbeten ofta ¨ar problema-tiska f¨or cyklister enligt rapporten fr˚an VTI [8]. F¨or att f¨ors¨oka identifiera kluster som uppkommit p˚a grund av brusdata, dvs kluster som kan ha genererats f¨or att det finns element i anknytning till platsen som kan ha en direkt p˚averkan p˚a hj¨almens SVM-niv˚a, definierades tre generella kategorier av trafiksituationer som ett kluster kan ing˚a i. Ett kluster kan ing˚a i flera kategorier.

(21)

• Kategori 1: Fasta hinder eller omst¨andigheter som kan f¨orklara f¨orh¨ojda SVM-niv˚aer.

– Farthinder, oj¨amnt underlag som kullersten, kraftig trottoarkant. Ett kluster faller endast in i denna kategori om fl¨odet av cykelturer genom klustret faktiskt g˚ar ¨over denna oj¨amnhet. Detta kontrolleras manuellt genom att visualisera alla cykelturer och dess riktning f¨or varje individuellt kluster.

• Kategori 2: Byggarbeten

– Byggarbeten p˚a eller i n¨ara anslutning till v¨ag.

• Kategori 3: Situationer som ej, eller till v¨aldigt liten grad, kan f¨orklaras genom ovanst˚aende.

Platsen f¨or klustret unders¨oktes manuellt via Google street view f¨or att kategorisera platsen enligt kategorierna. Om bilderna p˚a Google street view var tagna tidigare ¨an 2019-09-01 kontrollerades platsen fysiskt av f¨orfattarna av arbetet.

Under kategoriseringen visualiserades alla cykelturer som genererat en SVM-niv˚a i klustret och j¨amf¨ordes med bilder fr˚an platsen. Om cykelturerna passerar ett underlag eller hinder definierat i kategori 1 ges klustret den kategorin. Om det endast f¨orekommer enstaka cykelturer som passerar s˚adana hinder, ges inte den kategorin. Om det funnits ett byggsarbete i klustret ges kategori 2. Om byggarbetet p˚ag˚att mindre ¨an 10% av klustrets livsl¨angd gavs ¨aven kategori 3, s˚a l¨ange det inte f¨orel˚ag sk¨al att tilldela kategori 1. Om det f¨orekommer fler ¨an enstaka cykelturer som passerar igenom klustret utan att passera byggarbetet, eller underlag/ hinder i kategori 1 ges ¨aven kategori 3. D¨armed kan ett kluster tillh¨ora alla tre kategorier. Se Figur 6 f¨or exempel p˚a ett kluster som tillh¨or alla tre kategorier.

Figur 6: Exempel p˚a kluster i kategori 1, 2 och 3.

(a) Byggarbete markerat i r¨ott, kluster i ro-sa. Flesta cykelturer, markerade med bl˚aa str¨ack, g˚ar i v˚agr¨atriktning, men vissa g˚ar i lodr¨atriktning.

(b) Google Street view ¨over trafiksituationen. Byggarbete syns till v¨anster, kullersten p˚a v¨agen till h¨oger, och asfalt som underlag p˚a v¨agen i mitten.

(22)

Figur 7 nedan visar ett kluster i kategori 1 och 2. Som visas g˚ar de flesta cykelturer fr˚an v¨anster till h¨oger, eller tv¨artom. D¨armed passerar de kullersten i sidorna och kanten ned till gatan vilket kategoriseras som kategori 1. I h¨ogra delen av klustret har det funnits ett byggarbete och d¨armed kategoriseras klustret som 2. Det ¨ar inga cykelturer som har cyklat rakt fram utan att passera kategori 1 eller kategori 2-villkoren, varp˚a kategori 3 inte registreras.

Figur 7: Exempel p˚a kluster i kategori 1 och 2.

(a) Visualisering av cykelturer som genererat en f¨orh¨ojd SVM-niv˚a. Bl˚a linje representerar en cykeltur, r¨od pil visar dess riktning. Svart linje representerar klustrets gr¨ans Orange f¨alt markerar ett byggarbete.

(b) Google Street view ¨over trafiksituatio-nen. Cykelturerna g˚ar generellt fr˚an h¨oger till v¨anster i bild, eller tv¨artom. D¨armed pas-serar de kullerstenen och kanterna i sidorna av bilden.

7.4 Metoddiskussion

Anledningen att DBCSAN anv¨andes f¨or klustring var att vi inte p˚a f¨orhand hade k¨annedom om hur m˚anga kluster det ¨ar rimligt att identifiera i datam¨angden. Dessutom finns det mycket brusdata som inte n¨odv¨andigtvis b¨or tillh¨ora n˚agot kluster. B˚ada dessa problem l¨oser DBSCAN [19]. Ett alternativ hade kunnat vara K-means. Men dess begr¨ansningar, att antalet kluster m˚aste definieras av anv¨andaren, samt att den ¨ar k¨anslig f¨or brusdata gjorde att den valdes bort [26].

Sorteringen och urvalet av vilka kluster som skulle granskas n¨armare skedde genom ett empiriskt tillv¨agag˚angss¨att. Flertalet alternativ provades. Parametrar som ans˚ags ¨onskv¨arda var att sorteringsparametern hittade kluster som inneh¨oll registrerade olyckor i STRADA och att antalet cykelturer som passerade igenom klustret inte var allt f¨or l˚agt. Att sortera p˚a h¨og procentuell andel av cykelturer med en SVM-markering i klustret hittade sm˚a klus-ter med f˚a cykelturer. D¨armed ger en f¨orh¨ojd SVM-niv˚a stort utslag p˚a den procentuella representationen. ¨Aven om kluster med mindre ¨an 20 cykelturer ignorerades gav denna sor-tering inte v¨ardefull information. Att sortera p˚a de kluster med h¨ogst SVM-vikt i klustret gav sv˚artolkade resultat. D˚a SVM-niv˚aer ¨ar p˚a ordinal skalniv˚a ¨ar det sv˚art att vikta dem p˚a ett bra s¨att. De viktningar som provades finns beskrivna under Databearbetning men ingen av dem gav resultat som tydligt identifierade olycksomr˚aden. ¨Aven sortering efter h¨ogst/l¨agst medelhastighet i klustren provades, men det gav inte efterstr¨avad information.

(23)

Att sortera de 405 klustren genererade av DBSCAN p˚a flest antal unika cykelturer som genererat en SVM-niv˚a i klustret gav klart b¨ast resultat sett till samst¨ammighet med STRADA. Detta inneb¨ar att de kluster h¨ogst i sorteringen ¨ar de med st¨orst dataunderlag, sett till unika cykelturer som genererat en f¨orh¨ojd SVM-niv˚a i klustret, och ¨ar d¨armed eventuellt mest tillf¨orlitliga. Det ¨ar ocks˚a den sorteringen som var underlag till vilka kluster som valdes ut f¨or n¨armare granskning.

Filtreringen skedde med avsikt att avl¨agsna de cykelturer som ans˚ags f¨or korta eller inneh¨oll uppenbart felaktig data. En cykeltur som har f¨arre ¨an 10 GPS-punkter, en total tid under 20 sekunder eller en total str¨acka under 50 meter ans˚ags f¨or korta f¨or att inkluderas f¨or analys och klustring. Andra v¨arden hade kunnat v¨aljas f¨or detta, men det finns ingen v¨agledning i litteraturen g¨allande dessa v¨arden s˚a de ¨ar valda arbitr¨art av utf¨orarna av studien. Att filtrera bort uppenbart felaktiga punkter gjordes s˚a att de inte skulle st¨ora utr¨akningarna kring vilka kluster en cykeltur korsade. ¨Aven efter filtreringen finns en risk att det finns delstr¨ackor av en cykeltur som kan st¨ora dessa utr¨akningar, men de ¨ar betydligt f¨arre, och s˚a pass ovanliga att de inte b¨or har en st¨orre p˚averkan p˚a resultaten. Kategoriseringen av topp 30 kluster ¨ar en process som togs fram f¨or att f¨ors¨oka f¨orklara och vidare analysera de kluster som denna studie identifierat med h¨ogst samst¨ammighet med olycksstatistik. Det ¨ar fullt m¨ojligt, och ganska troligt, att det finns andra sorteringar eller s¨att att v¨alja ut kluster som ¨ar b¨attre ¨an de presenterade i denna studie. N¨ar mer data ¨ar genererat kan exempelvis procentuell andel av unika cykelturer som genererat en f¨orh¨ojd SVM-niv˚a i ett kluster vara en b¨attre indikator p˚a att klustret har en ¨okad olycksrisk, d¨ar ¨aven antalet cyklister tas i beaktning. ¨Aven definitionen av, och antalet kategorier kan i framtiden omarbetas n¨ar mer data finns tillg¨angligt och fler insikter om datan i fr˚aga har v¨axt fram.

D˚a majoriteten av SVM-niv˚aerna ¨ar 4:or, den l¨agsta graden av f¨orh¨ojning och d¨armed st¨orst risk att dessa representerar brusdata, testades ¨aven hela processen med en da-tam¨angd d¨ar alla SVM-4 exkluderats. Med brusdata menas h¨ar SVM-registreringar till f¨oljd av exempelvis kullersten, och de ¨ar fr¨amst SVM-4, enligt H¨ovding [10].Detta f¨or att se om resultaten kunde ge b¨attre samst¨ammighet med olycksdatan fr˚an STRADA.

K-means klustringsalgoritm ¨ar en annan typ av algoritm som anv¨ands f¨or klustring av data, och hade kunnat vara ett alternativ till DBSCAN. Det ¨ar en centroid-baserad algoritm, dvs att f¨or varje kluster ber¨aknas en centroid, centret av klustret, och sedan m¨ats avst˚andet till kringliggande punkter. Algoritmen flyttar centroiden f¨or att hitta en optimal placering d¨ar alla punkter som tillh¨or dess kluster inte har n¨armare till en annan centroid, i ett annat kluster.

En stor nackdel med K-means ¨ar att anv¨andaren m˚aste definiera antalet kluster. Algoritmen kan ej p˚a egen hand r¨akna ut antalet kluster vilket ¨ar problematiskt n¨ar anv¨andaren inte vet hur datan ¨ar f¨ordelad. Metoder f¨or att ber¨akna antalet kluster finns dock tillg¨angliga [27][28], men det hj¨alper inte mot K-means andra nackdel, att samtli-ga punkter i datam¨angden m˚aste tillh¨ora ett kluster, vilket g¨or den k¨anslig f¨or brus i datam¨angden [26]. N¨ar samtliga punkter m˚aste vara med betyder det att storleken p˚a klustren ej g˚ar att begr¨ansa, vilket medf¨or att de identifierade klustren ej korrelerar v¨al med verkliga och avgr¨ansade platser i trafiken. Det finns dock metoder f¨or att hante-ra brusdata ¨aven i denna algoritm men dessa kr¨aver mer arbete och inte n¨odv¨andigtvis b¨attre resultat [29]. Av dessa anledningarna gjordes inga f¨ors¨ok med K-means algoritmen.

(24)

8

Resultat

Resultaten fr˚an ber¨akningarna avhandlas i detta kapitel. Viktigt att po¨angtera ¨ar att olycksdata fr˚an STRADA ¨ar genererad av alla cyklister, inte bara de som anv¨ander en H¨ovding. Andelen olyckor per cykeltur presenterad under resultatdelen ¨ar d¨armed inte en siffra p˚a hur m˚anga olyckor som har / b¨or h¨anda per cykeltur, utan fr¨amst ett s¨att att validera de identifierade kluster mot verkliga olyckor. Detta f¨or att kunna se en diskrepans mellan de olika kategorierna sett till olycksrepresentation. Det verkliga antalet cykelturer som passerat dessa kluster ¨ar betydligt h¨ogre om man r¨aknar med samtliga cyklister, ¨aven de utan H¨ovding-hj¨almar, men s˚adan data finns inte tillg¨anglig.

Av de 646 olyckor fr˚an STRADA l˚ag 38 inom ett kluster. Se Tabell 4 f¨or klustrens samst¨ammighet med data fr˚an STRADA. H¨ar kan man se att topp trettio kluster har en ¨

okad representation av olyckor i klustren j¨amf¨ort med resterande kluster. Antal cykelturer i tabellerna nedan ¨ar unika cykelturer som passerat klustren, men en unik cykeltur kan ha passerat m˚anga kluster och kan d¨armed finnas representerad i m˚anga kluster. D¨armed kan antalet cykelturer i tabellerna ¨overstiga det totala antal cykelturer som finns i da-tam¨angden.

Tabell 4: Klusters samst¨ammighet med data fr˚an STRADA

Antal kluster Antal olyckor Antal cykelturer Antal olyckor per kluster Andel olyckor per cykeltur Topp 30 kluster 30 14 17 084 0,467 0,082% Resterande 375 24 58 620 0,064 0,041% Alla kluster 405 38 75 704 0,094 0,050%

Topp 30 kluster f¨ordelades ¨over de olika kategorierna enligt Tabell 5. Av de 30 fanns det endast sex kluster d¨ar varken fasta hinder eller v¨agarbeten haft n˚agon inverkan, det vill s¨aga inga hinder kunde identifieras och inga v¨agarbeten hade p˚ag˚att under klustrets livstid. Dessa klassificeras d˚a som kategori 3.

Ut¨over dessa sex fanns det ytterligare fem till kluster som delvis kategoriserades till kategori 3, men d¨ar fasta hinder eller v¨agarbeten ansetts kunna vara en bidragande orsak till den f¨orh¨ojda SVM-niv˚an. I dessa totalt 11 kluster identifierades totalt 8 olyckor, med ett snitt p˚a 8 / 11 ≈ 0,73 olyckor per kluster, se Tabell 6. Detta ¨ar en 58-procentig ¨okning gentemot genomsnittet f¨or alla topp 30 kluster d¨ar siffran var 0,46, se Tabell 4.

(25)

Tabell 5: Tabell ¨over f¨ordelning av kluster med h¨ansyn till kategori. Kategori Antal kluster Antal olyckor Antal cykelturer Antal olyckor per kluster Andel olyckor per cykeltur 1 10 4 3675 0,40 0,108% 2 4 1 2959 0,25 0,033% 3 6 4 3958 0,66 0,101% 1+2 5 1 2919 0,20 0,034% 1+3 2 0 975 0,00 0,000% 2+3 2 3 1367 1,50 0,219% 1+2+3 1 1 1231 1,00 0,081%

Genom att kalkylera antalet cykelturer genom varje kluster, d¨ar varje cykeltur kunde ing˚a i flera kluster, ber¨aknades antalet olyckor per cykeltur f¨or respektive kategori. Se Tabell 5.

Nedanst˚aende tabell inneh˚aller data ifr˚an Tabell 5 sammanslagen per kategori.

Tabell 6: Tabell ¨over respektive kategori i topp 30 identifierade kluster

Kategori Antal kluster Antal olyckor Antal cykelturer Antal olyckor per kluster Andel olyckor per cykeltur 1 18 6 8800 0,33 0,068% 2 12 6 8476 0,50 0,071% 3 11 8 7531 0,72 0,106%

Andelen olyckor per cykeltur f¨or alla kluster exklusive de som ing˚ar i kategori 3 ¨ar 0, 044%, se Ekvation 3. Siffran f¨or kategori 3 ¨ar 0, 106%, detta ¨ar mer ¨an en f¨ordubbling av olycksrisken i kategori 3 j¨amf¨ort med alla kluster.

F (x) = P Olyckor i kategori 1, 2 samt 1+2 och alla kluster utanf¨or topp 30

P Cykelturer i kategori 1, 2 samt 1+2 och alla kluster utanf¨or topp 30 (3) Topp 30 kluster har allts˚a en dubblerad olycksrisk j¨amf¨ort med ¨ovriga kluster, och de kluster som tillh¨or kategori 3 har ytterligare en ¨okning i samst¨ammighet med STRADA.

F¨or att besvara fr˚aga 2 ber¨aknades BAI med Ekvation 2 f¨or varje kluster. Av de totalt 405 kluster hade endast 88 ett aktivt byggarbete. I 18 av dessa var byggarbetet aktivt under hela klustrets livstid varvid datan blir irrelevant d˚a ingen skillnad kan ber¨aknas. Av de kvarvarande 70 klustren var BAI positiv i 24 av fallen och negativ i 46. Ett positivt BAI inneb¨ar att fler f¨orh¨ojda SVM-niv˚aer registrerades under perioden ett byggarbete var aktivt i klustret. Ett negativt BAI inneb¨ar att f¨arre f¨orh¨ojda niv˚aer registrerades under byggarbetet.

Medelv¨ardet f¨or de negativa var -0,06 respektive 0,102 f¨or de positiva. Det betyder att majoriteten av klustren hade en n˚agot ¨okad andel f¨orh¨ojda SVM-niv˚a per cykeltur n¨ar det inte fanns ett p˚ag˚aende byggarbete. Figur 8 visar en sorterad lista p˚a de kluster med utr¨aknat BAI, fr˚an l¨agsta BAI-v¨arde till h¨ogsta.

(26)

Figur 8: Graf ¨over klustrens BAI.

N¨ar hela processen utf¨ordes p˚a den datam¨angd d¨ar SVM-4 var exkluderat blev data-underlaget f¨or litet och endast 30 kluster genererades. Det l˚aga antalet kombinerat med att storleken p˚a dessa kluster minskade gjorde att antalet olyckor identifierade i kluster blev v¨aldigt liten. D¨arf¨or redovisas inte resultatet ifr˚an dessa ber¨akningar.

9

Analys och Diskussion

I resultaten kan man se att i de 405 kluster genererade av DBSCAN tr¨affas endast 38 av 646 olyckor fr˚an STRADA. Detta g˚ar delvis att f¨orklara genom att olyckorna ¨ar i st¨orre utstr¨ackning spridda ¨over Malm¨os geografiska omr˚ade ¨an vad cykeldatan ¨ar, varp˚a det finns stora omr˚aden som inte t¨acks av cykeldata. Men efter databearbetning kan man i de topp 30 kluster, sorterade efter flest antal cykelturer med f¨orh¨ojd SVM-niv˚a i klustren, se att 14 av totalt 38 olyckor ¨overlappade med klustren. D˚a dessa topp 30 kluster ¨ar de kluster med flest cykelturer med f¨orh¨ojda SVM-niv˚aer inneb¨ar det att det ¨ar m˚anga cyklister som cyklar p˚a dessa platser, vilket skulle kunna f¨orklara varf¨or antalet olyckor per kluster ¨ar s˚a mycket h¨ogre i dessa kluster ¨an resterande (14/30 gentemot 24/375).

Men trots detta syns ¨and˚a en dubblering av andelen olyckor per cykeltur i dessa topp 30 kluster j¨amf¨ort med resterande. Detta inneb¨ar att det i snitt sker fler olyckor per cykeltur p˚a dessa platser ¨an p˚a andra platser identifierade i datam¨angden. Detta indikerar att metoden presenterad i denna studie visar potential att kunna identifiera platser med f¨orh¨ojd olycksrisk f¨or cyklister.

(27)

p˚a grund av detta. Exempelvis de som har kullersten som underlag. D¨armed b¨or kluster i kategori 1 tolkas med f¨orsiktighet f¨or det g˚ar inte att veta om det ¨ar en problematisk cy-kelsituation, eller kullerstenen som ¨ar upphov till att klustret genereras. Detta g¨aller ¨aven de kluster med byggnadsarbeten i sig. Byggnadsarbeten kan se v¨aldigt olika ut beroende p˚a vilket arbete som utf¨ors, och det framg˚ar inte i datan hur skrymmande ett arbete ¨ar. D¨arf¨or b¨or de kluster i kategori 2 ocks˚a tolkas med f¨orsiktighet. De kluster som ing˚ar i kategori 3 ¨ar de mest intressanta av de topp 30 klustren. De kan inte, eller till v¨aldigt liten grad, f¨orklaras med n˚agot av de ¨ovriga kategori-definitionerna. Detta inneb¨ar att de uppst˚ar till f¨oljd av en annan typ av h¨andelse som f˚ar H¨ovding-hj¨almen att reagera som i dagsl¨aget ¨ar ok¨and. Det skulle kunna vara s˚a att dessa platser ¨ar mer ben¨agna att framkalla kraftiga inbromsningar, att cyklister vinglar till i st¨orre utstr¨ackning eller att cyklister beh¨over g¨ora en kraftig huvudr¨orelse f¨or att se runt/ ¨over ett fast eller r¨orligt objekt. Dessa h¨andelser kan potentiellt vara riskmoment f¨or cyklister. Det ¨ar ocks˚a i denna kategori man hittar h¨ogst andel olyckor registrerade i STRADA, med upp till 82% ¨okning j¨amf¨ort med resterande topp 30 kluster. ¨Aven andelen olyckor per cykeltur ¨ar betydligt st¨orre med 52 % ¨okning gentemot resterande topp 30 kluster. J¨amf¨ors kategori 3 mot alla kluster ¨ar ¨okningen 122% i andelen olyckor per cykeltur. Kluster tillh¨orande kategori 3 har d¨armed den h¨ogsta samst¨ammigheten med olyckor registrerade i STRADA av alla kluster. Resultaten visar en stark indikation p˚a att kluster i kategori 3 ¨ar en potentiellt farligare och mer olycksdrabbad plats f¨or cyklister ¨an andra platser. Detta f¨oruts¨atter att H¨ovding-anv¨andare ¨ar en god representant f¨or det generella cyklingsbeteendet hos en st¨orre population, vilket vi anser att de borde vara. En given trafiksituation ¨ar samma f¨or alla cyklister oavsett om man b¨ar en viss hj¨alm eller inte. Datam¨angden anses tillr¨ackligt stor f¨or att v¨aga upp f¨or individuella skillnader i trafikbeteende hos de cyklister som gene-rerat datan till H¨ovding. D¨armed kan kluster i kategori 3 vara intressantast att titta p˚a ur ett olyckspreventions-perspektiv. F¨or personer som arbetar med trafiks¨akerhet kan dessa platser vara av intresse f¨or en ¨oversyn av trafiksituationen och en eventuell intervention i trafikmilj¨on.

I ett f¨ors¨ok att minska m¨angden brusdata i datam¨angden inf¨or klustringen exkludera-des alla SVM-4, d˚a majoriteten av brusdata antas best˚a av SVM-4 registreringar. Hypote-sen med experimentet var att de kluster som genereras skulle ha en h¨ogre indikationsgrad f¨or att hj¨almen skulle utl¨osas och d¨armed b¨attre representerat platser d¨ar hj¨almen iden-tifierat farliga situationer. Detta kunde gett h¨ogre samst¨ammighet med olycksdata fr˚an STRADA, men det var inte fallet. Allt f¨or f˚a och sm˚a kluster genererades och resulta-tet blev det motsatta mot f¨orv¨antningarna. Den stora majoriteten av alla SVM-niv˚aer ¨

ar SVM-4 och datam¨angden blev allt f¨or litet n¨ar de plockades bort f¨or generera n˚agra intressanta resultat.

I ber¨akningarna kring byggarbeten och BAI kan man se att vissa byggarbeten har en ¨okad registrering av f¨orh¨ojda SVM-niv˚aer, men majoriteten har det inte. Det tas inte h¨ansyn till hur stort eller hur p˚averkande arbetet ¨ar f¨or cykelmilj¨on varp˚a det ¨ar sv˚art att uttala sig om varf¨or resultaten ser ut som de g¨or. Ett antagande ¨ar att de skiljer sig kraftigt i hur mycket de p˚averkar vilket kan bero p˚a m˚anga saker. Exempelvis hur v¨al skyltat det ¨ar kring arbetsplatsen, om cyklister leds om till annan v¨ag eller om det f¨orkommer mycket l¨osa objekt p˚a cykelv¨agen i anslutning till arbetsplatsen [8]. Fr˚an de resultat presenterade i denna studie kan man inte dra n˚agra generella slutsatser kring H¨ovding-hj¨almens registreringar kring byggarbetsplatser i anslutning till cykelmilj¨oer.

(28)

9.1 Begr¨ansningar

Det finns flera saker att diskutera kring resultat och datan i sig. Datan fr˚an H¨ovding str¨acker sig endast fr˚an 2019-09-13 till 2020-02-27, och denna vinter var ovanligt mild. Detta medf¨or att vinterv¨aglag inte ˚aterspeglas i resultaten. ¨Aven antal cyklister och deras r¨orelsem¨onster kan antas variera under ˚arstiderna vilket inte heller ˚aterges i datan. Vidare g¨aller datan fr˚an H¨ovding endast cyklister med en h¨ovdinghj¨alm modell 3. Denna hj¨alm ¨

ar v¨asentligt dyrare ¨an en konventionell cykelhj¨alm varp˚a man t¨anka sig att det fr¨amst ¨

ar m¨anniskor fr˚an de h¨ogre socioekonomiska skikten som k¨oper dessa hj¨almar. D¨arf¨or kan vissa omr˚aden antas bli ¨overrepresenterade i studien.

Det f¨oreligger en del oklarheter kring validiteten av cykelhj¨almar som m¨atinstrument f¨or att identifiera olyckor. Dessa hj¨almar ¨ar framtagna f¨or att l¨osas ut vid en olycka, och de ¨ar inte testade i syfte att identifiera situationer som n¨astan blev en olycka. Hj¨almarna m¨ater hur n¨ara den ¨ar att l¨osas ut, och det ¨ar inte s¨akerst¨allt att detta ¨ar detsamma som att m¨ata hur n¨ara personen som b¨ar hj¨almen var att r˚aka ut f¨or en olycka. Det finns anekdotiska fall d¨ar hj¨almen l¨ost ut n¨ar det inte har f¨orekommit en olycka varp˚a validiteten av hj¨almen som m¨atinstrument av olycksrisk b¨or till viss del ifr˚agas¨attas. Mer forskning och fler kontrollerade tester beh¨ovs f¨or att f˚a en b¨attre uppfattning om hj¨almarnas validitet som m¨atinstrument i syfte att identifiera situationer som n¨astan blev en olycka.

10

Slutsatser och vidare forskning

Enligt f¨orfattarna till denna studie visar resultaten en stark indikation p˚a att det g˚ar att anv¨anda data fr˚an cykelhj¨almar av typen H¨ovding 3 till att identifiera riskomr˚aden f¨or cyklister. Metoden presenterad i studien identifierar kluster som har en kraftigt ¨okad repre-sentation av olyckor j¨amf¨ort med andra kluster genererade fr˚an samma datam¨angd, vilket potentiellt p˚avisar en ¨okad risk f¨or olyckor p˚a dessa platser. D¨armed anses forsknings-fr˚aga 1 vara besvarad, det g˚ar att med hj¨alp av data fr˚an cykelhj¨almar identifiera platser med ¨okad olycksrisk f¨or cyklister. Men de begr¨ansningar som tas upp under avsnittet 9.1 Begr¨ansningar b¨or tas i beaktning och resultaten b¨or tolkas med viss f¨orsiktighet. Mer forskning kring hj¨almarnas validitet f¨or att m¨ata olycksrisk och ett st¨orre dataunderlag kr¨avs f¨or att starkare p˚avisa detta p˚ast˚aende.

Ang˚aende forskningsfr˚aga 2 visar resultaten inte en generell f¨or¨andring av SVM-registreringar under ett p˚ag˚aende byggnadsarbete. D¨aremot syns en stor f¨or¨andring i an-knytning till vissa byggnadsarbeten, vilket kan indikera att utformning och storlek p˚a byggnadsarbetet har p˚averkan p˚a registreringarna, vilket denna studie inte tar h¨ansyn till. Slutsatsen f¨oresl˚as vara att byggnadsarbeten kan ha en p˚averkan p˚a hj¨almarnas SVM-registreringar, men det ¨ar ingen generell f¨oreteelse.

Vidare ¨ar f¨oruts¨attningarna f¨or framtida arbete v¨aldigt goda d˚a mer och mer data genere-ras ¨over en st¨orre tidsperiod. F¨oljande omr˚aden har f¨orfattarna identifierat som potentiellt intressanta att studera n¨armare.

D˚a datam¨angden generellt sett har tv˚a tidsintervall varje vardag med mer intensiv cyk-ling (pendcyk-ling till och fr˚an syssels¨attning) hade en studie som j¨amnf¨ort dessa kunnat vara intressant. ¨Ar det en ¨okad andel SVM-registreringar n¨ar de flesta ¨ar p˚av¨ag till sin

(29)

sys-sels¨attning gentemot n¨ar de ¨ar p˚av¨ag hem?

D˚a datam¨angden som denna studie ¨ar baserad p˚a ¨ar begr¨ansad till ett kortare tidsinter-vall utan stora skillnader i ˚arstid och v¨ader hade en studie vid ett senare tillf¨alle kunnat unders¨oka detta. Hur stor inverkan har halt v¨aglag p˚a SVM-registreringar? Hur ser skill-naden ut i data genererad under ljusa sommardagar gentemot m¨orkare vinterdagar?

En studie som anv¨ander b˚ade plats och tid f¨or SVM-registrering vid klustring hade kun-nat unders¨oka om det g˚ar att identifiera f¨or¨andringar i trafikmilj¨on ¨over tid, och ¨aven hur snabbt det g˚ar att registrera dessa f¨or¨andringar. Anv¨andningsomr˚ade f¨or detta hade exempelvis varit att identifiera v¨agstr¨ackor med halt v¨aglag p˚a vintern, eller korsningar skymda av buskage p˚a sommaren.

Om datam¨angden varit st¨orre, och str¨ackts sig ¨over en l¨angre tidsperiod hade det va-rit intressant att reproducera experimentet med en datam¨angd d¨ar alla SVM-niv˚a 4 blivit exkluderade. Vid tidpunkten f¨or denna studie blev datam¨angden helt enkelt f¨or liten f¨or att generera intressanta resultat. Men sannolikt ¨ar majoriteten av brusdata SVM-niv˚a 4, och ett s˚adant experiment hade potentiellt identifierat kluster som b¨attre represente-rat platser d¨ar hj¨almen identifierat farliga situationer, vilket eventuellt hade gett b¨attre samst¨ammighet med verkliga cykelolyckor.

Vissa byggarbeten tycks ha en inverkan p˚a registreringen av f¨orh¨ojda SVM-niv˚aer och det skulle kunna vara f¨orem˚al f¨or fortsatta studier att unders¨oka vilka typer av byggarbe-ten det ¨ar, och vad som utm¨arker dem genemot de som inte hade en ¨okning. Mer cykeldata ¨

over en l¨angre tid tillsammans med mer detaljerad data ang˚aende byggarbeten beh¨ovs f¨or att kunna f¨orfatta n˚agra generella slutsatser om vilken typ av byggarbeten som p˚averkar cyklisterna mest.

(30)

Referenser

[1] Sveriges regering, Uppdrag att f¨olja upp etappm˚alet om ¨okad g˚ang-, cykel- och kol-lektivtrafik, https://www.regeringen.se/regeringsuppdrag/2018/09/uppdrag-att- folja- upp- etappmalet- om- okad- gang-- cykel-- och- kollektivtrafik/, Regeringsdokument, aug. 2018.

[2] Trafikverket, “Hur utvecklas cyklandet i Sverige och vart ¨ar det p˚a v¨ag?”, Trafik-verket, Report, sept. 2019.

[3] Socialstyrelsen, “Statistik om skador och f¨orgiftningar behandlade i sluten v˚ard 2017”, Socialstyrelsen, Report, sept. 2018.

[4] Myndigheten f¨or samh¨allskydd och beredskap, “Skadade cyklister – en studie av skadeutvecklingen ¨over tid”, Myndigheten f¨or samh¨allskydd och beredskap, Report, juli 2013.

[5] Transportstyrelsen, Om Strada, https://www.transportstyrelsen.se/STRADA, Web Page, anv¨and 2020-04-20, mars 2020.

[6] R. Yamazaki, “Information om t¨ackning och bortfall i rapportering till Transport-styrelsens v¨agolycksdatabas”, Report, jan. 2018.

[7] Transportstyrelsen, Utveckling av Strada, https : / / www . transportstyrelsen . se / sv / vagtrafik / statistik / Olycksstatistik / om strada / utveckling av -strada/, Web Page, anv¨and 2020-03-26, febr. 2020.

[8] A. Niska, H. Ljungblad, J. Eriksson och A. Zajc, “V¨agarbeten p˚a cykelv¨agar - Kun-skapssammanst¨allning och problembeskrivning”, VTI, Report 838, 2014.

[9] H¨ovding company, H¨ovding Webbshop, https://shop.hovding.se/, Web Page, anv¨and 2020-04-23, april 2020.

[10] H. Wendelrup, Director of Research and Development at H¨ovding, Personal Com-munication, febr. 2020.

[11] Trafikanalys, “Cykeltrafik – m¨atmetoder och nationella m˚al”, Trafikanalys, Report, jan. 2018.

[12] P. W lodarek och P. Olszewski, “Traffic safety on cycle track crossings – traffic conflict technique”, Journal of Transportation Safety & Security, ˚arg. 12, nr 1, s. 194–209, 2020.

[13] G. Vandenbulcke, I. Thomas och L. I. Panis, “Predicting cycling accident risk in Brussels: A spatial case–control approach”, Accident Analysis & Prevention, ˚arg. 62, s. 341–357, 2014.

[14] J. Holmgren, L. Knapen, V. Olsson och A. P. Masud, “On the use of clustering analysis for identification of unsafe places in an urban traffic network”, Procedia Computer Science, ˚arg. 170, s. 187–194, 2020.

[15] L. Knapen och J. Holmgren, “Identifying bicycle trip impediments by data fusion”, Procedia Computer Science, ˚arg. 170, s. 195–202, 2020, issn: 1877-0509.

[16] S. Nair, K. Javkar, J. Wu och V. Frias-Martinez, “Understanding Cycling Trip Pur-pose and Route Choice Using GPS Traces and Open Data”, Proc. ACM Interact. Mob. Wearable Ubiquitous Technol., ˚arg. 3, nr 1, mars 2019.

(31)

[17] H. Wang och Y. Si, “Detection of Traffic Abnormity Based on Clustering Analysis of Taxi GPS Data”, ser. Proceedings of the 2019 2nd International Conference on Data Science and Information Technology, Association for Computing Machinery, 2019, s. 219–224.

[18] B. S. Everitt, S. Landau, M. Leese och D. Stahl, Cluster analysis. John Wiley & Sons, 2011.

[19] M. Ester, H.-P. Kriegel, J. Sander och X. Xu, “A density-based algorithm for disco-vering clusters in large spatial databases with noise”, i Kdd, vol. 96, AAAI Press, 1996, s. 226–231.

[20] T. N. Tran, K. Drab och M. Daszykowski, “Revised DBSCAN algorithm to clus-ter data with dense adjacent clusclus-ters”, Chemometrics and Intelligent Laboratory Systems, ˚arg. 120, s. 92–96, 2013.

[21] D. P. de Oliveira, J. H. Garrett och L. Soibelman, “A density-based spatial clustering approach for defining local indicators of drinking water distribution pipe breakage”, Advanced Engineering Informatics, ˚arg. 25, nr 2, s. 380–389, 2011.

[22] M. Daszykowski, B. Walczak och D. L. Massart, “Looking for natural patterns in data: Part 1. Density-based approach”, Chemometrics and Intelligent Laboratory Systems, ˚arg. 56, nr 2, s. 83–92, 2001.

[23] C. Plant, S. J. Teipel, A. Oswald, C. B¨ohm, T. Meindl, J. Mourao-Miranda, A. W. Bokde, H. Hampel och M. Ewers, “Automated detection of brain atrophy patterns based on MRI for the prediction of Alzheimer’s disease”, NeuroImage, ˚arg. 50, nr 1, s. 162–174, 2010.

[24] Apache. (2012). Commons Math 3.1 API. (anv¨and: 2020-03-01).

[25] U. Schlegel, Implementation of the algorithm described by Adriano Moreira and Maribel Yasmina Santos: CONCAVE HULL: A K-NEAREST NEIGHBOURS AP-PROACH FOR THE COMPUTATION OF THE REGION OCCUPIED BY A SET OF POINTS. https : / / github . com / Merowech / java - concave - hull / blob / master/ConcaveHull.java, anv¨and 2020-03-27, okt. 2016.

[26] J. M. Pe˜na, J. A. Lozano och P. Larra˜naga, “An empirical comparison of four initi-alization methods for the K-Means algorithm”, Pattern Recognition Letters, ˚arg. 20, nr 10, s. 1027–1040, 1999.

[27] D. Pelleg och A. Moore, “X-means: Extending K-means with Efficient Estimation of the Number of Clusters”, i In Proceedings of the 17th International Conf. on Machine Learning, Morgan Kaufmann, 2000, s. 727–734.

[28] T. Kodinariya och P. Makwana, “Review on Determining of Cluster in K-means Clustering”, International Journal of Advance Research in Computer Science and Management Studies, ˚arg. 1, s. 90–95, jan. 2013.

[29] V. Hautam¨aki, S. Cherednichenko, I. K¨arkk¨ainen, T. Kinnunen och P. Fr¨anti, “Im-proving K-Means by Outlier Removal”, i Image Analysis, Springer Berlin Heidelberg, 2005, s. 978–987.

Figure

Figur 1: Arbetsprocessens olika steg
Tabell 1: Komplett lista ¨ over System Modes System mode Beskrivning
Figur 2: Figuren visar en cykeltur med en uppenbart felaktig punkt. Denna punkt blir d˚ a borttagen
Figur 3: Den r¨ odmarkerade str¨ ackan ¨ ar den str¨ ackan som ers¨ atter de felaktiga str¨ ackorna efter borttagande av felaktig punkt i Figur 2
+7

References

Related documents

ENIRO’S LOCAL SEARCH SERVICES CREATE BUSINESS Eniro is the leading directory and search company in the Nordic media market and has operations in Sweden, Norway, Denmark, Finland and

Hos de hdr studerade arterna Arpedium quadrum (Grav.) och Eucnecosum brachypterum (Grav.) iir livscykeln kand endast hos den senare

ningar av dcn lokala faunan kan vara av stort intresse och ge lika stor tillfredsstallelse sonl att aka land och rikc runt pa jakt cftcr raritctcr till den privata

Liksom de övriga är den uppförd av kalksten samt putsad med undantag för omfattningar av huggen

Ovning 1: Hur m˚ ¨ anga relationer finns det p˚ a en m¨ angd med 3 element? Hur m˚ anga reflexiva relationer finns det? Vad kan du s¨ aga i det allm¨ anna fallet, om antalet

I samband med detta planerar Trafi kverket järnvägsanslutningar i Bergsåker och Maland, samt elektrifi ering och upprustning av industrispåret från Ådalsbanan ner till hamnen och

För många unga damer, som endast tänka på att undvika skrynkling, betyder nu detta att hafva de största möjliga koffertar och att lägga sina saker ordentligt i dem, det ena på

Men sagan fann hon inte annat än i luften den första natten, ty när hon hade gått några steg blev hon rädd att gå mot folk, ty där folk var fanns sex som kunde snappa upp