• No results found

Kvalitetsbedömning vid adressmatchning

N/A
N/A
Protected

Academic year: 2022

Share "Kvalitetsbedömning vid adressmatchning"

Copied!
41
0
0

Loading.... (view fulltext now)

Full text

(1)

Anders Forsberg

Kvalitetsbedömning vid adressmatchning

TEKNISK RAPPORT

Institutionen för Samhällsbyggnadsteknik Avdelningen för Geografisk informationsteknik

1999:17 • ISSN: 1402-1536 • ISRN: LTU-TR--99/17--SE

(2)

Institutionen för Samhällsbyggnadsteknik

Kvalitetsbedömning vid adressmatchning

Annons införd i Kiruna Annonsblad 4/6-98. Alternativa, och i vissa fall betydligt bättre, lägesangivelser för auktionen är Gruvvägen 1 eller X=7535383, Y=1685930.

Anders Forsberg SIGIT Box 851 981 28 Kiruna

E-post: anders@sigit.kiruna.se

(3)

1. Sammanfattning

En metod för att bedöma kvalitet vid adressmatchning har genom att upprätta ett testdataset tagits fram. Testdatat, som finns tillgängligt via Internet, kan nyttjas för att bedöma olika adressmatchningsmetoder, programvaror och databaser. Testdatat består av 374 belägenhets- adresser från Kiruna kommun och finns i en korrekt och i en delvis felaktig version. I den felaktiga versionen har ca 20% av adresserna inplanterade fel.

I projektet har några olika adressmatchningsförsök gjorts där testdatat har nyttjats. Försöken visar några sätt att bedöma kvalitet. Kvalitetsaspekter som bedömts är matchningsgrad, läges- noggrannhet och feltolerans. Med feltolerans avses en metods möjlighet att klara en matchning vid olika typer av fel i en adress.

Tre olika försök har utförts med det korrekta testdatat. I det två första försöken har program- varorna ArcView och MapInfo testats med vägdatabasen Tätort 2000. I det tredje försöket har matchning skett mot fastighetsdatasystemets adressregister, FDS/AR. FDS/AR gav de bästa resultatet av de undersökta metoderna. Matchningsgraden var 90%. Medelfelet var 24 m och 85% av alla matchade adresser avvek mindre än 30 m från det korrekta läget.

ArcView och MapInfo hade ungefär samma medelfel (68 respektive 70 m). Däremot gav ArcView ett bättre matchningsresultat än MapInfo (72% jämfört med 60%). Detta beror på att den testade versionen av ArcView är bättre anpassad till svenska adressnamn än motsvarande version av MapInfo.

Ungefär 12% av adresserna i testdatat var landsbygdsadresser. Som väntat var matchnings- graden för dessa låg. Om landsbygdsadresser utesluts ur testdatat stiger matchningsgraden till 95% för FDS/AR, 81% för ArcView och 68% för MapInfo.

2. Projektets bakgrund, syfte och begränsningar

Bakgrund

De flesta administrativa databaser saknar idag en direkt lägesangivelse i form av koordinater.

Däremot innehåller flera databaser en indirekt referens (geokod) i form av exempelvis gatu- adress, fastighetsbeteckning, nyckelkod, postnummer eller kommun.

Eftersom många administrativa databaser, t ex i kommunal drift, innehåller adressuppgifter är adressmatchning, dvs en översättning från adress till koordinat, en nödvändig åtgärd om man önskar bearbeta dessa med GIS-verktyg.

Resultatet från adressmatchningen beror dels på kvaliteten på de databaser som adress- matchas, dels på hur adressmatchningen utförs. Det finns ett starkt samband mellan kostnad och kvalitet. Ett dåligt resultat, t ex en låg matchningsgrad, medför högre kostnader då de omatchade adresserna manuellt måste kontrolleras.

Det finns relativt litet få studier där adressmatchningskvalitet utvärderas. I Danmark har ett försök gjorts där 100 000 adresser från en kartdatabas matchats med ett administrativt register (Jacobi 1995). I försöket utvärderades matchningsgrad och förekommande feltyper i data- baserna. Lägesnoggrannheten, dvs adressernas belägenhet, utvärderades dock ej i försöket.

(4)

Syfte

Syftet med detta projekt är att utveckla en metod för att bedöma kvalitet vid adressmatchning.

Detta har skett genom att upprätta ett testdataset. Dessa testdata kan nyttjas för att bedöma olika adressmatchningsmetoder, programvaror och databaser.

Begränsningar

Det skapade testdatat och de gjorda försöken begränsar sig till svenska förhållanden.

Metoderna som nyttjats för att skapa testdatat och utvärdera försöken är dock generella.

Rapportens utformning

I kapitel 3 förklaras adressbegreppet där tyngdpunkten läggs på svenska förhållanden. Kapitel 4 beskriver adressmatchning och geokodning. Kapitel 5-6 beskriver hur testdatat skapades och i kapitel 7-9 beskrivs de olika försöken och deras resultat. Rapporten avslutas med kapitel 10 som diskuterar möjliga förbättringar av adressmatchningsmetoder, förbättring av föreslagen metod och förslag till följande studier.

3. Vad är en adress?

3.1 Allmänt om adresser

När man pratar om adresser tänker nog de flesta i första hand på en postadress. Men en adress kan ju användas i många andra sammanhang. T ex är 130.238.253.4 en IP-adress som går till svenska universitetnätets (Sunets) FTP-server.

En adress kan liknas vid en etikett som tilldelas något man vill kunna lokalisera.

Fortsättningsvis behandlar vi geografiskt relaterade adresser. Beroende på vad man då adressätter så erhålls olika typer av adresser, t ex postadresser, bostadsadresser, och belägenhetsadresser.

Här definieras en adress som en ”icke koordinatbaserad lägesangivelse för bostad eller verksamhet” (STG 1996a).

3.2 Adresser i Sverige

Kommunerna, Posten, Riksskatteverket och Lantmäteriverket är några av de viktigaste aktörerna i Sverige vad gäller ansvar och lagring av adresser. Ansvarsfrågan för adressättning är fn oklar och adresser lagras i många olika register. Långt gångna planer finns på att utveckla adressregistret i fastighetsdatasystemet till ett basadressregister för belägenhets- adresser. Med detta skulle kvaliteten på adressuppgifterna i register som baserar sig på basadressregistret öka och samhällets kostnader beroende på felaktiga adresser minska.

3.2.1 Vem ansvarar för adressättningen?

Ansvaret för adressättningen är ej författningsmässigt reglerat. Inom tätorterna har sedan länge kommunerna av praxis ansvarat för adressättning av belägenhetsadresser. Efter hand har kommunerna även börjat sätta belägenhetsadresser utanför tätorter, t ex för fritidsbebyggelse.

Posten har tidigare ansvarat för landsbygdsadresser, men sedan Posten i mitten av 90-talet beslutade att avveckla postlådeadresser vilar även ansvaret för landsbygdsadresser på kommunerna.

(5)

Ett principavtal mellan Posten och Svenska Kommunförbundet slöts 1994 för hur samarbetet avseende adresser ska ske. Detta principavtal var tänkt att följas av separata avtal mellan Posten och respektive kommun, flera sådana avtal saknas dock fortfarande. Därför råder det ännu idag oklarheter i många kommuner i Sverige kring ansvaret för adressättning på landsbygden. Postlådeadresser finns också fortfarande kvar där.

3.2.2 Adresser i fastighetsdatasystemet, FDS, nuvarande status

Adressregistret är ett delregister till fastighetsregistret i fastighetsdatasystemet, FDS. I registret, som brukar kallas FDS/AR, lagras fastighetens adress (Lantmäteriverket 1996a).

Adresser började lagras i FDS 1980 av dåvarande CFD. Numera är det Lantmäteriverket som ansvarar för registret. Kommunerna ansvarar för källuppgifter till och ajourföring av registret.

Adressregistret är inte obligatoriskt och ett fåtal kommuner (i maj 1998 Burlöv, Hässleholm, Malung och Nordanstig) har valt att ej ingå i registret.

En annat delregister i FDS är byggnadsregistret som byggdes upp mellan 1993-1995. Via detta register kan en adress kopplas till en byggnad. Byggnaden har i sin tur koppling till fastigheten. I första hand eftersträvas att adressen kopplas mot byggnaden. Adresserna som lagras för fastighet och byggnad är belägenhetsadresser, dvs boxadresser, postlådor osv är ej tillåtna. I maj 1998 fanns det ca 1 700 000 byggnadsadresser och 1 400 000 fastighets- adresser.

Uppskattningsvis behöver 650 000 adresser inom tätort och 700 000 adresser på landsbygden kompletteras (Kostet 1998). Kvalitetsbrister finns för befintliga adresser i FDS, främst beroende på oklart ansvar för adressättning och bristande ajourföring.

3.2.3 Utveckling av FDS/AR till ett basadressregister?

Många aktörer i samhället är beroende av korrekta adressuppgifter. Via ett ständigt informationsflöde mellan aktörerna sprids en felaktig adress snabbt. De årliga kostnaderna för enbart posten uppskattas till mellan 200-300 miljoner kr (Riksrevisionsverket 1992).

Ett av de stora problemen är att adresser lagras i olika register hos olika myndigheter.

Kvalitetsproblemen är omfattande i registren. Som exempel lagras adresser i folkbokförings- registret hos Riksskatteverket (RSV) som postala adresser på individnivå, där stavningen av ett adressnamn kan variera t ex beroende på förkortningar.

RSV, Posten, Svenska kommunförbundet och CFD presenterade 1995 en plan på hur FDS/AR skulle kunna utvecklas till ett gemensamt basadressregister för belägenhetsadresser (Centralnämnden för fastighetsdata m fl 1995).

Utvecklingsarbetet för ett basadressregister har gått vidare i ett projekt benämnt BASAR.

Tanken är att först komplettera FDS/AR innan det nyttjas som en grund för basadressregistret.

Arbetet har dock gått relativt trögt då ersättningsfrågan till kommunerna för arbetet med att fastställa och registrera belägenhetsadresser ej är löst. Då dessutom ingen tvingande lag finns har Lantmäteriverket saknat såväl ”morot som piska” för att driva arbetet.

Särskilt på landsbygden medför adressättning ett skyltningsbehov för att öka adressernas användbarhet. Detta gör också processen långsam, särskilt som det inte heller här finns författningsstöd eller fastställt ersättningssystem.

(6)

En oro hos de boende, olika intresseorganisationer och kommuner att förlora etablerade adressbenämningar, särskilt gårdsnamn på landsbygden, gör också att arbetet går långsamt.

Basadressregistret är dock tänkt att följa standarden för belägenhetsadresser (kapitel 3.4.2) som medger olika sätt för att ange adressen. Gårdsnamn kan t ex fortfarande ingå i adressen.

Ett författningsförslag har dock lagts fram (Regeringskansliet 1997) där kommunerna åläggs fastställa belägenhetsadresser för bostadsbyggnader.

3.2.4 Planer på registerbaserade folk- och bostadsräkningar samt lägenhetsregister En viktig bakomliggande orsak till författningsförslaget är att Riksdagen 1995 tog ett princip- beslut om att ersätta de traditionella blankettbaserade folk- och bostadsräkningarna (FoB) med en registerbaserad FoB (rFoB). För att en rFoB ska kunna äga rum måste ett sk lägen- hetsregister byggas upp. Observera att ett normalt enfamiljs småhus i detta sammanhang motsvarar en lägenhet. En lag (Svensk författningsförsamling 1995) om lägenhetsregister beslutades i samband med beslutet om rFoB.

Tanken med ett lägenhetsregister är att folkbokföringen sker på lägenhet istället för som idag på fastighet. Lägenhetsregistret bygger på att entydiga belägenhetsadresser finns till varje bostadsentré, och om flera lägenheter finns på samma adress, dessutom en särskild lägenhets- beteckning. Lägenhetsregistret är tänkt att bygga på adressregistret. Adressregistret måste därför vara komplett när det gäller bostadsadresser.

Regeringen uppdrog 1996 åt Lantmäteriverket, RSV och SCB att genomföra en prov- uppläggning av lägenhetsregister i full skala för Gävle kommun och Högalids församling i Stockholm. Utvärderingen visar framför allt att adresserna i tätorterna höll lägre kvalitet än man förväntat sig.

Tanken har länge varit att en första rFoB ska ske år 2002. I juni 1998 ändrades dock dessa planer och nästa FoB kommer att ske på traditionellt sätt (Finansdepartementet, 1998). Det är vidare osäkert om en rFoB framledes överhuvud taget alls kommer att ske (Lantmäteriverket 1998). Detta innebär också att planerna på ett lägenhetsregister i dagsläget ej realiseras.

Därmed saknar Lantmäteriverket fortfarande ”piskan” för att skapa ett komplett basadressregister. Vidare fortsätter ansvaret för fastställande av belägenhetsadresser att vara författningsmässigt oreglerat.

3.2.5 Konventioner för adressättning

Då adresser sätts inom tätorter används i regel gatunamn följt av ett adressnummer. För varje gata definieras en riktning, från centrum och utåt är en vanlig konvention. Som exempel nyttjas slottet som centrum i Stockholm. Ett annat vanligt sätt att börja från är söder och väster. Varje gata numreras med udda nummer på vänster sida och jämna på höger. Parallella gator numreras som regel i samma riktning.

Många specialfall finns, t ex återvändsgränder och sk insticksgator, se standard för belägenhetsadresser (STG 1998). Om flera uppgångar finns, nyttjas ibland littera (t ex Storgatan 1 A). Littera nyttjas även vid fastighetsdelningar.

(7)

På landsorten finns många olika system. Ortsnamn och gårdsnamn är här vanliga. Som nämnts var postlådor vanliga förr. Dessa byggde på hur postturerna låg. Då detta system numera är omodernt är Posten i färd med att avveckla postlådeadresserna.

Metertalsystem har de senaste åren börjat nyttjas allt flitigare. Metertalsystemet är ett exempel på ett linjärt referenssystem. Systemet bygger på att adressplatsen anges med en beteckning som är en kombination av siffror som anger ungefärligt avstånd från en namngiven vägs början och eventuellt det ungefärliga avståndet för en infartsväg längs den namngivna vägen (figur 1).

Vekerumsvägen

Knutbergsvägen

39-13

130 m

390 m

Figur 1. Exempel från Karlshamns kommun. Byggnaden får adressen Knutbergsvägen 39- 13. Ur sifferkombinationen kan uttydas att byggnaden ligger ca 130 m längs en avfartsväg från Knutbergsvägen. Avfartsvägen ligger ca 390 m från Knutbergsvägens början. Vidare ser man att avfartsvägen ligger på vänster sida och att byggnaden också ligger på vänster sida. Detta då Karlshamn har nyttjat jämna siffror på höger sida och udda på vänster sida.

Råd om namnsättning har getts av Svenska kommunförbundet (1989) och i standarderna för postala adresser (STG 1996b) och belägenhetsadresser (STG 1998).

3.3 Adressättning i andra länder

Nationella standardiseringsarbeten har gjorts i ett antal länder, oftast av postala skäl. Flertalet länder har olika typer av postnummerområden, i vissa fall finns koder ner på brevbärarnivå och i några länder tom på ännu finare nivå.

Som exempel kan nämnas att i Storbritannien antogs en standard 1993 avseende ”spatial datasets for geographical referencing”. Standarden anger bl a specifikationer för en nationell gatuförteckning med ett unikt referensnummer för varje gata. Vidare specificeras hur koppling sker mellan fastighet, adressuppgifter (inklusive postkod) och vägnummer.

Storbritannien har en mycket hög detaljeringsnivå på sina postkoder där varje postkod som mest omfattar några tiotal adresser.

Danmark har ett heltäckande vägregister som utgör grund för adresser. Postadress och belägenhetsadress blir därmed i regel likadan. Noterbart är att till varje adress ska en adresspunkt knytas, dvs adressen får sitt eget läge.

I USA nyttjas sk ZIP-codes som postnummerområden. Dessa har koppling till gatunamnen.

Gatunamnen finns i ett nationellt register tillgängligt gratis som sk ”TIGER-files”. I USA skrivs adresserna med adressnumret (adressplatsen) först, t ex ”121 Elm street”. Då många GIS-programvaror är utvecklade i USA kan det bli problem med adressmatchning med dessa programvaror då adressnumret står sist, vilket ju är fallet t ex med svenska adresser.

(8)

3.4 Standarder för adresser

SIS, Standardiseringen i Sverige, är huvudorganisation för utarbetande av standarder i Sverige. SIS auktoriserar olika organ rätten att fastställa standarder. Allmänna standard- iseringsgruppen, STG, utarbetar standarder bl a för landskapsinformation. Två standarder av särskilt intresse som STG utarbetat är postala adresser SS 61 34 01 (STG 1996b) och belägenhetsadresser SS 63 70 03 (STG 1998).

Inom det internationella standardiseringsorganet ISO utarbetas en standard som berör adresser, ”Indirect reference systems”. På samma sätt arbetar det europeiska standardiserings- organet CEN inom ”Geographic information -Referencing -Geographic identifiers”.

3.4.1 Standard för Postala adresser, SS 61 34 01

Standarden anger regler och rekommendationer för hur postala adresser skrivs och lagras.

En postal adress består av adressatuppgift och en postadress.

Adressatuppgiften anger ett namn eller annan identifierande uppgift på den fysiska eller juridiska personen.

Postadressen består av en utdelningsadress och en postortsadress. Postortsadressen består av postnummer och postort.

Utdelningsadressen delas vidare upp i olika adresselement såsom gata, nummer osv (figur 2).

Arvid Andersson Storgatan 38 B 612 36 Mjällby

POSTNUMMER POSTORT ADRESSATUPPGIFT

UTDELNINGSADRESS

Figur 2. Olika adresstermer ingår i en postal adress. Den minsta informationsbärande enheten i en adress kallas ett adresselement, t ex är postummer ett adresselement. Denna utdelningsadress har tre adresselement; gata, nummer och littera.

3.4.2 Standard för belägenhetsadresser, SS 63 70 03

En belägenhetsadress anger alltid var en plats finns till skillnad från postala adresser som anger vart post skall skickas för att nå en adressat. Detta kan t ex vara en boxlåda eller poste restante.

Belägenhetsadresser bygger på ortsnamn, t ex gatuadresser och gårdsnamn. Syftet med standarden är att med hjälp av befintliga ortsnamn fastställa hur belägenhetsadresser byggs upp. Standarden medger flera olika sätt att bygga upp belägenhetsadresser. Oavsett vilket sätt man väljer så är begreppen standardiserade för att underlätta användningen av adresserna.

Ytterligare ett syfte är att tydliggöra sambandet mellan postala adresser och belägenhets- adresser. I samarbetsintentionerna mellan Posten och Svenska Kommunförbundet är också

(9)

tanken att de belägenhetsadresser som kommunerna fastställer ska utgöra grunden för de postala adresserna.

En belägenhetsadress sätts på en plats för att det finns något där man vill peka ut. I standarden kallas denna plats för en adressplats och det man vill peka ut kallas för en adressatt företeelse. Vanligtvis är detta en entré till en byggnad, men det skulle också kunna vara en infart till ett område eller avfarten från en motorväg.

En belägenhetsadress byggs upp av 4 eller 5 nivåer (figur 3).

Del i belägenhetsadress Nivå Villkor Ingår i

postal adress Objekttypsnamn Attributtypsnamn

Kommun Namn 1 Obligatorisk

Geografisk kommundel

Fastställt namn 2 Obligatorisk (kan sammanfalla med kommunnamn) Adressområde

(gatuadressområde eller byadressområde)

Fastställt namn 3 Obligatorisk Ja

Gårdadressområde Fastställt namn 4 Endast för byadressområde

Ja Adressplats Fastställd beteckning 5 Obligatorisk Ja

Adressplats Populärnamn - Ingår ej Ja

Figur 3. De olika nivåerna på en belägenhetsadress enligt SS 63 70 03, standard för belägenhetsadresser. Gårdadressområde nyttjar bara byadressområde och enbart då adressen ej kan göras unik med övriga nivåer.

Figur 4 visar ett exempel på en belägenhetsadress av typen gatuadress och dess koppling till postadressen.

Del i en belägenhetsadress Nivå Exempel

Kommun 1 Stockholm

Geografisk kommundel 2 Norrmalm

Gatuadressområde 3 Sveavägen

- 4 -

Adressplats 5 47

Arvid Andersson Sveavägen 47 113 59 Stockholm

POSTNUMMER POSTORT NIVÅ 3, GATUADRESSOMRÅDE

NIVÅ 5, ADRESSPLATS

Figur 4. En belägenhetsadress i en tätort och dess koppling till den postala adressen.

Exemplet är taget från SS 63 70 03, standard för belägenhetsadresser.

Figur 5 visar ett exempel på en belägenhetsadress på landsbygden och dess koppling till postadressen.

(10)

Del i en belägenhetsadress Nivå Exempel

Kommun 1 Åmål

Geografisk kommundel 2 Ånimskog

Gatuadressområde 3 Bolet

- 4

Adressplats 5 715

Populärnamn - Bodalen

Eva Bohlin Bodalen Bolet 715 662 97 Ånimskog

POSTNUMMER POSTORT NIVÅ 3, GATUADRESSOMRÅDE

NIVÅ 5, ADRESSPLATS POPULÄRNAMN

Figur 5. En belägenhetsadress på landsbygden och dess koppling till den postala adressen.

Exemplet är taget från SS 63 70 03, standard för belägenhetsadresser.

4. Vad innebär geokodning och adressmatchning?

4.1 Definition av geokodning och adressmatchning

Ett geografiskt objekt har ett läge som antingen kan anges med koordinater eller med en geokod. Med läge avses här lägen på eller nära jordens yta. Koordinater anges vanligtvis i plana koordinatsystem eller i geografiska koordinatsystem (lat/long). Normalt används x, y och ibland z i ett plant koordinatsystem.

Med geokod avses en ”alfanumerisk beteckning som unikt identifierar ett geografiskt objekt.”

(STG 1996a). Exempel på geokoder är adresser, nyckelkodsområden, kommun, och postnummer. En lägesangivelse baserad på en geokod brukar ibland kallas en indirekt lägesangivelse.

Definition av geokodning

Med geokodning avses en process där en metod används för att översätta en geokod till koordinater (figur 6).

Geokod: Adress, Postnr, NYKO ..

metod

Koordinater: x, y

Figur 6. Schematisk beskrivning av geokodningsprocessen.

(11)

Geokoder är diskreta lägesangivelser. Dessa kan bara anta vissa värden, t ex Storgatan 1, Storgatan 2 A, Storgatan 2 B. En kontinuerlig lägesangivelse, som i två dimensioner vanligtvis anges med hjälp av ett koordinatpar, kan inom ett givet område i princip anta oändligt många värden (figur 7).

2 4 x

2 4 y

Figur 7. En kontinuerlig lägesangivelse anges med ett koordinatpar (x,y) och kan i princip anta oändligt många värden inom ett givet område (t ex 1 ≤x ≤ 4, 1 ≤y≤ 3).

Definition av adressmatchning

Adressmatchning är en typ av geokodning där en adress (t ex en gatuadress) utgör geokod.

Oftast används litet slarvigt geokodning och adressmatchning som synonyma benämningar.

I praktiken innebär geokodning att en databas med indirekta lägesangivelser automatiskt tilldelas en eller flera koordinater via en matchning mot en referensdatabas (figur 8).

Koordinatantalet beror på om objektet beskrivs som en punkt, linje eller polygon.

Figur 8. I en GIS-programvara innebär geokodning att en databas automatiskt tilldelas koordinatvärden via en matchning mot en referensdatabas. I detta exempel har tdb_korr.txt matchats mot Vagar.shp, resultatet är Geocd1.shp. Som exempel tilldelas adressen Borraregatan 15 B koordinaten X=7536448, Y=1685726.

4.2 Varför behövs adressmatchning?

De flesta administrativa databaser saknar idag en direkt lägesangivelse i form av koordinater.

Däremot innehåller flera databaser en indirekt referens (geokod) i form av exempelvis gatuadress, fastighetsbeteckning, nyckelkodstillhörighet eller postnummer.

(12)

Eftersom många administrativa databaser, t ex i kommunal drift, innehåller adressuppgifter är adressmatchning (eller mer generellt, geokodning) en nödvändig åtgärd om man önskar bearbeta dessa med GIS-verktyg.

Några exempel på användare som kan ha nytta av adressmatchning är

• Olika kommunala förvaltningar och bolag som har abonnentregister. Det kan vara t ex elverk, värmeverk, vattenverk och avfallsbolag.

• Kommunala skolplanerare, där elevregistret kan användas.

• Polisen då de vill studera var olyckor och brott sker mha ett brotts/olycksfallregister.

• Företag som vill göra marknadsanalyser mha sitt kundregister.

• Taxi, bud, färdtjänst m fl för lokalisering av en adress.

4.3 Hur kan man adressmatcha?

Det finns flera olika sätt att utföra en adressmatchning på. I detta kapitel beskrivs tre metoder.

För samtliga metoder gäller att en matchning av textsträngar i två olika databaser sker.

Särskilda algoritmer för matchning finns utvecklade som tolererar viss stavningsvariation, exempelvis nyttjar ArcView en sådan algoritm (kapitel 7.2).

Vidare kan samtliga metoder förfinas genom att områdestillhörighet för adressnamnet nyttjas vid adressmatchningen. Storgatan är ett exempel på ett adressnamn som ingalunda är unikt i Sverige, däremot pekar Storgatan, Hudiksvall unikt ut en väg. Områdestillhörigheten kan t ex vara en kommun, kommundel eller postnummer.

4.3.1 Adressregister

Det enklaste sättet att utföra en adressmatchning på är att naturligtvis att matcha mot ett register som innehåller adress- och koordinatuppgifter (figur 9). Problemet är dock att kom- pletta sådana adressregister sällan finns att tillgå. I Sverige finns dock ett adressregister inom fastighetsdatasystemet som kan nyttjas på detta sätt (kapitel 7.4).

7366395 Storgatan 18

...

...

Storgatan 17 Storgatan 18 ...

...

Adress

1683052

X Y

1683025 7366412

Figur 9. Adressmatchning mot ett adressregister. Om ett adressnummer saknas i adress- registret men andra adressnummer med samma adressnamn finns så kan interpolation genomföras. Anta att Storgatan 18 i detta exempel saknas i adressregistret, men att däremot Storgatan 16 och Storgatan 20 finns. Storgatan 18 kan då tilldelas ett läge mitt emellan läget för Storgatan 16 och Storgatan 20.

4.3.2 Interpolation utifrån en vägdatabas

Ett av de vanligaste sätten att utföra adressmatchning på är med hjälp av en vägdatabas.

Vägdatabasen måste då förutom geometri innehålla attribut som anger adressnamn och adressintervall.

Utifrån vägdatabasen sker adressmatchningen i två steg

(13)

• Rätt vägsegment identifieras

En utsökning sker av det vägsegment vars adressintervall adressen tillhör.

• Interpolation utförs

Baserat på vägsegmentets längd och adressintervall utförs en interpolation för att finna adressplatsens läge (figur 10).

Namn: Storgatan Från_vänster: 11 Från_höger: 14 Till_vänster: 19 Till_höger: 22

18

Figur 10. Exempel där adressmatchning sker av adressen Storgatan 18. Det jämna adressintervallet är 14-22, dvs 14, 16, 18, 20, 22. Interpolation utförs för att tilldela adressen Storgatan 18 ett läge. Då 18 ligger mitt i intervallet 14-22 placeras adressen på halva vägsegmentets sträcka. Då sidan är känd kan adressplatsen skiftas ut lämplig vinkelrät sträcka till höger.

I kapitel 10 diskuteras interpolation ytterligare.

4.3.3 Adresskartor

Ett tredje sätt att utföra adressmatchning är att nyttja adresskartor, eller snarare de kartdata- baser som moderna adresskartor baserar sig på. Användbarheten av kartdatabaser beror på hur de är uppbyggda. Om adresskartorna är uppbyggda via fri textplacering utan någon koppling till en databas är kartdatabasen svåranvänd vid adressmatchning.

Denna metod för adressmatchning nyttjas sällan.

4.4 Vilken plats vill vi att adressmatchningen ska ge?

Vid en adressmatchning kompletteras en adress med en koordinatangivelse som beskriver läget. Vilket plats önskar vi då att adressmatchningen ska ge läget för?

Platsen kan t ex vara entrén till byggnaden, infarten till gården eller brevlådans läge. Dessa kan alla beskrivas med hjälp av en punkt, dvs en koordinat. Men det är också fullt tänkbart att det man med adressen vill peka ut bäst beskrivs med hjälp av en linje eller polygon.

I standarden för belägenhetsadresser (kapitel 3.4.2) kallas företeelsen man vill peka ut för en adressatt företeelse och platsen för en adressplats. Standarden definierar dock ej var adressplatsen ligger utan talar om ”en plats med cirka 2 meters diameter”.

Vilken adressplats som avses beror naturligtvis på tillämpningen. Brevbäraren vill ha postlådans läge och taxichauffören vill ha infarten eller entrén.

I regel är avstånden mellan dessa punkter litet och för en lokalisering räcker oftast en noggrannhet på 10-20 m. För vissa tillämpningar, t ex marknadsanalyser, räcker en betydligt lägre noggrannhet.

(14)

5. Utformning av testdata

5.1 Mål

Projektets huvudmål var att upprätta ett testdataset som kan nyttjas för att jämföra olika metoder, programvaror och databaser vid adressmatchning. Av praktiska skäl valde jag att skapa testdata med belägenhetsadresser från Kiruna. Målet var att testdatat skulle innehålla ca 400 adresser från Kiruna där cirka 10% var adresser utanför tätorten. Datasetet skapades i två versioner, ett korrekt testdataset och ett felaktigt testdataset som skapades utifrån den korrekta versionen.

5.2 Slumpmässigt val av koordinater

En viktig utgångspunkt var att adresserna skulle vara helt slumpmässigt valda. Därför valdes först ett slumpmässigt antal koordinater över Kiruna centrum. Av praktiska skäl lades landsbygdsadresser till senare (kapitel 5.6). Betydligt enklare hade det varit att slumpmässigt välja adresser ur en lista, t ex ur en telefonkatalog. Men då alla adresser inte med säkerhet finns representerade i en lista valdes istället en koordinatbaserad metod.

Inom en rektangel som omslöt Kirunas tätortsavgränsning slumpades 1100 punkter. Bilaga 1 visar det C-program varmed punkterna slumpmässigt valdes. Tätortsavgränsningen skärm- digitaliserades med byggnader och vägar från primärkartan som bakgrund. Rektangeln omsluter precis tätortsavgränsningen. Skälet till att 1100 koordinater valdes är att förhållandet mellan rektangelns area och tätortsavgränsningens area är cirka 1100/400. Vid ett slump- mässigt urval bör därför cirka 400 punkter hamna innanför tätortsavgränsningen. Resultatet blev att 420 punkter hamnade inom tätortsavgränsningen (figur 11).

Figur 11. 420 punkter slumpades ut inom tätortsavgränsningen.

5.3 Val av närmaste bostadsbyggnad

För varje punkt valdes nu närmaste byggnad från primärkartan ut. Detta gjordes via en geografisk operation i GIS-programvaran ArcView. Typer av byggnader från primärkartan som nyttjades var bostad, offentlig lokal och industri. Totalt valdes 358 st byggnader ut. Flera punkter hade samma byggnad som den närmaste, därför minskade antalet objekt från 420 till 358. Nästa steg var nu att finna belägenhetsadressen för dessa byggnader.

(15)

5.4 Preliminär adress enligt FDS/AR

För att underlätta fältkontrollen av objektens belägenhetsadress tilldelades varje byggnad en preliminär adress enligt FDS/AR. Denna adress erhölls genom att ta närmaste adress ur FDS/AR baserat på byggnadens koordinater. Även här nyttjades ArcView.

5.5 Fältkontroll av byggnadens adress samt läge

Byggnadernas korrekta adress och belägenhetsadressens adressplats (x- och y-koordinat) fältkontrollerades. Koordinater för adressplatserna markerades via fältkontroll på kartor i skala 1:1000.

Två typer av belägenhetsplatser nyttjades

• Infart, för småhus och industrier (figur 12a).

• Entré, för flerfamiljshus och offentlig byggnader. Entré nyttjades även för industrier då exakt läge för infarten var diffus (figur 12b).

Figur 12a. Figur 12b.

Belägenhetsplats av typen INFART. Belägenhetsplats av typen ENTRÉ.

Indelning och val av belägenhetsplats är baserad på en subjektiv bedömning av vilken plats man vill erhålla vid leverans/hämtning av post, gods eller personer.

Noggrannheten i metoden uppskattas till 2-3 m (dvs 2-3 mm felmätning på kartan).

Efter fältkontrollen fanns 313 adresser kvar. Anledningen till att antalet objekt minskade berodde på att 45 objekt saknade adress eller att flera objekt hade samma adress.

Tre adresser (nr 52, 130 och 346 i bilaga 2) togs med trots att de var tveksamma. Nr 52, Flygfältsvägen, nyttjas som en adress utan adressnummer. Nr 130, Tuollavaara IO, är ingen gatuadress utan kan ses som ett populärnamn. Nr 346, Järnvägsgatan 13, borde vara Lombolo- leden 13. Vägen har delats och den aktuella delen har bytt namn för många år sedan! Dessa tre adresser togs ändå med då de används av de företag som finns på respektive adress och då det visar på verkliga kvalitetsproblem som finns vid adressmatchning.

5.6 Komplettering med adresser utanför tätort

I denna fas skedde en komplettering med landsbygdsadresser från byarna Kauppinen, Laxforsen och Jukkasjärvi som ligger mellan 10-20 km utanför tätorten. 44 bebodda bygg- nader valdes slumpmässigt ut. Orsaken till att välja bebodda byggnader var att dessa med större sannolikhet har en belägenhetsadress än övriga byggnader. Fältkontroll skedde på samma sätt som för tätorten. Efter kompletteringen fanns nu en tabell med totalt 357 st adresser.

(16)

5.7 Version med inplanterade fel

För att kunna testa hur väl en metod för adressmatchning klarar olika typer av fel skapades en version av testdatat med ett antal fel inplanterade.

Sju olika feltyper identifierades;

1. Allmänna förkortningar

T ex v/väg/vägen, g/gat/gatan, n/no/norra

(Dessa kan leda till sammanblandningar, t ex norra blir nedre.) 2. Lokala förkortningar

T ex Hjalmar Lundbohmsvägen -> Hj Lundbv 3. Felstavningar

Här kan flera olika typer separeras

1. Omkastade bokstäver vid inmatning, t ex Skrädaergatan (ska vara Skrädaregatan) 2. Felslag vid inmatning, t ex Skräfaregatan

3. Hört fel namn innan inmatning, t ex Skrävlaregatan

4. Specialtecken (mellanslag, bindestreck osv) felaktigt nyttjade; t ex Skrädare gatan, Kiruna-Lasses väg (ska vara Kiruna Lasses väg)

5. Felstavning pga okunskap av adressens korrekta stavning, t ex Skräddaregatan 4. Sammanblandning av ändelser i gatuadresser

T ex "vägen" blir "gatan" och vice versa.

5. Gamla adresser

T ex gator som bytt namn. Databasen som ska adressmatchas kan vara tidsmässigt före eller efter referensdatabasen, beroende på när ajourföring skett i databaserna.

6. Felaktig teckentabell nyttjad

Tabellen kan vara lagrad i ASCII- eller ANSI-format (även kallat 7- eller 8 bitars- ASCII). Detta har följder för tecken som å ä ö é ü osv.

7. Hus i korsningar

För hus som är skyltade ”dubbelt” i korsningar så är i regel endast den ena postalt gällande, men i och med skyltningen kan den alternativa adressen anges t ex vid en olycksplatsangivelse. Den ”icke-officella” adressen finns inte alltid med i databasen man väljer att matcha emot (t ex adressregistret).

Feltyp 1 och 2 är egentligen inte felaktiga, utan kan ses som ”naturliga variationer” på stav- ningen av en adress. Dessa ”feltyper” togs ändå med då de kan förmodas skapa problem vid adressmatchning.

För att förenkla kommande utvärdering tilldelades en adress högst ett fel. Målsättningen var att tilldela ca 25-30% av databasen felaktiga adresser. Mellan 8-12 adresser för varje feltyp eftersträvades, detta med undantag för feltyp 3 där ungefär 4-8 adresser av varje undertyp eftersträvades. Vidare eftersträvades att alla fel skulle vara "naturliga", dvs sådana man normalt kan finna t ex på en postförsändelse eller i en adresslista.

(17)

I bilaga 3 redovisas en tabell med de adresser som tilldelades felaktiga adresser. I tabell 1 nedan redovisas en sammanställning av de olika feltyperna.

Tabell 1. Antalet adresser per feltyp i det felaktiga testdatat. Totalt har 89 av 374 poster (dvs ca 24%) fel adress.

Feltyp Antal fel

1. Allmänna förkortningar 12

2. Lokala förkortningar 10

31. Felstavning, omkastade bokstäver 5

32. Felstavning, inmatningsfel 6

33. Felstavning, hört fel 5

34. Felstavning, specialtecken 7

35. Felstavning, okunskap 6

4. Sammanblandning av typ väg <-> gata 8

5. Gamla adresser 10

6. Felaktig teckentabell 9

7. Hus i korsningar 11

5.8 Testdatats slutgiltiga utseende

För att kunna få tillräckligt många adresser av feltyp 5 och 7 kompletterades den ursprungliga korrekta tabellen med 17 adresser. Slutligen innehåller således både det korrekta och felaktiga testdatat 374 adresser. Bilaga 2 redovisar det korrekta testdatat.

6. Testdatat tillgängligt via WWW

Testdatat finns tillgängligt på WWW-adressen http://www.sb.luth.se/git/projekt/quality.html.

Syftet med att datat finns tillgängligt är att det fritt ska kunna användas för att bedöma kvalitet för olika adressmatchningsmetoder.

Antag att en användare ämnar genomföra en adressmatchning via en metod som inbegriper en viss programvara och en viss referensdatabas. Genom att utföra ett försök med testdatat, programvaran och motsvarande referensdata är det möjligt att bedöma programvarans och referensdatabasens kvalitet. I de försök som gjorts inom ramen för detta projekt visas på några sätt att göra dessa kvalitetsbedömningar.

Testdatat består av 374 belägenhetsadresser från Kiruna kommun och finns i en korrekt och i en felaktig version. I den felaktiga versionen är ca 20 % av adresserna felaktiga.

Följande fyra filer finns tillgängliga på WWW-adressen

• Korrekt testdata utan facit

Består av två fält: Id, Adress, där Id är ett löpnummer 1-374.

• Korrekt testdata med facit

Består av fyra fält: Id, Adress, X_uppm, Y_uppm.

• Felaktigt testdata utan facit Består av två fält: Id, Adress.

• Felaktigt testdata med facit

Består av fem fält: Id, Adress, feltyp, X_uppm, Y_uppm.

Feltyperna beskrivs i tabell 1.

(18)

Två fält ytterligare som skulle kunna vara med i tabellerna är kommun och kommundel. I dessa testdata är de ej nödvändiga då alla adresser är från Kiruna kommun och inga gatu- adresser förekommer på flera ställen inom kommunen. Rent generellt behövs dock dessa fält för att med säkerhet kunna göra en adressmatchning korrekt. Detta då ett adressområde kan förekomma i flera kommuner, och även kan förekomma fler gånger inom samma kommun.

Inom en kommundel är dock adressområdet unikt, likaså är en postadress unik inom ett post- nummerområde.

7. Adressmatchning, försök med olika programvaror och databaser

Utifrån tabellen med det korrekta testdatat utfördes adressmatchning på tre olika sätt. I de två första försöken nyttjades GIS-programvarorna ArcView och MapInfo tillsammans med väg- databasen Tätort 2000. När resultaten från dessa försök studeras är det viktigt att tänka på att dessa resultat är en funktion av både programvara och databas. I det tredje försöket nyttjades adressregistret FDS/AR från Lantmäteriverket och en exakt matchning gjordes, dvs resultatet beror endast på databasen FDS/AR.

Det felaktiga testdatat testades endast i ArcView. Detta beror på att ArcView har funktioner inbyggda för att klara olika typer av fel. Även MapInfo ska klara vissa enkla feltyper men jag fick inte detta att fungera (kapitel 7.3). En adressmatchning av det felaktiga testdatat i MapInfo eller en exakt matchning av FDS/AR skulle endast ge som resultat att de felaktiga adresserna ej matchar, därför uteslöts dessa försök.

I detta kapitel beskrivs tillvägagångssätt vid försöken. I kapitel 8 redovisas resultaten och i kapitel 9 utvärderas resultaten.

7.1 Motivering till val av programvaror och referensdata

Anledningen till att ArcView och MapInfo valts som GIS-programvaror beror på deras starka ställning på den svenska marknaden. Förutom dessa programvaror hade jag även planerat att göra försök med Arc/Info. Enligt uppgift från ESRI (leverantören av ArcView och Arc/Info) var dock adressmatchningsmodulen i Arc/Info betydligt sämre än den i ArcView. Därför uteslöts försök med Arc/Info. Planerade försök med någon av Intergraphs produkter genom- fördes ej pga tidsbrist.

Som beskrivits i kapitel 4.3 sker adressmatchning med GIS-programvaror i regel med en vägdatabas som referensdata. I försöken har produkten Tätort 2000 från Lantmäteriverket nyttjats som vägdatabas. Fördelen med denna är att dess struktur är anpassad för att göra adressmatchningar. Vidare finns den tillgänglig för ca 300 tätorter i Sverige. En liknande produkt är GeoTätort som marknadsförs av Telia Infomedia AB. Ett problem med bägge dessa produkter är att de endast täcker tätorterna, således kommer adresser på landsbygden ej att matchas. GeoTätort täcker oftast inte ens hela tätorten, utan är "klippt" på samma sätt som visas på kartorna i telefonkatalogen. På flera ställen i landet har specialanpassade databaser för adressmatchning byggts upp. Lantmäteriet har t ex en produkt kallad ”Hitta Rätt” över fyrkantenområdet i Norrbotten. Flera kommuner, t ex Kalmar, har också byggt upp databaser för adressmatchning.

7.2 Adressmatchning i ArcView

ArcView är en programvara utvecklad av det amerikanska företaget ESRI. I försöken har den engelska versionen 3.0 nyttjats.

(19)

För att adressmatchningen ska fungera är det nödvändigt att ArcView anpassas till svenska förhållanden. Detta görs genom att ett antal filer (som tillhandahålls av ESRI i Sverige) byts ut. Anpassningen innebär att svenska adresstyper kan hanteras och att ArcView klarar av svenska förkortningar av typen g = gatan, v = vägen osv.

Innan man gör adressmatchningen behöver man ange vilka fält i vägskiktet som innehåller vägnamn, adressnummer från vänster, från höger, till vänster och till höger. Vidare får adress- typ anges. Möjliga val där är Svenska gator med husnummer, Svenska gator med postnummer och Ett fält (figur 13).

Figur 13. Inställningar av referensdatat görs innan adressmatchning.

Postnummer är tänkt att nyttjas då en adress i en databas ej är unik, dvs två olika gator har samma namn. Med tanke på föreslagen svensk standard för belägenhetsadresser (STG 1998) hade det även varit bra om en adresstyp med fält enligt standarden fanns.

Ett fält nyttjas då all adressinformation finns i ett fält i referensdatat. Dvs då en direkt matchning mellan poster sker. Detta skulle t ex kunna göras då man vill nyttja ArcViews matchningsalgoritm med FDS/AR som referensdata.

En ersättningstabell (eng: alias table) för populärnamn kan också nyttjas. I ersättningstabellen kan ersättningar göras av typen Folkets hus -> Lars Janssons gatan 3, Box 820 -> Österleden 20 (figur 13).

Adressmatchning kan nu göras av en tabell (figur 14).

(20)

Figur 14. Adressmatchning i ArcView, tdb_korr.txt ska här adressmatchas mot vagar.shp som referensdata. Resultatet blir ett skikt kallat geocd1.shp.

En rad inställningar kan göras innan adressmatchningen genomförs (figur 15).

Figur 15. Inställningar av hur adressmatchningen i ArcView ska utföras, här visas förinställda värden.

Vid matchningen mellan texter beräknas en poängsumma mellan 0-100 p där 100 p motsvarar perfekt överensstämmelse. Genom att förändra stavningskänsligheten förändras poäng- summan för en matchning. Algoritmen för matchning som ArcView nyttjar bygger på programvarorna AutoStan och AutoMatch utvecklade av det amerikanska företaget MatchWare Technologies. Bl a nyttjas Soundex som är en metod där en textsträng översätts till en fonetisk kod.

Då alla önskade inställningar gjorts utförs adressmatchningen.

Beroende på poängsumman en adress får vid matchningen bedöms resultatet som en bra matchning, delvis matchning eller ingen matchning (figur 16).

(21)

Figur 16. Efter att adressmatchningen är gjord meddelas en sammanställning av resultatet.

De 3 adresserna som här delvis matchade kan efter en kontroll avfärdas som felaktiga.

Adressnamnen Myntvägen och Rallarvägen i det korrekta testdatat har matchats mot Myrvägen och Radarvägen.

7.3 Adressmatchning i MapInfo

MapInfo är en programvara utvecklad av det amerikanska företaget MapInfo Corporation.

I försöken har den svenska versionen 4.1 nyttjats.

Algoritmen MapInfo nyttjar för adressmatchning är inte lika avancerad som den i ArcView.

MapInfo saluför dock en speciell programvara för adressmatchning kallad MapMarker. Denna har ej studerats närmare, enligt Schlosser (1998) kan den dock för närvarande endast användas i USA.

För att adressmatcha i MapInfo måste refererensdatabasen (dvs vägdatabasen) struktureras på ett speciellt sätt (Thoen 1993).

Efter detta steg är adressmatchningen i MapInfo enkel att genomföra och påminner om den i ArcView (figur 17).

Figur 17. Adressmatchning i MapInfo. Tdb_korr.txt ska här adressmatchas med kir_str som referensdata.

Enligt manualen kan enkla fel av typen förkortningar av adressnamn hanteras genom att modifiera en förkortningslista. Detta fick jag ej att fungera. Förmodligen har problemet sin grund i skillnaden i hur adresser i USA och Sverige byggs upp. I Sverige har vi adressnumret efter adressnamnet, i USA är det normalt tvärs om.

(22)

7.4 Adressmatchning med hjälp av adressregistret, FDS/AR

Som beskrevs i kapitel 3.2.2 kan belägenhetsadresser i FDS både vara kopplade till byggnader och fastigheter. I FDS finns vidare koordinatuppgifter för byggnader och fastigheter. I regel lagras en sk centralpunkt mitt i byggnaden eller fastigheten.

Genom att koppla ihop flera tabeller i FDS kan därmed en adressmatchning göras. I första hand bör byggnadens belägenhetsadress nyttjas då den ger högre geometrisk noggrannhet.

Saknas belägenhetsadress för byggnaden kan fastigheten ha en belägenhetsadress som kan nyttjas.

En komplicerande faktor är att förhållandet mellan adress och koordinat ibland är ett till många, dvs en fastighet kan ha flera centralpunkter då den kan vara uppdelad i flera områden, och en byggnadsadress kan vara knuten till flera byggnader.

Då uttag ur FDS görs nyttjas vanligtvis ett överföringsformat (Lantmäteriverket 1996b) där datat delas upp på ett stort antal tabeller i en relationell struktur.

För adressmatchningen nyttjades fyra tabeller ur FDS kallade HADRESS, HUS, FADRESS och KOORD. HADRESS som innehåller belägenhetsadressen för byggnaden, slogs samman med HUS som innehåller centralpunkten för byggnaden. FADRESS som innehåller belägen- hetsadressen för fastigheten, slogs samman med KOORD som innehåller centralpunkter för fastigheten.

En exakt matchning gjordes, dvs matchning gjordes enbart om adresserna var exakt likadana.

För detta kan godtycklig databashanterare nyttjas. I försöket nyttjades ArcView då den fanns tillgänglig och då den smidigt hanterar sammanslagningar av tabeller.

Först matchades tabellen med det korrekta testdatat mot byggnadsadressen. De omatchade adresserna matchades ånyo mot byggnadsadressen men denna gång uteslöts littera i båda tabellerna. Därefter matchades de adresser som fortfarande var omatchade mot fastighets- adressen utan littera. (Littera är tillägg efter adressnumret, t ex Storgatan 1 A.)

8. Resultat från de olika försöken

Matchningsgrad och geometriskt resultat (dvs lägesnoggrannhet eller avvikelse) är två viktiga kvalitetsaspekter att kontrollera då ett adressmatchningsresultat utvärderas.

Vid en adressmatchning är normalt matchningsgraden lätt och lägesnoggrannheten svår att beräkna. I detta fall har vi dock ett uppmätt "facit" varmed lägesnoggrannheten kan beräknas genom att studera avvikelsen mellan korrekt läge och läge erhållet via adressmatchning.

Feltolerans är ytterligare en intressant kvalitetsaspekt vid adressmatchning. Med feltolerans avses här en metods möjlighet att klara en matchning vid olika typer av fel i en adress. Genom försök med det felaktiga testdatat kan feltoleransen studeras.

I detta kapitel redovisas resultaten från försöken och i kapitel 9 görs en utvärdering av resultaten.

(23)

8.1 ArcView

8.1.1 Matchningsresultat av det korrekta testdatat

Sammanställning av matchningsgraden i ArcView redovisas i tabell 2 och orsaken till varför matchning ej skedde visas i tabell 3.

Tabell 2. Sammanställning av matchningsgrad, ArcView.

Antal %

Omatchade adresser 104 28

Matchade adresser 270 72

summa 374 100

Tabell 3. Orsak till varför ej matchning skedde i ArcView för det korrekta testdatat Andelen är beräknad på hela tabellen, dvs på 374 adresser. Se kapitel 5.5 för en förklaring till de tre adresser som har felorsak = övrigt.

Felorsak Antal Andel

adresser (%)

Adress utanför T2000 42 11,2

Adressintervall fel i T2000 26 7,0

Adressnamn fel i T2000 22 5,9

Adressnamn saknas i T2000 4 1,1

Geometri saknas i T2000 4 1,1

Felaktig matchning i ArcView 3 0,8

Övrigt 3 0,8

summa 104 27,8

8.1.2 Geometriskt matchningsresultat av det korrekta testdatat I diagram 1 redovisas en sammanställning av det geometriska resultatet.

Diagram 1. Sammanställning av lägesnoggrannhet vid adressmatchningen i ArcView (totalt 270 adresser). Observera att diagrammets intervallbredd förändras vid 100 m.

53

29 22

14 17

6 8 7 5

0 1 26

0 17

65

0 10 20 30 40 50 60 70

0 - 10 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 70 - 80 80 - 90 90 - 100 100 - 200 200 - 300 300 - 400 400 - 500 500 - 600

Avvikelse (m)

Antal

(m) medelavvikelse 43,9 medianavvikelse 27,5 medelfel 67,9

Anm: Standardavvikelsen brukar i lantmäterisammanhang benämnas medelfel.

(24)

8.1.3 Matchningsresultat av det felaktiga testdatat

Som beskrivits i inledningen av kapitel 7 testades det felaktiga testdatat endast i ArcView. Av de 89 felaktiga adresserna i testdatat var det 8 som inte ens matchade då de var korrekt stavade. I tabell 4 redovisas en sammanställning av resultatet för de kvarvarande 81 adresserna.

Tabell 4. Sammanställning av resultat från matchning i ArcView av det felaktiga testdatat.

Antal Antal Andel

Feltyp matchade felaktiga adresser matchade (%)

1 Allmänna förkortningar 9 11 82

2 Lokala förkortningar 0 8 0

3 Felstavningar 24 25 96

4 Vägen <-> Gatan 0 8 0

5 Gamla adressnamn 10 10 100

6 Felaktig teckentabell 2 8 25

7 Korsningar 10 11 90

Summa 55 81 68

Anm: De allmänna förkortningar som ej klarades var ”väg.” för ”vägen” och ”pl.” för

”plan”. För feltyp 6 matchades ersättning för É och Ü dock ej för Å, Ä och Ö.

För samtliga 374 adresser var det 120 adresser som ej matchade, dvs även här en matchningsgrad på 68%. I kapitel 9.1.1 förklaras varför matchningsgraden nästan är lika hög som för det korrekta testdatat (72%).

8.2 MapInfo

8.2.1 Matchningsresultat av det korrekta testdatat

I motsats till ArcView tilldelas ingen poäng som visar matchningsgraden i MapInfo vid matchningen. Däremot tilldelas en kod som visar hur matchningen gick (tabell 5).

Tabell 5. Vid matchningen i MapInfo tilldelas varje adress i testdatat en kod.

kod antal

-31 18

-21 5

-3 127

1 215

11 9

Beskrivning av koder

Negativ kod = Omatchad adress, positiv kod = matchad adress.

entals-siffra: 1 = Gatunamn funnet 3 = Gatunamn ej funnet

tiotals siffra: 10 = Adressintervallet funnet men sida för adressnumret (AN) kunde ej bestämmas

20 = Adressintervallet för AN ej funnet men inom min- och max-värden.

30 = Adressintervallet för AN ej funnet och utom min- och max-värden.

Sammanställning av resultatet redovisas i tabellen 6.

(25)

Tabell 6. Sammanställning av matchningsgrad, MapInfo.

Antal %

Omatchade adresser 150 40

Matchade adresser 224 60

summa 374 100

Orsakerna till varför inte matchning sker i MapInfo är med några få undantag likadana som i ArcView (tabell 7). Skillnaderna beskrivs i kapitel 9.1.2.

Tabell 7. Orsak till varför ej matchning skedde i MapInfo för det korrekta testdatat. Andelen är beräknad på hela tabellen, dvs på 374 poster.

Antal Andel

Felorsak poster (%)

Littera 48 12,8

Utanför T2000 44 11,8

Adressintervall fel i T2000 22 5,8

T2000 ej ajour 21 5,6

felstavning T2000 6 1,6

T2000 adressnamn saknas 4 1,1

Övrigt 3 0,8

T2000 geometri saknas 2 0,5

summa 150 40,1

8.2.2 Geometriskt matchningsresultat av den korrekta testdatat

Även för MapInfo kan det geometriska resultatet från adressmatchningen utvärderas. I diagram 2 redovisas en sammanställning.

Diagram 2. Sammanställning av lägesnoggrannhet vid adressmatchningen i MapInfo.

Observera att diagrammets intervallbredd förändras vid 100 m.

31

21

16 13

11 10

2 2 1 1

0 49

1 20

46

0 5 10 15 20 25 30 35 40 45 50

0 - 10 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 70 - 80 80 - 90 90 - 100 100 - 200 200 - 300 300 - 400 400 - 500 500 - 600

Avvikelse (m)

Antal

(m) medelavvikelse 43,2 medianavvikelse 24,6 medelfel 69,9

8.3 Adressregistret, FDS/AR

8.3.1 Matchningsresultat av det korrekta testdatat

Matchningen som utfördes i tre svep, gav resultat enligt sammanställning i tabell 8.

(26)

Tabell 8. Exakt adressmatchning gjordes i tre svep.

Antal

1. Byggnadsadress 314

2. Byggnadsadress utan littera 18

3. Fastighetsadress utan littera 5

summa 337

Sammanställning av matchningsgrad i FDS/AR.

Antal %

Omatchade adresser 37 10

Matchade adresser 337 90

summa 374 100

Orsaken till varför matchning ej skedde visas i tabell 9.

Tabell 9. Orsak till varför ej matchning skedde i FDS/AR för det korrekta testdatat.

Andelen är beräknad på hela tabellen, dvs på 374 poster.

Felorsak Antal Andel

poster (%)

Adressnamn saknas utanför tätort 12 3,2

Adressnr saknas innanför tätort (adressnamn finns) 11 2,9 Adressnr saknas utanför tätort (adressnamn finns) 7 1,9

Felstavat i FDS/AR 3 0,8

Övrigt 3 0,8

Adressnamn saknas innanför tätort 1 0,3

summa 37 9,9

8.3.2 Geometriskt matchningsresultat av det korrekta testdatat

I diagram 3 redovisas det geometriska resultatet från adressmatchningen via adressregistret, FDS/AR.

Diagram 3. Sammanställning av lägesnoggrannhet vid adressmatchningen via adress- registret, FDS/AR. Observera att diagrammets intervallbredd förändras vid 100 m.

68

15 6 7 6 4 3 1

41

9 177

0 20 40 60 80 100 120 140 160 180

0 - 10 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 70 - 80 80 - 90 90 - 100 100 - 160

Avvikelse (m)

Antal

(m) medelavvikelse 23,6 medianavvikelse 16,8 medelfel 32,6

(27)

9. Utvärdering av de olika försöken

9.1 Jämförelse av matchningsgrad

I tabell 10 redovisas matchningsgraden för samtliga försök med den korrekta databasen.

Tabell 10. Sammanställning av matchningsgrad för det korrekta testdatat.

ArcView MapInfo FDS/AR

Antal % Antal % Antal %

Omatchade adresser 104 28 150 40 37 10

Matchade adresser 270 72 224 60 337 90

FDS/AR ger det klart bästa resultatet. ArcView är bättre anpassad till svenska förhållanden än MapInfo vilket ger ArcView en högre matchningsgrad.

Studerar man varför inte matchning sker i de olika försöken så är adresser utanför tätorten den enskilt största orsaken. Om landsbygdsadresser utesluts ur testdatat stiger matchningsgraden till 81% för ArcView, 68% för MapInfo och till 95% för FDS/AR.

I följande kapitel utvärderas de olika försöken separat.

9.1.1 Utvärdering av matchningsgrad för ArcView

ArcView har en bra matchningsalgoritm. Den är anpassad till svenska förhållanden och klarar av relativt stora stavfel i de databaser man matchar, dvs dess feltolerans är hög. För det korrekta testdatat matchar 72% av adresserna. Främsta orsaken till varför inte matchning sker är två, 11% av felen förklaras av adresser som ligger utanför täckningsområdet för Tätort 2000 och 16% beror på olika typer av fel i referensdatabasen (tabell 3).

Matchningsgraden för det felaktiga testdatat var 68%. Detta kan jämföras med matchnings- graden på 72% för det korrekta testdatat. Så trots att ca 24% av adresserna (tabell 1) tillförs fel så sjunker matchningsgraden med enbart 4 procentenheter. Det finns tre orsaker till detta

• Algoritmen i ArcView klarar 55 av de 81 felaktiga adresserna (tabell 4).

• Felen som tillförts adresserna är relativt lindriga.

• I försöken med det felaktiga testdatat matchade alla tillförda gamla adressnamn, ingen av dessa adresser matchade i det korrekta testdatat! Detta beror på att referensdatabasen som nyttjas (Tätort 2000) för dessa adresser är inaktuell, dvs innehåller gamla adressnamn.

Noterbart från tabell 4 är den stora skillnaden i feltolerans. Feltyp 2, 4 och 6 matchar i princip inte alls medan de övriga feltyperna matchar nästan perfekt.

9.1.2 Utvärdering av matchningsgrad för MapInfo

MapInfo är inte lika anpassad till svenska förhållanden som ArcView. Den klarar av att adressnumret är efter adressnamnet, men den klarar inte av förkortningar eller littera. Vidare klarar den inte av stavfel, dvs den har låg feltolerans. En förtjänst med MapInfo är felkoden den rapporterar. Från denna kan man snabbt se orsaken till varför matchning ej sker.

Skillnaden i matchningsresultat mellan ArcView och MapInfo är främst följande

(28)

• MapInfo klarar ej av littera, det gör att 48 adresser inte matchar.

• Smärre felstavningar i Tätort 2000 gör att 6 adresser ej matchar i MapInfo, vilket de gjorde i ArcView.

• I ArcView matchar ej de adresser som i MapInfo matchat med kod = 11 (tabell 5).

9.1.3 Utvärdering av matchningsresultat för FDS

Som nämnts gav FDS/AR en hög matchningsgrad. Poängteras bör dock att det korrekta test- datat innehöll ca 12% landsbygdsadresser. För en databas med större andel landsbygds- adresser skulle matchningsgraden för de flesta områden i Sverige minska.

Inom tätorten håller FDS/AR en relativt hög aktualitet. För det korrekta testdatat var det knappt 4% av adresserna (12 utav 330 tätortsadresser) inom tätorten som ej matchade pga att FDS/AR saknade adressnummer eller adressnamn.

9.2 Geometriskt resultat, jämförelse av de tre metoderna

I tabell 11 redovisas en jämförelse av det geometriska resultatet från adressmatchningen i ArcView, MapInfo och FDS/AR.

Tabell 11. Jämförelse av geometriskt resultat, dvs lägesnoggrannhet. Särskilt intressanta värden är markerade med fet stil.

Andel (%) Ackumulerad andel (%)

Avvikelse (m) ArcView MapInfo FDS/AR ArcView MapInfo FDS/AR

0 - 10 9,6 21,9 12,6 9,6 21,9 12,6

10 - 20 24,1 20,5 52,1 33,7 42,4 64,7

20 - 30 19,6 13,8 20,3 53,3 56,3 85,0

30 - 40 10,7 9,4 4,4 64,1 65,6 89,4

40 - 50 8,1 7,1 1,8 72,2 72,8 91,2

50 - 60 5,2 5,8 2,1 77,4 78,6 93,2

60 - 70 6,3 4,9 1,8 83,7 83,5 95,0

70 - 80 2,2 4,5 1,2 85,9 87,9 96,2

80 - 90 3,0 0,9 0,9 88,9 88,8 97,1

90 - 100 2,6 0,9 0,3 91,5 89,7 97,4

100 - 200 6,3 8,9 2,6 97,8 98,7 100,0

200 - 300 1,9 0,4 99,6 99,1

300 - 400 0,0 0,4 99,6 99,6

400 - 500 0,0 0,0 99,6 99,6

500 - 600 0,4 0,4 100,0 100,0

Antal adresser 340 270 224

ArcView MapInfo FDS/AR (m)

medelavvikelse 43,9 43,2 23,6

medianavvikelse 27,5 24,6 16,8

medelfel 67,9 69,9 32,6

Tabell 11 visar att FDS/AR ger ett betydligt bättre geometriskt resultat än både ArcView och MapInfo. För FDS/AR ligger 85% av alla adresser inom en avvikelse på 30 m, för ArcView och MapInfo är motsvarande siffror betydligt lägre. Notera också att hela 52,1% av adresserna hamnar i intervallet 10-20 m för FDS/AR. Diagram 4 illustrerar den ackumulerade andelen grafiskt.

References

Related documents

Bra konsistens; fast gel, mild smak, mjölig, smältande fruktkött men för lite

I Champagne tillverkas världens främsta mousserande vin, men det finns även många högklassiga viner från andra områden och länder.. Klimat, jordmån och

Denna del av metoden fungerade mycket bra, då alla gener som undersöktes kunde hittas i alla prover, från alla STEC-varianter och från både sammansatt livsmedel och juice.. Den

Här förtecknas skyddsanordningar för permanent bruk, förutom broräcken, som enligt Trafikverkets bedömning uppfyller trafiksäkerhetskrav för användning på det allmänna

Det förutsätts (enligt definitionen för högtempe- raturlager som valts i denna utredning) att värme-.. pumpen behövs i systemet även utan lager, så att dess kostnad ej

kunskapsöverföringen går till rent praktiskt i projekt inom regionerna. Beskrivningarna visar vilka kunskapstyper och hur kunskapsöverföringen används och vilka som används i

Mellan markägare Strömstads kommun och sökanden har följande avtal träffats om trädfällning på kommunal mark. Beskrivning av önskad åtgärd och motiv

Hamburgs politiker och myndigheter satsar hårt på att locka till sig dem – och staden har nu fler kinesiska företag än någon annan stad på kontinenten, många gånger fler än