UPTEC STS 14021
Examensarbete 30 hp
Juni 2014
Tätortsklassificering utifrån
servicebredd och servicegrad
En klusteranalys av Sveriges tätorter
Stina-Kajsa Andersson
Teknisk- naturvetenskaplig fakultet UTH-enheten Besöksadress: Ångströmlaboratoriet Lägerhyddsvägen 1 Hus 4, Plan 0 Postadress: Box 536 751 21 Uppsala Telefon: 018 – 471 30 03 Telefax: 018 – 471 30 00 Hemsida: http://www.teknat.uu.se/student
Abstract
Tätortsklassificering utifrån servicebredd och servicegrad : En
klusteranalys av Sveriges tätorter
Classification of Swedish built-up areas according to
service width and service degree : A cluster analysis
Stina-Kajsa Andersson
Statistics Sweden is an administrative agency that delimits built-up areas and produces statistics regarding them. The statistics provide information about the area of the built-up areas, their population number, number of gainfully employees working in the built-up areas, and of buildings. Now Statistics Sweden wishes to extend such
statistics by producing a measure regarding how well developed the service is in each built-up area.
This study is a contribution to this statistical improvement work and the purpose is to – by employing geographical information systems and cluster analysis – classify the Swedish built-up areas according to 1) service width and 2) service degree. A particular built-up area has a high service width if it has many different service functions, such as pharmacies, schools and grocery stores. It has a high service degree if it has many service functions per 1000 inhabitants.
The result consists of two different “urban hierarchies”, one in which one can identify the level of service width of each built-up area and one in which one can position each built-up area according to its service degree. This study shows that built-up areas with a high service width also have many inhabitants. In contrast, this is not the case for built-up areas with a high service degree: built-up areas with high service degree have relatively few inhabitants. The study shows that built-up areas with high service degree have a higher quota number of people employed in the locality / number of residents, which indicates that these built-up areas are “commuting localities” – built-up areas where people work but not necessarily live. The results from the two separate modes of classification also show that the service width and service degree do not display a positive correlation. Built-up areas with high service degree are thus not the same built-up areas that those scoring high on service width; if anything, the relationship is rather the opposite.
ISSN: 1650-8319, UPTEC STS 14021 Examinator: Elísabet Andrésdóttir Ämnesgranskare: Jesper Rydén Handledare: Stefan Svanström
Sammanfattning
Statistiska centralbyrån (SCB) är den myndighet i Sverige som avgränsar tätorter och
som för statistik över dessa. I dagsläget förs statistik över tätorternas area,
befolknings-mängd, förvärvsarbetande och byggnader, men det finns en önskan hos SCB att
utveckla tätortsstatistiken genom att ta fram mått på hur god servicen är i respektive
tätort.
Detta examensarbete är ett bidrag till denna statistikutveckling och syftet är att – med
hjälp av geografiska informationssystem och statistisk klusteranalys – klassificera
Sveriges tätorter utifrån 1) servicebredd och 2) servicegrad. En tätort har en hög
servicebredd om den har många olika servicefunktioner och hög servicegrad om den har
många olika servicefunktioner per 1000 invånare. I detta examensarbete togs hänsyn till
25 olika servicefunktioner, allt ifrån apotek, grundskolor och livsmedelsbutiker till
restauranger och resecentrum.
Resultatet består av två olika ”tätortshierarkier”. I den ena kan man se vilken nivå på
servicebredd respektive tätort har, och i den andra framkommer vilken nivå på
servicegrad respektive tätort har. I examensarbetet framkommer att tätorters
service-bredd samvarierar positivt med tätorters befolkningsmängd. Detta till skillnad från
tätorters servicegrad, där tätorter med hög servicegrad snarare är tätorter med relativt
liten befolkningsmängd. Det framkommer att tätorter med hög servicegrad har en högre
kvot förvärvsarbetande / befolkningsmängd, vilket indikerar att de i större utsträckning
är in- än utpendlingsorter. Resultaten från tätortsklassificeringarna visar även att
tätorters servicebredd och servicegrad långt ifrån korrelerar, tätorter med högst
servicegrad är alltså inte samma tätorter som de som har hög servicebredd, snarare
tvärtom.
Innehållsförteckning
1. Inledning ... 4
1.1 Syfte och frågeställningar... 4
1.2 Förutsättningar och avgränsning ... 5
2. Vad är en tätort? ... 5
2.1 SCB:s tätortsavgränsning ... 6
3. Metod och teori ... 7
3.1 Val av servicefunktioner ... 7 3.1.1 Litteraturstudie ... 8 3.1.2 Intervjuer/möten ... 9 3.1.3 Valda servicefunktioner ... 10 3.2 Insamling av data ... 10 3.3 Sammanställning av data ... 10 3.3.1 GIS ... 10 3.3.2 Sammanställning av SCB:s data ... 11
3.3.3 Sammanställning av data från andra myndigheter ... 14
3.3.4 Sammanställd data ... 14 3.4 Klassificering av data ... 15 3.4.1 Klustringstekniker... 15 3.4.2 Tidigare områdesklassificeringar ... 18 3.4.3 Klusteralgoritmer i R ... 18 3.5 Studiens trovärdighet ... 18 3.5.1 Olika datakällor ... 18 3.5.2 Validering ... 18 4. Resultat ... 19 4.1 Valda servicefunktioner ... 19 4.2 Sammanställd data ... 20 4.3 Tätortsklassificering servicebredd ... 20 4.3.1 Eliminering av outliers ... 20
4.3.2 Hierarkisk agglomerativ klustring ... 22
4.3.3 K-means ... 23
4.3.4 Val av antal kluster ... 24
4.3.5 Tätortsgrupper servicebredd ... 25
4.4 Tätortsklassificering servicegrad ... 27
4.4.1 Eliminering av outliers ... 27
4.4.2 Hierarkisk agglomerativ klustring ... 29
4.4.3 K-means ... 30
4.4.4 Val av antal kluster ... 31
4.4.5 Tätortsgrupper servicegrad ... 31
4.5 Samband servicebredd och servicegrad ... 34
5. Slutsatser ... 35
6. Användningsområden och framtida forskning ... 36
7. Referenser ... 37
Rapporter ... 37
Muntliga källor ... 37
Internet ... 38
Bilaga 1. Definitioner servicefunktioner ... 39
Bilaga 2. Script... 43
1. Inledning
Statistiska centralbyrån (SCB) förde redan mot slutet av 1800-talet statistik över städer,
köpingar och landsortskommuner. När kommunsammanslagningarna skedde på 1960-
och 1970-talet började SCB avgränsa tätorter för att få en bra geografisk enhet att
redovisa statistik på. Bakgrunden var bl.a. frågor kring hur urbaniseringen påverkade
tillgången på odlingsbar mark.
1Sedan dess har SCB successivt byggt ut
statistikinnehållet, först med folkmängd och areal, därefter förvärvsarbetande och
byggnader. SCB vill nu utveckla tätortsstatistiken genom att ta fram ett mått på hur god
servicen är i respektive tätort och detta examensarbete är ett bidrag till det. På sikt vill
SCB ta fram en statistikprodukt som fortlöpande kan uppdateras.
I detta examensarbete används begreppen servicebredd och servicegrad. En tätort har
hög servicebredd om den har många olika servicefunktioner (skolor, apotek, affärer,
etc.) och hög servicegrad om den har många servicefunktioner per 1000 invånare.
Initialt var det nödvändigt att reda ut vilka typer av servicefunktioner som skulle ingå i
studien. 25 typer av servicefunktioner – allt ifrån skolor och apotek till
livsmedelsbutiker och restauranger – valdes att tas med i studien och därefter var denna
data tvungen att samlas in från respektive statistikansvarig myndighet. Data
sammanställdes med hjälp av GIS (Geografiska Informationssystem) och sedan
klassificerades Sveriges 1956 tätorter med hjälp av klusteranalys utifrån hur lika de var,
dels i servicebredd och dels i servicegrad. Flera olika klustringstekniker jämfördes med
hjälp av den statistiska programvaran R.
Även om det här examensarbetet har samhällsgeografisk relevans är bidraget främst av
matematisk-statistisk natur, och allt har dokumenterats utförligt under arbetets gång så
att studien ska kunna upprepas med fler eller andra variabler, för andra årtal eller för
andra geografiska enheter.
1.1 Syfte och frågeställningar
Det överordnade syftet med detta examensarbete är att klassificera Sveriges tätorter
utifrån dels deras servicebredd, dels deras servicegrad. Utmaningarna för att besvara
syftet var många och vissa var av samhällsteoretisk och andra av matematisk-statistisk
art. Frågeställningarna i detta examensarbete formulerades som följande:
- Vilka servicefunktioner anses viktiga och bör ingå i studien och hur kan
servicebredd och servicegrad definieras?
- Vilka metoder existerar för att klassificera data och vilken metod passar bäst för
att klassificera tätorter utifrån servicebredd och servicegrad?
- När alla tätorter tilldelats mått på servicebredd och servicegrad: kan man se
några samband mellan tätorters servicebredd och deras befolkningsstorlek,
mellan tätorters servicegrad och sysselsättningsgrad, och mellan servicebredd
och servicegrad?
1 SCB: Tätorter 2010, s. 3.
1.2 Förutsättningar och avgränsning
Till de grundläggande problemen hör givetvis tillgång på data. SCB erbjuder en mycket
god miljö för att inhämta och sammanställa för studien nödvändiga data om befolkning
och verksamheter. Där finns tillgång till grundläggande geografisk information om
tätorters avgränsning och deras befolkning. Vidare har SCB rätt att begära in
information från andra myndigheter och organisationer. Dataförutsättningarna har i den
meningen varit utomordentliga även om mycket tid har fått anslås till att anpassa och
sammanställa både data från SCB och från andra myndigheter.
Som andra studier har även denna tvingats till viktiga begränsningar. En sådan avser tid
och dynamik. Även om det hade varit intressant att studera hur servicebredden och
servicegraden i tätorterna har utvecklats över tid har denna aspekt lämnats utanför. Det
hade av tidsskäl inte varit möjligt att göra samma studie för till exempel två tidpunkter
och jag begränsar mig därför till den aktuella situationen. Flertalet variabler som ingår i
klassificeringsarbetet hänför sig till situationen år 2013. Tätortsavgränsning sker var
femte år och den senaste skedde 2010. Diskrepansen i tid (2010/2013) bedöms ha
marginell betydelse för de samlade utfallen.
Vidare innebär ett fokus på viktiga servicefunktioner att andra aspekter av tätorterna
utelämnats. Det gäller främst sådant som rör varuproduktionen (gruv-, tillverknings- och
byggnadsindustri) och det gäller den delen av tjänsteproduktionen som främst har andra
företag som kunder. Fokus riktas därför mot konsumtionstjänster, inklusive
samhällstjänster, och handel. Det mer precisa urvalet av funktioner behandlas i kapitel
3. Tilläggas kan att arbetet främst är ett tekniskt bidrag och att studien lätt kan upprepas
med kompletterande urval av verksamheter och funktioner.
Slutligen ska tilläggas att jag för att öka läsbarheten valt att placera vissa mer tekniska
beräkningar och större datatabeller i bilagor. Jag hänvisar till dessa löpande i texten.
2. Vad är en tätort?
I Sverige saknas begreppet stad som administrativ kategori, men så har det inte alltid
varit. Fram till 1862 var en stad en tätbebyggd och tätbefolkad ort som av kungen hade
erhållit rättighet att bedriva handel och hantverk. Till skillnad från landsbygdens
socknar hade en stad ett mer kvalificerat lokalt styre och de ansågs vara i större behov
av mer utvecklad förvaltning. Städerna var även tvungna att följa särskilda föreskrifter
angående brandväsende, hälsovård och byggnation.
2Från och med 1862 och ända fram till 1971 fanns tre kommuntyper varav stad var en av
dem. De andra två var köping och landsortskommun. En köping var en enklare form av
stad, med lägre krav på styrelse, förvaltning och jurisdiktion än vad städerna hade och
en landsortskommun hade bara ett visst lokalt självstyre.
31971 genomfördes en större kommunreform i Sverige och begreppen stad, köping och
landsortskommun försvann som administrativa kategorier och ersattes av kommuner,
alla med samma uppgifter. Efter diverse delningar och hopslagningar av kommuner
består Sverige idag av 290 kommuner, vilka alla innehåller glesbygd och tätorter. Vissa
2
Nilsson och Forsell. 150 år av självstyre, s. 24.
kommuner (t.ex. Stockholm och Göteborg) har förvisso fått tillstånd att benämna sig
stad men administrativt sett skiljer de sig inte från andra kommuner.
42.1 SCB:s tätortsavgränsning
I Sverige definieras tätorter som ”områden med en koncentrerad bebyggelse där
avståndet mellan husen är som mest 200 meter och antalet invånare minst 200 personer.
Tätorten ska inte ha mer än 50 procent fritidshus.” Det är SCB som gör
tätorts-avgränsningarna, och dessa görs var femte år. De är helt oberoende av administrativa
indelningar och en tätort kan därför ligga i flera kommuner samtidigt, och även i flera
län. Den senaste tätortsavgränsningen gjordes 2010 och enligt den finns idag 1956
tätorter, vilka är fördelade enligt figur 1. Endast 1,3 procent av Sveriges landyta består
av tätorter, men i dessa tätorter bor hela 85 procent av befolkningen.
5Figur 1. Sveriges tätorter
4
Nilsson och Forsell. 150 år av självstyre, s. 27
3. Metod och teori
Detta kapitel ägnas åt att redogöra för tillvägagångssättet för att klassificera Sveriges
tätorter utifrån servicebredd och servicegrad. Figur 2 presenterar grunddragen i
ansatsen. Resten av kapitlet följer dispositionsmässigt de olika steg som återges i
figurens vänstra kolumn.
Figur 2. Tillvägagångssätt för att klassificera Sveriges tätorter utifrån
servicebredd och servicegrad
I avsnitt 3.1 beskrivs hur valet av variabler gjordes, det vill säga hur det bestämdes vilka
typer av servicefunktioner som skulle tas med i studien. I avsnitt 3.2 redogörs för hur
insamlingen av data gick till, i 3.3 hur denna data anpassades och sammanställdes, och i
avsnitt 3.4 beskrivs hur klassificeringen av tätorterna gick till. Avsnitt 3.5 tar upp frågor
som har att göra med studiens och utfallets trovärdighet.
3.1 Val av servicefunktioner
Initialt var det nödvändigt att bestämma vilka typer av servicefunktioner som anses
”viktiga” i samhället. Detta kan förstås anses vara en subjektiv fråga, en elitsimmare
tycker att närheten till en simhall är viktig medan en barnfamilj vill bo i en tätort där det
finns kanske både förskola och grundskola. För att komma fram till vilka
Kontakta andra myndigheter för att erhålla data Litteraturstudie Script i statistisk mjukvara Jämförande av, val av och körning av kluster-algoritmer Sammanfattande statistik om klassificeringarna utifrån service- bredd och -grad Sammanställning av data Klassificering av data SCB:s tätortsavgränsning med statistik om tätorterna SCB:s företagsdatabas Data i varierande format från andra myndigheter Urval i GIS av respektive servicefunktion, spara i separata tabeller Geografisk matchning i GIS av de olika dataseten Konvertera till rätt filformat och referenssystem Insamling av
data Hämta SCB-data
Litteraturstudie Intervjuer med kunniga inom området Val av variabler
servicefunktioner som skulle tas med i detta examensarbete gjordes inledningsvis en
litteraturstudie på området. Därefter hölls intervjuer/möten med, inom området, kunniga
på SCB för att komma fram till den slutgiltiga uppsättningen servicefunktioner. I avsnitt
3.1.1 avsnitt beskrivs litteraturstudien och i 3.1.2 intervjuerna/mötena. I avsnitt 3.1.3
presenteras vilka servicefunktioner som valdes ut att ingå i detta examensarbete.
3.1.1 Litteraturstudie
Tre tidigare studier kommer att gås igenom, två av dem är rapporter från myndigheten
Tillväxtanalys och en är en rapport från avdelningen för samhällsplanering på Cornwall
Council i England. Samtliga har spelat roll för vilka servicefunktioner som utvaldes att
ingå i studien.
3.1.1.1 Tillväxtanalys: Städer och deras tillväxtförutsättningar
Myndigheten Tillväxtanalys tog 2011 på uppdrag av regeringen fram rapporten Städer
och deras tillväxtförutsättningar – En beskrivning av olika städer och deras
förutsättningar för tillväxt. Denna rapport syftar till att skapa en grund för att studera,
analysera och jämföra olika städer
6, och är därför relevant för mitt examensarbete.
Rapporten beskriver bland annat beroendeförhållandet mellan landsbygd och stad, där
landsbygden producerar mat, råvaror och energi som staden drar nytta av, medan staden
fungerar som en mötes- och handelsplats med sitt utbud av offentlig- och kommersiell
service, kultur och utbildning. Ett rekreations- och turismflöde beskrivs, och detta flöde
går både från landsbygd till stad och från stad till landsbygd. De som bor i staden vill få
tillgång till skog och natur medan de som bor på landsbygden vill nyttja de kulturella
aktiviteter som finns i staden.
7Även om den här bilden är generaliserad har jag hämtat
inspiration från denna syn på landsbygd och stad till valet av servicefunktioner. Jag har
valt att inte ta med varuproduktion (gruv-, tillverknings- eller byggindustri) i studien,
och jag har valt att inte se skog och natur som en viktig servicefunktion i en tätort.
Fokus riktas istället mot konsumtionstjänster, samhällstjänster och handel.
3.1.1.2 Tillväxtanalys: Tillgänglighet till kommersiell och offentlig service
En annan för examensarbetet relevant rapport framtagen av Tillväxtanalys är
Tillgänglighet till kommersiell och offentlig service 2012. Syftet med denna rapport är
att beskriva tillgång till offentlig och kommersiell service i olika delar av Sverige, och
även hur denna service har utvecklats över tid. Detta därför att tillväxtpolitikens insatser
ska kunna anpassas till de regionala och lokala förutsättningar som finns på olika håll i
Sverige. En god servicenivå bedöms nämligen vara en av förutsättningarna för tillväxt.
8Tillväxtanalys har i denna studie valt att undersöka följande servicefunktioner:
Livsmedelsbutik
Bensinstation
Apotek
Apoteksombud
Bankomat
Postservice
Vårdcentral
Grundskola
6 Tillväxtanalys. Städer och deras tillväxtförutsättningar - En beskrivning av olika städer och deras
förutsättningar för tillväxt, s. 3.
7
Ibid, s. 10-11.
Författarna bakom rapporten menar att dessa servicefunktioner är centrala och bedöms
som mest intressanta, men skriver också att studien begränsats av tillgängliga data. I
Tillväxtanalys rapport definieras ”tillgång” som fysisk tillgång, närmare bestämt som
avstånd med bil från hemmet till en servicefunktion.
9I studien redovisas statistik och
fakta om samtliga av de åtta servicefunktionerna ovan, men endast tre av dem följs upp
över tid. Det är livsmedelsbutik, bensinstation och grundskola. Dessa tre
servicefunktioner var därför självklara att ha med i min studie, men även de
hälso-relaterade apotek och vårdcentral.
I rapporten nämns det faktum att fler och fler tjänster idag kan skötas via internet eller
via andra tekniska hjälpmedel.
10Detta är något jag tagit hänsyn till vid valet av
servicefunktioner; post- och bankservice är förvisso servicefunktioner som vissa
personer vill ha fysisk närhet till, men allt fler sköter sådana ärenden på annat sätt,
varför jag har valt att inte ha med dem i studien. Av samma anledning har jag valt att
inte ha med bankomater i studien.
3.1.1.3 Planning Future Cornwall – Settlements: Hierarchy and Settlement Categories
I enhetskommunen Cornwall i England fick samhällsplanerare i uppdrag att klassificera
olika områden utifrån hur lika de var. Detta för att få indikationer om vilken tillväxt som
är möjlig i respektive område.
11Studien resulterade i en rapport, Planning Future
Cornwall – Settlements: Hierarchy and Settlement Categories, och i denna togs följande
servicefunktioner med i beaktning:
Livsmedelsbutik
Bensinstation
Apotek
Bank
Postkontor
Förskola
Grundskola
Gymnasieskola
Arbetsplatser
Sjukhus
Kirurgimottagning
Bibliotek
Pub
Samlingslokal
Religiös byggnad
Idrottscenter
Lekplats
Busstation/tågstation
Några av dessa servicefunktioner fanns även med i Tillväxtanalys rapport Tillgänglighet
till kommersiell och offentlig service 2012, medan andra är nya. Flera av dessa kom att
tas med i detta examensarbete.
3.1.2 Intervjuer/möten
Efter litteraturgenomgången hölls intervjuer/möten med Stefan Svanström och Karin
Hedeklint, experter på geografisk analys och GIS på SCB. Vissa servicefunktioner togs
bort, andra lades till och vissa omformulerades så de stämde överens med svenska
beteckningar och SCB:s definitioner. Till slut fanns en slutgiltig lista över
servicefunktioner. Denna presenteras i avsnitt 3.1.3.
9 Tillväxtanalys. Tillgänglighet till kommersiell och offentlig service 2012, s. 14 10
Ibid.
3.1.3 Valda servicefunktioner
Följande 25 servicefunktioner valdes att ingå i studien:
Förskola
Bensinstation
Grundskola
Biograf/teater/konserthus
Gymnasieskola
Museum
Universitet
Sporthall/idrottsplats/gym
Bibliotek
Frisörsalong
Öppen vård
Restaurang/bar
Sluten vård
Hotell/vandrarhem
Tandläkare
Polisstation
Vårdboende/äldreboende
Brandstation
Apotek
Arbetsförmedling
Livsmedelsbutik
Stats- och kommunledning
Butik (alla typer förutom livsmedel)
Resecentrum (tåg- och busstationer)
Systembolag
Definitioner för var och en av dessa återfinns i bilaga 1.
3.2 Insamling av data
När det stod klart vilka servicefunktioner som skulle tas med i detta examensarbete var
nästa steg att samla in data. SCB ansvarar för majoriteten av den data som använts i
detta examensarbete och avgörande för att kunna utföra detta examensarbete var
tillgången till SCB:s tätortsavgränsningar med tillhörande tätortsstatistik samt till
SCB:s företagsdatabas. Dessa beskrivs närmare i avsnitt 3.3.2.2 och 3.3.2.3.
SCB ansvarar dock inte för all data utan olika myndigheter ansvarar för olika typer av
data. I Förordning 2010:1770 om geografisk miljöinformation finns en översikt om
informationsansvarets fördelning mellan myndigheterna och för att få tag på data som
inte fanns tillgänglig hos SCB var respektive myndighet tvungen att kontaktas med
begäran att få ta del av denna. Detta gällde data över grundskolor, gymnasieskolor,
apotek, brandstationer, arbetsförmedlingar och resecentrum.
Eftersom insamling av data var beroende av andra aktörer, både på SCB och på andra
myndigheter, var det svårt att styra över tidsåtgången, och detta tog längre tid än
planerat.
3.3 Sammanställning av data
Mycket tid fick anslås till att sammanställa och anpassa data från SCB och från andra
myndigheter. Insamlad data var av olika karaktär, men gemensamt för all data rörande
servicefunktioner var att den på något sätt var geografiskt angiven, det vill säga hade en
geografisk position angiven i antingen geografiska koordinater eller som adress. Målet
med sammanställningen var att få all data i samma format och i samma tabell och för att
kunna uppnå detta användes ett så kallat GIS-program.
3.3.1 GIS
GIS står för Geografiska Informationssystem och är ett system för att hantera
olika användningsområden och ett av dem är urval och sökning. Har man till exempel
en databas med data över alla Sveriges arbetsplatser med information om vilken typ av
arbetsplats det är (ett apotek, ett universitet, ett sjukhus) kan man till exempel göra
urvalet ”alla arbetsplatser som är universitet” och få endast dessa i en tabell. Ett annat
användningsområde är visualisering av data i till exempel tabeller, grafer eller kartor.
12Både urval och sökning samt visualisering är något som tillämpats i stor utsträckning i
detta examensarbete.
Det finns flera olika GIS-program men i detta examensarbete har GIS-programmet
MapInfo Professional använts. I MapInfo Professional kommunicerar man genom
frågespråket SQL.
3.3.1.1 Referenssystem
För att kunna ange ett geografiskt läge för ett objekt (t.ex. en servicefunktion som
apotek) behöver man ett koordinatsystem vars axlar har fixerats till jordens yta, ett så
kallat referenssystem. Det finns flera olika referenssystem, vilka beräknas på olika sätt,
och det är mycket viktigt att objekten är bestämda i ett väldefinierat referenssystem. I
Sverige är det framförallt referenssystemen WGS84, RT90 och SWEREF 99 som
används, där SWEREF 99 är det officiella referenssystemet i Sverige.
13Trots detta är
det inte alltid geografisk data är angivet i SWEREF 99, i de fallen behöver data
konverteras till önskat referenssystem. I detta examensarbete var detta nödvändigt med
flera dataset.
3.3.2 Sammanställning av SCB:s data
I denna studie har, som nämnt, två typer av SCB-data använts; data över SCB:s
tätortsavgränsningar med tillhörande tätortsstatistik samt data ur SCB:s företagsdatabas.
Dessa beskrivs närmare i avsnitt 3.3.2.2 och 3.3.2.3. SCB:s geografiska data är angiven
i referenssystemet SWEREF 99, och eftersom MapInfo Professional är ett av de
GIS-program som används på SCB finns all data representerad i MapInfos interna
.TAB-format.
3.3.2.2 Tätortsavgränsningar
SCB gör så kallade tätortsavgränsningar var femte år. Med tätortsavgränsning avses de
ytor som representerar tätorter, och dessa ytor bestäms utifrån definitionen, som även
nämnts tidigare, ”områden med en koncentrerad bebyggelse där avståndet mellan husen
är som mest 200 meter och antalet invånare minst 200 personer. Tätorten ska inte ha
mer än 50 procent fritidshus”. I figur 3 visas ett exempel på en tätortsavgränsning. SCB
för även statistik över tätorterna, och i denna statistik kan man hitta bland annat
invånarantal och antal förvärvsarbetande. Denna statistik har även den använts i detta
examensarbete.
12
Harrie. Geografisk Informationsbehandling: Teori, metoder och tillämpningar, s. 21-22.
Figur 3. Exempel på en tätortsavgränsning (Karin Hedeklint, SCB)
3.3.2.1 Företagsdatabasen
SCB har i sin företagsdatabas data över alla arbetsställen i Sverige. Ett arbetsställe är en
adress, fastighet eller grupp av fastigheter där ett företag eller en organisation bedriver
verksamhet. Alla företag och organisationer har alltså minst ett arbetsställe.
14I SCB:s
företagsdatabas finns för varje arbetsställe information om geografisk position, antal
anställda och vilken typ av verksamhet som bedrivs. Sistnämnt framgår av en så kallad
SNI-kod (Svensk Näringsgrensindelningskod). SNI-koden 85420 står till exempel för
universitet.
153.3.2.3 Urval och geografisk matchning
För var och en av de valda servicefunktionerna fick arbetet med att göra urval från
företagsdatabasen, utifrån SNI-kod, göras i MapInfo Professional. Såhär väljer man t.ex.
genom SQL-kommandon ut alla universitet (universitet har som nämnt SNI-kod
85420):
SELECT <arbetsplats>
FROM <företagsdatabasen>
WHERE SNI-kod = ”85420”;
Urvalen sparades i separata tabeller och när dessa tabeller är skapade kan man med
hjälp av MapInfo Professional välja att visualisera servicefunktionernas geografiska
lokaliseringsmönster. Finns till exempel tabeller sparade för grundskolor och
gymnasieskolor kan dessa visas på en och samma karta, eller på separata kartor, se figur
4 och 5.
14
SCB: Vad står arbetsställe för?
Figur 4. Sveriges grundskolor
Figur 5. Sveriges gymnasieskolor
När tätortsavgränsningarna fanns representerade i en tabell, och alla servicefunktioner i
varsina tabeller, skulle dessa matchas geografiskt. Varje servicefunktion kopplades till
tätortsavgränsningarna med tillhörande statistik, och detta gjordes i MapInfo
Professional. Figur 6 ger en bild av hur detta görs.
Figur 6. Geografisk matchning
Tätortsavgränsningarna med tillhörande statistik matchades med respektive
servicefunktions lokalisering för att kunna räkna ut hur många av respektive
servicefunktion det finns i varje tätort. Eftersom man antalet invånare i varje tätort är
känt går det även att räkna ut antalet av respektive servicefunktion per 1000 invånare.
Information om antalet av respektive servicefunktion per tätort lades till i en kolumn i
tätortstabellen och antalet av respektive servicefunktion per 1000 invånare lades till i en
annan kolumn i tätortstabellen.
9
Tätortsavgränsning
för en tätort X
Servicefunktion
Y:s
lokaliserings-mönster
Dessa matchas
geografiskt
Antalet
Y-service-funktioner räknas
ut för tätort X
3.3.3 Sammanställning av data från andra myndigheter
Data som samlats in från andra myndigheter än SCB var av varierande filformat och var
även angiven i olika referenssystem. Data som inte var angiven i det officiella
referenssystemet SWEREF 99 var tvungen att konverteras i MapInfo Professional. Vid
de fall där endast adresser fanns angivna var koordinaterna tvungna att letas upp med
stöd av olika adressökningsverktyg.
När alla servicefunktioner fanns representerade i separata tabeller lades, precis som för
den data som kom från SCB, kolumner till i tätortstabellen, två per servicefunktion. I en
kolumn lades information om antalet förekomster av varje servicefunktion och i den
andra lades information om antalet förekomster av varje servicefunktion per 1000
invånare.
3.3.3.1 Lantmäteriets kartor
En av de valda servicefunktionerna, nämligen resecentrum, var tvungen att hämtas från
Lantmäteriets fastighetskarta. Fastighetskartan är Lantmäteriets mest detaljrika karta
med bland annat information om byggnader.
16Information om antalet resecentrum
(buss- och tågstationer) per tätort, samt antalet resecentrum per 1000 invånare lades till i
tätortstabellen. Lantmäteriets Sverigekarta är en annan karta som har använts i detta
examensarbete, men endast som bakgrundskarta vid visualiseringar (t.ex. sjöar, hav och
länsgränser i figur 1, 4, 5, 13, 14, 19 och 20).
173.3.4 Sammanställd data
Resultatet av sammanställningen var en tabell över alla tätorter, där varje tätort hade
information om antal förekomster av varje servicefunktion samt antal förekomster av
respektive vald servicefunktion per 1000 invånare. Tabell 1 ger en bild av tabellens
struktur då data var sammanställd. Förutom grundskolor och gymnasieskolor fanns
resterande 23 servicefunktioner representerade med information om antal samt antal per
1000 invånare.
Tabell 1. Exempeltabell sammanställd data
Tätort Befolkn-mängd Antal förvärvs-arbetande Antal grund-skolor Antal grund-skolor per 1000 inv. Antal gymnasie-skolor Antal gymnasie-skolor per 1000 inv. Tätort1 .. .. .. .. .. .. Tätort2 .. .. .. .. .. ..
…
Tätort 1956 .. .. .. .. . ..När data var sammanställd på detta vis kunde tätortsklassificeringen ske.
16
Lantmäteriet: Fastighetskartan
3.4 Klassificering av data
När data var sammanställd kunde klassificeringen av tätorterna, utifrån hur lika de var i
dels servicebredd och dels servicegrad, ske. Detta gjordes med hjälp av så kallad
klusteranalys. Klusteranalys är en term för ett stort antal numeriska metoder, alla med
mål att upptäcka kluster (grupper) i stora dataset innehållande objekt med flera attribut.
I en, två och kanske tre dimensioner, det vill säga om varje objekt har en, två eller tre
attribut, är det lätt för ett mänskligt öga att upptäcka kluster, se figur 7 nedan där man
enkelt kan identifiera tre kluster i det tvådimensionella datasetet. Men redan vid fyra
attribut är det omöjligt utan datorns hjälp.
18Figur 7. Tre kluster (Introduction to Applied Multivariate Analysis with R,
s.165)
Klusteranalys refererar inte till en specifik algoritm, utan är ett samlingsnamn för
metoden. Det finns många olika sorters klustringstekniker och några av dessa, inklusive
dess teoretiska bakgrunder, kommer att gås igenom i avsnitt 3.4.1.
3.4.1 Klustringstekniker
Beroende på om man vet på förhand hur många kluster man vill klassificera sin data i
eller inte, finns olika typer av klustringstekniker, se figur 8.
Är antalet kluster inte förutbestämt använder man sig av så kallad hierarkisk
klassificering. Det finns olika hierarkiska klustringstekniker men eftersom det i detta
examensarbete endast har använts så kallade hierarkiska agglomerativa klustertekniker
kommer endast teorin för dessa att gås igenom, detta i avsnitt 3.4.1.1. Är antalet kluster
förutbestämt kan man istället använda sig av k-means.
19Det finns dock sätt att
undersöka vilket antal kluster som lämpar sig bäst även för k-means. Teori för k-means
gås igenom i avsnitt 3.4.1.2.
I detta examensarbete fanns inga riktlinjer från SCB för hur många olika grupper
tätorterna skulle delas in i, varför det kändes rimligt att inledningsvis testa några olika
hierarkiska agglomerativa klustertekniker, och sedan även k-means när det fanns en
uppfattning om det ungefärliga antal kluster som objekten (tätorterna) lämpligen borde
indelas i.
18
Everitt och Hothorn. An Introduction to Applied Multivariate Analysis with R, s. 165.
Figur 8. Val av klusterteknik (Miljöstatistik: Att analysera flera variabler
samtidigt. Behandlad av författaren.)
3.4.1.1 Hierarkiska agglomerativa klustertekniker
I agglomerativ hierarkisk klustring är utgångspunkten att det finns lika många kluster
som objekt (i detta fall tätorter, 1956 stycken), varje kluster innehåller alltså ett objekt.
Dessa slås sedan ihop beroende på hur lika de är i sina egenskaper tills alla objekt
befinner sig i ett kluster, och då väljer man vilket antal kluster under denna
aggregeringsprocess som passar bäst.
Rent teknisk utgår man från en matris med objekt och attribut. I denna
studie alltså eftersom det finns 1956 tätorter med 25 attribut. Likheten
mellan objekten beskrivs med hjälp av en annan matris , det vill säga i detta
fall initialt
. Skillnaden mellan olika hierarkiska agglomerativa
klustertekniker ligger i hur denna ”likhet” räknas ut. Eftersom objekt slås ihop med
objekt (och objekt med kluster och kluster med kluster) utifrån hur lika de är har val av
klusterteknik stor betydelse för slutresultatet. I denna studie jämfördes fyra olika
hierarkiska agglomerativa klusteralgoritmer; Single Linkage, Complete Linkage, Group
Average och Wards metod, och nedan beskrivs hur dessa olika klustertekniker räknar ut
likheten mellan kluster.
I Single Linkage, Complete Linkage och Group Average räknas likheten ut i form av
avstånd:
Single LinkageKlassifikation Hierarkiska klassificerings- metoder K-means Antalet kluster förutbestämt? Nej Ja
Complete Linkage
där
är avståndet mellan två kluster och
är det euklidiska avståndet mellan
objekt och i den initiala inter-individuella avståndsmatrisen.
20Group Average
där samma definitioner för
och för
gäller som ovan och där
och
är
antalet objekt i klustren A och B.
21Wards metod
Wards metod räknar inte ut likhet i form av avstånd. Istället görs klustringen så att
ökningen av variansen (efter att en hopslagning skett) minimeras, med andra ord så att
heterogeniteten i det nya klustret minimeras. Heterogeniteten i ett kluster R definieras
som
Där
är centroiden för kluster R, dvs. medelvärdet av alla objekt som ingår i klustret.
för klustret R. I Wards metod är det det euklidiska avståndet i kvadrat som används.
22För samtliga av dessa hierarkiska agglomerativa tekniker gäller att algoritmen för varje
steg kontrollerar varje möjlig lösning och kluster formas genom att den lösning som ger
störst likhet används. När alla objekt befinner sig i ett enda stort kluster avslutas
algoritmen och hopslagningarna kan illustreras i ett så kallat dendrogram. Utifrån
dendrogrammet bedöms sedan hur många grupper som är lämpliga.
3.4.1.2 K-means
K-means arbetar inte som de hierarkiska agglomerativa klusterteknikerna, istället
befinner sig alla objekt initialt i ett kluster, vilka sedan delas in i ett förutbestämt antal
kluster k. Indelningen sker så att objekten hamnar i det kluster som har sin centroid (sitt
medelvärde) närmast objektet, det vill säga så att ”within-group sum of squares”
(WGSS) minimeras över alla variabler.
23
Där
är medelvärdet av alla objekt i kluster
för variabeln .
20 Everitt och Hothorn. An Introduction to Multivariate Analysis with R, s. 167. 21 Ibid.
22
Berlin School of Business and Economics: Cluster algorithms
3.4.2 Tidigare områdesklassificeringar
Storbritanniens statistikbyrå Office for National Statistics klassificerar med jämna
mellanrum områden utifrån vilka egenskaper de har (typer av bostäder, hushållens
sammansättning, socioekonomisk karaktär, sysselsättningsgrad och vilka typer av
företag som finns där). Deras tillvägagångssätt för att klassificera områden finns noga
dokumenterad i rapporten Methods for National Statistics 2001 area classification for
local authorities.
24Office for National Statistics använder sig av Wards metod, men
kontrollerar resultaten med hjälp av k-means, varför jag hade en hypotes om att dessa
två klustertekniker skulle ge bra resultat.
3.4.3 Klusteralgoritmer i R
I detta examensarbete har den statistiska programvaran R använts för att genomföra
klusteranalysen. R är en open-source-programvara med många inbyggda funktioner,
bland annat för klusteranalys. En hel del tid gick dock åt till att läsa R-manualer och till
att skriva script. Samtliga script återfinns i Bilaga 2, men presenteras även löpande i
kapitel 4, Resultat.
3.5 Studiens trovärdighet
I detta avsnitt presenteras sådant som rör studiens och utfallets trovärdighet.
3.5.1 Olika datakällor
Flertalet variabler som ingår i klassificeringsarbetet hänför sig till situationen år 2013,
men inte alla. Detta är något som inte har gått att styra över. Tätortsavgränsning sker var
femte år och den senaste skedde 2010. Bedömningen är att tidsvariationen här inte utgör
något stort problem. Tätortsavgränsningar ändras med nybyggnation och rivningar och
genom
att
tätorter
faller
under
200-personersstrecket
genom
negativ
befolkningsutveckling, men de är på det hela taget stabila i det korta perspektivet av tre
år. Att kombinera olika datakällor har varit arbetsintensivt men kvaliteten i det slutliga
datamaterialet bedöms som mycket god.
3.5.2 Validering
Data har granskats både på mikronivå och makronivå. Till granskning av data på
mikronivå hörde att kontrollera indata. Stickprovskontroller gjordes genom att jämföra
t.ex. det antal systembolag i en viss tätort som erhållits ur SCB:s företagsdatabas, med
de adresser till systembolag i samma tätort, som finns på systembolagets hemsida. Data
granskades även på makronivå, det vill säga att slutresultatet granskades för att
undersöka om resultatet av klassificeringen var logisk.
4. Resultat
I detta kapitel kommer samtliga resultat att gås igenom. Inledningsvis, i avsnitt 4.1,
presenteras listan över de servicefunktioner som inkluderades i studien, samt vilken
myndighet som har tillhandahållit data över respektive servicefunktion. Därefter, i
avsnitt 4.2, ges en bild av hur den slutgiltiga tätortstabellen såg ut. I avsnitt 4.3
presenteras resultaten för klassificeringen utifrån servicebredd och i avsnitt 4.4
presenteras resultaten från klassificeringen utifrån servicegrad. I avsnitt 4.5 presenteras
samband mellan tätorters servicebredd och servicegrad.
4.1 Valda servicefunktioner
Tabell 2 visar vilka servicefunktioner som valdes ut att ingå i detta examensarbete, samt
vilken myndighet som har tillhandahållit vilken data.
Tabell 2.Servicefunktioner och källor
Servicefunktion
Källa
Förskola
SCB
Grundskola
Skolverket (via geodataportalen)
Gymnasieskola
Skolverket (via geodataportalen)
Universitet
SCB
Bibliotek
SCB
Öppen vård
SCB
Sluten vård
SCB
Tandläkare
SCB
Vårdboende / äldreboende
SCB
Apotek
Läkemedelsverket
Livsmedelsbutik
SCB
Butik (alla typer förutom livsmedel)
SCB
Systembolag
SCB
Bensinstation
SCB
Biograf / teater / konserthus
SCB
Museum
SCB
Sporthall / idrottsplats / gym
SCB
Frisörsalong
SCB
Restaurang/bar
SCB
Hotell / vandrarhem
SCB
Polisstation
SCB
Brandstation
MSB (via geodataportalen)
Arbetsförmedling
Arbetsförmedlingen
Stats- och kommunledning
SCB
4.2 Sammanställd data
Sammanställningen av data resulterade i en tabell som lämpade sig för att klassificera
data med hjälp av klusteranalys i R. Av platsskäl visas inte hela tabellen, men tabell 3
ger en bild av hur den såg ut. Detta är samma tabell som visades i avsnitt 3.3.5 och som
nämndes då innehåller tabellen, förutom antalet grundskolor och gymnasieskolor per
tätort och per 1000 invånare per tätort, förstås även de resterande 23 variablerna. Istället
för ”Tätort1”, ”Tätort2” och så vidare, står där tätorternas namn.
Tabell 3. Exempeltabell sammanställd data
Tätort Befolkn-mängd Antal förvärvs-arbetande Antal grund-skolor Antal grund-skolor per 1000 inv. Antal gymnasie-skolor Antal gymnasie-skolor per 1000 inv. Tätort1 .. .. .. .. .. .. Tätort2 .. .. .. .. .. ..
…
Tätort 1956 .. .. .. .. . ..4.3 Tätortsklassificering servicebredd
I följande avsnitt presenteras resultaten från klassificeringen av tätorter utifrån
servicebredd. En tätort har hög servicebredd om den har ett stort antal av respektive
servicefunktion. Klassificeringen gjordes med hjälp av klusteranalys i R och i
kommande avsnitt varvas R-kod med resultat.
4.3.1 Eliminering av outliers
Resultatet av en klusteranalys blir bäst om man först eliminerar outliers och för att
kunna identifiera outliers skapades en scatterplotmatris. Att ta med samtliga variabler
(antal servicefunktioner) blev svåröverskådligt så fyra stycken valdes ut;
livsmedels-butik, grundskola, apotek och bensinstation. Att just dessa servicefunktioner valdes ut
berodde på att samtliga av dessa fanns med i de tidigare nämnda studierna av
Tillväxtanalys och Cornwall Council.
På följande vis skapades en scatterplotmatris.
Z <- tatorter[, c("handel_mat","grundskola","apotek","bensinstation")] pairs(Z, pch = ".", cex=4)
Figur 9. Scatterplotmatris för att identifiera outliers
Tre tätorter skiljde sig från de övriga och dessa var tvungna att identifieras:
Subset(tatorter, grundskola > 90)
Detta ger utskriften:
Tätort handel_mat grundskola apotek resecentrum
Stockholm 1605 459 75 48
Malmö 427 102 39 12
Göteborg 704 215 44 7
Figur 10. Scatterplotmatris efter eliminering av outliers
Objekten (tätorterna) var nu mer lika varandra, och förutsättningarna för en
kluster-analys därmed bättre.
4.3.2 Hierarkisk agglomerativ klustring
Initialt testades fyra olika hierarkiska agglomerativa klustertekniker, men tidigt stod det
klart att tre av dom inte lämpade sig för denna typ av data. Både Single Linkage,
Complete Linkage och Group Average gav grupperingar där det var en tätort i varje
grupp och resten av tätorterna i en enda stor grupp. Wards metod däremot gav
intressanta resultat och i detta avsnitt kommer R-kod och resultat från just Wards metod
att gås igenom.
Innan tätorterna kunde klassificeras med hjälp av klusteranalys var data tvungen att
standardiseras. Detta därför att variablerna (antalet av respektive servicefunktion) har
olika skalor. Tätorter har nämligen generellt sett många fler t.ex. livsmedelsbutiker och
grundskolor, än t.ex. polisstationer och universitet. Standardiseringen av data gjordes
med hjälp av R:s inbyggda funktion
scalesom räknar ut medelvärdet och
standardavvikelsen för hela vektorn och sedan standardiserar varje element med dessa
värden genom att subtrahera medelvärdet och dela med standardavvikelsen.
X <- scale(tatorter[,
c("polis","brand","arbetsformedling","ledning","forskola","grundskola" ,"gymnasie","universitet","boende","oppen_vard","sluten_vard","apotek" ,"handel_mat","handel_ovr","systembolag","bensinstation","bibliotek"," kultur","museum","idrott","frisor","restaurang_bar","hotell","tandlaka re", "resecentrum")], center = FALSE, scale = TRUE)
När denna matris var skapad skulle avståndsmatrisen räknas ut. För Wards metod
används det euklidiska avståndet i kvadrat.
dj <- dist(X) dj2 <- dj^2
Klustringen skedde med hjälp av R:s inbyggda funktion
hclust. Ett dendrogram
skapades och sparades.
pdf("ward_servicebredd.pdf")
plot(w <- hclust(dj2, method="ward"), labels=tatorter$NAMN, main = "Wards, squared eucludean distance")
dev.off() w
Dendrogrammet i figur 11 erhölls.
Figur 11.
Dendogram servicebredd
Dendrogrammet visar hur ihopslagningen av kluster har skett. Distance, avstånd,
refererar till avståndet mellan klustren. Ju högre upp i dendrogrammet man kan se att
två kluster bildats, desto mer olika är klustren. Beroende på var ett dendrogram skärs
erhålls olika antal kluster och i detta fall hade man alltså flera tilltalande alternativ. Ett
alternativ hade varit att skära grafen vid fem kluster (märkt med rosa linje) och ett annat
alternativ att skära grafen vid sju kluster (blå linje).
4.3.3 K-means
Klustring med k-means gjordes för att kontrollera valet av antal kluster. För att se hur
många kluster som föredras med k-means skrevs följande kod i R.
wss <- (nrow(X)-1)*sum(apply(X,2,var))
for (i in 2:15) wss[i] <- sum(kmeans(X, centers=i)$withinss) pdf("kmeans")
plot(1:15, wss, type="b", xlab="Number of clusters", ylab="within group sum of squares")
dev.off()
Figur 12. Att bestämma antalet lämpliga kluster med k -means
Antalet ”within group sum of squares” hade en dipp vid sju kluster och vid tio kluster,
vilket innebär att om k-means ska användas bör tätorterna grupperas i sju eller tio
grupper.
4.3.4 Val av antal kluster
Vid klassificering av tätorter utifrån servicebredd lämpade sig fem eller sju kluster när
Wards metod användes, och sju eller tio kluster när k-means användes.
Tabell 4. Val av antal kluster vid klassificering utifrån servicebredd
Metod Bäst antal kluster Val av antal kluster
Ward 5 eller 7
7
Båda metoderna gav sju kluster som ett lämpligt antal och därför valdes antalet kluster
till sju.
4.3.5 Tätortsgrupper servicebredd
När antalet kluster var bestämt skulle tätorterna grupperas in i sju olika grupper. Wards
metod användes till detta. Följande kod väljer att skära dendrogrammet vid sju kluster,
och därefter skriva ut antalet tätorter per grupp samt vilka tätorter som klassificerats till
vilken grupp.
groups.7 = cutree(hclust(dj2, method="ward"), 7) table(groups.7) sapply(unique(groups.7),function(g)tatorter$NAMN[groups.7==g]) groups.7
Och utskriften:
groups.7 1 2 3 4 5 6 7 1336 373 165 60 12 5 2Det var alltså 1336 tätorter som klassificerades till grupp 1, 373 stycken som
klassificerades till grupp 2, etc.
Följande R-kod skriver ut medelvärdena
25för icke-standardiserad data för var och en av
servicefunktionerna för var och en av klustergrupperna.
aggregate(Y, list(groups.7), mean)
Av platsskäl redovisas bara medelvärdena för ett urval av servicefunktionerna, men
tittade man på samtliga av dessa medelvärden gick det att tyda en hierarki, där högre
gruppnummer innebar en större servicebredd. Grupp 7 har högst medelvärde för 19 av
25 servicefunktioner, i övriga fall är det grupp 6 som har högst medelvärde.
Grupp 7, 6 och 5 innehåller följande tätorter (samtliga grupper återfinns i Bilaga 3.):
25 Medianvärdena gav mycket liknande resultat
Grupp gymnasieskola apotek restaurang_bar
1 0,01 0,06 0,98 2 0,15 0,49 3,19 3 1,28 1,35 11,73 4 5,90 4,47 53,47 5 15,08 8,33 158,33 6 23,80 14,2 252,40 7 20,00 19,5 258,50
Grupp 7
Lund, Uppsala Grupp 6
Linköping, Norrköping, Helsingborg, Örebro, Västerås Grupp 5
Täby, Södertälje, Eskilstuna, Jönköping, Växjö, Halmstad, Borås, Karlstad, Gävle, Sundsvall, Östersund, Umeå
Figur 13 visar alla tätorter och vilken servicebredd de har (1 är lägst, 7 är högst). Figur
14 visar de tätorter med högst, näst högst samt tredje högst servicebredd, det vill säga de
som nämndes ovan.
Figur 13. Tätorters servicebredd Figur 14. Tätorter med högst servicebredd
Samtliga av dessa tätorter är ”kända” tätorter med hög befolkningsmängd. Det finns
skäl att tro att det finns ett samband mellan klusternummer (dvs. servicebredd) och
befolkningsmängd. Tabell 5 visar att så är fallet, majoriteten av de tätorter med låg
servicebredd (nivå 1-2) har max 5000 invånare, även om de finns några som har en
större befolkningsmängd. Av de tätorter om har hög servicebredd (nivå 5-7) har alla
utom en en befolkningsmängd på över 50 000 invånare.
Tabell 5. Samband mellan servicebredd och befolkningsmängd
Bef.mängd
200-1000 1001-5000 5001-50000 >50000 S:a antal tätorter
Servicebredd 1 1065 246 25 0 1336 2 167 171 35 0 373 3 3 83 79 0 165 4 0 0 60 0 60 5 0 0 1 11 12 6 0 0 0 5 5 7 0 0 0 2 2 S:a antal tätorter 1235 500 200 18 1953
4.4 Tätortsklassificering servicegrad
I detta avsnitt gås resultaten igenom för den klassificering som grundar sig på antal
förekomster av varje servicefunktion per 1000 invånare, dvs. servicegrad.
4.4.1 Eliminering av outliers
Även i denna klassificering skapades en scatterplotmatris för att kunna upptäcka
outliers. Variablerna livsmedelsbutiker, grundskola, apotek och bensinstation valdes ut,
detta för att samtliga av dessa fanns med i de tidigare nämnda studierna av
Tillväxtanalys och Cornwall Council. Se scatterplotmatrisen i figur 15.
Figur 15. Scatterplotmatris för att identifiera outliers
Det var framförallt en tätort som skiljde sig från de övriga. Denna identifierades genom:
Subset(tatorter, bensinstation_per_k>6) Tätort handelmat_ per_k grundskola_ per_k apotek_ per_k bensinstation_ per_k Granö 4.201681 4.201681 0 8.403361
Denna tätort togs bort från datamaterialet och den nya scatterplotmatrisen (figur 16)
visade att utgångsläget för klustring nu var bättre.
Figur 16. Scatterplotmatris efter eliminering av outliers
4.4.2 Hierarkisk agglomerativ klustring
De fyra hierarkiska agglomerativa klustringsteknikerna testades även för denna typ av
klassificering. Single Linkage, Complete Linkage och Average Linkage gav återigen
väldigt ojämna grupper (nästan alla tätorter i en grupp) och därför användes, precis som
för klassificeringen utifrån servicebredd, Wards metod.
Följande R-kod standardiserar data med hjälp av
scale, skapar en avståndsmatris,
klustrar data med hjälp av R-funktionen
hclustoch plottar resultatet av klustringen i ett
dendrogram:
X <- scale(tatorter[, c("polis_per_k","brand_per_k","arbetsformedling_per_k","ledning_per_k" ,"forskola_per_k","grundskola_per_k","gymnasie_per_k","universitet_per _k","boende_per_k","oppenvard_per_k","slutenvard_per_k","apotek_per_k" ,"handelmat_per_k","handelovr_per_k","systembolag_per_k","bensinstatio n_per_k","bibliotek_per_k","kultur_per_k","museum_per_k","idrott_per_k ","frisor_per_k","restaurang_bar_per_k","hotell_per_k","tandlakare_per _k","resecentrum_per_k")], center = FALSE, scale = TRUE)dj <- dist(X) dj2 <- dj^2
pdf("ward_antal_per_k.pdf")
plot(w <- hclust(dj2, method="ward"), labels=tatorter$NAMN, main = "Wards, squared eucludean distance")
dev.off() w
Figur 17. Dendrogram servicegrad
Det fanns här flera olika alternativ för att välja antalet kluster för detta dataset, men skär
man dendrogrammet för högt upp erhålls för få kluster, och skär man dendrogrammet
för långt ned blir antalet kluster för många. Ett lockande alternativ var att skära grafen
vid nio kluster (rosa linje).
4.4.3 K-means
För att se hur många kluster som lämpar sig vid klustring med k-means plottades grafen
som visas i figur 18.
Figur 18. Att bestämma antalet lämpliga kluster med k -means
Kurvan har en dipp vid 9 kluster och vid 12 kluster, vilket innebar att något av dessa
antal borde väljas.
4.4.4 Val av antal kluster
Tabell 6 visar vilket antal kluster som passade bäst med Wards metod och med
k-means, och vilket antal kluster som valdes.
Tabell 6. Val av antal kluster vid klassificering utifrån servicegrad
Metod Bäst antal kluster Val av antal kluster
Ward Flera alternativ, t.ex. 9
9
kmeans 9 eller 12
4.4.5 Tätortsgrupper servicegrad
När tätorterna klassificerades utifrån antal servicefunktioner per 1000 invånare valdes
antal kluster till nio, och följande utskrift visar hur många tätorter som klassificerades
till de olika grupperna när Wards metod tillämpades.
groups.9
1 2 3 4 5 6 7 8 9 12 1041 8 229 24 9 444 154 34
12 tätorter klassificerades alltså till klustergrupp 1, 1041 stycken klassificerades till
klustergrupp 2, etc. Skriver man ut medelvärdena för respektive klustergrupp och
respektive servicefunktion går det, precis som för klassificeringen utifrån servicebredd,
att urskönja en hierarki.
För 15 av de 25 servicefunktionerna gällde att grupp 9 hade högst medelvärde. Av
platsskäl presenteras här bara dessa, det vill säga de tätorter med högst servicegrad.
Samtliga tätortsgrupper återfinns i Bilaga 3.
Grupp 9
Ullared, Österbymo, Högsby, Tanumshede, Färgelanda, Nossebro, Charlottenberg, Storfors, Idre, Sälen, Vansbro, Älvdalen, Bergsjö, Junsele, Bräcke, Funäsdalen, Gäddede, Hammarstrand, Hoting, Järpen, Krokom, Svenstavik, Bjurholm, Dorotea, Nordmaling, Norsjö, Sorsele, Storuman, Tärnaby, Vindeln, Åsele, Pajala, Överkalix, Övertorneå
Figur 19 visar alla tätorter och vilken servicegrad de har (1 är lägst, 9 är högst). Figur 20
visar de tätorter med högst servicegrad, det vill säga de som nämndes ovan.
Grupp gymnasieskola apotek restaurang_bar
1 0,00 0,00 1,04 2 0,00 0,01 0,89 3 0,00 0,00 0,75 4 0,00 0,00 1,48 5 0,09 0,19 1,50 6 0,00 0,00 1,46 7 0,15 0,32 1,83 8 0,20 0,32 2,40 9 0,31 0,78 3,45
Figur 19. Tätorters olika Figur 20. Tätorter med högst
servicegrad
servicegrad
Till skillnad från de tätorter med hög servicebredd är tätorterna med hög servicegrad
inte kända för sina stora befolkningsmängder. Dock finns andra gemensamma nämnare
för tätorterna med hög servicegrad, de är tätorter som många människor från andra
ställen åker till av olika anledningar. Till exempel shoppingmeckat Ullared, och
tätorten Charlottenberg på norska gränsen dit många norrmän åker och handlar därför
att det är billigare i Sverige. På listan över tätorter med hög servicegrad fanns även
skidorter som Idre, Sälen, Funäsdalen och Järpen. Andra tätorter som Pajala, Överkalix
och Övertorneå är sådana som har ett stort omland där det inte finns så mycket service,
och därför kan man tänka sig att många åker dit för att uträtta ärenden.
På grund av nämnda upptäckter fanns det skäl att tro att det fanns ett samband mellan
kvoten förvärvsarbetande och befolkningsmängd. Tabell 7 visar att det finns ett visst
sådant samband. En stor majoritet av de tätorter med låg servicegrad har en kvot på
under 0,5, vilket innebär att mer än dubbelt så många bor i dessa tätorter än som arbetar
där (de pendlar förmodligen ut därifrån till en annan tätort). Av de tätorter som har
högst servicegrad, servicegrad 9, har mer än två tredjedelar en kvot på över 0,5, det är
alltså en större andel som arbetar i dessa tätorter jämfört med de tätorter som har låg
servicegrad.
Tabell 7. Samband mellan servicegrad och kvoten dag -/nattbefolkning
Kvot förvärvs-arbetande/ bef.mängd 0-0,5 0,5-1 1-1.5 >1.5 S:a antal tätorter Servicegrad 1 11 1 0 0 12 2 972 52 13 4 1041 3 6 0 0 2 8 4 193 33 3 0 229 5 22 2 0 0 24 6 6 3 0 0 9 7 330 109 4 1 444 8 103 49 1 1 154 9 10 23 0 1 34 S:a antal tätorter 1653 272 21 9 19554.5 Samband servicebredd och servicegrad
Utifrån resultaten i avsnitt 4.3 och 4.4 kunde man se att sju kluster lämpade sig bäst vid
klassificering utifrån servicebredd och nio kluster vid klassificering utifrån servicegrad.
Antalet tätorter i varje kluster framgår av tabell 8.
Tabell 8. Val av antal kluster och antal tätorter per kluste r
Det framgick att det inte var samma tätorter som hade hög servicebredd, som de som
hade hög servicegrad. Istället finns andra samband mellan tätorters servicebredd och
servicegrad. Korstabellen, tabell 9, visar att låg servicebredd förvisso hänger ihop med
låg servicegrad, men att tätorter med hög servicegrad snarare har relativt låg
servicebredd. Samtliga av de tätorter med högst servicebredd har en relativt hög
servicegrad, servicegrad 7.
Val av antal kluster
Antal tätorter per kluster (Wards metod) Klassificering servicebredd 7 1336,373,165,60,12,5,2 Klassificering servicegrad 9 12,1041,8,229,24,9,444,154,34