• No results found

Geografiska aggregeringar

6. DATA OCH METOD

6.4 Geografiska aggregeringar

När måttet på integritet och operationaliseringen för användbarhet har bestämts behöver beslutet om vilka geografiska aggregeringar som ska utvärderas tas. Jag har valt att utvärdera flera av de geografiska aggregeringar som tidigare nämnts i litteraturöversikten. De aggregeringar jag använder kan delas upp i två kategorier: Arealbaserad aggregering och

Bespoke neighborhood.

Arealbaserad aggregering innefattar all geografisk aggregering som utgår från avgränsade spatiala områden. De områdesindelningar jag använder är de svenska indelningarna DESO, SAMS och Kommun. Anledningen till att dessa valts är att alla är vanligt använda i geografiska datamaterial, och omfattar hela Sveriges yta. DESO är relativt nytt, men detta gör det också speciellt intressant att utforska och jämföra med den äldre indelningen SAMS. Eftersom DESO är så nytt var inte mitt originaldatamaterial organiserat efter den indelningsgrunden. Därför använde jag mig av det geografiska informationssystemprogrammet ArcMap för att spatialt lägga samman 100-metersrutorna i DESO uppdelningen. Då en ruta på100x100 meter kan gå över gränserna för områden, lades informationen om området in i det DESO-område centroiden befann sig. Detta kan göra att det finns risk för MAUP-problematik, vilket kommer att diskuteras i resultatredovisningen och i analyskapitlet. Att DESO är nyare kan också innebära att de gränser för befolkningsmängden som satts inte stämmer i mitt material.

Rutnät övervägdes, men valdes bort. En anledning till detta var att rutnäten inte alls är anpassade efter befolkningsmängd eller fysiska gränser. Detta kommer att skapa ett problem där det uniformt stora rutnätet passar vissa områden men inte andra. I till exempel glesbefolkade områden kommer ett större rutnät krävas för att fånga in tillräckligt många individer för att skapa grupper som bevarar individens integritet. I tätbefolkade städer kommer detta rutnät vara alldeles för grovt och innehålla alltför många individer för att kunna tolka på ett användbart sätt. En annan anledning till att inte rutnät utvärderas är att det redan till viss del finns med i analysen. Rådatamaterialet är redan aggregerade in i 100x100 meters rutor som kommer ligga som bas för bespoke neighborhood indelningen K-närmaste granne.

Till de arealbaserade aggregeringarna vill jag även utvärdera bespoke neighborhood-aggregeringar. Jag har valt att bara utvärdera k-närmaste granne eftersom den radiebaserade aggregeringen redan på förhand kan bedömas inte fungera för att bevara integritet och användbarhet. Radiebaserade system har samma problem som rutnät, att antingen blir uppdelningen för grov för tätbefolkade områden, eller för fin för glesbefolkade områden. Radiebaserade aggregeringar är en väldigt bra aggregeringsnivå för den som undersöker effekter som har en jämn spridning, exempelvis luftföroreningar. Dock är det svårare att motivera en radiebaserad aggregering när det handlar om människor, som inte bor i så jämna mönster. Då är det bättre att använda de arealbaserade aggregeringar som utformats efter boendemönster. K-närmaste granne är till skillnad från både radieaggregering och arealbaserade aggregeringar en typ av aggregering som sker på basis av kontakter, snarare än

48

geografi. Därför är det intressant att utvärdera den aggregeringsmetoden. Det finns ett flertal programvaror för att göra K-närmaste granne-aggregeringar. Det jag använder är programmet Equipop flow som fritt kan laddas ner och användas. Equipop flow ger även möjlighet att skapa friktionsbaserade grannskapsindelningar. Detta alternativ valdes bort eftersom en kodifiering av det fysiska landskapet i olika friktioner över hela Sverige är en hel studie i sig, och ligger bortom syftet för denna studie.

Den fil jag startar med är som nämnts en rådata-fil med data på individnivå. För att aggregera den till områdesnivå kommer variablerna att behöva ändra form när alla rader med individer slås ihop till en enda rad som representerar ett helt område. Variablerna går då från en binär eller kategorisk skala till att anta en numerisk skala (Openshaw, 1984). Denna transformering av formen på variablerna kan göras på olika sätt. I mitt datamaterial aggregerar jag till exempel variabeln ekonomiskt bistånd för att visa hur många som klassificeras som mottagare av ekonomiskt bistånd i det aggregerade området. Det skulle även gå att ta genomsnittet av antal ekonomiska biståndstagare, eftersom detta är en binär variabel med värdena 0 (har inte ekonomiskt bistånd) och 1 (har ekonomiskt bistånd). Då skulle man istället få fram hur stor procentandel av befolkningen inom det aggregerade området som var biståndstagare. Ekonomiskt bistånd har jag även med som en numerisk skala, som avser hur mycket individen får i bistånd. Den numeriska skalan väljer jag att aggregera både till medianen och medelvärdet. Det är alltså nödvändigt att tänka över inte bara vilken nivå det ska skalas upp till, utan även hur man omvandlar variablerna.

Det behöver också beaktas att det går att skala upp variabler till en större geografisk nivå, men inte att skala ner. Därav kan man generellt säga att det är bättre att ha så detaljerad nivå som möjligt på grunddata då data alltid kan skalas upp. Det blir dock svårare om man vill gå mellan skalor vars gränser inte korrelerar, som till exempel DESO och SAMS. Dock matchar både SAMS och DESO kommuners gränser, så båda kan i sin tur aggregeras till kommunnivå. Det är därför viktigt att tänka på vilken skala som passar materialet bäst, vilket kommer att utvärderas i avsnitten resultat och analys. Aggregeringen som görs kan ses som ett träd som grenar ut sig. Ju högre upp i trädet desto större skala.

49

Figur 6 Aggregeringsträd för geografiska aggregeringar (figur skapad av författaren)

Att gå från bespoke neighborhood-aggregeringar till arealbaserade skalor är inte omöjligt, och hur smidigt det går beror på stor del på vilken skala som aggregeringarna med bespoke neighborhood. Ju mer detaljerad skala desto enklare. Oavsett så kommer man få problem relaterade till MAUP när man behöver besluta om vilken information som ska tillhöra vilket område, då det troligtvis kommer existera data som ligger över de administrativa gränserna.

50

7. RESULTAT

I detta kapitel kommer geografiska aggregeringar utvärderas om de kan användas för att slå vakt om personlig integritet. Utvärderingen görs efter kriterierna fastställda i metoden: området får inte ha helt identifierbara individer (100% eller 0%) och inte heller över 2 standardavvikelsers varians från det globala genomsnittet. Avvikelsen från det globala genomsnittet beräknas enligt ekvationen som visats i metodkapitlet:

Ekvation 1: 𝑎𝑏𝑠(P𝑙−P𝑔)

σ𝑔

Först tas de arealbaserade aggregeringarna upp, därefter Bespoke neighborhood-aggregeringar. Användbarheten för varje områdesindelning diskuteras sedan utefter den operationalisering som gjordes i metodkapitlet. Områdena redovisas i tabeller och är inte identifierade med namn eller koder (som kommunnamn eller SAMS koder). Detta för att ge en överblick, men samtidigt inte utelämna den data som utvärderas utifrån om den är möjlig att öppna eller ej.

Syftet med studien är dock inte bara att utvärdera själva de geografiska aggregeringarna, utan också att utvärdera metoden. Metoden är en central del av det underlag som denna uppsats vill bidra med till myndigheter som vill öppna sin data. Utifrån resultaten kommer även metoden att diskuteras i efterföljande analyskapitlet.

I Tabell 2 beskrivs andelen av ekonomiska biståndstagare för hela Sveriges befolkning 2014. Som framgår har 347 798 personer ekonomiskt bistånd, vilket motsvarar 3,6 % (Pg i ekvation