• No results found

Geografiska aggregeringarna

PROCENT AV OMRÅDEN

8.2 Geografiska aggregeringarna

Med metoden för att utvärdera aggregeringarna belyst, kan diskussionen övergå till utvärderingen av de geografiska aggregeringarna. De arealbaserade aggregeringarna var de första som gicks igenom. Av SAMS, DESO och kommun var det endast den kommunala nivån som fyllde alla kraven som satts. Problemet med den nivån är att den är närmast oanvändbar på grund av att den är så grov. Närmast alla kommuners andel socialbiståndstagare ligger mycket nära medelvärdet på 3,6%. Detta kan ställas i kontrast med SAMS och DESO områden där

72

avvikelserna är mycket större. Visserligen innebär integritetsmåttet att det inte ska finnas någon oproportionerlig avvikelse från medelvärdet för att skydda gruppens integritet. Men en mycket liten avvikelse tyder på att detta skydd har haft stor påverkan på materialets användbarhet, då lokala skillnader döljs helt. Om lokala skillnader inte visas, vad är då syftet med att hålla fast vid den geografiska nivån? I avvägningen mellan integritet och användbarhet kan det sägas att vågen tippat över alltför mycket åt målet att slå vakt om integritet när det gäller kommunal aggregeringsnivå. Integriteten är bevarad men det finns ingen jämvikt när det gäller avvägningen mot användbarhet.

SAMS-områden visade sig innebära en stor problematik. Visserligen var endast fyra områden över 100%, men desto fler hade en avvikelse över två globala standardavvikelser från medelvärdet, samt att en stor andel områden hade 0% biståndstagare. Därtill fanns det områden som hade mycket stora invånarantal och omfattade större ytor än kommuner. Därför är indelningen i SAMS-områden paradoxalt nog både dålig för att slå vakt om integritet och för användbarhet. Det som troligtvis skapar detta problem är den problematik som Amcoff (2012) lyfter om den stora variationen på SAMS områden. Skillnaden på invånarantal är tydligt i Tabell

4 där antal invånare går från endast en person till 21 172. Det var främst områdena med färre

individer som skapade problem i mätningen av personlig integritet. Medianen för ett SAMS-områdes befolkning ligger på 736 individer år 2014, knappt över det lägsta antalet satt för DESO-områden. Därför var det inte underligt att DESO visade sig passa bättre rent integritetsmässigt.

DESO är som nämnt en uppdaterad områdesindelning som har som ambition att skapa en mer homogen indelning och uppdatera den äldre SAMS-indelningen (SCB 2019). Analysen av DESO-områdesindelningen påverkades av att originaldata redan var aggregerat innan det aggregerades till nivå. Därför kan det finnas fel, till exempel som att det i flera DESO-områden inte fanns några individer och i ett område bara en. Om hänsyn tas till de DESO-områden som uppfyllde måttet på 700 till 2 700 individer, så kan ändå vissa generella slutsatser dras om uppdelningen. Trots att DESO inte klarade alla kriterier så var det en nivå som var mycket nära att lyckas, med endast 67 områden som hade 0% biståndstagare. Därtill fanns endast bara ett område med 100% biståndstagare, och detta område var troligtvis felaggregerat då det endast innehöll en individ. Med undantag av detta område överskred inte heller någon av DESO områdena två standardavvikelser från det globala medelvärdet. Att DESO satt gräns utefter individantal snarare än yta gjorde att det är en mycket mer passande nivå när syftet är att bevara integritet. Som diskuterat: sannolikheten att det är 100% eller 0% är direkt beroende av hur många individer som inkluderas. Även om inte DESO-nivån fungerade just för variabeln ekonomiska biståndstagare, så kan den troligtvis fungera bättre för att bevara integriteten i andra typer av data som innehåller vanligare personuppgifter. Frågan är om användbarheten då bevaras, och om DESO-områdena då istället döljer information på ett överdrivet sätt för vanligare personuppgifter.

73

Fördelen med DESO och de arealbaserade aggregeringarna är att de är allmänt använda. Det finns många olika datamaterial som använder dessa administrativa och bestämda gränser. Det gör att datamaterial är enkla att kombinera som är en av Inspire-direktivets mål. Den största negativa aspekten med arealbaserade områden är att de i vissa fall har en överdrivet grov indelning, och i andra fall är alltför detaljrika. Även bland DESO-områden finns områden med upp till 2 700 invånare, och med en sådan stor indelning är det svårt att tala om grannskap. I vissa fall är den grova nivån nödvändig. För ekonomiskt bistånd var till och med en ännu grövre geografisk nivå nödvändig för att bevara integriteten. Eftersom gränser inte kan anpassas efter variabler gör att indelningen i vissa fall blir onödigt grov, och andra fall som ekonomiskt bistånd faller precis på målsnöret.

En positiv aspekt med att områdena inte är anpassningsbara utan har rigida gränser är att de behåller samma uppdelning från år till år, vilket gör det möjligt att undersöka hur områden har utvecklats över tid. Dock är det faktum att områdesindelningen är fast över tid också problematiskt. DESO är en ny områdesindelning som kanske passar väl i dagsläget, men hur kommer det se ut i framtiden? På grund av möjligheten att det blev en felaktig aggregering till DESO-nivån kan man inte med säkerhet säga att invånarantalet ändrats drastiskt mellan 2014 till 2016. Dock så kan man ändå diskutera hur väl DESO-indelningen kan klara tidens tand. Att ha en gräns baserad på invånarantal är en bra funktion för att bevara integritet och användbarhet, men hur kommer befolkningsmängden se ut om ett par år? Problematiken med att relevansen för områdesindelningen minskar med åren är del av förklaringen till att SAMS-områden inte fungerade särskilt bra. Amcoff (2012) lyfte inte bara förändringar i befolkningsmängder, utan även i den byggda miljön. Storstäder speciellt, förtätas och byggs om i stor grad, vilket påverkar det upplevda grannskapet. På grund av urbaniseringen är det sannolikt att befolkningsmängden i urbana DESO områden drastiskt kommer att förändras inom ett fåtal år. I urbana områden finns en tidsgräns för hur väl fasta arealbaserade områdesuppdelningar kommer att vara gångbara grannskapsindelningar.

På grund av tidsaspekten och den dåliga anpassbarheten på arealbaserade områden finns det goda argument för att utforska fördelarna med modeller som bygger på bespoke neighborhood indelningar. I denna studie har aggregeringar avseende k-närmaste granne analyserats. Storleken på aggregeringar avseende K-närmaste granne definieras helt av befolkningsmängden, vilket gjorde dem mycket användbara i syfte att slå vakt om integriteten. Exempelvis fanns redan vid områdesindelningar på 10 grannar inte längre områden med 100% biståndstagare. Den lägsta nivån som uppfyllde detta i arealbaserade områden var DESO-områden, som har mellan 700 och 2 700 grannar. Den högsta nivån av k-närmaste granne som undersöktes var 1 280 grannar. Där fanns inte längre några områden med över 2 standardavvikelse, men ca 0,7% av områdena hade fortfarande 0% biståndstagare.

1280 grannar är en jämförbar storlek med DESO nivå som var den finaste nivån i de arealbaserade områden som var nära att fungera. Varför ska man använda k-närmaste granne

74

istället för en arealbaserad aggregering om inte antalet individer kan bli färre? Det främsta anledningen kan vara anpassbarheten. Som nämnt så fungerar k=1 280 grannar inte på grund av en liten andel områden med 0% biståndstagare, ca 0,7% av alla områden. Dock så är aggregeringen mycket nära att fungera, vilket tyder på att en aningen större aggregering skulle kunna nå en indelning utan områden med 0% biståndstagare. Att leta efter den perfekta aggregeringen är inte relevant för denna studie, utan snarare är konstaterandet om att det går att finna viktigt. Arealbaserade områden kan per definition inte anpassas från fall till fall, vilket betyder att de antingen fungerar eller inte. DESO områdena är nära att fungera, men i slutändan kan de inte användas eftersom de inte kan modifieras för att uppnå satta kriterium. Anpassbarheten gör k-närmaste granne till en mycket användbar geografisk aggregering för att bevara integritet.

Användbarhet säkerställs inte bara i och med att områden inte aggregeras mer än nödvändigt, utan också genom att den ursprungliga geografiska nivån bevaras. Rådatamaterialet hade indelningar på 100x100 meters rutor, och k-närmaste granne hade samma indelning. På grund av att områden är egocentriska och överlappar varandra kan den geografiska detaljnivån behållas. Att geografin bibehålls löser inte alla problem med MAUP, men förmildrar de båda aspekterna av problemet, zonindelning och aggregeringseffekten. Genom att individen placeras i mitten av grannskapet finns inte samma problem med zonindelningen, och eftersom nivåerna är skalbara mildras aggregeringseffekten. Skalbarheten måste dock i detta fall anpassas till integriteten, vilket gör att den bästa utformningen för en variabel kanske inte kan lämnas ut som öppna data. Därav offras en del av användbarheten för personlig integritet i denna metod. Men metoden kan åtminstone säkerhetsställa att uppoffringen inte blir större än nödvändigt.

En svaghet i den indelning av k-närmaste granne som användes är att den inte tar hänsyn till fysiska barriärer i granskapsindelningarna. Detta är dock möjligt att ta in i analysen med hjälp av friktionsbaserade k-närmaste granne-aggregeringar. Dessa typer av aggregeringar kan tilldelas friktionsvärden avseende hur de växer och därav skapa indelningar som mer tar hänsyn till naturliga barriärer, som exempelvis vatten och skog (Östh and Türk, 2019). I fortsatt forskning skulle det vara väldigt relevant att utforska hur friktionsbaserade k-närmaste granne-uppdelningar kan bevara personlig integritet och användbarhet.

En viktig kritik av k-närmaste granne-aggregeringar är att man dock aldrig kan anta att grannskapsindelningen reflekteras i individens uppfattning av sitt grannskap (Stein 2014). De närmaste fem personerna kan i de flesta fall sannolikt uppfattas som en enskild individs grannskap. Men beroende på person och geografisk kontext är det svårt att säga att till exempel de närmaste 40 individerna är ett grannskap, och ännu mer osäkert är att de närmaste 1 280 personerna ses som ett grannskap. Även om geografin bevaras i det finmaskiga 100x100 meters rutnätet så aggregeras fortfarande informationen. Att alla dessa grannar har något med individen att göra är inte garanterat. Detta gör att även k-närmaste granne kan anses vara sämre ju fler människor som inkluderas i måttet.

75

Interoperabilitet har lyfts som en av styrkorna med de arealbaserade områdena. K-närmaste granne kan relativt lätt sammanläggas med rutnät på samma nivå, men saknar till viss del den smidighet som finns i kombinationen av data från de vanligen använda arealbaserade områdena. På grund av att geografin finns kvar på den mest granulära nivån går det att aggregera upp k-närmaste granne till exempelvis DESO- eller SAMS-områden. Dock kommer det alltid att inte bara vara individernas information som aggregeras utan även informationen om deras grannskap. Det gör exempelvis att det kommer finnas överlapp vid den arealbaserade indelningens gränser. Det kan argumenteras att överlappen ändå speglar verkligheten eftersom människor ofta rör sig över kommungränser, och än mindre märker när de korsar gränser för SAMS- och DESO-områden. Om det finns insikt om att en överlapp finns, behöver nödvändigtvis inte analysen lida av det. Som en följd kan det även argumenteras att indelningen k-närmaste granne har en högre interoperabilitet på grund att måttet kan aggregeras till andra områdesindelningar. Till exempel så kan inte information i en DESO-områdesindelning kombineras med information i en SAMS-områdesindelning. Detta på grund av att den ursprungliga geografin inte bevaras i dessa aggregeringar, vilket den gör i uppdelningar som bygger på k-närmaste granne.

Sammanfattningsvis kan sägas att vilken typ av aggregering som passar bäst kommer att bero på variabel, men det visade sig ändå tydligt i analysen att k-närmaste granne är den mest anpassningsbara metoden av aggregering för att bevara integritet och användbarhet.

76