Väga personlig integritet

6. DATA OCH METOD

6.2 Väga personlig integritet

Som diskuterats i kap 3 och 4 kan personlig integritet i datahanteringssammanhang ses som skyddet av personuppgifter (se exempelvis Wendleby and Wetterberg, 2018, Floridi, 2010, Sloot, 2017). En personuppgift är en uppgift som kan användas för att identifiera en person, och därför skulle integritet kunna mätas med hur identifierbar en individ är i datamaterialet. Att datamaterialet ska kunna vara lagligt att sprida är baskravet för utvärderingen. Om dataskyddsförordningen inte ska bli tillämplig, är kravet att uppgifterna inte kan betraktas som personuppgifter (Wendleby and Wetterberg, 2018). Uppgifterna behöver alltså anonymiseras till den grad då det är inte längre är möjligt att identifiera en unik individ. Att följa lagen och anonymisera individerna är en grund, men det går även att räkna på graden av anonymisering. Men med operationaliseringen att integritet är anonymiseringsgrad, så kan integritet mätas med hur stor sannolikhet det är att en individ kan identifieras. Hur denna mätning skulle kunna göras är dock en svår fråga, och beroende på vad man vill uppnå kan beräkningen göras hur komplex som helst.

I skapandet av en metod för att titta på integriteten är det nödvändigt att återgå till det ursprungliga syftet, vilket i denna uppsats är att skapa ett underlag för offentliga myndigheter. Måttet behöver därför inte vara ett exakt mått på hur stor risk det är att varje individ kan identifieras, utan snarare säkerhetsställa att lagen följs och att ett etiskt ställningstagande kan göras.

Att lagen ska följas måste innebära att ingen individ kan vara helt identifierbar, eller att det garanterat inte kan uttolkas något om en enskild individ utifrån den aggregering man använder. Att en individ är helt identifierbar när det gäller ekonomiskt bistånd måste innebära att sannolikheten för att en individ har ekonomiskt bistånd är 100%. Det kan bara ske när alla inom en aggregering har ekonomiskt bidrag. Det kanske inte är ett problem om det finns områden med 0%, men faktum är fortfarande att det går att få reda på något unikt om individen då alla inom aggregeringen garanterat inte har ekonomiskt bistånd. Om analysen ska vara generellt användbar måste det tas med i beräkningen att för andra variabler kan 0% vara känsligt. Om man exempelvis tog fram information om hur många inom ett område som var kristna skulle 0 % också vara avslöjande avseende trosinriktning för individerna som bor där. 100% och 0% är båda antal där det med säkerhet går att säga något om alla individer, och kan därför sägas vara icke godtagbara. Men hur kan en bedömning ändå göras?

Utöver skyddet mot individen, kan också skyddet av en identifierbar grupp tas upp, som Floridi (2014) argumenterar. Till exempel om ett område blir oproportionerligt utpekat och det därmed finns risk för diskriminering. Eftersom det diskuterats i tidigare stycke att integritet kan mätas med hur stor sannolikheten är för möjligheten att identifiera en individ, är det relevant att fortsätta på det spåret. Sannolikhetslära kallas det område inom statistiken som räknar på odds och sannolikheter av utfall. Sannolikhet är ett mått på hur många gånger man får ett visst utfall av ett slumpmässigt fenomen (Moore, McCabe och Craig, 2009). I denna studie kan det slumpmässiga fenomenet antas vara någon som gissar om en individ har ekonomiskt bidrag eller ej. År 2014, som datamaterialet är från, var det 3,6% av befolkningen som hade ekonomiskt bistånd. Det betyder att det är möjligt att med 3,6% sannolikhet gissa att någon har ekonomiskt bistånd. När data på individer aggregeras till en lägre nivå än hela landet kan dock oddsen att gissa rätt bli mycket större. Man kan enkelt ta reda på hur stor den chansen är genom att dela delpopulationen (de med ekonomiskt bidrag) med hela populationen (alla i den geografiska aggregeringen, till exempel en kommun). Huvudfrågan är dock inte hur man kan beräkna den sannolikheten, utan snarare hur man kan räkna ut om den sannolikheten är oproportionerligt stor eller inte.

Vad som bedöms vara oproportionerligt stor risk för att en individ kan identifieras, kan sägas vara kärnan i hur integritet vägs. Det är svårt att säga var exakt den gränsen ska ligga, men något som är tydligt är att den sannolikhetsgränsen måste sättas utifrån hur sannolikheten för variabeln är i totalbefolkningen. För till exempel personuppgiften kön är det ungefär 50% chans att gissa rätt på vilket kön en individ har utan att veta något alls om individen. Det innebär att om man sätter en gräns på oddset att gissa en individs kön på mindre än 50% kan man inte ens lämna ut data eller statistik på riksnivå. Som nämnts är det i fallet med ekonomiskt bistånd 3,6% chans att gissa att en svensk individ har bistånd, utan att ha någon mer information om individen. Utifrån det, hur kan då gränsen för vad som är alltför avslöjande sättas? Ett angreppsätt är att dra gränsen där avvikelsen för oddset kan anses vara för stor. Då kan vi ta hjälp av standardavvikelse (σ)som är ett mått på spridningen av. Standardavvikelsen är den

genomsnittliga avvikelsen från medelvärdet (Moore, McCabe och Craig, 2009). Om sannolikheten för att kunna gissa att någon har ekonomiskt bistånd är flera gånger större än det som ryms inom standardavvikelsen kan chansen för att kunna identifiera en individ anses vara en oproportionerligt stor. Detta innebär också att gruppen är mycket synlig i delområdet. Detta grepp kan motiveras än mer genom att se till normalfördelningskurvan. Normalfördelningen är bland de vanligaste sannolikhetsfördelningarna och förutsätter en variabel där värdena ofta ligger nära medelvärdet (μ) och sällan har värden med stor avvikelse (Moore, McCabe och Craig, 2009). I en normalfördelning finns en så kallad 68–95–99,7-regel som beskriver var majoriteten av fallen befinner sig. Drygt 68% av fallen är inom en standardavvikelse från medelvärdet, drygt 95% befinner sig två standardavvikelser från medelvärdet och drygt 99,7% är inom tre standardavvikelser från medelvärdet. Detta visualiseras i figuren nedan;

Figur 5 68-95-99,7-regeln Källa: Wikipedia (2019)

Med det skulle man kunna skapa följande typ av ekvation för att utvärdera om en aggregering kan anses godtagbar.

Ekvation 1: 𝑎𝑏𝑠(P_𝑙−P_𝑔)

σ_𝑔

Pl står för Probability local, sannolikheten för den geografiska aggregeringen. Pg står för

Probability global, sannolikheten för hela befolkningen, vilket vi avseende ekonomisk bistånd vet är 3,6% år 2014. När Pg dras bort Pl får man fram vilken avikelse Pl har från det nationella snittet. Avikelse är både negativt och positivt mätbart, men för enkelhets skulle absolutvärdet kunna användas för att få ut skillnaden i ett positivt tal. Absolutvärdet (förkortat abs) beräknar ett tals avstånd till 0 och betecknar därav alla tal som positiva eller 0-värden.

Denna summa delas i sin tur med den globala standradavikelsen (𝛔_𝒈) för att se hur mycket den

avikelsen är över 3 standardavikelser, och därmed över 99,7% befolkningen i normalfördelningen. Om summan blir över 2 betyder det på samma sätt att över 95% av befolkningen befinner sig i normalfördelningen. Avseende mitt mått, anses det som oproportionerligt avslöjande att en individ ligger utanför var 95% av befolkningen befinner sig. Egentligen är 95% bara en arbiträr gräns, och skulle lika gärna kunna flyttas. Anledningen till att just den är vald är att 5% är den klassiska gränsen för ett mått på statistisk signifikans. Eftersom det är det klassiskt använda måttet används det även här, men kan lätt modifieras utefter andra etiska ställningstaganden om sannolikheten för en identifiering. Ett sätt att utöka skyddet skulle kunna vara att sänka gränsen, och likaså skulle gränsen kunna höjas för att vara mer tillåtande när det gäller områdesaggregeringen.

Modellen är en förenklad bild, och har en del svagheter som bör diskuteras. För det första är det troligen inte så att sannolikheten för att ha ekonomiskt bistånd är helt normal fördelad i populationen. Men det finns ändå anledning att använda normalfördelningskurvan, eftersom syftet är att få fram och studera en generell metod som ska kunna vara användbar för många olika variabler. Att utvärdera spridningen av sannolikheten för den variabel man vill undersöka skulle kunna vara ett sätt att skapa ett mer exakt mått på hur många standardavvikelser som kan anses oproportionerligt mycket. Men eftersom vi eftersträvar ett generellt mått behåller vi dock utgångspunkten att fördelningen inte är långt ifrån normalfördelningskurvan.

Den statistiska frågeställningen behöver också problematiseras. Vad som beräknas i denna undersökning är sannolikheten för att individer i ett specifikt område har ekonomiskt bistånd (Pl), och hur det skiljer sig från sannolikheten avseende hela befolkningen (Pg). Detta kan ses som motsägelsefullt, då vi tidigare argumenterat för att integritet kan mätas med hur identifierbar en individ är. Till exempel skulle det gå att i stället ställa frågan: hur stor är chansen att vi identifierar individen Olle om vi har dessa variabler? Problemet med en sådan fråga är att individen måste finnas med i varje beräkning av sannolikheten, vilket skulle innebära att man har enskilda beräkningar för alla individer i Sveriges befolkning i varje områdesindelning. Denna metod är grov och bred eftersom dess mål är brett: att ge ett grundläggande underlag för att undersöka om data med information om individer kan delas på ett integritetssäkert sätt. Metoden behöver därför inte vara helt perfekt, utan bara ge en uppfattning om när områdesaggregeringar inte fungerar etiskt sett.

In document UPPSATSER Kulturgeografiska institutionen (Page 46-49)