Krav på pseudonymisering eller liknande åtgärder

6.3 Skyddsåtgärdernas effekter på integritet och forskningsincitament

6.3.2 Krav på pseudonymisering eller liknande åtgärder

Pseudonymisering som skyddsåtgärd diskuterades under hela lagstiftningsprocessen bakom dataskyddsförordningen och är en vanligt förekommande åtgärd i forskningssam-manhang sedan tidigare.¹⁹⁵ Pseudonymisering definieras i artikel 4.5 dataskyddsförord-ningen som en åtgärd där personuppgifter behandlas på ett sätt som innebär att de inte längre kan tillskrivas en specifik registrerad utan att kompletterande uppgifter används, under förutsättning att dessa kompletterande uppgifter förvaras separat och är föremål för tekniska och organisatoriska åtgärder som säkerställer att personuppgifterna inte tillskrivs en identifierad eller identifierbar fysisk person.

Genom pseudonymisering ersätts identifierande uppgifter i ett dataset med rever-sibla och konstanta värden vilka utgör själva pseudonymen, t.ex. att ett namn ersätts med siffror och nummer. Kravet som uppställs i dataskyddsförordningen är vidare att verkty-get som behövs för att kunna koppla samman pseudonymen med de identifierande upp-gifterna hålls skyddad med hjälp av tekniska och organisatoriska åtgärder, t.ex. att endast särskilda personer inom en organisation har tillgång till dessa verktyg. Tanken med pseudonymisering är att stärka skyddet för den personliga integriteten och samtidigt möj-liggöra återidentifiering av en registrerad i de fall det är önskvärt att tillföra nya uppgifter till ursprungsuppgifterna.¹⁹⁶

Pseudonymiserade uppgifter faller under dataskyddsförordningens tillämpnings-område eftersom de enligt skälen i punkt 26 ska betraktas som uppgifter som rör en iden-tifierbar fysisk person, d.v.s. de utgör fortfarande personuppgifter. Det är endast när data kan betraktas som fullständigt anonym som dataskyddsförordningen inte blir tillämplig. Anonymisering av personuppgifter innebär, till skillnad mot pseudonymisering, att

195 SOU 2017:50 s. 84. Artikel 29-arbetsgruppen, Yttrande 05/2014 om avidentifieringsmetoder, s. 20 f.

196 Hintze & El Emam, Comparing the Benefits of Pseudonymization and Anonymization Under the GDPR, s. 3. SOU 2017:50 s. 262 f.

tifierande uppgifter förstörs eller förändras på ett sätt att uppgifterna inte längre är rever-sibla.¹⁹⁷ Gränsdragningen mellan anonymiserade och pseudonymiserade personuppgifter är dock inte alltid lätt att göra då processerna många gånger liknar varandra.

För att avgöra om data är anonym eller enbart pseudonymiserad fordras enligt skä-len i punkt 26 att man beaktar alla hjälpmedel som rimligen kan komma att användas för att direkt eller indirekt identifiera den fysiska personen. För att fastställa om ett hjälpme-del med rimlig sannolikt kan komma att användas för att identifiera en fysisk person bör man enligt samma punkt beakta samtliga objektiva faktorer såsom kostnader och tidsåt-gång för identifiering samt tillgänglig teknik och den tekniska utvecklingen. Data är ano-nymiserad om den inte hänför sig till en identifierbar fysisk person eller anonymiserats på ett sätt att den registrerade inte längre är identifierbar.

Anonymisering enligt dataskyddsförordningen och dess krav på att den registrerade inte längre ska vara identifierbar är i praktiken mycket svårt att åstadkomma, särskilt i situationer där stora mängder personuppgifter behandlas och där personuppgifter kombi-neras från flera olika källor, vilket är något som särskilt gör sig gällande i big data-sam-manhang.¹⁹⁸ Denna ordning för att avgöra om data är anonym skiljer sig också från hur en liknande bedömningen görs i USA beträffande hälsodata. Enligt den federala lagstift-ningen Health Insurance Portability and Accountability Act (HIPAA) betraktas hälsoupp-gifter som anonyma om 18 specifika identifierare tas bort från datasetet.¹⁹⁹ Bedömningen som ska göras enligt dataskyddsförordningen är alltså mindre konkret och kan därför en-ligt min mening tänkas vara svårare att tillämpa i praktiken.

Det kan vidare ifrågasättas vilket skydd olika pseudonymiserings- och anonymise-ringstekniker egentligen erbjuder för den personliga integriteten, särskilt mot bakgrund av att det har visat sig vara möjligt att med relativ lätthet återidentifiera fysiska personer med hjälp av kompletterande data och olika dataanalysverktyg.²⁰⁰ Exempelvis har det i en amerikansk studie konstaterats att uppemot 87 % av den amerikanska befolkningen

197 Hintze & El Emam, Comparing the Benefits of Pseudonymization and Anonymization Under the GDPR, s. 3. SOU 2017:50 s. 262 f.

198 SOU 2017:50 s. 254.

199 Avsnitt 45 Code of Federal Regulations 164.514 (b)

200 Ohm, Broken promises of privacy: Responding to the surprising failure of anonymization, s. 1703 f.

var potentiellt identifierbar med hjälp av endast tre identifierare i form av postkod, födel-sedag och kön.²⁰¹ Av den anledningen kan det tänkas att situationer där ett förenklat etik-prövningsförfarande aktualiseras, d.v.s. där indirekta personuppgifter används, fortfa-rande medför betydande risker för den personliga integriteten.

Olika pseudonymiserings- och anonymiseringstekniker riskerar också att skada forskningsresultat genom att resultaten i större utsträckning blir generella samt att forsk-ningen i vissa fall omöjliggörs då forskare är tvungna att ta bort information som var tänkt att undersökas. Rent allmänt kan sägas att ju mer information som tas bort från ett dataset desto mindre värdefull blir informationen.²⁰² Pseudonymisering och andra försök att ano-nymisera forskningsdata kan också skada forskningsresultatet genom mänskliga fel i pseudonymiseringsprocessen genom t.ex. felstavningar, vilket kan medföra att det inte går att koppla den pseudonymiserade informationen till ursprungsinformationen.203

Ett långtgående pseudonymiseringskrav skulle också kunna medföra att personupp-giftssamlingar som isolerat anses tillräckligt pseudonymiserade tillsammans med annan data inte uppfyller kravet på pseudonymisering. Pseudonymisering vid tillförande av nya data till ett dataset kan också medföra fel i matchningsproceduren i förhållande till ur-sprungsuppgifterna vilket innebär en förlust i datakvalitet i datamängder som förs över en längre tid och som behöver uppdateras.²⁰⁴ Kravet på pseudonymisering blir alltså större ju mer data som hanteras, och när det kommer till forskning och utveckling av artificiell intelligens vilken är dataintensiv till sin natur kan detta krav medföra en stor börda för forskningsaktörer och därmed också ha en kylande effekt på forskningsincita-menten.

Forskningsdatautredningen är medveten om att pseudonymisering medför ett högt krav på forskningsaktörer. Forskningsdatautredningen är också medveten om att detta krav kan innebära att personuppgifterna i vissa fall tappar sitt forskningsmässiga värde. Det bör därför enligt det förslag som forskningsdatautredningen lämnat vara möjligt att använda sig av likvärdiga och alternativa skyddsåtgärder som uppfyller samma syfte. Med likvärdiga alternativa skyddsåtgärder avses åtgärder där registrerade i samma ut-sträckning som vid pseudonymisering slipper att obehörigen sammankopplas med sina

201 Sweeney, Simple Demographics Often Identify People Uniquely, s. 2.

202 Bickford & Nisker, Tensions Between Anonymity and Thick Description When “Studying Up” in Genetics Research, s. 278.

203 Andersen & Storm, Cancer registration, public health and the reform of the European data pro-tection framework: Abandoning or improving European public health research? s. 1028 f.

personuppgifter vid behandling för forskningsändamål. Med obehörig sammankoppling avses situationer där sammankopplingen inte framgår av det angivna ändamålet med be-handlingen.²⁰⁵ Exempel på alternativa skyddsåtgärder är enligt forskningsdatautred-ningen att begränsa åtkomst till identifierande uppgifter eller upprätta instruktioner för hur personuppgiftsbehandling av identifierande uppgifter får gå till. Detta kan ske genom en omorganisering där endast en grupp har tillgång till identifierande uppgifter eller att man uttryckligen förbjuder försök till återidentifiering. Likvärdighetskriteriet möjliggör för mindre ingripande åtgärder när det är möjligt.²⁰⁶

Det förslag som forskningsdatautredningen har lämnat medger emellertid att det görs avsteg från kravet på pseudonymisering eller liknande åtgärder i sin helhet om än-damålet med forskningen inte kan uppfyllas vid användningen av dessa skyddsåtgärder. Situationer där forskningsändamålet inte kan uppfyllas med behandling av pseudonymi-serade personuppgifter tar sikte på forskningsmetoder som på något sätt kräver att iden-tifierande uppgifter behandlas. Även om det framgår av ändamålet med behandlingen att identifierande uppgifter kommer att behandlas anser forskningsdatautredningen inte att kravet på pseudonymisering därigenom är uppfyllt. Däremot kan det tänkas att forsk-ningsmetoden som kräver behandling av identifierande uppgifter utgör det minst ingri-pande sättet att uppnå det förväntade forskningsresultatet, och värdet av forskningen kan tänkas uppväga intrånget i enskildas personliga integritet. Det är i dessa fall undantaget från kravet på pseudonymisering och likvärdiga åtgärder kan frångås.²⁰⁷

Huruvida man kan beakta att värdet av forskningen försämras om pseudonymise-ring eller likvärdiga skyddsåtgärder tillämpas framgår inte. Det har dock med anledning av nödvändighetsrekvisitet i artikel 6 dataskyddsförordningen konstaterats att det i forsk-ningssammanhang ska vara möjligt att beakta kvalitetsmässiga effekter på forskningsre-sultatet vid bedömningen av om det är nödvändigt att behandla personuppgifter.²⁰⁸ Om detta också gör sig gällande vid tolkningen av undantaget från kravet på pseudonymise-ring framgår som sagt inte, men förutsatt att det är möjligt att väga in kvalitetsmässiga faktorer i bedömningen kan det enligt min mening tänkas bli lättare för forskningsaktörer att frångå kravet på pseudonymisering eller liknande åtgärder eftersom dessa

205 SOU 2017:50 s. 287 f.

206 SOU 2017:50 s. 287 f.

207 SOU 2017:50 s. 288.

gärder medför negativa effekter på forskningsresultaten. Om så är fallet förlorar bestäm-melsen sin betydelse som skydd för den personliga integriteten. Det är primärt den an-svarige forskningsaktören som har att göra bedömningen av om forskningsändamålet kan uppnås med hjälp av pseudonymiserade uppgifter, men vid forskning rörande sjukvårds-relaterad AI kan en etikprövningsnämnd vid en etikprövning meddela villkor om att pseudonymisering måste ske. I dessa fall kan inte forskningsdatalagens undantag från kravet på pseudonymisering tillämpas med följden att forskningsaktören måste använda pseudonymiserade hälsodata.²⁰⁹

Det kan sammanfattningsvis konstateras att kravet på pseudonymisering och lik-värdiga skyddsåtgärder för att skydda den personliga integriteten i många fall är svårt att genomföra praktiken, särskilt mot bakgrund av att det i AI-sammanhang ofta rör sig om omfattande mängder data från flera olika källor. Pseudonymisering medför också nega-tiva konsekvenser på forskningsresultat och forskningsincitamenten, samtidigt som ris-kerna för den personliga integriteten i viss mån kvarstår genom att återidentifiering har visats vara relativt lätt att genomföra. Vid forskning och utveckling av sjukvårdsrelaterad AI kommer forskningsaktörerna vara tvungna att pseudonymisera eller skydda person-uppgifter på likvärdigt sätt, om de inte kan visa att det är nödvändigt att behandla identi-fierande uppgifter. I vissa fall kan det tänkas att forskningsaktörer i dessa sammanhang kommer kunna frångå kravet i sin helhet genom att visa att identifierande uppgifter be-höver behandlas och att forskningsmetoden är den minst ingripande åtgärden för att uppnå det förväntade forskningsresultatet samt för att värdet av forskningen uppväger intrånget. Om kvalitetsmässiga faktorer kan beaktas i denna bedömning torde forskningsaktörer i större utsträckning kunna frångå kravet.

Värt att poängtera i detta sammanhang är att det inom ramen för hälso- och sjuk-vårdsforskning har uppgetts att tillgången på anonymiserade/pseudonymiserade data är liten i Sverige.²¹⁰ Kostnaderna som uppstår för att pseudonymisera tillräckligt stora mäng-der hälsouppgifter för att kunna bedriva högkvalitativ AI-forskning kan därför tänkas ha en negativ inverkan på forskningsincitamenten. Huruvida detta kan beaktas i bedöm-ningen av undantaget från kravet på pseudonymisering är oklart. Det skulle kunna tänkas att forskningsaktörerna kan argumentera för att det saknas tillräckligt med pseudonymi-serade uppgifter och att behandling av identifierande uppgifter därför utgör den minst ingripande forskningsmetoden. Om undantaget från kravet på pseudonymisering tolkas

209 SOU 2017:50 s. 288.

In document Forskning och utveckling av sjukvårds- relaterad artificiell intelligens mot bakgrund av dataskyddsförordningen (Page 57-62)