Artificiella intelligensen (AI) - eDiscovery-samverkan för digitalt bevarande

Både inom eDiscovery och inom arkivvetenskapen så förs stora diskussionen om artificiell intelligens som är en integrerad del av den informationstekniska utveckling som funnits med i det senaste seklet. Utmaningarna för digital långtidsbevaring kring konvertering för bevarandet som finns idag måste bearbetas rätt och kunna användas senare för maskininlärningen till AI.

Verktyget eDiscovery ska med AI öka snabbheten till att hitta bevis och samband. När det gäller staten, landstingen och kommunernas arkiv, så kan AI hitta handlingar snabbare, men det förutsätter att bland annat att konvertering för bevarandet har gjorts på rätt sätt från början. Objekten ska kunna användas till maskininlärningen och om inte det har gjorts rätt, kommer AI inte att fungera lika bra som om konverteringen hade gjort på rätt sätt.

Artificiell intelligens är ett verktyg som öppnar upp möjligheter för fler användare att använda och återsöka information. Artificiell intelligens är ett samlingsbegrepp för flera grenar inom datavetenskapen, system som uppvisar intelligenta beteenden som att tolka, självlärande och resonerande.

“Data är den nya oljan” stora mängder data (Big data) är en förutsättning för att kunna utveckla och använda system med maskininlärning. I traditionell

programmering är det en utvecklare som skriver algoritmen för hur en input ska beräknas av systemet för att resultera i en korrekt output. I Artificiell intelligens-teknik med maskininlärning så skriver istället systemet algoritmen hur en input blir rätt output, det kräver stora mängder annoterad teknik som förser användaren med kompletterande information, normal text

(annoteringar), om den fysiska omgivningen (människor och saker). Kräver en kroppsburen dator, teknik som uppfattar och känner igen det som finns i omgivningen samt speciell utrustning som hörlurar eller interaktiva glasögon¹⁰⁸

109 data där en output listas för varje input.

108ARKIV en tidskrift om arkivets alla aspekter 1/2019.Svensk Arkivtidskrift. Tryckeri Hylte trycks.34–35.

109 COMPUTER SWEDEN IT-ord Ord och uttryck i IT-branschen IDG:s ordlista.

För att träna en maskininlärningsmodell att tolka objekt i ett fotografi behövs miljontals bilder som är uppmärkta med vad de föreställer. Att översätta text från ett språk till ett annat behövs miljontals sidor med översatta texter.

Artificiell intelligens har stora begränsningar “intelligens” skiljer sig mycket från människan. Artificiell intelligens förstår inte beräkningen den utför och ser inte på en bild med t.ex. en katt som en människa gör, den lär sig att när ettor och nollor står efter varandra i ett visst mönster så är output¹¹⁰ (resultatet av en dators arbete, klart för utmatning, det vill säga för visning på bildskärm, för utskrift eller för uppspelning) katt men det finns inget innehåll för förståelse för vad en katt är, vad de kan göra, hur stora katter är eller hur de skiljer sig från, lejon, hund eller flygplan.¹¹¹ En Artificiell intelligensmodell kan inte bli bättre än den data den tränas på. Otillräcklig data kommer att resultera i dåliga system med bias,ett systematiskt fel uppstår genom en orättvis provtagning av en population eller från en uppskattningsprocess som inte ger korrekta resultat i genomsnitt.¹¹² Maskininlärning benämns på två sätt; övervakande som

beskrevs ovan, och oövervakad. Vid övervakning tränas Artificiell intelligens att nå rätt resultat, input och output fungerar som ett facit, men det krävs tillgång till stora mängder annoterad, högkvalitativa data. Oövervakad

maskininlärning är en vidareutveckling av statistiska och matematiska modeller för Big-data-analyser som medger att Artificiell intelligens själv kan upptäcka samband mellan datapunkter. De två teknikerna kan komplettera varandra eftersom de kan besvara olika frågeställningar. ¹¹³

Utveckling av algoritmer¹¹⁴ måste ske genom stora mängder träningsdata genom övervakad maskininlärning. Tillgången till träningsdata har

identifierats som en av de största flaskhalsarna för forskning och utveckling

110Ibid.

111 ARKIV en tidskrift om arkivets alla aspekter 1/2019.Svensk Arkivtidskrift. Tryckeri Hylte trycks.34–35.

112 COMPUTER SWEDEN IT-ord Ord och uttryck i IT-branschen IDG:s ordlista.

113 ARKIV en tidskrift om arkivets alla aspekter 1/2019.Svensk Arkivtidskrift. Tryckeri Hylte tryck. s.35.

114 COMPUTER SWEDEN IT-ord Ord och uttryck i IT-branschen IDG:s ordlista.

inom Artificiell intelligens. Data som redan finns, är värdefull att förvalta och kan komma till användning för nya data krävande utvecklingsområden.¹¹⁵ Artificiell intelligenstekniken kan användas i verktyg som automatisk

extraherar metadata ur arkivhandlingarna, till exempel nyckelord som person eller platsnamn som kan återsökas i smartare söktjänster. Det öppnar upp för sökningar som inte är baserad på metadata: Artificiell intelligens möjliggör exempelvis tolka vilka objekt som finns i bilder och tagga dessa i skrivna metadata, att samtidigt som tekniker omvänd bildsökning medger sökningar där en bild kan användas för att söka efter andra bilder som innehåller liknande objekt, komposition och så vidare. De två teknikerna är bra över tid, för objekt kan ha ändrat utseende och andra objekt kanske inte har kunnat identifieras eftersom de inte finns idag.¹¹⁶ Det är värt att utveckla verktyg för

automatisering med metadataextraktion inte bara för det möjliggör sökning utan för att metadata kan användas för att skapa träningsdatamängder för att träna upp Artificiell intelligenstillämpning på smartare söktjänster,

ärendehanteringssystem och beslutsstöd. Metadataextraktion är även gynnsamt för sökapplikationer med oövervakad maskininlärning.¹¹⁷ Sökträffar skulle kunna grupperas till tidsperiod, geografi, proveniens, ämnesord, baserat på användarens frågeställning.¹¹⁸

6 Forskningsförslag

Det är möjligt att synen på metadata inom eDiscovery kommer att se annorlunda ut, och innehållet av metadata för återsökning kommer att förändras, eftersom den inte kommer att vara det enda sättet att återfinna information. Faktum är att artificiell intelligens har funnits med länge och är

115 ARKIV en tidskrift om arkivets alla aspekter 1/2019.Svensk Arkivtidskrift. Tryckeri Hylte tryck. s.35.

116 ARKIV en tidskrift om arkivets alla aspekter 1/2019.s. Tryckeri Hylte tryckt. s. 35.

117 Ibid.

118 Ibid.s.36.

radikalt annorlunda än det var till och med två eller tre år sedan.¹¹⁹ När man nu tittar närmare på den juridiska industrin, så har man upptäckt att i takt med ökningen av beroendet av AI så har även andra branscher visat att AI kommer att störa äldre affärsmodeller. Frågan är inte om, utan när, det kommer att drabba eDiscovery.¹²⁰ Forskningsförslaget är att ta reda på vad det är för sorts störningar och hur man kommer möta de störningarna inom eDiscovery.

7 Diskussion

Att hitta programvara som är speciellt tillämpad för eDiscovery är komplicerat, för om tekniken brister i någon av de tre områdena; människan, process och teknik så kan det utgöra allvarliga problem för alla eDiscovery instanser.

eDiscovery-teknik ska identifiera, samla in, bearbeta, bedöma och producera.

Data kommer dagligen i många olika former, det kan röra sig om tusentals och då behöver man öppna alla i sitt eget filformat eller program för att kunna göra dem läsbara, det blir en stor kostnad både i tid och pengar. För att slippa öppna alla filer och program i sina egna format så konverterar man filerna, det ger en snabbare granskning, det innebär att man formaterar alla filer till ett format som öppnas i ett program. eDiscoveryteknikens dataprocess är i två steg, första steget är att omformatera för att kunna göra en snabbare granskning. Den andra delen i processen är att data ska vara sökbart så man kan hitta det man

verkligen vill ha. Det finns tre regler som man måste följa för att det ska kunna vara sökbart. Först ska man extrahera text- och söka av dokumentet i

eDiscovery plattformen som söker och granskar. I den andra regeln ska man extrahera Metadata där man ser återställningsfil (till exempel när fil skapades, författare, e-postdatum). Den tredje regeln är duplicering då man ska ta bort identiska filer baserat på hashvärde, ett mindre tal som representerar ett större tal eller en datamängd. Kondensat¹²¹ (hashvärde) används i IT-säkerhet för att

119 Tim Rollins, E-Discovery Market Analyst at Exterro.

120 Ibid.

121 Ordlista, Bilaga 8.

visa att information inte har förändrats. De används bland annat för att skapa elektroniska signaturer.¹²² All eDiscovery involverar juridiska data eller svåröverskådlig process som kräver specialutbildad programvara eller expertis som är involverade i den komplexitet LDP- The leading Dimensions Profile ramverk. Inom organisation så har de flesta en informationsplattform som måste anses vara den centrala åtkomstpunkten. Bevarande och arkivering har blivit en extrem utmaning att hantera. Därför bör en informationsplattform vara väl genomtänk, Point Tool eller Platform¹²³ som har tillgång till alla

e-postkonton, arkiv för lagerförvaring, styrsystem, intranät och chatt. Det

viktigaste är att få insikt mellan människan och processen med eDiscovery och fokusering måste ligga i det tekniska området i eDiscovery-teknikens

programvara. Det är viktigt att förstå hur behandlingen ska gå till inför ett digitalt bevarande. Det är för att kunna hitta det digitalt bevarade i framtiden, annars är själva digitala bevarandet meningslöst. Det finns krav på att vid forskningen ska man använda och utveckla digitala arbetsmetoder, risker finns att traditionell manuell forskning uteblir, men förväntningar växer på

tillgängliggörandet av den data som förvaras i arkiv. Att arkiv är en produkt med ändamålsenligt urval. Ett arkiv, enligt dess natur, kan inte innehålla allt, dokument (inklusive skriftlig, fotografisk, rörlig bild, ljud, digital och analog) väljs för långvarigt bevarande. Arkivister tar detta seriöst och

avser ”långsiktig” att betyda en period mätt i tusentals år. Åt andra sidan är många andra dokument inte utvalda och kan följaktligen vara förlorad eller förstörd. Det är oundvikligt att inte allt från det förflutna kommer att överleva för att få tillgång till dagens forskare.¹²⁴ En annan viktig sak som man lätt kan glömma bort, är att när man begär ut ett digitalt objekt så ligger det metadata bakom som inte kommer att komma med om man får ut det i pappersform, då kommer man missa viktig information, till exempel om det är en bild, så ligger det i metadata information om vem som tog bilden, när och var det togs och

122 COMPUTER SWEDEN IT-ord Ord och uttryck i IT-branschen IDG:s ordlista.

123 5.8.1 Point Tool eller Platform.

124 Information journeys in digital archives Joseph Jonathan Pugh s.17.

med vilket kameramärke och så vidare. Predictive Coding som jag nämnde i inledningen har visat sig vara så effektiv, att vissa domstolar föredrar algoritm reviderade produktioner över mänsklig granskning, medan andra domstolar vägrar att acceptera dokument som är producerat genom en manuell

granskning.¹²⁵ Algoritm är instruktion för hur man löser, steg för steg, ett matematisk eller logisk uppgift som utförs mekaniskt, utan kreativt

tänkande.¹²⁶ (ESI) Electronically stored information (Federal Rules of Civil Procedure) kräver användning av datorns maskinvara och programvara. ESI har blivit en juridiskt definierade fras eftersom den amerikanska regeringen bestämdes för FRCP-reglerna från år 2006 att det var nödvändigt att utfärda förfaranden för underhåll och upptäckt för elektronisk lagrad information.¹²⁷ Men precis som drivkraften för eDiscovery var, från hårddisk baserat datasystem till elektroniskt lagrad information, så är idag den nuvarande trenden mot intelligenta Artificiell intelligens. Att den systemiska

omvandlingen från primärt strukturerad datalagring, till den mycket större och den ständigt växande fenomenet ”Big data”. Det syftar oftast på ostrukturerade data, alltså sådana data som inte kan ordnas i tabeller eller kalkylark. Ett kriterium är att datamängderna är så stora att de i praktiken inte kan bearbetas med traditionella program för analys och datautvinning. Den mycket stora datamängden kräver speciella metoder för analys. Områden där man talar om ”Big data” är analys av stora textmängder (direkt från internet eller från stora sociala medier).¹²⁸ Mycket av en organisations datavärld är upptäckbar i rättstvister, men det betyder att det är nästan helt omöjligt för människan att läsa utan intelligenta verktyg. Predictive Coding är bra, men det kräver fortfarande alltför mycket mänskligt ingripande för att säkerställa. Big data är räddningen för maskininlärning och till skillnad från människor kan maskiner

125 Brown Sarah Artificial intelligence and eDiscovery: beyond predictive coding mars 01, 2018 at 10:48 fm Legal Week Powered by law.com.

126 COMPUTER SWEDEN IT-ord Ord och uttryck i IT-branschen IDG:

127 Ibid. ESI.

128 Ibid. Big data.

inte dra egna slutsatser för information. ”Big data” tillhandahåller i den skala som krävs för att träna Artificiell intelligens effektivt. Andra aspekter av databehandling har gjorts med framsteg mot Artificiell intelligens^.129Jag hade en del frågor innan starten till min forskning, som finns i kapitlet Metod och Forskningsförslag, de kräver fördjupning i själva datasystemet och frågor till IT-personal, som inte kunde tas med. Men jag har kunnat beröra frågorna ytligt som hjälpt mig att kunna dra slutsatsen att, de problem vi har idag kan

avhjälpas med Artificiella intelligens.

8 Slutsats

Relationsproblemen finns mellan människan, processen och tekniken.

Tekniken förändrar sättet att samverka, det spretar och det blir klurigt att organisera samarbetsytor som passar människan, processen, tekniken. Det är paralyserande för människan, när det saknas arbetsytor. Artificiell Intelligens (AI) som vi inte kan vara utan i framtiden och inte ens igår, är ett verktyg som måste ingå i människan, processen och tekniken. En maskin som hjälper människans hjärna, som inte kan mätas med hastigheten som Artificiell intelligens har. Att bevara och arkivera data blir exponentiellt svårare över de hundratals applikationer som existerar och distribuerar genom ett

företagssystem. Det underlättar om man centraliserar bevarandet i hela företagsdata med ett gränssnitt. En metod som gör att tekniska apparater, datorprogram eller människa och maskin kan fungera ihop.¹³⁰ Att bevara olika digitala objekt och öppna dem i olika format verkar inte vara några problem idag, däremot ligger problemet att kunna hitta det digitala bevarandet. Hur ska man kunna samla in det som hör ihop på kortare tid? Idag tar det extremt lång tid och det blir stora kostnader. För arkiverad information finns ingen

yrkesgrupp som förstår informationens förutsättningar, begränsningar och

129 Brown Sarah Artificial intelligence and eDiscovery: beyond predictive coding mars 01, 2018 at 10:48 fm Legal Week Powered by law.com.

130 COMPUTER SWEDEN IT-ord Ord och uttryck i IT-branschen IDG:s ordlista.

möjligheter lika väl som arkivarie. Om arkiverad information ska användas för att träna maskininlärnings modeller har arkivarien därför en viktig roll i att motverka att bias byggs in i systemen. Det är även viktigt att

informationsspecialisten och arkivarien har en förståelse för hur verksamheten kan tänkas vilja använda den information som skapas idag så att det främjar den framtida maskininlärningen¹³¹ Första steget är att börja använda Artificiell intelligens för att automatisera metadata extraktion, det är viktigt att skapa en förtrogenhet med tekniken. Den språkteknologiska tekniken som används till att identifiera nyckelord kan användas inför Big dataanalys och smarta

söktjänster. Artificiell intelligens kan bredda information inom ansvarsområde och öppna nya möjligheter för målgruppen att använda arkivmaterial. Det sänker tröskeln för nya användare som då inte behöver kunskap om de proveniens överskridande sökingångar som förutsätter kunskap om arkivens uppbyggnad. Det ger möjligheter till att ställa nya forskningsfrågor till materialet och kan ge svar på ett nytt sätt. Att tillgodose behovet kommer det behövas förtrogenhet med Artificiell intelligens, AI- modeller som gör data digitalt bearbetningsbart.

Om jag hade vetat det jag vet idag efter min forskning om eDiscoverys samarbetsytor, skulle jag ha velat undersöka möjligheten om verktygen skulle kunna passa för Staten, Landstingen och Kommunerna för att kunna samordna arkiven med god säkerhet. eDiscovery används idag av domstol,

advokatsamfund och företag samt forensisk. I min forskning kunde jag ana, hur en ny roll för arkivarie kan komma att se ut inom Artificiell intelligensen. Det kan bli att ansvara för maskininlärningen. Intressant blir det med

maskininlärning för sekretessprövning.

131 ARKIV en tidskrift om arkivets alla aspekter 1/2019.Svensk Arkivtidskrift.s.35.

9 Referenser

Uppsats

Hämtat VT 2019

Bäckström Pontus Vad är ett E-Arkiv? En fallstudie på E-Arkiv Stockholm UPPSALA UNIVERSITET 2012.

http://uu.diva-portal.org/smash/get/diva2:563910/FULLTEXT01.pdf Gunnarsson Douglas & Svenneheim Christian Examensarbete (30

högskolepoäng), Vitt brus Om långtidsbevarande av ljud och rörlig bild, i arkivvetenskap för masterexamen inom ABM masterprogrammet vid Lunds universitet.

http://lup.lub.lu.se/luur/download?func=downloadFile&recordOId=8942901&f ileOId=8942915

Hansson Martin Edition av elektroniskt material – särskilt om e-post JURIDISKA FAKULTETEN vid Lunds universitet VT 2010.

http://lup.lub.lu.se/luur/download?func=downloadFile&recordOId=1628288&f ileOId=1628289

Kämmerling Christian Digital långtidsbevaring i sjukvården

INSTITUTIONEN FÖR INFORMATIK vid Lunds Universitet juni, 2009.

http://lup.lub.lu.se/luur/download?func=downloadFile&recordOId=1458608&f ileOId=1647042

Lundqvist Tobias och Nilsson Magnus. Examensarbete (30 högskolepoäng) Strategier för digital bevaring och långtidslagring – en studie i kontroll av ettor och nollor i arkivvetenskap för masterexamen inom

ABM-masterprogrammet vid Lunds universitet.

http://lup.lub.lu.se/luur/download?func=downloadFile&recordOId=1614234&f ileOId=1626859

Pugh Joseph Jonathan Information journeys in digital archives EngD University of York Computer Science September 2017.

http://etheses.whiterose.ac.uk/20663/1/Proofed%20Corrected%20thesis.pdf Sandström Moa. C-uppsats “Digitalt långtidsbevarande - Hanteringen och en lägesbeskrivning av utvecklingen” Arkiv- och informationsvetenskap,

Mittuniversitetet.

http://miun.diva-portal.org/smash/get/diva2:1274790/FULLTEXT01.pdf Vilenius Miika C-uppsats, ”Bevarande av spatiala data inom Sveriges kommuner”, Arkiv- och informationsvetenskap, Mittuniversitetet.

http://miun.diva-portal.org/smash/get/diva2:1222415/FULLTEXT01.pdf

Rapport

Hämtat VT 2019

Catharina Grönqvist KAM2018 – Kunskapssystem i Arkivmiljö Möjligheter rörande artificiell intelligens inom Riksarkivet, 2018-11-30

https://riksarkivet.se/Media/pdf-filer/kunskapssystem-i-arkivmiljo_2018.pdf Ann Hägerfors, professor data- och systemvetenskap, Luleå tekniska

universitet, Digitalt bevarande – en tillväxtmotor i vardande.

http://www.divaportal.se/smash/get/diva2:1012754/FULLTEXT01.pdf

Tidskrift

Hämtat VT 2019

Hofman Hans, The use of models and modelling in record keeping research and development. Chapter 21.s.632. Research in the Archival Multiverse.

Monash University Publishing, Clayton, Victoria, Australia. 2016.

Gilliland Anne J. Designing expert systems for archival evaluation and processing of computer- mediated communications frameworks and methods.

Chap 23. s. 687. Research in the Archival Multiverse. Monash University Publishing, Clayton, Victoria, Australia. 2016.

Brown Sarah Artificial intelligence and eDiscovery: beyond predictive coding mars 01, 2018 at 10:48 fm Legal Week Powered by law.com.

https://www.law.com/legal-week/2018/03/01/artificial-intelligence-and-ediscovery-beyond-predictive-coding/

ARKIV en tidskrift om arkivets alla aspekter 1/2019. Svensk Arkivtidskrift.

Tryckeri Hylte tryck.

Lotsson Anders Skaffa bevis med edition? Computersweden.idg.se 2008-10-17 06:22. https://computersweden.idg.se/2.2683/1.186172/skaffa-bevis-med-edition

Universitet

Hämtat VT 2019

EDRM, Duke Law School

Brown Julie EDRM Production Standards, Version 2 Updated April 25, 2014 https://www.edrm.net/frameworks-and-standards/edrm-model/edrm-stages-standards/edrm-production-standards-version-2/

EDRM The E-Discovery Maturity Model

https://www.edrm.net/papers/the-e-discovery-maturity-model/

EDRM ramverk och standards http://www.edrm.net/frameworks-and-standards/edrm-model/

EDRM -diagrammet utgör en konceptuell bild av e-discovery-processen

EDRM Production Standards, Version 1 Updated February 10, 2011 https://www.edrm.net/frameworks-and-standards/edrm-model/edrm-stages-standards/edrm-production-standards-version-1/

EDRM Production Guide Updated November 4, 2010

https://www.edrm.net/frameworks-and-standards/edrm-model/production/

EDRM The IGRM Model https://www.edrm.net/papers/igrm-it-viewpoint/

IT-forensik och informationssäkerhet Högskolan i Halmstad Intervju https://www.hh.se

Louise Wandel ht 2019.

https://www.hh.se/utbildning/program/it-forensik-och-informationssakerhet.html

Mittuniversitetet

MID SWEDEN UNIVERSITY E-discovery vad är det?15 januari 2013.

https://www.miun.se Åbo Akademi

Eklund Gunilla Professor II /Adjunct professor, OsloMet 2016 Hermeneutik, Westlund, I. (2009). Hermeneutik. I A. Fejes & R. Thornberg (Red.), Handbok i kvalitativ analys (s. 62–80). Stockholm: Liber.

https://www.vasa.abo.fi/users/geklund/

Litteratur Hämtat VT 2019

Brown Adrian Practical digital preservation a how-to guide for organizations of any size. Print ISBN 9783642168093. Publishing: London: Facet Publishing, c 2013.

Exterro E-Discovery and Legal Software the BASICS of E-DISCOVERY 2ND EDITION, hämtad 2019.

https://www.exterro.com/basics-of-e-discovery/

Giaretta David Advanced Digital Preservation Print ISBN 978-3-642-16808-6 Online ISBN 978-3-642-16809-3. Publishing: Berlin, Heidelberg: Spring

In document eDiscovery-samverkan för digitalt bevarande (Page 50-72)