Nyttiggörande avmaskininlärningsmodeller i verksamheten: Ökad metadatakvalitet med stöd från maskininlärning

(1)

i Uppsala universitet

Inst. för informatik och media

Nyttiggörande av

maskininlärningsmodeller i verksamheten Utilization of

machine learning models in the business

Ökad metadatakvalitet med stöd från maskininlärning

Emil Engblom

Kurs: Examensarbete

Nivå: C

Termin: HT-20 Datum: 2021-01-24

Handledare: Jonas Sjöström

(2)

Sammanfattning:

Fotografier, dokument och andra digitaliserade data från kulturarvet samlas ihop i gemensamma databaser för att göras tillgängliga för allmänheten. Dessa databaser kallas aggregatorer. De data som samlats ihop har ofta olika syfte och format då de är skapade för att passa en enskild institutions syfte. Metadata är data som beskriver annan data och används för att effektivisera sökandet bland de lagrade föremålen i aggregatorer. Om metadata följer den standard som bestämts blir sökningarna snabba och effektiva. Det är dock ett vanligt problem att aggregatorers metadata är av bristande kvalitet. Om metadata är av bristande kvalitet blir detta sökande svårt, tidskrävande och kan ge felaktiga sökresultat. I vissa fall kan data bli förlorad bland stora datasamlingar om metadatan är felaktig eller saknas helt. Kunskapen kring och resurserna för digitalisering hos exempelvis ett museum är inte alltid så stor och fel kan uppstå i lagrade metadata. Under ett projekt år 2019 skapades en

maskininlärningsmodellmodell med syfte att med maskininlärning identifiera felaktiga metadata i Riksantikvarieämbetets aggregator K-samsök. I denna forskning har modellens förmåga att identifiera felaktiga metadata utvärderats. Med hjälp av denna utvärdering besvaras den forskningsfråga som ställs i denna forskning som lyder Hur kan god

metadatakvalitet upprätthållas i en verksamhet med stöd från en maskininlärningsmodell?

Denna forskning ger bidrag till akademin genom att upplysa akademin om att det kvarstår ett problem med att kvaliteten på metadata i aggregatorer är av bristande kvalitet. Forskningen ger även förslag på lösningar kring problemet vilket i sin tur kan ge upphov till vidare

forskning. Dessa lösningsförslag är även av värde för Riksantikvarieämbetet eftersom studien har bedrivits med fokus hos deras aggregator K-samsök. Maskininlärningsmodellerna kan även vidare utvecklas och implementeras hos myndigheten vilket innebär att modellerna kan ge värde i form av en grund att utgå ifrån vid förbättringen av kvaliteten hos den metadata som lagras i K-samsök.

Nyckelord:

Artificiell intelligens, maskininlärning, kulturarv, metadata, aggregator och metadatakvalitet.

(3)

Abstract:

Photographs, documents and other types of digitised data from the cultural heritage are collected in central databases to be made available to the public. These databases are known as aggregators. The aggregated data often have different purpose and formats, since they are created to suit the purpose of an individual institution. Metadata is data describing other data and is used to streamline the search through the different stored object within the aggregators.

If all the stored metadata uses the same decided standard the search among the objects is quick and efficient. It is a common problem within aggregators that the stored metadata is of a lacking quality. When the quality of the metadata is lacking the search among the objects within the aggregator is slow, difficult and timeconsuming. The search may even give faulty results. In some cases data can go lost within large collections of data if the metadata is incorrect or missing. The knowledge about digitalisation and the resources to perform it, are often lacking in eg. a museum. This can sometimes lead to errors in the metadata. In 2019 a modell within machinelearning was developed during a project with the purpose to identify errors in the metadata of the swedish cultural heritage board’s aggregator K-samsök. In this study the modells ability to identify errors been evaluated. This evaluation was used to answer the following question: How can good quality of metadata be maintained whithin a organisation with support from a modell whithin machinelearning? This research contributes to the academy by informing the academy that there is still a problem that the quality of metadata in aggregators is of lacking quality. The research also provides suggestions for solutions to the problem, which in turn can give rise to further research. These solution suggestions are also of value to the Swedish National Heritage Board, as the study has been conducted with a focus on their aggregator K-samsök. The machine learning models can also be further developed and implemented by the Swedish National Heritage Board, which means that the models can provide value in the form of a basis to start from when improving the quality of the metadata stored in K-samsök.

Keywords:

Artificiell intelligence, machine learning, cultural heritage, metadata, aggregator and metadata quality.

(4)

Innehållsförteckning

1. Inledning ... 1

1.1. Bakgrund ... 1

1.2. Problembeskrivning/kunskapsbehov ... 2

1.3. Forskningsfråga ... 3

1.4. Avgränsning... 3

1.5. Kunskapsintressenter ... 3

1.6. Disposition ... 3

2. Utökad bakgrund ... 4

2.1. Det digitala kulturarvet ... 4

2.2. Metadatakvalite ... 5

2.3. Metadatakvalite inom kulturarv... 5

2.4. Maskininlärning och AI ... 6

2.5. Maskininlärning och AI inom kulturarv ... 8

2.6. Tidigare forskning ... 8

2.7. Tidigare utvärdering ... 10

3. Metod ... 10

3.1. Genomförande – teoretisk utvärdering ... 15

3.2. Genomförande - teknisk utvärdering ... 16

3.3. Forskningsetisk diskussion ... 16

4. Beskrivning av maskininlärningsmodellerna ... 17

5. Resultat och Analys ... 22

5.1. Teknisk utvärdering ... 22

5.2. Utvärdering av användbarhet ... 24

6. Diskussion ... 26

6.1. Förslag till fortsatt arbete ... 29

7. Slutsatser ... 29

8. Referenser ... 31

9. Bilaga 1 - Informationskvalitetens olika dimensioner ... 35

10. Bilaga 2 – Intervju-guide ... 39

11. Bilaga 3 – Preliminär-Intervju-guide ... 40

Figur 1 Svartvit katt ... 18

Figur 2 Convolutional neural network ... 19

Figur 3 55 Matris Figur 4 33 Matris ... 19

Figur 5 Konvolution beräkning Figur 6 Konvolution steg 1 ... 19

(5)

Figur 8 Rectified map ... 20

Figur 9 Max pooling ... 21

Figur 10 Klocka med rörig bakgrund ... 23

Tabell 1 Maskininlärningsmodeller ... 10

1. Inledning

I detta kapitel ges en inblick i det problem som avses ge lösningsförslag på och ger den bakgrundskunskap som behövs för att förstå problemet.

1.1. Bakgrund

För att kunna bevaras för framtida generationer digitaliseras vårt kulturarv i allt större utsträckning. Det digitala kulturarvet kan enkelt göras tillgängligt för allmänheten, forskning och näringslivet. Olika samlingar kan visas upp genom digitala utställningar på museer, appar, spel och webbsidor. En viktig del vid digitalisering är att förse objekten med metadata.

Metadata är data som beskriver annan data (Digisam u.d). Det är vanligt att flera olika institutioners digitala samlingar samlas till en central databas (aggregator). Insamlandet av data sker ofta automatiskt.

Då kulturarvet digitaliseras allt mer och mer ökas antalet kulturhistoriska föremål som ska lagras på digitala lagringsplatser. Detta medför problem som inte tidigare fanns. Att behöva leta bland miljarder föremål för att hitta vad som söks är ett problem då det blir en ineffektiv och tidskrävande process. Genom att använda strukturerade metadata innehållande

information om kulturarv kan strukturerade sökningar användas för att motarbeta detta problem. (Ramesh et al. 2015)

Riksantikvarieämbetet (RAÄ) är en myndighet som arbetar inom kulturarv. Myndigheten bidrar med olika typer av insatser för kulturarvet, exempelvis att bygga och förmedla kunskap, översyn, myndighetsarbete och metodutveckling inom kulturmiljövård,

konservering och utställningsmediet. RAÄ förlitar sig till stor del på sitt samarbete med andra myndigheter som olika museer, Svenska kyrkan, Sveriges kommuner och landsting. Att tillgängliggöra kulturarvet är en av RAÄ:s viktigaste uppgifter (Riksantikvarieämbetet, 2017).

K-samsök är en aggregator som samlar in uppgifter från 69 olika museer och

minnesinstitutioner. Uppgifterna om de olika föremålen som finns i institutionernas samlingar i en gemensam databas (Riksantikvarieämbetet. 2020). RAÄ tillgängliggör sedan

informationen i databasen till allmänheten genom en sökmotor på internet. Databasen innehåller över 3.8 miljoner objekt som har fotografier kopplade till sig. Objekten

klassificeras som olika typer beroende på vad det är. Exempel på klassificeringar är fotografi eller föremål. Dessutom tillkommer metadata som beskriver det aktuella föremålet, vilket kan vara namn på fotograf, fotograferingsdatum, fyndplats med mera. Enligt en visualisering av innehållet på k-samsök (Riksantikvarieämbetet u.d) syns det över 3000 fotografier från tiden 100 f.kr till 1825 trots att det äldsta bevarade fotografiet togs 1826 (Philips 2016).

År 2019 gjordes ett projekt på RAÄ. Under detta projekt undersöktes möjligheterna att

identifiera felaktiga metadata i form av fel klassificerade objekt i Riksantikvarieämbetets

(6)

databas K-samsök. Detta gjordes med hjälp av att skapa en modell inom maskininlärning.

(Persson och Gullin 2019).

För att kunna säkerställa god användbarhet av ett system där sökningar görs mot metadata krävs att denna metadata är korrekt. Ofta används olika standarder för vilka fält som ska finnas med och vilka som är obligatoriska. Standardiserade och korrekt angivna metadata kan snabbt hittas och användas. Ett objekt med felaktiga metadata kan bli helt osynligt i en samling (Barton, Currier och Hey 2003).

Det är vanligt att personer som arbetar med skapandet av metadata saknar kunskap om hur denna metadata ska skrivas. Eftersom dessa personer inte har blivit lärda hur metadata ska skrivas orsakar detta problem då denna data ibland inte matchar den standard som metadatan bör ha. Detta i kombination med att olika organisationers metadata ser olika ut orsakar en del problem vid hämtningen av information (Ramesh et al. 2015). För att motverka detta problem menar Ramesh et al. (2015) att riktlinjerna för hur metadata ska se ut och de verktyg som bör finnas tillgängliga för att hjälpa personer att skriva korrekt metadata bör finnas synligt och vara tydliga kring vem, hur och när metadata ska skrivas.

1.2. Problembeskrivning/kunskapsbehov

Ramesh et al. (2015) menar att det är ett vanligt problem att aggregatorers metadata är av bristande kvalitet. Metadata används för att effektivisera sökandet i digitala arkiv, om metadatan följer den standard som bestämts blir sökningarna snabba och effektiva. Om metadata är av bristande kvalitet blir detta sökande svårt, tidskrävande och kan ge felaktiga sökresultat. I vissa fall kan data även bli förlorad bland stora datasamlingar om metadatan är felaktig eller saknas helt (Ramesh et al. 2015).

I Europa finns en aggregator för kulturarv som heter Europeana. Där samlas objekt från hela Europa och databasen innehåller över 58 miljoner objekt från ca 4000 institutioner (Europeana. 2020). Garcia et al. (2017) påstår att det finns problem med att den metadata som finns i Europeana är av bristande kvalitet. Detta medför att sökningarna bland deras data är onödigt långsam och ineffektiv.

Att kvaliteten på metadata i aggregatorer är av bristande kvalitet är ett vanligt problem som orsakar stor skada. År 2019 utförde ett projekt på

Riksantikvarieämbetet där maskininlärning användes. Under denna tid upptäcktes ytterligare potential till att utnyttja AI inom myndigheten. Framförallt för att hantera problemet med deras bristande metadatakvalitet. Även myndigheten hade insett detta.

Problemet var dock att de inte hade tid, personal eller kunskap tillgänglig för att ta tag i problemet. Eftersom RAÄ hade ett tydligt intresse kring AI men saknade kunskap togs beslutet att utföra en fortsatt studie på ett av de projekt som gjorts tidigare.

Denna uppsats behandlar problemet med lagrandet av metadata av bristande kvalitet, främst

hos RAÄ. Det resultat som tas fram i denna uppsats kan användas som inspiration till

lösningsförslag på problemet hos andra myndigheter eller organisationer.

(7)

1.3. Forskningsfråga

Syftet med denna forskning är att ta reda på hur god metadatakvalitet upprätthållas i en verksamhet med stöd från en maskininlärningsmodell. Detta eftersom det är ett vanligt problem som orsakar stor skada att kvaliteten på metadata i aggregatorer är av bristande kvalitet. Från detta planeras preskriptiv kunskap att utvecklas kring hur bland annat

Riksantikvarieämbetet kan gå till väga för att lösa detta problem, samt upplysa akademin om problemet. Kunskapen ger ett bidrag till RAÄ i Visby men även till forskningsvärlden då denna studie tar upp problem inom behandlingen av metadata. Vilket är ett område med många förbättringsmöjligheter (Gaspard et al. 2015).

Den forskningsfråga som besvaras är:

Hur kan god metadatakvalitet upprätthållas i en verksamhet med stöd från en maskininlärningsmodell?

1.4. Avgränsning

Detta arbete avgränsas till att främst studera de maskininlärningsmodeller som skapades under ett projekt år 2019 på Riksantikvarieämbetet. Fokus ligger även hos

Riksantikvarieämbetets ände av k-samsök. Denna avgränsning har gjorts eftersom denna studie bedrivs av endast en författare under en relativt kort tid. Studerandet av alla

institutioner som är i kontakt med k-samsök vore för omfattande. Arbetet avgränsas även till att enbart studera k-samsök som aggregator.

Detta arbete begränsas från att gå in på djupet i aggregatorer och hur de fungerar. Detta då endast grundläggande kunskap krävs för att förstå hur metadata fungerar och vilken påverkan metadata har i en aggregator. Arbetet avgränsas även från att gå in på djupet i

maskininlärning, maskininlärningsmodellerna och dess skapande som skedde år 2019. Detta då endast grundläggande kunskap inom maskininlärning krävs för att förstå utvärderingen av dessa modeller.

1.5. Kunskapsintressenter

Denna studie väntas ge kunskapsbidrag inom både akademin och praktiken. Det akademiska kunskapsbidraget är den kunskap som framställs kring behandlingen av bristande metadata kvalitet, samt hur maskininlärning kan användas för att ge stöt i hur kvalitet på metadata kan förbättras inom en aggregator för kulturarv. Det praktiska kunskapsbidraget ges till RAÄ då denna studie ger myndigheten kunskap kring maskininlärning kan stödja dem kring problemet med den bristande kvaliteten på metadatan i k-samsök.

1.6. Disposition

Denna uppsats disponeras i följande kapitel:

Inledning - Under detta kapitel beskrivs bakgrunden till studien, dess syfte, avgränsningar och resultat.

Utökad bakgrund - Detta kapitel sätter scenen för uppsatsen genom att introducera uppsatsens

område.

(8)

Metod - Detta kapitel förklarar tillvägagångssättet i studien.

Resultat - Detta kapitel presenterar studiens resultat.

Diskussion och slutsatser - Under detta kapitel diskuteras resultatet och tillvägagångsättet.

Slutsatser - Detta kapitel presenterar det slutgiltiga bidraget av studien.

2. Utökad bakgrund

Artificiell intelligens (AI) har gjort stora framsteg inom många områden som exempelvis inom kulturarv. En AI kan arbeta snabbare, noggrannare och mer konsekvent än vad en människa kan. Dessutom kan en AI arbeta dygnet runt för att ytterligare maximera sina prestationer (Grams et al. 1997).

AI är ett samlingsnamn på konceptet att en maskin eller dator kan utföra uppgifter som människor skulle anse smarta. Maskininlärning är en typ av AI där en användare ger datorn åtkomst till utvald information för att sedan låta datorn lära sig denna information (Grams et al. 1997).

2.1. Det digitala kulturarvet

Kulturarvet är tidigare generationers materiella och immateriella kvarlevor exempelvis

lämningar, föremål eller en miljö som påverkats av människan (Riksantikvarieämbetet, 2017).

Digitaliseringen av kulturarvet innebär att fotografier och information om kulturarvet görs tillgängligt via datorer, bland annat på internet. Digitaliseringen har pågått sedan 1970-talet och är fortfarande i full gång (Terras, 2015). Digitaliseringen av kulturarvet görs generellt genom att ta ett foto av historiska föremål och sedan lagra detta foto tillsammans med information om föremålet på fotot i ett digitalt arkiv (Gaspard et al. 2015).

Idag strävar de flesta organisationer till att kunna ge åtkomst till kulturarvet via internet, det är dock en lång bit kvar innan hela kulturarvet är digitaliserat. År 2018 var endast ungefär tio procent av Europas totala kulturarv digitaliserat. Av dom tio procenten var endast en tredjedel tillgängligt via internet, Europeana har som mål att hela Europas kulturarv ska digitaliseras (Verwayen. 2018). Denna digitalisering hjälper även till med bevaringen av dessa föremål.

Många kulturhistoriska föremål är ömtåliga såsom målningar eller konstverk. Dessa

oersättliga föremål brukar bevaras i samlingar på museum eller i olika fysiska arkiv. För att få åtkomst till dessa föremål i fysisk form innebär en risk att skada föremålen. Tack vare

digitaliseringen kan dessa föremål beskådas riskfritt (Esposito et al. 2004). Den fysiska

formen av kulturarv är även ofta endast åtkomlig för behörig personal vilket innebär att endast utvalda personer får åtkomst till detta kulturarv. Genom digitalisering får både privatpersoner och arbetare inom kulturarv, tillgång till miljarder historiska föremål som tidigare endast fanns tillgängliga i fysisk form. För att nå dessa föremål på ett användarvänligt sätt används metadata som beskriver de digitala föremålen. Metadatan används då som sökord för att hitta dessa digitala föremål (Gaspard et al. 2015).

Digitaliseringen av kulturarvet medför inte bara fördelar utan även problem. Digitaliseringen

av kulturarvet pågår i en mycket hög hastighet vilket gör det svårt att hålla reda på alla

digitaliserade föremål. Detta eftersom metadatan som hör till de digitaliserade föremålen inte

(9)

gemensamt bestämd metadata beskrivning. Om denna metadata är felaktig eller saknas blir det svårt att söka efter dessa föremål vilket kan leda till att data kan gå förlorad i stora datamängder (Gaspard et al. 2015).

2.2. Metadatakvalite

För att kunna säkerställa god användbarhet av ett system där sökningar görs mot metadata krävs att denna metadata är korrekt. Denna data som beskrivs kan exempelvis innehålla information om en fornlämning och hur denna fornlämning ser ut. Vid skrivandet av metadata används ofta olika standarder för vilka fält som ska finnas med och vilka som är

obligatoriska. Standardiserade och korrekt angivna metadata kan snabbt hittas och användas (Barton, Currier och Hey 2003).

Flera olika ramverk har upprättats för att utvärdera metadatakvaliteten i ett system. Bruce och Hillman (2004) har byggt vidare på tidigare ramverk och delat in bedömningen av

metadatakvalitet i sju olika kategorier. Deras studie behandlar stora mängder empiriska data som gör deras ramverk välgrundat i praktiken. Stvilia, Gasser, Twidale & Smith (2007) menar dock att ramverket från Bruce och Hillman (2004) är för specifikt riktat mot vissa kontexter och inte tillräckligt generaliserbart. Stvilia et al (2007) har istället skapat ett ramverk med 22 olika kvalitetsegenskaper indelade i tre olika områden se Bilaga 1 - Informationskvalitetens olika dimensioner. De har utvärderat ramverket med två olika fallstudier varav en är en aggregator för kulturarv. I dessa fallstudier lyckades de applicera ramverket i båda fallen.

Vilket innebär att ramverket fungerar som tänkt. De kom även fram till att deras ramverk kan användas som en guide vid utveckling av modeller och metoder inom informations kvalité.

I denna forskning används kvalitetsegenskaperna från Stvilia et al (2007) till att utvärdera de maskininlärningsmodeller som skapats år 2019. Detta på grund av deras generaliserbarhet. I ramverket delas informationskvalitet in i tre olika huvudområden med ett antal olika

underområden. Huvudområdena är:

• Intrisic IQ: beskriver information som ofta är objektivt mätbart oberoende av kontext.

Exempelvis stavning eller informationens struktur (HTML validering) (Stvilia et al 2007).

• Relational or contextual IQ: informationen ses i sitt sammanhang och hur väl den beskriver ett dataobjekt eller att länkar mellan information är korrekta (Stvilia et al 2007).

• Reputational IQ: handlar om datasamlingens sammansättning och hur data har samlats in och sammanställts (Stvilia et al 2007).

2.3. Metadatakvalite inom kulturarv

Då kulturarvet digitaliseras allt mer och mer ökas antalet kulturhistoriska föremål som ska lagras på digitala lagringsplatser. Detta medför problem som inte tidigare fanns. Att behöva leta bland miljarder föremål för att hitta vad som söks är ett problem då det blir en ineffektiv och tidskrävande process. Genom att använda strukturerade metadata innehållande

information om dessa föremål kan strukturerade sökningar användas för att motarbeta detta

problem. Tyvärr medför även detta problem i informationssökandet. Det finns många olika

organisationer som behandlar metadata inom kulturarv. Dessa organisationer har olika behov

(10)

och syfte med metadata. Vilket leder till att olika organisationer har olika standarder på hur de strukturerar metadata. Vilket leder till ett problem där metadata ser olika ut beroende på vilken organisation som skrivit den. Detta problem skulle dock kunna lösas genom att implementera en standard för metadata som används till all metadata världen över. För att göra det krävs det dock att alla som hanterar metadata i världen kommer överens om en standard som alla ska använda. (Ramesh et al. 2015)

Det är även vanligt att personer som arbetar med skapandet av metadata saknar kunskap om hur denna metadata ska skrivas. Eftersom dessa personer inte har blivit lärda hur metadata ska skrivas orsakar detta problem då denna data ibland inte matchar den standard som metadatan bör ha. Detta i kombination med att olika organisationers metadata ser olika ut orsakar en del problem vid hämtningen av information (Ramesh et al. 2015). För att motverka detta problem menar Ramesh et al. (2015) att riktlinjerna för hur metadatan ska skrivas ut och de verktyg som finns tillgängliga för att hjälpa personer att skriva korrekt metadata bör finnas synligt och vara tydliga om vem, hur och när metadata ska skrivas.

Aggregatorn Europeana samlar data från många olika institutioner för att möjliggöra detta samlas all data på externa lagringsplatser. Denna data registreras, sorteras och kategoriseras för att sedan kunna bli tillgänglig via databasens sökfunktioner (Garcia et al. 2017).

Denna process är dock inte helt felfri. Vid kategoriseringen av datan ges även metadata som beskriver datan. Denna metadata är dock begränsad både storleksmässigt och hur den skrivs.

Metadata är en generell beskrivning av utvalda data. Eftersom Europeana lagrar så stora mängder data blir dessa generella beskrivningar väldigt lika varandra. Detta medför att sökningars resultat varierar och saknar precision (Garcia et al. 2017).

Garcia et al. (2017) menar att kvaliteten på Europeanas metadata gör sökningarna bland deras data onödigt långsam och ineffektiv.

2.4. Maskininlärning och AI

AI är en typ av simulation av mänsklig intelligens i en dator. Det vill säga att mjukvara kan analysera data och utföra uppgifter. Det måste dock även ske ett lärande samtidigt som uppgifterna utförs. Tack vare detta lärande kan AI anpassa sig till problem och lösa dem utan en människas övervakning (Grams et al. 1997).

AI brukar generellt delas in i två olika kategorier, stark och svag. Dessa kategorier är baserade på hur stor inblandning en människa måste ha i problemlösandet. En stark AI strävar efter att ha så lite mänsklig inblandning som möjligt. En svag AI är menad att bli övervakad av människor (Grams et al. 1997). Ett exempel på svag AI är de maskininlärningsmodeller som utvärderas i denna forskning. Ett annat vanligt exempel är Facebooks nyhetsflöde som är helt beroende på användarnas inputs för att kunna beräkna vilka rekommendationer som ska ges tillbaka till respektive användare.

Denna separation mellan svag och stark AI är viktig att ha i åtanke vid utvärderingen av en AI

då dessa typer av AI inte kan utvärderas på samma sätt. Eftersom en stark AI strävar efter så

lite mänsklig inblandning som möjligt är det ofta svårt att förstå hur denna AI gör sina

beräkningar. En svag AI är lättare att utvärdera då den är skapad för att ha mänsklig

inblandning och ger därför mer förutsägbara resultat. Exempelvis den svaga AI som ger

(11)

användare. Dessa aktiviteter behandlas för att sedan ge en beräknad rekommendation på exempelvis ett varumärke som denna användare kan tycka vara intressant. Denna svaga AI blir lättare att utvärdera eftersom både input och output kan manipuleras för att förstå vilka beräkningar som denna AI gör (Braga & Logan, 2017).

En stark AI hämtar ofta en input själv genom exempelvis en observation. Detta eftersom denna typ av AI strävar efter så lite mänsklig inblandning som möjligt. Detta innebär att det blir svårare att manipulera input och output hos en stark AI än hos en svag AI (Braga &

Logan, 2017).

Maskininlärning Innebär skapandet av datorprogram som har en förmåga att lära. Detta kan gå till genom att ge en mjukvara en bestämd mängd data att träna på. Denna data kallas träningsdata och kan bestå av exempelvis en samling fotografier. När mjukvaran tränar på bilderna så “loopar” den igenom samlingen fotografier och tittar på varje individuellt foto för att leta efter mönster som fotografierna har gemensamt. Varje varv eller loop genom

samlingen kallas för epok. Efter ett antal epoker testar mjukvaran sina nya inlärda kunskaper på en mindre samling fotografier som kallas testdata. Testdatan består ofta av en liten portion av träningsdatan. Skillnaden mellan träningsdata och testdata är att mjukvaran aldrig tidigare sett testdata (Grams et al. 1997).

Om mjukvaran körs för många epoker finns det risk för överinlärning. Detta innebär att mjukvaran har lärt sig träningsdatan utantill. Detta är en fallgrop som kräver ett vaksamt öga.

Vid träningen av mjukvaran ges två värden på hur väl träningen går. Dessa värden kallas för precision och loss. Vanligtvis växer precisionen efter varje epok eftersom mjukvaran lär sig mer och mer. Det är dock viktigt att även testa mjukvaran på testdata efter varje epok. Detta eftersom vid körning mot testdata stiger modellens precision de första epokerna men sedan sjunker precisionen när mjukvaran blir överinlärd (Jabbar, H, K och Khan, R, Z. 2015).

Om för få epoker körs riskerar mjukvaran att vara underinlärd vilket innebär att den inte har lärt sig tillräckligt för att prestera optimalt. Det är därför mycket viktigt att vara vaksam över både träningsdata och testdata vid utvärdering av en maskininlärningsmodell. För att

underlätta denna vaksamhet finns värdet loss. Loss är ett värde på hur långt från det faktiska värdet i träningsdatan som mjukvarans svar befinner sig. Exempelvis om ett fotografi på en svan som sitter i en båt visas för mjukvaran och mjukvaran påstår att det finns en båt på bilden var detta svar nästan korrekt. Om svaret är nästan korrekt är värdet loss lågt. Vid körning av för många epoker stiger precisionen mer och mer eftersom mjukvaran lär sig fotografierna utantill. Detta gör det svårt att bedöma ifall mjukvaran presterar bra eller är överinlärd. Genom att studera mjukvarans loss blir denna bedömning lättare eftersom loss stiger när mjukvaran lär sig men sjunker när mjukvaran börjar bli överinlärd. Detta eftersom en överinlärd mjukvara ger generaliserade svar som maskininlärningsprogrammet tolkar på ett sätt som ger en högre precision (Jabbar, H, K och Khan, R, Z. 2015).

Precision är ett procentuellt värde på hur stor sannolikhet programmet har att göra rätt.

Exempelvis om programmet har 95% precision är programmets sannolikhet att göra rätt 95%.

Precision kan beräknas på olika sätt. Ett sätt att beräkna programmets precision är att dela upp programmets träningsdata i två olika delar. En del som består av cirka två tredjedelar av träningsdatan och används för träning av modellen. Den andra delen används som testdata.

Exempelvis vid klassificering av fotografier där denna testdata består av 100 fotografier kan programmet försöka klassificera dessa fotografier. Om programmet klassificerade 95

fotografier av 100 rätt innebär detta att programmets precision är 95%. Eftersom programmets

(12)

precision är väldigt enkelt att läsa av och jämföra är det ett utmärkt värde att utvärdera (Kotsiantis, S, B. 2007).

2.5. Maskininlärning och AI inom kulturarv

Under 1900 talet reste arkeologer runt i världen för att manuellt leta efter arkeologiska platser.

Under 2000 talet har denna process digitaliserats mer och mer. ett exempel på denna digitalisering är användningen av maskininlärning. Exempelvis genom att skapa en modell inom maskininlärning som kan lära sig identifiera specifika mönster på satellitbilder kan identifieringen av arkeologiska platser ske automatiskt med hjälp av en dator. Sådana mönster kan exempelvis vara markens densitet och kemiska uppbyggnad. Dessa variabler kan

påverkas av människans aktivitet. Eftersom människor har en tendens att bygga hus med nittiograders vinklade hörn lämnar dessa ett väldigt distinkt mönster i marken då nittiograders vinklar sällan förekommer naturligt. Därför kan även detta vara ett mönster som programmet hittar (Nilsson. 2016).

När en arkeologisk plats upptäcks måste en hög grad av försiktighet användas då arkeologiska föremål kan vara ömtåliga och oersättliga. På grund av detta är dessa platser enbart åtkomliga för behöriga personer. Med hjälp av maskininlärning har Bowerman et al. (2017) utvecklat ett typ av arkiv innehållande fotografier på de arkeologiska platserna och fotografier på vilka fynd som hittats där. Syftet med detta arkiv är att även obehöriga ska kunna ta del av dessa arkeologiska fynd. Samtidigt som de kan hjälpa till att bevara platserna då färre personer behöver vistas på platserna och fysiskt komma åt de ömtåliga föremålen (Bowerman et al.

2017).

När dessa arkiv växer ökas antalet kulturhistoriska föremål som ska lagras. På grund av denna ökning av antalet kulturhistoriska föremål som ska lagras på digitala lagringsplatser uppstår problem som inte tidigare fanns. Att behöva leta bland miljarder föremål för att hitta vad som söks är ett problem då det blir en ineffektiv och tidskrävande process (Ramesh et al. 2015).

2.6. Tidigare forskning

Li et al. (2009) har skapat en maskininlärningsmodell vars syfte är att kategorisera fotografier från webbaserade tjänster som Facebook och Flickr. Denna modell använder sig av support vector machine (SVM) vilket är en typ av maskininlärningsteknik. Li et al. (2009) menar att det finns både möjligheter och utmaningar med webbaserade bildsamlingar, speciellt inom objektigenkänning. Skapandet av ett foto och objekt-klassificerare är begränsat av de dataset som finns tillgängliga på internet. Dessa dataset innehåller inte tillräckligt många fotografier för att ge klassificeraren nog med träningsdata.

Li et al. (2009) har använt sig av ett dataset som innehåller över 30 miljoner fotografier varav omkring två miljoner av dessa har en beskrivning som hör till fotografiet. Denna beskrivning innehåller information om platsen där fotografiet togs. Även den metadata som användare från Flickr har skrivit används i forskningen.

Li et al. (2009) utförde en del experiment på detta dataset där de delade upp datasetet i

träningsdata åt modellen. Dessa träningsdata delades upp på olika vis. Exempelvis genom att

låta modellen träna på endast fotografier eller en kombination av fotografier och metadata.

(13)

I dessa experiment kom de fram till att artefakten presterade bra med all typ av träningsdata men det bästa resultatet gavs då metadata och fotografier kombinerades. Genom att låta modellen träna på enbart fotografier nådde den en precision på omkring 79% kontra 85% då den även fick träna på metadata.

Li et al. (2009) vill med detta betona hur kraftfulla stora dataset med korrekt metadata är. De menar att modellen som skapades presterade på en nivå som var jämförbar med en människa som utför samma uppgift. De vidare diskuterar att de metadata som fanns tillgängliga kan även förbättras och ge ytterligare bättre resultat.

Vid mätningen av arkitektoniska tillgångar tas mängder av fotografier i syftet att dokumentera dessa kulturarv digitalt. Dessa fotografier måste sedan klassificeras och sorteras. Detta

eftersom de digitala arkiven är stora och består av mängder olika fotografier. För att hitta ett specifikt foto krävs ordning och struktur. Llamas et al. (2017) menar på att denna process är tråkig och tidskrävande vilket kan leda till misstag. Llamas et al. (2017) har därför skapat två maskininlärningsmodeller som använder sig av maskininlärning för att utföra detta arbete. En modell kallas ResNet och den andra modellen kallas Inception-ResNet-v2. Dessa modeller tränades på ett datasett innehållande mer än 10 000 fotografier. ResNet nådde en precision på 94% och Inception-ResNet-v2 nådde en precision på 95%.

Även Kambau et al. (2018) har skapat en maskininlärningsmodell inom kulturarv. Denna modells syfte är klassificera fotografer på indonesiskt kulturarv. I denna forskning används ett dataset med endast 100 bilder. Denna modell nådde en precision på 92%.

Vid klassificering av fotografier finns ett problem där både maskininlärningsprogram och människor har svårt att känna igen stora monument på fotografier. Detta då exempelvis endast delar av monumentet finns med på fotot på grund av dess storlek. Amato et al. (2015) har skapat en modell inom maskininlärning vars uppgift är att klassificera fotografier på sådana monument. Denna modell tränas med hjälp av ett datasett innehållande 1227 bilder på 12 olika kulturella monument. På detta datasett nådda modellen en precision på 92%.

I Tabell 1 Maskininlärningsmodeller nedan visas en sammanställning av ett antal

maskininlärningsmodeller inom kulturarv tillsammans med den modell som skapades år 2019

som även utvärderas i denna forskning. Denna tabell visar tydligt hur hög precision de olika

modellerna når och hur många fotografier de har i sina datasett. Detta är intressant då det ger

en överskådlig blick över hur hög precision en modell inom kulturarv kan ha och fortfarande

vara av värde. Li et al. (2009) betonar hur kraftfulla stora dataset är. Inom kulturarv kan det

vara svårt att samla nog många fotografier till ett datasett. Exempelvis det datasett som Amato

et al. (2015) använder i deras forskning innehåller endast 1227 fotografier. Detta då det finns

ett begränsat antal monument. Detta är ett problem då ett datasett inte kan innehålla miljoner

fotografier på ett och samma monument. Detta skulle innebära att många av bilderna skulle

vara snarlika och maskininlärningsmodellen skulle därför visa en tendens till överinlärning

efter endast ett fåtal epoker (Amato et al. 2015).

(14)

Tabell 1 Maskininlärningsmodeller

Modell 2019 Li et al. (2009) Llamas et al. (2017)

Kambau et al.

(2018)

Amato et al.

(2015)

Precision 86% / 96% 79% / 85% 94% / 95% 92% 92%

Antal

Fotografier 21 850

30 miljoner / 2

miljoner 10 000 100 1227

Modell

Egentränad / NasNet

Utan metadata / Med metadata

ResNet / Inception- ResNet-v2

2.7. Tidigare utvärdering

År 2019 gjordes ett projekt på RAÄ. Under detta projekt undersöktes möjligheterna att identifiera felaktiga metadata i form av fel klassificerade objekt i RAÄ:s databas K-samsök.

Detta gjordes med hjälp av att skapa en modell inom maskininlärning (Persson och Gullin 2019). Under detta projekt genomfördes en kort utvärdering på den modellen som skapades.

Detta gjordes genom att använda ett program som läser in fotografier och formaterar om dem till att ha samma storlek som fotografierna i k-samsök (bredd/höjd) programmet gör även fotografierna svartvita. I denna utvärdering användes 60 procent av fotografierna till att träna modellen, 20 procent används för att automatiskt optimera modellen och de sista 20 procenten av fotografierna användes som testdata för att validera modellens förmåga efter varje epok.

Som förklarat tidigare är det viktigt att testa modellen efter varje epok eftersom modellens precision oftast stiger de första epokerna men sedan sjunker när den blir överinlärd. Eftersom modellen tidigare inte hade sett dessa testdata blev det ett kvitto på om modellen förbättras eller visar en tendens till överinlärning efter varje epok. I denna utvärdering användes värdet loss för att läsa av om modellen visade en indikation på att bli överinlärd.

När en maskininlärningsmodell tränas förväntas modellens precision att stiga för varje epok.

Loss förväntas dock att sjunka för varje epok. Om modellen börjar överinlärd kommer modellens precision att fortsätta stiga men loss kommer vända och börja stiga. Hos en idealt tränad modell är alltså värdet precision så högt som möjligt medan loss är så lågt som möjligt (Persson och Gullin 2019).

Vid träning av en maskininlärningsmodell används lager av olika typer och antal. I varje lager görs en generalisering av hur fotografiers pixlar ser ut för att hitta mönster mellan olika fotografier (Simard, et al., 2003). För att hitta rätt kombination upprepas körningen av modellen i en loop där antalet lager av de olika typerna och antalet epoker successivt ökas.

Vid denna utvärdering nådde modellen en precision på 83,5%.

3. Metod

Design science research (DSR) är en metodologi inom IT och datavetenskap. Denna

metodologi passar bra till att skapa och utvärdera maskininlärningsmodeller för att kunna lösa problem inom organisationer (Bisandu, D. 2016).

I regel inkluderar DSR sex olika steg.

(15)

1. Identifiering av problemet och motivation - Här definieras det specifika problemet och en motivation till varför det bör lösas.

2. Definiera mål som krävs för att hitta en lösning på problemet - Här används

definitionen av det identifierade problemet för att ta reda på redan existerande kunskap inom området. Detta låter forskaren ta reda på vad som är genomförbart och sätta upp mål. Ett mål kan exempelvis vara en beskrivning av den modell som väntas lösa det definierade problemet.

3. Design och skapandet av modellen - Här presenteras de metoder som ska användas vid skapandet av modellen, samt modellens önskvärda funktionalitet och utseende. Även de resurser som krävs för att skapa modellen bör presenteras här.

4. Demonstration av modellen för att lösa det identifierade problemet.

5. Utvärdera hur väl modellen löser det avsedda problemet - Här värderas lösningen på problemet. Här kan forskaren avgöra ifall lösningen är tillräcklig eller gå tillbaka till steg tre för att försöka förbättra lösningen.

6. kommunicera hur viktigt detta problem är, samt presentera modellen som den alternativa lösningen.

De flesta projekt går genom alla dessa punkter på ett eller annat sätt, i vilken ordning dessa punkter behandlas brukar dock variera (Peffers et al. 2007).

DSR valdes över andra metoder som exempelvis action research eftersom DSR har tydliga tillvägagångssätt för hur utvärderingen av bland annat maskininlärningsmodeller ska gå till.

DSR passa även bra till den datainsamlingsmetod som valts (intervju) (Venable et al. 2016).

Vilket är en stor fördel i detta fall på grund av den bristande erfarenhet som forskaren i denna forskning har.

DSR:s tillvägagångssätt ger även en bra grund till att besvara den forskningsfråga som ställts i denna forskning.

DSR förespråkar en omfattande utvärdering. Denna utvärdering kan användas som underlag till de intervjuer som ska bedrivas. Detta i sin tur kan leda till att respondenterna kan ge noggrannare svar på vad som faktiskt krävs för att implementera maskininlärningsmodellen som en lösning på problemet med bristande metadatakvalitet hos RAÄ. Det kan även leda till att respondenterna får bättre förståelse för modellens prestation. Vilket kan leda till

spekulationer kring modifikationer eller förslag på andra lösningar till problemet.

Prat et al. (2015) argumenterar för att DSR inte har nått sin mognats fas än, speciellt inom utvärdering av artefakter som exempelvis maskininlärningsmodeller. De anser att DSR har vidare potential för att utvecklas. Denna argumentation publicerades dock för fem år sedan.

Under dessa år har artiklar som exempelvis Venable et al. (2016) publicerats som ger tydliga tillvägagångssätt inom utvärderingen av artefakter.

De fyra första stegen i listan ovan utfördes under projektet på RAÄ 2019. Det gjordes dock

ingen omfattande utvärdering av maskininlärningsmodellen som skapades. Endast en kort

utvärdering av maskininlärningsmodellens precision gjordes. Därför har denna uppsats ett

fokus på punkterna fem och sex.

(16)

Enligt Venable et al. (2016) är utvärdering av modellen är en viktig del i DSR eftersom det ger feedback till vidare utveckling och gör forskningen mer beviskraftig.

Venable et al. (2016) presenterar ramverket Framework for Evaluation in Design Science Research (FEDS) i detta ramverk presenteras en fyrastegs designprocess för hur en maskininlärningsmodell utvärderas.

Det första steget menar att det resultat som givits ska säkerställas att det ges enbart av

modellen och inte någon oberoende variabel eller omständighet. Modellen ska även fungera i en verklig situation. Det vill säga modellen ska fungera i den situation den är designad för att fungera i (Venable et al. 2016).

Osäkerheter och risker bör även utvärderas i detta steg. Venable et al. (2016) förklarar risker som exempelvis sociala risker eller tekniska risker. Om maskininlärningsmodellen inte passar in i den sociala situationen kan den orsaka fler problem än vad den löser. En teknisk risk kan vara om exempelvis teknologin inte fungerar och modellen därför inte fungerar. Om modellen behandlar människor eller djur bör utvärderingen vara extra noggrann eftersom detta medför en etisk risk.

Det andra steget innebär val av strategi.

En strategi vägleder forskaren om beslut kring var, varför och hur utvärderingen ska ske. I vissa fall kan fler än en strategi väljas (Venable et al. 2016).

Venable et al. (2016) nämner fyra olika strategier att välja mellan:

Human Risk & Effectiveness strategy – Denna strategi passar om den främsta risken vid designandet av modellen är social eller användare orienterad. Denna strategi passar även bra om testningen av modellen kan ske på sin avsedda plats. Det vill säga på den plats där modellen är designad att passa i. Om detta inte går på grund av exempelvis ekonomiska problem kan Technical Risk & Efficacy strategy vara ett bättre alternativ.

Technical Risk & Efficacy strategy – Denna strategi passar då den största risken vid designen är tekniskt orienterad.

Purely Technical strategy – Om modellen är helt teknisk och inte är avsedd för att användas av eller påverka människor passar denna strategi. Denna strategi passar även för de modeller som inte väntas driftsättas i projektet. Dvs de modeller som väntas driftsättas någon gång i framtiden.

Quick & Simple strategy – Om designen av modellen är enkel och riskfri passar denna strategi.

Det tredje steget i designprocessen handlar om vad som ska utvärderas. Det vill säga vilka egenskaper hos modellen ska utvärderas. För att kunna hitta dessa krav och egenskaper presenterar Venable et al. (2016) 3 steg att genomgå för att kunna hitta den egenskap som passar bäst.

1. Genom att använda uteslutningsmetoden kan ett fåtal egenskaper listas som potentiella

kandidater för utvärdering. På så sätt fås en klarare överblick över vilka egenskaper

(17)

2. Genom att studera listan som gavs i den första punkten kan forskaren reflektera kring i vilken utsträckning varje potentiell egenskap kan bidra till att uppnå syftet med

modellen. På så sätt kan listan med kandidater tunnas ut ytterligare.

3. Genom att reflektera kring vilken strategi som valts kan den mest passliga kandidaten väljas. Exempelvis om Human Risk & Effectiveness strategy används bör kandidaten vara av en social natur. Det vill säga kandidaten bör vara inom samma orientering som den risk som modellen är menad att lösa.

Vid steg fyra i designprocessen har en strategi valts, även de egenskaper som ska utvärderats har valts. Detta steg innebär designandet av själva utvärderingen av modellens egenskaper (Venable et al. 2016).

Genom en analys av faktorer som exempelvis budget, tidsram och andra resurser. Kan dessa faktorer prioriteras i en ordning där de viktigaste faktorerna är högs prioriterade och de faktorer som är mindre viktiga är av lägre prioritering. När dessa faktorer är någorlunda rangordnade blir det lättare att skapa en plan över vem som utvärderar vad och när (Venable et al. 2016).

Genom att implementera dessa fyra steg som Venable et al. (2016) presenterar kan maskininlärningsmodellen som skapades 2019 utvärderas.

Eftersom denna maskininlärningsmodellmodell är en teknisk artefakt som inte har avsikt att användas av eller påverka människor passar strategin “Purely Technical strategy”. Denna modell kommer inte heller driftsättas under detta arbete, utan kommer idealt driftsättas i framtiden vilket vidare visar på att denna strategi kan vara att föredra. Designen av denna modell är även riskfri eftersom den kan testas mot dataset utan konsekvenser. Eftersom maskininlärningsmodellen är ett relativt simpelt datorprogram med endast en funktion kan denna modell anses vara enkel. På grund av detta kan även strategin “Quick & Simple strategy” passa.

Quick & Simple strategy främjar en snabb utvärdering till låg kostnad. Nackdelen med denna strategi är att den inte är lika omfattande som exempelvis Purely Technical strategy. Purely Technical strategy är en mer omfattande strategi som utöver detta är väldigt lik Quick &

Simple strategy (Venable et al. 2016). För att öka forskningens trovärdighet görs valet att använda kombination av dessa strategier. Denna kombination innebär en något mer omfattande utvärdering än Quick & Simple strategy men inte så omfattande som Purely Technical strategy förespråkar. Detta passar bra i detta fall eftersom modellen som ska utvärderas är relativt enkel och inte kräver en lika omfattande utvärdering som en större programvara. Större programvaror kan dessutom medföra konsekvenser hos en organisation vid implementation vilket är en anledning till att en omfattande utvärdering är

rekommenderat.

Hevner m fl (2003) beskriver användbarhet (utility) som den främsta egenskapen som måste utvärderas inom design science research. För att kunna bidra till forskningen måste det bevisas att en artefakt tillför ett värde genom att lösa ett problem som inte kan lösas på ett bättre sätt redan.

Ett praktiskt test ifall maskininlärningsmodellen fungerar i sin avsedda miljö hade varit idealt.

Men detta kan inte göras då resurserna för detta inte finns tillgängliga. Detta skulle kräva

(18)

tillgång till RAÄ:s lokaler, utrustning och personal. Istället för detta kommer därför ett antal intervjuer bedrivas med experter inom ämnet som får bedöma ifall lösningen skulle fungera och även ge en positiv påverkan i en verklig situation. Detta fungerar som en substitution till att testa modellen i sin verkliga miljö eftersom dessa experter är de personer som vid

driftsättning hade använt denna modell. De har därför nog kunskap om ämnet för att göra en kvalificerad gissning om modellen rent teoretiskt kan fungera i sin avsedda miljö.

Hur data samlas in i en studie är en faktor som har en stor påverkan på hur pålitlig studien är.

Genom att använda en välkänd och etablerad datainsamlingsmetod blir det lättare för läsare att kritisera resultatet. Detta eftersom denna metod är välbeprövad och har ett tydligt tillvägagångssätt (Kallio et al. 2016).

Semistrukturerade intervjuer är en av de vanligaste datainsamlingsmetoderna. En

semistrukturerad intervju skiljer sig från en vanlig strukturerad intervju genom att de frågor som planerats ställa är mer som riktlinjer och inte ett schema över hur intervjun ska gå till. I en semistrukturerad intervju kan personen som för intervjun gå ifrån de förberedda frågorna något och anpassa sig efter respondentens svar eller intresse (Kallio et al. 2016).

Detta gör denna metod utmärkt till att samla in information kring den forskningsfrågan som ställs i detta arbete. Detta då respondenten har möjlighet att spekulera kring ämnet och leda intervjun i en riktning där svaret på frågan blir väldigt nyanserat. Vilket i sin tur ger mer diskussionsunderlag i forskningen.

Denna metod är väldigt flexibel och mångsidig. Den enda nackdelen med denna metod är att det krävs en del förarbete innan intervjuer kan hållas. Eftersom de frågor som ställs under intervjun måste vara baserade på tidigare fakta inom ämnet krävs det att person som för intervjun är påläst inom ämnet (Kallio et al. 2016).

Kallio et al. (2016) presenterar en fem-stegs guide där de förklarar hur semistrukturerade intervjuer används på bästa sätt.

Steg 1 - Uppfyller denna situation förutsättningarna för semistrukturerade intervjuer?

Kallio et al. (2016) menar att semistrukturerade intervjuer inte passar i alla situationer. De nämner dock att denna metod passa i situationer där någons åsikt eller uppfattning ska studeras. Detta stämmer överens med denna forskning då resurser för ett praktiskt test av modellen som skapade år 2019 inte finns tillgängliga. Istället kan en teoretisk utvärdering ske då experter kan yttra sin åsikt kring modellens och dess tänkta implementation. Detta genom exempelvis semistrukturerade intervjuer.

Steg 2 - Hämta och utnyttja tidigare kunskap

För att kunna förstå ämnet nog för att formulera intervjufrågor menar Kallio et al. (2016) att tidigare kunskap inom ämnet måste studeras. I denna forskning studerades k-samsök och de olika institutionernas koppling till k-samsök. Störst fokus låg dock hos RAÄ då studien har avgränsat sig från de olika institutionerna.

Steg 3 - Formulera en preliminär intervjuguide

(19)

I en semistrukturerad intervju är tanken att frågorna enbart ska styra riktningen av intervjun till de punkter som ska pratas om. Detta tillåter ett mer naturligt flöde i konversationen då de frågor som ska ställas inte behöver ställas i en specifik ordning. Tanken med steg 3 är att skapa en intervjuguide, dvs formulera de frågor som ska ställas under intervjun (Kallio et al.

2016).

Steg 4 - Testa intervjuguiden

Det bästa sättet att upptäcka brister i intervjuguiden är att testa den. Tanken med steg 4 är att prova ifall den preliminära intervjuguiden täcker ämnet som ska diskuteras tillräckligt, samt relevansen hos varje fråga (Kallio et al. 2016). Den första intervjun som gjordes var med en expert på K-samsök. Detta var en utmärkt person att testa den preliminära intervjuguiden på då författarna sen tidigare hade en relation till personen vilket gör det lättare att kontakta personen igen ifall mer information skulle behövas. Den preliminära intervjuguiden finns tillgänglig i Bilaga 3 – Preliminär-Intervju-guide.

Steg 5 - Färdigställ intervjuguiden

Efter intervjuguiden har testats är det dags att färdigställa intervjuguiden. Om någon fråga känns irrelevant eller otydlig är detta tillfälle att justera och optimera (Kallio et al. 2016). Den preliminära intervjuguiden som togs fram i steg 3 visade sig vara något för otydlig och hade flera frågor som var irrelevanta. Detta resulterade i att flera frågor förfinades och byttes ut.

Den färdigställda intervjuguiden finns tillgänglig i Bilaga 2 – Intervju-guide.

3.1. Genomförande – teoretisk utvärdering

För att testa om artefakten fungerar i en verklig situation har semistrukturerade intervjuer genomförts med fem olika respondenter. Samtliga intervjuer har spelats in och transkriberats.

Första intervjun gjordes med en expert på K-samsök som dagligen arbetar med metadata i k- samsök. Respondenten från denna intervju benämns nedan som Respondent A. Under intervjun med Respondent A kom intressanta tankar kring RAÄ:s interna leveranser till K- samsök upp. Genom en snöbollseffekt därefter gavs tips på två experter på RAÄ:s interna leveranser av data. Tack vare dessa tips kunde ytterligare två experter intervjuas. Dessa två experter arbetade båda som systemutvecklare och benämns nedan som Respondent B och Respondent C. För att få en mer slagkraftig bekräftelse på om den maskininlärningsmodell som utvärderas skulle fungera i en verklig situation eller inte så intervjuades även två respondenter som arbetar på två av de institutioner som levererar data och metadata till k- samsök. Den ena arbetade som intendent på världskulturmuseet och benämns nedan som Respondent D. Den andra arbetade som intendent på det tekniska museet och benämns nedan som Respondent E.

Samtliga respondenter informerades om syftet med intervjun och hur insamlade empiriska

data skulle användas. Alla respondenter tillfrågades om tillåtelse att spela in intervjun samt

informerades om att anonymisering kommer att genomföras. De informerades om att det var

frivilligt att delta och gav sitt samtycke till att genomföra intervjuerna. Under intervjuerna

togs anteckningar om vad som sades. Dessa anteckningar tillsammans med inspelningarna av

intervjuerna tillät en snabb transkribering. Intervjuerna pågick i ungefär 25 minuter och fördes

online. Eftersom intervjuerna blev relativt korta blev analysen av intervju-datan relativt

enkel.

(20)

Som förklarat tidigare spelades intervjuerna in samtidigt som anteckningar togs. Detta inspirerades av Burnard et al. (2008) sätt att analysera kvalitativa data. Burnard et al. (2008) förklarar att när en intervju har transkriberats kan stycken summeras med kommentarer som exempelvis “i detta stycke diskuteras kvaliteten av metadata”. I detta fall antecknades en rubrik på vad som diskuterades, tidsstämpel på när detta diskuterades och även de mest relevanta svaren antecknades. Tidsstämpeln antecknades så det skulle vara lätt att gå tillbaka till den inspelade intervjun ifall det antecknade svaret behövde kompletteras med ytterligare information.

Eftersom den intervjuguide som utformats täckte de frågor som behövdes besvaras så pass väl blev det enkelt att anteckna de svar som var mest relevanta tillsammans med en rubrik till stycket som diskuterades. Detta gjorde analysen av datan från intervjuerna väldigt enkel då de viktigaste svaren fanns antecknade separat. Om mer information behövdes kring svaret var det enkelt att bläddra bland de olika kategorier som antecknats för att sedan gå tillbaka till den inspelade intervjun.

3.2. Genomförande - teknisk utvärdering

De flesta klassificeringsprogram utvärderas baserat på deras precision (Kotsiantis, S, B. 2007) Så är även fallet i denna forskning. Detta eftersom programmets användbarhet är helt baserat på hur hög dess precision är. Exempelvis om maskininlärningsmodellen som utvärderas i denna forskning meddelar att metadata är fel på platser där metadatan är rätt och meddelar att metadata är rätt där det är fel, i en för stor utsträckning skulle modellen inte kunna användas.

Eftersom det handlar om datakvalitet med avseende på hur korrekt informationen återger det objekt som beskrivs är det inom området “Relational or contextual IQ - Accuracy” Stvilia et al (2007) detta arbete rör sig. Se Bilaga 1 - Informationskvalitetens olika dimensioner.

Vid skapandet av maskininlärningsmodellen tränades en modell på 21 850 bilder. Denna modell nådde en precision på 86% vid validering av träningsmaterialet. Även en NasNet modell tränades på samma samling bilder. Denna modell nådde en precision på 96%. Denna modell hade inte bara högre precision än den egentränade modellen utan var även snabbare då denna modell endast tog cirka 15 minuter medan den egentränade modellen tog omkring tre timmar.

När modellerna tränats klart kontrollerades de mot 220 bilder på föremål och lika många fotografier. Dessa totalt 440 träningsbilder var noga utvalda så det skulle finnas ett facit för hur modellen idealt skulle kategorisera bilderna. På så sätt kan slutsatser dras baserat på modellens resultat. Mot dessa bilder nådde den egentränade modellen en precision på 86%.

NasNet modellen nådde återigen en precision på 96%.

3.3. Forskningsetisk diskussion

Vetenskapsrådet har formulerat fyra grundläggande krav som är viktiga att uppfylla vid bedrivandet av forskning. Dessa är informationskravet, samtyckeskravet,

konfidentialitetskravet och nyttjandekravet (Vetenskapsrådet, 2002).

Informationskravet innebär att de personer som berörs av forskningen ska informeras om

forskningens syfte. Forskaren ansvarar även för att berätta vilka villkor som gäller vid

deltagandet, att det är frivilligt att delta och att medverkan kan avbrytas när som helst

(21)

Eftersom maskininlärningsmodellen i denna forskning inte implementeras utan istället utvärderas teoretiskt berörs endast de personer som deltar i intervjuer av forskningen. Varje intervju inleds enligt informationskravet med en presentation av forskningens syfte och hur respondenternas information kommer användas. Respondenterna informerades även om att de har möjligheten att säga ifall någon information inte får ingå i forskningen.

Samtyckeskravet innebär att deltagare i en undersökning har rätt att själva bestämma över sin medverkan. Detta innebär att forskaren måste be deltagaren om samtycke innan hämtning av deltagarens information. Vid exempelvis en intervju måste forskaren be om samtycke innan intervjun kan påbörjas. De som deltar i forskningen har även rätt till att avbryta deltagandet utan konsekvenser (Vetenskapsrådet, 2002).

Innan varje intervju i denna forskning påbörjades, fördes en kort introduktion via mejl där respondenterna frågades om samtycke angående deltagande i en intervju. Detta tillsammans med en kort beskrivning om intervjuns syfte och innehåll. syftet var att respondenterna skulle vara fullt medveten om intervjuns omfattning och innehåll innan de gav samtycke. Vid själva intervjutillfället bads respondenterna om samtycke angående inspelning av intervjun, i

samband med detta förklaras även att inspelningen enbart kommer användas i forskningssyfte.

Konfidentialitetskravet innebär att uppgifter om alla i en undersökning ingående personer ska ges största möjliga konfidentialitet och personuppgifterna skall förvaras på ett sådant sätt att obehöriga inte kan ta del av dem. Alla uppgifter som kan användas för att identifiera personer måste lagras oåtkomligt för personer som inte deltar i forskningen (Vetenskapsrådet, 2002).

I denna forskning är de personer som intervjuats helt anonyma enligt konfidentialitetskravet.

Inspelningarna av intervjuerna lagrades på en plats enbart åtkomligt för forskarna. Dessa inspelningar raderades när forskningen var färdigställd.

Nyttjandekravet är relativt kort men viktigt. Detta krav innebär att uppgifter insamlade om enskilda personer endast får användas för forskningsändamål. Exempelvis personlig information som samlas in under en intervju får endast användas till forskning (Vetenskapsrådet, 2002).

I denna forskning fanns det inget behov av att använda personliga uppgifter i forskningen och alla respondenter har därför anonymiserats.

4. Beskrivning av maskininlärningsmodellerna

De maskininlärningsmodeller som utvärderats i detta arbete skapades i ett tidigare arbete i syftet att undersöka möjligheterna att med maskininlärning identifiera felaktiga metadata i form av felklassificerade objekt i databasen K-samsök. Innan dessa modellers skapande påbörjades bestämde sig skaparna för att söka efter andra liknande modeller. Detta för att bilda sig en uppfattning kring hur skapandet skulle gå till, samt ha en modell att jämföra den egenskapade modellen med (Persson och Gullin 2019).

Ett stort antal olika modeller hittades att utgå ifrån vid klassificering av bilder. Dock valdes

NasNet modellen som utvärderades i detta arbete över de andra modellerna då denna modell

verkade bäst lämpad för klassificering (Persson och Gullin 2019).

(22)

NasNet som skapats av google har tränats på miljontals bilder från ImageNet. ImageNet är en databas med miljontals bilder lagrade i syftet att träna programvara. I detta projekt tränades NasNet på ett antal nya bilder för att kunna minimera antalet okända faktorer i programmet.

Genom att använda en välkänd bildsamling blir det lättare att förutspå ett väntat resultat hos programvaran (Persson och Gullin 2019).

NasNet är ett så kallad convolutional neural network. Ett convolutional neural network är en form av ett neuralt nätverk. Ett neuralt nätverk är en samling självbärande algoritmer skapade för att lösa komplexa problem. Ett convolutional neural network är en ett neuralt nätverk som specialiserats till att analysera bilder (Karn, 2016).

När en dator tittar på en bild ser datorn en matris. Denna matris ser annorlunda ut beroende på on bilden är svartvit eller har färg. Om bilden är svartvit ser datorn en matris av 2

dimensioner. Figur 1 Svartvit katt visar ett exempel på hur en dator ser en svartvit bild av en katt. Bilden på katten är av högre upplösning än 1818 pixlar men för enkelhetens skull, låtsas att bilden på katten är 1818 pixlar stor. Detta innebär att matrisen blir av storleken 18*18 precis som i Figur 1 Svartvit katt. Detta då varje pixel i bilden får ett värde mellan 0 – 255. Om ett värde är 0 innebär det att den pixeln är svart. Om ett värde är 255 är pixeln vit.

Ett värde mellan 0 och 255 representerar alltså en färg mellan vit och svart dvs grå. På så sätt kan datorn avgöra vilken färg varje pixel har och på så sätt se hur bilden ser ut

(Commonlounge, 2020).

Figur 1 Svartvit katt

Om bilden är av färg ser datorn en matris som är av 3 dimensioner istället för 2. Skillnaden i denna matris är att varje pixel har två värden istället för ett. Utöver ett värde mellan 0 – 255 har pixeln även ett värde mellan 1 – 3. Värdet 1 representerar i detta fall färgen röd, värdet 2 representerar grön och 3 representerar blå. I denna matris bestämmer värdet mellan 0 – 255 intensiteten av den färg som värdet mellan 1 – 3 representerar. De maskininlärningsmodeller som utvärderas i denna forskning behandlar endast svartvita bilder (Commonlounge, 2020).

Ett convolutional neural network fungerar enligt Figur 2 Convolutional neural network nedan.

Det är fyra huvud steg som programmet går genom för att sedan kunna ge ett svar. Det första

steget kallas convolution eller konvolution på Svenska. I detta steg hämtar programvaran

karaktäristiska drag från den bild som givits till programvaran. För att göra detta bryter

programmet ner originalbilden i mindre bitar genom att titta på bilden lite i taget (Karn,

2016).

(23)

Figur 2 Convolutional neural network

Convolution steget kan se ut på följande vis. Figur 3 55 Matris nedan visar en matris av en svartvit bild av storleken 55 pixlar. Figur 4 33 Matris visar en matris av storleken 33 pixlar. Konvolutionen av dessa bilder kan då beräknas enligt Figur 5 Konvolution beräkning nedan. Matrisen av storleken 33 placeras ovanpå den större matrisen och dess värden multipliceras med varandra. Denna 33 matris kallas filter då den filtrerar den ursprungliga matrisen till en mindre storlek innehållande enbart karaktäristiska drag av sitt ursprung. I detta fall är ursprungsmatrisen den matrisen av storleken 5*5 pixlar. Figur 6 Konvolution steg 1 nedan visar tydligt hur de första 9 pixlarna behandlas. Båda matriserna har värdet 1 i pixeln högst upp till vänster och därför multipliceras dessa värden, vilket ger produkten 1. När samtliga 9 pixlar multiplicerats med varandra så adderas dessa produkter (Karn, 2016).

Figur 3 5*5 Matris Figur 4 3*3 Matris

Figur 5 Konvolution beräkning Figur 6 Konvolution steg 1

En matris som blir resultatet av konvolutionen kallas feature map. Detta då denna matris

innehåller karaktäristiska drag från den ursprungliga matrisen. Den ursprungliga matrisen var

i detta fall den matrisen av storleken 5*5 pixlar (Karn, 2016).

(24)

Genom att ändra de värden som finns i den så kallade filter matrisen kan olika feature maps ges. Dessa feature maps kan ha olika egenskaper (Karn, 2016). Figur 7 Filter nedan visar några exempel på hur filter matrisens värden påverkar dessa egenskaper.

Vid körning av ett convolutional neural network som exempelvis NasNet anges antalet filter och filtrets storlek manuellt. Programvaran lär sig dock de värden som finns i filtret och själv anger olika värden för att kunna få olika feature maps att lära sig av (Karn, 2016).

Figur 7 Filter

Det andra steget som ett convolutional neural network går genom kallas non linearity eller Rectified Linear Unit (ReLU). I detta steg byts alla pixlar i feature mapsen med ett negativt värde till noll. Syftet med detta är att göra så feature mapsen inte har ett linjärt samband. Utan ReLU kommer de feature maps som skapas ha ett linjärt samband mellan dem och

programvaran riskerar att lära sig detta samband istället för att träna på hur de karaktäristiska egenskaperna i bilden ser ut. Figur 8 Rectified map nedan visar två olika feature maps. Till vänster visas en feature map utan ReLU. Till höger visas en feature map med ReLU. När ReLU är aktivt blir de karaktäristiska egenskaperna i bilden mer dominanta och därför lättare för både programvara och ögat att identifiera (Karn, 2016).

Figur 8 Rectified map

(25)

I det tredje steget elimineras den oviktigaste informationen från varje feature map som skapats i de tidigare stegen. Detta leder till att enbart den viktigaste informationen kvarstår i feature mapsen. Detta görs med hjälp av spatial pooling. Spatial pooling kan göras på olika sätt exempelvis max pooling, medel pooling eller summan av pooling (Karn, 2016).

Max pooling innebär att de högsta värdena i en feature map extraheras till en ny feature map.

På så sätt kan den oviktiga informationen tas bort från feature mapen. Figur 9 Max pooling nedan visar hur max pooling används på en feature map av storleken 4*4 pixlar. Feature mapen delas först upp i 4 lika stora delar innehållande 4 pixlar var. I de 4 pixlarna högst upp till höger (inringat) är det största värdet bland dessa pixlar 6. Detta högsta värde extraheras därför till den nya feature mapen och de övriga 3 värdena elimineras (Karn, 2016).

Figur 9 Max pooling

Vid medel pooling används samma princip som vid max pooling. Skillnaden är att

medelvärdet hos de fyra pixlarna beräknas istället för att det högsta värdet väljs (Karn, 2016).

I detta fall ser beräkningen ut på följande vis: se Ekvation 1 Max pooling nedan.

Ekvation 1 Max pooling

(1 + 1 + 5 + 6) ÷ 4 = 3.25

Vid summan av pooling används åter igen samma princip som tidigare former. Skillnaden är att i detta fall beräknas summan av de fyra pixlarna (Karn, 2016). I detta fall skulle

beräkningen se ut på följande vis: se Ekvation 2 Sum pooling nedan.

Ekvation 2 Sum pooling

1 + 1 + 5 + 6 = 13

De resultat som ges från convolution steget och pooling ger feature maps som innehåller många karaktäristiska egenskaper från ursprungsbilden. Syftet med det fjärde och sista steget är att programvaran ska använda sig av de karaktäristiska egenskaperna från de tidigare stegen för att klassificera ursprungsbilden. Denna klassificering är baserad på det dataset som använts för träningen av programvaran (Karn, 2016).

De modeller som skapats har inget användarinterface utan är enbart ett stycke kod

som kan köras. Detta då skapandet av modellerna avgränsades till att enbart skapa

den nödvändiga funktionaliteten för det givna syftet (Persson och Gullin 2019).

Nyttiggörande avmaskininlärningsmodeller i verksamheten: Ökad metadatakvalitet med stöd från maskininlärning

i Uppsala universitet

Inst. för informatik och media