Litteraturstudie - AI-system för sjukvården - en studie kring design av förklaringar till AI- m

Planeringen och praktiskt genomförande samt analys och delresultat av litteraturstudien presenteras i detta delkapitel.

4.3.1. Planerat genomförande litteraturstudie

Den utökade litteraturstudien genomfördes i syfte att komplettera enkäten med forskningsbaserade designriktlinjer och egenskaper en förklaring bör innehålla. Ett ytterligare syfte av litteraturstudien var att på så sätt analysera hur tidigare forskning skulle kunna bidra till studien i termer av redan etablerade designriktlinjer och egenskaper som en förklaring bör innehålla/uppnå för att främja förståelse och tillit.

Insamlandet av relevanta artiklar genomfördes via två olika databaser, ACM Digital Library och Google Scholar. ACM Digital Library användes framförallt med anledningen av att databasen är inriktad på litteratur inom området datavetenskap. Google Scholar användes på grund av dess enormt stora databas vilket gjorde att mångfalden av litteratur kunde breddas. Mångfald av litteratur passade bra för detta arbete på grund av dess tvärvetenskapliga karaktär då detta arbete inkluderade hedoniska frågor som tillit och förståelse men även hade ett intresse för AI och XAI. Artiklarna som söktes fram till litteraturstudien hade som syfte att identifiera redan etablerade designriktlinjer vid framtagande av förklaringar, för att sedan kunna komplettera detta med domänspecifika behov extraherade från enkäten. För att säkerställa att samtlig litteratur besvarade eller hjälpte att uppnå litteraturstudiens syfte användes speciella söktermer och nyckelord som “trust”, “interactive recommender

systems”, “interactive recommender systems AND trust”, “explanation AND trust”, “recommender system”, “decision support”, “visual explanation AND trust”, “explanation”

och “explainable AI”. Ytterligare åtgärder, som att skumma över innehåll och resultat, användes för att försäkra att artiklarna bidrog till litteraturstudiens ändamål. Eftersom XAI fortfarande är ett relativt nytt område användes därför inga avgränsningar i litteratursökningen för att undvika äldre artiklar exempelvis.

Viss litteratur från denna rapports bakgrundskapitel kunde även återanvändas, samt referenser däri, då mycket och viktig information kring förklaringar redan identifierats. Det lokaliserades även litteratur inom referenslistor i artiklar av intresse för att få en mer grundlig

förståelse av information som skulle kunna vara relevant vid framtagandet av slutsatser. Totalt inkluderade litteraturstudien 10 olika artiklar bestående av både kvalitativa och kvantitativa artiklar, detta försäkrade att det var ett brett urval av forskningsartiklar. 6 av artiklarna var journalartiklar samt referentgranskade och 4 var konferensförfaranden varav en av dessa kunde bekräftas vara referentgranskad.

4.3.2. Praktiskt genomförande litteraturstudie

Artiklarna som samlats in under litteratursökningen sammanställdes och analyserades för att skapa en övergriplig förståelse hur tidigare forskning hade tagit fram / använt sig utav riktlinjer vid design av förklaringar och vilken påverkan detta hade på användaren. För att försäkra att samtliga artiklar var relevanta för litteraturstudiens syfte lästes samtliga artiklar igenom ett flertal gånger.

Eftersom grunden till arbetet var en fallstudie var överförbarheten av de fynd som hittades utifrån litteraturstudien väldigt viktig och hades i åtanke under litteratursökningen; enligt Patton (2014) är en fallstudie kontextkänslig vilket gör att transfererbarhet av riktlinjer blev en viktig aspekt att se närmare på.

Nyckelfynd inom respektive artikel markerades för att återigen försäkra att dessa besvarade litteraturstudiens syfte. Genom att markera nyckelfynd kunde även datan sorteras och möjliggjorde en enklare analys av samtliga artiklar. Analysen genomfördes på det sättet att nyckelfynd och riktlinjer jämfördes med varandra för att hitta likheter och skillnader mellan artiklarna; på detta sättet kunde även en bred förståelse för området skapas vilket var lämpligt för att dra slutsatser kring hur riktlinjerna kunde appliceras inom kontexten av diagnostisering av sepsis.

4.3.3. Analys & delresultat litteraturstudie

Litteraturstudien visade att flertalet riktlinjer för hur förklaringar bör designas redan existerar. Ribeiro m.fl. (2016) och Dasgupta m.fl. (2016) presenterade sammanställt sju olika designkriterier och egenskaper som båda forskargrupper påstod bidrog till en ökad tillit till förklaringar. Kriterierna och egenskaperna är följande: tolkningsbar (en. interpretable), lokal trohet (en. local fidelity), globalt perspektiv, intuitivitet, bevispresentation (en. evidence presentation), effektiv kontextväxling (en. efficient context-switching) och transparens. Ribeiro m.fl. (2016) ger en närmare beskrivning av de tre första kriterierna vilka de hävdar är nödvändiga aspekter för att en förklaring ska öka tillit till och förståelse för ett AI-system. Med “tolkningsbar” menar författarna att en förklaring måste vara enkel att förstå för en användare. Exempelvis nämner författarna att en förklaring därmed inte får inkludera hundratals olika faktorer som en användare måste aggregera och förstå, utan att användarens kognitiva begränsningar måste beaktas vid designen av förklaringen. Utifrån ovanstående beskrivning av kriteriet “tolkingsbar” har författaren av denna rapport extraherat följande designriktlinje; data som är relevant till användarens ändamål bör inkluderas i förklaringen medan icke-relevanta faktorer ska undvikas. Vidare betonar Ribeiro m.fl. (2016) vikten av att

en förklaring uppnår “lokal trohet”. Med detta menar författarna att en förklaring bör vara kontextkänslig, d.v.s. att den reflekterar hur ett system har resonerat givet kontexten. Utifrån beskrivningen av “lokal trohet” kan därför följande designriktlinje extraheras; förklaringen måste vara relevant givet kontexten, d.v.s. en förklaring ska inte kunna appliceras inom flera olika situationer. Medföljande till en förklaring menar även Ribeiro m.fl. (2016) att ett globalt perspektiv bör förses, d.v.s. att en användare enkelt bör få en överblick varför en förklaring har genererats på ett specifikt sätt. Författaren av denna rapport kunde utifrån den sista beskrivningen etablera följande designriktlinje; ett globalt perspektiv är viktigt för att användaren ska kunna bibehålla tillit till systemet och få tillgång till samtliga parametrar som bidragit till genereringen av förklaringen.

Dasgupta m.fl. (2016) presenterar de resterande fyra designkriterierna: intuitivitet, bevispresentation, effektiv kontextväxling och transparens. Dessa fyra kriterier möjliggör en ökad tillit hos användare menar författarna. I Dasgupta m.fl.s (2016) studie var mottagaren av genererade förklaringar personer som genomför dataanalys, vilket även denna rapports målgrupp genomför vid diagnostisering av sepsis. Då både Dasguptas m.fl. (2016) och detta arbetes målgrupper båda genomför dataanalys kunde därför slutsatsen dras att transfererbarhet av designkriterierna var hög. Intuitivitet förklarades av Dasgupta m.fl. (2016) som ett viktig kriterium eftersom det är viktigt att förklaringen är så lättförståelig som möjligt; författaren av denna rapport sammanställde detta kriterie med tolkningsbar eftersom givna beskrivningar innehöll samma karaktärsdrag. I Dasguptas m.fl. (2016) studie såg forskarna att användaren av förklaringen sammanställde data från flera olika källor vilket ökade risken att rätt information missades samt att det var tidskonsumerande. För att underlätta denna arbetsprocess ställde forskarna upp kriteriet om bevispresentation, d.v.s. att all relevant data måste sammanställas på en och samma plats för att användaren enklare ska kunna ta ett välinformerat och korrekt beslut. Dasgupta m.fl. (2016) hittade även att effektiv kontextväxling positivt påverkade användarens tillit. Med en effektiv kontextväxling menade forskarna att användaren hade en önskan av att kunna byta perspektiv, exempelvis från en global förklaring till en mer lokal förklaring, för att på det sättet fatta ett korrekt beslut. Slutligen presenterade Dasgupta m.fl. (2016) transparens som ett kriterium vilket de hävdade kunde uppnås genom att använda en kombination av till exempel visuella och textuella förklaringar för att lägga grunden till en djupare förståelse hos användaren än vad det hade gjort vid användning av endast en typ av förklaring.

Fortsättningsvis hävdar Lacave och Díez (2002) att grafiska och textuella tillvägagångssätt för att presentera en förklaring blivit mest etablerade. Yang m.fl. (2020) argumenterar för båda metoderna och menar att dessa alternativ har visat sig öka en användares tillit till ett system. Däremot poängterar forskarna att en användare inte vill använda ett system som hen anser sig mer kompetent än. I Yangs m.fl. (2020) arbete talar forskarna framförallt om automatiska hjälpmedel, vilket inte är fallet för denna studie. Däremot kunde slutsatsen dras från Yangs m.fl. (2020) poäng att en användare eventuellt kunde förkasta en bra rekommendation om de litade på sin egen intuition mer än vad de gjorde på systemet vid ett besluttagande. I Ribeiro m.fl.s (2016) arbete presenteras en möjlig förklaring till detta fenomen - om en användare har tidigare kunskap om ett problem kommer denna kunskap att

påverka användaren oavsett om hen valt att acceptera eller förkasta den rekommendation som systemet ger. För att motverka detta problem föreslår därför Ribeiro m.fl. (2016) att en förklaring bör anpassas utefter användarens nivå av expertis, d.v.s. att en domänexpert bör ges en överblick över en framtagen rekommendation samt en kort motivering, medan en novis bör ges möjlighet att undersöka rekommendationen mer i detalj.

Litteraturstudien visade även att ovana spelade en stor roll vid undersökning av en användares tillit till ett system. Dasgupta m.fl. (2016) drog slutsatsen att användare som var vana vid traditionella textuella förklaringar vid avläsning av data var mer benägna att uppvisa en ökad känsla av osäkerhet vid användandet av nya, grafiska förklaringar. Däremot noterar även författarna att grafiska förklaringar i kombination med textuella förklaringar hade goda förutsättningar att öka transparensen av ett system; något som Yang m.fl. (2020) menar har möjlighet att främja tillit och förståelse. Forskarna menade att anledningen till det här kan vara att användare som genomför uppgifter med hjälp av ny teknik känner sig osäkra, samtidigt som hen redan litade på det tidigare systemet att utföra samma uppgift. En lösning för att motverka detta problem menar därför Dasgupta m.fl. (2016) är att kombinera de mer traditionella textuella förklaringarna med de nya grafiska sådana för att på det sättet låta vana användare fortsätta använda vad som kunde anses som traditionella tillvägagångssätt.

Som tidigare presenterat i bakgrunden lägger litteraturen, framförallt Hind (2019) och Lacave och Díez (2002), vikt på att en förklaring ska tala användarens språk, d.v.s. för denna studie använda terminologi som är relevant för sjukvårdspersonal. Hind (2019) menar att en anpassad språkanvändning till användaren kan bidra till att skapa en mer informativ förklaring än vad en icke-anpassad förklaring kan göra. Utöver att en förklaring bör vara språkanpassad bör den även bemöta användarens behov. Det är därför viktigt att förstå vilken funktion en förklaring faktiskt besitter. Miller (2018) skriver att huvudfunktionen av en förklaring är att främja lärande, d.v.s. att användaren av en förklaring lär sig något. Lombrozo (2006) och Wilkenfeld och Lomborozo (2015) noterar dock att det finns fler funktioner än lärande, såsom att verka övertygande eller att tilldela skuld. För denna studie anser författaren av denna rapport att en förklarings huvudsyfte är just lärande då en förklaring i kontext av diagnostisering av sepsis inte hoppas på att tilldela skuld eller att övertyga; genom att applicera ett lärandesyfte för en förklaring kan sjukvårdspersonal ta del av information och ta ett mer informativt och korrekt beslut. Däremot går det även att argumentera för ett övertygande ändamål, d.v.s. att förklaringen ska övertala personalen att systemets bedömning är korrekt; detta argumentet kan dock skapa följdproblem exempelvis om systemet gör en felberäkning och ovetande personal följer systemets beslut. Likaså går det att argumentera för tilldelning av skuld, då det går att tolka som att systemet tilldelar en parameter skulden för en patient lider av sepsis.

Yang m.fl. (2020) noterar att det finns en korrelation mellan förståelse och tillit, d.v.s att om användaren besitter en bättre förståelse av ett system kan detta påverka användarens tillit till systemet. Däremot skriver inte forskarna om denna påverkan var negativ eller positiv -exempelvis kan en bättre förståelse för systemets brister leda till en sämre tillit till systemet, så kallat att användaren har en bättre kalibrerad tillit till systemet gentemot vad systemet

faktiskt kan prestera. Helldin m.fl. (2017) noterar dock att en framgångsfaktor vid implementation av kliniska beslutsstöd är bland annat att användaren förstår systemets begränsningar. Utifrån det Yang m.fl. (2020) och Helldin m.fl. (2017) har skrivit kan därför inte slutsatsen dras att bättre förståelse leder till en ökad tillit; däremot kan slutsatsen dras att en bättre förståelse för systemets brister och begränsningar kan leda till att användaren själv vet när hen bör acceptera (lita på) eller avvisa (inte lita på) systemets rekommendation. På detta viset leder en ökad förståelse till en ökad användarkontroll. På samma spår gällande användarkontroll visade en studie från Cheng m.fl. (2019) att interaktiva förklaringar bidrog till en ökad förståelse än vad statiska förklaringar gjorde. De interaktiva förklaringarna möjliggjorde det för användaren att utforska förklaringen genom att närmare studera olika datapunkter. I kontext av diagnostisering av sepsis skulle en interaktiv förklaring tillåta användaren att utforska flera vitalparametrar eller se en mer djupgående förklaring om grafiska- samt textuella alternativ inte skulle anses vara tillräckliga.

Resultatet från litteraturstudien kan därför sammanfattas mer konkret på följande sätt. Litteraturstudien tyder på att det redan finns ett flertal riktlinjer vid design för att främja tillit till AI-baserade beslutstödssytem. Riktlinjerna extraherade från Ribeiro m.fl. (2016) och Dasgupta m.fl. (2016) kan anses ha en hög transfererbarhet och därmed lämpa sig väl för detta arbete. För att minska risken för osäkerhet hos vana användare föreslås att en kombination av grafiska och textuella förklaringar bör vara tillgänglig när systemet presenterar en rekommendation, där antagandet har gjorts att detta kommer att förbättra en användares förståelse för rekommendationens grund. Vid formulering av en förklaring bör förklaringen vara språkanpassad till slutanvändaren, och förklaringen måste även innehålla de parametrar som användaren behöver för att kunna fatta ett beslut (Hind, 2019); på det sättet går det att försäkra att förklaringen är informativ. Litteraturstudien har även visat att det är viktigt att etablera syftet med förklaringen och att detta bör genomsyra förklaringens formulering. I detta arbete föreslås därför att en förklaring i lärande syfte bör användas vid diagnostisering av sepsis. Vidare visade litteraturstudien att det inte går att likställa ökad förståelse med en ökad tillit - istället kunde slutsatsen dras att en ökad förståelse kan leda till en ökad användarkontroll. Slutligen har litteraturstudien visat att interaktiva förklaringar kan bidra till en bättre förståelse av ett system än statiska sådana, då de interaktiva förklaringarna möjliggör det för användaren att utforska olika orsaks- och verkanssamband.

Litteraturstudien visar på flera olika designriktlinjer som sägs påverka tillit och förståelse på ett positivt sätt. Samtliga riktlinjer som identifierades i litteraturstudien är däremot väldigt generella och har i syfte att kunna appliceras i flera olika kontexter vilket även gör att de designriktlinjer och krav som tagits fram från andra forskare har en bra överförbarhet till detta arbetet. Som nämnt tidigare var syftet med litteraturstudien att komplettera de fynd som hittades via enkäten för att vägleda designförslag av förklaringar. Ett viktigt fynd som hittades genom enbart litteraturen var framförallt att en förklaring bör vara informationsrik, men samtidigt överskrida användarens förmåga att förstå; d.v.s. att det är viktigt med en balansgång gällande hur många parametrar som ska presenteras inom ramen för en och samma förklaring för att inte förvirra eller öka den kognitiva belastningen hos användaren. Vid diagnostisering av sepsis behöver sjukvårdspersonalen ha en översikt över flera

parametrar för att kunna ta ett informerat och korrekt beslut, därför är det viktigt att förklaringen innehåller korrekt information och inte någon överflödig data eftersom sjukvårdspersonalen redan besitter en hög kognitiv belastning vid diagnostisering. Litteraturstudien visade även att det är viktigt att en förklaring matchar den kunskapsnivå användaren besitter, detta kan göras genom att anpassa förklaringen med termer som används dagligen av användaren själv.

Tabell 6. Sammanställning av designriktlinjer och krav från litteraturstudie.

Designriktlinjer Beskrivning

1. Lokal trohet (en. local fidelity)

Förklaringen ska vara kontextkänslig, d.v.s att den ska fungera inom det kontext där förklaringen används. 2. Globalt perspektiv Förklaringen ska bidra med ett helhetsperspektiv, till

exempel att låta användaren se alla parametrar på samma plats.

3. Intuitivitet & tolkningsbar Förklaringen ska vara både enkel och självklar för användaren att förstå.

4. Bevispresentation All information som är relevant för att förklara ett resultat bör presenteras. Viktigt med balansgång med när det blir “för många” faktorer för att minska den kognitiva

belastningen.

5. Effektiv kontextväxling Användaren ska kunna hoppa mellan olika kontexter på ett effektiv sätt. Exempelvis byta vy mellan blodtryck eller andningsfrekvens.

6. Transparens För att öka transparensen av en förklaring föreslås en kombination av både grafiska och textuella förklaringar och på detta sättet även öka förståelsen hos användaren. 7. Interaktiv Användaren ska kunna interagera med förklaringen och

utforska på eget bevåg om en mer utförlig förklaring eftersökes.

8. Språkanpassad Förklaringen ska tala användarens språk och använda termer som nyttjas av användaren dagligen inom given kontext.

9. Lärande ändamål Förklaringen har i syfte att lära användaren varför en patient har eller inte har sepsis.

In document AI-system för sjukvården - en studie kring design av förklaringar till AI- modeller och dess inverkan på sjukvårdspersonalens förståelse och tillit (Page 30-35)