• No results found

AI-system för sjukvården - en studie kring design av förklaringar till AI- modeller och dess inverkan på sjukvårdspersonalens förståelse och tillit

N/A
N/A
Protected

Academic year: 2021

Share "AI-system för sjukvården - en studie kring design av förklaringar till AI- modeller och dess inverkan på sjukvårdspersonalens förståelse och tillit"

Copied!
68
0
0

Loading.... (view fulltext now)

Full text

(1)

AI-system för sjukvården -

en studie kring design av förklaringar till AI- modeller och dess inverkan på

sjukvårdspersonalens förståelse och tillit

AI systems for healthcare -

a study on the design of explanations for AI models and its impact on healthcare

professionals' understanding and trust

Examensarbete inom huvudområdet Informationsteknologi

Grundnivå 30 Högskolepoäng Vårtermin 2021

Joacim Bohlander

Handledare: Tove Helldin Examinator: Jessica Lindblom

(2)

Abstrakt

Användningsområdena för artificiell intelligens ökar ständigt vilket är inte förvånande då AIs förmåga att lösa komplicerade problem många gånger överstiger den mänskliga motsvarigheten.

Implementeringen av AI-system har ibland gått så långt att utvecklarna själva inte längre vet hur systemet har tagit fram en slutsats; vilket har gjort att möjligheten att undersöka, förstå och felsöka utfall är näst intill icke-existerande. Eftersom dagens AI-system inte erbjuder förklaringar till utfallen har det resulterat i en ovilja hos slutanvändaren. Forskningsområdet eXplainable AI (XAI) menar att genom att använda genererade förklaringar kan AI-systemen bli mer förståeliga för slutanvändaren. Ett område som är i stort behov av AI-system är sjukvården, speciellt inom sepsis där en snabb diagnostisering drastiskt minskar sjukdomens mortalitet.

Syftet med denna studie var att ta fram designriktlinjer vid utveckling av förklaringar som är ämnade att främja tillit till och förståelse för AI-baserade kliniska beslutsstöd menade för diagnostisering av sepsis.

Studien påbörjades med en förstudie som bestod av en enkät och en litteraturstudie, sedan utvecklades en mid-fi prototyp som följdes av användarupplevelsetester. Insamlad data analyserades med hjälp av top-down och en induktiv analysmetod varefter ett slutligt resultat togs fram.

Resultatet säkerställde att det finns flera faktorer som behöver inkorporeras vid framtagandet av förklaringar till ett AI-systems rekommendationer för främjande av tillit och förståelse. För en ökad tillit behöver en förklaring kompletteras med data som tillåter slutanvändaren att validera förklaringen och bemöta användarens informationsbehov. För en ökad förståelse bör en förklaring innehålla information som tillåter användaren förstå anledningen till förklaringens huvudinnehåll, exempelvis ”X beror på Z och Y”.

Tilliten och förståelsen i denna studie mättes endast vid ett tillfälle vilket gör att frågan om hur riktlinjerna skulle påverka tillit till och förståelse för AI-system över tid kvarstår.

Nyckelord: XAI, sjukvård, sepsis, förklaringar, AI, UX, användarupplevelse, tillit, förståelse

(3)

Abstract

The fields of application for artificial intelligence is constantly increasing, which is not suprising as the AI's ability to solve complex problems often exceeds the human counterpart. The development of AI systems has come so far that somtimes not even the developers themselves can explain how the system came to its conclusion; which has made the possibility of examining, understanding and troubleshooting outcomes almost non-existent. Since today's AI systems do not offer explanations for the outcomes, it has resulted in resistance on the part of the end user. The research area eXplainable AI (XAI) believes that using generated explanations, AI systems can become more understandable to the end user. One area that is in great need of AI systems is healthcare, especially for diagnosing sepsis where a rapid diagnosis drastically reduces the mortality of the disease.

The purpose of this study was to develop design guidelines for the development of explanations that are intended to promote trust and understanding of AI-based clinical decision support intended for

the diagnosis of sepsis.

The study began with a feasibility study consisting of a questionnaire and a literature study, then a mid-fi prototype was developed that was followed by user experience tests. Collected data were analyzed using top-down and an inductive analysis after which a final result was obtained.

The results ensured that there are several factors that need to be incorporated in the development of explanations for the promotion of trust and understanding. For increased trust, an explanation needs to be supplemented with data that allows the end user to validate the explanation and meet the user's information needs. For an increased understanding, an explanation should contain information that allows the user to understand the reason for the main content of the explanation, for example "X

depends on Z and Y".

The trust and understanding in this study was only measured at one occasion, as such the question of how the guidelines would affect trust and understanding of AI systems over time remains.

Keywords: XAI, healthcare, sepsis, explanations, AI, UX, user experience, trust, understanding

(4)

Populärvetenskaplig sammanfattning

Det lyder ingen tvekan om att artificiell intelligens är här för att stanna. Idag finns det AI-system överallt i samhället, även om vi inte kanske alltid noterar dem. Till exempel är det högst troligt att AI-teknik använts för att skräddarsy vilka annonser som ska visas för just dig på sociala medier. Det går knappt att undvika framgångshistorier om AI-system och deras förmåga att lösa komplicerade problem mycket snabbare än den mänskliga motsvarigheten. Däremot finns det fortfarande områden som har problem med att inkorporera AI-system i deras arbetsprocess på grund av att dagens AI- system är, i många fall, så kallade black-box system; d.v.s att användaren inte vet hur systemet arbetar.

Inom sjukvården har black-box systemen blivit ett stort problem, vilket i många fall haltar inkorporeringen av AI-system i deras arbetsprocess trots att AI-system sägs ha stora möjligheter att positivt påverka kliniska upplevelser och människors hälsa. Eftersom dagens AI-system inte erbjuder förklaringar till utfallen har det resulterat i en ovilja hos slutanvändaren.

Forskningsområdet eXplainable AI menar att genom att använda genererade förklaringar kan AI- systemen bli mer transparenta för slutanvändaren; vilket sägs öka tillit till och förståelse för systemen. Ett område inom sjukvården som positivt skulle påverkas av införandet av AI-system, genom kliniska beslutsstöd, är vid diagnostik av sepsis där en tidig och korrekt diagnostisering drastiskt kan minska mortaliteten av sjukdomen.

Syftet med denna studie är därför att undersöka hur en förklaring kan designas för att främja tillit och förståelse för ett AI-baserat kliniskt beslutsstöd menat för diagnostik av sepsis. För att uppnå syftet med studien tog en undersökningsdesign fram som bestod av en förstudie, framtagande av en mid-fi prototyp och användarupplevelsetest. Datainsamlingsteknikerna som använts under studien var två enkäter, en utökad litteraturstudie och observationer. Insamlad data analyserades varefter resultat kunde tas fram i form av generella egenskaper en förklaring bör följa. Resultatet från denna studie visar stora möjligheter att kunna appliceras inom andra områden som kan ta nytta av förklaringar som främjar tillit till och förståelse för AI-system.

(5)

Innehållsförteckning

1.Inledning...1

2.Bakgrund...3

2.1.AI & Explainable AI...3

2.1.1.Förklaringar...5

2.1.2.Explainable AI inom sjukvård...7

2.2.Sepsis...8

2.3.User experience design (UX)...9

2.3.1.XAI & UXD...12

3.Problemprecisering...13

3.1.Avgränsningar...15

4.Metod, planerat & praktiskt genomförande, analys & delresultat...16

4.1.Undersökningsdesign...16

4.2.Enkät...18

4.2.1.Planerat genomförande enkät...18

4.2.2.Praktiskt genomförande enkät...18

4.2.3.Analys & delresultat enkät ...19

4.3.Litteraturstudie...25

4.3.1.Planerat genomförande litteraturstudie...25

4.3.2.Praktiskt genomförande litteraturstudie...26

4.3.3.Analys & delresultat litteraturstudie ...26

4.4.Prototyp...30

4.4.1.Konceptskiss...30

4.4.2.Framtagande av prototyp...31

4.4.3.Heuristisk utvärdering av prototyp...32

4.4.4.Delresultat heuristisk utvärdering ...33

4.5.Användarupplevelsetest...34

4.5.1.Planerat genomförande användarupplevelsetest...34

4.5.2.Praktiskt genomförande användarupplevelsetest...36

4.5.3.Delresultat pilotstudie...37

4.5.4.Analys & delresultat användarupplevelsetest...39

5.Slutresultat...45

6.Diskussion & Slutsats...47

6.1.Tillit & Förståelse...47

6.2.Metoddiskussion...48

6.3.Samhälleliga & etiska aspekter ...50

6.4.Slutsats...50

7.Framtida arbete...52

Referenser...53

Bilagor...57

(6)

1. Inledning

Det lyder ingen tvekan om att artificiell intelligens (AI) är här för att stanna. Idag finns AI- system överallt i samhället, även om vi kanske inte alltid noterar dem. Exempelvis är det högst troligt att AI-teknik använts för att skräddarsy vilka annonser som ska visas just för dig på t.ex. Facebook och Twitter. Det finns ett flertal framgångshistorier om AI-system och deras förmåga att lösa komplicerade problem inom många olika domäner. Samek och Müller (2019) skriver att AI-system utmärker sig genom att utklassa människans egna kognitiva förmåga i vissa avseenden men att de även kan användas för att komplettera människan vid utförandet av komplexa uppgifter. Hind (2019) menar att vissa AI-system har blivit såpass komplexa att utvecklarna själva INTE kan beskriva hur systemets arbets- och beslutsprocess har gått till.

Däremot finns det domäner där AI-system har det svårare att implementeras, till exempel inom sjukvården och rättsväsendet. Svårigheterna grundar sig i anledningen att AI-system oftast har en “black-box” karaktär (Samek och Müller, 2019). Detta innebär att användare av dessa system inte riktigt vet varför eller hur AI-systemen har arbetat för att generera ett beslut eller rekommendation. Det kanske inte spelar någon större roll om användaren vet hur ett AI- system tog fram en skräddarsydd annons, men för andra typer av uppgifter kan en förståelse för den underliggande tekniken vara avgörande för systemets applicering och användande;

det vill säga inom domäner där system kan ha en direkt eller indirekt påverkan på individers hälsotillstånd. Ett exempel på hur AI-teknik använts på ett felaktigt sätt inom rättsväsendet har bland annat rapporterats av Van Voris (2019) där ansiktsigenkänningsteknik hade kopplat en oskyldig människa till ett brott.

Inom sjukvården har användandet av AI-system begränsats på grund av bland annat algoritmisk partiskhet; studier har exempelvis påvisat att algoritmer aktivt diskriminerat icke-vita människor (Hajian m.fl., 2016); men även nya regelverk såsom GDPR, som ställer stora krav på bland annat hur patientdata hanteras och hur hanteringen förmedlas. Detta trots att det finns stora möjligheter för AI-system, genom kliniska beslutsstöd, att positivt påverka både kliniska upplevelser samt människors hälsa (Liu, 2020). Kliniska beslutsstöd agerar oftast inte själva utan snarare rekommenderar sjukvårdspersonalen att fatta specifika beslut.

Dock kan det uppstå problem om användaren inte förstår rekommendationen eller hur systemet faktiskt kommit fram till beslutet. Eftersom det i slutändan är sjukvårdspersonalen som är beslutsfattare, är det även de som blir ansvariga om de blint accepterar vad systemet har beräknat; det blir därför viktigt att presentera all data som kan vara relevant i besluttagandeprocessen för sjukvårdspersonalen. Dessutom menar dagens regelverk att det är nödvändigt med mänskliga beslutsfattare vid avgörande beslut angående patienters vård. Då många av dagens AI-system inte erbjuder förklaringar till de rekommendationer som genererats har detta resulterat i en ovilja hos många användare att nyttja dessa system, inte minst inom sjukvården. Ett område inom sjukvården som positivt kan påverkas av införandet av kliniska beslutsstöd är vid diagnostisering av sepsis, där en tidig och korrekt diagnostisering drastiskt kan minska mortaliteten av sjukdomen.

(7)

För att öka transparensen av AI-system har flera olika tillvägagångssätt föreslagits, vissa menar att använda lättförståeliga AI-algoritmer är rätt väg att gå medan andra förespråkar ansatsen att göra resultatet från AI:n mer lättförståelig. Dessa två tillvägagångssätt har olika användningsfall, den första metoden passar sig bättre för AI-utvecklare medan den andra metoden lämpar sig bättre för slutanvändare som kanske inte har en AI bakgrund.

Problem med icke-transparenta AI-system har gjort att forskningsområdet eXplainable AI (XAI) växt fram. Inom detta område ligger ett stort fokus på att generera och designa förklaringar som kan göra AI-system mer förståeliga och på det sättet öka dess transparens.

Begreppet “förklaring” har länge diskuterats inom området för att definiera samt skapa någon typ av konsensus över innehåll och syfte med förklaringar. Innehållsmässigt är det viktigt att en förklaring är anpassad till dess användare och deras kontext för att utnyttjas till fullo (Hind, 2019; Lacave & Díez, 2002). Att nyttja ett user experience (UX) perspektiv i framtagandet av en förklaring kan därför ha en stor påverkan på användarens uppfattning av förklaringen, hur den ska användas samt i vilket kontext förklaringen bör placeras till det problem som ska lösas. Dock så saknas det forskning kring hur förklaringar faktiskt ska designas samt hur de påverkar beslutfattare/användaren vilket därför har blivit denna rapports huvudfokus.

I denna rapport kommer en prototyp tas fram som syftar till att exemplifiera hur förklaringar kan designas för att vårdpersonal ska kunna förstå och lita på ett AI-baserat diagnostikverktyg för sepsis. Med prototypen som grund kommer olika förklaringar att utvärderas tillsammans med sjukvårdspersonal för att kunna dra slutsatser kring vilken typ av förklaring som bemöter deras informationsbehov för att kunna ta ett välinformerat beslut om en patients vård samt främjar förtroende och förståelse för diagnostikverktyget.

Rapporten inleds med en litteraturstudie där begrepp och områden centrala till denna rapport introduceras i avsnitt 2. Fokuset i kapitlet handlar framförallt om att göra AI-system mer transparenta och de tillvägagångssätt som finns för att uppnå det målet samt hur detta kan påverka både slutanvändaren och användandet av AI-system i synnerhet. I avsnitt 3 beskrivs problemområdet, problemformuleringen samt förväntade resultat av studien. Därefter, i avsnitt 4, presenteras metod, planerat och praktiskt genomförande samt analys och delresultat. Då studien genomförts med en iterativ arbetsprocess har dessa valts att sammanställas i ett kapitel. På grund av den rådande situationen med COVID-19 planerades digitala hjälpmedel att användas i utvärderingsprocessen för att undvika kontakt med slutanvändaren. I avsnitt 6 presenteras slutresultatet av studien samt hur detta besvarar studiens frågeställning. Rapporten avslutas med en diskussion där styrkor och svagheter samt samhälleliga och etiska aspekter diskuteras och fortsatta studier föreslås.

(8)

2. Bakgrund

I detta avsnitt presenteras relaterade områden och begrepp. Först introduceras explainable AI och dess tillvägagångssätt för att göra dagens AI-system mer transparenta. Därefter följer en överblick av området sepsis och uttrycker behovet av kliniska beslutsstöd vid dess diagnostisering. Avslutningsvis presenteras user experience och teorier som är nära besläktade till forskningsområdet.

2.1. AI & Explainable AI

Allt mer ökar användningen av artificiell intelligens (AI) i dagens samhälle. Anledningen till detta beror på att AI-system som är baserade på maskininlärning (ML) utmärker sig inom många olika områden där systemen utklassar människans egna kognitiva förmåga i vissa avseenden eller kompletterar människan vid utförandet av komplexa uppgifter (Samek och Müller, 2019). För att poängtera vad maskiner kontra människor är olika bra på tog Paul Fitts fram en lista över påståenden där styrkor och svagheter hos mänskligt kontra maskinellt tänkande togs upp år 1951 (se bilaga 1). de Winter och Hancock (2015) genomförde en studie (n=2948) som syftade till att validera dessa listade styrkor och svagheter i modern tid.

Resultaten från de Winter och Hancocks (2015) studie visar att Fitts lista av påståenden fortfarande är sann än idag. Fitts lista presenteras i de Winter och Hancocks (2015) arbete där det bland annat står att människan har en bättre förmåga att improvisera och vara mer flexibla i utföranden medan maskiner saknar den förmågan; och maskiner är exempelvis bättre på att hantera flera komplexa uppgifter samtidigt än vad människan kan göra. Fortsättningsvis skriver Samek och Müller (2019) att smartphones, onlinetjänster med mera har möjliggjort att AI-system blivit en essentiell del av människans vardag. AI-system har även influerat forskningsvärlden då dessa system har blivit viktiga verktyg gällande förutsägelser av resultat, simulationer eller utforskning av nya fält skriver Samek och Müller (2019). Trots den allt mer ökande användningen av AI-system är det inte många som faktiskt förstår hur dessa system har genererat sina rekommendationer eller resultat. Hind (2019) skriver exempelvis att det finns en ökande komplexitet inom AI-system där till och med domänexperter inte kan förklara hur AI-systemet fick fram ett resultat.

Många av de AI-system som används idag är så kallade “black-box” system (Samek och Müller, 2019). Kenton (2020) förklarar black-box system som system där en användare har svårt att förstå hur inmatade uppgifter genererar ett visst resultat. Vidare skriver Kenton (2020) att begreppet black-box även används för att beskriva fenomen som är svåra att förstå, såsom hur människans hjärna bearbetar olika uppgifter. Vidare skriver Samek och Müller (2019) att inom många användningsområden är problematiken med ett black-box system inte särskilt stor då eventuella felberäkningar inte har en stor påverkan. Däremot fortsätter Samek och Müller (2019) att inom områden som sjukvård och rättsväsende kan en felberäkning få allvarliga konsekvenser för människors liv; exempelvis rapporterar Van Voris (2019) hur en 18-åring stämt Apple då deras ansiktsigenkänningsteknik kopplat hen till brott hen inte begått. I detta fall kan transparens av AI-system eventuellt förhindrat detta scenario helt

(9)

genom att visa varför personen i fråga var kopplad till brottet.

Bristen på transparens hos AI-system menar Samek och Müller (2019) är en av anledningarna till varför AI-system inte blivit dominerande inom vissa områden då just brist på transparens kan minska en människas förtroende för beslut eller resultat genererade från AI-system. För att motarbeta bristen på transparens har två olika tillvägagångssätt växt fram. Det första tillvägagångssättet förespråkar användandet av mer transparenta algoritmer såsom beslutsträd istället för neurala nätverk (Castrounis, U.Å; Gunning & Aha, 2019). Gunning och Aha (2019) poängterar däremot att det ofta måste göras en avvägning vid val av bakomliggande algoritm, då black-box algoritmer ofta är effektiva och presterar väl på många olika typer av problem, men där dess resultat är mer svårbegripliga än de som genererats vid användandet av mer transparenta, men kanske inte lika effektiva, algoritmer såsom regelbaserade sådana eller beslutsträd (Schmelzer, 2019; Gunning & Aha, 2019). Dock hävdar vissa forskare att transparenta algoritmer presterar minst lika väl som black-box algoritmer, varpå ett transparent alternativ därför alltid bör prioriteras vid implementering för att användaren på så sätt enklare ska kunna förstå modellen och dess resultat (Rudin, 2019). Liknande argument presenteras av Barredo Arrieta m.fl. (2020) som skriver att bekymmer med avseende på prestanda inte bör vara det främst prioriterade vid val av algoritm då ökad transparens kan leda till att det blir lättare att se bristerna hos systemet; vilket då enklare kan åtgärdas.

Det andra tillvägagångssättet för att öka AI-systems transparens förespråkar istället generering av förklaringar till AI-systemets resultat, men där algoritmen i sig fortfarande kan vara black-box. Cheng m.fl. (2019) exemplifierar detta tillvägagångssätt genom att visualisera hur ett black-box kontra white-box (motsatsen till black-box) system skulle kunna se ut och fungera där användarna ges möjlighet till en förklaring till varför ett system klassat en student som behörig eller icke-behörig till studier på högskole/universitetsnivå (se figur 1).

Detta tillvägagångssätt innefattar därmed inte några inskränkningar vid val av algoritmer, och fokuset läggs istället på hur ett resultat visuellt kan presenteras och förklaras för en användare för att på så sätt uppnå systemtransparens.

Figur 1. Black-box gentemot white-box. Från Cheng m.fl. (2019). “Explaining Decision-Making Algorithms through UI:

Strategies to Help Non-Expert Stakeholders”. 2019 Copyright held by the owner/author(s). Publication rights licensed to ACM.

(10)

En drivkraft för vidareutveckling av dagens AI-system menar Dignum (2018) är att implementera etiska aspekter i utvecklingsprocessen. Dignum (2018) har tagit fram tre etiska grundpelare som hen anser bör användas som bas för AI-system: (1) Ansvarsskyldighet (en.

accountability), (2) Ansvar (en. responsibility) och (3) Öppenhet (en. transparency). Dignum (2018) skriver att med dessa tre grundpelare försäkras mänskliga värden och etiska principer i vidareutveckling av AI-system. Likt Samek och Müller (2019) benämner Dignum (2018) transparens som en viktig faktor i vidare utveckling av AI-system, dock med olika syften.

Samek och Müller (2019) menar att transparens gör det möjligt för slutanvändare att förstå den inre arbetsprocessen av ett system samt lära sig hur systemet faktiskt fungerar; medan Dignum (2018) menar att transparens gör det möjligt för intressenter att se vilken typ av data som nyttjas i besluttagandeprocessen; likt det som nu regleras via GDPR (Tesfay m.fl., 2018).

Fortsättningsvis har även forskningsområdet explainable AI (XAI) vuxit fram för att motarbeta bristen på transparens i dagens AI-system. Schmelzer (2019) skriver att XAI har som mål att förklara hur black-box system kommer fram till sina beslut och på det sättet besvara frågorna “varför fattade AI-systemet ett specifikt beslut?” och “varför gjorde inte AI- systemet något annat?” som blivit allt mer förekommande från användare. Samek och Müller (2019) skriver att dagens AI-system generellt sett är black-box och att efterfrågan av XAI blivit större. Skillnaderna mellan ett AI-system och XAI-system behöver inte vara stora, exempelvis kan arbets- och beslutsprocesserna vara snarlika, men där XAI-system till större del fokuserar på att möjliggöra det för en användare att förstå och använda sig av systemets resultat.

Efterfrågan för XAI-system kommer från flera olika domäner och baseras på olika anledningar. Speciellt kommer efterfrågan från domäner där besluten från ett AI-system direkt eller indirekt kan påverka någons liv, exempelvis sjukvården. Deeks (2019) menar att dagens läkare bär rättsligt ansvar när de använder rekommendationer som är genererade av ett black-box system trots att de kanske inte riktigt förstår hur dessa har tagits fram. Samek och Müller (2019) noterar detta som en av anledningarna till varför AI-system inte effektivt applicerats inom sjukvården hittills och att XAI-tekniker skulle kunna möjliggöra detta.

2.1.1. Förklaringar

Ett sätt att göra AI-system transparenta är att erbjuda förklaringar till varför en rekommendation genererats. Dock råder det delade meningar om vad en förklaring är och vad den bör innehålla (Arya m.fl., 2019; Hind, 2019). Olika användare i olika miljöer kan behöva olika typer av förklaringar menar Arya m.fl. (2019), vilket försvårar dess design och implementering. Hind (2019) skriver att en förklaring oftast innehåller någon typ av motivering bakom en handling eller beslut, samt att en lämplig motivering ökar förtroendet för handlingen. För exempelvis en läkare skulle en förklaring kunna ges via uppvisandet av liknande fall med samma karaktäristisk där utfallet av dessa presenteras (Arya m.fl., 2019).

Hind (2019) menar att ett lämpligt tillvägagångssätt är att först förstå användarens behov för att sedan låta AI-systemet formulera en förklaring utifrån behoven. Det är även viktigt att

(11)

systemet talar användarens “språk” för att vidare anpassa förklaringen till den domän där den kommer att användas; exempelvis en förklaring bakom en medicinsk diagnostisering behöver använda termer som är relevanta för läkaren eller patienten (Hind, 2019; Lacave &

Díez, 2002). Trots detta skriver Cheng m.fl. (2019) att en användares förkunskap kring ett algoritmiskt beslut kan påverka om hen faktiskt förstår förklaringen som presenteras av AI- systemet.

Fortsättningsvis skriver Hind (2019) att det är viktigt att förstå vari behovet för en förklaring har sitt ursprung. Hind (2019) skriver att det finns flera AI-forskare som påstår att efterfrågan för XAI är vilselett, forskarna menar att människan själv ofta inte kan leverera en noggrann förklaring till en handling och hävdar därför att det ställs alldeles för stora krav på AI-system inom denna fråga; de påstår även att ett AI-system med hög precision inte behöver förklara sina beslut. Hind (2019) menar att detta är sant i vissa situationer men ser även att det finns en korrelation mellan beslutets inverkan och behovet av en förklaring; d.v.s. inom områden där beslutet direkt eller indirekt kan påverka involverade individer är behovet av en förklaring stort medan det i andra situationer kan spela mindre roll.

Miller (2018) menar att forskningen kring “förklaringar” har mycket att lära sig från området beteendevetenskap (en. social science). Miller (2018) skriver att sättet människor själva ger förklaringar bör inkorporeras i AI-system, exempelvis genom såkallade “contrastive explanations”, det vill säga att förklaringar bör försöka återspegla tidigare fall eller händelser som människan enklare kan relatera till. Fortsättningsvis menar Miller (2018) att det är nödvändigt att förstå varför människor efterfrågar en förklaring för specifika händelser. Den huvudsakliga funktionen av en förklaring är att främja lärande (Miller, 2018). Harmon (1959) skriver att människor söker en förklaring för att förbättra deras förståelse för en händelse för att nyttja detta som en modell för framtida händelser. Miller (2018) skriver att detta byggs på forskning som visar att människor tenderar att ställa frågor angående händelser eller observationer som de själva saknar en förståelse för. Lombrozo (2006) och Wilkenfeld och Lombrozo (2015) noterar dock att förklaringar har flera andra funktioner utöver lärande syfte, såsom att verka övertygande, kunskapsöverföring (en. transfer of knowledge) eller tilldelning av skuld. Det blir även viktigt att notera vilket syfte som finns med en förklaring (Lombrozo, 2006; Wilkenfeld och Lombrozo, 2015). Miller (2018) bygger vidare på detta genom att förtydliga att AI-systemets syfte med en förklaring inte nödvändigtvis är densamma som användarens, exempelvis skulle en användare kanske vilja nyttja förklaringen för att lära sig eller förstå ett beslut medan utvecklaren av AI-systemet inkorporerat en förklaring för att bygga en grund för förtroende till systemet. Därför är det, igen, viktigt att utvecklaren och slutanvändaren talar samma gemensamma språk för att försäkra att förklaringen kan bidra till förtroende, bättre beslut och kanske även möjliggöra en uppdatering av modellen för att bättre spegla domänen.

Lacave och Díez (2002) poängterar även att hur en förklaring presenteras för användaren är en viktig aspekt vid utformandet av förklaringar. Lacave och Díez (2002) skriver däremot att kommunikationen påverkas starkt av interaktionen mellan människa och system. Lacave och Díez (2002) lägger fram ett flertal exempel på system där användaren själv behöver efterfråga

(12)

en förklaring från systemet istället för att per automatik få en förklaring. Vidare skriver Lacave och Díez (2002) att förklaringar kan gestaltas på olika sätt; textuellt (i form av text och siffror), grafiskt (i form av grafer) eller genom att kombinera textuella och grafiska förklaringar med hjälp av exempelvis bilder, video eller ljud. När en förklaring innehåller någon typ av sannolikhet visar forskning även att människor har det enklare att förstå språkliga förklaringar än numerisk data, exempelvis att en patient har “stor chans” istället för

“90%” (Lacave och Díez, 2002).

Yang m.fl. (2020) förespråkar både visuella/grafiska och verbala förklaringar och menar att dessa typer av förklaringar ger en bra grund för en användare att bygga förtroende för ett AI- system. Yang m.fl. (2020) noterar även att det finns en korrelation mellan förståelse och förtroende, d.v.s. att om användaren har en djupare förståelse för ett system är det även större chans att användaren litar på systemet. En väl anpassad förklaring (till slutanvändare) kan därför vara viktig för att motarbeta bristen på transparens. Yang m.fl. (2020) skriver även att förklaringar kan vara skadliga för användare om det finns en missanpassning, d.v.s. att en förklaring som användare själva inte förstår istället kan göra mer skada än nytta med att påverka användarens förståelse och förtroende. Liao m.fl. (2020) och Hind (2019) skriver att det därför är viktigt att designers känner till sina användare och i vilken situation förklaringen ska användas och hur. Liao m.fl. (2020) menar även att välanpassade förklaringar till användare är viktigt för att inte överösa dem med information som eventuellt inte är relevant i den kontext där de ska användas. För att göra anpassning till användare enklare har Hind (2019) delat upp användare i fyra olika grupper; Grupp 1: AI-systemutvecklare; Grupp 2:

Slutanvändare som även är beslutsfattare (en. End-user decision makers); Grupp 3:

Rättsväsendet (en. Regulatory bodies); Grupp 4: Slutkonsumener (en. End-consumer). Hind (2019) skriver att dessa grupper har olika behov av förklaringar, exempelvis har en AI- utvecklare som oftast andra krav på en förklaring än en slutanvändare utan AI-erfarenhet.

2.1.2. Explainable AI inom sjukvård

Även inom sjukvården ses en ökning av användandet av en rad olika AI-system. Murdoch och Detsky (2013) skriver att det endast är en tidsfråga innan AI finns överallt inom sjukvården. AI-system inom sjukvården används främst som beslutsstöd för läkare, det vill säga att systemet inte tar några egna beslut. Trots att det finns stora fördelar med att införa AI-system i flera områden av sjukvården menar Ahmad m.fl. (2018) att black-box problemet är ett av hindrena för vidare implementation. Problemet med black-box system beror på att läkare inte får möjligheten att vidare undersöka, förstå eller felsöka eventuella resultat vilket i sin tur leder till att riskerna vid användning av sådana AI-system blir alldeles för stora menar Ahmad m.fl. (2018). Författarna skriver även att låta AI-system ge en förklaring bakom en handling gör det möjligt för läkarna att acceptera eller avvisa eventuella prognoser och rekommendationer. Detta gör att läkarna blir de slutliga beslutfattarna, något som visat sig vara viktigt då granskningar av AI-systems användande inom sjukvård och rättsväsende påvisat brister såsom partiskhet skriver Burrell (2016).

För att designa för ett gott samarbete mellan människa och AI-system kan Fitts lista (de Winter & Hancock, 2015) nyttjas. Listan påvisar exempelvis att människor har en bättre

(13)

förmåga att improvisera samt vara flexibla i användandet av metoder, medan ett AI-system är bättre på att lösa flera olika komplexa uppgifter samtidigt (de Winter & Hancock, 2015). Till exempel kan AI-system inom sjukvården användas för att beräkna sannolikheten att en patient lider av en specifik sjukdom baserat på tidigare patientdata för att låta sjukvårdspersonal fokusera på andra aspekter av behandlingen. Däremot är det viktigt att sjukvårdspersonal fortfarande innehar rollen som den slutliga beslutsfattaren vid vård av en patient då ett beslut direkt eller indirekt påverkar patientens hälsotillstånd. För att underlätta för beslutsfattaren menar Zhang m.fl. (2020) att en ökad transparens av systemets brister skulle kunna göra det möjligt för sjukvårdspersonal att veta när en systemgenererad rekommendation bör följas eller avvisas.

Liu (2020) skriver att utvecklingen av kliniska beslutsstöd som är baserade på AI-system har enorm potential att både förbättra kliniska upplevelser och influera den mänskliga hälsan genom att genomföra uppgifter både snabbare och billigare. AI-system har redan applicerats inom sjukvården i USA där algoritmer används för att kunna identifiera symptom hos patienter samt även diagnostisera dessa och rekommendera åtgärder (Liu, 2020). Dock är det viktigt att poängtera att AI-system inom sjukvården inte är tänkta att ersätta läkare skriver Liu (2020). Detta är viktigt då ett kliniskt beslutsstöd endast fungerar som en källa för rekommendationer eller förutsägelse av potentiell sjukdom och det är läkaren som i slutändan avgör om rekommendationerna ska följas eller inte.

Fortsättningsvis skriver Ahmad m.fl. (2018) att det inte bara är riskerna med black-box system som försvårar implementationen av AI-system inom sjukvården utan även att tidig utveckling och testning av dessa system stoppas av medicinska och etiska krav, lagar och regulationer. Utmaningarna inom etik, lagar och regulationer är dessutom unika för sjukvården då dessa kan ha en direkt påverkan på en patients välmående fortsätter Ahmad m.fl. (2018). Liu (2020) benämner data ämnad för att träna AI-system som ett hinder för utveckling av AI-system inom sjukvården då detta väcker oro angående användandet av personlig data och integritet. Detta bekymmer lägger sig även bakom lagar angående användandet av personlig data, Tesfay m.fl. (2018) skriver exempelvis att GDPR kräver att organisationer eller sjukvård som nyttjar just patientdata måste leverera förklaringar vid begäran (en. on demand). Lagar som GDPR har därför ställt krav som möjligtvis inte kan uppnås, vilket i sin tur resulterar i att organisationer och sjukhus även riskerar att straffas vid användandet av AI-system. Med andra ord är utvecklingen av XAI väl efterfrågat inom sjukvården för att undvika eventuella påföljder skriver Ahmad m.fl. (2018).

2.2. Sepsis

Sepsis, även kallat blodförgiftning, är en svår sjukdom att diagnostisera, dels på grund av flera variabler som behöver has i åtanke men även på grund av att sjukdomen etablerar sig på olika sätt. Sepsis kan även bero på flera olika orsaker, till exempel virus, bakterier eller svamp. En patient med sepsis kan ha vissa symptom medan andra inte alls har dem (Skaraborgs sjukhus, 2017). Att kunna diagnostisera någon med sepsis har liknats vid ett pussel - en läkare måste försöka se helheten trots att flera pusselbitar kan saknas (Skaraborgs

(14)

sjukhus, 2017) Sedan 2016 används definitionen av sepsis-3 som lyder: “Livshotande organsvikt orsakad av ett felreglerat immunförsvar mot en infektion” (Skaraborgs sjukhus, 2017), denna definition kommer därför att användas i denna rapport.

Sepsis är en väldigt allvarlig sjukdom med en hög mortalitetsrisk. På Skaraborgs Sjukhus (SkaS) avlider årligen ca 12% (n=2000/år) av alla inlagda patienter till följd av sepsis. Sepsis är jämförelsevis en vanlig sjukdom, exempelvis drabbas lika många patienter av sepsis som med akut hjärtinfarkt, men där mortaliteten hos sepsis är fem gånger högre (Skaraborgs Sjukhus, 2017). För att minska mortaliteten har det visat sig att tidig adekvat antibiotikabehandling har stora framgångar, därför är det också viktigt med en snabb och korrekt diagnostisering (Skaraborgs sjukhus, 2017). Idag är tid ett stort hinder i diagnostisering av sepsis, detta på grund av att blododlingar som avslöjar om bakterier finns i blodet eller inte tar upp till 20-48 timmar (Högskolan i skövde, u.å). Resultatet från blododlingen ger dock viktig information, till exempel vilken antibiotikakänslighet vissa bakterier har i en positiv blododling skriver Högskolan i Skövde (u.å).

Vid diagnostisering av sepsis använder sig sjukvårdspersonal av flera olika vitalparametrar samt ett såkallat ”sequential organ failure assessment” (SOFA) poängsystem skriver Flam och Oldner (2017). Poängsystemet är baserat på sepsis-3 definitionen. SOFA består av flera riktvärden som en läkare bör följa för att besluta om patienten har någon typ av organsvikt, till exempel om patientens bilirubin överstiger 102 i värde får patienten 3 SOFA (Flam &

Oldner, 2017).

För att minska tiden för diagnostisering har ett samarbete mellan fem EU-länder tagit fram ett instrument som utifrån ett blodprov snabbare kan hitta bakterier rapporterar TV4 (2020).

Utöver detta ska även ett kliniskt beslutsstöd implementeras för att underlätta läkarnas arbets- och besluttagandeprocess (Skaraborgs sjukhus, 2017). Det finns flera positiva effekter av implementation av ett kliniskt beslutsstöd, bland annat att vårdriktlinjer följs, att en diagnos kan ske snabbare samt med färre medicinska fel hävdar Skaraborgs sjukhus (2017). Däremot finns det även nackdelar med kliniska beslutsstöd som grundar sig i att beslutsstöden inte nyttjat användarcentrerad design i utvecklingen (Helldin, Pernestig & Tilevik, 2017). Detta har resulterat i att (1) användarna själva inte vet hur systemet ska användas, (2) integrering av beslutsstöden visar inte hänsyn till användarnas normala arbetsflöden, (3) användarna litar inte på systemet och (4) rädsla av att tappa förmågan att ta beslut utan stödet (Helldin m.fl., 2017).

2.3. User experience design (UX)

User experience (UX) design är ett snabbt växande område både inom forskningsvärlden och arbetslivet. Däremot är det inte alltid självklart vad UX faktiskt är, speciellt inom arbetslivet där UX ofta används synonymt med user interface (UI) design och användbarhet skriver Interaction design foundation (U.Åa). Trots att dessa två begrepp är väldigt viktiga inom UX är de endast delområden (Interaction design foundation, U.Å). En UX-designer är med i hela utvecklingsprocessen av en ny produkt, alltifrån varumärkesutveckling (en. branding) till

(15)

funktionalitet fortsätter Interaction design foundation (U.Åa). UX-processen används av designteam för att skapa en meningsfull och relevant upplevelse för användaren (Interaction design foundation, U.Åa). Dock är det viktigt att förstå att vad som anses vara en meningsfull och relevant upplevelse för en användare kanske inte är densamma för en annan, detta är bara ett av många bekymmer som en UX-designer kan stöta på inom ett utvecklingsprojekt.

Kaasinen m.fl. (2015) påpekar att på grund av den subjektiva naturen av upplevelser så saknas det kriterier kring vad som kan anses vara en god alternativt dålig upplevelse; jämfört med design för användbarhet som har mätbara kriterier som effektivitet, tillfredsställelse och prestanda. Dessutom skriver Kaasinen m.fl. (2015) att de flesta produkterna avser att främja olika upplevelser vilket inte gör det lättare att etablera kriterier. Fortsättningsvis behöver en UX-designer besvara frågor som vad, varför och hur en användare kan tänka sig nyttja en produkt (Interaction design foundation, U.Åa).

UX-design är en iterativ process (se figur 2) där det kontinuerligt itereras tills produkten möter en standard som intressenter är nöjda med skriver Interaction design foundation (2021b). Det första stadiet i UX-processen är att genomföra en användarundersökning. Detta kommer göra det möjligt att förstå användarens arbete men även vilka behov användaren har utav produkten. Genom att förstå användaren kan även UX-mål etableras. Kaasinen m.fl.

(2015) skriver att UX-mål beskriver de känslor som är eftersträvansvärda i relation till användning av en produkt eller service. För att koppla detta samman med XAI kan förklaringar bidra med tillfälliga eller långvariga känslor av tillit till ett system. Kaasinen m.fl. (2015) beskriver att det finns två olika typer av UX-mål, hedoniska- och pragmatiska mål. Hassenzahl (2010) definierar skillnaden mellan dessa olika mål genom att förklara framförallt vad hedoniska mål är; författaren skriver att hedoniska mål motiverar handlingar och ger dem mening. Hassenzahl och Tractinsky (2002) menar att pragmatiska mål inom UX handlar om de praktiska egenskaperna, exempelvis hur interaktiva produkter fungerar, medan hedoniska mål har mer fokus på mjuka aspekter som stimulation av en produkt; till exempel att ens kunskap inom ett område växer. Preece m.fl. (2015) skriver att UX-mål har framförallt fokus på hur användaren upplever interaktiva produkter från ett subjektivt perspektiv. Vissa positiva UX-mål kan exempelvis vara att användaren upplever en produkt som hjälpsam, tillfredsställande m.m. (Preece m.fl., 2015). Detta blir även skillnaden mellan UX-mål och användbarhetsmål (en. usability-goals), då användbarhetsmål hjälper till att definiera hur användbart eller effektivt ett system faktiskt är skriver Kaasinen m.fl. (2015). Genom att formulera goda UX-mål kan även dessa mål fungera som vägledning vid design av en positiv upplevelse (Kaasinen m.fl., 2015).

(16)

Figur 2. En överblick av UX-processen, varje steg innehåller vissa delmoment, exempelvis förstå användarens behov omfattar även etablering av krav och UX-mål. Inspiration tagen från figur presenterad i https://ogilvy.medium.com/the-ux-

design-process-what-clients-need-to-know-d6ed00d0b977

I det andra och tredje stadiet av UX-processen genereras framförallt designförslag där bland annat UX-målen kan nyttjas. Genom att etablera behov samt mål redan innan designstadiet kan en mer anpassad första prototyp tas fram. En prototyp, enligt Preece m.fl. (2015), tillåter intressenter att interagera med produkten i ett tidigt skede av utvecklingen för att utforska produktens lämplighet i en specifik kontext. Prototyper kan även fungera som ett kommunikationsverktyg mellan intressenter och utvecklare för att tydliggöra och utvärdera olika idéer, för att vidareutveckla detta kan även prototyper användas för att bana väg åt den slutliga produkten skriver Preece m.fl. (2015). Det finns även olika prototyptyper, low-fi, mid-fi och high-fi. Dessa typer skiljs åt från varandra i framförallt utformning, d.v.s. en low- fi prototyp kontra high-fi kan se olika ut samt innehålla olika typer av funktionaliteter (Preece m.fl., 2015). De olika prototyptyperna lämpar sig även bäst i olika situationer, exempelvis kan en low-fi prototyp vara bra att nyttja tidigt i utvecklingsfasen för att tydligt se hur man bör gå vidare med design och funktionalitet menar Preece m.fl. (2015).

Slutligen i UX-processen genomförs en UX-utvärdering där designers och användare tillsammans utvärderar den framtagna produkten. Preece m.fl. (2015) skriver att en utvärdering av prototypen tillsammans med användaren genomförs för att samla in data som kan förbättra produktens design. En utvärdering fokuserar både på produktens användbarhet samt användarens upplevelse medan hen interagerar med produkten (Preece m.fl., 2015).

Däremot finns det flera olika typer av utvärderingsmetoder och det är viktigt att förstå vilken metod som lämpar sig bäst i vilket sammanhang. Wilson (2013) nämner att vissa metoder lämpar sig bättre tidigt i utvecklingsprocessen, medan andra är mer lämpliga vid senare utvärdering. Exempelvis kan en heuristisk utvärdering nyttjas under alla stadier av en utvecklingsprocess medan en formell användbarhetsinspektion (en. Formal Usability Inspections) lämpa sig bättre för tidigare stadier av utvecklingsprocessen (Wilson, 2013).

Vidare skriver Wilson (2013) att olika typer av utvärderingar kan kräva olika mycket ansträngning och erfarenhet att genomföra.

(17)

2.3.1. XAI & UXD

Det finns många likheter mellan UX och forskningen gjord inom XAI. Det nämns exempelvis av Interaction design foundation (u.åa) att en UX-designer behöver besvara frågor som vad, varför och hur en användare kan tänka sig använda en produkt. Dessa frågor är även relevanta i forskningen och utvecklingen av förklaringar och hur AI-system kan upplevas som transparenta för sina användare. Exempelvis menar Hind (2019), Arya m.fl. (2019) och Liao m.fl. (2020) att förklaringar bör vara anpassade till slutanvändarens ändamål. En anpassad förklaring kan bland annat bidra till en djupare förståelse för hur ett system fungerar. Detta blir viktigt då Yang m.fl. (2020) noterar att det finns en korrelation mellan djup förståelse och tillit till ett system, alltså att en användare som förstår ett system tenderar till att ha större tillit till systemet.

Vid design för användbarhet finns det generella kriterier som bör eftersträvas för att uppnå en bra användbarhet; prestanda, effektivitet och tillfredsställelse skriver Kaasinen m.fl. (2015).

Dock finns det inte generella kriterier vid design av en upplevelse då olika produkter bemöter olika typer av upplevelser fortsätter Kaasinen m.fl. (2015). Liknande detta menar Arya m.fl.

(2019) att det inte finns en generell standard för hur en förklaring bör formuleras då användarens behov ändrar innehållet av förklaringen. Genom detta kan slutsatsen dras att förklaringar framförallt bör bemöta subjektiva känslor hos användaren, d.v.s att det är upp till individen att bestämma om förklaringen främjar exempelvis förtroende och därför kan en upplevelsedriven design nyttjas i framtagandet av välanpassade förklaringar.

(18)

3. Problemprecisering

Utifrån det material som presenterats i bakgrunden lyder det ingen tvekan att AI-system är här för att stanna. Samek och Müller (2019) benämner till och med AI-system som en essentiell del av människans vardag. Dock finns det områden där implementationen av AI- system har rapporterats som svår. Ett av dessa områden är sjukvården, vilket därför kommer att bli rapportens problemområde. Liu (2020) nämner exempelvis att kliniska beslutsstöd som är baserade på AI-teknik har möjligheten att förbättra kliniska upplevelser och positivt påverka den mänskliga hälsan genom att utföra uppgifter både snabbare och billigare. Bland annat uttrycker Skaraborgs sjukhus (2017) att det kan vara livsavgörande för en patient med sepsis att diagnostiseringen genomförs snabbt och korrekt vilket tyder på att sjukvården kan ha stor nytta av AI-system i form av kliniska beslutsstöd.

Svårigheterna som AI-system stöter på vid implementation inom sjukvården är varierande, bland annat är ett av de större hindrena faktumet att beslut kan direkt eller indirekt påverka inblandade individers liv. System inom sjukvården är rådgivande, ger rekommendationer, d.v.s. de agerar vanligtvis inte själva. Det finns även krav, utifrån GDPR, som säger att system inom denna domän MÅSTE vara transparenta för att kunna användas (Tesfay m.fl., 2018). GDPR är därför ett stort problem för AI-system, framförallt faktumet att de generellt sett är black-box ställer till det (Samek och Müller, 2019). Black-box gör det svårare för användare att förstå hur systemet har genererat ett beslut eller rekommendation, vilket i sin tur kan göra det svårt för användaren att lita på systemet. Ett problem som ofta rapporteras vid inkorporering av beslutsstöd i kliniska användningsområden är att det saknas en användarcentrerad design i utvecklingen av dessa system (Helldin m.fl., 2017). Detta menar Helldin m.fl. (2017) kan resultera i att slutanvändare inte litar på systemet eller tvivlar på sin egna förmåga att fatta beslut utan stödet. Båda problemen går att lösa med ökad transparens.

Litteraturen tyder på att det finns framförallt två tillvägagångssätt för att motarbeta bristen på transparens; (1) Använd tolkningsbara AI-algoritmer och (2) Visualisera/förklara resultatet genererat av ett system. Utifrån användargrupperna presenterade av Hind (2019) blir det tydligt hur dessa tillvägagångssätt gynnar olika typer av användare; exempelvis resonerar Hind (2019) att AI-experter har möjlighet att kunna tillgodogöra sig förklaringar av det första slaget, medan användare utan AI-kunskap har större nytta av förklaringar av det andra slaget.

En av följderna av ökad transparens inom AI-system sägs vara en djupare förståelse för hur systemet genererar sina rekommendationer eller beslut.

För att AI-system ska upplevas som “transparenta” för sina användare är det av stor vikt att undersöka vad som menas med “transparens” för just denna användargrupp, d.v.s.

sjukvårdspersonal. Då AI-system inom sjukvården agerar som beslutsstöd och inte per automatik genomför beslut, utan snarare genererar rekommendationer för beslutsfattare är metod (2) av extra intresse för att öka transparensen. Denna metod passar även användargruppen då vårdpersonal oftast inte är AI-experter.

Litteraturen visar att erbjuda förklaringar för användare är ett sätt att göra AI-system mer

(19)

transparenta. Däremot har mycket av forskningen inom förklaringar fokuserat på att definiera vad en förklaring faktiskt är (Liao m.fl., 2020). Detta har gjort att lite forskning har ägnats åt att gestalta hur en förklaring kan presenteras för att bemöta slutanvändarens behov. Dock är det viktigt att nämna att forskningen även visar att användarcentrerad design vid design av förklaringar är en viktig aspekt (Hind, 2019; Arya m.fl., 2019). Det är även viktigt att förklaringen talar användarens “språk” för att vidare anpassa förklaringen utifrån användaren.

På detta sättet kan onödig information undvikas och således minska den kognitiva belastningen av en förklaring. Lacave och Díez (2002) nämner att det finns flera tillvägagångssätt att kommunicera förklaringar, däremot är grafiska- samt textuella förklaringar av extra intresse i denna rapport; med anledning av att även Yang m.fl. (2020) skriver att dessa typer av förklaringar har goda förutsättningar att öka förtroende hos användaren för AI-system.

Utifrån detta har följande frågeställning formulerats:

➢ Hur bör en förklaring till ett AI-baserat kliniskt beslutsstödssystem för diagnostik av sepsis designas för att främja sjukvårdspersonals förståelse för och tillit till systemet?

För att besvara frågeställningen har delfrågor identifierats:

➢ Vilket informationsbehov har sjukvårdspersonal av en förklaring för att fatta ett informerat beslut?

➢ Hur bör förklaringen designas i termer av visuella och textuella komponenter?

Delfrågorna hoppas sedan i stora helheten hjälpa besvara den övergripande frågeställningen för studien. För att besvara samtliga frågor kommer detta arbete följa UX-processen som beskrivits i avsnitt 2.3. Första steget av processen kommer därför att bli att genomföra en förstudie för att förstå vilka behov samt vilken information som kan anses vital för sjukvårdspersonal i deras beslutsprocess. Det kommer även att genomföras en ytterligare litteraturstudie för att förstå hur tidigare forskning menar att en förklaring bör designas, utifrån detta skapas sedan designriktlinjer som vägleder framtagandet av en mid-fi prototyp.

Syftet med mid-fi prototypen blir därför att exemplifiera hur olika typer av förklaringar kan designas och därmed endast fungera som ett kommunikations- och utvärderingsverktyg.

Prototypen gör det därmed enklare att se hur vissa idéer och funktionaliteter lämpar sig i den givna kontexten av diagnostisering av sepsis.

Den övergripande frågeställningen ovan betonar arbetets fokus på hedoniska upplevelser, d.v.s. upplevt tillit till och förståelse för ett AI-system. För att undersöka om dessa mål uppnås genomförs därför ett användarupplevelsetest som medföljs utav en enkät som består utav påståenden och öppna frågor för att kunna dra slutsatser om framtaget förslag uppnår studiens syfte.

Genom att följa ovan beskrivet tillvägagångssätt för att besvara frågeställningen är förhoppningen att denna rapport kommer att påvisa att en användarcentrerad design vid framtagandet av förklaringar visar positiva framgångar för att främja tillit till och förståelse för AI-baserade kliniska beslutsstöd hos sjukvårdspersonal. Studien kommer troligen även

(20)

påvisa riktlinjer som lämpar sig vid framtagandet av förklaringar för att möjliggöra vidare undersökning hur dessa riktlinjer kan lämpa sig inom andra kontexter.

3.1. Avgränsningar

Vissa avgränsningar har gjorts i problempreciseringen för att specificera frågeställningen.

Bland annat kommer endast ett tillvägagångssätt för att öka transparensen vara i huvudfokus under studiens gång, d.v.s. att erbjuda förklaringar till AI-systemets resultat. Detta gör även att endast en av fyra användargrupper nämnda av Hind (2019) kommer att vara i fokus.

Rapporten kommer heller inte att definiera ordet förklaring då tidigare litteratur poängterar att mycket forskning inom det området redan har gjorts.

(21)

4. Metod, planerat & praktiskt genomförande, analys

& delresultat

I metodkapitlet förklaras metodansatsen genom en undersökningsdesign (se figur 3) där val av förstudie, prototyp och användarupplevelsetester redogörs och beskrivs för att besvara de frågor som presenterats i problempreciseringen (se kapitel 3.). Metodkapitlet redogör även för det planerade genomförandet av förstudien, framtagande av konceptskiss samt prototyp och användarupplevelsetest. Det praktiska genomförandet och analys och delresultat presenteras också i detta kapitel.

4.1. Undersökningsdesign

För att besvara frågeställningen kommer UX-processen, presenterad i avsnitt 2.3., att användas. UX-processen omfattar flera steg av utveckling och har användaren i fokus av varje steg. Utifrån UX-processen har följande metodansats (se figur 3) tagits fram för att tydligare visa arbetsprocessen för specifikt denna rapport. Metodansatsen har designats för att få en djupare kunskap av slutanvändarens behov av en förklaring samt hur förklaringen påverkar användarens tillit till och förståelse för ett kliniskt beslutsstöd vid diagnostik av sepsis. Det blir därför viktigt att samla in väsentlig data från denna rapports användargrupp, vilket är sjukvårdspersonal som besitter kunskap kring de vitalparametrar som är viktiga vid diagnostisering av sepsis.

Grunden till metodansatsen är en fallstudie där olika typer av förklaringar kommer att studeras och hur dessa kan påverka en slutanvändares tillit och förståelse till ett system.

Specifikt i denna rapport handlar det om sjukvårdspersonalens tillit till och förståelse för ett kliniskt beslutsstöd som hjälper vid diagnostisering av sepsis. En fallstudie lämpar sig för denna studie då det tillåter forskaren att skapa en omfattande förståelse av ett specifikt fall (Newcomer m.fl., 2015; Patton, 2014). Välstrukturerade fallstudier är både holistiska och kontextkänsliga (en. context sensitive) skriver Patton (2014). Författaren menar att kontexten fullbordar helheten och jämför en kvalitativ studie utan att inkludera kontext med en fin tavla utan ram. Patton (2014) menar att utan visa hänsyn till kontexten kan studiens syfte ändras, d.v.s. att en fallstudie är kontextkänslig. Fallstudier inkorporerar flera olika datainsamlingstekniker för att skapa en djupgående förståelse för problemet som undersöks samt den givna kontexten (Newcomer m.fl., 2015). Fördelen med att genomföra en fallstudie är att ansatsen är väldigt flexibel och ger möjlighet att samla data från flera olika källor för att ge en rik analys och värdefull insikt till undersökningen i fråga (Newcomer m.fl., 2015).

Figur 3. Illustrerar ordningsföljden av de olika delarna i undersökningsdesignen.

(22)

Såsom Figur 3 illustrerar påbörjades studien med att genomföra en förundersökning med hjälp utav en enkät och en litteraturstudie. Förundersökningen syftade till att etablera vilket informationsbehov slutanvändaren har av en förklaring samt vilka designriktlinjer som tidigare forskning har påvisat kan främja tillit och förståelse med hjälp av förklaringar; detta resultat användes sedan för att skapa en konceptskiss för att vidareutvecklas till en mid-fi prototyp vilket är en prototyp som befinner sig mellan low-fi och high-fi stadierna av utvecklingen (Engelberg & Seffah, 2002). En enkät ansågs vara lämplig till förstudien med anledning att en enkät kan distribueras till flera respondenter samtidigt vilket gör att mängden data som samlas in blir större än vad andra datainsamlingstekniker hade gjort såsom intervjuer som dessutom tar längre tid att genomföra (Preece m.fl., 2015). Som komplement till enkäten användes en litteraturstudie för att försäkra att redan etablerade designriktlinjer kunde återanvändas i utvecklingsfasen.

När en färdig mid-fi prototyp hade tagits fram genomgick prototypen en heuristisk utvärdering som följde Nielsens (1994) 10 heuristiker för att utvärdera användbarheten av prototypens gränssnitt. En heuristisk utvärdering lämpade sig för arbetet eftersom en utvärdering nödvändigtvis inte tar särskilt lång tid att genomföra samt att den lämpar sig bra för att hitta generella brister i gränssnittet. De brister som upptäcktes antecknades för att sedan iterera lösningar till bristerna i prototypen innan ett följande användarupplevelsetest kunde genomföras. Första stadiet av användarupplevelsetestet var att genomföra ett pilottest för att försäkra författaren av denna rapport att teststrukturen samt prototypen var av tillräckligt god kvalitet för att möta de mål som sattes upp för testet. Målen inkluderade bland annat att prototypen och förklaringarna skulle främja tillit och förståelse. Pilottestet genomfördes tillsammans en praktiserande sjuksköterska. Utifrån pilottestet itererades prototypen en ytterligare gång utifrån det resultat pilottestet visade för att försäkra att följande tester kunde uppnå det huvudsakliga målet med studien. Under testerna genomfördes en observation över hur deltagaren använde prototypen. Dessutom fick deltagaren besvara ytterligare en enkät innehållande påståenden och likertskalor för att kvantifiera deltagarnas upplevda tillit till prototypen. Denne enkät innehöll även öppna frågor där deltagarna utförligt fick besvara frågor angående preferenser samt vilken vital information som saknades.

Arbetet omfattade kvalitativa datainsamlingstekniker då frågeställningarna specifikt centrerar kring informationsbehov och subjektiva känslor som tillit och förståelse. En kvalitativ datainsamling brukar även resultera i ett detaljerat datamaterial - något som författaren av denna rapport ansåg var av stor vikt för att kunna besvara studiens frågeställning.

Datainsamlingen omfattade därför framförallt öppna frågor för att samla in rikligt med data och satte inte några förväntningar på eventuella svar (Preece m.fl., 2015). Genom att använda öppna frågor var den insamlade datan mycket komplex och omfattande (Patton, 2014).

(23)

4.2. Enkät

Planeringen och praktiskt genomförande av enkäten presenteras i detta delkapitel.

4.2.1. Planerat genomförande enkät

Enkäten (se bilaga 2) skapades med syftet att skapa en grundläggande förståelse för användarens behov av en förklaring. Enkätsvaren hjälpte sedan till att skapa krav utefter slutanvändarens informationsbehov för skapandet av prototypen i senare skede av arbetet.

Följebrevet (se bilaga 3) för enkäten formulerades utifrån fyra forskningsetiska principer presenterade av Vetenskapsrådet (2018); principerna är tillförlitlighet, ärlighet, respekt och ansvar. Dessa principer finns till för att ge forskare vägledning i bland annat praktiska problem som är förenade med forskning (Vetenskapsrådet, 2018). Dessa principer användes för att styrka tryggheten och öka förståelsen hur insamlad data skulle behandlas.

Preece m.fl. (2015) skriver att det finns två fördelar med enkäter, vilket är bland annat insamling av demografisk data (ålder, kön och utbildning) och användarens åsikter. Däremot fokuserar enkäten i detta arbete inte på demografisk data då krav etablerades i följebrevet (se bilaga 3) för att vända sig direkt till menad målgrupp som bestod av den primära (sjukvårdspersonal med kunskap av sepsis) och sekundära (sjuksköterskestudenter med kunskap av sepsis). Genom att utesluta frågor som primärt samlar in demografisk data kunde även respondentens anonymitet bevaras. En nackdel med att inte inkludera frågor ämnade för demografisk data var dock att det inte gick att validera att samtliga respondenter uppfyllde kraven som ställts i följebrevet (se bilaga 3). Enkäten distribuerades därför inom domäner som endast var tillgängliga för sjukvårdspersonal samt sjuksköterskestudenter som var i senare skede av sin utbildning för att försäkra att samtliga respondenter hade en vårdbakgrund. Enkäten fick in 31 svar varav 17 stycken kunde tänka sig att delta i en efterföljande användarupplevelsetest.

Frågorna i enkäten (se bilaga 2) var ämnade att vägleda krav och UX-mål i senare skede av studien. Frågorna centrerades därför kring studiens problemområde och sjukvårdspersonal som hade kunskap om sepsisdiagnostik. De flesta frågor var öppna frågor i hopp om att samla in mycket kvalitativ data trots det faktum att frågorna ställdes via en enkät.

Sammanlagt bestod enkäten av 8 frågor varav 5 var öppna frågor, 2 flervalsalternativ och 1 för att se om respondenten kunde tänka sig att medverka i en uppkommande utvärdering av den framtagna prototypen.

4.2.2. Praktiskt genomförande enkät

Enkäten skickades ut den 2 april, via författaren av denna rapports studentmail, till två olika sjukhus i Västsverige tillsammans med följebrevet för att få kontakt med den primära användargruppen (sjukvårdspersonal). Författaren av denna rapport fick dock inget svar från dessa sjukhus, troligen på grund av den pågående COVID-19 pandemin. Ordförande för en

(24)

sjuksköterskestudentförening vid en svensk högskola kontaktades även, men hen hade inte möjlighet att distribuera enkäten till föreningens medlemmar.

Därför distribuerades även enkäten med tillhörande följebrev till Facebookgruppen

“Sjuksköterskan” som har cirka 34 000 medlemmar - en grupp för legitimerade sjuksköterskor samt sjuksköterskestudenter från och med termin 4. Dessa två användargrupper var arbetets primära och sekundära målgrupp att nå ut till, därför ansågs detta forum lämpligt för denna studie. Då Facebookgruppen är låst för verifierade medlemmar fick studiens enkät med tillhörande följebrev distribueras via en av gruppens administratörer.

Sammanlagt inbringade enkäten 31 svar innan angiven deadline, som var den 16e april, för enkäten från Facebookgruppen. Trots att enkäten hade nått ut till 34 000 personer var svarsfrekvensen mycket låg men ansågs ändå som tillräcklig för studien, därför skickades ingen påminnelse ut inom kanalen där enkäten distribuerades.

För att analysera den kvalitativa datan som samlades in via enkäten användes en top-down metod. Top-down metoden lämpade sig för att analysera förstudiens enkät då metoden möjliggjorde att flera olika underkategorier av respondenter kunde identifieras utifrån helheten; på detta sättet kunde studien försäkra att inga behov från undergrupper gick förlorade.

4.2.3. Analys & delresultat enkät

Enkätanalysen syftade till att få svar på vilka behov slutanvändaren hade för att underlätta diagnostisering av sepsis. De behov som identifierades inom analysarbetet kunde sedan nyttjas för att etablera UX-krav samt innehållsmässiga krav vid design av en förklaring, exempelvis att en förklaring måste innehålla en viss typ av information. I analysen refererades respondenterna som R (R = respondent).

I första hand kategoriseras enkätsvaren med hjälp utav top-down metoden; tillvägagångssättet gjorde det möjligt att först observera att det fanns två huvudkategorier av respondenter vana och icke-vana användare av kliniska beslutsstöd. Dessa grupper kunde sedan ytterligare delas in i tre olika grupper utifrån vilken preferens av journaldata de föredrog; preferenserna som framkom utifrån enkäten var textuella, grafiska eller kombination av både textuella och grafiska beskrivningar. Baserat på detta kunde även dessa grupper kategoriseras utifrån vilken typ av förklaring de skulle föredra vid diagnostik av sepsis. Den sista frågan i enkäten presenterade ett scenario samt två alternativ av förklaringar som innehåller samma typ av data men var olika utformade, ett avancerat alternativ och ett enklare alternativ.

Kategoriseringen genomfördes med hjälp utav att identifiera likheter och skillnader mellan respondenternas enkätsvar.

(25)

Figur 4. Visualisering över kategorisering av respondenter, specifikt “vana” användare.

Respondenter som uttryckte tidigare användning av kliniska beslutsstöd bestod utav 26 (83.9%) personer utav 31 möjliga och fördelningen presenteras i tabell 1 (en respondent inom kategorin ”kombination” svarade inte på vilken förklaring hen föredrog):

Tabell 1. Antalet vana användare under varje kategori samt vilken preferens av förklaring de hade.

Textuella (n=17) Kombination (n=6) Grafiska (n=3)

Avancerad 9 3 2

Simpel 8 2 0

En majoritet av respondenterna som kategoriserades under vana-användare uttryckte att de föredrog textuella beskrivningar/förklaringar vid avläsning av journaldata. 17 stycken (65.38%) av 26 möjliga uttryckte en preferens för textuella förklaringar medan en minoritet (n=3, 11.54%) uttryckte en preferens för endast grafiska förklaringar. 6 stycken föredrog en kombination utav både grafiska och textuella förklaringar vid avläsning av journaldata.

Utav de 17 stycken som föredrog textuella förklaringar var det väldigt jämt fördelat över vilken preferens de hade gällande en mer avancerad förklaring eller en enklare förklaring. En möjlig förklaring till denna fördelning skulle vara att de respondenter som föredrog det enklare alternativet ansåg att den information som presenterats var tillräcklig för att de skulle kunna ta ett välinformerat beslut utifrån tidigare erfarenheter av diagnostisering av sepsis.

Däremot blir detta fynd något som behövde undersökas senare i arbetet för att försäkra samt förstå varför en förklaring med “mindre” information var att föredra. Samma resonemang som ovan ansåg författaren av denna rapport även borde appliceras på det resultat som visade att det var en relativt jämn fördelning av preferens där med.

De som föredrog grafiska förklaringar uttryckte dock en preferens för det avancerade textalternativet. En möjlig förklaring till varför dessa respondenter föredrog det avancerade

References

Related documents

We understood that the main barrier keeping AI neglected is the technical expertise needed in computer science and statistics to fully work with the technology.. This makes

En ny metod att spåra upp och behandla diabetiker med ögon- komplikationer beräknas till ca 35 milj kr för hela landet.. Det skall sättas i relation till de ca 155 milj

I denna studie ville vi dock inte endast studera vad Peltarion kan erbjuda, utan studien syfte är att med hjälp av Peltarion plattform skapa en djupare förståelse för hur

I andra typer av spel, till exempel rollspel, skulle medhjälparna kunna anta andra roller än spelaren för att komplettera denne men att deras beteenden i

Artificial Neural Network, Convolutional Neural Network, Hyperparameter tuning, Single Shot Detection, Embedded Machine Learning, Python, Grid search, Random search,

Om bidraget ska täcka kostnader hos en svensk organisation för att anlita en person från Brasilien, Frankrike, Kanada, Tyskland eller USA, ska personen ha expertkunskap om AI,

Since the advent of Artificial Intelligence (AI) and Machine Learning (ML), researchers have asked how intelligent computing systems could interact with and relate to their users

Med detta synsätt kan även teknologiska entiteter, som AI-teknologi, sägas vara en del av den kommunikation som formar och konstituerar organisationer, då deras