Analys & delresultat användarupplevelsetest

4.5. Användarupplevelsetest

4.5.4. Analys & delresultat användarupplevelsetest

Användarupplevelsetestet syftade till att besvara den huvudsakliga frågeställningen som presenterades i problempreciseringen. Testet fick även ytterligare mening med att besvara en följdfråga som identifierats i förstudien; vilket typ av förklaring föredrar faktiskt användaren och varför? För att bedöma användarnas tillit till och förståelse för diagnostiseringsverktyget samt undersöka varför vissa användare föredrog en mindre utförlig förklaring samlades data in via en enkät samt observation. Observationerna var inte fullständiga på grund av tekniska problem som gjorde att testdeltagarna inte kunde dela sin kamera eller skärm. Vissa deltagare hade möjligheten till att använda båda medan vissa endast använde kameran. Trots att observationerna inte var fullständiga kunde en trianguleringsanalys genomföras då användarupplevelsetestet nyttjade flera datainsamlingstekniker, som observationer, enkätsvar och deltagarens egna kommentarer. Deltagarna refererades inom analysen som D (D = Deltagare).

Det blev snabbt tydligt i användarupplevelsetestet vilken typ av förklaring de föredrog. En majoritet av testdeltagarna uttryckte att de föredrog den mer utvecklade förklaringen i prototypen medan en minoritet angav att de inte upplevde en skillnad mellan förklaringarna. D3 uttryckte att hen föredrog den utförliga förklaringen för att hen fick en bättre förståelse för vad verktyget hade reagerat på och vad anledningen bakom systemets slutsats var (se figur 12).

“Skrollar jag ner så ser jag att den är lite tydligare med var den benämner som avvikande värden, här får jag faktiskt utskrivet var SOFA poängen kommer ifrån och att dessa parametrarna faller innanför normalintervallet eller vad man ska kalla det. Så att jag ser den här, så den ser ju lite mer, inte mer trovärdigare men jag får mer förståelse varifrån de kommer, värdena, där den liksom använder.” - D3

Figur 12. Mindre utförlig förklaring kontra utförlig förklaring

De deltagare som uttryckte att de inte upplevde någon skillnad mellan den utförliga och inte utförliga förklaringen hade ingen konkret anledning till varför de inte upplevde någon

skillnad. Istället kan endast spekulationer göras kring varför dessa testdeltagare inte hade någon preferens. D1, som var en av de testdeltagare som saknade preferens, uttryckte att hen slår samman en samlad bild av andningsfrekvens, blodtryck, pox osv. när hen diagnostiserar någon med sepsis. I D1s fall blev därför systemets textuella förklaring inte särskilt intressant till varför patienten hade sepsis utan fokus var snarare på presenterade vitalparametrar, däremot berättade hen att hens egna slutsats skulle antagligen stämma överens med systemets.

“Jag slår samman en samlad bild av andningsfrekvens, blodtryck, temp, pox, neurologi och så tänker jag utifrån det, är de då förvirrade som tusan så är de nog påväg mot en sepsis.”

-D1

Det var även en deltagare som föredrog den icke utförliga förklaringen med anledning av att det var enklare att förstå vissa instruktioner. Däremot klargjorde denna deltagare att hen inte var van vid verktyget och vid första anblick ansåg att den såg rolig ut, dessutom hade hen arbetat inom sepsis länge, vilket kan vara aspekter till varför den mindre utförliga varianten föredrogs av hen.

“Den är lite, eller det är för att jag inte är van vid den, jag har jobbat väldigt mycket med sepsis, just de här värdena är jag.. jag tycker den är lite rörig men det är nog för att jag inte känner den än så att jag tror att det är en vanesak” - D3

Vid framtagandet av en förklaring är det inte så simpelt att göra den mer utförlig, utan det finns en balansgång. D5 uttryckte att hen föredrog det utförliga alternativet men att det lätt kunde bli rörigt i vissa fall. Förklaringen under biomarkörena ansåg D5 gränsade till att bli för rörig samt att användaren antagligen direkt skulle notera sannolikheten av att en patient lider av sepsis och sedan inte vara speciellt intresserad av förklaringen.

“Jag skulle tänka mig att det här blir lite stökigt om det hade varit många beroende på om de är över eller under [rikt/ref. värden]. Det skulle bli jättemycket text som du behöver gå igenom innan du får ut kontentan. Jag tror ögonen skulle gå direkt till sannolikheten. “ - D5

Detta var intressant för att det som D5 säger indikerar att det även finns en preferens i struktur av en förklaring, till exempel att nyckelinnehållet av förklaringen bör presenteras först medan anledningen bakom blir det utförliga; så att istället för en förklaring som “NL-Kvot, miR2, miR3, miR5 och miR6 överstiger tröskelvärden och påvisar att det finns en 77% sannolikhet av att patienten lider av sepsis.” kan den istället formuleras som “Biomarkörerna visar att det finns en 77% sannolikhet att patienten lider av sepsis. NL-kvot, miR2, miR3, miR5 och miR6 överstiger sina tröskelvärden och har bidragit till uträkningen”. På detta sättet kan användaren ta del av kontentan redan vid första anblick och om intresset finns kan användaren läsa vidare för att förstå vad det är som hjälpt systemet med sin uträkning.

Ytterligare tankar kring de textuella förklaringarna var att vissa deltagare uppskattade att det fanns en procentsats tillgängligt: “MAP hos patienten underskrider riktvärdet med 14,29% vilket tyder på organsvikt.”, medan en annan deltagare inte uppskattade detta alls. D3 uttryckte att hen fick en större respekt för avvikelsen om det presenterades med hjälp av en procentsats, för att detta skapade en storlek på avvikelsen, medan D5 uttryckte att procentsatser endast hör hemma under specifika parametrar och nödvändigtvis inte hos medelartärtryck (MAP) värdet. Däremot poängterade inte D5 under vilka parametrar där procentsatser kunde vara relevanta.

Huruvida förklaringarna faktiskt påverkade användarens tillit till ett AI-system var däremot svårare att notera. Majoriteten av deltagarna uttryckte att deras egna slutsats stämde överens med systemets men att det var nödvändigtvis inte var den textuella förklaringen som bidrog till deras beslut. Det var många olika faktorer som spelade roll i testdeltagarnas egna beslutsprocess, till exempel påpekade D1 att det var en helhetsbild av alla parametrar och given information som bidrog till hens slutliga beslut medan en annan deltagare påpekade förlopp över tid och en annan den övre delen av prototypen (se figur 11) som den avgörande faktorn.

Inom enkäten påvisades det en övervägande positiv inställning till verktyget i sig. En majoritet (4/6) av testdeltagarna uttryckte 5+ på 7-gradig likertskala för samtliga påståenden; vilket betyder att förstudiens identifierade designriktlinjer och informationsbehov i framtagandet av både förklaring och prototyp hade en positiv effekt på användarens tillit till ett AI-system. Det går däremot inte att konkret nämna vilka designriktlinjer som mer eller mindre påverkade tilliten på grund av att det var helhetsintrycket som påverkade deltagarnas tillit till systemet. Däremot påpekade D6 att hen inte skulle litat på systemets uträkning med anledning av att det inte presenterades formler för hur uträkningen är gjord; D6 var däremot ensam om att uppleva en sämre tillit till AI-systemet på grund av detta. Dock ska detta inte förkastas utan snarare fungera som en lärdom vid framtagandet av förklaringar framåt.

“Av den informationen som finns framför mig, nej för att jag ser inga formler eller hur du

har räknat eller något sånt. Däremot om det här ska tas i bruk så kommer ju det här att valideras och godkännas av …. ledning och DÅ skulle jag lita på det.” - D6

I enkäten förekom det även vissa påståenden som fick väldigt varierande resultat, speciellt “Verktyget utför sin roll som sjukvårdsrådgivning mycket bra” och “Jag upplever att verktyget är mycket kunnig inom diagnostisering av sepsis” (se figur 13).

Figur 13. Visar variationen av svar i enkäten.

Anledningarna bakom den stora variationen av svar på dessa påståendena kan exempelvis vara att verktyget inte innehöll information som var relevant för sepsisdiagnostik för deras egen vårdavdelning. D5 påpekar att mätvärdet MAP inte var aktuellt inom akutvårdsavdelningen som hen arbetade på och att de istället använde systoliskt blodtryck som mätvärde. Det förekom även att andnings kvoten (PaO2/FiO2) inte var korrekt för D2 som länge arbetat inom intensivvårdsavdelningen (IVA). Däremot framkom det även att samtliga testdeltagare skulle följa de rekommenderade åtgärderna, till exempel “mät X 5 gånger om dagen”, men anledningen till varför de skulle följa dessa rekommendationer berodde på patientens värden.

“Men just att det är MAP som är instoppat där, vi tar ju blodtryck med manschett och de MAP värdena är inte tillförlitliga nog för att vi ska lita på dem så vi använder ju systoliskt blodtryck istället som en markör, det blir väl mer för chocktillstånd, och då blir de ju, vi bedömer det som sepsis om systoliskt blodtryck är under 100, men även om det är 105 eller 110 och dem brukar ha ett väldigt högt blodtryck så brukar det ge röda flaggor.” - D5

Ett ytterligare fynd från enkäten var att samtliga testdeltagare uttryckte att de upplevde att verktyget var uppriktigt och äkta i sina förklaringar då alla testdeltagare angav en 7a på detta påstående. Författaren av denna rapport antar att anledningen bakom den övervägande positiva inställningen till förklaringarnas äkthet kan bero på att verktyget innehåller information som deltagaren känner igen sedan tidigare, samt att verktyget lät deltagaren utforska/se över parametrarna för att bekräfta att den genererade förklaringen är pålitlig. Inför användarupplevelsetestet sattes tre mål upp: (1) Förklaringen främjar tillit till AI-system, (2) förklaringen främjar förståelse till AI-system och (3) förklaringen är verkningsfull. Utifrån analysen gick det att dra slutsatsen att mål 1 och 2 uppnås med anledning att enkätresultat och kommentarer från deltagarna påvisar en positiv inställning till förklaringarna samt att en utförlig förklaring var att föredra. Däremot framkom det inom både i observation och kommentarer från deltagarna vissa synpunkter som bör tillämpas för att på ett bättre sätt främja tillit och förståelse. Tabell 7 visar dessa synpunkter som identifierats utifrån trianguleringen.

Tabell 7. Fynd för framtagande av textuell-förklaring för att främja tillit till och förståelse för AI-system.

Fynd Beskrivning

1. Struktur Kontentan bör presenteras först i förklaringen för att underlätta för arbetare inom hektiska arbetsförhållanden som akutvårdsmottagningen.

2. Numeriska aspekter Procentsatser hör hemma under vissa parametrar men inte alla. Procentsatser underlättar förståelsen för hur stor en avvikelse är. 3. Utförligt Presentera en utförlig förklaring som innehåller information kring

varför systemet har genererat en slutsats.

4. Informationsinnehåll Informationen i förklaringen bör innehålla termer som är relevanta för sjukvårdsavdelningen där användaren arbetar. IVA och akutvårdsmottagningen har olika behov.

5. Inkludera formel När AI-systemet har gjort en beräkning, presentera beräkningsformeln för användare som vill validera uträkningen. Medan det framförallt var den textuella förklaringen som bidrog till att deltagarna upplevde att förklaringen var sanningsenligt och ökade förståelsen för hur AI-systemet hade arbetat fanns det fortfarande aspekter som påverkade deltagarnas förståelse samt deras tillit.

För att en främjad tillit till och förståelse för AI-system ska skapas behöver användaren ha möjligheten till att validera förklaringen genom att se på den data som bidragit till systemets beslut. De visuella medel i prototypen (färgkoder, grafer, rikt/referens värden) kunde därför komplettera den textuella förklaringen genom att låta användaren validera att systemets slutsats faktiskt stämde. De visuella komponenterna möjliggjorde inte bara validering utan kunde även öka användarens förståelse för patientens hälsotillstånd; detta är dock endast en biprodukt. Tabell 8 presenterar de visuella komponenter som visats bidra till användarens valideringsprocess och förståelse.

Tabell 8. Fynd av visuella indikationer som påverkade användarens tillit till och förståelse för AI-system.

Fynd Beskrivning

1. Färgkoder Färgkoder uppskattas och drar användarens uppmärksamhet till avvikelser.

2. Presentera rikt/ref värden Användaren har många värden i bakhuvudet men är oftast ungefärliga värden, genom att presentera rikt/ref värden kan användaren nyttja exakta värden.

3. Grafer Grafer gör det enklare för användaren att se dynamiken av vitalparametrarna.

4. Huvudsakliga parametrar De viktigaste parametrarna bör presenteras först i gränssnittet för att användaren snabbt ska få en överblick på situationen.

Det slutliga målet med att förklaringen ska vara verkningsfull uppnåddes också. I enkäten visade svarsresultaten att en majoritet av deltagarna skulle vara bekväma med att lita på att verktyget hjälper till med avgörande beslut samt att deltagaren skulle känna sig bekväm med att vara beroende av informationen i verktyget. Däremot förekommer det även avvikande värden från en deltagare som besvarade påståendena med en 3a respektive 2a (se figur 14). Vad detta berodde på var framförallt att denna deltagare fattade sina beslut med hjälp av utomstående variabler, till exempel yrsel eller hur pratglad patienten är. Deltagaren uttryckte även att visa vitalparametrar som presenterades i prototypen och förklaringen inte stämde överens med hur hens riktiga arbete såg ut, exempelvis användes MAP i prototypen medan deltagaren använde systoliskt blodtryck istället; vilket därför kan ha påverkat hens svar i enkäten.

5. Slutresultat

Den bearbetade datan från förstudien och användarupplevelsetestets observation och enkät analyserades för att skapa en grund för hur en förklaring bör designas för att främja tillit till och förståelse för AI-system menade för diagnostik av sepsis. Förklaringen som testades i användarupplevelsetestet togs fram med hjälp utav de designriktlinjer som presenterats i förstudien; och testet visade att det finns tre större egenskaper en förklaring bör innehålla för att en förklaring ska främja tillit till och förståelse för den AI-baserade rekommendationen:

● Informationsinnehåll ● Utförlighet

● Struktur

Vid framtagande av en förklaring bör förklaringen matcha den kontext där slutanvändaren befinner sig, d.v.s. innehålla rätt information, upprätthålla en bra struktur samt vara utförlig. Första egenskapen är informationsinnehållet; vilket är otroligt viktigt för att slutanvändaren ska kunna förstå hur ett AI-system har genererat en rekommendation samt dra sin egen slutsats om att acceptera eller avkasta rekommendationen. Informationsinnehållet är kontextkänsligt vilket innebär att beroende på i vilken kontext där slutanvändaren befinner sig behöver informationen i förklaringen anpassas, till exempel visades det inom användarupplevelsetestet att en deltagare som inte kände igen viss information i en förklaring var mindre villig att nyttja förklaringen. Detta berodde på att informationen i förklaringen inte användes inom hens vårdavdelning. En förklaring ska även innehålla ytterligare information som kan vara viktig i situationen där förklaringen genererats.

En förklaring behöver dessutom vara utförlig nog för att slutanvändaren ska förstå varför en rekommendation har genererats. Till exempel kan en sådan förklaring se ut på följande sätt ”Systemet hittar 3 poäng och dessa poäng hittas inom X och Y”; på det sättet vet användaren direkt utifrån förklaringen var systemet har hittat 3 poäng samt kan validera att den presenterade datan stämmer med hjälp av prototypens gränssnitt.

Slutligen spelar strukturen på förklaringen en stor roll beroende på hur slutanvändaren arbetar. Specifikt inom sepsis och akutvård har slutanvändaren inte särskilt mycket tid över för att validera eller läsa stora textstycken och istället blir det viktigt att presentera huvudinnehållet av förklaringen först. Detta gör i sin tur att slutanvändaren får veta systemets bedömning direkt och att hen sedan direkt kan göra ett eget val för att undersöka eller validera att systemets bedömning faktiskt stämmer.

Följs dessa tre egenskaper vid framtagande av en förklaring kan förklaringen se ut på följande sätt för diagnostik av sepsis:

Figur 15. Förklaring samt hur egenskaperna använts.

Som nämndes tidigare behöver den textuella förklaringen kompletteras med data som använts i systemets uträkning för att slutanvändaren på egen hand ska ha möjlighet att validera systemets slutsats. Detta är vitalt för att bygga tillit till ett AI-system då en novisanvändare inte skulle kunna förlita sig enbart på den textuella förklaringen.

6. Diskussion & Slutsats

I detta avsnitt presenteras en diskussion och slutsats om studiens genomförande och resultat. Det förs även en diskussion kring svårigheter med att mäta tillit och förståelse.

In document AI-system för sjukvården - en studie kring design av förklaringar till AI- modeller och dess inverkan på sjukvårdspersonalens förståelse och tillit (Page 44-52)

Analys & delresultat användarupplevelsetest

4.5. Användarupplevelsetest

4.5.4. Analys &amp; delresultat användarupplevelsetest

5. Slutresultat

6. Diskussion & Slutsats

4.5.4. Analys & delresultat användarupplevelsetest