Avslut - Utvärderingsmodell för kommersiella chattbotar

Den här delen analyserar och drar slutsatser på de frågeställningar som presenterades i början av uppsatsen. Frågeställningarna är Vilka aspekter av en chattbot har större betydelse för

användbarheten än andra? Kan framtagen utvärderingsmodell ha ett framtida värde för att utvärdera chattbotar? Uppfyller den de syften som den skulle uppnå? Ger den bra vägledning av en chattbots användbarhet?

5.1 Utvärdering/Analys av utvärderingsmodell

Den här delen knyter an till steg 4 “Evaluation” i forskningsstrategin ”Design and Creation” som valdes för den här uppsatsen. Utvärderingen som beskrivs i Metodvalen (avsnitt 3.4) och följer mallen som tagits fram i avsnitt 3.4.1 används för att utvärdera den utvärderingsmodell som uppsatsen har producerat.

Utvärderingen har som mål att kunna fastställa att utvärderingsmodellen som framställts i uppsatsen fungerar och kan användas i en verklig situation samt att fastställa att den bidrar till en djupare förståelse av en chattbots användbarhet och att framtagen utvärderingsmodell har ett värde för framtida forskning.

Utvärderingen är en summativ utvärdering enligt strategin “Quick & Simple” ur ett naturalistiskt paradigm. Utvärderingen använde de generiska utvärderingsattribut som härstammar från IS-standard 9126. För att följa mallen som beskrivs i avsnitt 3.4.1 listas inledningsvis de begränsningar och risker som utvärderingen har:

För att följa mallen som beskrivs i avsnitt 3.4.1 identifierades inledningsvis begränsningar och risker som utvärderingen har:

Det fanns en begränsad tidsramen för utvärderingsprocessen. Då personen som utför utvärderingen av utvärderingsmodellen är samma person som har framställt

utvärderingsmodellen finns en risk att utvärderingen inte blir objektiv. Det skedde endast en utvärderingsepisod i slutet av designprocessen, vilket ökar risken att missa fel i designen. Det var en begränsning att komma fram till om utvärderingsmodellen var framgångsrik eller inte eftersom det saknas bevisning i frågan. Det är enbart författaren som har analyserat och utvärderat utvärderingsmodellen, ingen utomstående opartisk intressent har haft inblick i utvärderingen av utvärderingsmodellen.

Ovan nämnda begränsningar, risker och svårigheter prioriterades. Utvärderingens tidsbegränsning prioriterades högst/först följt av objektivitet, riskfaktorer och tillräcklig bevisning om utvärderingsmodellen har uppnått de sagda målen eller inte.

Vem? Vem gör vad? Vem gör vad när?

Den som gjort utvärderingen är jag som har skrivit uppsatsen och framställt

utvärderingsmodellen. Detta gör att det blir svårt att garantera att utvärderingen blir objektiv. Nackdelarna med detta har diskuterats i avsnitt 3.4. Utvärderingen kommer ske summativt efter att utvärderingsmodellen har applicerats på interaktionerna mellan användare och de tre utvalda chattbotarna. De attribut som jag har utgått ifrån när jag utvärderar

utvärderingsmodellen är pålitlighet, användbarhet och effektivitet. Dessa attribut kommer från ISO-9126 och är sammankopplade med målen för designprojektet.

Attributet pålitlighet undersöker hur stabilt och hur väl utvärderingsmodellen har fungerat (Chua & Dyson 2004). Utvärderingsmodellen kunde användas på verkliga situationer

eftersom den blev tillämpad på interaktioner med verkliga chattbotar. Den har bidragit till en djupare förståelse för en chattbots användbarhet i samtliga verkliga interaktioner och den anses ha ett värde för framtida forskning eftersom det finns en tydlig forskningslucka kring utvärderingar av chattbotarnas användbarhet.

Attributet användbarhet (här syftar användbarhet på den egenskapen som presenteras i ISO-standarden) undersöker i vilken grad användaren i ett givet sammanhang kan bruka

utvärderingsmodellen för att uppnå de angivna målen på ett ändamålsenligt och för

användaren tillfredsställande och begripligt sätt (Chua & Dyson 2004). De angivna målen är uppnådda men det finns vissa svagheter gällande begripligheten. Det påverkade då hur

tillfredsställande upplevelsen av att använda utvärderingsmodellen var. Till exempel var vissa av kriterierna i utvärderingsmodellen formulerade på ett sådant sätt som gjorde det svårt att tolka på rätt sätt, och några var formulerade på ett sätt som inte stämde överens med

utvärderingsmodellens poängsystem. Detta är något som behöver finslipas för att modellen ska vara tillfredsställande för användaren att bruka.

Attributet effektivitet undersöker hur effektivt och smidigt det är att använda

utvärderingsmodellen, hur lång tid och vilka resurser det tar att slutföra en utvärdering av en chattbot med utvärderingsmodellen (Chua & Dyson 2004). Utvärderingsmodellen var framtagen med syftet att utvärdera chattbotarnas användbarhet, men det var några viktiga punkter som saknades och som borde ha varit med för att uppfylla detta. Ett exempel på vad som skulle behöva utvecklas är chattbotarnas kunskapsbas. Detta blev tydligt i analysen av empirin att det var en avgörande aspekt i hur resten av interaktionen med chattboten upplevdes. Avsaknaden av detta ledde till att det tog längre tid att slutföra utvärderingen eftersom det saknas kriterier att utvärdera detta på. För att kunna utvärdera en chattbots kunskapsbas behöver det läggas till ytterligare punkter i utvärderingsmodellen som belyser detta.

5.2 Resultat

Resultatet knyter an till de femte steget som finns i forskningsprocessen Design and Creation som säger att man ska identifiera och dokumentera den kunskap man har fått från projektets gång. Här dokumenteras även väntade och oväntade resultat.

Alla tre utvärderingar som gjordes med utvärderingsmodellen visade tydligt att en aspekt var viktigare än övriga. Den aspekt som utifrån den här utvärderingsmodellen hade större

betydelse än andra var chattbotens kunskapsbas som också nämns i analysen. Denna slutsats leder oss in på de andra frågorna som handlar om den framtagna utvärderingsmodellen. Det här projektet har givit insikter i att användbarhetstester för chattbotar är ett komplext och flerdimensionellt problem. Dessa tester bör inte hanteras enbart från användarsidan, utan även utvecklings sidan och andra intressenters perspektiv bör vara med för att kunna identifiera alla olika typer av interaktioner som kan ske mellan en användare och chattbot.

Utvärderingsmodellen gav en bra indikation och vägledning från ett användbarhetsperspektiv på en chattbot och aktuella problem som behöver hanteras kring det.

Ursprungligt syfte var att ta fram en komplett modell som specifikt har tagit med unika användbarhetsaspekter för chattbotar. Just nu uppfyller uppsatsen inte detta syfte eftersom modellen inte är komplett. Uppsatsen innehåller många värdefulla användbarhetsaspekter som även gäller för traditionella informationssystem, men inte tillräckligt många aspekter som behandlar användbarheten hos specifikt en chattbot.

5.3 Reflektion

Reflektioner och insikter som har uppstått under mitt arbete med uppsatsen är att det är ett stort och relativt outforskat ämne. I den forskning som jag stötte på under tiden av mitt arbete saknade nästan alltid någon eller några aspekter för att den skulle anses fulltalig.

Precis som att mitt arbete i den här uppsatsen inte känns fullständigt kan man konstatera att det finns mycket kvar att lära, mycket kvar att utveckla och mycket kvar av utvärderingen av utvärderingsmodellen att utveckla. Detta eftersom den typen av utvärdering som användes nu till viss mån är begränsad inom områden som objektivitet, som är en viktig aspekt att beakta. Trots de svagheter som utvärderingen av utvärderingsmodellen belyste, bidrar

utvärderingsmodellen till en djupare förståelse för chattboten som utvärderas. Jag tror att den med lite justering skulle kunna förse företag som utvecklar eller anpassar en chattbot med riktlinjer på vilka egenskaper och kriterier som är viktiga för chattboten för att ge så hög användbarhet som möjligt.

Det kommer att vara spännande att följa utvecklingen av användbarhetsprinciperna för chattbotar och hur de kommer formuleras. Den aspekt som man specifikt är intresserade av utifrån de resultat av utvärderingarna som presenterats är chattbotarnas kunskapsbas, och hur den på bästa sätt ska kunna testas.

In document Utvärderingsmodell för kommersiella chattbotar (Page 45-48)