• No results found

Utvärderingsmodell för kommersiella chattbotar

N/A
N/A
Protected

Academic year: 2021

Share "Utvärderingsmodell för kommersiella chattbotar"

Copied!
53
0
0

Loading.... (view fulltext now)

Full text

(1)

Uppsala universitet

Inst. för informatik och media

Utvärderingsmodell för kommersiella chattbotar

Madeleine Silverbratt

Kurs: Examensarbete Nivå: C Termin: VT-20 Datum: 200614

(2)

1

Abstract

Chatbots are the new kind of technique for organizations to implement in their operations.

Although chatbots have been around for a while they have spiked in the last few years. With this new technique also comes new ways for users to interact and communicate with the organizations. The traditional usability tests do not fully cover the chatbots characteristics and new methods must be created. This paper will create an evaluation model based on chatbots and theories about usability testing and apply the evaluating method to three commercial chatbots and their interaction with a user. The result shows that the evaluation model in some ways was successful and fulfilled its purpose while further research and development is necessary for the model to perform as desired.

Keywords: Chatbots, Usability, Evaluation, Evaluation Model, User Interface Design

Sammanfattning

Chattbotar är den nya typen av teknik som organisationer implementerar i sin verksamhet.

Chattbotar är inget nytt fenomen men utvecklingen inom artificiell intelligens har lett till att chattbotarna snabbt har ökat i antal de senaste åren. Med den nya tekniken kommer också nya sätt för användare att interagera och kommunicera med organisationerna. De traditionella användbarhetstesterna täcker inte helt chattbotens egenskaper och nya metoder för att mäta detta måste skapas. Denna uppsats kommer att skapa en utvärderingsmodell baserad på chattbotar, teorier om användbarhet och användbarhetstester för att tillämpa

utvärderingsmodellen på tre kommersiella chattbotar och deras interaktion med en användare.

Resultatet visar att utvärderingsmodellen på vissa plan var framgångsrik och uppfyllde sitt syfte medan ytterligare forskningsutveckling är nödvändig för att modellen ska kunna utföra efter önskemål.

Nyckelord: Chattbot, Användbarhet, Utvärdering, Utvärderingsmodell, Användargränssnitt

(3)

2

Innehållsförteckning

1. Inledning ... 4

1.1 Bakgrund/Begreppsdefinition ... 4

1.1.1 Varför Chattbotar? ... 4

1.1.2 Chattbot applikationer ... 4

1.1.3 Användbarhet ... 5

1.2 Problemformulering ... 5

1.3 Syfte ... 5

1.3.1 Frågeställning ... 6

1.4 Avgränsningar ... 6

1.5 Kunskapsintressenter ... 6

2. Teoridel ... 7

2.1 Kunskapsinventering/Tidigare Forskning... 7

2.1.1 Commercial Chatbot: Performance Evaluation, Usability Metrics and Quality Standards ... 7

2.1.2 Can we improve the User Experience of Chatbots with Personalization? ... 8

2.1.3 Usability testing of a chatbot: Can we use conventional methods to assess conversational user interfaces? ... 9

2.1.4 Kritisk reflektion av presenterade artiklar ... 11

2.1.5 Nielsen's 10 usability heuristics for User Interface Design ... 12

2.1.6 Accentures framgångsfaktorer ... 13

2.1.7 Sammanställd tabell av använda metoder och modeller i tidigare forskning ... 14

2.2 Utvärderingsmodell ... 16

2.2.1 Vetenskapliga grunder... 16

2.2.2 Modell kriterier ... 17

2.2.3 Definition av modellen ... 22

3. Forskningsansats och Metod ... 23

3.1 Forskningsansats ... 23

3.2 Forskningsparadigm ... 23

3.3 Forskningsprocess ... 23

3.4 Metodval ... 24

3.4.1 Mall för utvärdering ... 26

4. Empiri ... 27

4.1 Datainsamling struktur ... 27

4.2 Chattboten Charlie på Telia ... 27

4.2.1 Bakgrund... 27

4.2.2 Datainsamling ... 28

4.2.3 Resultat av utvärdering ... 29

4.3 Chattboten Aida på SEB ... 31

4.3.1 Bakgrund... 31

4.3.2 Datainsamling ... 31

4.3.3 Resultat av utvärdering ... 36

4.4 Chattbot på Arbetsförmedlingen ... 38

4.4.1 Bakgrund... 38

4.4.2 Datainsamling ... 38

4.4.3 Resultat av utvärdering ... 41

(4)

3

4.5 Analys av empiri ... 43

5. Avslut ... 44

5.1 Utvärdering/Analys av utvärderingsmodell ... 44

5.2 Resultat ... 45

5.3 Reflektion ... 46

6. Referenser ... 47

(5)

4

1. Inledning

1.1 Bakgrund/Begreppsdefinition

1.1.1 Varför Chattbotar?

Chattbotar är maskiner vars syfte är att kommunicera med en människa genom att använda ett naturligt språk. Naturligt språk i den här kontexten betyder att kommunikationen sker genom ett mänskligt språk och inte ett programmeringsspråk (Følstad m fl 2018). På 1960-talet publicerade Weizenbaum en studie om interaktionen mellan människa och dator med programmet ELIZA, som var designad att återspegla responsen som en psykoterapeut hade gett i ett terapisamtal (Dale 2016). De senaste åren har intresset och produktionen av chattbotar ökat (Følstad m fl 2018).

Även om det har skett omfattande utveckling de senaste åren, är inte idén om att människor ska konversera med en dator något nytt, det har funnits länge. Chattbotar består av olika maskinella agenter som använder informationsteknik och artificiell intelligens (AI) för att kommunicera med användaren via ett gränssnitt. Chattbotar är ofta designade och utvecklade för olika former av kundtjänster. Ökningen de senaste åren beror bland annat på ny teknik inom “AI/Machine learning” området, samt att konversationsplattformar som Facebooks Messenger används i allt större omfattning (Brandtzaeg & Følstad, 2018).

Det finns många situationer som är lämpliga för en chattbot. Chattbotar kan erbjuda standardiserade funktioner så kunden själv kan få svar på sina frågor med

självbetjäningstjänster. Implementeringen av chattbotar kan leda till minskat behov av kundtjänstpersonal och sänkta kostnader för verksamheterna. (Brandtzaeg & Følstad, 2018).

1.1.2 Chattbot applikationer

En chattbot kan tillgodose flera olika behov och variationen av chattbotar är stor.

Kundtjänstsystem har alltid varit en nyckelkomponent i serviceorienterade organisationer. När internet lanserades började kundtjänstsystemen införa mer automatiserade funktioner för hantering av kundtjänstärenden. Nästa steg var sedan införandet av chattbotar. För kunder känns en interaktion med en chattbot enklare och mer naturlig än att söka information på en traditionell webbsida. Kunden kan då själv få fram svar rörande till exempel order,

produktinformation och leveransstatus genom interaktion med en chattbot (Følstad m fl 2018).

Andra typer av chattbotar kan agera som virtuella assistenter som hjälper användarna i att utföra specifika uppgifter. Det finns till exempel en chattbot i Storbritannien, “Do not pay”

som hjälper användare med registrering av klagomål vid parkeringsböter. Chattbotar kan även hjälpa användare att hitta bland tjänster och fakta som finns på nätet (Brandtzaeg & Følstad 2018).

(6)

5 1.1.3 Användbarhet

Enligt ISO-standard ISO 9241–11 definieras användbarhet med hur enkelt ett objekt som en människa har skapat är att använda och lära sig. Inom mjukvaruutveckling

graderas användbarhet genom hur mjukvaran kan användas av en specifik konsument för att uppnå effektivitet, verkningsgrad och tillfredsställelse (Bollini 2017). Dessa tre parametrar används för att mäta hur “bra” ett användargränssnitt är. Effektivitet definieras som hur väl en användare uppnår den givna uppgiften genom att använda systemet. Användarkvalité och användargränssnitt har en stor betydelse för effektiviteten. Uppgifter ska kunna utföras utan att problem uppstår, och det ska vara intuitivt. Verkningsgrad mäter de resurser som krävs för att uppnå användarens mål. Utgångspunkten för användaren är att definiera interaktionen som granulerad och inte egendomlig i sitt slag (Tri, Erna. & Gellysa 2018). Tillfredsställelse ignoreras ofta vid utveckling, trots att den parametern helst används vid utvärdering av de kvalitativa aspekterna av användarupplevelse. Tilltalande, komfort och den generella uppskattningen hos användare är några mått som används för att mäta tillfredsställande hos användare (Bollini 2017). Lämpliga designprinciper, beaktande av användarens språk och ett bra användargränssnitt är väsentligt vid implementationen av chattbotar (Tri, Erna. & Gellysa 2018).

1.2 Problemformulering

Visionen att skapa gedigna användargränssnitt för en chattbot är mer komplicerat än man kan tro. Trots medvetenhet om att nyckeln för ett framgångsrikt användargränssnitt handlar om hur väl chattboten kan möta en användares behov, uppnår få av dagens chattbotar detta

(Følstad m.fl 2018). En utmaning med chattbotar är användargränssnittet, eftersom chattboten förutom att hantera gränssnittet mellan användare och teknologi även ska hantera dynamiken och mönstret i användandet. De stora framstegen inom området har inneburit att många företag har bråttom med att lansera sin chattbot. I brådskan misslyckas många med

funktionaliteten, som är en viktig aspekt för att uppfylla användarens behov och upplevelse (Brandtzaeg & Følstad 2018).

2019 gjordes en studie där testpersoner fick prova att chatta med en mänsklig person och en chattbot. Testpersonerna fick genomföra olika typer av scenarion. Slutsatsen av studien var att även om chattbotar har blivit mer sofistikerade i hur de interagerar med användarna, är de ännu inte riktigt fulländade. Studien illustrerar även hur chattbotens avsaknad av personlighet och brist på självutlämnande information påverkar användarupplevelsen negativt (Skjuve m.fl 2019). Eftersom chattbotar är komplexa är det svårt att utvärdera och jämföra chattbotar i termer av effektivitet, smidighet, målsättningar och användbarhet (Chaovalit m fl 2019).

1.3 Syfte

Syftet med den här uppsatsen är att framställa och testa en utvärderingsmodell av chattbotarnas användbarhet som är specifikt anpassad för utvärdering av chattbotar.

Utvärderingsmodellen ska ge en djupare förståelse för vilka egenskaper och aspekter som är viktiga för att vara användarvänlig. Vidare syftar uppsatsen till att utvärdera själva

utvärderingsmodellen som tagits fram och om den skulle kunna användas och stödja framtida tester och utvärderingar av chattbotar gällande användbarheten.

(7)

6 1.3.1 Frågeställning

Vilka aspekter av en chattbot har större betydelse för användbarheten än andra?

Kan framtagen utvärderingsmodell ha ett framtida värde för att utvärdera chattbotar?

Uppfyller den de syften som den skulle uppnå?

Ger den bra vägledning av en chattbots användbarhet?

1.4 Avgränsningar

Uppsatsen kommer enbart att utvärdera interaktionen mellan chattboten och användaren och att sedan utvärdera den framställda utvärderingsmodellen. Den kommer inte att utvärdera och analysera chattbotar ur ett tekniskt perspektiv eller integrationer med övriga plattformar inom ett företag. Utvärderingen syftar enbart till att utvärdera kriterier och hur användaren upplever interaktionen. Utvärderingen kommer inte genomföras av insatta experter.

1.5 Kunskapsintressenter

Målgruppen för innehållet i denna uppsats är de som är intresserade av att utveckla,

vidareutveckla och förbättra användarupplevelsen av kommersiella chattbotar. Chattbotar är ett aktuellt ämne bland många företag och organisationer som alla behöver beakta

användbarheten av deras chattbot.

(8)

7

2. Teoridel

2.1 Kunskapsinventering/Tidigare Forskning

I den här delen presenteras forskning som gjorts tidigare inom området. Informationen som hämtats från tidigare forskning var stöd till den utvärderingsmodell som uppsatsen utformat.

Informationen är hämtad från tre vetenskapliga artiklar, ett ramverk för användbarhet samt fakta om vilka principer som anses vara framgångsrika för chattbotar att inneha.

Kunskapsinventeringen har fokuserat på utvärderingsteorier, och dess modeller gällande chattbotarnas användbarhet, eftersom syftet med uppsatsen är att utforma en egen utvärderingsmodell för chattbotar

2.1.1 Commercial Chatbot: Performance Evaluation, Usability Metrics and Quality Standards

Syftet med artikeln är att utforska kommersiella chattbotar genom att applicera ett evalueringssystem på dem, som används för att bedöma och jämföra chattbotarna. Den teoretiska bakgrunden i den här artikeln bygger på tidigare forskningsartiklar inom ämnet.

Undersökningen utgår från tio kvalitetsaspekter som ger varje chattbot ett värde mellan ett och fem. 1 är mycket dåligt och 5 är mycket bra. Varje chattbot får ett värde per kriterium som tas upp (Kuligowska 2015).

De faktorerna som författaren har förhållit sig till är:

1. Den visuella aspekten, hur ser chattboten ut för användaren. Ser den till exempel ut som en människa? Kan man se att det finns ett mönster chattbotens beteende, följer den samma designmönster som resten av plattformen som den är implementerad i?

2. Vilken form är chattboten implementerad i på organisationens webbsida. Är den lätt att hitta och syns den bra för användaren? Exempel på hur chattboten kan vara är ett flytande fönster eller en flexibel kombination med ett inbyggt fönster och en ”pull- out” tab.

3. Talsyntes granskar om chattboten kan konvertera skriftlig text till ett syntetiskt tal. Här beaktar man utöver om chattboten kan prata även med vilken typ av röst den pratar med. Pratar den med en syntetisk röst eller med en mänsklig röst.

4. Kunskapsbas är en fundamental aspekt som en chattbot bör besitta eftersom en chattbots funktion är att kunna svara på saker användaren frågar om.

5. Presentationen av chattbotens kunskap, vilken typ av form kommer svaren tillbaka från chattboten? Kommer det i länkar man kan klicka på, länkar som av sig själv öppnas upp i en ny flik eller bara i text? Kan den interagera med en databas och utföra web-mining?

6. Konversion kapacitet och språkkunskaper. Kan chattboten klara av att lydigt och sammanhängande uttrycka sig och samtidigt använda sig av korrekt socialt beteende

(9)

8 när den interagerar med en användare?

7. Chattbotens personlighet, har den en sådan personlighet som skapar tillit hos användaren? Har den en personlighet som tilltalar användaren?

8. Chattbotens personlighetskaraktärer, vilken typ av personlighet ska man välja för att chattboten ska bli betrodd? Ett konkret exempel är om ens chattbot ha en feminin eller maskulin röst när den pratar med användaren.

9. Nödfalls protokoll och oväntade situationer. Chattboten måste kunna hantera alla tänkbara oväntade situationer som använder sätter den i. Hur agerar den när något blir fel under en interaktion?

10. Kunna betygsätta chattboten. Detta har en stor betydelse för att kunna vidareutveckla chattboten baserat på hur användaren upplever den. Det är enligt författaren

motiverat att ta input från användare då det ökar chattbotens värde, samt underlättar vid förändringar eller förbättringar av den.

2.1.2 Can we improve the User Experience of Chatbots with Personalization?

Syftet med artikeln är att svara på hypotesen: Vad är det ökade värdet för användarupplevelse om interaktionen med chattboten är personifierad? Artikelns teori är uppdelad i två delar. Den första delen beskriver hur chattbotar fungerar, hur de implementeras samt hur kundtjänsten inom finans och försäkringar fungerar. Den tar även upp strategier för bra design för

chattbotar. Den andra delen av teorin beskriver vilka olika användbarhetstester som finns på marknaden.

En kombination av kvalitativ och kvantitativ metod har använts för att svara på hypotesen om personifiering ger ökat värde på användarupplevelse. Man har använt sig av båda metoderna och har delat upp testerna i tre kategorier som beskrevs i teoriavsnittet (Holmes m fl 2019).

Användbarhet beskrivs utifrån en modell kallad Technology Acceptance Model som är utvecklad för att kunna utvärdera hur användare accepterar informationssystem. TAM har standardiserade principer/frågor för att mäta användbarhet. Följande principer ingår i TAM:

1. Using this product improves the quality of the work I do.

2. Using this product gives me greater control over my work.

3. This product enables me to accomplish tasks more quickly.

4. This product supports critical aspects.

5. This product increases my productivity.

6. This product improves my job performance.

7. This product allows me to accomplish more work than would otherwise be possible.

8. This product enhances my effectiveness on the job.

9. This product makes it easier to do my job.

10. Overall, I find this product useful in my job.

“Usability” undersöker hur funktionerna presterar, och om de är en integrerad inom ämnet användarupplevelse. ISO definitionen för usability pratar om tre parametrar (som är nämnda i

(10)

9 bakgrunden) och Finstad kom fram till fyra principer som representerar ISO definitionen. Den teorin kallas UMUX. Dessa principer är:

1. The system’s capabilities meet my requirements.

2. Using this system is a frustrating experience.

3. This system is easy to use.

4. I have to spend too much time correcting things with this system (Finstad, 2010).

Aspekten tillfredsställelse handlar om hur nöjda användare är efter att de har interagerat med systemet. “The questionnaire for User Interaction Satisfaction”, som även nämns som

“QUIS” utvärderar användarens subjektiva tillfredsställelse. Den beaktar även aspekten människa-datorinteraktion. Den innehåller elva gränssnitt faktorer som mäter användarens generella tillfredsställelse genom att sätta poäng mellan 1–10 beroende på hur väl de presterar.

1. Screen factors.

2. Terminology and system feedback.

3. Learning factors.

4. System capabilities.

5. Technical manuals.

6. On-line tutorials.

7. Multimedia.

8. Voice recognition.

9. Virtual environments.

10. Internet access.

11. Software installation.

2.1.3 Usability testing of a chatbot: Can we use conventional methods to assess conversational user interfaces?

Syftet med artikeln är att ta reda på om man kan använda konventionella

användbarhetsmetoder på chattbotar. Ett exempel på artikelns forskningsfrågor är “To what extent will different conventional usability questionnaires correlate to a tailored chatbot usability survey score?” I introduktionen fastställer författarna att det i vissa fall är nödvändigt att man modifierar användbarhetstesterna för chattbotar om dessa från början är framtagna för traditionella informationssystem. Teorin i artikeln består av fyra kategorier inom UX där problem kan uppstå när man använder ett användbarhetstest som är utformat för traditionella system på chattbotar (Duijst 2017).

1. Det första problemet är språk. Till exempel kan ett alltför komplext språk göra det svårt för användaren att förstå. En chattbot har liknande problemen som traditionella system eftersom chattbotar är konversationsbaserade.

2. Det andra problemet är Varumärke. På webbsidor är det visuella, den grafiska

designen, som används oftast igenkännande i färg och design. För chattbotar så skiljer det sig lite i och med att de är konversationsbaserade vilket betyder att det är

konversationen och tonen av konversationen som måste reflektera och representera varumärket.

(11)

10 3. Den tredje kategorin är funktionaliteten. Om en webbsida har dåligt designad

funktionalitet kommer användbarheten reduceras. För en chattbot likställs funktionaliteten med konversationerna. Är dessa dåligt designade påverkar det användbarheten precis som för traditionella system.

4. Den sista kategorin för användartesterna är informationshämtning. Ett dåligt designat webbaserat system kan leda till att inkorrekt information returneras till användaren.

Samma scenario kan hända för chattboten men med resultatet att chattboten missförstår användarens fråga.

2018 gav Nielsen-Norman Group en studie som föreslog att det skulle finnas flera aspekter gällande hur en chattbot bör bli testade för att uppnå UX kriterierna. Aspekter som föreslogs var bland annat interaktionsstil (länkar och knappar eller textbaserat), konversationsflöde, språk och personlig integritet. Författarna fortsätter med att säga att det finns tydliga indikationer på att chattbotar kräver nya testmetoder som är utöver de klassiska

användartesterna eftersom chattbotar är en annan typ av människa-datorinteraktion än de traditionella systemen vi har.

Artikelns förslag var att använda multipla modeller av UX som mått för att utvärdera en chattbot, vilket skulle ge en mer korrekt bild av chattbotens användbarhet. De tre måtten som valdes var SUS scores, UEQ metrics och CUQ score.

1. System Usability Scale (SUS) var designad som ett snabbt och enkelt sätt att utvärdera användbarheten. SUS består av tio komprimerade utlåtanden som täcker fem positiva och fem negativa aspekter av systemet man mäter. Varje deltagare sätter poäng per fråga, maxvärdet är fem poäng. Totalen räknas sedan fram i procent och kan jämföras med riktmärket som i dagsläget ligger på 68,0 procent.

2. User experience Questionnaire (UEQ) vars syfte är att göra en omfattande bedömning av användarupplevelsen. Den är baserad på sex skalor som mäts genom att använda ett adjektivs motsatsord på ena sidan och adjektivet på den andra sidan för att beskriva systemet. Deltagarna väljer då vilken beskrivning de upplever stämmer in på systemet som bedöms. UEQ utvärderar om systemet möter de förväntningar som finns. Ett användningsområde för UEQ är att jämföra systemet som testats med andra system.

3. Chattbot Usability Questionnaire (CUQ) är baserat på UX principer specifika för chattbotar som ALMA Chattbot Test tool har skapat. CUQ värderar chattbotens personlighet, inskolningstid (onboarding), förståelse, navigation, responsen,

felhantering och intelligens. CUS är jämförbart med SUS förutom att den är tillämpbar på chattbotar och inkluderar 16 principer istället för 10.

(12)

11 Figur 1. visar de 16 principer som ingår i CUQ

2.1.4 Kritisk reflektion av presenterade artiklar

Den första artikeln “Commercial Chatbot: Perfomance Evaluation, Usability Metrics and Quality Standards” refererar till källor som är skrivna 2007 och 2008. Eftersom chattbotar har utvecklats mycket de senaste åren, kan vissa fakta som var då aktuell vara irrelevanta idag.

Samtliga tio kvalitetsaspekter har referenser från flera artiklar, så kvalitetsaspekterna som artikeln har tagit fram är välgrundade. Detta är också ett mastersarbete och inte en

vetenskaplig artikel.

Den andra artikeln “Can we improve the User Experience of Chattbots with

Personalisation?” är också är ett mastersarbete. Den är citerad, argumenten och teorin är välgrundade i betrodda teorier. De modeller som tas upp i studien är kända och beprövade.

Det man får ha i åtanke när man använder sig av den här studien är att de modeller som tas upp och kombineras av författaren är beskrivna i generella drag och kan vara svåra att fullt förstå med enbart den här studien som referens.

Den tredje artikeln “Usability testing of a chattbot: Can we use conventional methods to assess conversational user interfaces?” är en vetenskaplig artikel. Eftersom den publicerades i september 2019 har den inte hunnit bli citerad särskilt mycket. Det som främst var intressant i den här artikeln var CUQ modellen som specifikt behandlade användarupplevelse med chattbotar samt att se hur modellen hade utformats och vilka teorier den byggde på.

(13)

12 2.1.5 Nielsen's 10 usability heuristics for User Interface Design

Jacob Nielsen är en etablerad forskare inom digital användbarhet. Han innehar bland annat 79 patent i USA som handlar om hur internet kan göras mer användarvänligt. Tidigt 1990-tal utvecklade Nielsen tillsammans med kollegan Rolf Molich heuristiska riktlinjer för

utvärderingsmetoden som har det snarlika namnet “Heuristic evaluation” som är en metod som hjälper till att identifiera användbarhetsproblem i system. I de initiala resultaten som Nielsen fick fram tillsammans med Molich har han sedan omarbetat till 10 riktlinjer. Dessa riktlinjer är applicerbara på användarupplevelsen för chattbotar. Nedan följer de 10

heuristiska reglerna och deras definition (Nielsen 2005).

1. Transparens av systemstatus

Ett system bör alltid hålla dess användare uppdaterade vad som händer genom korrekt återkoppling inom rimlig tid

2. Match mellan system och den riktiga världen

Ett system bör alltid tala användarens språk, inte bara det formella språket utan även fraser och ordkoncept som användaren är van vid. Ett system ska sträva efter ett sådant språk snarare än att använda ett systemorienterat språk. Informationen ska framställas i en naturlig och logisk ordning.

3. Användarkontroll och frihet

Användare väljer ofta av misstag systemfunktioner och behöver en tydligt markerad exitfunktion för att lämna funktion de av misstag har kommit in på utan att behöva gå igenom en lång/förlängd interaktion. Systemet ska alltså kunna ”undo/redo”.

4. Kontinuitet och standarder

Användare ska inte behöva tänka på om ord, situationer eller handlingar betyder samma sak, systemet ska följa plattformens standarder.

5. Förebygga fel

Förebygga fel är ett mycket mer önskvärt läge än felmeddelanden, detta uppnås genom en noggrann design som förhindrar att ett fel uppstår. Antingen genom att eliminerar fel som är benägna att ske, eller presentera användaren ett bekräftelseval innan de går vidare med handlingen.

6. Igenkänning snarare än minneslagring

Ett bra system ur användarperspektiv ska minimera användarens behov att komma ihåg vart systemfunktionerna finns i minnet, detta gör man genom att göra

funktionerna synliga. Användaren ska inte behöva komma ihåg information från delar av interaktionen med systemet. Instruktioner för systemets funktioner bör antingen vara synliga eller enkla att hämta vid behov.

7. Flexibilitet och effektivitet vid användning

Inbyggda acceleratorer i system som inte är synliga för en ovan användare kan ofta påskynda en interaktion, både för en nybörjare och en van användare, i den mån systemet kan tillgodose olika typer av användare. Här är det viktigt att låta användarna kunna anpassa frekvent använda funktioner.

(14)

13 8. Estetisk och enkel design

Dialoger bör inte innehålla irrelevant information, eller information som sällan behövs. Varje enhet av överflödig information som finns i dialogen ökar chansen att den information som användaren behöver försvinner i mängden

9. Hjälpa användare att känna igen, diagnostisera och återhämta sig från fel Felmeddelanden ska uttryckas i “vanligt språk” och inte i kod. De ska precisera problemet och föreslå en konstruktiv lösning.

10. Hjälp och dokumentation

Även om det är bättre om system kan användas utan dokumentation är det ibland nödvändigt att erbjuda just det. All information som dokumenteras ska vara enkel att söka i, fokuserad på användarens uppgifter, lista konkreta steg för användaren att följa samt inte vara alltför omfattande.

Kritisk reflektion

Även om detta är en allmänt erkänd teori att använda sig av och referera till så är den inte ursprungligen tänkt att applicera på chattbotar. Av den anledningen är det inte en fulltalig teori och principer att utgå ifrån vid utvärdering av en chattbot. Däremot innehåller den fortfarande nyckelaspekter gällande användbarhet, samt bra och tydliga principer som är lätta att applicera på situationer som ska utvärderas.

2.1.6 Accentures framgångsfaktorer

Accenture är ett globalt konsultföretag med inriktning på strategi, digitalisering och informationsteknik. De verkar i gränsen mellan verksamheters affärsvärde kontra tekniska aspekter. De hjälper företag med förbättringar av dessa processer och applikationer.

Accenture belyser fem principer att förhålla sig till när man designar en chattbot för att den ska bli lyckad (Accenture 2017).

1. Den första principen handlar om att designa en unik chattbot. Det vill säga, vad kommer göra att en chattbot står ut bland mängden. Första principen söker svar på frågorna: Hur kan du försäkra dig om att din chattbot står ut? Finns det några problem gällande huruvida chattboten är upptäckbar eller inte? Vad är det som din chattbot kan erbjuda som skiljer sig från de andra på marknaden?

2. Den andra principen handlar om betydelsen av att förstå sin kundkrets. Den betonar även vikten av att hålla interaktionerna och uppgifterna enkla. En användare som har problem med interaktionen med en chattbot släpper/tröttnar snabbt. Hur fort kan man skifta mellan en chattbot interaktion och mänsklig interaktion om det skulle behövas?

3. Den tredje principen handlar om att hålla det simpelt. Att slutföra en uppgift via en chattbot kräver mer ansträngning än att klicka sig fram på webbsidor och appar för användaren. Därför behöver man hålla interaktionen mellan en chattbot och användare så enkel och effektiv som möjligt för att säkerställa att användaren har en bra

upplevelse.

4. Den fjärde principen belyser vikten av att behålla kontinuitet över organisationens alla kommunikationskanaler. En chattbot tjänst behöver vara helt integrerad med övriga

(15)

14 delar i plattformen. Frågor att besvara här är: Vilka beroenden har din chattbot? Vilka nya kommunikationsvägar och protokoll behöver bli etablerade?

5. Den femte principen handlar om säkerheten. Teknik och mjukvara som hanterar användares uppgifter måste hantera informationen enligt gällande lagar, och den integritet som förväntas. Användare kommer inte vilja använda en tjänst som de inte litar på.

Kritisk reflektion

Det är viktigt att tänka på att dessa faktorer är framtagna av ett företag som har ett

bakomliggande intresse. Det är inte lika opartisk som en studie som är självständigt utförd.

Däremot får man väga in den kunskap en stor organisation som Accenture besitter.

2.1.7 Sammanställd tabell av använda metoder och modeller i tidigare forskning Nedan följer en sammanfattning av de modeller och teorier som presenterats i avsnittet tidigare forskning, detta för att få en översikt över vilka modeller som finns samt deras för och nackdelar.

Namn Artikel Definition Fördelar Nackdelar

1 Kvalitetsaspekter Commercial Chattbot:

Perfomance Evaluation, Usability Metrics and Quality Standards

Det är en samling av tio stycken

kvalitetskriterier, för varje kriterier ska chattboten tilldelas ett värde mellan 1 och 5 beroende på hur väl de presterar

Det är kriterier som är skapade för att kunna appliceras på chattbotar, det vill säga att de täcker aspekter som ett mätsystem skapat för att testa användbarheten på en webbsida inte gör.

Den här skalan saknar ett riktmärke som några av de mer etablerade metoderna har. Detta gör att det kan vara svårt att tyda på vilken nivå chattboten är användbar mer än bra eller dålig.

3 TAM Can we improve

the User Experience of Chatbots with Personalization?

Är utvecklad för att kunna utvärdera hur användare accepterar informationssystem.

TAM har standardiserade principer/frågor för att mäta

”usefulness”.

Det är simpla och tydliga frågor som är enkla för användare att förstå och därför också kunna svara korrekt på.

TAM är utvecklat för att kunna utvärdera informationssystem, dock ses chattbotar som något mer komplext än det eftersom

interaktionsprocessen skiljer sig mellan varandra.

4 UMUX Can we improve

the User Experience of Chatbots with Personalization?

UMUX innehåller fyra principer som är framtagna för att täcka ISO- definitionen på användbarhet.

Eftersom UMUX täcker ISO-definitionen är det en bra metod för att undersöka hur väl chattboten följer dessa vidsträckta standarder.

Det finns bara 4 principer i metoden vilket kanske inte räcker för att kunna utvärdera helheten och komplexiteten av en chattbot

(16)

15

5 QUIS Can we improve

the User Experience of Chatbots with Personalization?

QUIS utvärderar användarens subjektiva

tillfredsställelse och beaktar även de specifika aspekterna av människa- datorinteraktionen.

Den här metoden har med principer som täcker en chattbots egenskaper som inlärningsfaktorer och röstigenkännare

Det är ganska generella principer och inga direktiv på vilket sätt de ska tolkas vilket kan leda till förvirring och att utfallen skiljer sig åt beroende på vilka som medverkar.

6 SUS Usability testing

of a chatbot:

Can we use conventional methods to assess conversational user interfaces?

SUS består av tio komprimerade utlåtanden som täcker fem positiva och fem negativa aspekter av systemet man mäter. Varje deltagare sätter poäng per fråga, maxvärdet är fem poäng

Detta är en väletablerad utvärderingsmodell och det finns ett riktmärke kring vad värdet bör vara över för att det ska vara ett bra system.

SUS är tänkt att vara ett enkelt sätt att mäta användbarhet. Men det betyder också att det kanske inte är tillräckligt för att ordentligt kunna utvärdera en chattbot.

7 UEQ Usability testing

of a chatbot:

Can we use conventional methods to assess conversational user interfaces?

UEQ syfte är att göra en omfattande bedömning av användarupplevelsen . Den är baserad på sex skalor och skalorna mäts genom att använda ett adjektivs motsatsord på ena sidan och adjektivet på den andra sidan för att beskriva systemet.

Den är bra för att den utför en omfattande utvärdering av ett system vilket skulle innebära att modellen har en bra chans till att kunna täcka den komplexa

chattboten. Den här modellen har också ett riktmärke att gå efter.

De skalor som modellen består av är ganska generella, man skulle behöva framställa frågor inom skalorna som man kan ställa till användare längre.

8 CUQ Usability testing

of a chatbot:

Can we use conventional methods to assess conversational user interfaces?

CUQ är baserat på UX principer specifika för chattbotar som ALMA Chattbot Test tool har skapat. CUQ värderar chattbotens personlighet, inskolningstid (onboarding), förståelse, navigation, responsen, felhantering och intelligens.

Den är väl anpassad för chattbotarna och bygger själv på SUS modellen men den har extra principer som täcker chattbotsaspekten i användbarhetsevaluering en vilket inte många andra metoder som är presenterade i tabellen gör.

Det som kan ses som negativt är att

principerna som tas upp är relativt simpla och inte har samma ”scope”

som till exempel QUIS har.

9 Nielsens

användbarhets principer

Nielsen's 10 usability heuristics for User Interface Design

Nielsen tar upp 10 användbarhetsprincip er att förhålla sig till och ha i åtanke när man designar ett användargränssnitt

Väl beprövad och allmänt erkänd metod.

Nielsen är en av världens främsta forskare inom användbarhet

Dessa principer har funnits under lång tid och mycket har hänt sedan dess.

Användbarhetsprinciper na är framförallt tänkta att appliceras på informationssystem och saknar därav några aspekter som är essentiella när man designar chattbotar.

(17)

16 1

0

Accentures Framgångsfaktor er

Accentures framgånsprincip er

Accenture beskriver fem faktorer som leder till att den chattboten man utvecklar ska bli framgångsrik.

Accenture är en global organisation som jobbar med informationsteknik och digitalisering. De artiklarna som de har publicerat inom ämnet chattbotar är väl citerade och erkända i de akademiska kretsarna.

Accentures

framgångsfaktorer är framtagna ur ett företags- och försäljarperspektiv till skillnad från de andra studierna som har tagits upp i detta avsnittet så det får man ha i åtanke om man ska använda dem.

Tabell 1. Sammanfattning av de modeller som finns med i tidigare forskning.

2.2 Utvärderingsmodell

2.2.1 Vetenskapliga grunder

I avsnittet Kunskapsinventering/Tidigare Forskning figurerar åtta olika mätningsmetoder. Min utvärderingsmodell kommer ha sina teoretiska utgångspunkter från fyra utvalda modeller:

Modellen ”UMUX” valdes för att den täcker begreppet användbarhet enligt ISO-standard.

ISO är ett etablerat förbund för internationella standarder, som alla organisationer strävar efter att följa. Modellen “UEQ” valdes för den till skillnad från UMUX gör en mer omfattande undersökning av ett systems användbarhet. Det innebär att den kan hantera mer komplexa aspekter för en chattbot. Modellen “CUQ” valdes för att den bygger på

användbarhetsprinciper som ALMA Chattbot Test tool har skapat. Alma är en öppen källkod som kan användas för att testa chattbotar (Chattbottest 2020). Skillnaden mot de tidigare modellerna, är att den är specifikt skapad för att kunna tillämpas på chattbotar. Därför är det en passande modell som grund i min utvärderingsmodell. Modellen “Kvalitetsaspekter”

valdes för att den innehåller tio stycken välmotiverade och tydliga kriterier, som jag ansåg var relevant för att avgöra hur bra användbarhet en chattbot har. Dessa kriterier täcker till stor del de aspekter som min utvärderingsmodell kommer att utvärdera. Resterande modeller som presenterats i tidigare forskning men inte har blivit valda beror på att de inte har varit tillräckligt komplexa för att utvärdera en chattbots funktioner ordentligt.

Tanken med de fyra valda modellerna är att de bygger på varandra. Varje modell har med sig viktiga egenskaper och representerar olika perspektiv som är värdefulla för min

utvärderingsmodell. UMUX är den övergripande modellen som de andra modellerna sorterar in under, på grund av att den täcker ett generellt behov.

Tillsammans uppfyller dessa fyra modeller nästan samtliga av Nielsens

(2005) användbarhetsprinciper och Accentures framgångsprinciper (2017). Tillsammans utgör de grunden för den utvärderingsmodell som är skapad för den här uppsatsen, med syftet att utvärdera chattbotarna och analysera vilka faktorer som är viktiga för chattbotens

användbarhet.

(18)

17 Figur 2. Visar vilka byggstenar från tidigare forskning som utvärderingsmodellen grundar sig på

2.2.2 Modell kriterier

Transparency 1 2 3 4 5

1 Förklarar chattboten vilka uppgifter den ska utföra?

2 Uppdaterar chattboten användaren om vad som sker under interaktionen?

3 Är syftet med interaktionen tydligt för användaren?

Efficiency

4 Kan chattboten lösa de uppgifter som användaren har gett?

5 Är chattbotens kunskapsbas tillräcklig för att ge användaren en tillfredsställd upplevelse?

6 Är chattbotens svar på användarens frågor relevanta?

7 Är chattboten enkel att navigera?

Dependability

8 Är chattbotens svar lämpliga?

9 Upplever användaren trygghet när den interagerar med chattboten?

10 Följer chattbotens slutaster ett mönster?

(19)

18

11 Kan användaren förutse chattbotens mönster?

Stimulation

12 Ger chattboten den förväntade stimulans som användaren hade förväntat?

Novelty

13 Är chattbotens visuella utseende tillfredsställande enligt användaren?

14 Följer chattboten samma konventioner som verksamhetens resterande plattformar?

15 Har chattboten personlighetskaraktärer som är trevliga att interagera med för användaren?

16 Pratar chattboten samma språk som användaren? (Inte till exempel verksamhetsspråk)

Attractiveness

17 Var den övergripande känslan av interaktionen med chattboten positiv för användaren?

18 Kan användaren tänka sig att interagera med en chattbot igen?

Error handling

19 Kunde chattboten förstå användaren och genererade inga fel eller missförstånd?

20 Hur väl hanterade chattboten de fel/misstag som skedde under interaktionen?

Tabell 2. Tabellen innehåller den framtagna utvärderingsmodellen och de frågor som ska besvaras enligt ett poängsystem 1–5 beroende hur väl chattboten uppfyllt frågan.

Utvärderingsmodell motivering

Det här avsnittet förklarar, motiverar och anger vilka teoretiska delar som ligger

bakom respektive fråga. Frågorna är indelade i 7 kategorier. Dessa kategorier utgår främst från modellen kallad UEQ. Frågorna i varje kategori grundar sig på CUQ, Kvalitetskriterier, Accentures framgångsprinciper och Nielsens 10 användbarhetskriterier för gränssnitt (Nielsen 2005).

Första kategorin behandlar transparens. Det innebär att det ska framgå för användaren hur systemet fungerar, samt vad som händer under interaktionen. Alla frågor i det här avsnittet grundar sig i UMUX-modellen där helheten av systemet bedöms. I UEQs modell diskuteras

(20)

19 om ett systems tydlighet, och att det ska vara överskådligt för användaren. Även Nielsen diskuterar detta som punkt nummer 1 i hans användbarhetskriterier (2005).

Fråga 1 Förklarar chattboten vilka uppgifter den ska utföra?

Frågan syftar till att förstå till vilken grad chattboten informerar användaren vad den kan göra.

Säger den till exempel “Jag kommer att söka efter det du frågar om på dessa ställen och ge dig resultatet” eller får användaren bara fram ett resultat av frågan de ställde till chattboten.

Fråga 2 Uppdaterar chattboten användaren om vad som sker under interaktionen?

Frågan syftar till att ta reda på om användaren blir uppdaterad om vilka steg chattboten utför, och om användaren kan följa med i hela processen. Den här frågan kompletterar den första frågan och är en fråga som är aktuell under hela interaktionen.

Fråga 3 Är syftet med interaktionen tydligt för användaren?

Frågan syftar till att undersöka om användaren har förstått syftet med interaktionen. Om det har framgått för användaren vilka frågor och problem som chattboten kan hjälpa till med och på vilket sätt.

Andra i kategorin handlar om effektivitet. Med effektivitet menas att användaren ska kunna lösa sina problem effektivt och smidigt utan att utan att lägga onödig energi på interaktionen.

Frågorna i det här avsnittet grundar sig på tidigare princip “Efficiency” i UMUX och principen “Efficiency” i UEQ-modellen. Frågorna grundar sig även i Nielsens

användbarhetsprinciper, punkt 7 och punkt 8 (2005). De grundar sig även i Accentures tredje framgångsfaktor som berör enkelhet - att användaren ska kunna interagera med chattboten med minsta möjliga energi (2017).

Fråga 4 Kan chattboten lösa de uppgifter som användaren har gett?

Syftet med frågan är att ta reda på om interaktionen har gett användaren det eftersträvade resultatet. Det vill säga om interaktionen har varit effektiv.

Fråga 5 Är chattbotens kunskapsbas tillräcklig för att ge användaren en tillfredsställd upplevelse?

Syftet med frågan är att ta reda på om chattboten kan tillräckligt mycket om det ämne som användaren vill har hjälp med. Om chattboten inte besitter den kunskap som krävs så kommer interaktion inte kunna klassas som effektiv.

Fråga 6 Är chattbotens svar på användarens frågor relevanta?

Syftet med den här frågan är undersöka om chattboten svarar rätt och relevant. Ett exempel är om användaren kommunicerar att den vill ändra sin faktureringsadress och chattboten svarar med att visa vilka abonnemang och TV-paket man kan köpa. Det har ingen relevans och då blir också interaktionen ej effektiv.

Fråga 7 Är chattboten enkel att navigera

Syftet med den här frågan är undersöka hur lätt designen av chattboten är att förstå för

användaren. En chattbot som är enkel att navigera i är mycket tidssparande och kräver mindre av användarens energi vilket är något man bör sträva efter.

Tredje kategorin handlar om hur pålitlig chattboten är och huruvida användaren känner att den har kontroll över situationen. Känns interaktionen säker och är den förutsägbar? Den här kategorin grundar sig i UMUX principer ”Effectiveness” och UEQs princip “Dependability”

(21)

20 som avgör om chattboten lever upp till användarens förväntningar. Frågorna i den här

kategorien grundar sig utöver de redan nämnda modellerna även punkt 2, 3 och 9 på av Nielsens användbarhets principer (2005). Den här delen stödjer även Accentures 5:e framgångsfaktor, om användaren känner sig trygg och säker under interaktionen. Det är relevant eftersom personuppgifter ofta involveras. Det är även viktigt att chattbotarna designas så de följer lagar och praxis för integritet

Fråga 8 Är chattbotens svar lämpliga?

Syftet med den här frågan är att ta reda på hur väl svaren från chattboten matchar användarens fråga. Mer lämpliga och relevanta svar gör chattboten mer pålitlig.

Fråga 9 Upplever användaren trygghet när den interagerar med chattboten?

Den här frågan syftar till att undersöka användarens upplevda trygghet. Detta är relevant för att den upplevda tryggheten speglar hur väl chattboten möter användarens förväntningar. Det vill säga beter sig chattboten som användaren har förväntat sig. Om chattboten inte gör det blir konsekvensen att användaren inte kommer ha ett högt förtroende för chattboten.

Fråga 10 Följer chattbotens slutsatser ett mönster?

Syftet med den här frågan är att ta reda om användaren kan känna igen chattbotens mönster i hur den svarar och resonerar. En kontinuitet i chattbotens beteende ökar användarens

förtroende.

Fråga 11 Kan användaren förutse chattbotens mönster?

Denna fråga är en fördjupning på fråga 10. Ju mer användaren kan förutse chattbotens beteende och mönster desto mer kommer användaren känna att den förstår och har kontroll, och det kommer påverka hur pålitlig användaren tycker att chattboten är.

Den fjärde kategorin handlar om interaktionen med en chattbot ger användaren något nöje.

Vill man interagera med chattboten? Finns det någon motivation att vilja interagera med chatboren eller ses det mer som ett nödvändigt ont? Den här kategorin grundar sig i UMUX princip “Satisfaction”, UEQs perspektiv “Stimulation” och Nielsens 10

användbarhetsprinciper punkt 7 (2005), som belyser att det är viktigt att interaktionen mellan användare och system ska gå smidigt till. Accentures andra framgångsfaktor betonar att det är viktigt att hålla interaktionerna och uppgifterna friktionsfria och enkla (Accenture 2017). En chattbot som inte håller det måttet kommer snabbt att få användaren att tappa den motivation som tidigare funnit över att interagera med chattboten.

Fråga 12 Ger chattboten den förväntade stimulans som användaren hade förväntat?

Syftet med den här frågan är att se hur användaren har upplevt chattbotens aktivitetsgrad. Har interaktionen lett till något positivt för användaren? Ett exempel på om det inte har uppnåtts är om användaren kommer till chattboten med motivationen att lösa en fråga som resulterar i att användaren inte har upplevt något nöje eller positiva känslor med interaktionen.

Den femte kategorin handlar om hur innovativ chattboten är. Fångar den användarens intresse, har chattboten en kreativ design och följer chattboten samma sociala regler som resten av verksamhetens plattformar? Den här kategorin grundar sig i UMUX princip

“Stimulation”, UEQs perspektiv “Novelty”, Nielsens 10 användbarhets principer punkt 2, 4, och 6 (2005) samt Accentures första och fjärde framgångsfaktorer (2020).

Fråga 13 Är chattbotens visuella utseende tillfredsställande enligt användaren?

(22)

21 Syftet med den här frågan undersöker om chattbotens visuella utseende gör användaren

tillfredsställd. Med visuellt utseende avses enbart den grafiska designen av chattboten, inte hur chattboten är designad funktionellt.

Fråga 14 Följer Chattboten samma konventioner som resterande plattformar?

Den här frågan syftar till att ta reda på om chattboten följer samma konventioner och grafisk design som företaget har för andra applikationer. Skiljer sig till exempel webbsidans utseende jämfört mot chattboten? Med konventioner menas att användare inte ska behöva fundera om ord eller handlingar betyder samma sak på de olika plattformarna. Även Accenture betonar betydelsen av kontinuitet i verksamhetens olika kommunikationskanaler (2017).

Fråga 15 Har chattboten personlighetskaraktärer som är trevliga att interagera med för användare?

Syftet med frågan är att ta reda på om användaren upplever chattbotens personlighetskaraktär trevlig. Denna fråga är specifikt utformad för att utvärdera chattbotar. Då chattbotar är tänkta att likna kommunikationen med en människa bör den därför ha en personlighet som

användaren kan känna igen.

Fråga 16 Pratar chattboten samma språk som användaren?

Syftet är att undersöka om chattboten har ett språk som användaren förstår.

Den sjätte kategorin handlar om det generella intrycket användaren får av chattboten efter att ha interagerat med den. Den grundar sig i UMUX Overall princip och UEQs Attractiveness perspektiv. Det är här chattboten och interaktionen bedöms i sin helhet.

Fråga 17 Var den övergripande känslan av interaktionen med chattboten positiv för användaren?

Fråga 18 Kan användaren tänka sig att interagera med chattboten igen?

Båda frågor vars svar återspeglar användarens generella bild av chattboten.

Den sjunde kategorin handlar om felhantering och chattbotens förmåga att hantera fel och misstag. Den här kategorin grundar sig främst i Nielsens 10 användbarhetsprinciper punkt 5 och 9 (2005), CUQ modellen och modellen om kvalitetsaspekter. Alla tre betonar vikten av att ett system som till exempel chattbot måste kunna hantera fel och även i största möjliga mån arbeta förebyggande och försöka eliminera de fel som finns utan att användaren märker av det.

Fråga 19 Kunde chattboten förstå användaren utan att genererade den fel eller missförstånd?

Syftet med den här frågan är att räkna om och i så fall se hur många fel eller missförstånd som skedde mellan chattboten och användaren. Detta gör att man kan få en uppfattning om hur väl chattbotens felhanteringssystem fungerar.

Fråga 20 Hur väl hanterade chattboten de fel/misstag som skedde under interaktionen?

Syftet med den här frågan är att undersöka hur chattboten hanterade de fel som uppstod och hur de sätten som chattboten hanterade felen var bra eller inte bra.

Kritisk analys av utvärderingsmodell

Teorin som utvärderingsmodellen bygger på ett smalt perspektiv när man tittar på chattbotar och hur man utvärderar användbarheten. Önskvärt vore att utvärderingsmodellen skulle vara

(23)

22 grundad i fler teoretiska punkter än vad den är nu. Ett exempel på en sådan teoretisk punkt skulle vara en användares beteendemönster när man kommunicerar, på så vis skulle man kunna utforma frågor som korrelerar med det beteende som en användare har under

interaktionen med chattboten. Detta för att få en välgrundad syn på chattbotens användbarhet och på så sätt ha en utvärderingsmodell som har en stark förankring i teoretiska punkter.

2.2.3 Definition av modellen

Modellen är definierad i 20 frågor som syns i tabell 2. För varje fråga som besvaras ges chattboten ett värde på en skala mellan 1 till 5 beroende på hur väl den genomför frågan/kriteriet. 1 på skalan är mycket dåligt, 2 är dåligt, 3 är neutralt - vare sig bra eller dåligt, 4 är bra och 5 är mycket bra. Svaren sammanställs sedan till poäng som summeras till ett totalt värde. Det går då se hur de chattbotar som har utvärderats presterar. Förutom att man får ut ett konkret värde att jämföra med så får man en djupare förståelse över vilka aspekter som är viktiga att tänka på när man bygger och designar en chattbot.

(24)

23

3. Forskningsansats och Metod

3.1 Forskningsansats

Uppsatsen har utgått från en deduktiv forskningsansats. Den teoretiska informationen samlades först in för att bygga en utvärderingsmodell, som sedan skulle appliceras på det empiriska materialet. Uppsatsen börjar inte med något antagande eftersom framställningen av utvärderingsmodellen utgjorde en av grundpelarna inom det valda ämnet. Det var därför viktigt att samla in kunskap kring ämnet innan en korrekt planering kunde göras av hur datainsamlingen skulle gå till.

3.2 Forskningsparadigm

Den här uppsatsen kommer att utgå från forskningsparadigmet interpretivism. Detta eftersom uppsatsen varken ämnar bevisa eller motbevisa en teori utan den kommer försöka identifiera, förklara faktorer verksamma inom samma områden men på olika premisser. Genom att identifiera och få kunskap om hur faktorerna interagerar med varandra för att sedan kunna presentera en tolkning av detta i form av en modell (Oates 2006 s. 292–293).

För att bedöma det valda forskningsparadigmet finns det vissa kriterier man kan använda sig av. Det första kriteriet handlar om att uppfylla trovärdighet genom att fråga oss hur mycket trovärdighet vi anser att undersökningen har. Det andra kriteriet handlar om att bedöma huruvida det finns tillräckligt mycket återberättat i undersökningen för att man ska veta om upptäckterna som görs kommer från den insamlade data. Det tredje kriteriet utvärderar hur väl undersökningen är dokumenterad och om det går att se en verifieringskedja i arbetet. Det fjärde kriteriet kontrollerar om informationen i undersökningen är korrekt skildrad och identifierad.

Det sista kriteriet granskar om det underlag som presenteras i undersökningen är överförbar och kan användas i andra studier. För att uppfylla dessa kriterier ska allting dokumenteras noggrant samt tydligt beskriva vad som ska göras i undersökningen så den anses vara trovärdig och skulle kunna användas i liknande studier (Oates 2006 s.294–295).

3.3 Forskningsprocess

Forskningsprojekt/uppsatser som går under “Design and creation” strategin är forskning som involverar analys, design och utveckling av en databaserad produkt. För att ett sådant projekt ska bli kunna bli klassificerat som ett forskningsprojekt enligt “Design and creation” måste det utöver det tekniska kunna visa akademiska kvaliteter. De akademiska kvaliteter som

“Design and creation” syftar till är analyser, förklaringar, argumentationer, rättfärdigande och kritisk utvärdering. Utöver de akademiska kriterierna så måste även projekten på något sätt bidra med kunskap. Enligt “Design and creation” så kan ett forskningsprojekt ha tre

huvudsakliga roller. Den uppsatsen som beskrivs här går in under den tredje rollen där

uppsatsen resulterade i en konkret slutprodukt och fokus vara på utvärderingsmodellen (Oates 2006 s. 109).

(25)

24 Den strategin är lämplig för denna uppsats eftersom det finns en målsättning att ta fram

en utvärderingsmodell som kan appliceras och användas för IT-produkten chattbotar. Fokuset ska då vara på utvecklingsprocessen av chattbotar och modellen skulle kunna bli inkorporerad i utvärderingsmodellen. Uppsatsen kommer i strategins anda anta en problemlösande

approach till de frågor och hinder som ska klaras upp. Detta görs iterativt i fem steg (Oates 2006 s. 111–112);

Awareness: I det här steget så ska problemet man hanterar formuleras. Det har vi sett i litteraturstudien då problematiken har varit ett återkommande ämne och även att det saknas litteratur på vilka användbarhetsprinciper och på vilket sätt de är applicerbara på chattbotarna.

Suggestion: Det här steget handlar om att ta nyfikenheten för problemet vidare till nästa nivå och börja forma en idé hur man skulle kunna angripa eller presentera

lösningsförslag på problemet. Lösningen som uppsatsen formulerade är en modell som ska kunna implementeras i utvecklingsprocessen för att i slutändan generera en bättre användarupplevelse.

Development: I det här steget så ska den föreslagna designidéen bli implementerad eller konstruerad. För den här uppsatsen var det i huvudsak att en utvärderingsmodell konstruerades, för att den formellt skulle kunna bli bevisad vilket motiveras i det teoretiska avsnittet.

Evaluation: I det här steget ska utvecklad lösning utvärderas. En utvärdering ska göras om den skapade modellen har ett värde samt ta fram vad som skiljer mellan den faktiska modellen och förväntningarna på modellen.

Conclusion: Här ska man fastställa resultaten från designprocessen genom att dokumentera och identifiera den kunskap man har erhållit vid uppsatsskrivandet. I slutsatsen så ska även de oväntade eller avvikande resultaten dokumenteras, även om de inte ännu kan ligga till grund för fortsatt forskning.

3.4 Metodval

Metoden som valts för att utvärdera den utvärderingsmodell som uppsatsen framställt följer FEDS som är ett ramverk för utvärderingar inom Design Science Research. Ramverket är analytiskt utvecklat genom att undersöka olika klassifikationer av etablerade

utvärderingsmetoder och sedan koppla dem till mål för utvärderingar som finns inom “Design Science Research”. Genom att göra detta skapar ramverket en bro mellan dessa två delar.

Utifrån ovan analys konstateras det att det finns två dimensioner av utvärderingen och tillsammans bildar dimensionerna grunden för FEDS (Baskerville m fl 2014).

Första dimensionen syftar till att bestämma utvärderingens funktionella syfte genom att bestämma om utvärderingen sker formativt eller summativt. En formativ undersöknings syfte är att utvärdera utfallen från designprocessen under tidens gång. En summativ undersöknings syfte är att producera empiriskt baserade tolkningar som kommer att skapa en bas där delade meningar om utvärderingen samlas. En summativ utvärdering används ofta för att mäta resultaten från en designprocess som redan är utförd. Den här utvärderingen av

utvärderingsmodellen kommer följa en summativ utvärdering då fokus kommer ligga på att identifiera de faktorer som kommer påverka vilka subjekt som ska vara med i utvärderingen av utvärderingsmodellen kommer att ske när designprocessen är klar (Baskerville m fl 2014).

(26)

25 Den andra dimensionen syftar till att bestämma vilket paradigm som utvärderingen av studien tillhör. Ramverket skiljer på en artificiell utvärdering och en naturalistisk utvärdering.

Eftersom den här utvärderingen utforskar den framställda utvärderingsmodellen i dess verklighetsförankrade miljö och utgår från forskningsparadigmet interpretivism så kommer utvärderingen att använda sig av ett naturalistiskt paradigm (Baskerville m fl 2014).

Med stöd i de två dimensionerna föreslår FEDS en utvärderingsprocess som är uppdelad i fyra steg. Nedan är de fyra stegen och valen i stegen förklarade och motiverade:

I det första steget ska man förklara vilka mål som ska vara med när man designar sin

utvärderingskomponent. Ramverket beskriver mål som är relevanta i designprojektet. De mål som beskrivs som rigorism har två fattningar varav den andra fattningen som beskrivs är passande för den typ av utvärdering som ska göras på utvärderingsmodellen. Målet för denna utvärdering är att kunna fastställa att utvärderingsmodellen som framställts i uppsatsen fungerar och kan användas i en verklig situation (Baskerville m fl 2014).

För att uppnå de mål som satts i första steget så ska man i andra steget välja en lämplig strategi att arbeta efter. Den här utvärderingen av uppsatsens utvärderingsmodell kommer använda strategin “Quick & Simple” eftersom den utför relativt lite formativ undersökning och istället använder sig av summativ undersökning. Strategin använder sig inte heller av flera utvärderingsepisoder en längre tid i processen, utan det finns enbart en utvärderingsepisod som sker i slutet av utvärderingsprocessen av den framställda utvärderingsmodellen. ”Quick and Simple” är en strategi som har lågkostnad, både i tid och pengar. Eftersom utvärderingen i den här strategin främjar en snabb slutsats får man ta i beaktning att den inte på ett skäligt sätt kan bemöta de designrisker som finns. Om tidsramen för uppsatsen och utvärderingen inte hade varit begränsad hade strategin “The human Risk & Effectiveness” varit lämplig att använda eftersom den använder sig av formativ undersökning i början som använder sig av naturalistiska utvärderingar. På slutet gör strategin även en summativ undersökning som fokuserar på en rigorös utvärdering av utvärderingsmodellen effektivitet. Den här strategin hanterar eventuella designrisker bättre än “Quick and Simple” men det den här utvärderingen saknar resurser att kunna använda den strategin (Baskerville m fl 2014).

I det tredje steget ska man välja vilka attribut som utvärderingen ska utvärdera, ramverket ger exempel på olika typer av generiska attribut man kan använda sig av i sin utvärdering. Ett av dessa exempel var attribut som härstammar från ISO-standard 9126 som är en kvalitetsmodell som innehåller sex dimensioner funktionalitet, underhållbarhet, effektivitet, portabilitet, pålitlighet och användbarhet. Vid utvärderingen av utvärderingsmodellen likställs utvärderingsmodellen som en systemkomponent i ISO 9121 (Chua & Dyson 2004). De generiska kvalitetsattributen som vanligtvis används för systemkomponenter används i den här utvärderingen på den framtagna utvärderingsmodellen.

Utifrån dessa så försöker ISO 9126 att hitta gemensam och objektiv förståelse av projektets mål. Projektets mål syftar här till den framställda utvärderingsmodellens mål. När man har valt vilka attribut man ska utvärdera så ska dessa attribut kopplas samman med de mål som formulerats i steg ett och den strategin man valde i steg två (Baskerville m fl 2014).

I det fjärde steget designar man mallen för utvärderingen som ska utvärdera den artefakt som har producerats. I detta fall är det uppsatsens framställda utvärderingsmodell. Designen av mallen bör ske i tre steg. Det första är att identifiera och analysera de begränsningar som finns i utvärderingsmiljön. Till exempel vilka resurser som finns tillgängliga för utvärderingen. Det

(27)

26 andra man gör är att prioritera de faktorer som hittades i det första steget. Detta görs för att kunna bestämma vilka faktorer som är väsentliga, viktiga, inte viktiga och onödiga. Det tredje och sista som görs är en plan. Planen innehåller hur många utvärderingsepisoder som ska finnas, i vilket/vilka skeenden under designprocessen de ska ske och på vilket sätt

utvärderingen ska ske. Den designade mallen ska svara på frågorna Vem? Vem gör vad? Vem gör vad när? (Baskerville m fl 2014).

Genom att följa FEDS ramverk när man utformar utvärderingen som ska utvärdera den framställda utvärderingsmodellen så blir utvärderingen designad från rätt grunder, på rätt sätt med rätt verktyg.

3.4.1 Mall för utvärdering

Figur 3. Skildrar de komponenter som ska utvärderingen ska utgå ifrån.

References

Related documents

De teoretiska implikationerna från denna studie skulle således kunna beskrivas som en vidare forskning av attityder för CRM-kampanjer, samt en aktualisering av transparensens

Berglund och Witkowski (2019) menade att de våldsutsatta kvinnorna många gånger själva inte kommer att prata om våld i nära relationer utan att få frågan först, vilket

Det innebär en ökad och hållbar produktion av mat som kan leda till fler jobb och hållbar tillväxt i hela landet och ge konsumenter, oavsett bak- grund, bättre förutsättningar

De informanter i intervjuerna som uppger att det finns riktlinjer för hur man som chef i den aktuella kommunen ska agera i ärenden som rör våldsutsatthet hos anställda, hänvisar till

De svenska emigranterna skulle kontraktsbindas för arbete åt farmare i Kapkolonin redan före avresan från Sverige, och vid deras ankomst skulle farmarna betala Letterstedt £ 10

Hon nämner också att alla sociala medier hon använder, använder hon för att hennes vänner gör det, och i detta fall kan man tydligt se hur de omgivande strukturerna påverkar

Han börjar med raketkrisen: ”Jag hade noga förklarat för honom (Goldberg) vad som stod i mitt skriftliga budskap till Krustjov: ’… om USA skulle invadera Kuba, ett land med

I situationen ger användningen av sammanträdesplanen dessutom ledtrådar till Thomas om vad Lotta gör, men även vad hon i detta fallet inte gör.. Här kommuniceras implicit