Andra sidor - Testing - Test av prototyp - Vad kan jag hjälpa dig med idag?

3.5 Testing - Test av prototyp

4.4.11 Andra sidor

Appen innehåller även andra skärmar som behövs för kontext samt övrig

funktionalitet. När användaren först startar Alfred syns onboarding-sidan (se Figur 43). På inställningssidan kan användaren se historiskt material samt välja

preferenser och inställningar (se Figur 44). Användaren kan skaka mobilen för att starta Alfred var den än befinner sig i appen (se Figur 45).

59 Figur 43.

Onboarding-sidan

Figur 44. Inställningar Figur 45. “Shake to wake”

Används första gången användaren startar Alfred.

Här kan användaren se gamla community-videos, välja inställningar, samt byta utseende på Alfred.

Alfred kan öppnas genom att skaka telefonen, då dyker denna “popup” upp.

4.5 Testing - Test av prototyp

Efter att samtliga tester slutförts sammanställdes alla data som samlats in under testen, såsom deltagarinformation, SUS-värde, samt huvudteman i både

problematiska och positiva trender. De citat som visas i denna del är transkriberade från de ljudupptagningar som gjordes under testen.

60 4.5.1 System Usability Scale

Som tidigare nämnt i metoddelen fick deltagarna efter varje test fylla i ett formulär som bland annat innehöll frågor från SUS-metoden. Efter att ha sammanställt all data och utfört uträkningen (se 3.5.3.2 System Usability Scale) så kunde systemets SUS-betyg konstateras vara 90.3 (se Tabell 3). Som tidigare nämnt kan man se SUS-skalan i elva nivåer från F (0-50) till A+ (84-100). Det betyder att appen placerar sig på det högsta betyget i skalan. Enligt Sauro (2018) gör detta användaren

benägen att tipsa andra om systemet (se Figur 46).

Figur 46. SUS-skala

Kön Ålder Mobilanvändning (h) SUS-värde

Man 22 10-15 90

Man 22 10-15 92.5

Man 23 10-15 95

Man 23 35+ 85

Kvinna 23 10-15 95

Man 26 35+ 95

Kvinna 21 5-10 90

Kvinna 24 30-35 77.5

Kvinna 23 30-35 92.5

Tabell 3. Deltagarnas information samt SUS-värde från användbarhetstestningen

4.5.2 Skillnader mellan deltagargrupper

Det gick inte att göra några tydliga fynd i mån om skillnader mellan deltagarnas SUS-värde och övriga attribut. Något som kan vara värt att notera är att den som gav systemet lägst SUS-värde (77.5) hade en högre mobilanvändning (+35) än majoriteten av de som gav det högsta betyget (95). Däremot hade en av de som gav högsta betyget samma höga mobilanvändning som den som gav lägst. Den som var äldst var även en av de som gav den högst betyg (95) och den som var yngst gav ett betyg på 90, vilket är ett medelvärde i detta test.

4.5.3 Problem i appen

Trots det höga SUS-betyget identifierades en del problem under testen. Dessa var Mycket på samma gång, Osäkerheter kring Alfreds begränsningar, samt

Färgindikation.

4.5.3.1 Mycket på samma gång

Ibland tyckte deltagarna att det hände för mycket på en och samma gång (se citat 37 - 40). Detta var ofta när instruktionen för parning av rörelsesensorn dök upp, vilket kombinerar två meddelanden och en animationsruta.

37. “Ibland är det lite mycket meddelanden på samma gång”

38. “När det kom många meddelanden samtidigt, och det första var ganska långt, kände jag oj nu hängde jag inte riktigt med här”

39. “Lite förvirrande att internet och elkabeln skulle pluggas in samtidigt”

62 40. “Det kunde vara lite överväldigande ibland, med bilder som rörde

sig och text”

4.5.3.2 Osäkerheter kring Alfreds begränsningar

Några deltagare uttryckte en viss osäkerhet kring vad Alfred klarar av, speciellt i mer avancerade scenarion (se citat 41 - 43).

41. “Kanske vore nice att man kan trycka så man kan tala med en riktig människa”

42. “Spännande att se hur det skulle gå att göra något mer avancerat”

43. “Felet som har hänt är kanske inte något du kan säga till botten”

Detta inkluderade även skepticism kring hur detta tas emot av äldre (se citat 44).

44. “Jag vet inte riktigt hur detta hade funkar på äldre”

Dock fanns det deltagare med motsatt åsikt (se citat 45).

45. “Jag tror helt ärligt att min Farmor hade älskat denna”

4.5.3.3 Använda färger för parning

Det dök upp ett problem för två av användarna vid parning av sensorn angående otydlig färgangivelse (se citat 46 och 47). Sensorn instruktioner är kopplade till dess färgdisplay och användarna blev då osäkra på om lampan blivit gul (vilket är en indikation på att användaren ska klicka på en knapp).

46. “Var det där gult?”

63 47. “Är det här gult?”

4.5.4 Bra saker

En hel del positiva aspekter kom fram under testningen, vissa väldigt generella (se citat 48 - 50).

48. “Skönt att appen var enkel, installationen hade varit svår annars”

49. “Jag tyckte om allt”

50. “Den var lätt”

Resterande gick att dela upp temana Omtyckt estetik, Animationer, Bättre än manual, Tydligt fokus, samt Förslagsknappar.

4.5.4.1 Omtyckt estetik

Många användare uttryckte positiva åsikter kring appens estetik (se citat 51 och 52), vilket enligt Moran (2017) är en viktig del i en positiv användarupplevelse.

51. “Riktigt snygg”

52. “Den var jättesnygg tycker jag”

4.5.4.2 Animationer

Något som många användare tyckte om var instruktionsanimationerna (se citat 53 - 58).

53. “Oh det var ju väldigt fint, visar att jag behöver ge den ström”

54. “Skönt att animationerna ser ut exakt som det gör på riktigt”

55. “Animationerna gjorde det väldigt tydligt”

64 56. “Jag gillade att den hade bilder”

57. “men animationen visar väl bara, nej vänta, jaha men gud”

58. “Väldigt snygga animationer”

Detta var ingen stor överraskning då det stämmer överens med flertalet teorier kring informationsvisualisering, bland annat Apples (2020).

4.5.4.3 Bättre än manual

Vissa användare uttryckte att de tyckte appen var bättre än vanliga manualer (se citat 59 och 60).

59. “Det här är något jag kan tänka mig använda, och det kommer från någon som hatar instruktioner”

60. “Hatar instruktionsböcker, så denna är perfekt”

Detta är ett väldigt bra tecken då manualer är den nuvarande artefakten vid installation.

4.5.4.4 Tydligt fokus

En del användare beskrev även att de slukades in i uppgiften (se citat 61 – 67).

Vissa beskrev det som att de inte riktigt förstått vad de gjort, men att det ändå gick smidigt och bra.

61. “Jag vet inte riktigt vad jag gjort nu, men det gick ju väldigt bra”

62. “Utan att ens fatta vad jag hållit på med lyckades jag slutföra uppgiften”

63. “Va härligt, det var som att parningen hände utan att jag märkte att den hände, jag följde bara stegen liksom”

65 64. “Fokuserad på uppgiften och den gav mig hela tiden det jag ville

ha, så det gick så himla lätt”

65. “Straightforward, säger vad jag ska göra”

66. “Det gick ju fort liksom, det talar väl för att den gjorde det den skulle”

67. “Väldigt intuitiv, tänkte inte så mycket på hur det såg ut.”

Detta sågs som ett bra tecken på att prototypen vägleder användaren på ett sätt som gör att de inte behöver förstå tekniken bakom de enheter de parar. Om ett önskemål däremot är att lära användaren kring tekniken kan utbildande inslag presenteras under processens gång.

4.5.4.5 Förslagsknappar

Som de teorier som togs upp i utformningsdelen pekade på så visade sig

förslagsknapparna vara en stor favorit (se citat 68 - 71). Flera deltagare uttryckte en stor glädje och lättnad kring funktionen. En deltagare beskrev problemet med att det alltid är svårt att veta hur man ska formulera sig för att agenten ska förstå vad man säger, vilket är något som förslagen löser.

68. “Skönt att det fanns färdiga svar”

69. “Skitbra med chattbotar med förslag”

70. “Diggar verkligen förhandsvalen, tycker inte om att skriva alls”

71. “Slipper skriva”

4.5.5 Uppfattning om Alfred

Det fanns en del olika uppfattningar kring Alfreds personlighet, nästan alla var positiva. Många uppfattade agenten som hjälpsam och glad.

66 4.5.5.1 Antropomorphistisk tilldelning

Målet att blanda in antropomorphistiska drag ansågs lyckat då många deltagare refererade till Alfred med könsbundet pronomen och beskrev honom med antropomorphistiska beskrivningar (se citat 72 – 82).

72. “Va fint att han skriver också”

73. “Han va positiv, hjälpsam”

74. “Han var mån om att hjälpa, liksom inte bara hjälpsam, han ville hjälpa”

75. “Han va trevlig, positiv”

76. “Han var väldigt mån om att det skulle gå bra för mig”

77. “ Han va ball”

78. “ Han höll mig i handen”

79. “Han frågade hur det gick för mig”

80. “Han va skön haha”

81. “Kändes lite som en vanlig grabb”

82. “Kändes lite som: jag är här för din skull”

Vissa benämnde Alfred mer som en bot, genom att använda ordet bot eller att säga

“den” istället för “han” (se citat 83 – 85).

83. “Det va nice, personlig bot”

84. “Det var nog den trevligaste chatboten jag interagerat med faktiskt”

85. “Kan jag säga att den var lite skön?”

67 4.5.5.2 Språk och beteende

Vissa deltagare gillade språket (se citat 86 och 87).

86. “Glad och peppande vilket syns i emojis”

87. “Lite rapp och klämkäck”

Andra deltagare uttryckte däremot att den peppiga tonen kanske hade varit tröttsam i fel läge eller under en lång användning av appen (se citat 89 – 91). En deltagare uttryckte även en viss oro för att språket inte hade passat äldre lika bra (se citat 88).

88. “Kan tänka mig att språket kan vara lite för lekfullt för äldre”

89. “Hade jag använt den hela tiden hade jag kanske tröttnat på den härliga jargongen, bara säg vad jag ska göra liksom”

90. “Vet inte om jag hade diggat allt fluff om jag hade varit stressad”

91. “Ibland är det lättare om man bara kan säga ja eller nej”

4.5.5.3 Namnet

Det fanns en del olika uppfattningar kring namnet (se citat 92 – 95).

92. “Alfred är ju namnet på en gammal gubbe, han kan inte lära mig om teknik”

93. “Kul med Batman referensen”

94. “Gillar ju Emil i Lönneberga så det var ju lite kul”

95. “Gillar namnet också, påminner lite om Batman”

68 4.5.6 Slutsats

De mest uppskattade funktionerna ansågs vara animationer och förslagsknapparna.

Det mest problematiska ansågs vara när det uppstod mycket information på samma gång, och den misstro som fanns till Alfreds möjligheter att tackla en mer avancerad uppgift.

5 Diskussion

Här tas kritik angående studiens utformning upp. Kapitlet tar först upp generell kritik mot konversationsagenter för att sedan gå in på mer studiespecifika områden såsom metod- och resultatdiskussion.

5.1 Etisk problematik kring implementeringen

5.1.1 Skaparens fördomar

Som nämnt i metoddelen så finns det en viss problematik som uppstår vid skapandet av agenter. Trots att agenter är en typ av maskin kommer de ofta med en typ av etik, moral, samt fördomar då agentens skapare för med sina egenskaper, vilket formar dess beteende (Gheerawo, Poggi, & Spencer, 2018). Man kan argumentera för att detta amplifieras genom att endast ha en skapare, då fördomar, åsikter och

preferenser kan strömmas igenom utan filter. För att förhindra detta och göra agenten mer diversifierade kan man försöka inkludera flera kreatörer från olika kulturella och politiska riktningar. Viktigt i denna aspekt är även, som nämnt i metoden, att agenten representerar företagets värden och etiska riktlinjer.

5.1.2 Automatiseringens påverkan på arbetsmarknaden

Något som är kontroversiellt med automatisering såsom exempelvis AI är att de kan ersätta mänskligt arbete, vilket introducerades i Kritik mot konversationsagenter.

Automatiserade lösningar prefereras då de kan vara billigare i längden, vilket leder till att personen som tidigare utfört uppgiften kan förlora jobbet. I de fallen kan man argumentera kring huruvida implementeringen av konversationsagenter kommer

69 göra samhället bättre eller inte. I vissa fall kan dock automatisering assistera

människan snarare än att helt ersätta den. Denna vy hålls av Carter & Knol (2019) vilket argumenterar för att botar ännu inte blivit tillräckligt bra för att kunna utföra handlingar helt utan assistans. Här kan man dock argumentera för att det endast är en tidsfråga. Någon som däremot inte tror det är Yin (2019), som tar upp exemplet med framtagningen av bankomater på 60-talet. När bankomaten introducerades till marknaden trodde många företag att kunder inte skulle vilja använda automaterna, och istället föredra att använda sig av en bankman. Scenariot idag är istället att människor använder bankomater för enkla ärenden såsom att ta ut pengar och talar med en bankman när det gäller mer komplexa ärenden. Samma scenario skulle kunna bli aktuellt med konversationsagenter, där kunder har möjlighet att snabbt prata med en agent för enkla ärenden men sedan välja att tala med en människa när mer komplexa problem uppstår. Vilken av dessa scenarion som kommer bli sanning är väldigt svårt att säga, hur som helst verkar automatiseringen vara något som hela tiden blir mer utbrett i samhället.

5.1.3 Integritetsproblem

Carter & Knol (2019) tar i sin studie upp problematiken användaren känner kring chattbotars inkräktande på dess integritet. Detta tas även upp i Budiu &

Laubheimiers (2018) studie som en av de problem användarna upplevde med chattbotar. Dessa inkluderade bland annat inspelning av användaren, vilket är en funktion som finns tillgänglig i den prototyp som tagits fram i denna studie. Konceptet kring produkten innehåller även mönsterigenkänning, vilket även det potentiellt kan ses som inkräktande på användarens privatliv. Detta är ett problem som inte har en enkel lösning. Ett sätt att minska känslan av integritetsintrång skulle kunna vara att göra det tydligt för användaren vilken information som hämtas, när och var den hämtas, samt vad den kommer användas till och hur länge den kommer sparas.

Detta kombinerat med att göra det frivilligt och fråga användaren innan data hämtas kan göra datainsamlingarna mer transparanta, vilket kan öka trovärdigheten.

5.2 Metoddiskussion

Här tas problematik kring studiens metod och utförande upp.

5.2.1 Ensam designer

I en kreativ process kan det vara en till en fördel att vara flertalet personer, detta då många av de metoder som används till viss mån är utformade efter att kunna ha öppna diskussioner, vilket är svårt att ha själv. Detta märktes extra tydligt i Ideate-fasen då dessa metoder ofta rekommenderade olika former av diskussion. Denna kritik blir dock mindre relevant då testning inkluderades i studien, vilket då innefattar att designen får kritik och förslag från andra parter. Däremot kan man se det som problematiskt att dessa inte var med i tidigare faser i studien, vilket tas upp i nästa stycke.

5.2.2 Kontakt med slutkunder och deltagare

Det fanns en brist på direktkontakt med slutkunder under studien. Deras åsikter kom primärt fram genom datainsamlingar såsom befintliga studier och undersökningar.

Även om dessa datainsamlingar ansågs relevanta så fanns inte möjligheten att utforma egna frågor och diskussioner, vilket gör att informationen inte helt reflekterade de frågor som fanns i början av studien. Man hade även kunnat involvera deltagare tidigare i processen genom att exempelvis be om åsikter kring koncept eller låtit de testa en LoFi-prototyp. Detta hade kunnat göra att slutprodukten varit bättre formad efter användarnas åsikter.

5.2.3 Prototyp

Den prototyp som testades i studien var långt ifrån någon slutprodukt. Prototypen hade ingen språkprocessering utan följde en lista av regler på input och output.

Detta blev fallet då studiens syfte var att undersöka konversationsagenters

implementation från ett designperspektiv. Något som ska sägas är dock att detta till

71 viss del minimerar de fel som kan uppstå i testningen, vilket gör att man missar vissa fel som hade uppstått vid test av en fullskalig produkt.

Dessutom testades bara installationsprocessen. Denna process testar många grundfunktioner, men inte alla. Anledningen till att just installation testades var som tidigare nämnt för att detta ansågs vara en av de mest problemfyllda områdena. Test av fler funktioner hade krävt större tidsbudget för utveckling och test, vilket var något som inte prioriterades i denna studie. Utöver detta hade man även kunnat testa flera olika prototyper med lite mer drastiska skillnader i grundkoncept, såsom exempelvis chatt jämfört med endast röststyrning, vilket hade kunnat göra att man fått bättre insikt i vilka grundkoncept som är mest uppskattade.

5.2.4 Icke-generaliserbar testgrupp

Som tidigare nämnt fick prototypen ett SUS-värde på 90.3, vilket är ett högre värde än Connective-systemet i Hagelbergs (2018) studie där SUS-värdet rapporterades vara 52.1. Resultatet från testningen kan alltså ses som mycket positivt men det är svårt att säga mycket kring dess generaliseringsmöjligheter det då det testades en alldeles för homogen testgrupp. Det enda heterogena med gruppen var den delade könsfördelningen, vilket är bra, men inte tillräckligt. Det största problemet med gruppen var dess jämna och unga snittålder. Dessutom var ingen deltagare en smarta hem-användare, vilket betyder att testen inte inkluderade målgruppen.

Urvalet formades på detta sätt då Folkhälsomyndigheten under testningens period rekommenderade att inte träffa äldre personer samt att undvika resor.

5.2.5 Skillnader mellan deltagargrupper

För att på ett bättre sätt säkerställa att det inte fanns någon skillnaden mellan deltagargrupper och dess SUS-betyg hade statistiska test kunnat utföras.

5.3 Resultatdiskussion

Här görs en diskussion kring resultatet från användbarhetstestningen. Detta inkluderar potentiella anledningar till fel och möjliga lösningar.

72 5.3.1 Osäkerhet kring vad agenten klarar av

Deltagare uttryckte oro kring huruvida agenten skulle klara mer avancerad flöden och problem. Denna oro behöver nödvändigtvis inte vara direkt kopplat till testen och kan istället ses som ett tvivel kring botars begränsningar generellt (Ivanov &

Webster, 2017). Denna typ av osäkerhet är något som även reflekterades i en studie av Budiu & Laubheimier (2018). De identifierade att deltagare upplevde oro när de gjorde viktiga handlingar såsom köp eller arbetsrelaterade saker, då de fruktade vilka konsekvenser ett missförstånd eller fel skulle kunna orsaka. En potentiell lösning till detta är att tydligt presentera vad Alfred är kapabel till, samt till största möjliga mån vara transparant när ämnen som berörs är utanför Alfreds

kunskapsbas.

5.3.2 Språkanpassning

En del deltagare var skeptiska till att språket skulle passa alla situationer och människor. Detta hade kunnat förbättras genom att låta Alfred anpassa språket baserat på olika variabler. Detta hade kunnat varit profilvariabler såsom ålder, eller syfte med att använda systemet. Man hade även kunnat anpassa språket efter användarens input, exempelvis då om användaren är kort och tydlig så svarar Alfred i samma ton. En av deltagarna föreslog även att Alfred skulle kunna vara mer trevlig i början för att sedan övergå till en lite mer normal samtalston.

5.3.3 Mycket på en gång

Användare tyckte att det ibland kom upp lite för mycket på samma gång. Detta var ofta i samband med att flera meddelanden presenterades efter varandra i samband med en animation. Detta hade kunnat förbättras genom en algoritm som räknar ut fördröjning på nästa meddelande baserat på textmängden på det föregående meddelandet. Utöver det hade man även kunnat dölja animationen bakom en “visa animation”-knapp.

73 5.3.4 Använda färger för parning

En del användare var osäkra kring huruvida sensorn lyste gult eller grönt, vilket spelar roll då det ingår i parningsinstruktionerna. Detta kan ha uppstått när

användaren valt att läsa instruktionen snarare än att se på instruktionsanimationen.

För att minska bryggan mellan text och färg hade man kunnat färga de ord som innehåller en färg med samma färg (se Figur 47). Detta hade kunnat hjälpt användaren då de hade haft möjligheten att jämföra sensorns färg med den i det färgade ordet, och på så sätt lättare kunnat komma till en slutsats kring en passande handling.

Figur 47. Färgad ordbeskrivning

5.3.5 Uteblivna antropomorfitiska tilltal

En del deltagare tilltalade Alfred med “det” istället för “han”. Detta uppstod även i Budius & Laubheimers (2018) studie. Där förklarade en deltagare att den medvetet tilltalade agenten med “det” då den inte ville prata med agenten på samma sätt som en person, då den känner ett visst obehag kring AI. Detta finns det dock inga tecken på i denna studie då ingen av deltagarna uttryckte något obehag kring agenten.

Detta problem är något som är svårt att ge någon konkret lösning på. Det finns en möjlighet att användaren blir mer och mer bekväm med agenten ju längre

interaktionen pågår, men det är ingen säker sak.

5.4 Framtida studier

För framtida studier hade det först och främst varit intressant att testa prototypen på en mer spridd målgrupp där de äldre och mindre teknikvana inkluderas. Detta skulle man även kunnat inkludera ett mer utförligt test av prototypen, där fler funktioner och flöden testas. Här skulle man även kunnat kolla på tekniska och språkliga aspekter för att komma närmare en riktigt slutprodukt. Självklart skulle man även kunnat

74 vidare utforskat och korrigera de negativa aspekterna som uppdagades under

testningen i denna studie.

6 Slutsats

Målet med studien var att undersöka hur man bör implementera

konversationsagenter för att hjälpa smarta hem-användare. I studien görs ett försök att förstå detta genom undersökning av användare och marknad, insamling av teori

In document Vad kan jag hjälpa dig med idag? (Page 67-0)