"Hey Google, how do I become a more satisfied and frequent user of VUI?" A study in how to improve VUI usability

(1)

‘Hey Google, how do I become a

more satisfied and frequent user of

VUI?’

A study in how to improve VUI usability.

Kristoffer Hallberg

Interaktionsdesign Bachelor

22.5HP VT 2018

(2)

Abstrakt

Forskning och utveckling har hittills mestadels fokuserats på den rent tekniska utvecklingen av ’speech recognition’ för användningen av

produkter med ’Voice user interface’ (VUI). Men det krävs mer för att skapa en bra upplevelse och frekvent användande av VUI. Detta examensarbete undersöker hur upplevelsen och värdet av VUI kan förbättrats för

användaren.

Genom intervjuer, observationer och frågeformulär riktade mot användare av VUI-produkter innehållande Google Assistant, Alexa eller Siri,

identifierades de två största problemområdena – att VUI inte anpassar volymen på sina svar efter omgivningens ljudnivå, samt bristen på kunskap om vad VUI kan användas till i de olika produkterna.

Resultatet från användartester av prototyperna visar att en nuvarande teknisk begränsning som volymanpassning kan genom vidareutveckling av tekniken öka användarvänligheten avsevärt. Testerna visar även att

användarupplevelsen ökar om användaren blir medveten om vad som faktiskt kan göras med VUI, vilket leder till ytterligare förenklingar i vardagen.

(3)

Tillkännagivande

Jag vill börja med att tacka alla som ställt upp på intervjuer och

observationer, även de som svarat på frågeformuläret även om jag inte vet vilka ni är. Sen har vi de som fick utså användartest, hoppas ni fick ut något av det också. Min handledare Anne-Marie för vägledning genom mitt examensarbete och sist men inte minst mina vänner och fru som fått deltaga i flertalet samtal kring VUI.

(4)

Innehållsförteckning

ABSTRAKT ... 2 TILLKÄNNAGIVANDE ... 3 1 INLEDNING ... 5 1.1 FORSKNINGSOMRÅDE... 5 1.2 SYFTE ... 6 1.3 FRÅGESTÄLLNING ... 6 1.4 AVGRÄNSNINGAR ... 6 2 BAKGRUND ... 6

2.1 ’VOICE USER INTERFACE’ ... 7

2.2 RELATERAD FORSKNING ... 8 3 METODER ... 9 3.1 DOUBLE DIAMOND ... 9 3.2 ANVÄNDARCENTRERADDESIGN ... 12 3.3 OBSERVATIONER ... 12 3.4 INTERVJUER ... 12 3.5 FRÅGEFORMULÄR ... 12 3.6 PROTOTYPTILLVERKNING... 13 3.7 WIZARD OF OZ ... 13 3.8 ANVÄNDARTEST ... 13 4 DESIGNPROCESS ... 14

4.1 INTERVJUER MED ANVÄNDARE ... 14

4.2 OBSERVATIONER ... 18

4.3 FRÅGEFORMULÄR ... 22

4.4 DESIGNMÖJLIGHETER ... 24

4.5 HOW MIGHT WE ... 24

4.6 ’IDEATION SESSION’ ... 25

4.7 KONCEPTIDÉER ... 25 4.8 PROTOTYPER ... 26 4.9 ANVÄNDARTESTER ... 28 5 SLUTSATS ... 30 5.1 SJÄLVKRITIK ... 31 REFERENSLISTA ... 33 BILAGA 1: FRÅGEFORMULÄR ... 36 BILAGA 2: INTERVJUUNDERLAG ... 38

(5)

1 Inledning

Tal har i årtusende använts som det främsta kommunikationsmedlet

människor emellan från den tidiga homosapiens läten till det mer utvecklade språk som vi använder oss av idag.

Genom vårt språk kan vi göra oss förstådda och dela information människa till människa och idag kan vi använda vår röst till att kommunicera med teknik genom att använda vår röst.

När det kommer till röstinteraktion med teknik så har det sin början 1952 med att Audrey, the Automatic Digit Recognition machine, utvecklad av Bells Labs fick se dagens ljus. Audrey hade sina klara begränsningar då hon endast klarade av att tyda siffror mellan 0 – 9 och då för en röst som hon var injusterad efter (Warren, 2014), och det var inte en maskin för hemmet då hon upptog ett helt rum rent fysiskt (Moskvitch, 2017).

År 1971 togs det ett stort steg framåt gällande tekniken då Carnegie Mellon University hade byggt Harpy. Harpy kunde känna igen 1 011 ord, vilket motsvarar en treårings ordförråd, men hade inte förmågan att kommunicera tillbaka via röst (Moskvitch, 2017). Men nu är vi där! Med introduktionen Siri (Apple Inc, n.d) från Apple 2001, och till idag med Alexa (Amazon, n.da) från Amazon, 2015, och Google Assistant (Google, n.da), 2016 kan vi kommunicera med tekniken via vår röst.

Forskningsområde

Under det senaste årtiondet har användandet av ’Voice User Interface’ (VUI) ökat markant och enligt Gartner så kommer 30 % av webbsökningar utföras med hjälp av rösten år 2020 (Levy, 2016). När det kommer till forskning och utvecklingen rörande röststyrning så har det framför allt fokuserats på ’speech recognition’ och tekniken bakom hur man får en maskin att känna igen ord och hela meningar. Detta är en självklar del för att göra upplevelsen för användare så tillfredställande som det går. Men för att använda rösten som ’input’-källa till tekniken kan fokusen inte ligga enbart på den bakomliggande tekniken.

Användandet av VUI i kontexten av ens hem innebär att användare med hjälp av ’Internet of Things’ (IOT) kan koppla samman flera produkter som senare kan styras med hjälp av rösten via en produkt med VUI.

Med utgångspunkt i detta kommer det här examenarbete fokusera på att identifiera vilka områden som kan bidra till en bättre upplevelse för användaren av VUI i en hemmiljö.

Vilka delar i upplevelsen av att använda ett VUI i hemmiljö är det som kan förbättras för att användaren ska välja att använda sin röst som ’input’-källa framför någon annan?

(6)

Syfte

Målet med detta examenarbete är att genom ett användarcentrerat

tillvägagångssätt utforska användandet av VUI i hemmiljö och identifiera områden som kan förbättras ur användarens perspektiv och på så sätt bidra till utvecklingen inom VUI. Då rösten blir en allt större ’input’-källa till tekniken är förhoppningen att detta även kommer bidra till forskningen kring interaktionsdesign gällande VUI.

Frågeställning

Hur kan man via andra medel än ’speech recognition’ förbättra användarupplevelsen och värdet av VUI i hemmiljö?

Avgränsningar

Detta examensarbete kommer inte att titta djupare på de tekniska

begränsningar som finns gällande VUI och ’speech recognition´, och inte heller hur de designlösningar som kommer fram av arbetet ska kunna implementeras för att fungera på bästa sätt. Fokusen kommer ligga på användarupplevelsen av VUI.

2 Bakgrund

Enligt Roemmele (2016) använder vi oss fortfarande till största del av ’input’-källor som tangentbord och touchskärmar på grund av att datorer inte har varit kraftfulla nog att förstå vårt främsta kommunikationsmedel,

nämligen vår röst. Sedan introduktionen av Alexa (Amazon, n.da) och Google Assistant (Google, n.da) har produkter med VUI och den

bakomliggande tekniken ’speech recognition’ utvecklas och förfinats hela tiden. Från Audreys tio siffror 1952 till idag när Microsoft Research i Redmond med Geoff Zeig i spetsen hävdar att deras

maskininlärningsalgoritmer nu förstår orden i en konversation bättre än en människa (Xiong et al., 2017). Om vi har nått ett stadium där algoritmer kan tolka allt vad vi säger så har tekniken kring ’speech recognition’ nått sitt mål, men det krävs mer för att en användarupplevelse ska vara total.

Artificiell intelligens har en stor del i hur vi kan dra nytta av att använda vår röst som ’input’-källa, men det gäller inte bara att den förstår orden, den ska även kunna tolka vad vi som människor menar för att skapa den totala upplevelsen.

Om man tittar artiklar och övrig litteratur kring ämnet så är det väldigt lite som har skrivits kring användarupplevelsen av VUI. Blomberg och Johansson (2018) skriver att framstegen kring ’speech recognition’ är ett

(7)

resultat av intensiv forskning men att litteraturen kring ämnet fokuserar på de tekniska aspekterna och inte värdet för användaren. Med detta som bakgrund är tanken med detta examensarbetet att göra undersökningar utifrån användaren och dra slutsatser om vad som kan förbättras för att skapa en bättre användarupplevelse.

’Voice User Interface’

VUI är den kanal som låter användare interagera med och kontrollera en dator, Siri (Apple Inc, n.d), Google Assistant (Google, n.da) och Alexa (Amazon, n.da) kan ses som exempel på VUI. VUI är bara en del av dessa produkter, det är den del som användaren interagerar med som i sin tur använder sig av bakomliggande teknik så som bland annat ’speech recogniton’ och artificiell intelligens för att kunna utföra användarens kommandon. VUI kan delas in i två kategorier, där vi i den ena kategorin kan placera Google Assistant, Alexa, Siri och liknade produkter. Dessa produkter har sina egna inbyggda funktioner där användaren med hjälp av rösten till exempel kan starta en timer eller fråga om vädret, och utöver detta finns det möjlighet att styra andra IOT-produkter eller applikationer som man har kopplat samman med sitt VUI. VUI i denna kategori har mer av ett konversationsspråk och en enkel variant av artificiell intelligens som lär känna användaren över tid, vilken ger dem mer av en personlighet. I den andra kategorin av VUI kan vi placera de vi stöter på när vi till exempel ringer vår bank för att utföra uppgifter och möts av en artificiell röst som ber oss att ange vårt personnummer och så vidare. Denna kategori av VUI har en betydligt mer begränsad förmåga då de inte är utvecklade för samma uppgift.

Pearl (2016) menar att alla VUI har en personlighet även om det inte innebär att den agerar som en människa. Enligt Reeves och Nass (1996) så tenderar människor att behandla datorer som om det vore verkliga personer, detta är också något som Pearl (2016) tar upp då hon beskriver att människor kommer att tillskriva sitt VUI personligheter oavsett om det var målet för designern eller inte. För att kunna ha kontroll över hur användare uppfattar och använder sig av ett VUI är det bättre att dessa personlighetsdrag skapas av designern själv (Pearl, 2016).

En bra användarupplevelse av ett VUI skapas genom att förstå vilka uppgifter användaren vill kunna utföra och i vilken kontext dessa ska utföras. Pearl (2016) menar att en av de viktigaste aspekterna för att designa ett bra VUI är att dra nytta av de kända konversationsprinciperna av Grice (1989);

• Kvalitet – Säg vad du tror är sant. [min översättning]

• Kvantitet – Säg så mycket information som är nödvändig, men inte mer. [min översättning]

• Relevans – Prata om vad som är relevant för det pågående samtalet. [min översättning]

(8)

• Uppträdande – Försök att vara tydlig och förklara på ett sätt som är förståeligt för andra. [min översättning]

Relaterad forskning

Luger och Sellen (2016) har i sin forskning undersökt förhållandena mellan användarförväntningar och användarupplevelser med vad de kallar

’Conversational Agents’ (CA), vilket de använder som benämning för produkter så som Siri (Apple Inc, n.d), Alexa (Amazon, n.da). Med hjälp av semistrukturerade intervjuer med 14 personer som ansåg sig vara normala användare av CA ville de förstå vad som påverkar användandet av CA. I deras undersökning är det Siri i telefonen som är den mest förekommande CA följt av Google Now, numera Google Assistant (Google, n.da).

Undersökningen visar att majoriteten av användarna nyttjar sin CA på daglig basis och då främst till enklare uppgifter som att fråga om vädret. Som ett första steg i att lära känna sin CA använde sig alla användare utom en av mer lekfulla frågor för att se vad som var möjligt. Den främsta orsaken till användandet av CA var för att kunna utföra flera uppgifter samtidigt och då framförallt i situationer när händerna vara upptagna. Det framkommer också att användarna såg sin CA som ett enkelt uppgiftbaserat system som de inte litade på för att utföra uppgifter så som att skicka mail då man vill vara säker på att det var rätt skrivet. Luger och Sellen (2016) menar att användarnas förväntningar på vad deras CA kan utföra är långt ifrån CAs möjligheter och detta beror på CA bristande förmåga att kommunicera dess kapacitet. Det har genomförts forskning kring användarvärdet av ’speech recognition’ i IKEA- kundens hemmiljö (Blomberg & Johansson, 2018) med målet att utvärdera om det är relevant för IKEA att gå vidare med det i sitt

produktsegment för smarta hem.

Undersökningen har gjorts genom marknadsanalys för att se om det finns ett användarvärde för IKEAs kunder. (Blomberg & Johansson, 2018)

identifierar fyra användarvärden för ’speech recognition’ i hemmiljö;

underlätta vardagen, vardagseffektivitet, bekvämlighet och ökad avkoppling. Blomberg och Johansson (2018) menar på att ’speech recognition’ gör det enklare för användaren att uppnå dessa värden snarare än att ersätta andra sätt att uppnå dessa värden. Undersökningen visar på att ’speech

recognition’ inte har nått den stora massan och är därför inte än socialt accepterad. De menar på att ’speech recognition’ troligtvis är en relevant produkt för IKEA och deras kunder då det stämmer överens med IKEAs vision – att skapa en bättre vardag för de många människorna.

(9)

3 Metoder

Metoderna som har använts i detta arbetet kommer från

interaktionsdesignfältet och är valda då de fokusera på att förstå användare och se till dess behov utifrån kontext och situation

Double Diamond

Designprocessmodellen som detta arbete har utgått ifrån är Double Diamond framtagen av Design Council 2005 (n.d), vilken senare förfinats av Dan Nessler 2016 (2016). Genom användandet av denna designprocess

struktureras designarbetet upp då den är indelad i fyra huvudfaser; upptäcka, definiera, utveckla och leverera. Dessa faser är sedan uppdelade i de två diamanterna, där första diamanten handlar om att ta reda på vad det är du ska designa och den andra diamanten fokuserar på att göra designen rätt.

Under detta examensarbetet har mer tid lagts i den inledande upptäckarfasen och slutliga leveransfasen, vilket representeras av de olika stora delarna i Double Diamond-figuren nedan (fig.1) som illustrerar detta examensarbetes designprocess.

Figur 1. Double Diamond processen så som den applicerats i detta examensarbete.

Upptäcka

Denna fas, som är den första, handlar om att skapa en förståelse för området du kommer arbeta inom och förstå dina användare och deras behov. Som designer behöver man öppna upp sig och ta in all information, även den information som i första skedet inte ses som användbar. Det gäller att gå in i

(10)

processen utan några förutfattade antagande då det är användarna som är specialister även om de inte vet om det. Som designer handlar det om att ta reda på det som användare kanske inte själv är medveten om. I en

användarcentrerad designprocess är det här designern skapar empati för användaren och förstår vad som är viktigt för dem, allt för att kunna designa för användarens behov (Plattner, n.d).

I denna fasen av examensarbetet handlade att få en förståelse och inblick i användandet av VUI i hemmiljö och förstå användarens upplevelse av att använda rösten som ett ’input’-medel. Vilka är deras tankar kring

användandet av VUI och hur kan användarupplevelsen förbättras? Som ett första steg i upptäckarfasen införskaffades en Google Home (Google, n.db) med Google Assistant (Google, n.da) och en Sonos One (Sonos, n.d) med Amazon Alexa (Amazon, n.da) integrerad för att skapa förståelse kring användandet av VUI i hemmiljö. I nästa steg rekryterades användare av VUI via interna och externa sociala nätverk där vikten låg på att få en variation av användare gällande produkter och erfarenhet.

I det tredje steg i upptäckarfasen utfördes fem individuella intervjuer med användare av VUI för att få en djupare kunskap kring deras användande. Utöver detta utfördes observationer av sex stycken användare i både hemmiljö och isolerade mötesrum i kontorsmiljö. Som ett steg att kunna validera den kvalitativa data skapades ett digitalt frågeformulär som distribuerades via interna och externa kontaktnät. Efter det intensiva ’research’-arbetet i upptäckarfasen fanns det stora mängder av data att analysera för att kunna gå vidare in i nästa fas.

Definiera

I denna fas gäller det att sammanställa informationen från ’research’-arbetet i upptäckarfasen. Genom att analysera informationen från de olika delarna i ’research’-arbetet och kategorisera dem i olika teman kan man identifiera vad användarna har mest gemensamt och genom detta dra en slutsats var fokus ska läggas. Nessler (2016) menar på att genom att skapa ’how might we’ (HMW)-frågor (Ideo, n.da) konkretiseras vad som är designöppningarna inom området.

Som ett steg i att sammanställa data från ’research’-arbetet transkriberades de intervjuer som fanns på ljudupptagning för få tydligare överblick över vad som framkommit. Tillsammans med anteckningar från övriga intervjuer samt anteckningarna från observationerna användes inspiration från IDEOs Find Theme metod (Ideo, n.db). Genom att analysera data från de olika ’research’-stegen hittades olika teman och problemområden som

grupperades i kategorier för att se vilka områden som mest representerades (fig.2) Som en följd av detta arbete framkom två problemområden från vilka det skapades HMW-frågor kring.

(11)

Figur 2. Bild ifrån användandet av Ideo Find Theme metod.

Utveckla/’ideation’

I denna fasen ligger fokus på att finna olika lösningar som kan fungera som ett svar på HMW-frågorna från definitionsfasen.

Som designer gäller det att öppna upp sig och testat olika möjligheter och vara positivt inställd till olika lösningar. Genom att tänka fritt och kreativt kan man komma fram till flera potentiella lösningar för att i den senare delen av fasen utvärdera och bestämma vilken eller vilka idéer man ska gå vidare med.

Första steget i denna fas var en väldigt kreativ del där fokus låg på att skissa fram så många lösningar som möjligt som kunde fungera som ett svar på HMW-frågorna, samt itererar på dessa för att hitta den lösning som är bäst lämpad. Som ett steg att få ’input’ utifrån hölls även kortare kritiksessioner med både andra designers och användarna som ett sätt att involvera dem i designprocessen. Utifrån detta arbete framkom två prototypidéer som skulle kunna fungera som svar på HMW-frågorna.

Leverera

Den sista fasen kan delas in i tre agila steg som består av bygga, testa och itererar. Genom att gå igenom dessa steg för att skapa en ’minimum viable product’ (MVP) (2018, 14 maj), kan man sedan utforska om den är en lösning på HMW-frågorna.

Under denna fas skapades till slut två prototyper, som på ett enkelt sätt kunde testas och utvärderas av användare i deras hemmiljö vid sex separata tillfällen. Båda prototyperna skapades som en form av ’Wizard of

(12)

Oz’-prototyp för att på ett enkelt sätt kunna testa om Oz’-prototypen löste användares behov.

Användarcentreraddesign

Användarcentreraddesign handla om att sätta användaren i focus under hela designprocessen genom att titta till dess behov och låta användaren vara delaktig genom processens olika stadier (Norman & Draper, 1986). Det gäller att förstå användarens mål och även den miljö de verkar i.

Observationer

Observationer är något som är användbart genom hela designprocessen. I början av processen är det ett sätt för designern att förstå användarens beteendemönster och behov i sin rätta kontext (Rogers, Sharp,& Preece, 2015). Målet med observationer ute i fält är att förstå hur och varför

människor agerar som de gör (Kuniavsky, 2003). Enligt Muratovski (2016) så påverkar platsen i de flesta fall hur människor agerar, och det är därför viktigt att göra observationerna i sin naturliga miljö. Enligt Kuniavsky (2013) är det viktigt att inte bortse från något av det som observeras, allt kan vara av vikt och ha betydelse och ska inte bortses från som trivialt eller tråkigt. Fördelen med observationer är att man får se hur människor agerar i verkligheten och i rätt kontext till skillnad mot intervjuer där människor beskriver hur de minns sina liv (Kuniavsky. 2013).

Intervjuer

Intervjuer kan ses som ett samtal med användare där syftet är att förstå deras behov, tankar och önskemål (Muratovski, 2016). Rogers et al. (2015)

beskriver fyra typer av intervjuer; ostrukturerade, strukturerade, semistrukturerade och gruppintervjuer. Namnet på de tre första intervjutyperna beskriver hur mycket kontroll intervjuaren har på konversationen (Rogers, et al., 2015). Val av intervjutyp beror på hur specifik information man vill få från respondenterna samt hur likvärdig information man får ut från olika intervjutillfällen, desto mer strukturerade en intervju är desto mer likvärdiga data kan man samla in.

Under detta examenarbete har semistrukturerade intervjuer utförts med öppna frågor och följdfrågor för att kunna styra respondenten mot de ämne som var viktiga för detta examensarbete.

Frågeformulär

Med hjälp av frågeformulär samlas kvantitativa data in för att ha möjlighet att se trender och likheter mellan användare (Kuniavsky, 2003). Fördelen gentemot intervjuer och observationer är att man når en betydligt större grupp, dock finns där en nackdel i att man inte har personlig kontakt med respondenterna, vilket innebär att deras svar är beroende på deras

(13)

uppfattning av sitt handlande (Kuniavsky, 2003). Frågeformulär kan med fördel användas som ett komplement till andra ’research’-metoder för att tydliggöra eller fördjupa kunskapen kring slutsatserna man dragit.

Prototyptillverkning

En prototyp är en representation av ens design som gör det möjligt att testa sina antagande på användaren. Användare kan ofta ha svårt att beskriva vad de vill ha innan de har testat något, men efter att ha testat så vet de vad de inte vill ha (Rogers, et al., 2015). En prototyp kan vara allt från en enkel pappersprototyp till en mer avancerad teknisk lösning beroende på vad som ska testas (Rogers, et al., 2015).

’Wizard of Oz’

’Wizard of Oz’ är en prototypmetod som används för att i ett tidigt stadium kunna testa designkoncept utan att behöva utveckla det rent tekniskt, och på så sätt spara tid och pengar (Rogers, et al., 2015). Genom att låta användare tro att den påverkar prototypen och att den responderar på användarens ’input’ skapas en känsla av en fullt fungerande lösning, men i själva verket är det en annan person som styr över prototypens respons (Rogers, et al., 2015).

Användartest

Användartest är ett medel för att testa om produkten som är utvecklad löser de problem som den var designad för och om de antagande man gjort har varit rätt för den tänkta målgruppen (Kuniavsky, 2013). Användartest bör utföras när produkten är utvecklad till den grad att användaren har något att ge feedback på men samtidigt inte vara så pass utvecklad att det inte går att göra ändringar baserat på det som framkommer under användartestet (Coooper, Reimann, Cronin, & Noessel, 2014; Kuniavsky, 2003). Enligt Kuniavsky (2003) finns det fyra huvudtyper av användartester som utförs i olika delar av designprocessen;

Undersökande - för att testa preliminära koncept och utvärdera deras löfte. [min översättning]

Bedömning – för att testa funktioner under utvecklingen. [min översättning] Jämförande – för att bedöma en design gentemot en annan. [min

översättning]

Validerande - för att intyga att funktioner uppfyller specifika standarder och riktmärken sent i utvecklingsfasen. [min översättning]

Genom att utföra användartest i den rätta miljön och rätta kontexten kommer man få en bättre uppfattning hur produkten kommer användas i den verkliga världen (Rogers, et al., 2015). Nackdelen med detta är att det kan finnas utomstående saker som påverkar hur användaren agerar och använder produkten, vilka kan vara svåra att identifiera (Rogers, et al., 2015).

(14)

4 Designprocess

Som ett steg att innan inblandning av användare, och som ett medel att ha mer insikt i ämnet, införskaffades en Google Home (Google, n.db) med Google Assistant (Google, n.da) och en Sonos One (Sonos, n.d) med Alexa (Amazon, n.da). Genom att interagera med dessa produkter under en månads tid innan examenarbetet startades så skapades en viss förståelse kring

användandet av VUI i hemmiljö.

Intervjuer med användare

Då detta arbete är grundat på hur man kan ska kunna förbättra

användarupplevelsen för användare av VUI i hemmiljö så har fem intervjuer av befintliga användare intervjuats separat för att få ut så mycket som

möjligt av varje användare, samt att de inte skulle bli influerade av varandra. Intervjuerna har skett både i hemmiljö och i möteslokal. Valet att inte utföra intervjuer via telefon grundar sig i att ett möte ansikte till ansikte tenderar enligt min uppfattning att ge ett större värde då det även går att läsa av personens ansiktsuttryck och kroppsrörelser, vilka i en del fall kan vara av värde. Intervjuerna som genomfördes under detta examensarbete var av semistrukturerad karaktär med öppna frågor (Rogers, et al., 2015).

Intervju 1

Den första personen som intervjuades var en man i 40-årsåldern som jobbar inom området design med fokus på digitala lösningar, vilket innebar att han hade ett relativt stort intresse och kunskap kring produkter med ett VUI. Han hade använt Siri (Apple Inc, n.d) i telefonen under en lång tid men nu nästan helt slutat med det på grund av begränsningarna i funktionalitet och integration med övriga enheter. Den funktion som han använde till i dagsläget var att interagera med telefonen vid cykling men inte så mycket vid bilkörning eftersom att han där har möjligheten att styra telefonen via knappar på bilens ratt, vilket han ansåg fungerade betydligt smidigare. Möjligheten att kunna svarar utan att behöva titta eller fysiskt interagera med telefonen såg han som en stor fördel. Han ansåg att det fanns en del problem kring att använda rösten för att ringa upp en specifik kontakt då det ofta ledde till flera följdfrågor från Siri, till exempel vilket av kontaktens

nummer man skulle ringa, eller att Siri missuppfattade kontaktens namn och försökte ringa upp en annan kontakt. Röstigenkänningen var något som han såg som ett stort problem men samtidigt något som man lärde sig att anpassa sig till med tiden och visste hur man skulle uttala en kontakts namn för att Siri skulle uppfatta det korrekt. Då han använde sig av Siri i telefonen ansåg han att det i de flesta lägen var enklare att använda touch-skärmen istället för rösten för att utföra uppgifter på telefonen. Han hade dock funnit ett

användningsområde utanför cykelkontexten där han använde sig av Siri, vilket var vid matlagning för att sätta timer på till exempel pastan eller riset. Detta var dock inte något som gjordes frekvent då fördelen med en

(15)

mobiltelefon är just att den är mobil vilket gjorde att den inte alltid fanns till hand i köket vid matlagning.

För fyra månader sedan införskaffade han en Sonos One (Sonos, n.d), där Alexa (Amazon, n.da) är implementerad, för att kunna ha en fast produkt i köket som ett nav att kunna styra det smarta hemmet ifrån. Framför allt var det möjligheten att kunna styra musiken i hemmet som vara den främsta orsaken men även tanken på att kunna styra lampor och senare kunna koppla in fler IOT-produkter som skulle kunna styras via rösten. Idag använder han Alexa i Sonos One uteslutande till att styra musik, sätta på timers vid matlagning samt lägga till varor i inhandlingslistan. Något han hade reflekterat över var att han nu för tiden satte på radion mer frekvent vid frukosten med familjen än förr på grund av att det hade blivit betydligt enklare än tidigare då han gjorde det via en applikation telefonen. Jag vill att

det ska vara en förenkling för mig att använda rösten inte bara en ny cool teknik”.

Vid frågan kring hur han pratar med Alexa så svarar han att han har försökt på olika sätt men har gått tillbaka till korta, raka kommando där han har hittat vilka nyckelord som är viktiga för att Alexa ska förstå vad han menar. Även om han anser att Alexa fungerar bra och förstår det mesta, så händer det ju att det blir fel, vilket kan skapa en viss frustration då man inte vet vad som är fel utan bara får ett svar så som ”I can not help you with that”. I de flesta fall upprepar han samma kommando i hopp om att det ska fungera en andra gång. Något som han har upplevt som ett problem vid användningen av Alexa är att volymen inte förhåller sig till något utan den är en skala från ett till tio som man ska ställa in, vilket kan leda till en chock när man kommer ner på morgonen och ska sätta på äggtimern och väcker övriga familjen då man kvällen innan hade lyssnat på musik med vänner på en betydligt högre volym än an vill ha på morgonen.

På frågan kring hur han har kommit fram till vad han kan använda Alexa till så svarar han att han mest testat sig fram och inte funderat så mycket kring vad kan göra men att han inte har tiden eller kanske framförallt orken att sätta sig in vad man kan göra. ”Jag är nöjd med de saker jag gör men antar

att det finns betydligt mer jag skulle kunna göra som hade förenklat för mig”.

Intervju 2

Den andra intervjun genomfördes med en kvinna i 25-årsåldern, som även observerades vid användandet av VUI.

Kvinnan i denna intervju använder sig av Siri (Apple Inc, n.d) i telefonen men har även en Samsung TV hemma som hon kan prata med. Men hon anser inte att det finns någon större funktion med en röststyrd TV då hon ändå sitter med fjärrkontrollen framför TV:n och lite skämtsamt utrycker att hon bara har en vän och det är Siri, samt att det känns mer naturligt att använda fjärrkontrollen för att styra TV:n då det ej stör upplevelsen av TV-tittandet såsom det gör när hon testat använda rösten för att utföra

kommando.

Det kvinnan framförallt använder Siri till är att göra noteringar, påminnelser och sätta kalenderhändelser. När det gäller påminnelserna så har hon ställt in

(16)

olika platser så hon kan bli påmind att göra något när hon till exempel kommer till jobbet. I de fall då hon använder rösten för att utföra uppgifter på telefonen är i de situationer när hon ej har telefonen framför sig antingen på bordet eller i handen på med bussen. ”Allt handlar om att det ska vara

enklare, blir det för omständligt lägger jag bara ner”. Vi tillfällen då hon

ska ringa en kontakt när hon är på språng och har telefonen i väska så ser hon en klar fördel att använda rösten då hon ej behöver stanna upp för att plock fram telefonen och söka efter rätt kontakt. Men det är vid flertalet tillfällen som det som i första skede kan kännas som en lätt uppgift ger upphov till flera efterföljande frågor från Siri då hon måste specificera vilket nummer hon vill ringa. På frågan kring hur det kommer sig att hon använder Siri till ovan nämnda uppgifter svarar hon att allt hade sin början när hon såg en reklam för Siri där det var de kommandona som presenterades samt att man kunde skicka SMS. När det gäller SMS anser hon att det använde hon mest som en kul grej med sin svåger, där de försökte få Siri att skriva så konstiga ord som möjligt då det lät väldig roligt när hon läste upp meddelandet för mottagaren. Under intervjun framkommer det att hon fortfarande använder Siri till de uppgifter som hon började med. ”Jag tänker

att det borde finnas fler saker jag kan göra men jag vet inte, jag orkar inte leta efter det ska ju vara enkelt”. De gånger hon har testat att utforska nya

område som Siri går att använda till så slutar det ofta i frustration då hon ej vet hur hon ska gå till väga för få Siri att utföra en uppgift. Hon anser inte att det är jätteavancerade saker som hon använder Siri till utan mer enkla

uppgifter som förenklar hennes vardag, och hon utrycker att det säker finns fler saker som kan förenklar för henne men hon vet inte vad och tar sig inte tid att söka efter fler funktioner.

Intervju 3

En man i 45-årsåldern som använt Google Assistant (Google, n.da) under en längre tid samt även Siri lite sporadiskt blev föremål för den tredje intervjun. Vid detta tillfälle genomfördes även en observation när han interagerade med Google Assistant i sin telefon. Han utrycker att han tycker att Google Assistant fungera bättre men menar samtidigt att det är nog för att han har lärt känna den bättre och vet hur han ska utrycka sig. ”Man lär sig hur man

ska prata så den förstår, det blir lite som att prata med ett barn man förenklar och anpassar sitt språk till den”. Användningsområdet som han

nyttjar VUI till är framför allt att sätta timmers och påminnelser samt att få ord definierade när han läser. Han ser det som en klar fördel att Google Assistant kan hjälpa honom att definiera ett ord när sitter och läser någon avhandling istället för att behöva avbryta läsandet helt och söka efter ordet själv med hjälp av Google. För honom handlar det om att det ska förenkla hans vardagliga flöde. Han utrycker i flera svar att han vill att det ska vara en kort interaktion och inte en följd av frågor från Google Assistant för att utföra uppgiften. Det ska gå snabbare än något annat ’input’-medel annars är det inte intressant. Han har begränsat sig själv till att näst intill bara använda röstkommando när han är ensam då han menar på att det inte är ett

accepterat kommunikationssätt ännu ”Det är på samma sätt som att prata

med hundar och katter, det är lite märkligt”. Han interagera med Google

(17)

korta och tydliga kommando anpassat efter den. Kring frågan vad han ser som den största skillnaden mellan att använda rösten som ’input’-medel gentemot andra ’input’-medel så förklara han att en av anledningarna till att han använder de funktioner han gör är att det känns väldigt naturligt få tillbaka svaren i form av alarmsignal eller röst. ”Använder jag röst vill jag

att den svarar med röst eller ljud, men det som stör mig är när jag har ljudet nerskruvat och jag inte hör.”

Han utrycker att han hade velat kunna använda Google Assistant till mer men menar på att han har testat och om han inte får det att fungera i ett tidigt stadium så ger han upp försöket. Han är medveten om att det antagligen finns flertalet saker som han kan göra som han hade funnit intressant men han vet inte vad, det är inget som känns naturligt. Han har utforskat kring att fråga om väder och spela musik men det är inget han använder till vardags.

Intervju 4

Intervju fyra var med en 33-årig man, som använde sig av Alexa (Amazon, n.da) i Sonos One (Sonos, n.d), vilken han hade använt sig av sen den kom ut på marknaden.

Anledningen till inköpet vara i första hand som en rolig teknisk pryl, något nytt och spännande och något han kunde använda sig av för att styra sitt Sonos-system. Han hade tidigare använt sig lite av Siri (Apple Inc, n.d) i telefonen men fann ingen större användning av det då han ansåg att det gick fortare eller var smidigare att använda pekskärmen då han ändå hade

telefonen i handen. När det kommer till Alexa i Sonos One så anser han fortfarande att det mest är en rolig pryl även om den har förenklat för honom när det gäller musikuppspelning. Han har även adderat så att han kan styra sin IOT-lampor med hjälp av Alexa, men finner inte att det är någon större fördel att göra det med rösten då det inte förenklar eller förbättrar hans möjlighet styra lamporna. Han menar på att om han har en IOT-lampa så vill han att den ska styras efter hans mönster och inte via nån teknik som

egentligen inte är bättre än den klassiska strömbrytaren eller dimmern på väggen. De funktioner han använder Alexa till i dag är de som han ansåg som självklara och som han hade hört talas om innan han införskaffade en egen Sonos One med Alexa. Han är medveten om att det finns ett flertal Alexa skills (Amazon, n.db) som han rent teknisk skulle kunna använda sig av men anser inte att bara för att det går så är det bättre. ”Det måste ju finnas

nån mening med att använda röststyrning för att det ska vara intressant, även om tekniken är fantastisk så innebär det inte att det ska användas till allt”. Han upplever också att det blir ett problem när det finns så många

möjligheter att veta vad som är rätt för honom och hans behov när det gäller röststyrning. Sättet som han kommunicerar med Alexa anser han skiljer sig åt när han är ensam eller när han är i en social kontext. Han menar på att han har mer av en konversation där han är vänligare och behandlar Alexa mer som en person när han är ensam, men när han är i en social kontext vill han att det ska fungera mer med korta kommando och vill inte att hans

(18)

Intervju 5

Den femte och avslutande intervjun var med en 32-årig man som ansåg sig vara en flitig användare av sin Google Home (Google, n.db) med Google Assistant (Google, n.da). Han försöket använda det till så mycket det bara gick men ansåg att det i flera fall inte berodde på att det förenklade för honom utan mer att det var intressant att testa vad som fungerar att använda röststyrning till. Han hade ett brett spektrum av uppgifter som han använde sin Google Assistant till, alltifrån allmänna frågor som väder och matrecept, till att fråga efter hur hans kalender såg ut inför morgondagen. På frågan vad han såg som den största problemet med Google Assistant så ansåg han att det var dess förmåga att anpassa sig till situationen, han menade på att det var han som fick anpassa sig efter den och inte tvärtom. Han såg en framtid där det verkligen skulle bli en riktig assistent så som en butler, som hjälpte honom med allt han ville. Men samtidigt såg han problemet i att behöva ge kommando för allt som han vill få gjort. Han hade velat att AI-delen skulle utvecklas mer och att han inte skulle behöva interagera med den för att få saker gjorda. Han ansåg också att det hade varit av värde om han inte hade behövt testa runt med så många kommandon för att se vad som var möjligt. På följdfrågan kring hur han såg på att leta information på annat håll för att se vad som är möjligt ansåg han att det var produkt med VUI som han hade köpt och då ville han använda rösten och få ’output’ via röst och inte behöva söka och läsa på datorn.

Resultat och analys av intervjuer

Under intervjuerna framkommer det att flertalet av användarna använder ett begränsat antal funktioner / kommando, och även om det skiljer sig åt vad de använder VUI till så har de det gemensamt att deras användarmönster inte skiljer sig så mycket från när de började använda VUI. Detta beror på att man inte har tagit sig tid att ta reda på vad mer man kan göra, eller inte riktigt vet var man ska leta eller vad som är möjligt. Man vill veta vad som kan vara en bra funktion för just sig själv. Vid möte med andra personer eller under intervjutiden så tänds det en lust av att testa vad man mer kan göra för att förenkla sin vardag. Att förenkla är en viktig del för samtliga intervjuade personer, de anser att det är viktigt att de uppgifter de utför med VUI ska vara en förenkling för dem själva. Flertalet tar upp volymen på

återkopplingen som ett problemområde där de känner att de vid flera tillfällen missar återkopplingen på grund av att volymen varit för låg i

förhållande till kontexten. Två av intervjupersonerna nämner att de vill ha all återkoppling via röst och inte något annat medium som en applikation. Om ’input’ sköts med rösten så vill de ha återkopplingen med samma medium.

Observationer

Fyra stycken observationer genomfördes för att få en så tydlig och ofärgad bild av användandet av produkter med VUI i hemmiljö. För att kunna sätta sig in i användares sätt att interagera i den verkliga miljön där användandet förekom så genomfördes två av dessa observationer utan direkt vetskap av användaren, detta för att inte färga användares sätt att interagera med VUI på

(19)

deras produkt. Efter avslutad observation tillfrågades användarna om tillstånd att använda materialet från observationerna i detta examensarbetet. De resterande två observationerna genomfördes i kontorsmiljö i isolerade mötesrum där användarna interagerade med den för dem bekanta produkten med VUI som de själva använder sig av till vardags.

Observation 1 i hemmiljö

Observationerna i hemmiljö genomfördes med både en man och en kvinna i åldrarna 35 till 40 vid två separata tillfällen. Den kvinnliga deltagaren använde sig av både Google Home (Google, n.db) med Google Assistant (Google, n.da) och Sonos One (Sonos, n.d) med Alexa (Amazon. n.da). Skället till att den kvinnliga deltagare använde båda produkterna vara att Google Home hade införskaffats för då hon efter efterforskning ansåg att den var den mest kompetenta produkten för hennes behov, men efter en tids användning framkom det att det var klara brister i hur det redan befintliga Sonos-musiksystemet kunde styras, därav införskaffandet av Sonos One. Detta hade lett till att de användes till olika uppgifter som hon ansåg att de passade bäst till. Under observationen sågs ett tydligt mönster i hur

interaktionen med VUI hade en känsla av konversation. Vid flertalet tillfälle innehöll kommandona ett ’please’ eller ’thank you’ när hon interagerade med Google Home men ej med Alexa på Sonos One. ”Please set a timer to five minutes”. Efter avslutad observation frågades det kring varför sättet att interagera med de båda produkterna skilde sig åt och anledningen visade sig vara att hon uppfattade Google Home som mer personifierad då den hade ett antal olika sätt att svara på samma kommando, vilket gjorde den mer

levande och på ett sätt trevligare att interagera med. Men hon upplevde inte att den ena var smartare än den andra, de var bara duktiga på olika saker. Under observationen upptäcktes det vid ett flertal tillfällen att den kvinnliga deltagaren hade problem att höra vad både Google Home och Alexa i Sonos One svarade på kommandona. Ett exempel var när den kvinnliga deltagaren lagade mat och bad Google Home att sätta en timer på 9 minuter till pastan men då Google Homes svar försvann i ljudet av köksfläkten och

konversation mellan andra människor. Detta ledde till att hon fick gå ifrån spisen och närma sig Google Home och lite frustrerad be den att sätta en timer igen för att kunna höra att Google Home hade uppfattat henne korrekt. Det visade senare att Goggle Home hade uppfattat henne första gången och att det var två timers som vara satta. När det frågades kring detta senare så framkom det att det hände i 50 till 60 procent av fallen när det var mycket liv och rörelse i köket. Vid de tillfällen som den kvinnliga deltagaren interagerade med rösten med någon av produkterna så vände hon sig mot produkten och talade till den som om det vore en person med den enda skillnaden att hon var tvungen att använda dess specifika väckningsord (’Alexa’ eller ’Hey Google’). Under observationen använde sig den kvinnliga deltagare ett fåtal kommandon såsom sätta timer, kontrollera musik, samt att släcka några lampor som var IOT-styrda. Dock använde hon sig av telefonen ett flertal gånger för att styra musiken då hon inte lyckades spela ett specifikt musikalbum med hennes favoritartist. Då observationen ägde rum under en middagsbjudning frågades det efter avslutad observation kring vad hon vid andra tillfällen använde sina produkter till. Det visade sig

(20)

att det i stort sett var det som hon hade gjort under kvällen, det vill säga sätta timer, styra musik och lampor, samt att fråga om väder. Vid en del tillfälle kunde det ställas lite allmänna frågor så som ’vem är Donald Trump?’, ’vad heter huvudstaden i Guatemala?’, mest som en rolig sak och inte så mycket för att man undrade. På frågan kring hur det kom sig att hon använde de funktioner hon gjorde så var svaret att det var det som hon visste att man kunde göra. ”Jag förstår att jag kan göra mer men orkar inte ta reda på vad och hur jag ska göra det”.

Observation 2 i hemmiljö

Den andra observationen i hemmiljö genomfördes med en man och den fortgick under en vardagseftermiddag där den observerade och ytterligare tre personer träffades för en enklare måltid och samtal. Det framkom under observationen att en av de andra deltagarna även hade en Sonos One (Sonos, n.d) med Alexa (Amazon, n.d) så som mannen som observerades. Under eftermiddagen delade de en del erfarenheter och tips på vad de använde sina produkter med VUI till, och det framkom då att en del av de kommando de använde sig av hade den andra inte en aning om. Ett av många exempel att nämna var funktionen att få de lokala, eller andra förutbestämda, nyheter uppläst när man så önskar, något som ansågs vara väldigt intressant och något som hade förenklat för dem då de inte vara lika styrda av att äta frukosten vid en specifik tid för att få hör morgonnyheterna. ”Det är ju såna saker man ska få tips om,… jag vet att man kan få tips via appen men jag vill inte behöva använda en app när jag köpt en röststyrd högtalare”. Även under den här observationen blev det tydligt hur användarna riktade blicken mot Sonos One när de ville interagera med den och problemet att höra dess svar när den övriga diskussionen fortsatte vid bordet. Detta ledde i vissa fall att man valde att använda sin telefon att utföra uppgiften med istället för att upprepa kommandot och gå närmre för att höra eller höja volymen på högtalaren.

Observation 1 i mötesrum

Den första observationen som ägde rum i ett isolerat mötesrum i

kontorsmiljö, genomfördes med en man i 45-årsåldern under och efter en intervju. Mannen har stor teknisk kunskap och använder sig av Google Assistant (Google, n.da) i sin telefon. Under observationen utrycker och visar han stor frustration kring volymen på feedbacken från Google Assistant då den använder samma volym som telefonen är inställd på och således hörs inte svaret alls om telefonen är satt på ljudlös, vilket han för det mesta har under en arbetsdag eller åtminstone är ljudet på låg volym. Under observationen när han interagerar med Google Assistant första gången så visar det sig att telefonen är inställ på ljudlös vilket leder till att han får repetera sitt kommando och öka volymen. Han går igenom de vanligaste funktionerna som han använder sig av och menar på att han väljer funktioner utefter vad som är den snabbast vägen. Genom att sätta ett alarm istället för påminnelser har han reducerat antalet steg då han ej behöver ange vad för alarm han sätter, vilket är fallet om han sätter en påminnelse eftersom han måste ange vad påminnelsen ska vara för, vilket inte är fallet i alarm.

(21)

Observation 2 i mötesrum

Även den andra observationen, som genomförs i ett isolerat mötesrum, utförs under och efter en intervju. Denna gång observeras en kvinna i 25-årsåldern, som har använt sig av Siri (Apple inc, n.d) i telefonen under lång tid och tycker det är väldigt kul med tekniska. Det visar sig under

observationen att hon använder sig av en begränsad mängd funktioner som hon in princip har använt sig av från början. Under observationen och intervjun märks det en utforskningslust kring vad mer man kan använda Siri till. Även om hon anser sig besitta god kunskap i vad man kan använda Siri till så har utforskandet på egen hand inte infunnit sig utan det är när en diskussion kring ämnet påbörjas som intresset för att testa vad som är möjligt tar fart. Under tiden som den kvinnliga deltagare interagera med Siri så justeras volymen ett flertal tillfällen och hon ber Siri att upprepa vad hon har sagt då hon ej riktigt förstått eller hört vad som kommunicerats. Under observationen utrycks frustration kring hur Siri tolkar kontakters namn när men ber Siri att ringa upp en kontakt. Genom att anpassat sitt uttal så att Siri förstår vilken kontakt hon vill ringa så kommer hon vidare, dock stöter hon på nästa problem i att det blir följdfrågor på vilket av kontaktens nummer hon vill ringa. Genom att ställa fråga kring om hon har testat att ge kommandot på ett annat sätt så testar hon sig fram och kommer genom en del inställningar fram till att man kan säga ’ring mamma mobil’. ”Wow det har blivit så mycket bättre sen jag började, men man har inte lärt sig de här grejorna”.

Efter detta så testas flera kommandon, en del med framgång och andra i frustration att det inte fungerar eller att Siri inte förstår. Till exempel funderar hon kring om man kan styra andra applikationer i telefonen med Siri och testar med Whats App (WhatsApp Inc, 2018). Detta visar sig fungera ganska tillfredställande, men hon anser inte att det är något som förenklar för henne och det är det hon anser är meningen med

röststyrningen.

Resultat och analys av observationer

Det mest tydliga mönstret under observationerna är frustrationen över att inte höra återkopplingen från VUI och problemet kring att den volymen man har inställd inte hörs när ljudvolymen i rummet ändras på grund av samtal eller av andra bakgrundsljud. Det blir också tydligt att flertalet av

användarna i observationerna använder sig av de funktioner och kommando som de i princip använt sig av från dag ett trots att de är medvetna om att det finns fler kommandon som hade förenklat deras vardag. Ett tydligt bevis på att man vill använda VUI till fler saker eller göra det enklare för sig själv är den glädje som uttrycks av en av de observerade när hon upptäcker ett enklare sätt att ringa en kontakt på ett specifikt nummer. Det framkommer även att användarna väljer att använda VUI för att det ska förenkla för dem själva. Men som i fallet där användare väljer att sätta alarm istället för påminnelse så handlar det om en okunskap kring hur man ska ge

kommandon, då man i detta fall direkt kan be Google Assistant (Google, n.da) att sätta en påminnelse klockan 13.00 för att inte glömma gå till

(22)

tandläkare till exempel, istället för att göra det i flera steg som användare gjorde.

Frågeformulär

Användandet av frågeformuläret var för att få in mer kvantitativ data för att kunna verifiera den data som intervjuerna och observationerna hade gett och för att se om det fanns några tydliga mönster kring användandet VUI. Då det intressanta var faktiska användare av VUI, och inte vad gemeneman ansåg kring VUI, så vände frågeformuläret sig endast till folk som använder VUI i dagsläget. Frågeformuläret distribuerades via LinkedIn och interna

kontaktnät på två globala tekniska företag. Vid avslutad studie hade 37 stycken användare av VUI svarat.

Resultat av frågeformulär

Resultaten visar att de största anledningar till inköp är antingen ett stort teknikintresse eller att det var en funktion som följde med produkten man köpt.

På frågan kring hur de hade tagit reda på vad de kan använda VUI på deras produkt till svarade mer än 50 procent (fig. 3) att det var genom att testa sig fram.

Figur 3. Diagram av respondenters svar på fråga; hur har du tagit reda på vad du kan gör med ditt VUI.

Det framkom även av undersökningen att för 45 procent var anledningen till att man använde VUI på sin produkt var i de fall där det förenklade för användaren, och i många fall i en kontext där händerna var upptagna med annat.

På frågan kring vad man gjorde när ens produkt med VUI inte förstod frågan eller kommandot svarade merparten, 62 procent, att de gav upp (fig. 4).

(23)

Figur 4. Diagram av respondenters svar på fråga; vad gör du när din produkt inte förstår dig när du kummuniserat via VUI.

På frågan vad som är den vanligaste uppgiften de använder sitt VUI till så är styra musik den mest förekommande, tätt följt utav sätta alarm och timers (fig. 5).

(24)

Designmöjligheter

Efter ’research’-arbetet i form av intervjuer, observationer och

frågeformulär, som är presenterade i tidigare kapitel framstod det tre tydliga områdena där det fanns en designmöjlighet som skulle kunna medföra en positivare användarupplevelse för VUI. Den självklara förbättringen är en bättre fungerande röstigenkänning, som skulle förstå och klara av att tyda alla kommandon från användaren. Detta kräver ett väldigt stort arbete kring ’machine learning’ och AI vilket detta examensarbete inte inriktar sig på. De två återstående områdena som skulle kunna innebära en förbättring av användarupplevelsen är;

1. Problemet kring att höra återkopplingen från VUI var något som framkom som ett irritationsmoment eller ett hinder för merparten av deltagarna i ’research’-arbetet. Till exempel att man som användare fick anpassa sig efter VUI genom att be VUI att repetera och gå närmre den fysiska produkten med VUI. Det framkom också att flertalet av deltagarna hade med tiden anpassat sig efter VUI men i själva verkat hade en önskan om att det var VUI som skulle anpassa sig efter dem.

I dagsläget kan användare justera volymen på både Google Assistant

(Google, n.da) och Alexa (Amazon, n.da) via röstkommando, såsom ’Alexa, set volume to 5’ eller via den tillhörande applikationen för respektive

produkt. Google Assistant har även en inställningsmöjlighet för nattläge, vilket ger användaren möjlighet att bestämma en specifik volym under specifika tider.

2. Användarna utvecklar inte i någon större utsträckning sitt

användande av VUI utan man hittar ett par kommando från början och håller sig sedan till dessa. Det framkom även i ’research’-arbetet att användarna testar nya kommando men då man inte får det att fungera som man vill ger man upp och håller sig till det man vet fungerar. Det finns en medvetenhet kring att det antagligen finns fler kommandon och funktioner som hade varit lämpliga för deras behov men man vet inte vad eller vilka.

För att användaren av Google Assistant ska bli upplyst om vilka funktioner och kommandon som är möjliga med deras produkt kan användaren

antingen gör det via att fråga Google Assistant vad den kan hjälpa en med eller utforska den tillhörande applikationen. Användare av Alexa har samma möjligheter men de får dock betydligt färre förslag på vilka funktioner och kommandon de kan utföra när de frågar Alexa med hjälp av rösten.

How Might we

Efter att ha kommit fram till de två designmöjligheterna skapades HMW-frågor för att ta nästa steg i processen och där med hjälp av ’ideation session’ hitta lösningar som svar på dessa frågor.

(25)

Hur kan vi…

• få användaren att höra vad VUIs återkopplingsröst säger? • få användare slippa be VUI att repetera?

• ge användare en förståelse kring VUIs funktioner?

• motivera användaren att testa fler funktioner och kommando med sitt VUI?

’Ideation session’

Under ’ideation session’, där även andra designers och användare

medverkade under kortare delar, skissades det på flera olika svar på HMV-frågorna. Dessa kritiserades och itererades för att komma fram till de slutliga konceptidéerna.

Konceptidéer

Den första konceptidéen utvecklades utifrån problemet med volymen på återkopplingen. Tanken var att få VUI att anpassa sig efter användaren och inte att användaren ska behöva anpassa sig efter VUI genom att gå närmre eller helt enkelt behöva höja volymen med ytterligare ett kommando. Under ’research’-fasen framkom det även att användandet av VUI styrs av att det ska vara en förenkling för användaren med målet att det ska vara smidigare än något annat ’input’-medium. För att tillgodose detta så bygger konceptet på hur en dialog mellan två personer fungerar, där man anpassar sin röst efter kontext och omgivning. Genom att analysera användarens röstvolym under startfrasen såsom ’Hey Google’ eller ’Alexa’ och ställa ’output’-volymen på VUI till likvärdig volym, är tanken att användare ska få ett smidigare flöde i sin interaktion med VUI (fig.6).

(26)

Konceptidé nummer två bygger på det faktum att användare av VUI enligt undersökningen i det här examensarbetet i stor utsträckning inte använder fler kommandon än de första de började med. I arbetet av Luger och Sellen (2016) framkommer det att när användare försökt utföra mer komplexa uppgifter, som resulterat i misslyckande, med sitt VUI så tappade man förtroende och återgick till de mer enklare uppgifterna som att låta VUI sätta påminnelser. För att få användaren att se potentialen i deras VUI så är tanken att låta VUI vara proaktivt och föreslå vilka fler kommandon och funktioner som användaren kan använda i sig utav. Genom att föreslå funktioner inom samma kontext som de som användaren har utfört kan det skapas en större kunskap av vad som är möjligt. Luger och Sellen (2016) skriver att hälften av användarna i deras undersökning inte visste vad deras ’Conversational Agent’ kunde utföra, (Luger, Sella, 2016, s. 5291), ”Vilket ledde till att de antingen kände sig överväldigade av den okända potentialen eller ledde dem till att anta att de uppgifterna de kunde utföra var mycket limiterade”. [min översättning]

Funktionen om att få tips på vilka funktioner och kommandon man kan utföra finns redan, men då i mediet som en applikation i telefonen för respektive produkt med VUI. Då undersökningen i detta examensarbete visar på att användare vill få sin återkoppling och information i samma medium som ’input’ är idén att förslagen ska komma från VUI via röst. För att användaren inte ska känna att det blir för påträngande kommer funktioner att delas upp i olika kluster med liknade funktioner, så när en användare till exempel ställer timer för pastavattnet så kan användaren få förslag kring att använda sig av i en digital handlingslista för att komma ihåg saker som behöver köpas då det även är i kontexten av matlagning.

Prototyper

Baserat på de två konceptidéerna skapades två prototyper för att kunna testa koncepten direkt med VUI-användare och utvärdera om de ger upphov till förbättringar av användarupplevelsen.

Prototyp 1 – ’Volym’

För att kunna verifiera värdet av konceptidén ’Volym’ skapades en ’low-fi’-prototyp med hjälp av en mikrofon kopplad till en dator, och via programmet Decible Meter (Kun Mau, 2018) (fig.7) mättes användarens ’input’-volym i decibel och med detta som utgångspunkt justeras VUIs återkopplingsvolym. Med hjälp av att mäta VUIs återkopplingsvolym där användaren befann sig vid interaktionsstarten så att decibelvärdet överensstämde med användares värde, matchades volymen med varandra. Med hjälp av dessa värden ställdes återkopplingsvolymen på VUI in. För att kunna utföra användartestet så realistiskt som möjligt och utan några fördröjningar i volymjusteringen av VUIs återkopplingsvolym, användes en Sonos One (Sonos, n.d) med Alexa (Amazon, n.da) där man med hjälp av Sonos-applikationen kan styra volymen utan någon tidsfördröjning mellan inställning i applikationen och volymen på högtalaren.

(27)

Figur 7. Decible Meter.

Prototyp 2 – ’Användartips’

Prototyp nummer två skapades för att undersöka om ett VUI som är

proaktivt genom att föreslå funktioner och kommandon för användaren ökar deras användarupplevelse. För möjligheten att kunna föreslå funktioner och kommando av samma kontext som de som användaren har utfört skapades en matris av olika funktioner och kommando som var närbesläktade till varandra. Ju fler funktioner användaren blir tipsad om och börjar använda sig av, desto större inblick får den av VUIs kapacitet (fig. 8). Som ett exempel kan nämnas att om användaren lägger till en vara på sin handlingslista kan ett förslag kring att hitta nya recept spelas upp.

(28)

För att skapa denna prototyp har arbetet utförts med Google Assistant (Google, n.da) på Google Home (Google, n.db) för att kunna testa prototypen på användare som är van vid dess funktioner. Via Actions on Google (Google Developers, n.d), som är Googles verktyg för att skapa applikationer för Google Assistant, skapades en applikation som skulle kunna tala tillbaka till användaren och ge tips på andra funktioner, men då detta innebar att användare först var tvungen att aktivera den applikationen för att få ett svar tillbaka fungerade det ej som en prototyp för att testa designmöjligheten som vara funnen. Tester gjordes även med Amazon Skills (Amazon, n.db), vilket är Amazon Alexas (Amazon, n.da) verktyg för att skapa det de kallar för Skills, för att se om det var möjligt att skapa något likvärdigt där. Resultatet av detta arbete blev det samma, vilket inte skapade en bra helupplevelse under de för-tester som utfördes under prototyparbetets gång.

För att skapa en bra totalupplevelse för användare var det viktigt att använda sig av Googles Assistants egna röst och inte spela in med någon annan röst. Genom att använda Google Assistants funktion, ’Repeat after me’, som innebär att Google Assistant repeterar vad som sagts med sin egna röst, var det möjligt att skapa ljudfiler med förslag på funktioner som kunde vara relevanta för användaren. Dessa förslag skapades med utgångspunkt från de vanligaste förekommande användningsområdena enligt ’research’-arbetet. Under arbetet med prototypen skapades det även ljudfiler av slumpvis utvalda funktioner och kommandon som finns tillgängliga för användare av Google Assistant. Dessa skapades för att kunna undersöka om det är

intressant för användare att bli tipsad kring funktioner och kommandon som ligger utanför dess vardagliga användande av VUI.

Via en dator kopplad till en högtalare var det möjligt spela upp de förinspelade förslagen på funktioner och kommandon, och med hjälp av ’Wizard of Oz’- metoden skapa en bra användarupplevelse med enkla medel för att testa designmöjligheten.

Användartester

Användartesterna utfördes i hemmiljö vid sex olika tillfällen med testare i åldern 29 till 47, där fyra stycken var män och två var kvinnor. Samtliga av deltagarna var tidigare användare av Google Assistant (Google, n.da) eller Amazon Alexa (Amazon, n.da), och två av dem hade deltagit i ’research’-arbetet tidigare som respondent i intervjuerna. För att genomföra testerna i en så naturlig situation som möjligt genomfördes testerna vid fyra av fallen i testarnas egna hemmiljö och i de två övriga fallen i mitt hem under två separata tillfällen. Testarna var inte medvetna om vilken designlösning som skulle testas för att på så sätt kunna få en så objektiv och korrekt reaktion som möjligt.

Vid fem av testtillfällena var andra personer närvarande som också var införstådda med att det skulle ske ett test rörande VUI. Ordningen på vilken prototyp som testades först alternerade mellan testerna.

(29)

Användartest av ’Volym’

Prototypen ’Volym’, skapad för konceptidéen krig volymanpassning placerades där testarna till vardags har sin produkt med VUI placerad. Mikrofonen som användes i testet placerades intill Sonos One (Sonos, n.d) och var sammanlänkad med datorn via kabel. När prototypen var

iordningställ ombads testarna att agera så normalt som det var möjligt och inte tänka på situationen som ett test.

Resultat av användartest av ’Volym’

En av testarna reagerade inte på att volymen anpassade sig efter hennes egen röstvolym och undrade efter testets gång vad testet gick ut på då hon inte hade upptäckt något som vara annorlunda. När testaren efter avslutat test blev informerad om prototypens funktion blev hon intresserad av konceptet och började tala till VUI i olika volymer allt från viskande kommando till mer aggressiva tilltal. Detta ledde till att hon förstod tanken med funktionen men menade på att det skulle kunna bli ett problem i de situationer där man av någon andleding blir irriterad på sin produkt och höjer rösten. Men samtidigt ansåg hon att det kanske skulle ge produkten mer personlighet om den reagerade på hennes röst.

Tre av de fem övriga deltagarna reagerade direkt på att

återkopplingsvolymen anpassade sig efter deras röstvolym, framför allt i de situationer när där var mycket bakgrundsvolym i form av samtal mellan övriga personer eller köksfläktsljud. De resterande två testarna insåg efter tre till fem kommandon att återkopplingsvolymen ändrades i förhållande till deras kommandovolym.

Samtliga testdeltagare var positiva till att volymen anpassades sig efter deras röst ”Nu kanske jag inte behöver be henne att repetera vad hon sa fler

gånger om detta blir verklighet.” Majoriteten hade dock samma

invändningar som den första kvinnliga testaren när det gällde de situationer de blev irriterade på sin produkt och höjde rösten i aggression och att det skulle kunna bli ett problem då man inte skulle bli mindre frustrerad på produkten om den skrek tillbaka åt en.

Användartest av ’Användartips’

Även under testet av prototypen ’Användartips’, där VUI ska ge förslag på liknade funktioner och kommando som användare utför ställdes prototypen där användaren i normala fall har sin produkt placerad, i det här fallet en Google Home (Google, n.db) med Google Assistant (Google, n.da) och en separat högtalare kopplad till en dator för att kunna spela upp relevant ljudfil för användaren.

För att VUI inte skulle upplevas påtvingande och bli ett irritationsmoment så spelades det upp en ljudfil med förslag på ett kommando eller en funktion vid var tredje interaktion med VUI, dock med minst 10 minuters mellanrum sedan tidigare uppspelning. I första delen av testen spelades ljudfiler med förslag som var relaterade till den funktion användaren senast hade använt sig av. I senare delen av testtillfället spelades även ljudfiler med slumpvis valda funktioner och kommandon upp för att se om testaren upplevde det som mer intressant att bli tipsa av någon funktion eller kommando som inte

(30)

var i samma kontext som den nyss utförda. För att ha möjlighet att testa prototypen i en så verklighetstrogen situation som möjligt varade testen mellan två till fyra timmar samtidigt som det fortgick normala vardagsbestyr såsom matlagning, läxläsning och allmänna diskussioner.

Resultat av användartest av ’Användartips’

Samtliga deltagare uttryckte att det var ett intressant sätt att bli introducerad till funktioner och kommandon som de inte kände till eller inte tänkt på att de kunde ha användning för. De tyckte ’Användartips’ skapade ett mervärde till produkten och kan leda till att de kommer använda VUI till mer saker än tidigare.

Två av de tidigare deltagarna hade tidigare sökt efter möjliga funktioner och kommandon via den tillhörande applikationen men menade på att det är när man interagerar med VUI som man vill få information vad som är möjligt.

”Jag köpte ju den för att prata med henne”.

Flertalet utav testdeltagarna funderade kring om det kunde bli påträngande med ett VUI som talade till en kring något som man inte frågat efter, men testdeltagarna menade samtidigt att det skulle tillföra lite mer personlighet och inte bara agera som en slav åt användaren. Under den efterföljande intervjun vid testtillfällena framkom det att man som användare gärna hade velat kunna styra själv när man får tips kring funktioner och kommandon. Denna inställningsmöjlighet skulle man vilja kunna utföra med ett enkelt röstkommando som aktiverade ’Användartips’ så som den var utformade nu. Det fanns även tankar och idéer kring att ’Användartips’ bara skulle vara aktiverad när användaren var ensam i rummet för att inte ta fokus från det sociala sammanhanget. Testdeltagarna utryckte att när man är i ett socialt sammanhang vill man inte bli avbruten av sina tekniska maskiner, de ska finnas där för att hjälpa användaren och inte agera som en extra person.

5 Slutsats

I detta examensarbete ville jag undersöka hur man via andra medel än ’speech recognition’ kan förbättra användarupplevelsen av VUI i hemmiljö. Detta gjordes genom en användarcentrerad designprocess som inleddes med kvantitativa och kvalitativa användarundersökningar via semistrukturerade intervjuer, observationer och frågeformulär. Utöver de rent tekniska begränsningarna med ’speech recognition’ identifierades de två tydligaste problemområdena som påverkar användarupplevelsen i urvalsgruppen; skillnad i volym mellan VUI-återkopplingen och ljudnivån hos den omgivande miljön, samt okunskap om VUIs möjligheter. Prototyperna ’Volym’ och ’Användartips’ skapades för att simulera lösningar på respektive problem, och med dessa genomfördes sedan användartester.

(31)

Det är inte enbart utvecklingen av ’speech recognition’-tekniken i sig som i dagsläget kan bidra till en bättre användarupplevelse och därmed öka användandet av VUI. Prototypen ’Volym’ löser ett faktiskt problem, där VUI får anpassa sig efter användaren och inte tvärtom. Anpassningen mot användaren skulle kunna vidareutvecklas inom andra områden där VUI lär sig och förstår i vilken kontext användaren befinner sig och på vilket sätt återkoppling ska ges, inte bara vilken volymnivå det ska vara, utan även på vilket sätt och hur omfattande svar som ska ges.

Användarupplevelsen blir begränsad av att användare inte vet allt den kan göra. VUI ses i många fall som en rolig sak istället för att se dess fulla värde i att kunna förenkla människors vardag. Prototypen ’Användartips’ skapar ett mervärde för användarna genom att upplysa om funktioner de inte tidigare känt till, vilket kan leda till ökad användningsfrekvens, vilket i sig leder till ytterligare förenklingar i vardagen. Ju fler funktioner användaren nyttjar, desto fler nya områden kan introduceras genom ytterligare tips som angränsar till varje ny upptäckt funktion. Denna funktion kan utvecklas vidare genom att användaren själv kan styra när tips ska ges.

Självkritik

Det finns många sätt att ta sig an ett problem, de metoder som har blivit använda i detta examensarbetet har visat sig generera ett resultat som användarna ansåg förbättra deras användarupplevelse, vilket var målet med arbetet. Men man får inte glömma att urvalet av deltagare var begränsat både i den inledande undersökande fasen och i testfasen, vilket gör att

slutresultatet måste valideras mot en större grupp för få det bekräftat. För att få en mer tydlig bild utav användandet av VUI i hemmiljö kunde en större undersökning gjorts för att kunna hitta fler problemområden eller få bekräftat de som hittades i detta examensarbete. Observationer i hemmiljö är inte en enkel uppgift då man som observatör stör den naturliga miljön för användaren, vilket kan leda till ett icke naturligt beteende hos användaren. Andra tekniker gällande observationer så som ljudinspelning och

filminspelning skulle kunna löst problemen med att som observatör behöva vara på plats under hela observationen.

Frågeformuläret kunde varit utformat på ett bättre sätt för att kunna få in bättre kvantitativa data att validera data ifrån intervjuer och observationer med. Frågeformuläret kunde även ha spridits till en större målgrupp och på så sätt fått ett större underlag.

Under arbetes gång skulle användarna kunna ha involverats mer för att på så sätt vara en större del av designprocessen, vilket kunde ha lett till att fler lösningar på HMW-frågorna hade kunnat genererats. Även då arbetet skulle genomföras självständigt kunde nyttjande av andra designers använts i en större utsträckning får att kunna få mer designkritik, vilket i de flesta fall leder till bättre design.

&quot;Hey Google, how do I become a more satisfied and frequent user of VUI?&quot; A study in how to improve VUI usability