Faktiskt genomförande och analys av insamlade data från andra testomgången

4.5 Fas 5 testning: planering, faktiskt genomförande och delresultat

4.5.5 Faktiskt genomförande och analys av insamlade data från andra testomgången

Den andra testningen av den nya iterationen av AUEIS gjordes med tre deltagare. Den första utvärderingen skedde med D1 igen för att få insikt om iterationen har underlättat utvärderingen för en UX-designer som inte har kunskap inom MRI. De andra utvärderingar på den itererad version som genomfördes var med D3 och D4 som är erfarna UX-designer med kunskap inom MRI och särskilt utvärdering av sociala robotar. Samma filmklipp användes för alla utvärderare, förutom D4 som genomfört testet enbart på det första filmklippet på grund av att D4 hade tidsbrist. Testningsresultat AUEIS skrivs separat nedan, testningen och intervjuerna genomfördes på samma sätt som beskrivits ovan. Den enda ändring var på vissa intervjufrågor som lades till beroende på vilka kommentarer som kommer upp i utvärderingen.

Deltagare 1 är en anställd UX-designer som har genomfört analytiska utvärderingar sedan tidigare.

Men saknar kunskap inom MRI och har inte utvärderat en interaktion med robot tidigare. Antal problem som identifieras av D1 har minskat till 11 jämfört med den första utvärderingen som var 14.

Skillnaden är inte så stor men det märktes att D1 kunde använda aspekterna som referens och kände inte ett behov att lägga ett problem under varje aspekt. Utan D1 i den testningen var mer analytisk och försökte se till att inte lägga ett problem som är enbart baserade på sin egen reflektion. D1 upplevde ändringarna utvärderingsmallen som positiv och tyckte att möjligheten för att lägga varje problem separat var bra för att kunna sätta skala och allvarlighetsgrad. Att lägga förväntningar på interaktionen har hjälpt D1 med att inte tänka på att den social roboten som om den vore en människa. Först diskuterades hur den sociala roboten ska svara, och utvärderaren valde scenarion att den är ”tänkte typ vad ska man förvänta sig av en sällskapsrobot som en liten vän bara” D1. Från enbart detta perspektiv kunde D1 minska sina förväntningar på att roboten ska vara så människa lik i sina förmågor. Detta märktes även genom att D1 använde inte sig av kommentarer som användes i första utvärderingen ”En människa skulle använda mer gester” D1. Den största problem som upptäcktes var stödfrågorna. Enligt D1 upplevdes stödfrågorna som förvirrande och gav inte riktigt något stöd i att sätta en skala. Därför har en fråga diskuterats med D1 under intervjun som följande.

Intervjuaren: ”För problemskalan var 6 uppfylls inte, skulle du kunna resonera varför valde denna

skala?”. Svaret var då att D1 kollade på sina svar på stödfrågorna och märkte att alla svar var Nej och började diskutera att det skulle vara en mindre skala på de problemen. Däremot upplevde D1 ändå att stödfrågorna inte riktigt var något som behövdes åtminstone inte kombineras med ”skalan”. Ett annat problem från denna utvärdering var att D1 fortfarande hade tendensen att lägga en hög allvarlighetsgrad på alla problem. Detta kan bero helt på att användaren har ingen erfarenhet av att utvärdera MRI. Därför har jag diskuterat med D1 över vilken allvarlighetsgrad skulle vi sätta på några problem. Vilket resulterade att D1 började ändra sig och minskade allvarlighetsgraden eller skalan när det var diskussion med någon annan än att sätta graden själv. Detta indikerar att precis som Wilson (2014) nämner att det behövs tre till fem utvärderare för att får ett bra resultat. Även Barnum (2011) rekommenderar att ha flera utvärderat när det inte finns experter eller möjlighet att genomföra användbarhetstester. Således, visar den andra utvärderingsomgången med D1 att aspekterna som ska utvärdera de förutsättningarna för att kunna uppnå engagemang upplevdes som positiva och täckte alla typer av problem som skulle kunna upptäcks. Ett scenario ställdes till D1 om kontexten för användning av en social robot ändrades vilka aspekter skulle vara anpassade och D1 ansåg att all 7 aspekter skulle kunna användas. Kategoriseringen av problem som identifierades av D1 visar att de var tydliga för att förstå och att det inte fanns några svårigheter att applicera dessa aspekter vid en interaktion med en social robot.

Deltagare 3 och 4. På grund av D3 och D4 har tidigare erfarenhet av utvärdering av MRI, fick de göra utvärderingen på det sätt som passade dem bäst. Exempelvis D3 valde att lägga fokus enbart på de problem som ansågs vara allvarliga och påverkade interaktionen. Vilket visar att det fanns tydlig skillnad mellan denna grupp och D1 och D2 som valde att skriva alla fynd som observerades och därefter gradera allvarligheten på dem. Först diskuteras resultatet under olika delar som handlar om kraven, därefter diskuteras resultatet av utvärderingar på ett generellt sätt och vilka insikter de gav.

Validitet Eftersom det är få deltagare det är svårt att dra slutsatser om validiteten av AUEIS. Men i jämförelse på resultatet det syns att D3 och D4 identifierat mindre antal problem. För att exemplifiera, resultatet av utvärderingen på första filmklippet har D1 hittat 10 problem, D3 har hittat 7 problem medan D4 hittat 5 problem. Det kan bero på att D3 och D4 är mer erfarna och har sållat bort de problem som är ”false positives” redan innan att sätta allvarlighetsgraden. Däremot är skillnaden på resultatet mellan alla utvärdera inte stor. Det mest intressanta fyndet är att D3 och D4 inte upplevde någon osäkerhet på problemen som hittades. Jämförts med D1 och D2 som kände att skalan baserade på deras egen åsikt. Detta indikerar att problematiken med att sätta skala kan vara baserad på erfarenheten.

Användbarhet och Lärbarheten till skillnad från de första två utvärderingar med D1 och D2 det framkom inte svårigheter med att skriva problemen. Däremot upplevdes kolumnen ”skala” som ett stort problem i utvärderingsmallen. D3 och D4 upplevde exakt samma sak över skala då de tyckte att skalan är avsedd för problemet och inte aspekter. Exempelvis D4 tyckte följande ”ska jag sätta skala på problemet, att den uppfylls eller inte uppfylls? Ett problem är ett problem vad är det som uppfylls?”. D3 har uttryckt samma reflektion men kunde förstå att det var menad att sätta skala om aspekten är uppfylld eller ej. Detta togs som att det finns utrymme för att förbättra användbarheten av AUEIS. Eftersom ”uppfylld eller ej uppfylld” på skalan är syftad till aspekten och inte problemet, men var oklart för användaren. Att sätta allvarlighetsgrad upplevdes som en positiv del och kunde enligt D3 och D4 kunde den ersätta skalan helt. En följdfråga gjordes till D3 oh D4 om hur de skulle uppleva om allvarlighetsgraden stöds med skala och både tyckte att detta kommer underlätta kategoriseringen ännu mer.

Gällande aspekterna kunde D3 och D4 använda dem på ett bra sätt utan större svårigheter. Särskild aspekterna som är avsedda att utvärdera interaktiviteten. D3 och D4 uttryckte att aspekterna var relevanta och fokuserar på engagemang men även interaktion med en social robot som helhet. ”Det finns här den samspelet i aspekten om interaktivitet från roboten och användarens perspektiv är superbra.” D3. Trots att engagemang är bredd i sin definition och upplevs som en subjektiv och

komplex interaktion tyckte D4 att uppdelning av aspekterna var positivt. ”Jag tror det är generellt sätt bra att dela upp engagemang i olika aspekter för att det är brett. Lättare att hantera gillar konceptet” D4. De aspekter som upplevdes svåra att förstå är ”effektivitet” och ”återkoppling och användbar information”. D4 upplevde att dessa två aspekter var lika och kunde inte skilja mellan de

”Båda har att göra med informationsutbyte. Kan "effektivitet" förtydligas lite?” D4. Detta problem har inte upplevts av D1, D2 eller D3 för att det fanns en fråga om hur tydligt var det skilja mellan aspekterna. Dock, D3 hade reflektion att det kan bli som ett problem för att båda innehåller ordet

”information”. Om utvärderarna inte är bekanta med aspekterna än, kan det ske ett misstag genom att de blandar ihop dem.

Ett annat identifierat problem som anses vara det största problemet är att D3 och D4 sakande kontext. Det vill säga vilken situation utvärderas möjligheterna av engagemanget för. Exempelvis, D4 har identifierad ett problem som tillhörde aspekten ”Deltagande” men kommenterade att i detta scenario från filmklippen upplevs roboten som interaktiv och tillräckligt engagerad. Däremot var den inte drivande i kommunikationen och utvärderingen på en längre interaktionen kan den upplevas som ett allvarligt problem. Vilket innebär att D4 inte kunde veta vilken situation som utvärderas, gällande om tiden av interaktionen är kort eller lång tid. Medan D3 tyckte att det skulle ha varit ännu bättre om det fanns scenarion som beskriver vad som är förväntad av den sociala roboten som ska utvärderas. Detta problem uppstod även vid de första två utvärderingarna och därför har

”Förväntningar” lagts in. Anledning till att problemet uppstod är att D3 och D4 inte tillfrågades att sätta förväntningar på interaktionen. Därför förklarade både D4 att instruktionerna skulle kunna vara ännu tydligare. Till och med D4 tyckte att det hade varit bättre med en definition på engagemang av något slag för att kunna sätta förväntningar på interaktionen. Det fanns även önskemål av D3 att få en bättre förklaring hur resultatet skulle användas i slutet av utvärderingen. Utvärderingen som gjordes av D3 och D4 gav även mest insikt om att det hade varit intressant om det fanns riktiga användare för att utvärdera engagemanget med. Eller om det fanns kvantitativa mått som kunde användas exempelvis att mäta tiden eller liknande.

För att sammanfatta det finns fyra olika typer av problem som identifierades med AUEIS. Det uppstod flera problem som anses allvarliga och påverkade utvärderingen. Det största problemet var att skalan upplevdes som en förvirrande del och överlappade med allvarlighetsgraden. Dessutom D3 och D4 förstod inte att skalan är för aspekterna och inte problemet. Medan problemet med själva aspekterna upplevdes av en deltagare där två aspekter upplevdes som liknande och gick inte att skilja mellan dem. För att genomföra utvärderingen med rimliga förväntningar över robotens sociala förmågor utvärderaren ska lägga till en kontext som beskriver begräsningarna. Detta var otydlig för D3 och D4 och hänger ihop med att det saknas tydliga och omfattande instruktioner över genomförandet av utvärdering med AUEIS. Tabell 3 sammanfattar problemen med förslag på lösningar.

Tabell 3 – Sammanfattning av problemen med AUEIS och eventuella lösningar

Resultatet från de tre sista testningarna gav en bra insikt i vilka delar av AUEIS som är problematiska och vilka delar som skulle kunna förbättras. Från alla tester det verkade som att ”skalan” inte var tydlig, även stödfrågorna verkade vara förvirrande för D1. Medan D3 och D4 upplevde att den inte var gynnande och svårt att förstå varför sätts en skala på ett problem. Därför valdes att se över skalan och undersöka om den skulle byts ut eller även ersätts helt med att i stället lägga en skala på allvarlighetsgraden. D1, D3 och D4 tyckte att detta skulle kunna funka bättre, eftersom på det sätter kan allvarlighetsgraden vara tydligare med nummer än enbart text. Det vill säga, allvarlighetsgraden blir ett nummer i skalan från 0–7. Anledningen att börja från 0 är på grund av att det finns kosmetiska problem, även om de kallas för problem. Att ha en 8-gradig skala för att göra en delning på poängen mellan fyra allvarlighetsgraden. Allvarlighetsgraden som följande:

• Katastrofala problem – påverkar interaktionen så mycket att det blir avbrott. 6–7

• Stora problem – har stor påverkan på interaktionen. 4–5

• Mindre problem – har en ganska låg påverkan på interaktionen, därför den har lågprioritet men ska åtgärdas i mån av tid och resurser. 2–3

• Kosmetiskt problem – väldigt låg prioritet, ingen påverkan på interaktionen och åtgärdas i mån av tid och resurser. 0–1

Som resultatet från testningen visade att aspekterna upplevdes positiva och kunde utvärdera de förutsättningarna för att kunna uppnå engagemang på ett lämpligt sätt. Gällande användarupplevelsen och funktionalitet av en social robot. Därför gjordes inga större ändringar på aspekterna, enbart mindre språkliga justeringar för att undvika blandning mellan vissa aspekter.

Bredare instruktioner lades till för att stödja utvärderaren vid användning av AUEIS.

5 Slutresultat AUEIS-metoden

AUEIS är syftad att används för utvärdering av interaktion med en social robot. Peters m.fl. (2009) belyser att förutsättningar för att kunna uppnå engagemang vid interaktion med teknologi är väldigt viktigt att studera och förstå för att designa för en bättre upplevelse. En av de viktigaste aspekterna att utvärdera vid interaktion med sociala robotar är möjligheterna att uppnå engagemang, på grund av dess direkta påverkan på kvaliteten av interaktionen (Salam & Chetouani, 2015). AUEIS utvärderar interaktionen med en social robot ger en bra överblick i vad som brister i interaktionen med en social robot. En dålig användarupplevelse med en social robot påverkar kvaliteten av den upplevda interaktionen. Även om roboten hade många avancerade algoritmer och sensorer, en interaktion som upplevs oengagerade för användaren kan påverka att den sociala roboten uppfattas som dålig och oanvändbar. AUEIS är tänkt att bidra till att förstärka UXD-perspektivet inom MRI. Genom att utvärdera interaktionen med en social robot och identifiera briser och förslag på förbättringar. AUEIS är testad för att användas utan användare och resultatet visade att den fungerar för att ta fram problem som berör användarupplevelsen. Däremot den kan även användas tillsammans med andra UX-utvärderingsmetoder eller UX-tester för att få en ännu bättre förståelse över användarupplevelsen. Användning av AUEIS beskrivs med tre faser där under varje fas finns flera aktiviteter att genomföra. AUEIS är anpassat för att användas på olika situationer och olika utvecklingsfaser av roboten. Nämligen utvärderingen kan ske på direkt interaktion med en social robot, och utifrån resultatet kan förbättringar göras. Om det finns ingen tillgång till en social robot AUEIS är väldigt användbar eftersom det går att använda den för att utvärdera interaktion med social robot från filmklipp. AUEIS kan även utvärdera scenario på interaktion med en social robot. Eftersom AUEIS är väldigt flexibel i appliceringen och kan användas utan användare eller en social robot; den tar mindre resurser i form av tid och kostnader. AUEIS är utvecklad för UX-designers som vill genomföra utvärderingen inom MRI. Testningen av AUEIS visade att utvärderaren behöver inga tidigare erfarenheter av utvärdering inom MRI för att använda AUEIS. Men det rekommenderas att utvärderaren återgå till kapitel 2.2 och kapitel 2.4 för en bättre förståelse över sociala robotar samt vikten av engagemang och vilka de olika faser engagemanget kan genomgå. För bästa resultat används AUEIS av flera utvärdera speciellt om det saknas utvärderare med erfarenhet av utvärdering inom MRI. Den rekommenderade antalet utvärderare är 2–4 enligt Nielsen (1994) och Wilson (2014).

För att använda AUEIS finns det särskilda aspekter som ska utvärderingen utgå från och det är rekommenderat att utvärderaren använder alla aspekter. Däremot val av aspekterna kan bero på vilket sammanhang den utvärderat interaktion sker.

AUEIS kan användas vid behov av att få en bättre förståelse om en social robot som ska användas har de aspekter som behövs för att interaktionen upplevs engagerande. Det vill säga att AUEIS utvärderar om en social robot uppnår de nödvändiga aspekter för att främja engagemang vid interaktionen.

AUEIS är effektiv och behöver inte mycket resurser i form av tid på grund av att den är lätt för at nya utvärderare ska lära sig den. Samt utvärderingen med AUEIS tar maxtid på 1–2 timmar, men detta kan variera beroende på längden av interaktionen och antal utvärderare. En annan fördel med AUEIS är den kan genomföras på olika utveckling faser av den sociala roboten. Det vill säga utvärderingen kan börja tidigt på interaktion scenarier. Utvärderingen kan även genomföras på interaktion från filmklipp, vilket AUEIS har testats med och visade at den var effektiv. AUEIS är inte testad på att utvärdera vid direkt interaktion med en social robot, men det ansågs inte som att det finns några hinder från att vara effektiv vid direkt interaktion med en social robot. Nedan beskrivs hur AUEIS kan genomföras i detaljer utifrån de tre faser som AUEIS består av.

AEUIS består av tre faser och under varje fas finns flera aktiviteter som utvärderaren ska genomföra för att uppnå ett resultat. Figur 6 är en visualisering av hur AUEIS olika faser bör genomföras och i vilken ordning.

Figur 6 – Visualisering av vilka faser AUEIS har och hur den bör genomföras

Det är viktigt att utvärderare alltid utgår från användarensperspektiv vid utvärderingen, detta genom att göra förberedelser innan utvärderingen. Det är bra att veta redan innan att utvärderingen ska genomföras individuellt av utvärderaren för att minska påverkan på varandras resultat. Första fasen av AUEIS består av tre aktiviteter som följande:

Fas 1 - Innan utvärderingen

• Välj ut det som ska utvärderas om det inte finns tillgång till en social robot, utvärderingen kan genomföras på filmklipp som innehåller den typ av interaktion som ska utvärderas eller skrivs ner scenarion i form av dialog hur interaktionen ska kunna vara. Exempelvis har AUEIS testats genom att utvärdera på filmklipp där det finns interaktionen med den sociala roboten Pepper och visade sig vara användbar för detta.

Bestäm vem ska utvärdera det rekommenderas att utvärderingen med AUEIS leds av minst en UX-designer. Det rekommenderas att det är bäst att genomföra en utvärdering med personer med erfarenhet av utvärdering av användarupplevelse. Så det är rekommenderat att minst en UX-designer i teamet, en UX-designer är tränad på att använda utvärderingsmetoders och är expert på att identifiera interaktionsproblem.

En utvärderare med erfarenhet kan hitta många eventuella problem, flera utvärderare med mindre erfarenhet kan uppnå samma resultat. Ha med flera utvärdera för bästa resultat. Wilson (2014) rekommenderar att Nielsens heuristiska utvärdering genomföras med 2–3 utvärderare. AUEIS har stora likheter med detta därför kan det vara bra att ha från 2–3 utvärderare. Samt utvärderingsmallen kan förberedes redan här se bilaga 8.

• Sätta förväntningar om robotens förmågor utifrån dennes syfte. Det behövs inga användare för att genomföra AUEIS. Men om det finns tillgång till användargruppen det är bra att samla in data om vilka användarna är för just denna sociala robot som ska utvärderas. Samt vad ska den sociala roboten ha för syftet och andra egenskaper. För att veta mer om robotens syfte och egenskaper kan UX-designer träffa med utveckling-teamet. Där kan frågor ställas om vilken miljö roboten ska användas i, vad är den tänkt att kunna genomföra och vilken utseende den är tänkt att ha. Utifrån information som

samlas kan utvärderarna diskutera fram vilka förväntningar ska läggas för roboten.

Förväntningar skrivs i form av punkter för att underlätta jämförelse på resultatet av utvärderingen.

Fas 2 av AUEIS handlar om själva utvärderingssessionen och består av flera aktiviteter som följer hur utvärderingsmallen är uppbyggd. Det vill säga att först sättas förväntningar på interaktionen utifrån vilka användarna är och vilken kontext kommer en social robot användas i. Sedan läser utvärderaren aspekterna och sedan börjar att genomföra utvärderingen på den valda material (Filmklipp, social robot eller scenarier). Nedan beskrivs den andra fasen av AUEIS mer detaljerad.

Fas 2 - Under utvärderingen:

• Börja med att läsa genom aspekterna igen, kom ihåg att utvärderingen ska ske utifrån användarensperspektiv.

o Tydlig och korrekt kommunikation Roboten ska använda naturligt språk som passar användaren och situationen. Här inkluderas ljudsignaler, ljussignaler, tal och gester

In document Aueis en ny UX-utvärderingsmetod för engagemang vid interaktion med sociala robotar (Page 42-51)