• No results found

6.Utvärdering

6.1 Resultat från frågeformulär

6.1.2 Resultat från frågor i artefakten

I frågan om att beteendeträdet ansågs ha mänskliga beteenden och reflexer uttryckte majoriteten av deltagarna att den agenten hade det, avvikelsen var en deltagare som ansåg att agenten sköt för mycket och var för långsam med att plocka upp resurser. Resterande deltagare beskrev att de upplevde mänskliga reflexer och beteende genom att agenten visade snabb reaktionsförmåga, mänsklig medvetenhet, prioritering av fiender, plockade upp resurser, plockade upp vapen som redan förbrukat sin ammunition, mänskliga

rörelsemönster och undvek fiender. Oavsett av ordning som deltagarna spelade med agenterna var bedömningen av beteendeträdet ömsesidigt med delvis olika anledningar. Avvikelsen var en person som inte ansåg att beteendeträdet hade mänskligt beteende eller reflexer. Denna deltagaren spelade då med beteendeträdet först.

Återigen ansåg majoriteten av deltagare att beteendeträdet visade förmågan till att planera. Deltagarna påpekade att agenten, undvek fiender bra, plockade upp resurser samt att den identifierade och sköt mot det största hotet närvarande. De deltagarna som inte ansåg att agenten visade planering ansåg antingen att agenten rörde sig utan något mål, att agenten plockade upp resurser vid dåliga tillfällen eller att den inte sköt mot tydliga hot och istället sköt mot de närmsta fienden eller utan plan. Båda de som tyckte att agenten var mänsklig och de som inte ansåg det talade om samma beteenden hos agenten men hade olika åsikter om hur mänskligt det upplevdes.

Deltagarnas upplevelse kring hurvida beteendeträdet reagerade realistiskt till miljön var blandat men majoriteten ansåg att den gjorde det. Anledningen majoriteten av deltagarna gav till att agenten reagerade realistiskt till miljön var att agenten undvek finder och blev inte omringad, använde resurser, plockade upp bättre vapen och fokusera på specifika fiender. Några deltagare var osäkra och kunde inte ge ett svar oberoende av ordningen som deltagarna spelade med agenterna. Det var också några deltagare som ansåg att

beteendeträdet inte reagerade realistiskt till miljön på grund utav att agenten kunde springa rakt igenom grupper av fiender utan specifik anledning, plockade upp resurser dåligt och fastnade ibland i hörn där agenten inte kunde ta sig utifrån.

Deltagarnas bedömning av hur mänsklig beteendeträdet var gav ett medelvärde på ≈3.8 av 5. När beteendeträdet var agenten som deltagaren spelade med först blev medelvärdet

istället 3.5. När beteendeträdet var den andra agenten som deltagaren spelade med blev medelvärdet ≈4.2.

Angående LSTM agenten tyckte majoriteten att agenten betedde sig omänskligt. De menar att agenten rörde sig lite och långsamt, den bytte fokus på fiende ofta och den gjorde inget för att hjälpa deltagaren. En gemensam åsikt många har är att agenten spelar dåligt och därav inte planerar dess handlingar väl. De som tyckte att agenten kunde planera ansåg inte att den gjorde det bra eller ofta genom att agenten prioriterade specifika fiender, förutom en deltagare som ansåg att den visade stora förmågor för planering och samarbete. LSTM agenten bedömdes även av majoriteten av deltagarna till att inte ha potential till att planera oavsett ordningen som deltagarna spelade med agenterna. Anledningarna som deltagaren gav till att agenten inte kunde planera var att den ofta blev omringad och inte plockade upp resurser. Alla testerna som ansåg att LSTM agenten visade potential till att planera utförde testet med LSTM agenten som första medspelare.

Den generella åsikten angående LSTM agentens reaktion till miljön var att den var orealistisk och omänsklig. Majoriteten påstod att agenten varken reagerade till eller plockade upp resurser som dök upp i miljön. En annan vanlig observation från deltagarna är att agenten inte utnyttjade hela miljön i dess rörelse, den rörde sig lite och stannade ofta i mitten av spelplanen. Några deltagare påpekade att agenten började skjuta för tidigt på fiender innan de var synliga på spelplanen och sågs därav som orealistiskt snabbt, samt att den alltid sköt på de som var närmst till agenten. Några deltagare ansåg att agenten reagerade realistiskt till miljön. De sa att agenten plockade upp och använde vapen samt att den realistisk undvek fienderna och deras attacker.

Deltagarnas bedömning av hur mänsklig LSTM agenten var gav ett medelvärde på ≈1.9 av 5. När LSTM var agenten som deltagaren spelade med först blev medelvärdet ≈2.3 och när LSTM var den andra agenten som deltagaren spelade med blev medelvärdet ≈1.5.

6.1.3 Analys

Det framgick tydligt från deltagarnas svar att beteendeträdet var den mest mänskliga

agenten. Nästan alla bedömde beteendeträdet till att vara den mänskliga spelaren även om deltagarna uttryckte spekulationer om att båda medspelare var agenter.

Överlag verkar inte ordningen som deltagarna spelade med agenterna påverkat deras resonemang om vad som konstaterade mänskligt och omänskligt beteenden hos agenterna. Som helhet har deltagarna liknande åsikter angående agenternas förmågor inom individuella kriterier, dock gav många deltagare ofta högre mänsklighet på skalan till LSTM agenten när de spelade med den agenten först. Detta kan peka på att deltagarna inte hade något att jämföra med när de bedömde LSTM agenten i de fallen. I liknande fall bedömdes ofta beteendeträdet högre på skalan om den spelades med efter LSTM agenten. Möjligtvis är detta för att beteendeträdet upplevdes som bättre när den jämfördes med LSTM agenten och LSTM agenten upplevdes som sämre när den jämfördes med beteendeträdet. Påståendet förstärks av resultatet där hälften av deltagarna som spelade med beteendeträdets agent först hade velat ändra sina svar efter de spelat mot båda agenterna medans ingen av de som spelade med LSTM först ville ändra sina svar.

Vissa deltagare sa att de märkte beteenden som inte någon utav agenterna har varit menade att utföra. Exempelvis beskrev en deltagare att LSTM agenten prioriterade fiender som deltagaren inte prioriterade. LSTM agenten var aldrig tränad till att göra det utan det var endast en ren slump. En annan deltagare beskrev att beteendeträdet gick närmare fiender när den hade kulsprutan som vapen för att träffa fiender bättre. Beteendet som deltagaren beskrev var inte implementerat vilket gör även den upplevelsen till en ren slump.

En deltagare påpekade att LSTM agenten började skjuta mot fiender innan de var synliga på skärmen och att detta avslöja den som en agent. Detta tyder på det som Livingstone (2006) talade om angående att agenter borde visa realistiskt förmågor för att behålla deras

trovärdighet. Frågeformulären i artefakten var till stor del inspirerade av Livingstones tabell och svaren från stuiden tyder på att beteendeträdet lyckas uppfylla dessa kriterierna bättre än LSTM agenten gjorde, som i sin tur leder till att beteendeträdet var både mer intressant att spela med och var mer trolig att uppfattas som mänsklig.

En deltagare påpekade att inga agenter utförde underförstådda mänskliga beteenden som ofta uppkommer i multiplayer spel, till exempel att försöka kommunicera utan tal. Detta försöktes implementeras i båda agenterna baserat på de underförstådda mänskliga

beteenden som Hadeld-Menell, Andrus och Hadled (2019) beskriver. Antagligen var det inte rätt beteenden som den deltagaren förvänta sig eftersom ingen annan deltagare påpekade detta.

Anledningen till att LSTM användes som modell för det neurala nätverket var på grund av dess funktion av att använda data från tidigare tidssteg för att göra beslut i nuvarande tidssteg. Med tanke på att majoriteten av deltagarna påstod att LSTM agenten inte kunde planera verkar det som att LSTMs egenskaper inte användes på förväntat sätt.

6.2 Diskussion

Studien försökte att undersöka mänskligt beteende hos olika typer av AI och att finna den typ som bäst kunde efterlikna mänskligt beteende. Specifikt var intresset mellan

handprogrammerad AI och neurala nätverk i fokus. Arbetet har också haft grunder i teorier om multiplayer spel, mänskliga AI och dessas effekt på nöje och intresse i spel. För att undersöka detta ställde studien frågorna

● Kan en följeslagare styrd av ett LSTM nätverk eller ett beteendeträd uppfattas som mänsklig i ett 2D top-down wave shooter spel?

● Om det går vilken metod är då bäst på att efterlikna mänskligt beteende? Studien besvarade dessa frågorna genom att skapa ett spel som innehöll två olika

implementationer av AI som deltagare spelade tillsammans med och sedan bedömde dess mänsklighet.

Det två implementationsmetoderna som användes var beteendeträd och LSTM nätverk för att se om designade agenter presterade bättre än agenter som tränat och lärt sig själv genom reinforcement learning. Beteendeträdets struktur baserades på en trädstruktur där

varje nod representerade ett beteende och genom att förflytta sig genom trädets noder kunna kombinera olika beteenden för att slutligen utföra ett komplext och intressant beteende. LSTM nätverket är en form av RNN som använder data från tidigare och nuvarande tidssteg för att bestämma utmattningsdata i nuvarande tidssteg och på det viset kontrollera en agent. På grund av skillnaden mellan implementations metoderna låg intresset i att se hur ett noggrant designat beteendeträd stod upp till ett tränat neuralt nätverk där utvecklarna inte hade direkt kontroll över dess beteende.

Svaret till frågan som studien ställde besvarades genom en undersökning där deltagarna spelade spelet med vardera agent i slumpmässig ordning. Deltagarna blev även tillsagda att en av agenterna var en mänsklig spelare men att de inte visste vilken för att eliminera partiskhet i deras svar.

Resultatet från undersökningen visade att implementationen av beteendeträdet var betydligt mer mänsklig i jämförelse med agenter som styrdes av LSTM nätverket oavsett ordningen deltagarna spelade med de olika agenterna. Även om deltagare ofta hittade beteenden hos beteendeträdet som de ansåg pekade på att den var en agent , ansåg de ändå att

beteendeträds agenten var en mänsklig spelare när den jämfördes med LSTM agenten. Majoriteten av deltagarna upplevde även att beteendeträdet var den variant som var roligast, mest intelligent, hjälpsam och den variant de trodde var en mänsklig spelare. Vissa personer genomskåda även lögnen om att en av agenterna var en mänsklig spelare och hade

misstankar om att båda var agenter. Det är möjligt att när en agent presenteras bredvid en sämre presenterande agent och de är informerade om att en av agenterna var en mänsklig spelare, var det lättare att få deltagarna att tro att den bättre presterande agenten var en riktig människa.

Implementationen av spelmiljön gjordes i spelmotorn Unity som sparade tid när det gick snabbt att skapa ett spelbart demo. Unity hade även stöd i form av ML-Agents för utveckling av LSTM nätverk som användes senare i utvecklingsprocessen då insikten gjordes att ett LSTM nätverk inte kunde implementeras från grunden inom den givna tidsramen. Valet av att använda Unity för arbetet medförde inga relevanta nackdelar då Unity var en resurs som gjorde det möjligt att utföra arbetet inom utsatt tidsram.

Från början var tanken att LSTM agenten skulle tränas primärt med beteendekloning, men genom arbetet blev det komplikationer med ML-Agents implementation av beteendekloning. Det var också tydligt att det inte fanns tid för att lösa problemet eller att implementera

beteendekloning på ett annat sätt. Istället tränades LSTM agenten enbart med reinforcement learning som gav ett användbart resultat. Resultatet blev inte lika intressant som om agenten tränat efter spel demonstrationer med beteendekloning, på grund av att agenten inte har ett riktigt exempel av mänskligt beteende att efterlikna. Problemen som uppstod kring

utvecklingen och träningen av LSTM agenten påverkade resultatet av hela studien. Det var uppenbart att LSTM ageten och beteendeträdets agent inte var på samma nivå vilket många deltagare påpekat i undersökningen. LSTM agenten hade antagligen behövt tränat längre eller med bättre inställningar som det inte fanns tid för att utforska inom den tidsram som var given. Med mer tid, bättre hårdvara samt mer inlärningsdata antas sannolikheten öka för att LSTM nätverket skulle finna ett beteende som efterliknar mänskligt beteende. Antagandet

baseras delvis på OpenAI Five som kunde spela mänskligt och även bättre än människor i spelet Dota 2 (Berner et al. 2019). Det är också möjligt att om valet gjorts till att använda ML-Agents direkt istället för att försöka implementera en egen version av LSTM hade gett mer tid till att träna ML-Agents versionen och därav gett ett bättre slutresultat.

Beteendträdet presterade bättre än LSTM i studien vilket reflekteras i svaren från deltagarna. Det beror till stor del på att det gick att bestämma dess beteende som medförde att det var enkelt att justera problem och ändra på aspekter som inte var eftertraktade, nått som inte gick att göra med LSTM. Däremot var beteendeträdet inte perfekt och skulle eventuellt behöva finslipas ytterligare för att efterlikna en människa. Några av de områden som borde justeras är dess rörelsemönster och valen kring hur den plockade upp resurser.

Beteendeträdet blev även implementerat först vilket gjorde att den fick mer utvecklingstid jämfört med LSTM som antagligen gjorde beteendeträdet bättre i slutändan.

Studien blev negativt påverkad av COVID-19 pandemin som pågick under testningen. Tanken var att utföra hela undersökningen i en lokal på högskolan i Skövde. Det var inte många deltagare som kunde delta fysiskt och därför blev det beslutet att utföra

undersökningen online via Discord (Discord Inc, 2015). Från början ansågs det att studien inte skulle bli lika trovärdigt som om den utfördes i person då trovärdigheten för att

deltagarna spelade med en annan person över internet sänktes. Det visade sig att deltagarna till stor del inte misstänkte något då endast två personer av tolv uttryckte misstankar kring att båda medspelare var agenter. Däremot var det ingen större chock när deltagarna fick veta att det var två agenter istället för en agent och en mänsklig spelare, vilket går att förklara med det som sagts tidigare i diskussionen.

Related documents