Affektiva skillnader i mänskligt komponerad- och procedurellt genererad affektiv musik: En studie om den generativa musikens potential

(1)

AFFEKTIVA SKILLNADER I MÄNSKLIGT KOMPONERAD- OCH PROCEDURELLT GENERERAD AFFEKTIV MUSIK

En studie om den generativa musikens potential.

AFFECTIVE DIFFERENCES IN HUMAN- COMPOSED ADAPTIVE MUSIC VERSUS PROCEDURALLY GENERATED

ADAPTIVE MUSIC

A study about the potential of generative music.

Examensarbete inom huvudområdet Medier, estetik och berättande

Grundnivå 30 högskolepoäng Vårtermin 2021

Johannes Carlsson, Erik Andersson Handledare: Markus Berntsson Examinator: Lars Bröndum

(2)

Sammanfattning

Många spel idag innehåller adaptiv musik, alltså musik som anpassas utefter spelmotoriska variabler. En nackdel med mänskligt skapad adaptiv musik är att den i grunden baseras på linjärt musikaliskt material som sedan anpassas till ett ickelinjärt format. Med algoritmiskt genererad adaptiv musik kan nytt musikaliskt material genereras i realtid utefter algoritmiska parametrar och regelsystem, vars fortsatta spridning kan innebära både funktionella, estetiska och samhälleliga implikationer. Denna studie behandlar affektiva skillnader i mänskligt skapad- och algoritmiskt genererad adaptiv musik. En spelartefakt skapades i Unity och sammanslöts med adaptiva musiksystem genom FMOD, och genom Max via OSC-protokoll, varefter en studie baserad på blandad metod genomfördes där 8 deltagare fick spela igenom spelartefakten i vilken deras upplevda affekt av de ovanstående adaptiva musikformerna jämfördes. Resultaten indikerade en preferens för den mänskligt skapade adaptiva musiken.

Framtida arbete bör fokusera på att utveckla den generativa musikens funktionalitet till förmån för områdets utveckling och utökade applikationsmöjligheter.

Nyckelord: Adaptiv musik, Generativ musik, Valens, Excitation, Affekt

(3)

Innehållsförteckning

1 Introduktion ... - 1 -

2 Bakgrund ... - 2 -

2.1 Adaptiv Musik ... - 3 -

2.2 Mänskligt Komponerad Adaptiv Musik ... - 4 -

2.2.1 Crossfading ... - 5 -

2.2.2 Horisontell Resekvensering ... - 5 -

2.2.3 Vertikal Orkestrering ... - 5 -

2.3 Procedurellt Genererad Adaptiv Musik ... - 6 -

2.3.1 Aleatorisk Musik ... - 7 -

2.3.2 Markovmodeller ... - 7 -

2.3.3 Generativ Musik ... - 8 -

2.4 Affektiva Modeller ... - 9 -

2.4.1 Valens och Excitation ... - 11 -

3 Problemformulering ... - 12 -

3.1 Metodbeskrivning ... - 13 -

3.1.1 Kvalitativa Data ... - 14 -

3.1.2 Kvantitativa Data ... - 14 -

3.1.3 Metodtriangulering ... - 15 -

3.1.4 Metoddiskussion ... - 16 -

4 Genomförande/Implementation ... - 18 -

4.1 Research/Förstudie ... - 18 -

4.1.1 Spelvärld ... - 18 -

4.1.2 Spelarkaraktär och Dygncykel ... - 18 -

4.1.3 C# & OSC ... - 18 -

4.1.4 Max ... - 19 -

4.2 Progression ... - 19 -

4.2.1 Spelvärlden i Unity ... - 19 -

4.2.2 C/OSC ... - 20 -

4.2.3 Generativ Musik i Max ... - 22 -

4.2.4 Mänskligt komponerad adaptiv musik ... - 27 -

4.2.5 Pilotstudie ... - 32 -

5 Utvärdering ... - 35 -

5.1 Presentation av undersökning ... - 35 -

5.2 Analys ... - 37 -

5.2.1 Kvalitativa data ... - 37 -

5.2.2 Kvantitativa data ... - 40 -

5.3 Slutsatser ... - 44 -

5.3.1 Metodtriangulering ... - 45 -

6 Avslutande Diskussion ... - 46 -

6.1 Sammanfattning ... - 46 -

6.2 Diskussion ... - 47 -

6.2.1 Studiens trovärdighet ... - 47 -

6.2.2 Samhälleliga och etiska aspekter ... - 49 -

6.3 Framtida arbete ... - 51 -

(4)

7 Referenser ... - 53 -

(5)

- 1 -

1 Introduktion

Adaptiv musik anses inom vetenskaplig litteratur definieras som musik som följer spelmotoriska variabler och anpassar sig utefter dessa (Plut & Pasquier 2020).

Studier visar att användandet av adaptiv musik förbättrar vissa aspekter av den kontextuella spelupplevelsen (Gasselseder 2014; Plut & Pasquier 2019; Hutchings & McCormack 2020).

Då adaptiv musik ofta utgår från mänskligt komponerad musik, genereras i stället musik utifrån algoritmiska och/eller aleatoriska parametrar i generativ musikkomposition. I en datorspelsmiljö kan det dock diskuteras huruvida all musik kan anses vara generativ. Detta eftersom varje spelare interagerar med spelmotorn på olika sätt och därmed genereras annorlunda musikaliskt material vid varje speltillfälle.

I tidigare forskning har informationsteknologiska komponenter i kombination med musikteoretiska principer studerats och resultaten indikerar att generativ och adaptiv musik har en påverkan på spelupplevelsen, vilket diskuteras i kapitel 2.1 och 2.3. Vi ser en potentiell utveckling av hantverket musikkomposition för datorspel och avser därför att ytterligare studera eventuella upplevda affektiva skillnader mellan mänskligt komponerad musik och genererad musik.

Ett spel av enklare typ konstruerades och implementerades med tre olika musikvariationer – ingen musik, mänskligt komponerad adaptiv musik och adaptivt genererad musik.

Mätinstrumenten för affektiv utvärdering bestod av intervju för kvalitativa data och kvantitativa data i form av likertskalor samt en cirkulär modell för affekt.

(6)

- 2 -

2 Bakgrund

Detta arbete vilar på ett stort antal tidigare ljud- och spelrelaterade informationsteknologiska framsteg. Den generativa musiken har sitt ursprung i MUSIC, utvecklat av Max Mathews (Mathews, 1957), som var det första datorprogrammet och programmeringsmiljön som genererade digitala ljudvågor genom digital direktsyntes (Wang, 2008). Programmet och dess uppföljare togs i bruk av akademiker och vetenskapsmän i stor skala och har haft en betydande inverkan för utvecklingen av programmeringsspråk och andra system (Wang, 2008). En senare version av programmet, MUSIC 3, gav upphov till så kallade “Unit Generators”. En enhetsgenerator är ett slags modulärt byggblock som genererar, filtrerar eller processar ljudsignaler (Wang, 2008) (Dean, 2009). De kan kombineras med varandra för att modifiera den utgående signalen (Serra, 1997). På bakgrund av MUSIC 4 utvecklades CSound (Boulanger, 2016). CSound utvecklades av Barry Vercoe (Vercoe, 1985) och är idag en av de mest populära ljudprogrammeringsmiljöerna med över 1700 enhetsgeneratorer (Wang, 2008). Programmet Max (Cycling 74 2020), som härstammar från MUSIC 5 och som är döpt efter Max Mathews är idag en populär visuell ljudprogrammeringsmiljö (Wang, 2008). Som en del av vår studie använde vi OSC (Open Sound Control), som är ett protokoll för kommunikation mellan datorer, syntar och digital media där strömmar av kontrollmeddelanden används för att styra audiorelaterad data (Schmeder, Freed & Wessel 2010; Wright, Freed & Momeni 2003).

I samband med Max användes även en spelmotor till förmån för studiens genomförande. Det var först på 90-talet som spelmotorer blev vanligt förekommande och innan dess fick spelutvecklare vanligtvis skapa sina spel från grunden utan det ramverk och den effektivitet som en spelmotor kan erbjuda (Andrade, 2015). Unity (Unity, 2019) är en spelmotor som introducerades först under Worldwide Developer’s Conference år 2005 och har haft en stor påverkan på spelindustrin (Andrade, 2015). Unity användes i denna studie i samband med Max sammanlänkat med OSC-protokoll. Den generativa musiken genererades i max i realtid baserat på spelvariabler i Unity och musiken anpassades därefter via OSC-protokollet som en kommunikativ länk mellan de två programmen.

I nedanstående del behandlas olika begrepp, terminologier och tidigare forskning som är till relevans för detta arbete. Ett återkommande tema häri beträffar urskiljningen mellan olika typer av adaptiv musik.

(7)

- 3 -

2.1 Adaptiv Musik

Plut & Pasquier (2020) beskriver adaptiv musik på följande sätt:

Adaptive music directly connects musical features to game variables. These features can include adding or removing instrumental layers, changing the tempo, adding or removing processing, changing the pitch content, etc.

(Plut & Pasquier 2020, s 2) Plut & Pasquier menar att denna metod inbegriper användandet av linjär musik som utgångspunkt och att musikaliska detaljer sedermera förändras beroende på spelets rådande situation. Programvara finns tillhands som agerar så kallad middleware och fungerar som en länk mellan spelprogrammet och musikprogrammet. Ett exempel på ett sådant program är FMOD Studio (Fireflight Technologies, 2020). Plut & Pasquier finner i en tidigare studie (Plut

& Pasquier 2019), stöd för att denna metod för musikimplementation har en signifikant inverkan på spelares upplevda affekt. De fann även stöd för att spelarna var medvetna om att musiken var adaptiv och att detta ökade upplevelsen av att spela ett spel. Denna information framkom efter att 30 testdeltagare fått spela ett spel med fyra olika situationer där den musikaliska intensiteten utgör den oberoende variabeln, och testdeltagarens affektiva respons utgör den beroende variabeln. Efter varje spelsituation instruerades testdeltagaren svara på 13 frågor som syftade till att samla in kvantitativa data samt två frågor av kvalitativ typ (Plut

& Pasquier 2019). Författaren Winifred Phillips (2014, s. 187) använder begreppet ”interaktiv musik” i stället för adaptiv- och dynamisk musik. Sporka & Valta (2017) belyser en, enligt forskarna, utmärkande egenskap för adaptiv musik – nämligen att musikmaterialets övergångar är en karaktäristisk egenskap i denna metod för musikimplementering.

En annan studie (Gasselseder 2014) som genomförts visar på att musik som i realtid anpassas efter spelets stadie förhöjer spelupplevelsen i vissa aspekter (se tabell 1). Undersökningen avsåg studera upplevda skillnader i imaginary & sensory immersion, suspension of disbelief, flow, self location och possible actions. I kategorierna imaginary & sensory immersion och suspension of disbelief uppvisades signifikant skillnad mellan dynamisk och icke-dynamisk musik.

I studien medverkade 60 deltagare i ett åldersspann på 18–30 år. Dessa personer fick spela spelet Batman: Arkham City (2011) i ett randomiserat tillstånd beståendes av antingen icke- dynamisk musik med hög arousal-potential, icke-dynamisk musik med låg arousal-potential eller dynamisk musik. Detta pågick i 10 minuter och efteråt besvarades ett frågeformulär om den egna upplevelsen (Gasselseder 2014).

(8)

- 4 -

Tabell 1. Resultattabell över studie genomförd med dynamisk musik, icke-dynamisk musik med hög- respektive låg arousal-potential (Gasselseder 2014).

Music Condition Dynamic Non-Dynamic

low AP Non-dynamic high

Imaginary & Sensory

AP

Immersion (iGEQ) 2.23 1.87 1.90

Mean (sd) 3.59(.83) 3.22 (.86) 3.18 (.88) Median (iQ) 3.50(1.37) 3.50 (1.50) 3.50 (1.50) Suspension of Disbelief (MEC-

SPQ) 2.23 (*) 1.89 1.88

Mean (sd) 4.12(.71) 3.79(.82) 3.86(0.90) Median (iQ) 4.00(1.25) 3.75(1.25) 4.0(1.25)

Flow (iGEQ) 1.88 2.23 * 1.88

Mean (sd) 3.23(.98) 3.58(.83) 3.22(.91) Median (iQ) 3.25(1.50) 3.50(1.00) 3.50(1.50)

Self Location (MEC-SPQ) 0.90 0.90 0.90

Mean (sd) 2.48(1.07) 2.45(1.03) 2.53(1.07) Median (iQ) 2.25(1.63) 2.25(1.75) 2.38(1.69) Possible Actions (MEC-SPQ) _1.96 _1.83 _{2.21 (*)}

Mean (sd) 3.30(.79) 3.15(.87) 3.58(.83) Median (iQ) 3.50(1.25) 3.25(1.00) 3.75(1.25)

2.2 Mänskligt Komponerad Adaptiv Musik

Sporka & Valta (2017) skapade ett avancerat adaptivt musiksystem i utvecklandet av spelet Kingdom Come: Deliverance (Warhorse Studios 2018). Författarna beskriver adaptiv musik som ickelinjärt musikaliskt material som anpassas utefter spelhändelser/spelsituationer (s.1) och en central målsättning i deras arbete var att den adaptiva musiken inte fick låta onaturlig, det vill säga att musiken skulle framföras i likhet med hur en riktig orkester också skulle kunna ha framfört den (Sporka & Valta, 2017, s. 230). För att genomföra detta utvecklade de ett adaptivt musiksystem vid namn “Sequence Music Engine” (s. 230) med vilken två typer av övergångar implementerades: Sömlösa övergångar och cymbalbaserade övergångar. (s. 230) De sömlösa övergångarna knyter samman stycken via en samling av intros och outros som melodiskt, rytmiskt och harmoniskt samverkar och på så vis väver samman en holistisk musikalisk helhet. Denna typ av övergång kan dock ta lite längre tid, och vid behov av snabba övergångar som erfordras vid stridsmoment används istället cymbalbaserade övergångar. I denna typ av övergång avbryts musiken via en fade-out samtidigt som en trumvirvel ökar i intensitet och till slut kulminerar i ett cymbalslag vid vilket stridsmusiken inleds. Denna typ av övergång kan inledas snabbare eftersom den tidigare musiken kan avbrytas mer eller mindre ögonblickligen. Detta skiljer sig från fallet med den så kallade sömlösa övergången där

(9)

- 5 -

musiken endast kan övergå i ett så kallat outro vid vissa bestämda intervall där kompositören har möjliggjort för en sådan övergång (Sporka & Valta 2017). Inom området mänskligt komponerad adaptiv musik finns det ett antal olika tekniker i implementation av musik anpassat till ett adaptivt format. Härefter presenteras tre vanliga metoder som används i detta syfte.

2.2.1 Crossfading

Crossfading är den minst komplicerade av dessa tekniker och beskrivs av Sporka & Valta (2017) som en musikalisk övergångsteknik där ett musikspår gradvis avtar i volym samtidigt som ett annat musikspår introduceras genom en ökning i volym. Författarna menar att detta kan vara lämpligt för ambient musik som inte har någon urskiljbar puls eller diskreta harmoniska strukturer då dessa egenskaper kan störas av denna typ av obearbetad övergång (Sporka & Valta 2017, s. 230, 237). Detta överensstämmer med resultaten från en studie som undersökte bland annat huruvida algoritmiskt genererade musikaliska övergångar mellan musik av olika nivåer av spänning eller stress ansågs vara ‘mjukare’ än crossfades genom genererad musik med låg respektive hög stressnivå. Resultaten visade att det förstnämnda ansågs vara en mjukare övergång, sannolikt på grund av de rytmiska och harmoniska dissonanser som uppstod vid crossfade-övergången vilka bidrog till den upplevda nivån av spänning (Prechtl 2016, s. 96). Även Phillips (2014, s. 176) menar att crossfades är användbart när en mer abstrakt musikalisk textur ska exempelvis spelas som loop.

2.2.2 Horisontell Resekvensering

Med denna metod används musikaliska fragment för att skapa övergångar mellan olika musikmaterial för att bilda en musikalisk kontinuitet och på så vis undvika abrupta eller märkbara växlingar av musikspår (Phillips 2014, s. 188–192). Det är denna metod som Sporka

& Valta har valt att använda sig av i sitt ovannämnda arbete (Sporka & Valta, 2017).

2.2.3 Vertikal Orkestrering

Liksom med horisontell sekvensering är syftet med vertikal orkestrering att kunna anpassa musiken utefter vad som händer i ett spel. Skillnaden i detta fall är att i stället för att använda musikaliska fragment för att forma en övergång mellan olika musikspår, så staplas olika musikspår på varandra så att de kan spela antingen tillsammans, separat, eller i olika kombinationer (Phillips, 2014, s. 194). Med denna metod kan musikskaparen till exempel variera graden av intensitet genom att endast låta en sektion spela, så som stråkar, eller låta hela orkestern spela för maximal intensitet.

(10)

- 6 -

2.3 Procedurellt Genererad Adaptiv Musik

Algori’tm, inom matematik och databehandling en systematisk procedur som i ett ändligt antal steg anger hur man utför en beräkning eller löser ett givet problem.

(Nationalencyklopedin u.å.) Alvaro E. Lopez Duarte (2020), doktorand i digital komposition vid University of California, utforskar konceptet algoritmiskt generativ musik i sin artikel i tidskriften SoundEffects (Duarte 2020) och förklarar att i stort sett varje generativ process startar med en algoritmisk nummergenerator, även kallad pseudo-random-number-generator (PRNG). Han förklarar att dessa algoritmer startas med ett så kallat seed-värde (se fig. 1). Detta värde har en förmåga att återkalla en sekvens som tidigare genererats och kan därför återkalla till exempel en musikalisk figur och därmed skapa en känsla av musikalisk enhetlighet (se fig. 1). Duarte gör till skillnad från Plut & Pasquier (2020) en distinktion mellan generativ och algoritmisk musik och menar att dessa dock kan kombineras för att skapa en estetisk form (Duarte 2020). Brian Eno (Eno 1976, s. 443) använder sig av Stafford Beers definition av begreppet från boken Brain of the Firm där Beer förklarar att termen innebär en omfattande serie av instruktioner för att nå ett känt mål.

Kompositören/programmeraren kan välja att se musikalisk information som siffror och kan på så vis programmera algoritmer för att påverka den musikaliska utkomsten. Kompositören kan välja att påverka det musikaliska flödet genom att begränsa exempelvis tonhöjd, rytm, intensitet och så vidare och på så sätt uppnå en estetisk stil (Duarte 2020).

C C

°

^C#

Tid Miljö 1 Miljö 2

Figur 1. Seed-värdet återkallas för att starta om den slumpmässiga harmoniska sekvensen över tid. På så sätt kan musikalisk enhetlighet uppnås. (Duarte 2020)

(11)

- 7 -

2.3.1 Aleatorisk Musik

Aleatorisk musik, slumpmusik, musikverk med mer eller mindre slumpmässigt styrda valmöjligheter vid komponerandet och/eller framförandet.

(Nationalencyklopedin u.å.)

Jeongwon & Song Hoo (2002) beskriver aleatorisk musik som slumpens musik, och menar att det är en metod för kompositörer att infoga element av slump och chans i ett musikstycke.

Denna metod användes redan av Wolfgang Amadeus Mozart då han skapade sitt så kallade Musikalisches Würfelspiel (1792) (musikaliskt tärningsspel, svensk översättning), där spelaren kastade tärning om vilket musikstycke som skulle spelas. Spelet kan även anses vara generativ musik eftersom spelet utgörs av ett antal komponerade musikaliska sektioner som slumpas fram (Plut & Pasquier 2020), men särskilt aleatoriskt eftersom tärningarna avgör verkets progression. Även Phillips (2014, s. 30) belyser kopplingen mellan aleatorisk musik och generativ musik och menar dessutom att speltillverkare har utvecklat den aleatoriska modellen in i den generativa, för att på så sätt göra datorspelet som sådant till en sorts musikalisk artist eller dirigent där spelets tillstånd vid ett givet tillfälle instruerar musikmotorn hur den skall bete sig.

2.3.2 Markovmodeller

En Markovmodell är en slags stokastisk modell av ett systems övergångstillstånd (Prechtl, 2016, s. 22) och dess övergångsmatris beskriver sannolikheten i hur de olika tillstånden kan övergå i varandra. Detta kan användas till exempel i designen av olika användargränssnitt för att avgöra hur sannolikt olika användarinteraktioner är baserat på det nuvarande tillståndet och hur man kan öka sannolikheten hos vissa interaktioner i syftet att till exempel sälja en produkt. Inom designen av algoritmiska adaptiva musiksystem används Markovkedjor ofta för att generera ackordsekvenser utifrån olika grader av sannolikhet. Inom västerländsk musik övergår vanligtvis dominanten i ett ackord till tonikan, men det kan också övergå till exempelvis en subdominant. I detta fall kanske man väljer att införa sannolikheten 80/20, d.v.s. det finns en 80% chans att dominanten övergår till en tonika och 20% chans att det istället övergår till en subdominant. Duarte (2020) specificerar att Markovmodellen av diskret typ är en välanvänd metod inom musikautomation. Författaren menar att så kallade high- order Markovmodeller används för att beräkna mer än ett steg eller övergång.

(12)

- 8 -

2.3.3 Generativ Musik

Generativ, som utifrån vissa grundförutsättningar alstrar något (särskilt i vetenskapliga sammanhang): -a system

(Nationalencyklopedin u.å.)

Generativ musik är ofta baserad på enkla algoritmer men som leder till komplexa emergenta resultat (Sporka & Valta 2017, s. 232). Phillips menar att obestämbarhet är en filosofisk kärnkomponent i generativ musik. Collins (2009) definierar procedurell musik som följande:

I define procedural music as composition that evolves in real time according to a specific set of rules or control logics. As shown, this can take the

form of generative composition or transformational composition, the line between which can be somewhat indistinct.

(Collins 2009)

Plans & Morelli (2012) utvecklar resonemanget och menar att ljud-och musikdata skulle kunna lagras i form av kod och syntetiseras enbart när ljud-och musikdata behövs i spelet och därmed spara in på systemprestanda. Plut & Pasquier (2020) väljer att gruppera procedurell musik, musikalisk metakreation och algoritmisk musik i samma kategori vilken författarna kallar just “generativ” musik. Plut & Pasquier definierar generativ musik på följande vis:

...generative music - addresses the creation of musical content itself. [...]

Generative music is music that is created via systemic automation, and is sometimes called procedural music, musical metacreation,

or algorithmic music.

(Plut & Pasquier 2020, s. 2)

Plut & Pasquier refererar även till Yannakis & Togelius bok Artificial Intelligence and Games och Karen Collins bok An Introduction to Procedural Music in Video Games och menar att det råder en debatt kring huruvida all spelmusik skulle kunna anses vara generativ. Detta eftersom spel är interaktiva och varje spelare får en unik upplevelse genom att spelarens kontroller över spelet i viss mån kan anses vara variabler som alstrar något -i detta fall en ljud- och musikmotor. Karen Collins definierar procedurell musik som en musikalisk entitet vilken utvecklas i realtid enligt specifika regler eller styrlogik. Denna process kan resultera i en generativ komposition (Collins 2009). Anthony Prechtl ställer forskningsfrågan hur musik automatiskt kan genereras på ett sätt så att musiken återspeglar spelarens progression genom en spelberättelse (Prechtl 2016). Prechtl problematiserar genom sin vetenskapliga utgångspunkt:

(13)

- 9 -

Whereas existing game music systems use audio mixing techniques to adapt li near, pre-recorded music to a non-linear environment,

the proposed approach instead involves the use of a nonlinear music system.

(Prechtl 2016, s. 4)

Det kan diskuteras kring huruvida all musik i spel kan anses vara procedurellt genererad vilket författaren Karen Collins gör:

In a sense, it could be argued that all game soundtracks are procedural, in that the sonic elements that make up a game’s overall audio soundscape (consisting of music, ambience, dialogue, sound effects and interface sounds- what I refer to collectively as audio) evolve in real time according to a

series of rules set out in the game’s software engine.

(Collins 2009)

2.4 Affektiva Modeller

PAD (pleasure, arousal, dominance)-modellen (se fig. 2) innehåller en visuell struktur över upplevda känslor i tre oberoende dimensioner, skriver Bran & Vaidis (2020) och refererar till Mehrabians & Russels bok An Approach to Environmental Psychology. Denna modell syftar till att förstå olika känslostadier och används ofta för att studera hur yttre stimuli påverkar en person på olika känslomässiga plan av till exempel bilder, musik eller ljud. Med pleasure menas den generella känslan av upplevda positiva eller negativa känslor. Arousal visualiserar den upplevda känslan av vakenhet och huruvida personen känner sig alert eller ej.

Dominance-dimensionen återspeglar personens upplevda makt över situationen och om personen uppfattar sig ha makt över situationen eller känner sig styrd.

(14)

- 10 -

Figur 2. PAD-modell baserad på Russells och Mehrabians (1977) princip om tredimensionell affektiv modell.

Modellen kan även anpassas beroende på i vilket forskningsfält den avser belysa information vilket forskarna Plut & Pasquier (2019) gjort, där de tre axlarna i stället fått namnen arousal, tension och valence (se fig. 2b).

Figur 2b. Affektiv modell med arousal, tension och valence över de tre axlarna. (Plut & Pasquier 2019).

(15)

- 11 -

James A. Russell (1980) presenterar en spatial tvådimensionell modell där affektiva värden kan placeras över ett koordinatsystem där 8 variabler placeras i en kompasslik cirkel (se fig.

3). Den horisontella axeln representerar i detta fall misery-pleasure och den vertikala representerar sleepiness-arousal. De övriga variablerna representerar inga egna axlar, utan faller i stället emellan horisontal- och vertikalplanet för att ytterligare definiera modellens mellanliggande zoner.

Figur 3. Russells (1980) cirkulära modell för att illustrera affekt med de åtta variablerna utplacerade för att definiera modellens yta.

2.4.1 Valens och Excitation

Valens beskriver hur positiv eller negativ en viss känsla är medan excitation (“arousal”) syftar på känslans intensitet (Citron, Francesca M. M. et al., 2014). Härnedan exemplifieras detta med fyra exempel av kontrasterande karaktär:

Hög valens, låg excitation: Lugn, tillfredsställd, belåten, seren.

Låg valens, låg excitation: Deprimerad, uttråkad, ledsen.

Hög valens, hög excitation: Euforisk, upphetsad, stormförtjust.

Låg valens, hög excitation: Arg, frustrerad, rädd, desperat, förtvivlad.

(16)

- 12 -

3 Problemformulering

Mycket av tidigare forskning kring adaptiv och generativ musik kan i närmast ses som en fusion av musikteoretiska och informationsteknologiska delområden. Ett starkt fokus har legat på sammanslagningen av musikteoretiska beståndsdelar såsom harmoni och rytm ihop med informationsteknologiska tekniker, verktyg och koncept såsom markovkedjor, neurala nätverk och evolutionära algoritmer i syfte att skapa sofistikerade adaptiva musiksystem vars musik genereras inom de vanligtvis klassiska musikteoretiska ramverk som ligger till grund för algoritmerna. Till exempel, Prechtl undersöker hur algoritmiskt genererad musik i kombination med olika grader av konsonanta/dissonanta musikaliska harmonier kan generera en nivå av spänning som dynamiskt motsvarar nivån av spänning i en förekommande spelsituation (Prechtl, 2016). I likhet med detta undersöker Plut & Pasquier i stället hur mänskligt komponerad adaptiv musik kan användas för att stärka ett spels upplevda spänning (Plut & Pasquier, 2019). Att överlåta en del av kompositionsprocessen till digitala algoritmer kan innebära att musik som hantverk utvecklas och att nya estetiska grenar kan uppstå. I denna studie har den generativa adaptiva musikens förmåga att väcka känslor hos lyssnaren jämförts med mänskligt komponerad adaptiv musik undersökts med följande frågeställning:

Vilka affektiva skillnader förekommer i mänskligt komponerad- och procedurellt genererad adaptiv musik, om dessa har som syfte att skildra samma affektiva kvaliteter?

Vad som skulle mätas var den känslomässiga påverkan hos lyssnaren (oberoende variabel) beroende på typen av musik som förekom (beroende variabel) där typen av musik i detta fall syftar till mänskligt komponerad- respektive procedurellt genererad adaptiv musik. Detta är en viktig fråga eftersom om den generativa musiken demonstreras vara emotionellt effektiv i förhållande till den mänskligt komponerade musiken så kan det potentiellt ha en positiv inverkan på den generativa musikens fortsatta utveckling och framtida användande inom datorspel. I denna undersökning utnyttjades en etablerad affektiv modell för att kartlägga testdeltagarnas självrapporterade emotionella respons i de två testsammanhangen. Tidigare studier inom generativ musik har i många fall fokuserat på framför allt på musikteoretiska koncept såsom manipulation av harmoniskt material för att åstadkomma olika affektiva tillstånd. Till exempel, Prechtl (2016) skapade ett generativt musiksystem med parametrar tillägnade olika musikteoretiska element såsom harmoni och tempo vars värden manipulerades för att undersöka dess affektiva påverkan (Prechtl 2016). I en annan liknande studie undersökte Plut & Pasquier hur just harmoniska förändringar bidrog till en viss affektiv påverkan (Plut & Pasquier 2019). I denna studie ligger fokus framför allt på den generativa adaptiva musikens potential i jämförelse med mänskligt komponerad adaptiv musik.

(17)

- 13 -

3.1 Metodbeskrivning

Denna undersökning kan delas in i tre centrala beståndsdelar vilka redogörs för härnedan:

Den mänskligt komponerade adaptiva musiken:

I den mänskligt komponerade adaptiva musiken användes mellanvaran FMOD (Fireflight Technologies 2020) för att implementera mänskligt skapad adaptiv musik. Kompositören hade konstnärlig frihet i sitt skapande men behövde förhålla sig till vissa begränsningar såsom genre, val av instrument, och vissa musikteoretiska parametrar för att resultatet rimligen skulle gå att jämföra med den procedurellt genererade adaptiva musiken. Musiken innefattade aleatoriska element såsom slumpvist framförda musikaliska ornament, slumpvist framförda vertikala orkestreringar eller slumpvist vald horisontell sekvensering. Detta uppnåddes genom att använda programmet FMODs inbyggda funktioner.

Den procedurellt genererade adaptiva musiken:

Den procedurellt genererade adaptiva musiken (härefter kallad generativ musik) utnyttjade markovkedjor för att slumpa fram diverse ackordövergångar och tonserier baserade på stokastiska värden som angavs i tillhörande parametrar. Den generativa musiken reagerade på spelhändelser enligt samma spelvariabler som den mänskligt komponerade adaptiva musiken och avsikten var att de båda skulle skildra spelet enligt samma affektiva karaktär.

Detta kunde i teorin åstadkommas genom att utnyttja vissa ackord med affektiva egenskaper i enlighet med etablerad forskning kring harmoni och affekt. Till exempel, Smit, E. A. et al kom fram till att olika harmoniska kadenser kan ha en betydande inverkan för dess upplevda valens och excitation (Smit, E. A. et al, 2020). Ljudprogrammeringsmiljön Max användes för att skapa detta generativa musiksystem och var således en viktig komponent i denna studie.

Dess rika funktionsomfång, användarvänliga visuella programmeringsmiljö samt vår tidigare erfarenhet med programmet gjorde det lämpligt för denna studie. Däribland var dess stöd för VST-instrument en viktig sådan funktion eftersom det då gick att arbeta med fler musikaliska texturer i den generativa musiken.

Den affektiva modellen med vilken ovanstående jämförs.

För att jämföra den mänskligt komponerade adaptiva musiken med den algoritmiskt genererade adaptiva musiken användes Russells (1980) cirkulära modell för att rapportera och illustrera upplevd affekt (se fig. 3). Modellen var integrerad som en del av undersökningen och de tillhörande frågeformulären. Metoden som valdes för undersökningen utgick från principen om blandad metod vilket innebar att insamling av både kvantitativa och kvalitativa data förekom. För att uppnå detta intervjuades testdeltagarna för kvalitativa data och fick fylla i ett formulär beståendes av likertskalor för kvantitativa data. Ett spel av enklare typ

(18)

- 14 -

konstruerades i två versioner – en variant med mänskligt komponerad adaptiv musik och en annan med generativ musik samt en körbar fil helt utan musik. Syftet med den sistnämnda var att göra deltagarna bekanta med spelets mekanik och visuella element och undvika att orelaterade variabler påverkade resultatet.

3.1.1 Kvalitativa Data

Kvalitativa data samlades in genom en intervju efter att alla testcyklerna genomförts. Frågor besvarades kring spelarens upplevda känslor genom testcyklerna. Spelaren spelade först en testversion utan musik för att bekanta sig med spelet och för att undvika det ”första intrycket”

som en störande variabel varefter nästkommande spelversion alterneras mellan de två alternativen, det vill säga den generativa respektive mänskligt skapade musiken. Deltagare nr.

1, 3, 5 och 7 fick börja med den mänskligt skapade musiken medan nr. 2, 4, 6 och 8 fick börja med den generativt skapade musiken. Deltagarna fick innan testet inte veta vilken sorts musik som skulle komma i vilken ordning eller ens vad som tekniskt skiljde musikstyckena åt.

Intervjumetoden som valdes var den semi-strukturerade intervjuformen. I intervjuns första fråga (fråga 0) fick deltagaren berätta valfri information om sin bakgrund. Detta i syfte att få deltagaren att känna sig bekväm inför de nästkommande frågorna, vilket enligt Denscombe (2010, s. 185) är lämpligt för intervju som metod.

Intervjun genomfördes i samma lokal som där testcyklerna genomfördes med båda upphovsmännen till studien och deltagaren närvarade. Innan inspelningen av intervjuerna startades, ställdes frågan till deltagaren om denne godkände att intervjun spelades in.

Exemplen på frågor som ställdes efter testcyklerna:

- Upplevde du någon skillnad mellan de olika situationerna?

- Hur skulle du beskriva musiken under de olika testsituationerna?

- Hur tyckte du att musiken påverkade dig?

3.1.2 Kvantitativa Data

Efter genomförd intervju instruerades deltagaren att fylla i ett frågeformulär beståendes av likertskalor. Formuläret syftade till att samla in kvantitativa data efter principerna om ordinal data (Denscombe 2010, s. 243) där deltagaren instruerades att markera sitt svar på en så kallad likertskala (se fig. 4). Ett exempel i detta fall är ”Testcykel 1 var mer underhållande än testcykel 2” där deltagaren ombads markera sitt svar på skalan från ’instämmer till fullo’ eller

’håller inte alls med’. Varje svar innehöll en gradering från värde 1 till 5, vilka sedermera användes till att summera samtliga deltagares svar och presentera den samlade informationen i studiens senare delar.

(19)

- 15 -

Figur 4. Exempel på likertskalor från studien där deltagaren markerade sitt svar till olika påståenden.

Efter varje genomförd testcykel med en av de två musikkonfigurationerna presenterades deltagaren med Russells cirkulära modell för affekt (se fig. 3). Där instruerades deltagaren att placera sin upplevda affekt på valfri plats inom koordinatsystemet. Eftersom modellen innehöll engelska begrepp, förklarades för varje deltagare innebörden av de olika orden som redan fanns placerade i modellen. Detta i syfte att likforma varje deltagares uppfattning och tolkning av dessa engelska ord och på så sätt öka metodens precision. Efter att samtliga deltagare genomfört studien summerades dessa markeringar på modellerna till samlade modellillustrationer.

3.1.3 Metodtriangulering

Genom att både kvalitativ- och kvantitativ datainsamling användes, faller denna undersökning inom ramverket för principen om blandad metod (Denscombe 2010, s. 138 – 140). Detta gjorde det möjligt att använda så kallad metodtriangulering där insamlad information från både kvalitativ och kvantitativ metod kunde kontrasteras och nyanseras med varandra (Denscombe 2010, s. 346–347), i syfte att få en djupare insikt i informationen som insamlats.

(20)

- 16 -

3.1.4 Metoddiskussion

Den metodologiska tyngdpunkten i denna studie låg på den kvalitativa metoden och information som samlats in genom denna. Detta eftersom denna metodprincip lämpar sig bättre för studier av upplevelser, känslor och affekt. Den kvalitativa metoden ger också möjlighet till mer nyanserad information genom exempelvis användandet av öppna frågeställningar, vilket anses gynnsamt för studiens syfte. Den kvantitativa metoden i studien riktades mot likertskalor (se. fig. 4) för att kunna metodtriangulera insamlad information i syfte att ytterligare öka studiens kvalitet. Det kan diskuteras huruvida en studie av denna typ enbart borde inkludera kvalitativa data med tanke på dess utformning och syfte att undersöka affektuella skillnader. Dock valdes att inkludera principen för ordinal datainsamling i syfte att ytterligare nyansera och få möjlighet att diskutera informationen i studiens senare kapitel.

Blandad metod (Denscombe 2010, s. 138–140) ansågs i detta fall lämpligt eftersom de båda typerna av datainsamling har sina för- och nackdelar och kan i kombination kompensera för varandras respektive nackdelar. Den kvantitativa datans fördel med exempelvis dess tydliga presentationsmetoder där tabeller och diagram effektivt kan kommuniceras balanseras med dess nackdelar i att den riskerar bli för teknisk (Denscombe 2010, s. 269). Det vill säga att studiens djupare frågeställningar, i detta fall upplevda affektuella skillnader, kan komma att hamna i skymundan

Nackdelen med intervju som huvudsaklig metod är bland annat den så kallade interviewer effect (Denscombe 2010, s. 178–180). Det har genom studier visat sig att den intervjuade påverkas av personen som ställer frågorna och hur den intervjuade uppfattar frågeställaren.

De olika nivåerna av utbildning, social status och kön kan vara påverkande faktorer, vilka bör beaktas av studiens upphovsmän. Intervjuaren bör även vara uppmärksam på att ej leda in den intervjuade i svar och formuleringar, utan att i stället låta den intervjuade formulera i egna ord och kanske ombedjas att i stället förtydliga eller utveckla svar, om så önskas. Detta kan balanseras av metodens fördelar vilka bland annat är att metoden ger möjlighet att samla in en rikare och mer detaljerad information än kvantitativ metod (Denscombe 2010, s. 304).

Dessutom kan triangulering av insamlad information utföras för att på så sätt skapa en bredare och mer nyanserad bild av insamlade data. Den tredimensionella PAD-modellen (se fig. 2) övervägdes, men i stället valdes Russells (1980) (se fig. 3) cirkulära modell för affekt.

Detta eftersom Russels affektiva modell tillfredsställer undersökningens omfång och dess frågeställningar. Kontroll av variabler såsom dominance eller stress blir överflödigt med hänsyn till studiens frågeställning och medför i detta fall endast onödig komplexitet.

(21)

- 17 -

Målet vad gäller antalet deltagare var ca 10 personer. Ur ett kvantitativt perspektiv hade det för studien varit gynnsamt med ett högre antal, men eftersom tyngdpunkten låg på den kvalitativa metoden ansågs antalet vara tillräckligt. Ambitionen var att deltagargruppen skulle innefatta en så bred blandning som möjligt vad gäller kön och ålder. Detta i syfte att insamla så bred mängd information som möjligt. Det kan dock vara studien till last med ett för brett åldersspann eftersom eventuella generationsskillnader skulle kunna infoga en oönskad störande variabel till studien. Den slutliga gruppen landade dock på 6 män och 2 kvinnor i ett åldersspann mellan 20–45 år.

Inför varje test med respektive deltagare blev de informerade om att de under vilket tillfälle som helst kunde avbryta sin medverkan. Samtliga deltagare informerades dessutom om studiens datasekretess. Detta innebär att insamlad information inte blir tillgänglig för allmänheten och att deltagarnas namn inte offentliggörs, i enlighet med Denscombes anvisningar för god forskningssed (Denscombe 2010, s. 332).

(22)

- 18 -

4 Genomförande/Implementation

4.1 Research/Förstudie

I genomförandet av detta projekt ingick det flera större moment av informationssökning och inlärning. Detta eftersom detta arbete innehåller ett antal samspelande komponenter som var och en i sin enskildhet är komplexa. Härnedan följer en redogörelse av projektets olika moment och tillhörande efterforskning:

4.1.1 Spelvärld

Den första etappen i skapandet av artefakten låg i att konstruera en spelvärld i vilken variabler introducerades som den generativa- och mänskligt skapade musiken kunde förhållas till. För att kunna genomföra detta användes en youtubevideo som informationskälla med vilken instruktioner kring Unitys miljöverktyg tillhandhölls (Uguruz, 2020). Med denna kunskap kunde spelvärldens geometri utformas som sedan utsmyckades med diverse spelobjekt och texturer.

4.1.2 Spelarkaraktär och Dygncykel

Tilläggspaket från Unity Asset Store utnyttjades i skapandet av spelkaraktären och spelets dygncykel och vädersystem. I detta fall användes tilläggspaketen Character Movement Fundamentals (Ott, 2021) för att skapa en kontrollerbar spelarkaraktär och Enviro – Sky and Weather (Haupt, 2021) för att skapa en dygncykel och ett vädersystem. Information om hur dessa fungerade och hur dess tillhörande variabler kunde tillgås och samspela med övriga spelkomponenter i spelet fanns i viss utsträckning att tillgå i medföljande instruktionsmanualer.

4.1.3 C# & OSC

För att få alla program, funktioner och spelvariabler att fungera och samverka blev det nödvändigt att utforska grundläggande funktionalitet och syntax i programmeringsspråket C#

som används i Unity. För att göra detta följdes ett grundläggande kapitel om C# i kursen

”Unity Game Development: Create 2D and 3D Games With C#” (Awesome Tuts, 2020) på webbsidan Udemy (Udemy Inc., 2021). Hjälp med kod för en viss typ av funktionalitet eftersöktes också i det officiella forumet för Unity (Unity Forum, 2021). För implementation av OSC-protokoll användes instruktionerna från videon i onlinekursen ”Programming Max:

Structuring Interactive Software for Digital Arts” (Wright, 2021) som huvudsaklig referenspunkt. extOSC (Sigalkin, 2020), som användes för att implementera OSC-

(23)

- 19 -

funktionalitet i Unity, krävde också en del efterforskning för att korrekt kunna implementera dess funktionalitet.

4.1.4 Max

Vid skapandet av den generativa algoritmen i Max har visst informationssökande gällande specifika funktioner och relaterade maxobjekt genomförts. I detta syfte har Cycling 74s officiella forum för Max (C74 Forums: MaxMSP, 2021) och dess användare varit till stor hjälp.

4.2 Progression

Projektets områden delades upp över studiens båda upphovsmän. Konstruktionen av den algoritmiska generatorn i Max samt spelkonstruktion utfördes av Johannes Carlsson medan Erik Andersson stod för skapandet av den mänskligt komponerade musiken samt implementation i spelmotorn genom programmet FMOD.

Arbetet kan indelas i ett antal olika etapper där vissa var beroende av de andras slutförande för att meningsfulla framsteg skulle kunna ske. Till exempel: för att implementera FMOD- musiken krävdes det först att variablerna anslutna till FMOD-parametrarna var färdigkodade och integrerade med spelmotorn. För att göra detta behövdes det först skapas en spelvärld och även en spelarkaraktär med vilken variablerna och deras funktionalitet kunde testas.

I denna studie såg progressionen ut som följande:

Unity  C#/OSC Max och FMOD  Studie.

4.2.1 Spelvärlden i Unity

Spelvärlden i Unity ligger till grund för projektet som helhet och sammansluter de olika interagerande komponenterna. Tidigt i projektet bestämdes det att det skulle finnas tre variabler som spelaren kunde interagera med för att påverka olika parametrar i spelmusiken:

Spelarens höjd i spelet, avstånd till ett visst objekt, och tid på dygnet. Etappen påbörjades med utformningen av spelvärldens geometriska egenskaper. Ett centralt landmärke i denna spelvärld är berget som studiens deltagare klättrar uppför som en del av undersökningen (se fig. 5). I och med detta genomgår spelaren olika ’höjdzoner’ som utlöser förändringar i en parameter kopplad till musiken som spelas. Med andra ord: Musiken förändras beroende på spelarens höjd i spelet vid vissa diskreta intervall. Ett annat landmärke i spelvärlden är en fyr som befinner sig vid en av spelvärldens kanter. Bunden till denna fyr är en proximitetsensor som påverkar en annan specifik musikparameter när spelaren befinner inom ett visst avstånd till fyren.

(24)

- 20 -

Figur 5. En bild av berget i spelvärlden.

Efter det att spelvärldens geometri var etablerad beströks världen med olika passande texturer och spelobjekt, så som träd och buskar. Huvudsakligen användes ’assets’ från tilläggspaketen Outdoor Ground Textures (A dog’s life software, 2021), Conifers [BOTD] (Bertram, 2021), Flooded Grounds (Sandro T, 2019) och Grass And Flowers Pack 1 (Pochezhertsev , 2017) i detta syfte hämtade från Unity Asset Store (Unity Asset Store, 2020).

4.2.2 C/OSC

Mycket tid i arbetet gick åt till implementation av fungerande kod. Efter det att den fysiska spelvärlden var färdigställd lades allt fokus på denna väsentliga komponent av artefakten.

Detta var i synnerhet viktigt eftersom det är i denna kod som funktionalitet för samintegration mellan de olika programvarorna möjliggörs. Vissa assets från Unity Asset Store utnyttjades.

Med hjälp av spelobjekt från ’Character Movement Fundamentals’ fanns det nu möjlighet att röra sig omkring i världen och felsöka koden genom debug.log-meddelanden (se fig. 5b) när spelaren interagerar med olika variabler, till exempel höjdzonerna eller proximiteten till fyren, vilket om allt står rätt till i sin tur påverkar parametrar i FMOD eller Max via OSC-protokoll.

(25)

- 21 -

Figur 5b. Debug.log-meddelanden som sedan visas i konsolen gör det möjligt att felsöka koden.

Förutom ’Character Movement Fundamentals’ användes även ’Enviro – Sky and Weather’

vilket förutom ett system för dygncykel även bidrog med ett vädersystem till spelvärlden.

Variabler för dygncykeln användes sedan för att ändra parametrar i Max och FMOD beroende på tid på dygnet i spelvärlden. När det blir natt så förändras parametern, och när det blir dag så återställs parametern till det tidigare värdet. Detta betydde att med alla dessa tre variabler färdigimplementerade fanns det möjlighet till samverkan däremellan. Till exempel: Om spelaren befinner sig i en specifik höjdzon samtidigt som det är dag eller natt så kan parametrarna kopplade till dessa variabler samverka för att skapa ett emergent resultat. En särskild utmaning i koden låg i att implementera funktionalitet som möjliggör för ett fungerande OSC-protokoll mellan Max och Unity. För att åstadkomma denna funktionalitet utnyttjades en asset vid namn ’extOSC’ med vilken sådan kommunikation möjliggjordes (se fig. 5c).

(26)

- 22 -

Figur 5c. Kod relaterad till implementationen av OSC-protokoll med hjälp av extOSC.

Med C#-programmeringen i Unity färdigställd och fungerande OSC-protokoll implementerade återstod det nu att färdigställa musiken som ska jämföras i undersökningen.

4.2.3 Generativ Musik i Max

Det är i programmet Max som algoritmen för den generativa musiken har skapats (se fig. 6a).

Det är en fortsättning på ett tidigare projekt från kursen ’Experimentella Ljudvärldar’ vid Högskolan i Skövde och därför så var en del av grundarbetet för denna komponent av artefakten sedan tidigare redan implementerats i annat syfte. Ett stort fokus har legat på att renovera algoritmen så den blev mer optimerad och prestandavänlig samtidigt som samma funktionalitet bibehölls och sedan utökades med ytterligare funktioner.

(27)

- 23 -

Figur 6a. En överblick över musikgeneratorn i Max

Algoritmen består av ett antal olika ’moduler’ som samverkar med varandra för att skapa musiken. Den mest centrala av dessa är ’kontrollpanelen’ som ’dirigerar’ de övriga modulerna i hur de ska samspela, samt att den bestämmer om det är tonika, dominant, eller subdominant som ska spelas. Dess mest framträdande funktion är den stora på/av-knappen som sätter på eller stänger av programmet. Till en början var kontrollpanelen konstruerad på så sätt att typ av ackord valdes helt slumpmässigt (se fig. 6b). Detta ersattes efter pilotstudien med en markovkedja för att kunna välja ackord utefter specificerade sannolikhetsvärden (se fig. 9a, kap 5.1).

(28)

- 24 -

Figur 6b. Algoritmens tidigare kontrollpanel med slumpmässigt urval.

Kontrollpanelen skickar instruktioner till ett antal moduler, varav två av dessa är en

’ackordväljare’ och en ’kompväljare’ som samverkar för att tonsätta melodin som spelas (se fig. 6c).

Figur 6c. En ’kompväljare’ (vänster) och ’ackordväljare’ (höger) samverkar för att skapa ett ackompanjemang.

(29)

- 25 -

Kontrollpanelen skickar även ut meddelanden till en ’samspelare’ som även tar emot signaler från en ’rytmväljare’ som sedan processas via en gate för att avgöra vilka toner som för spelas av ’melodiskaparen’ (se fig. 6d).

Figur 6d. Samspelaren (höger) tar emot meddelanden från kontrollpanelen och

’rytmväljaren’ (vänster, upp) som vidarebefordras till ’melodiskaparen’ (vänster, ner).

Signalerna från ackordväljaren och melodiskaparen behandlas sedan för att skapa den ljudande signalen (se fig. 6e).

(30)

- 26 -

Figur 6e. Signalerna konverteras till klingande ljud.

Förutom dessa centrala, samverkande komponenter finns det även en ’modulator’ som ändrar tonart då och då beroende på inställning (se fig. 6f). Ett lågt värde, såsom 1000, innebär väldigt snabba förändringar så att stycket helt och hållet förlorar tonalitet. Ett värde på 16 000 ger betydligt långsammare förändringar.

Figur 6f. ’Modulator’ som intermittent ändrar modalitet beroende på inställning.

(31)

- 27 -

Slutligen så föreligger logiken för Max-delen av OSC-protokollskommunikationen ovanför de andra modulerna. Signaler skickas från Unity beroende på variablernas status som sedan interagerar med olika parametrar i den generativa musikalgoritmen (se fig. 6g).

Figur 6g. Signaler mottas via OSC som interagerar med musikalgoritmens inställningar.

4.2.4 Mänskligt komponerad adaptiv musik

Den mänskligt komponerade musiken tog sitt avstamp i det skapade spelets värld och komponerades specifikt för denna. Musiken omarbetades i ett tidigt skede från att ha varit alltför linjär för studiens syfte, till en mer adaptivt kompatibel version där fler separata musikaliska byggstenar användes för att fungera på ett bättre sätt i programmet FMOD.

Musikkompositionen har tagit i beaktande tre olika parametrar vilka programmerats i spelmotorn. Dessa är spelarens höjdposition, tid på dygnet samt närhet till fyren vid kusten. Detta för att följa principerna om adaptiv musik, vilka specificerats av bland andra Plut & Pasquier (2020) i kapitel 2.1 om adaptiv musik.

Studien har begränsats till att endast använda pianokompositioner. Detta för att minimera störande variabler såsom instrumentering och på så sätt stärka studiens validitet.

Instrumentet som använts är Native Instruments ljudbibliotek för pianoflygeln The Grandeur (Native Instruments 2021).

Ett grundläggande pianoackompanjemang komponerades för att utgöra grunden till då spelaren rör sig kring spelets startposition - låglandet (se fig. 7).

(32)

- 28 -

Figur 7. MIDI-spår (underst) samt notbild (överst) vilka utgör grunden i kompositionen för spelets startposition.

Musiken i spelets inledning komponerades med ambient känsla för att stärka känslan av att röra sig fritt ute i naturen. En upprepande musikalisk figur loopas och ornamenteras med aleatoriska melodiska inslag (se fig. 7b, 7c, 7d), vilka specificerats inträda slumpmässigt efter inställning för slumpmässig start i programmet FMOD (Fireflight Technologies 2021).

Figur 7b. Harmoniskt ornament över grundackompanjemanget.

Figur 7c. Melodisk utsmyckning vilken infaller med 50 procents chans varje loop.

(33)

- 29 -

Figur 7d. Melodiska utsmyckningar i form av MIDI-block som spelas över det grundläggande ackompanjemanget.

Dessa melodiska utsmyckningar komponerades för att undvika musikalisk repetition och genererar slumpmässigt musikaliskt uttryck för varje loop som spelas, i enlighet med principerna för aleatorisk musik som tagits upp i kapitel 2.3.1.

Musik för nattetid komponerades även. Musikaliskt sänks tempot och även tonhöjd, dock med bibehållen rytmisk figur. När dagtid sedan återinträder går musiken tillbaka till ursprungligt tempo och tonhöjd.

Under spelets gång rör sig spelaren mellan ett antal olika höjdzoner vilket musiken anpassas utefter. Musiken får en mer rytmisk prägel, ökar i tempo samt får nya melodiska inslag (se fig.

7e).

Figur 7e. Tre olika höjdspår vilka startar ett efter ett, beroende på vilken höjd

spelaren befinner sig på.

Klättrar spelaren nedåt, plockas spår efter spår bort för att till slut gå tillbaka till ursprungsläge då spelaren befinner sig i höjdzon 0, det vill säga startläget.

När spelaren närmar sig slutmålet, fyren vid kusten, byter musiken skepnad till en annan kadens med annorlunda rytmiska markeringar. Detta för att signalera till spelaren att något nytt är i närheten (se fig. 7f).

(34)

- 30 -

Figur 7f. Närhet till fyren, här under natten vilket indikeras av markören ovan.

Musiken till den mänskligt komponerade varianten har i denna studie komponerats i programmet Pro Tools (AVID 2020). Därefter har musiken överförts till middleware- programmet FMOD där implementering med spelmotorn utförts. I detta steg fick ett antal justeringar göras i det grundläggande arrangemanget för att kunna sömlöst loopas i FMOD.

Projektet i FMOD har utgått från ett så kallat event (se fig. 7g), där

implementationsparametrar har programmerats med hjälp av programmets mer dynamiska sequencer-logik, vilken skiljer sig från traditionella musikprogram i och med sin förmåga att förflytta sig icke-linjärt.

(35)

- 31 -

Figur 7g. FMOD-event som använts till spelet.

Fundamentet för FMOD-logiken är de parametrar som utgör kommunikationslänken mellan programmet och spelmotorn Unity (Unity Technologies 2020) (se fig. 7h).

Figur 7h. De tre parametrar som används för att göra musiken adaptiv till spelet i programmet FMOD.

När spelaren exempelvis tar höjd i spelet, skickar spelmotorns kod ett meddelande till FMOD (se fig. 7i). Denna kod får FMOD att reagera och en övergång till nästa musikstycke sker.

Figur 7i. Spelmotorn sätter parametern ”Height” till värdet 1.

I detta fall är den första musikloopen försedd med en så kallad transition region. Det innebär att när sequencern befinner sig inom denna region, lyssnar den på specifika parameterkommandon. När således Height-parametern ställs till 1, sker en övergång med hjälp av crossfading-teknik (Phillips 2014, s. 176) till musikspåret för klättring (se fig. 7j)

(36)

- 32 -

Figur 7j. Övergång mellan två regioner med hjälp av crossfading-teknik.

Med samma parameterfunktioner agerar FMOD utefter spelets instruktioner även gällande dygnsrytm och närhet till fyren.

4.2.5 Pilotstudie

En pilotstudie genomfördes med två deltagare, och exponerade ett antal svagheter i studien.

Pilotdeltagarna spelade spelet i tre testcykler. Den första utan något ljud alls (testcykel 0), den andra (testcykel 1) med Max-patchen i gång och den sista (testcykel 2) med mänskligt komponerad musik. För deltagare 2 var denna ordning inverterad i de 2 sista testcyklerna.

Pilotdeltagare 1 rapporterade högst excitation under testcykeln utan något ljud alls. Personen uttryckte vid ett par tillfällen under denna cykel en glädje över att prova spelet för första gången och utforskade spelvärlden med nöje, vilket kan vara en faktor till det höga värdet av excitation under denna cykel.

(37)

- 33 -

Under testcykel två kördes Max-patchen. Både valens och excitation rapporterades något lägre. Efter testcykel tre rapporterades högst valens och deltagaren tyckte under intervjun att musiken gav ett behagligt lugn. Dock rapporterades lägst excitation under denna cykel.

Personen reflekterade under intervjun att denne började bli uttråkad på spelets enkla utformning. Detta ledde till idén om att byta spelarens startposition och införa geografiska ändringar till de olika testcyklerna inför det slutgiltiga testet. Detta för att motverka att exakt samma spelförlopp äger rum varje testcykel. Detta hann dock ej genomföras och det visade sig vara ett problem isolerat till denna deltagare då ingen annan framöver uttryckte liknande synpunkter.

Pilotdeltagare 2 markerade mycket låg excitation och markerade valens mitt på x-axeln under den tysta testcykeln. Värdet för excitation steg kraftigt upp mot y-axelns mittpunkt och valens ökade en aning efter testcykel 1 med mänskligt skapad musik för att sedan sjunka i valens efter att den sista testcykeln genomförts med generativt skapad musik.

Under pilotstudiens båda testtillfällen noterades att för mycket ljus släpptes in i lokalen vilket gjorde det svårt att orientera sig i spelet under nattetid. Detta löstes genom att inför varje test se till att samtliga persienner var neddragna och på så sätt minimera ljusinsläppet.

Efter varje testcykel genomfördes momentet där deltagaren själv markerar på den valda affektiva modellen (se fig. 8, 8b, 8c).

Figur 8. Rapporterad valens och excitation för pilotdeltagare 1 efter cykel 0 utan ljud/musik.

(38)

- 34 -

Figur 8b. Rapporterad valens och excitation för pilotdeltagare 1 efter cykel 1 med realtidsgenererad musik från Max-patch.

Figur 8c. Rapporterad valens och excitation för pilotdeltagare 1 efter cykel 2 med mänskligt komponerad adaptiv musik.

Deltagaren rapporterade att musiken i cykel 1, det vill säga den generativt skapade musiken, lät ”plinkig” och ”kaotisk” och uppfattades som stressande.

Under efterföljande intervju upptäcktes att flera frågor var snarlikt ställda och löpte in i varandra. Därför begränsades antalet frågor till det slutgiltiga testet. En av likertskalorna formulerades om eftersom det upptäcktes att den innehöll dubbla negationer, vilket förvirrade pilotdeltagare 1. I övrigt behölls dessa intakta. Strax efter pilotstudien upptäcktes en bugg i den generativa algoritmen som orsakade dissonanta intervall och darriga rytmer emellanåt, vilket rimligen kan ha påverkat resultatet i pilotstudien. Denna bugg åtgärdades sedan till den primära undersökningen.

(39)

- 35 -

5 Utvärdering

5.1 Presentation av undersökning

För att undersöka studiens problemformulering genomfördes en undersökning den 14 maj 2021. Den utfördes i Gränna där 6 deltagare bjöds in och deltog i studien. Ytterligare två personer bjöds in och deltog i studien måndagen den 17 maj. Totalt 6 män och 2 kvinnor i åldersspannet 20–45 år. Studiens genomförande tog cirka 45 minuter per person och kan delas in i tre likartade delmoment. Dessa delmoment bestod i sin tur av ytterligare två delmoment som genomfördes i följande ordning:

1. Deltagaren fick spela igenom en version av spelnivån med antingen generativ musik, traditionellt skapad musik, eller ingen musik alls.

2. Deltagaren fick besvara ett frågeformulär där kvantitativa data insamlades om deltagarens spelupplevelse.

Skillnaden mellan de övergripande delmomenten låg i vilken ordning vilken musik (eller saknad därav) spelades. I det första delmomentet spelades ingen musik. Därefter i delmoment två och tre alternerades typen av musik mellan testdeltagarna. D.v.s. testdeltagare 1, 3, 5 och 7 fick höra generativ musik först i delmoment 2 och därefter mänskligt skapad musik i delmoment 3, medan deltagare 2, 4, 6 och 8 först fick höra mänskligt skapad musik i delmoment 2 och sedan generativ musik i delmoment 3. Detta för att kontrollera för ordning av testcyklerna som en potentiellt störande variabel i resultaten. Studien avlutades sedan med en intervju där deltagarna fick svara på frågor rörande sin upplevelse av de olika spelsessionerna. Till denna undersökning hade vissa förändringar implementerats i den generativa algoritmen. Som tidigare nämnt hade en bugg som orsakade dissonanta intervaller och plötsliga, darriga rytmer åtgärdats. För det andra så hade nu en markovkedja implementerats som ersatte den tidigare nämnda funktionaliteten i kontrollpanelen (figur 9a). Detta innebar en utökad kontroll över algoritmens harmoniska övergångar vars procentuella värden däremellan nu kunde styras manuellt.

(40)

- 36 -

Figur 9a: Markovkedja för val av ackord i den generativa musikalgoritmen.

Exempelvis så hade nu tonikan en 50/50% chans att övergå till en dominant eller subdominant, subdominanten hade en 40/60% chans att övergå till en tonika respektive dominant, och dominanten hade en 20% chans att övergå till en subdominant och 80% chans att återgå till tonikan. Innan markovkedjan var implementerad så var det helt slumpmässigt hur ackorden övergick mellan varandra. Efter pilottestet, till den primära studien, var det även tänkt ha utvecklat en modul och funktioner för generering av fraser och identifierbara melodier, vilket visade sig vara ett överraskande stort projekt som inte hann implementeras i tid. I stället får denna funktionalitet delegeras till en hypotetisk framtida undersökning.

(41)

- 37 -

5.2 Analys

Efter att all data samlats in analyserades materialet i en stegvis process, beroende på om det var den kvantitativa eller kvalitativa datan som analyserades. Data från båda dessa informationskategorier katalogiserades, kodifierades och transkriberades utifrån råmaterialet (se Appendix A). Vad gäller den kvalitativa datan söktes det inledningsvis efter uppenbara trender i informationen.All insamlad information säkerhetskopierades för att säkerställa att data inte gick förlorad och därmed skulle riskera att äventyra hela studien. Insamlade data granskades utifrån trianguleringsprincipen (Denscombe 2010, s. 346–348) med särskild tonvikt på metodologisk triangulering, i och med att undersökningens rådata genererades utifrån både kvalitativ och kvantitativ metodprincip. Den cirkulära modellen för affekt användes för att skapa en överblick över insamlade data och eventuella korrelationer undersöktes.

5.2.1 Kvalitativa data

Intervjuns första fråga löd ”Upplevde du någon skillnad mellan de olika situationerna?”. Deltagare 1 (D1) hade åsikten att den generativt komponerade musiken hade mer ”studs” och ”pepp” och upplevde samtidigt att den mänskligt skapade musiken var lugnare och deltagaren ansåg att denna passade bättre in i spelet. Deltagare 3 (D3) ansåg att den generativa musiken var stadigare än den mänskligt komponerade musiken och att deltagaren upplevde en äventyrlig och utforskande känsla.

Jag tyckte den var ännu mer uppmuntrande först och lite mer äventyrlig. Att man kände att liksom.. utforska lite. Ehm. När jag kom upp på berget istället för att det kändes oroligt och farligt så kändes det istället spännande och liksom mer utforskande och.. när man kommer till toppen av berget och ser landskapet.

(Deltagare 3) Deltagaren upplevde även att denne kände sig mer motiverad att röra sig och förflytta sig i spelet av den generativa musiken. En mer negativ valens upplevdes av deltagare 7 under den generativa musikens testcykel. Deltagaren tyckte att den generativa musiken var ”mörk och deprimerad” och att den mänskligare var ”ljusare och mer uppåt”. Deltagaren spekulerade i kring att hen upplevde som att ”takten ökade”, varför deltagaren kände sig stressad. Den första, ansåg deltagaren, var lugnare och mer avslappnande. Deltagaren understrykte dock att denne kände sig stressad av den generativa musiken.

Deltagare 4 upplevde den generativa musiken som om att den var bra lämpad för en open- world miljö varpå deltagaren refererade till spelen Valheim (Coffee Stain Studios, 2021) och

(42)

- 38 -

Minecraft (Mojang, 2011). Deltagaren berättade att den mänskligt skapade musiken bytte skepnad i högre grad vilket ledde till en förväntan i att något, kanske farligt, skulle ske i spelet.

Den andra var ungefär samma känsla men i och med att musiken böt lite så var det mer som att du närmade dig fara eller att nånting mer skulle hända.

(Deltagare 4 om den mänskligt skapade musiken) På samma tema kände sig deltagare 2 lurad av den mänskligt skapade musiken, eftersom deltagaren upplevde förväntan om något som eventuellt skulle ske i spelet. Deltagaren resonerade kring den mänskligt skapade musiken där spelaren rör sig uppför berget och musiken byter skepnad. Deltagaren dryftade tankar om att mer spänningsfylld musik kanske var berättigad i detta skede eftersom deltagaren hade svårigheter att ta sig uppför berget och ramlade ett antal gånger ner, men vidhöll dock slutligen att hen kände sig lurad av den skiftande musiken.

Deltagare 3 tyckte att den mänskligt skapade musiken började väldigt uppmuntrande, men tyckte liksom några andra deltagare att känslan blev mer orolig när spelaren började vandra uppför berget. Över lag ansåg dock deltagaren att de båda musikkompositionerna var ”lugna men ändå lite energiska” och deltagaren upplevde att hen ”pushades” att röra på sig.

Deltagare 5 ansåg att den mänskligt skapade musiken var mer romantisk och nostalgisk.

Deltagaren gillade båda musikkompositionerna och föreslog att den mänskligt skapade musiken skulle kunna äga rum exempelvis i början av ett spel där spelvärlden utforskas. Den generativa musiken skulle sedermera spelas efter att något dystert ägt rum i spelet.

… om man skulle sätta dem i olika scenarion skulle den första musiken vara mer passande i början på ett spel där du utforskar medan den andra musiken skulle vara mer passande efter att någonting negativt eller traumatiskt hänt men du fortfarande är i samma miljö, så att du mer möter miljön med en mörkare underton.

(Deltagare 5, vilken spelade med mänskligt komponerad musik i första testcykeln) Deltagare 6 upplevde en plågad känsla med den generativa musiken. Det yttrades att melodin skapade ingen slags nyfikenhet eller välbehag, dock upplevde deltagaren ett driv i samband med att musiken inträdde. Deltagaren påpekade att det kändes som att hen befann sig i en situation där man inte mår särskilt bra.

(43)

- 39 -

Vad gäller den mänskligt skapade musiken uttryckte deltagaren andra känslor.

Den andra melodin, jag fick lite känslan av när typ barn är ute och springer på ängarna eller att det kanske är nån som åker i en bil och det filmas på avstånd typ som att det är i Frankrike. En vacker och rogivande miljö.

(Deltagare 6 om den mänskligt skapade musiken) Deltagaren ansåg att denna musik inte var lika provokativ som den generativa och noterade att den mänskligt skapade musiken hade tydligare mönster och skiftningar längs med spelets gång. Den generativa musiken hade deltagaren svårt att associera till något men spekulerade kring huruvida den skulle kunna användas till ”nån svartvit film där folk är i nöd”.

Deltagare 8 påmindes om filmmusik av den mänskligt komponerade musiken och utvecklade att detta hade att göra med att den byter melodi i takt med spelets progression. Deltagaren berättade även att hen kände mer energi med den mänskligt komponerade musiken och att den generativa musiken kändes ”disträ” och inte ”jättepepp”.

Efter den första frågan följde ett par frågor som syftade till att få personen att försöka utveckla skillnaden deltagaren upplevt i de olika testcyklerna. Fråga 3 löd dock ”Vilken musik från de olika situationerna föredrog du?”

De olika deltagarna svarade och summerade oftast sitt svar med vad deltagarna svarat på tidigare frågor.

• Deltagare 8 ansåg tydligt att den mänskligt skapade musiken var den som deltagaren föredrog. Detta med motiveringen att den fick deltagaren att känna mer energi och en känsla av nostalgi.

• Deltagare 7 föredrog den mänskligt skapade musiken och syftade på att den kändes lugnare och mer avslappnad.

• Deltagare 6 tyckte om den mänskligt skapade musiken, men upplevde samtidigt en känsla av överraskning från den generativt skapade musiken som denne såg som ett vinnande attribut.

• Deltagare 5 uttryckte en preferens för den mänskligt skapade musiken och motiverade detta med att ”…jag gick i natten med den musiken till stjärnorna”.

• Deltagare 4 föredrog den mänskligt skapade musiken eftersom hen ansåg att ”…det hände mer under den”, men lade samtidigt till att den generativa musiken passade bättre till spelet.

• Deltagare 3 tyckte att den generativt skapade musiken passade bättre till spelets progression och att deltagaren kände sig ”pushad” att röra på sig. Deltagaren valde därför denna.