Variation i röstläget och dess påverkan på arbetsminnet

(1)

INOM

EXAMENSARBETE TEKNIK, GRUNDNIVÅ, 15 HP

STOCKHOLM SVERIGE 2020 ,

Variation i röstläget och dess påverkan på

arbetsminnet

LOVE BOOK ANJA STUDIC

KTH

SKOLAN FÖR ELEKTROTEKNIK OCH DATAVETENSKAP

(2)

Variation i röstläget och dess påverkan på arbetsminnet

Impact of pitch variation on working memory

Love Book

EECS, Skolan för elektroteknik och datavetenskap, KTH Lindstedsvägen 3, 114 28 Stockholm

lovebook@kth.se

Anja Studic

EECS, Skolan för elektroteknik och datavetenskap, KTH

Lindstedsvägen 3, 114 28 Stockholm

astudic@kth.se

ABSTRACT

While speaking, the pitch in a person’s voice can vary more or less. In everyday terms, this is often described as “lively” and

“monotone” speech, meaning more varying and less varying with respect to pitch respectively. Every day, we are presented with spoken content and information, both through media, in conversations and in situations such as lectures. Some of the information we hear is important, and we are expected to understand and/or remember it. An example of this is information presented in lectures, or verbally presented instructions. In this study, the connection between variation in the speaker’s voice pitch and the recipient’s working memory was explored.

In this study, 19 participants listened to voice clips containing lists of words. Those lists had either large pitch variation (A), small pitch variation (B), or a pitch variation that was unaltered and lay somewhere in between the other two (C). In order to attain these pitch variations, list A and B were manipulated using a program for digital voice analysis. After listening to a list, the participants were asked to write down all words they could remember from the list. The average memorisation rates from the lists of each type were compared in order to determine whether the pitch variation had any significance for the recipient’s working memory. The participants were also asked about their perception of the differences in the voice between the clips.

The results of the study show no correlation between voice pitch variation and working memory. However, the possibility that a correlation exists but that larger pitch variations are needed cannot be ruled out. It is also possible that other factors are simply more significant for the working memory. The results also indicate that pitch variation at the extent used in this study, and when the listening material is lists with words, is hard to perceive.

SAMMANFATTNING

Tonläget i rösten hos en talare kan variera mer eller mindre under talet. Till vardags kallas det att en person som talar med låg variation i tonläget pratar “monotont” och att en person med hög variation i tonläget pratar “livligt”. Varje dag tar vi människor del av information som andra personer förmedlar genom tal, både genom medier och i vardagliga situationer som föreläsningar eller presentationer på jobbet. En del av informationen är det viktigt att ta till sig och minnas. I denna studie undersöktes huruvida det finns något samband mellan variation i taltonläget hos talaren och arbetsminnet hos lyssnaren.

I studien fick 19 deltagare lyssna på ljudklipp med upplästa listor bestående av olika ord. Det fanns tre typer av listor: stor variation i tonläget (A), liten variation i tonläget (B) och variation i tonläget som låg någonstans mellan de två andra typerna (C). För att uppnå denna variation manipulerades listorna A och B digitalt med hjälp av ett talanalysprogram.

Efter att deltagarna lyssnat på en lista blev de ombedda att skriva ner alla ord de kunde minnas från listan. Det genomsnittliga resultatet från varje typ av lista jämfördes för att kunna avgöra om det finns något samband mellan arbetsminne och taltonläge. Deltagarna fick också svara på frågor om huruvida de uppfattade någon skillnad i rösten mellan ljudklippen.

Resultaten från studien visar ingen korrelation mellan frekvensvariation i rösten och arbetsminne. Det kan dock inte uteslutas att en korrelation finns, men att större frekvensvariation krävs eller att andra faktorer är mer signifikanta för arbetsminnet. Resultatet pekar dessutom på att skillnaderna i graden av frekvensvariation är svåra att uppfatta vid de nivåer som användes i studien och då materialet är upplästa listor med ord.

(3)

Nyckelord

Röst; arbetsminne; frekvens; frekvensvariation.

1. INTRODUKTION

En stor del av den information vi människor dagligen tar del av är talad: konversationer, radio, och föreläsningar. En stor del av denna information förväntas vi också ta till oss av, förstå eller på annat sätt behandla. Denna tillgodogörelse av muntlig kommunikation krävs för allt från talade instruktioner i vardagen till inlärning från föreläsningar och utgör en central del i lärande.

Forskning och produktframtagning inom talteknologi och talsyntes följer den naturliga utvecklingen av data- och medieteknik och förbättras därmed hela tiden [1]. Parallellt med den här utvecklingen kan vi se att olika digitala medier har blivit en allt mer central roll i både institutionell undervisning och självstudier [2]. Eftersom väldigt mycket av den information studenter digitalt tar del av förmedlas i ett ljudmedium, om än ofta i kombination med rörlig bild, finns det ett intresse för att kvaliteten på det tillgängliga materialet ska vara så bra som möjligt. Om det går att kartlägga vilka parametrar på ljudet som påverkar kvaliteten ur ett inlärningsperspektiv, samtidigt som det med hjälp av talteknologi går att manipulera dessa, är denna typ av forskning intressant ur både pedagogiskt och medietekniskt perspektiv.

Allt detta öppnar upp för frågan om hur talad information skall presenteras för att människor bäst ska kunna ta till sig den. I arbetsminnet hålls tillfälligt den information som krävs för att hantera innevarande situation eller hålla igång flera tankar samtidigt [3]. Detta är centralt både för att lösa mer komplexa uppgifter och vid inlärning. Forskning har gjorts på hur mycket av information som förmedlas i tal som bevaras i lyssnarens minne, och vad som påverkar hur väl lyssnaren minns innehållet. Möjliga faktorer som på olika sätt skulle påverka bevarandet av informationen är omfattande: allt från miljö till medium och röstkvalité spelar in [4][5].

Ett avgränsat område inom forskningen är dock ägnat till att på olika sätt undersöka vilken roll röstfrekvensen har i detta avseende. En studie från 2011 visar att det är lättare att minnas innehållet då röster med hög eller låg grundtonsfrekvens läst upp det, jämfört med röster med medelhög grundtonsfrekvens [6]. En annan studie visar att större variation i röstfrekvensen gör att människor uppmärksammar meddelandet i radioreklam bättre [7].

Syftet med denna rapport är att förstå sambandet mellan variation i röstfrekvens och arbetsminne i syfte att få en klarare bild av hur talad information ska presenteras för att en lyssnare lättast ska kunna ta till sig av den. För att göra detta kommer vi utgå från följande frågeställning:

Hur påverkar röstfrekvensens standardavvikelse från medelvärdet av grundtonsfrekvensen F0 lyssnarens arbetsminne?

2. BAKGRUND

I den här delen presenteras grundläggande begrepp och teorier som rör minne och inlärning, såväl som grundläggande teori om rösten och grundtonsfrekvens (sektion 2.1, 2.2 och 2.3).

Dessutom presenteras vilken forskning som tidigare har gjorts på just kopplingen mellan taluppfattning i allmänhet, och variation i grundtonsfrekvensen i synnerhet, och minne och inlärning (sektion 3.4).

2.1 Begreppsdefinitioner

Arbetsminne - Arbetsminne, även kallat korttidsminne, är människans tillfälliga lagring av information i minnet [3].

F0 - Grundtonsfrekvens, eller bara grundton, betecknas ofta F 0

och är den lägsta tonen i en sammansatt ton [8].

Grundtonsfrekvensen i rösten är den lägsta tonen som produceras av stämbanden.

FSD - Används här för att beteckna standardavvikelsen från grundtonsfrekvensen F₀. Standardavvikelsen är ett statistiskt mått för hur mycket de olika värdena i en population avviker från medelvärdet. FSD används här alltså som ett mått på frekvensvariationen.

Frekvensvariation - Frekvensvariationen i en röst beskriver hur mycket grundfrekvensen varierar under talets gång. Detta är vad som till vardags ofta kallas att en person talar mer eller mindre monotont eller livligt.

Artefakter - Artefakter är här effekter (ofta oönskade) som kan uppstå av att när en ljudfil manipuleras digitalt. Det kan t.ex.

röra sig om distortion eller brus.

2.2 Minne och inlärning

Människans minne kan delas upp i två delar: arbetsminne (ibland kallat korttidsminne) och långtidsminne [3].

Arbetsminnet är den delen av minnet som används för att tillfälligt lagra information, planera och exekvera handlingar, eller ‘hålla information i huvudet’ medan individen gör något [3]. Långtidsminnet är den delen av minnet där information, upplevelser och minnen lagras långsiktigt [3]. Arbetsminnet har kapacitet att lagra ungefär sju enheter. Definitionen och storleken på en enhet kan variera, men kan till exempel vara ett objekt, siffra, tal eller ord. Vissa fenomen såsom ordlängd eller fonologisk likhet kan påverka hågkomsten [3].

Arbetsminnet har en viktig roll vid inlärning. När individen läser eller räknar används arbetsminnet för att kunna hålla igång flera tankeprocesser samtidigt. Arbetsminnet är dessutom

(4)

viktigt för att hålla reda på vad som ska göras härnäst och därmed utföra aktiviteter enligt instruktion [9]. Detta gör att möjligheten att optimera förmedling av information så att den lättast ska kunna lagras i individens arbetsminne blir intressant ur ett större inlärningsperspektiv. Det blir därför även intressant att utforska eventuell korrelation mellan minne och tal, och däribland arbetsminnet och röstens frekvensvariation i synnerhet.

2.3 Rösten och grundtonsfrekvens

I litteraturen används ofta beteckningen F0 för talets grundtonsfrekvens. När begreppetfrekvens används i samband med talet är det ofta just grundtonsfrekvensen F 0som menas.

Grundtonen F 0är frekvensen som produceras av stämbanden.

Talets spektrum domineras av F 0, men andra frekvenser som är övertoner till F 0tillkommer också i rösten [10]. Grundtonen är dock den lägsta frekvensen i den sammansatta tonen. F 0varierar medan vi talar, men mängden variation beror på både talare och situation. Begreppet taltonläge hos en individ, som betecknar den genomsnittliga grundtonsfrekvensen, används därför ofta [10].

Vid mätningar av hur mycket F 0avviker från medelvärdet under ett visst tidsintervall används ofta standardavvikelsen FSDsom statistiskt mått. Hur stor standardavvikelse tal har beror på flera faktorer såsom språk, typ av text som läses upp, känslor hos talaren och diskurs. Vid en vardaglig konversation brukar F 0

exempelvis ligga mycket nära den lägsta frekvensen våra stämband förmår att producera. Detta gör att standardavvikelsen blir väldigt liten. FSD är också generellt mindre hos deprimerade, skamfyllda och ledsna personer, medan den ökar mer när exalterade känslor uttrycks [11].

Eftersom skillnader i standardavvikelsen F SDfinns mellan olika röster, både bland människor och i talsynteser, är det intressant att jämföra hur storleken på denna standardavvikelse påverkar arbetsminnet hos lyssnaren, både ur ett pedagogiskt och tekniskt perspektiv.

2.4 Tidigare forskning

Röstens egenskaper har visat sig vara en variabel som spelar roll för inlärningen och minnet [12][13][14][15]. Det har bland annat visat sig att en röst som förmedlas med en känslomässig intonation är lättare att minnas om rösten används som ett distraherande stimuli medan lyssnaren koncentrerar sig på att minnas något annat [12]. Detta innebär att om någon exempelvis koncentrerar sig på att läsa en bok samtidigt som radion är på i bakgrunden så fångar vi lättare upp och kan återberätta det som har sagts på radion om den har en röst som ger uttryck för känslor. Den känslomässiga aspekten på rösten var av ytterligare intresse för arbetet då det finns ett tydligt

samband mellan en känslofylld intonation och variation i röstläget [11].

I en annan studie testades barn i åldrarna åtta till nio år i ett Competing Language Processing Task (CLPT)-test med en och samma kvinnas röst i två olika tappningar. Detta är ett test riktat till barn i skolåldern för att testa verbalt arbetsminne och består av två delar. En av delarna går ut på att testa hur väl barnet kan kan avgöra ifall en mening är semantiskt korrekt och den andra delen testar om barnet minns vilket som var det sista ordet i meningen. I ena versionen av testet pratade kvinnan normalt och i andra versionen var kvinnans röst dysfonisk (hes). Alla barnen fick genomföra båda versioner och det visade sig att det fanns en signifikant försämring av testresultaten då den dysfonska rösten användes i den första delen av testet. Nämnda del i ett CLPT-test går ut på att avgöra om en mening är semantiskt korrekt. I andra delen testas hur väl sista ordet i samma mening kan erinras. Andra delen påvisade ingen signifikant skillnad mellan de båda testversionerna [13].

Tidigare forskning har även gjorts på vissa aspekter av samband mellan röstens grundtonsfrekvens och lyssnarens uppfattning och inlärning. En studie mätte hur röstens grundtonsfrekvens påverkade hur väl lyssnaren mindes innehållet av en uppläst text. Tre olika röster med samma grundtonsfrekvens läste in tre olika texter, varpå grundtonen hos en av rösterna digitalt ökades och hos en digitalt minskades. Studiedeltagarna fick lyssna på de tre texterna och svara på en enkät gällande innehållet efter varje text. Resultatet visade att studiedeltagarna mindes innehållet hos texten med icke-manipulerad röstfrekvens klart sämst [14]. En annan studie visade att studenter upplevde att de hade lärt sig mer efter att ha lyssnat på lärare med högre röstfrekvens än lärare med lägre röstfrekvens. Studien visade dock att ingen signifikant skillnad på den faktiska inlärningen fanns [16].

En annan studie [15] undersökte hur väl lyssnaren mindes och uppmärksammade upplästa reklamtexter som var producerade med variation i röstens grundtonsfrekvens genom meningarna jämfört med mer monotona reklamtexter. Resultatet visade att reklamtexter med större tonvariation gav bättre resultat, i synnerhet i de fall där en hög ton följdes av en låg ton i samma mening.

Även om tidigare studier kring röstens karaktär och taluppfattning är omfattande saknas det forskning kring flera områden inom ämnet. Det finns få studier kring hur variationen i standardavvikelse i röstfrekvens påverkar taluppfattning och inlärning i allmänhet, men ingen forskning på hur den påverkar arbetsminne i synnerhet. Detta område utforskades i denna studie.

(5)

2.5 Syfte

Denna studie undersökte huruvida det finns ett samband mellan auditiv arbetsminneskapacitet och variation i röstläget hos uppläst information. Syftet med studien var att bidra och bygga på existerande forskning rörande röstkvaliteten och tonlägets påverkan på den kognitiva förmågan, i synnerhet arbetsminnet.

2.6 Forskningsfrågor

Forskningsfrågan för studien formulerades enligt följande:Hur påverkar röstfrekvensens standardavvikelse från medelvärdet av grundtonsfrekvensen F0 lyssnarens arbetsminne?

3. METOD

För att kunna besvara forskningsfrågan genomfördes en statistisk kvantitativ analys där hypotesen att standardavvikelsen från medelvärdet av F 0påverkar lyssnarens arbetsminne prövades. I denna del presenteras testets utformning och utförande, såväl som studiens premisser.

3.1 Studiedeltagare

Studien genomfördes med en testgrupp bestående av 19 studenter vid civilingenjörsutbildningen i Medieteknik på Kungliga Tekniska högskolan i Stockholm. Alla deltagare fick genomföra samma tester. Av deltagarna var nio kvinnor och tio män. Samtliga var i tjugoårsålder och uppgav att de hade normal hörsel. Alla talade flytande svenska.

3.2 Testets utformning

Deltagarna fick lyssna på totalt sju ljudklipp: först ett testljudklipp som användes för uppvärmning och inte har räknats med i resultatet, och sedan sex som användes till undersökningen. Varje ljudklipp innehöll en lista med tolv ord som lästes upp av en röst. Samma röst användes i alla ljudklipp.

Samtliga ord var på svenska och vi gjorde uppskattningen att de var relativt vanliga eller vanligt förekommande. Listorna var utformade så att ordet på varje given position hade samma antal stavelser och tillhörde samma ordklass som motsvarande ord på övriga listor. Orden slumpades fram med en slumpgenerator.

Det togs hänsyn till att flera ord med samma ändelse eller ord som var fonetiskt lika inte skulle förekomma i samma lista, eftersom det skulle kunna påverka hågkomsten av orden (se bilaga 1).

Samtliga listor lästes upp av en röst som hade ett medelvärde på F0som låg mellan 128 och 147 Hz (se tabell 1). När listorna var inlästa delades de in i tre kategorier. De två listorna där standardavvikelsen från medelvärdet av F0 (oberoende variabel), vidare kallad FSD, var som störst fick representera grupp A. De två listorna där där F SDvar minst hamnade i grupp B. Efter indelningen ökades FSD hos listorna från grupp A

ytterligare i röstanalysprogrammet Praat till ett F SD på 72-73 Hz. FSD i grupp B minskades till 9-11 Hz. De två av de återstående tre omanipulerade listorna där den naturliga skillnaden på FSD mellan listorna var som minst (51- 53 hz ) fick utgöra grupp C. Den sista listan blev testlistan som användes i resultatet. Listorna grupperades innan manipulation för att minimera förändringen som behövdes göras eftersom antalet artefakter i ljudklippen då blev mindre. Tiden att spela upp ljudklippen låg på 24- 28 sekunder för samtliga listor.

F0 O-FSD M-FSD

Lista 1 128 Hz 28 Hz -

Lista 2 136 Hz 54 Hz -

Lista 3 147 Hz 56 Hz 73 Hz

Lista 4 127 Hz 43 Hz 9 Hz

Lista 5 132 Hz 51 Hz -

Lista 6 121 Hz 20 Hz 11 Hz

Lista 7 144 Hz 57 Hz 72 Hz

Tabell 1: Frekvens samt frekvensavvikelse före och efter manipulation per lista. M anger manipulerad F SD, medan O anger omanipulerade värden. “-” anger att värdet inte har manipulerats.

3.3 Testets utförande

Testerna utfördes på distans med hjälp av videokonferensverktyget Zoom. Listorna 2-7 spelades upp för deltagarna i följande ordning: C, A, B, C, B, A. Ordningen var densamma för samtliga deltagare. Direkt efter att en lista hade spelats upp fick deltagaren en länk till ett formulär där denne fick skriva ner alla ord den kunde komma ihåg. Deltagaren fick i uppgift att säga till när den kände sig färdig med uppgiften, och fick då skicka in sina svar. Det gavs alltså ingen formell tidsbegränsning. Detta upprepades för samtliga listor. För att avgöra signifikansnivån på deltagarnas hågkomst av orden mellan grupperna användes ett ANOVA-test.

Efter att deltagarna fyllt i alla listor fick de svara på ytterligare två frågor: “Märkte du någon skillnad mellan ljudklippen?” och

“Vad tror du att skillnaden var?”. Deltagarnas svar registrerades.

3.4 Avgränsningar

Studien fördjupade sig i ämnet genom att undersöka hur variation i röstfrekvensen påverkar det auditiva arbetsminnet.

Den behandlade således inte övriga prosodiska företeelser såsom talhastighet, variation i volym, pauser eller rytm, och inte

(6)

heller känsloyttringar i rösten, i relation till arbetsminnet.

Studien undersökte heller inte huruvida materialets språk, talarens dialekt eller lyssnarens modersmål påverkar arbetsminnet.

Studien var dessutom avgränsad till korttidsminne, vilket innebär att minnet efter en längre period inte undersökts. Inte heller övriga upplevelser av materialet såsom preferens eller upplevd stress har diskuterats.

Deltagarna i undersökningen ombads att göra sitt bästa samt att hålla koncentrationen från början. Därför undersöktes inte heller röstens förmåga att fånga uppmärksamheten hos lyssnaren.

3.5 Etiska överväganden

Studien tog hänsyn till de fyra etiska huvudkraven för forskning inom humaniora och samhällsvetenskap [17]. Dessa gick även att applicera på denna studie och består av följande krav:

Informationskravet, samtyckeskravet, konfidentialitetskravet och nyttjandekravet.

Informationskravet och samtyckeskravet uppfylldes eftersom det har gått ut information om att deltagandet är frivilligt och det går att dra sig ur när som helst. Konfidentialitetskravet uppfylldes eftersom inga personuppgifter samlas in och inga resultat publiceras som kan kopplas till en specifik individ.

Nyttjandekravet säger att uppgifter om deltagarna endast får användas för forskningsändamålet. Eftersom de enda uppgifterna som samlades in var det anonyma resultatet av undersökningen uppfylls även kraven för den fjärde och sista principen för etisk forskning.

Ämnet bedömdes i allmänhet inte vara särskilt känsligt och det har därför inte genomförts några ytterligare etiska överväganden.

4. RESULTAT

Mängden ihågkomna ord för de olika listorna jämfördes och analyserades. Nedan presenteras medelvärde och standardavvikelse för deltagarnas hågkomst vid de olika frekvensvariationerna. För att avgöra signifikansnivån användes ett ANOVA-test. Dessutom presenteras i denna del deltagarnas upplevelse av skillnaderna mellan ljudklippen.

4.1 Sammanställning av data

Deltagarnas svar poängsattes enligt följande: ett rätt ihågkommet ord gav ett poäng, ett delvis rätt ihågkommet ord, men där ordet angivits med exempelvis fel böjningsform, gav ett halvt poäng, och ett uteblivet ord gav noll poäng. Totalt kunde max 12 poäng per lista fås.

Medelvärdet för antal poäng bland deltagarna låg för samtliga listor ungefär mellan 4 och 5 (se tabell 2). Deltagarna presterade i snitt sämst på lista 6 (minskad frekvensvariation), där medelvärdet låg på 4,05 poäng, och bäst på lista 3 (ökad frekvensvariation), där medelvärdet låg på 5,03 poäng. Däremot presterade deltagarna näst sämst på lista 2 och 7 (omanipulerad respektive ökad frekvensvariation), där medelvärdet var 4,24 poäng, och näst bäst på lista 4 (minskad frekvensvariation) där medelvärdet var 4,82 poäng.

Medelvärde SD

Lista 2 (C) 4,24 1,48

Lista 3 (A) 5,03 1,70

Lista 4 (B) 4,82 1,60

Lista 5 (C) 4,39 1,17

Lista 6 (B) 4,05 1,41

Lista 7 (A) 4,24 1,44

Tabell 2: Medelvärde och standardavvikelse för antal rätt ihågkomna ord direkt efter lyssning per lista.

Listorna grupperades efter frekvensvariation. Lista av typ A representerar ökad frekvensvariation, typ B representerar minskad frekvensvariation och typ C representerar omanipulerad frekvensvariation. Även utifrån detta beräknades medelvärdet. Här kan ses att deltagarna presterade lika bra på listorna med ökad och minskad frekvensvariation (typ A och B), och bara lite sämre på listorna med omanipulerad frekvensvariation (typ C) (se diagram 1).

Diagram 1: Medelvärde för antal rätt ihågkomna ord direkt efter lyssning per typ av lista. På x-axeln visas antal ihågkomna ord.

4.2 Analys av data

Efter att den insamlade datan hade sammanställts genomfördes ett ANOVA-test över populationerna i de tre grupperna A, B

(7)

och C. Genom testet undersöktes om nollhypotesen H 0kunde förkastas, nollhypotesen definierades: “det väntade medelvärdet är samma för samtliga grupper A, B och C.” Om resultatet visar på att de inbördes skillnaderna i varje grupp är signifikant mindre än skillnaderna mellan grupperna kan H0

förkastas. I variansanalysen med en signifikansnivå på 5%

erhölls ett F-värde på 0.54 med frihetsgraderna 2 respektive 111 (p=0.58). Nollhypotesen kan inte förkastas då resultatet inte påvisar någon statistisk signifikans. Resultatet av studien säger därmed att röstfrekvensens standardavvikelse från F0 inte påverkar lyssnarens arbetsminne.

4.3 Upplevd skillnad mellan ljudklippen

I slutet av testet fick deltagarna svara på frågorna: “Märkte du någon skillnad mellan ljudklippen?” och “Vad tror du att skillnaden var?”

Av deltagarna uppgav 21% att de inte märkte någon skillnad mellan listorna och uppgav heller ingen gissning. 68% av deltagarna kom med felaktiga gissningar på vad skillnaden kunde vara. Endast 11% upplevde en skillnad som var relaterad till röstens frekvens. Dessa deltagare hade dock kännedom om studien sedan innan. Ingen uppgav att de upplevde en skillnad i variationen av tonläget. Av de deltagare som kom med felaktiga gissningar trodde 85% att skillnaden på något sätt rörde orden, strukturen eller att det fanns något typ av övergripande tema.

De resterande upplevde att skillnaden hade med tempot och uppläsningshastighet att göra.

5. DISKUSSION

Syftet med denna studie var att förstå sambandet mellan variation i röstfrekvens och arbetsminne. Nedan tolkas den insamlade datan utifrån studiens forskningsfråga: “Hur påverkar röstfrekvensens standardavvikelse från medelvärdet av grundtonsfrekvensen F0 lyssnarens arbetsminne?”.

Dessutom diskuteras olika variabler och felkällors inverkan på resultatet.

5.1 Tolkning av resultatet

Resultatet från studien visar inte på några samband mellan frekvensvariation i rösten och arbetsminne. Om eventuell inverkan på arbetsminnet vid studerade frekvensvariationer fanns var dessa mindre än påverkan från andra faktorer såsom skillnader mellan orden på listorna.

Detta resultat pekar på att graden av frekvensvariation i rösten är mindre signifikant än andra faktorer såsom innehåll, andra ljudkvalitéer eller miljöfaktorer vid direkt hågkomst. Vid exempelvis produktion av material med kortare talat innehåll för korttidsmemorering skulle detta kunna innebära att val av

frekvensvariation hos rösten inte är vidare signifikant, utan att fokus i första hand bör läggas på val av andra variabler.

För att bilda en uppfattning om frekvensvariationens uppträdande kartlades även studiedeltagarnas uppfattning om skillnaderna mellan ljudklippen. Denna kartläggning visade att studiedeltagarna inte kunde identifiera att ljudklippen hade olika frekvensvariation. Detta pekar på att storleken på frekvensvariation är svår att uppfatta vid skillnader i denna storleksgrad och vid upplästa ord.

5.2 Metodkritik

5.2.1 Testets innehåll och ord

Vid framtagningen av listorna med ord togs hänsyn till att ord på samma position skulle vara av samma ordklass och ha samma antal stavelser. En granskning av vilka ord som testgruppen mest frekvent korrekt memorerat visar dock att det fanns stora skillnader mellan olika ord, även då hänsyn tas till typ av ord och frekvensvariation. Detta indikerar att orden inte var fullt jämbördiga. Ett exempel är ord nummer åtta på lista 2 (“långlivad”) och lista 5 (“liggande”), som en respektive sju personer mindes. Båda dessa ord är adjektiv med tre stavelser.

Frekvensen på listorna var oförändrad. Flera sådana exempel förekommer i resultaten.

Detta indikerar att ordens specifika egenskaper påverkade studiedeltagarnas hågkomst av de olika orden. Egenskaperna i fråga skulle kunna vara skillnader i abstraktion, böjningar, vilka känslor ordet framkallar, fonetiska egenskaper eller annat som kan påverka arbetsminnet [18][19][20][21][22]. Ett ords längd sett till den tid det tar att uttala ordet kan vara en eventuell faktor. I en studie där antalet stavelser hade hållits konstant indikerade resultatet att ord som är kortare sett till ovannämnda definition är lättare att komma ihåg än längre ord [18]. Det är dock svårt att avgöra huruvida och till vilken grad dessa faktorer har påverkat.

Utöver detta förekom flera ord där studiedeltagarna hade svårt att minnas vilken form ordet förekom på, men mindes ordet självt. Ett exempel på detta är ordet “utvidgas”: endast en person kom ihåg ordet i denna form, medan sex andra personer felaktigen angav varianter av ordet såsom “utvidga” och

“utvidgande”. Att vissa ordformer var svårare att komma ihåg på detta sätt kan ha påverkat det sammanlagda resultatet för hur väl deltagarna lyckats hålla orden i arbetsminnet [22]. Det hade istället kunnat vara lämpligt att listorna endast innehöll ord i grundform. Dock gäller det även då att vissa ord förekommer i just grundform oftare än andra ord, och därför ändå är lättare eller svårare att komma ihåg.

Det finns även forskning som stödjer ett fenomen som kallas

“the concreteness effect”, vilket innebär att människor lättare tar till sig konkreta substantiv än abstrakta [19]. Listorna som användes innehöll både abstrakta och konkreta substantiv men

(8)

dessa låg ojämnt fördelade över listorna till skillnad från hur orden hade delats upp i relation till antalet stavelser. Det är därför svårt att se huruvida den här effekten visade sig i denna studie.

I och med att listor med ord användes för testet blev ordens egenskaper och karaktär mer signifikanta som oberoende variabler. Ett alternativ hade istället kunnat vara att använda längre texter. Vid hela talade meningar varierar dessutom grundfrekvensen över meningen, och inte bara över ordet, vilket eventuellt också hade kunnat göra att studiedeltagarna lättare hade kunnat uppfatta skillnaderna i grad av frekvensvariation mellan de olika klippen. Detta hade dock blivit en helt annan undersökning, eftersom premisserna för vilka både arbetsminne och frekvensvariation hade undersökts hade ändrats.

5.2.2 Större frekvensvariation?

Att deltagarna i studien varken kunde uppfatta att ljudklippen hade manipulerats eller hur det hade gjorts kan vara en indikation på att variationen i frekvensomfånget inte gjordes tillräckligt stor. Valet av variationsgrad i denna studie motiverades av att det var av stor vikt att rösten fortfarande uppfattades som naturlig. Den naturliga ljudbilden försämras i snabb takt vid större digital manipulation. Det var även viktigt att variationen fortfarande befann sig inom ramen av hur människor normalt pratar för att resultatet av studien skulle vara användbart i verkligheten. Det finns dock utrymme för en större variation utan att hamna utanför vad som anses vara normalt tal.

För att med tillgängliga verktyg uppnå den önskade variationen med bibehållen naturlighet så hade listorna kunnat läsas in med tillräckligt stor variation redan innan manipulation. Om inläsningen hade genomförts på det sättet hade det varit väldigt viktigt att det gjordes noggrant eftersom den mänskliga faktorn som felkälla blir mer påtaglig. Det hade då funnits en risk för tillkomst av andra oönskade variabler som påverkar resultatet.

5.2.3 Skillnader i grundfrekvensen

Medelvärdet av grundfrekvensen på de inlästa listorna varierade mellan 121 hz till 147 hz. Denna variation gav upphov till medelvärdet som ny oberoende variabel. Det finns dessutom forskning på variabeln “medelvärdet av grundfrekvensen” som pekar på en korrelation mellan frekvens och minne [14].

Variationen mellan listorna är visserligen inte i närheten av lika stor som den som undersöktes i studien ovan (där varierade frekvensen mellan 90 och 180 hz), men dess potentiella inverkan på resultatet kan ändå inte uteslutas fullkomligt.

5.2.4 Ljudklippens ordning

Ljudklippen som studiedeltagarna fick lyssna på spelades samtliga gånger upp i samma ordning, från ljudklipp ett till sju.

Varje test tog ca 12-15 minuter, exklusive genomgång av testets procedur. Detta innebär att det inte på något sätt kompenserats för att studiedeltagarna kan ha blivit mer trötta eller tappat

koncentrationen, och därmed haft svårare att fokusera eller minnas, under testets gång. Forskning visar på att det inte finns en tydlig gräns för hur lång tid vuxna kan hålla koncentrationen, utan att individuella skillnader är stora [23]. På resultaten i denna studie syns att den genomsnittliga hågkomsten för lista 6 och 7 är sämre än hågkomsten för lista 3 och 4, som hade motsvarande frekvensvariation men låg tidigare i testet.

Däremot gäller det motsatta för lista 5 och 2, som också hade motsvarande frekvensvariation. Huruvida detta har kopplingar till när under testets gång listorna spelades upp går det inte att dra några slutsater kring. För att eliminera statistiska felkällor hade det kunnat vara lämpligt att låta deltagarna lyssna på listorna i olika ordning.

5.2.5 Övriga felkällor

Att manipulera frekvensen är inte problemfritt. Det finns hittills ingen teknik som är helt ren. Med ‘ren’ menas att det går att höja och sänka grundfrekvensen helt utan att det tillkommer så kallade artefakter eller störningar i signalen. Tekniken Pitch Synchronous Overlap and Add (PSOLA), som används av Praat, är förhållandevis ren men vid mer omfattande manipulationer blir störningarna ändå väldigt tydliga, något som märktes när ljudsignalens FSDvid ett test manuellt plattades ut till 0. Störningar finns också i studiens inspelade listor, även om de är väldigt små och bedöms svårupptäckta.

En annan potentiell felkälla som är svår att komma ifrån är skillnader mellan individer. Alla deltagare fick lyssna på samma listor och samtliga deltagares resultat fanns alltså representerat i alla tre grupper av listor. Detta gjordes just för att minska påverkan från eventuella skillnader i hur bra deltagarna är på uppgiften. Eftersom ett ANOVA-test, vars F- värde baseras på en kvot mellan variansen mellan grupperna respektive inom grupperna, användes så kunde detta inte frånkommas som en möjlig felkälla.

5.3 Vidare forskning

Det finns många olika infallsvinklar och forskningsfrågor som fortfarande är outforskade där variationen av grundfrekvensen är en oberoende variabel. Det hade exempelvis varit intressant att utgå ifrån en löpande uppläst text istället för listor med ord.

Det hade också varit intressant att undersöka påverkan på andra kognitiva egenskaper som till exempel koncentrationsförmåga eller långtidsminne.

I denna studie kunde inte nollhypotesen förkastas, men det går inte att utesluta att ett annat resultat hade kunnat fås fram genom att eliminera ovannämnda felkällor och oönskade variabler. Dessutom hade det varit önskvärt att göra studien i en större omfattning.

(9)

6. SLUTSATS

I resultatet av studien går det inte att se någon korrelation mellan variation i röstfekvensen, det vill säga standardavvikelse från röstens grundfrekvens, och arbetsminne. Det går dock inte utesluta att ett samband finns, men att andra faktorer såsom innehållets karaktär har större påverkan på arbetsminnet, eller att till exempel graden av frekvensvariation behöver vara större för att ha en inverkan. Det kan dessutom ses att skillnaderna i graden av frekvensvariation var svåra att uppfatta vid dessa nivåer och då materialet var upplästa listor med ord.

7. REFERENSER

1. Delić, V., Perić, Z., Sečujski, M., Jakovljević, N., Nikolić, J., Mišković, D., Simić, N., Suzić, S., & Delić, T.

(2019). Speech Technology Progress Based on New Machine Learning Paradigm. Computational Intelligence and

Neuroscience, 2019, 4368036.

https://doi.org/10.1155/2019/4368036

2. 2017, Nationell digitaliseringsstrategi för skolväsendet, Regeringen, hämtad från från

https://www.regeringen.se/4a9d9a/contentassets/00b3d9118b01 44f6bb95302f3e08d11c/nationell-digitaliseringsstrategi-for-sko lvasendet.pdf

3. Cowan, N. (2008). What are the differences between long-term, short-term, and working memory? Progress in Brain Research, 169, 323–338.

https://doi.org/10.1016/S0079-6123(07)00020-9

4. Augustin, Thomas, "Voice Pitch Influences on Teaching Evaluations and Student Learning" (2018). Master's Theses. 1262.

https://scholars.fhsu.edu/theses/1262

5. Kitayama, S. (1996). Remembrance of emotional speech: Improvement and impairment of incidental verbal memory by emotional voice.

Journal of Experimental Social Psychology, 32(4), 289–308.

https://doi.org/10.1006/jesp.1996.0014

6. Helfrich, H., & Weidenbecher, P. (2011). Impact of Voice Pitch on Text Memory. Swiss Journal of

Psychology/Schweizerische Zeitschrift Für Psychologie/Revue Suisse de Psychologie, 70, 85–93.

https://doi.org/10.1024/1421-0185/a000042

7. Rodero, E., Potter, R. F., & Prieto, P. (2017). Pitch Range Variations Improve Cognitive Processing of Audio Messages. Human Communication Research, 43(3), 397–413.

https://doi.org/10.1111/hcre.12109

8. Grundton. Nationalencyklopedin, Hämtad från http://www.ne.se/uppslagsverk/encyklopedi/lång/grundton

9. Klingberg, T., Fernell, E., Olesen, P. J., Johnson, M., Gustafsson, P., Dahlström, K., Gillberg, C. G., Forssberg, H., &

Westerberg, H. (2005). Computerized Training of Working Memory in Children With ADHD-A Randomized, Controlled Trial. Journal of the American Academy of Child & Adolescent Psychiatry, 44(2), 177–186.

https://doi.org/https://doi.org/10.1097/00004583-200502000-00 010

10. Ljud som informationsbärare. (2018). KTH Elektroteknik och Datavetenskap : Avdelningen för tal, musik och hörsel.

https://books.google.se/books?id=9WUOxQEACAAJ

11. Traunmüller, H., & Eriksson, A. (1995). The frequency range of the voice fundamental in the speech of male and female adults. 2.

12. Kitayama, S. (1996). Remembrance of emotional speech: Improvement and impairment of incidental verbal memory by emotional voice. Journal of Experimental Social Psychology, 32(4), 289–308.

https://doi.org/10.1006/jesp.1996.0014

13. Brännström, K., Kastberg, T., von Lochow, H., Haake, M., Sahlen, B., & Lyberg Åhlander, V. (2017). The influence of voice quality on sentence processing and recall performance in school-age children with normal hearing.

Speech, Language and Hearing, 21, 1–9.

https://doi.org/10.1080/2050571X.2017.1309787

14. Helfrich, H., & Weidenbecher, P. (2011). Impact of Voice Pitch on Text Memory. Swiss Journal of

Psychology/Schweizerische Zeitschrift Für Psychologie/Revue Suisse de Psychologie, 70, 85–93.

https://doi.org/10.1024/1421-0185/a000042

15. Rodero, E., Potter, R. F., & Prieto, P. (2017). Pitch Range Variations Improve Cognitive Processing of Audio Messages. Human Communication Research, 43(3), 397–413.

https://doi.org/10.1111/hcre.12109

16. Augustin, Thomas, "Voice Pitch Influences on Teaching Evaluations and Student Learning" (2018). Master's Theses. 1262.

17. Forskningsetiska principer inom

humanistisk-samhällsvetenskaplig forskning, Vetenskapsrådet, Stockholm, 2002,

http://www.gu.se/digitalAssets/1268/1268494_forskningsetiska _principer_2002.pdf

18. Baddeley, A. D., Thomson, N., & Buchanan, M.

(1975). Word length and the structure of short-term memory.

(10)

Journal of Verbal Learning and Verbal Behavior, 14(6), 575–589.

https://doi.org/https://doi.org/10.1016/S0022-5371(75)80045-4

19. Jessen, F., Heun, R., Erb, M., Granath, D.-O., Klose, U., Papassotiropoulos, A., & Grodd, W. (2000). The

Concreteness Effect: Evidence for Dual Coding and Context Availability. Brain and Language, 74(1), 103–112.

https://doi.org/https://doi.org/10.1006/brln.2000.2340

20. BAUER, L. M., OLHEISER, E. L., ALTARRIBA, J.,

& LANDI, N. (2009). Word type effects in false recall:

Concrete, abstract, and emotion word critical lures. The American Journal of Psychology, 122(4), 469–481.

http://www.jstor.org/stable/27784422

21. Cowan, N., Baddeley, A., Elliott, E., & Norris, J.

(2003). List composition and the word length effect in immediate recall: A comparison of localist and globalist assumptions. Psychonomic Bulletin & Review, 10, 74–79.

https://doi.org/10.3758/BF03196469

22. Service, E., & Maury, S. (2015). Differential recall of derived and inflected word forms in working memory:

Examining the role of morphological information in simple and complex working memory tasks. Frontiers in Human

Neuroscience, 8, 1064.

https://doi.org/10.3389/fnhum.2014.01064

23. Wilson, K., & Korn, J. (2007). Attention During Lectures: Beyond Ten Minutes. Teaching of Psychology, 34.

https://doi.org/10.1080/00986280701291291

(11)

BILAGA 1: Förteckning över ordlistor

Lista 1: Astrofysiker, begå, geografi, latin, besökare, beundrad, återskapa, arrogant, oväsentlig, förmedla, utsträckning, fängelse

Original Manipulerad

Genomsnittlig grundfrekvens: 128 Hz Användes i original Standardavvikelse : 28 Hz

Lista 2: forskarutbildning, avsky, filmografi, turné, anhängare, vacklande, genomskåda, långlivad, deriverbar, utkräva, tillverkning, flygbolag

Genomsnittlig grundfrekvens: 136 Hz Användes i original Standardavvikelse: 53 Hz

Lista 3: detektivroman, böjas, identitet, flygplan, etnicitet, tyskspråkig, protestera, lagstadgad, omedelbar, befordras, egendom, lydelse

Genomsnittlig grundfrekvens: 135 Hz Genomsnittlig grundfrekvens: 147 Hz Standardavvikelse: 55 Hz Standardavvikelse: 73 Hz

Lista 4: regeringsbildning, bolla, krigsmateriel, roman, konstgalleri, högfärdig, konstatera, uppkopplad, strukturerad, anklagas, amulett, paradigm

Lista 5: cigarettpaket, tanka, omplacering, verktyg, uppträdande, bokstavlig, kompromissa, liggande, livshotande, utvidgas, krismöte, belysning

Genomsnittlig grundfrekvens: 132 Hz Användes i original Standardavvikelse: 52 Hz

Lista 6: preventivmedel, plundra, bränslesystem, låga, rekvisitör, uppslukad, kommentera, hisnande, kringliggande, utvandra, stridsstyrka, byggfirma

Lista 7: Krigsförbrytare, supa, reaktionär, beslut, hängivenhet, ljudande, omvärdera, avundsjuk, närbesläktad, missbruka, ledningsgrupp, omfamning

(12)

BILAGA 2: Bilder från Praat

Nedan visas exempel på hur ljudvågorna och kurvan för grundfrekvensen såg ut före och efter manipulation för två av ljudklippen i sin helhet tillsammans med en mer detaljerad bild av första ordet för respektive klipp i röstanalysprogrammet Praat. I varje bild visar den övre rutan klippets ljudvåg, och den undre rutan kurvan för grundrekvensen. Vyn i vilken grundfrekvenskurvan syns går mellan 75-250 Hz.

Bild 1:

Bild 1: Ljudklipp 3, original Bild 2:

Bild 2: Ljudklipp 3, manipulerad (högre frekvensvariation) Bild 3

Bild 3: Ljudklipp 3, original

(13)

Detaljvy av ord 1 Bild 4:

Bild 4: Ljudklipp 3, manipulerad (högre frekvensvariation) Detaljvy av ord 1 Bild 5:

Bild 5: Ljudklipp 4, original Bild 6:

Bild 6: Ljudklipp 4, manipulerad (lägre frekvensvariation)

(14)

Bild 7:

Bild 7: Ljudklipp 4, original Detaljvy av ord 1 Bild 8:

Bild 8: Ljudklipp 4, manipulerad (lägre frekvensvariation) Detaljvy av ord 1

(15)

Variation i röstläget och dess påverkan på arbetsminnet

INOM

EXAMENSARBETE TEKNIK, GRUNDNIVÅ, 15 HP

STOCKHOLM SVERIGE 2020 ,

Variation i röstläget och dess påverkan på

arbetsminnet

LOVE BOOK ANJA STUDIC

KTH

SKOLAN FÖR ELEKTROTEKNIK OCH DATAVETENSKAP

Variation i röstläget och dess påverkan på ​arbetsminnet

Impact of pitch variation on working memory

Love Book

lovebook@kth.se

Anja Studic

astudic@kth.se

ABSTRACT

SAMMANFATTNING

Nyckelord

1. INTRODUKTION

2. BAKGRUND

2.1 Begreppsdefinitioner

2.2 Minne och inlärning

2.3 Rösten och grundtonsfrekvens

2.4 Tidigare forskning

2.5 Syfte

2.6 Forskningsfrågor

3. METOD

3.1 Studiedeltagare

3.2 Testets utformning

3.3 Testets utförande

3.4 Avgränsningar

3.5 Etiska överväganden

4. RESULTAT

4.1 Sammanställning av data

4.2 Analys av data

4.3 Upplevd skillnad mellan ljudklippen

5. DISKUSSION

5.1 Tolkning av resultatet

5.2 Metodkritik

5.3 Vidare forskning

6. SLUTSATS

7. REFERENSER

BILAGA 1: Förteckning över ordlistor

BILAGA 2: Bilder från Praat

www.kth.se

TRITA-EECS-EX-2020:305

Variation i röstläget och dess påverkan på arbetsminnet