Förmågan att genomskåda en röstklon: Faktorer som påverkar genomskådning av AI-genererade röstkloner

(1)

INOM

EXAMENSARBETE TEKNIK, GRUNDNIVÅ, 15 HP

STOCKHOLM SVERIGE 2020 ,

Förmågan att genomskåda en röstklon

Faktorer som påverkar genomskådning av AI-genererade röstkloner

GABRIELLA DALMAN JONATHAN HEDIN

KTH

SKOLAN FÖR ELEKTROTEKNIK OCH DATAVETENSKAP

(2)

Förmågan att genomskåda en röstklon

Faktorer som påverkar genomskådning av AI-genererade röstkloner

Gabriella Dalman

KTH Royal Institute of Technology Stockholm, Sweden

gdalman@kth.se

Jonathan Hedin

KTH Royal Institute of Technology Stockholm, Sweden

jonhedin@kth.se

SAMMANFATTNING

I takt med att maskininlärning utvecklats under senare år har skapandet av så kallade deep fakes, falsk media skapad med denna teknik, oftast video eller bilder, blivit lättare. Röstkloner är ett ämne inom talteknologin som kan sägas vara motsvarigheten för deep fakes för röster. Tidigare studier har redovisat nya tekniker för att använda neurala nätverk för att återskapa trovärdiga kloner av människors röster, men få studier har gjorts på de perceptionella faktorerna hos en människas förmåga att avgöra äktheten hos kloner. Vi gjorde därför en studie med en manlig och en kvinnlig röstklon där deltagare som var bekanta med talarnas röster sen tidigare fick avgöra äktheten hos en serie klipp varibland röstkloner var inkluderade. Frekvensomfånget begränsades i klippen i olika utsträckning för att undersöka om det fanns ett samband mellan omfången och deltagarnas förmågor.

Resultaten av undersökningen visar att frekvensomfången inte hade någon statistiskt signifikant påverkan och att de avgörande faktorerna istället var prosodi och förekomsten av artefakter i ljudklippen. Däremot fanns det en betydlig skillnad mellan framgången att genomskåda den manliga röstklonen gentemot den kvinnliga, där deltagarna i större utsträckning genomskådade den manliga.

ABSTRACT

As machine learning has advanced in later years the creation of deep fakes, fake media created using this technology, most often video or images, has become easier. Voice cloning is a subject in speech technology that can be said to be the equivalent of deep fakes for voices. Earlier studies have proposed new techniques to use neural networks to create believable clones of human voices, but few studies have been made concerning the perceptual factors of the human ability to discern the authenticity in voice clones.

Therefore we made a study with one male and one female voice clone where participants familiar with the speaker’s voices determined the authenticity of a series of clips wherein voice clones were included. Different frequency ranges were applied in order to analyse if there was a correlation between the frequency ranges and the participants’ abilities. The results of the study show that the frequency range did not make a statistically significant difference and that the determining factors instead

were prosody and artefacts in the sound clips. However, there was a significant difference between the success of detecting the male and female voice clone, where the participants more frequently detected the male voice clone.

Nyckelord

Deep fake; Voice Cloning; Text-To-Speech; Voice familiarity;

Prosody; Speech Technology

1. INLEDNING

Fake news är spridningen av desinformation för att avsiktligt vilseleda i politiskt, ekonomiskt eller emotionellt syfte och kan spridas genom traditionella medier men har blivit allt vanligare med sociala medier. Under det amerikanska valet 2016 var sociala medier en stor men inte dominant källa för nyheter kring valet.

Man utförde en studie på hur stor spridning falska nyheter hade på sociala medier och av de nyheter som identifierades som fake news hade de delats totalt 38 miljoner gånger [15]. Samtidigt utvecklas tekniken inom området deep fakes med en rasande fart, vilket gör det enklare att förfalska material med en hög nivå av trovärdighet.

Deep fake är samlingsnamnet för digitala avbildningar av människor i bild, ljud och video som genereras med maskininlärning, men begreppet används mest inom video.

Genom att mata en algoritm med träningsmaterial, såsom videor eller ljudinspelningar, kan man låta algoritmen analysera och bygga upp modeller av till exempel personens röst eller ansikte.

Dessa modeller kan skapa nytt material eller appliceras på redan existerande media för att få det att verka som att personen i median i själva verket är personen från träningsmaterialet. [2]

Man kan argumentera för att redan existerande

forskningsområden såsom voice cloning och voice conversion

även faller under begreppet deep fakes. [7, 9] Dessa syftar till att

kopiera och härma människors tal och röstegenskaper. Genom att

analysera spektrogrammen hos transkriberade inspelningar, ju mer

material desto bättre, kan datorn lära sig hur fonem uttalas i

personens dialekt och idiolekt, det vill säga en individs unika sätt

att prata. Transkriberingen av inspelningarna används för att

mappa fonemen till spektrogrammen. Ett exempel på när en

röstklon använts i skadligt syfte är en attack som skedde mot en

(3)

VD för ett brittiskt energibolag.[14] Gärningsmannen använde denna typ av förfalskad röstmedia, hädanefter kallade röstkloner, av chefen för ett av bolagets moderbolag för att via telefon övertyga offret om att föra över en stor summa pengar till ett bankkonto. Frekvensomfånget på ett telefonsamtal brukar ligga mellan 300 Hz och 3400 Hz som ur ett talkommunikativt perspektiv liknar de frekvenser som är relevanta för att förstå tal.

[1] I vår studie vill vi undersöka om denna begränsning av frekvensomfånget, i vårt fall via filter, är avgörande för förmågan hos en lyssnare att avgöra om det är en klon eller en riktig röst de lyssnar på.

1.1 Syfte

Undersökningen ska utforska den mänskliga förmågan att genomskåda en röstklon som är genererad med befintlig, allmänt tillgänglig mjukvara. Arbetet ska undersöka om begränsningar i frekvensomfång, med hjälp av filter, kan göra det svårare att urskilja en röstklon från en inspelning av talarens riktiga röst, samt titta på potentiella skillnader mellan genomskådningen av en manlig och en kvinnlig röstklon. Denna undersökning sker på röster som deltagarna är bekanta med, men som ej är allmänt kända. Syftet med forskningen är att bidra till medvetenheten om teknikens utveckling inom området för deep fakes och röstkloning.

1.2 Problemformulering

Vilka faktorer påverkar urskiljandet av mänskligt tal från klonat tal hos en talare man är bekant med?

Mer specifikt kommer undersökningen att försöka besvara följande frågor:

I. Har begräningsning av frekvensomfång någon inverkan på den omedelbara förmågan att urskilja inspelat tal från klonat tal?

II. Är det någon skillnad i förmågan att genomskåda en röstklon skapad utifrån en kvinnlig röst och en manlig röst?

III. Finns det övriga faktorer som påverkar urskiljandet av mänskligt tal från klonat tal?

1.3 Hypoteser

Undersökningen utgår från hypotesen att det klonade talet innehåller artefakter vars avslöjande effekter kan minskas med hjälp av begränsningar av frekvensomfånget hos ljudklippet och därav maskera bort artfakter i klonerna. Möjliga utfall kan dock även vara att förfalskningarna går att genomskåda och att de avgörande faktorerna är onaturliga betoningar och pauser, märkligt uttal eller bristen på mänskliga fel som stammande, upprepningar och pausljud som ‘eh’ och ‘uhm’.

1.4 Avgränsningar

Undersökningen kommer endast att använda en mjukvara för att generera en förfalskad röst och inte undersöka olika mjukvarors förmågor att skapa en trovärdig röst. Undersökningen kommer att behandla röstkloner med relativt lite träningsmaterial och kommer dessutom att vara på engelska. Mjukvaran som används för skapandet av röstklonerna i denna undersökning, Resemble AI ,

¹

kräver relativt lite träningsmaterial för att klona en röst. Studien begränsas till engelska röstkloner av personer med svenska som modersmål i tjugoårsåldern. Dessutom kommer studien bara titta på inspelningar utan bakgrundsbrus som kan störa uppfattningen av talarens röst.

2. TEORI OCH RELATERAD FORSKNING

2.1 Voice Transformation, Voice Conversion och Voice Cloning

2.1.1 Deepfakes och GANs

En teknik som används mycket inom deep fakes för att till exempel applicera ett ansikte på ett annat ansikte i en video är Generative Adversarial Network (GAN), som är en modell för att generera material som är så likt en verklig företeelse av samma typ av material som möjligt (bild, ljud, etc). Till exempel för att framställa ett ansikte på en kropp som inte tillhör ansiktet i en video. Det går ut på att man tränar upp två neurala nätverk som

“tävlar” med varandra. Det ena nätverkets uppgift är att generera material som ska likna dess träningsmaterial, det andras är att verifiera huruvida material den får är äkta eller inte. Det generativa nätverket blir till slut så bra att det särskiljande nätverket inte längre ser någon skillnad. [16]

2.1.2 Voice Transformation och Conversion

Relaterade områden till studien inkluderar voice transformation, som går ut på att ändra vissa aspekter av en talsignal utan att tappa den lingvistiska informationen i talet. [9] Voice conversion är ett delområde till voice transformation, där målet är att ändra på en talares röstegenskaper på så sätt att det låter som en annan talare.

Det finns icke-parallell och parallell voice conversion, där parallella lösningar innebär att båda inspelningar innehåller samma lingvistiska innehåll och endast röstegenskaper ska överföras mellan dem. Text dependence/independence syftar också på ifall inspelningarna kräver transkriberingar eller ej.

2.1.3 Voice Cloning

Tekniken som används i denna undersökning är voice cloning, eller röstkloning. Där voice conversion syftar till metoder för att applicera röstegenskaper hos en ursprungstalare på en annan röst ämnar röstkloning specifikt på att fånga röstegenskaperna hos ursprungstalaren för att via text-till-tal generera tal av godtycklig

1

https://www.resemble.ai/

(4)

input, som alltså inte behöver återfinnas i träningsmaterialet. [22, 7] Många bidrag i området har syftat till att kräva en mindre mängd träningsmaterial för att uppnå ett godkänt resultat. [21, 22, 23]

2.1.4 Tacotron 2

Tacotron 2 är en fullständig text-till-talsyntes som bygger på neurala nätverk, det vill säga system som lär sig saker likt människors hjärnor kan lära sig saker. [8] Den mappar fonem i ett språk till spektrogram över hur de låter och sedan använder den WaveNet som vocoder för att syntetisera talet. Det WaveNet gör är att den omvandlar spektrogrammen till ljudsignaler igen med hjälp av neurala nätverk.

Tacotron 2 har utvärderats för hur naturligt talet uppfattas enligt ett system som heter Mean Opinion Score. Det används för att utvärdera tekniska system, bland annat talsynteser, där Tacotron 2 har fått poängen 4.53 på en skala mellan 1-5. Professionellt inspelat tal har fått en poäng på 4.58. [8]

2.1.5 Resemble AI

Resemble AI

²

är ett kanadensiskt företag som använder maskininlärning för att skapa röster för olika tillämpningar, till exempel i spel eller för röstassistenter. De har även ett webbverktyg som är gratis att använda till en viss nivå för att klona sin egen röst. Vi gjorde efterforskningar på vilken teknik Resemble AI använder för skapandet av röstklonerna men inga exakta tekniska redogörelser hittades. Däremot fanns det ett Github-projekt som en av Resemble AI:s utvecklare hade lagt upp med ett program som klonar röster. [6] I det projektet hänvisar författaren vidare till Resemble AI:s mjukvara. Det projektet, Real-Time Voice Cloning , använder en kodomvandlare för tal

³

som refereras till som GE2E för att extrahera egenskaper i en röst från några få sekunders tal. Sedan används Tacotron 2 utan WaveNet, vilket liknar den första Tacotron, för att skapa spektrogram av text utifrån röstens egenskaper. Slutligen används WaveNet som en vocoder för att transformera spektrogrammen till vågform, nästan precis som hos Tacotron 2. [7] Exakta redogörelser för Resemble AI saknas som nämnt, men mycket tyder på att Tacotron 2 ligger till grunden här.

2.2 Röstkloner och grundtonsfrekvens

I en artikel av Roy Lindemann skriver han att den manliga röstens tonläge varierar mellan 85-155 Hz och den kvinnliga röstens tonläge mellan 165-255 Hz, vilket gör att den manliga röstens variation, 70 Hz, är mindre än den kvinnliga röstens variation, 90 Hz. Utifrån det menar Lindemann på att det är lättare att skapa en talsyntes baserat på träningsmaterial av en kvinnlig röst för att variationen av grundtonfrekvensen är större. [12] Den större variationen hos en kvinnlig röst gör det enklare att skilja mellan

2

https://www.resemble.ai/

3

https://github.com/CorentinJ/Real-Time-Voice-Cloning

fonem i spektrogrammen för att de inte ligger lika tätt intill varandra som för en manlig röst. Företaget Dessa, som har byggt ett verktyg för generering av röstkloner med hjälp av maskininlärning, menar också att manliga röstkloner är svårare för att det låga tonläget gör fonem mindre differentierbara i spektrogram, som algoritmen använder för att träna. [13]

2.3 Igenkänning av röster 2.3.1 Språkliga egenskaper

När det kommer till olika språk och igenkänning av tal finns det en studie som visar på att det finns egenskaper i röster som är oberoende av det talade språket, men det finns även språkliga egenskaper som gör att en talare kan kännas igen på hur den använder språket och uttalar olika ljud. [4] För att språkets alla ljud ska kunna uppfattas av en lyssnare behöver frekvensomfånget vara representativt för ljuden. [1] Frekvensomfånget hos telefoner ligger mellan 300 Hz och 3400 Hz och anses vara tillräckligt brett för att uppfatta det mest väsentliga ljuden i talet, med undantag för vissa frikativ som /f/, /s/ och /sj/. [1] Detta är relevant för den här undersökningen då vi har begränsat frekvensomfånget. Det kan även ha en påverkan för deltagarnas förmåga att känna igen talaren då de är vana vid att höra talarna prata på svenska men i denna studien kommer de prata på engelska.

2.3.2 Bekantskap med rösten

Att känna igen en röst som man är välbekant med, till exempel en nära vän eller familjemedlems röst, är enkelt för människor: En studie som gjordes för att undersöka den mänskliga förmågan att känna igen välbekanta röster visar på att det i genomsnitt tar två ord eller fyra stavelser för en människa att med 99% säkerhet känna igen en familjemedlem eller nära väns röst bland många andra röster. [5] Det gjordes även tester där lyssnarna bara fick höra en stavelse och då visade det sig att familjemedlemmarna hade lättare att känna igen rösten än vännerna, men för ljudklipp med över fyra stavelser var igenkänningsförmågan lika hög för nära vänner som familj. Dessa inspelningar filtrerades med ett bandpassfilter som skulle likna det frekvensomfång som telefonsamtal har.

2.3.3 Prosodi

Prosodi syftar till de faktorer i tal som inte kan läsas ut av fonemen. [11] Till exempel modulation av tonläge, utdragning av stavelser och variation av dynamisk styrka.

2.3 Igenkänning av röster med hjälp av AI

Det finns studier som har tittat på förmågan att träna neurala

nätverk på att urskilja spektrogram av riktigt tal från spektrogram

av fejkat tal och lyckats bra med urskiljningen. [10] Flera projekt

att hitta automatiserade åtgärder mot attacker av Automatic

Speaker Verification (ASV) system har genomförts. [3] Dessa

handlar om att utveckla nya tekniker för att skydda upplåsning av

till exempel telefoner med röstigenkänning från attacker av

syntetiskt och transformerat tal. Det finns även öppen källkod som

(5)

erbjuder verktyg för att detektera maskingenererade röstkloner.

Till exempel har Resemble AI själva ett Github projekt, Resemblyzer, som de refererar till på deras webbsida. Det är ett pythonskript som använder deep learning för att detektera om ett ljudklipp är en röstklon genom att jämföra det med riktigt mänskligt tal. Tekniken använder en så kallad Generalized End-to-End modell (GE2E) som är baserad på Googles röstigenkänningsmodell. [17, 18] Ett annat exempel är Dessa som också har byggt ett program som detekterar falska röster med en hävdad säkerhet på 90%. Även här används neurala nätverk som jämför spektrogram med varandra för att sedan avgöra hur stor sannolikheten är att ett klipp är förfalskat. [19, 20]

3. METOD

3.1 Generering med hjälp av Resemble AI

En manlig och en kvinnlig klon skapades av författarnas egna röster med gratisversionen av Resemble AI. Tvåhundra engelska meningar spelades in per klon, hädanefter kallade Gabriellas klon respektive Jonathans klon, enligt applikationens instruktioner.

Inspelningarna skedde med kondensatormikrofoner via externa ljudkort, nämligen Shure SM7B, respektive Focusrite CM25 MkIII med ljudkortet Focusrite Scarlet 2i2 i båda fallen.

När alla meningar var inspelade genererades röstklonerna av Resemble AI och kunde sedan läsa upp textinmatning på engelska. Meningarna som valdes för uppläsning av klonerna var vardagliga uttryck som talarna skulle kunna yttra. Syftet var att både ljudet, meningsbyggnaden och ordförrådet skulle likna talarna så mycket som möjligt så att deltagarnas fokus skulle ligga på hur rösten lät och inte vad den sade. Röstklonernas uppläsning av meningarna var enligt vår bedömning av varierande kvalitet och därför genererades vissa meningar om flera gånger för att uppnå bästa möjliga resultat. I vissa fall behövde fraser eller meningar se annorlunda ut mellan Jonathans och Gabriellas klon för att uppnå en likvärdig kvalitet mellan röstklonerna. Därmed var inte innehållet i klonerna exakt samma mellan talarna, men majoriteten av klippen med kloner hade liknande lingvistiskt innehåll. Audacitys effekt “change tempo” användes för att öka tempot, utan att förändra tonläget, på delar som var onaturligt långsamma och längre tystnader klipptes bort. Totalt genererades 9 meningar av röstklonerna per talare.

3.2 Röstinspelningar

27 meningar, av samma karaktär som klonerna, spelades in av talarnas röster med samma ljudutrustning som användes för att generera klonerna. För att röstinspelningarna skulle vara enhetliga med röstklonerna användes även här för talarna naturliga meningar för inspelningarna av talet. Ett exempel på en mening är

“ If it wasn’t for the bus driver stopping when he saw me running, I would be late. ” Vi uppskattar vår egen förmåga att prata engelska som flytande med en svag svensk brytning.

3.3 Ljudbehandling

För att kompensera för röstklonernas lägre ljudkvalitet komprimerades både inspelningarna och klonerna med olika bithastighet till en nivå där de hade liknande kvalitet. För detta användes AAC ljudkodning med bithastighet 32 kbit/s för inspelningarna och 64 kbit/s för klonerna.

I testet fanns det 9 olika kategorier av filter. Den första var den kategori där ljudklippens passband ej hade redigerats. Hädanefter benämns dessa klipp som normala. Resterande ljudklipp skapades alla med hjälp av Audacitys medföljande låg- och högpassfilter (se Tabell 1).

Tabell 1 Frekvensfiltren som användes och deras brytfrekvenser.

Filter Brytfrekvenser [Hz]

Normal N/A

Lågpass 4000

Lågpass 2000

Högpass 200

Högpass 400

Bandpass 200–4000

Bandpass 200–2000

Bandpass 400-4000

Bandpass 400–2000

Bandpassens brytfrekvenser ligger precis utanför respektive precis innanför det omfånget som är viktigast ur ett talkommunikativt perspektiv, det vill säga mellan 300-3400 Hz. [1]

För vardera deltagare fanns det i varje kategori av ljudkvalitet fyra olika ljudklipp, varav en var en röstklon och resterande var inspelningar. Totalt fanns det alltså 36 ljudklipp, 9 utav dem var röstkloner och 27 var röstinspelningar.

3.4 Testgrupper

Testgruppen bestod av 20 personer, 10 var vänner och

familjemedlemmar till Gabriella och 10 var vänner och

familjemedlemmar till Jonathans. Samtliga deltagare var väl

bekanta med rösten som de skulle lyssna på men inte alla var vana

vid att höra talarna prata på engelska. Testgruppens ålder

varierade från 17-65 år och grupperades in i två åldersgrupper,

17–27 och 51–65. De flesta har svenska som modersmål men det

fanns även enstaka som har kinesiska eller engelska. Alla

deltagare kan förstå engelska.

(6)

(a) (b)

(c) (d)

Figur 1 Antalet deltagare som kunde genomskåda vardera klon samt korrekt identifiera inspelningarna, oberoende av vilket ljudfilter som användes för klippet i fråga.

Tabell 2 Antal deltagare i grupperna familj, vän, 17-27 år och 51-65 år.

Talare Totalt Familj Vän 17–27 år 51–65 år

Gabriella 10 3 7 8 2

Jonathan 10 3 7 8 2

3.5 Utförande

Varje deltagare blev tilldelad en video med instruktioner följt av alla 36 ljudklipp, utan annan visuell stimuli än numret på ljudklippet. Vardera ljudklipp hade olika filter för olika deltagare för att testa varje filter oberoende av prosodiska faktorer hos klonerna. Deltagarna fick lyssna på alla de 36 olika meningarna, men passbandet för respektive mening var olika för deltagarna.

Dessutom var ordningen slumpad för varje deltagare för att undvika tränings- och ordningseffekter. Ingen deltagare fick alltså ta del av samma uppsättning filtrerade ljudklipp som en annan deltagare. Mellan varje klipp lämnades 5 sekunders tystnad för deltagarna att fylla i en svarsenkäten och sedan spelades det

upp ett ljudklipp med 5 sekunders babbel i för att återställa lyssnarnas öron inför varje nytt ljudklipp de skulle lyssna på.

Eftersom den omedelbara urskiljningsförmågan skulle undersökas fick deltagarna inte gå tillbaka i videon för att lyssna på klippen igen, utan fick endast 5 sekunder på sig att svara.

Svarsenkäten besvarades genom att rita ett streck i en ruta på en kontinuerlig skala mellan “helt säkert fejk” till “helt säkert äkta”.

Det fanns inga diskreta punkter mellan dessa extremer utan lyssnaren fick avgöra själv vart den skulle rita ett streck. Det gjordes i syfte att förenkla beslutsprocessen hos lyssnaren och därmed fånga mer spontana reaktioner från deltagarna.

Svarsenkäten var digital och därför användes ett verktyg i en webbapplikation för att kunna rita fritt på en PDF-fil.

I slutet av undersökningen fick deltagarna beskriva vad det var

som gjorde att de kunde urskilja klonerna från inspelningarna av

talarnas riktiga röster. Kommentarerna analyserades och

kategoriserades och dessa utgjorde underlaget för den kvalitativa

analysen i studien.

(7)

4. RESULTAT

4.1 Kvantitativ analys av deltagarnas prestationer

Resultaten i den kontinuerliga skalan kvantifierades till ett intervall mellan -10 och 10, där -10 representerade “Helt säkert fejk” och 10 representerade “Helt säkert äkta”. Det gjordes en indelning i rätt och fel baserat på om deltagarna hade svarat över 0 för en inspelning respektive under 0 för en klon. Notera att 0 räknades som fel i båda fallen.

4.1.1 Resultat för vardera klipp oberoende av filter

Hädanefter refereras rätt svar på en klon som en genomskådning och rätt svar på en inspelning som en korrekt identifiering.

Olika kloner hade olika mängd genomskådningar vilket syns i figur 1. Vardera av Jonathans kloner varierade mellan 8 och 10 genomskådningar, Gabriellas kloner varierade mellan 4 och 10 genomskådningar. Variationen i antal genomskådningar bland klonerna var större för Gabriellas kloner än för Jonathans.

Variationen av antal deltagare som korrekt identifierade vardera inspelning låg mellan 4 och 9 för Jonathans inspelningar samt 4 och 10 för Gabriellas inspelningar.

Ett tvåsidigt T-test, med signifikansnivå 5% visade att antalet personer som genomskådade klonerna var mindre än det största möjliga antalet genomskådningar (p = 0,001). Således förkastas hypotesen att alla deltagare kunde genomskåda alla kloner. Det vill säga att det med stor sannolikhet inte var enstaka misstag som gjorde att alla deltagare inte genomskådade alla kloner utan att det berodde på andra faktorer. Däremot var det ingen klon som lyckades vilseleda alla deltagare.

Med ett ensidigt T-test, med signifikansnivå 5%, framgick det att deltagargruppen som lyssnade på Jonathans kloner i större utsträckning kunde genomskåda dem, alltså hade fler rätt svar på klonerna, än vad deltagargruppen som lyssnade på Gabriellas kloner hade (p = 0,001). Det gällde dock inte för inspelningarna, där var det inte statistiskt signifikant att deltagargruppen som lyssnade på Jonathans inspelningar hade lättare att identifiera dem än gruppen som lyssnade på Gabriellas inspelningar (p = 0,159).

4.1.2 Resultat för vardera deltagarna

Figur 2 Antalet rätta svar som varje deltagare fick (av 27 för inspelningar, 9 för kloner), där både klonerna och inspelningarna är representerade och staplade på varandra.

I genomsnitt lyckades deltagarna som lyssnade på Gabriellas röst genomskåda 76% av klonerna och identifierade 68% av

inspelningarna korrekt (se figur 2). Motsvarande genomsnitt för Jonathan låg på 92% respektive 73%. Det visar på att majoriteten av klippen gick att urskilja huruvida de var kloner eller

inspelningar av talarnas riktiga röster.

4.1.3 Osäkerheten hos deltagarna för klonerna

Figur 3 Spridningen av svarsvärdena för vardera klon.

Figur 3 visar hur spridningen såg ut för svaren hos varje klon som

efterliknar Jonathans respektive Gabriellas röst. Det lingvistiska

innehållet i klonerna är i stor utsträckning samma för de kloner

som har samma nummer, men det finns vissa undantag där en hel

mening eller en fras skiljer sig. Efter att ha lyssnat på de

genererade meningarna gjorde vi bedömningen att byta ut vissa

fraser därför att de hade uppenbara artefakter. Värdena för

Gabriellas kloner var i regel mycket mer utspridda än för

Jonathans, där Jonathans kloner fick svar som grupperar sig runt

(8)

-10, med enstaka utstickare på den positiva skalan. För Gabriellas kloner svarade majoritet av deltagarna större än -10. Ett ensidigt T-test med signifikansnivån 5% visar en högre osäkerhet bland svaren från deltagarna som lyssnade på Gabriellas röst i jämförelse med deltagarna som lyssnade på Jonathans röst (p < 0,001).

Tabell 2 visar medelvärdet, medianen, samt största och minsta svarsvärde för rätt svar bland Jonathans kloner

Klon N Medelvärde Median Min Max

K 1 9 -8.33 -10 -10 -1

K 2 10 -8.9 -9.5 -10 -5

K 3 9 -6.67 -7 -10 -1

K 4 8 -8.25 -9.5 -10 -3

K 5 8 -8.38 -10 -10 -5

K 6 10 -8 -9 -10 -4

K 7 10 -8.7 -9.5 -10 -5

K 8 9 -8.22 -9 -10 -4

K 9 10 -8.6 -9.5 -10 -5

Tabell 3 visar medelvärdet, medianen, samt största och minsta svarsvärde för fel svar bland Jonathans kloner

Klon N Medelvärde Median Min Max

K 1 1 9 9 9 9

K 3 1 6 6 6 6

K 4 2 4 4 0 8

K 5 2 4.5 4.5 4 5

K 8 1 2 2 2 2

Tabell 4 visar medelvärdet, medianen, samt största och minsta svarsvärde för rätt svar bland Gabriellas kloner

Klon N Medelvärde Median Min Max

K 1 6 -6.17 -7 -9 -1

K 2 4 -5.25 -6 -7 -2

K 3 8 -5.63 -5.5 -10 -1

K 4 8 -7.13 -7.5 -10 -4

K 5 7 -5.57 -5 -10 -1

K 6 10 -7.4 -9 -10 -3

K 7 8 -5.75 -7 -9 -1

K 8 9 -6.89 -7 -10 -2

K 9 8 -7.38 -8.5 -10 -1

Tabell 5 visar medelvärdet, medianen, samt största och minsta svarsvärde för fel svar bland Gabriellas kloner

Klon N Medelvärde Median Min Max

K 1 4 5.5 6.5 1 8

K 2 6 6 6 3 8

K 3 2 4.5 4.5 1 8

K 4 2 5 5 2 8

K 5 3 5.33 5 3 8

K 7 2 3.5 3.5 3 4

K 8 1 8 8 8 8

K 9 2 3.5 3.5 3 4

Utifrån tabell 2 (d) kan det utläsas att Gabriellas klon 2 hade 6 fel svar vilket är flest vilseledningar av alla klonerna. Det var den enda klonen där majoriteten av deltagarna svarade att det var en inspelning av talarens riktiga röst och medelvärdet av vad de 6 deltagarna svarade är 6 enligt tabellen, vilket visar på en relativt hög säkerhet. Klonens totala medelvärde för alla svaren var 1,5.

4.2 Frekvensfiltrens påverkan

Figur 4 Spridningen av svarsvärden för klonerna med de olika filtren applicerade.

Tabell 6 Tabellen visar signifikansen på skillnaderna mellan värdena på klonerna med de olika filtren och utan.

H1: Normal ≠ Filter p (Båda) p (Jonathan) p (Gabriella)

Lowpass-4000-Hz 0.731 0.288 0.66

Lowpass-2000-Hz 0.442 0.331 0.66

Highpass-200-Hz 0.442 0.331 0.66

Highpass-400-Hz 0.08 0.331 0.135

Bandpass-200-4000-Hz 0.442 1 0.355

Bandpass-200-2000-Hz 0.714 1 0.66

Bandpass-400-4000-Hz 0.08 1 0.025

Bandpass-400-2000-Hz 0.442 0.331 0.66

(9)

Deltagarna svarade i större utsträckning fel på de kloner som inte hade filter (se figur 4). 90% jämfört med 93% rätt svar för Jonathans kloner, 60% jämfört med 78% för Gabriellas rätt svar och 75% jämfört med 85% över båda. Detta går dock ej att visa med statistisk signifikans då signifikansnivån är 13% för Jonathan och Gabriellas kloner ihopslaget (39% Jonathan och 12%

Gabriella).

Förutom ett undantag, kunde vi inte se skillnaden mellan inget filter och vardera filter (se tabell 3). Det enda filtret som gick att visa en skillnad på var bandpassfiltret som gick mellan 400 Hz och 4000 Hz på Gabriellas kloner. Ett ensidigt T-test med signifikansnivå 5% visar en skillnad mellan detta filter och inget filter alls (p=0.025) och utöver det visar det ensidiga T-testet fler felsvar på klonerna utan filter än med det bandpassfiltret (p=0,012). Det innebär att deltagarna hade lägre svarsvärden, därmed mer korrekt, med bandpassfiltret 400 Hz till 4000 Hz än de klonerna utan filter. De andra filtren visade ingen skillnad.

Figur 5 Spridningen av svarsvärden för inspelningar med olika filter, taget över alla deltagare.

Det kan ej heller påvisas någon statistiskt signifikant skillnad i svarsvärden med filter och utan filter (p=0,9) på inspelningarna, se figur 5. Utan filter jämfört med vardera enskilt filter, går inte heller att utmäta en signifikant skillnad. Det kan således inte bekräftas att filtren hade någon inverkan på deltagarnas förmåga att avgöra ljudklippens äkthet.

4.4 Kvalitativa beskrivningar från deltagare

Efter att deltagarna genomförde undersökningen fick de reflektera över vad som i deras tycke var avgörande för om de kunde urskilja om ett klipp var en klon eller ej. Flera av deltagarna nämnde samma eller liknande aspekter och dessa har delats in i olika kategorier. Kategorierna är prosodi, ljudbehandling, konstgjordhet och misstänksamhet/förväntningar. Indelningen är grov, men syftar till att enklare få en överblick över vad deltagarna tyckte var avgörande. Notera även att deltagarna i studien inte nödvändigtvis kan använda sig av den exakta terminologin för att beskriva deras upplevelser men

kommentarerna har tolkats så korrekt som möjligt för att underlätta förståelsen.

4.4.1 Prosodi

Prosodi syftar till modulation av tonläge, utdragning av stavelser och variation av dynamisk styrka. [11] Det som har kategoriserats i prosodi kretsar kring intonation, rytm och dynamik. Den mest nämnda termen bland deltagarna var betoning. Många hävdade att de kunde känna igen en genererad röst på att den inte betonade ord rätt, en deltagare med klonen av Jonathans röst skrev: “ Flytet genom meningarna kunde kännas konstigt ibland då den hade en större betoning på vissa ord som var mitt i meningarna. ” En annan frekvent återkommande och närliggande term var uttal. Här kommenderades skillnader mellan klonernas uttal och talarens individuella uttal, samt hur ordet rent språkligt ska uttalas. En del nämnde även att klonerna artikulerade vissa stavelser annorlunda från hur talarna vanligtvis brukar göra.

Några nämnde även melodi och tonfall, varav en pratade om att melodin på de klipp de trodde var kloner var mer naturlig än de hade väntat sig och att det ledde till en del osäkerhet, men från andra talades det även om att melodin i meningen kunde indikera att det var en klon. Det nämndes bland annat att de falska klippen saknade dynamiskt omfång.

Många nämnde även tidsbestämda egenskaper såsom rytm, där vissa påpekade att pauser och talhastighet ibland inte kändes naturliga. En deltagare skrev: “[...] vissa ord kunde kännas onaturligt utdragna i meningarna eller ibland det motsatta och kännas lite för snabba. ”

4.4.2 Ljudbehandling

De kommentarer som syftar till kvaliteten av ljudklippen och de olika frekvensomfången har valts att kategoriseras som ljudbehandling. Flera av deltagarna uttryckte att komprimeringen och distorsionen som uppstod av den låga bithastigheten gjorde det svårare att urskilja klonerna. De tyckte att distorsionen gjorde dem riktiga inspelningarna mer robotiska. Däremot verkade deltagarna förstå att komprimeringens effekter inte uppstod av datorgenereringen av klonerna utan av en efterbehandling av alla ljudklippen.

Två deltagare kommenterade på klangfärg eller frekvensomfånget

av ljudklippen och menade på att klangen hos vissa ljudklipp inte

stämde överens med klangfärgen hos den riktiga talaren. Det

sades även att de olika behandlingarna av ljudklippen (i

frekvensomfång) gjorde det mer eller mindre svårt att urskilja

klonerna för att vissa relevanta frekvenser för att höra röstens

klangfärg försvann med lågpassfiltren. “ De mer diskanta klippen

tyckte jag var lättare för då hörde man mer av karaktären i rösten

och kunde urskilja bättre ifall det lät som Gabriella eller inte. De

lite basigare klippen tyckte jag var svårare eftersom det fick

rösten att låta mer likt en google-translate röst ”

(10)

4.4.3 Konstgjordhet

Under konstgjordhet ingår kommentarer där deltagarna har använt begreppet robotiskt eller liknande, samt reflekterat över andningen som hörs i ljudklippen som indikerar att talet kommer från en levande människa. Flera deltagare har använt bristen på hörbar andning som en markör för att ljudklippet med stor sannolikhet är en klon och vice versa för äkta ljudklipp. “ En sak jag tror skiljer dem åt är att den riktiga tar andningspauser där man även kan höra andetaget. ” Mjukvaran som användes för att klona rösterna kunde dock ibland inkludera andningar, som den lärt sig från det träningsmaterialet som spelades in, men detta undgick inte alla deltagarna. “[ …] det hörs hur datorn försöker att kompensera för hennes luftflöde […]”.

En del deltagare kommenterade på att klonerna liknar robotar, datorer eller talsynteser såsom de som finns i mobiltelefoner, till exempel Siri eller Google assistent. Deltagarna utvecklade dock inte mer specifikt vad det var som gjorde att det lät som en talsyntes. En deltagare ur Jonathans grupp beskrev det som “ Sen verkar den fejkade vara lite burkig (typ Stephen Hawking) ”, vilket syftade mer på ljudkvaliteten än något språkligt som prosodi syftar på. En annan deltagare har beskrivit det med “ Rösten kändes ofta som en blandning av att vara metallisk och skakig i sitt uttalande. Det bästa jag kan likna det till är när man pratar in i en fläkt. ” Dessa beskrivna egenskaper sammanfattas som att ljudet är robotiskt.

4.4.4 Deltagarnas förväntningar

Flera deltagare visste inte vad de hade att förvänta sig när det gällde hur lika klonerna skulle vara talarnas riktiga röster och de beskrev att det var svårare i början av testet att urskilja klonerna för att de inte hade någon referenspunkt.

5. DISKUSSION

Experimentet utfördes för att undersöka om förmågan att genomskåda röstkloner av bekanta talare påverkas av filtrering av frekvensinnehållet i klonerna. Dessutom undersöktes om resultatet varierar mellan en manlig och en kvinnlig röst skapad med samma förutsättningar. Hypotesen som utgicks ifrån var att det genererade talet skulle innehålla avslöjande artefakter som kunde röja dess påstådda äkthet och att via en begränsning av frekvensomfånget i klippet skulle man kunna maskera dessa för att öka osäkerheten hos deltagarna.

5.1 Frekvensfiltrens påverkan

I resultaten fanns ingen tydlig koppling mellan frekvensomfången i klippen och deltagarnas förmåga att avgöra om rösten i klippet var äkta eller ej. Den enda statistiskt signifikanta skillnaden som hittades var mellan klipp utan filter och klipp med filtret bandpass 400-4000 Hz, där det var lättare för deltagarna som lyssnade på Gabriellas kloner att korrekt identifiera klipp med filtret än utan, vilket gick tvärt emot undersökningens hypotes. I och med att detta filter var det enda med en signifikant skillnad, samt att samma skillnad inte överhuvudtaget kunnat utläsas från svaren på

Jonathans kloner, vidtas försiktighet kring att dra några konkreta slutsatser av detta.

Att deltagarna i en majoritet av fallen kunde genomskåda de kloner som fanns tyder på att avgörande faktorer för detta rimligtvis inte inkluderade frekvensomfånget i klippen. Slutsatsen bör ej dras att frekvensfilter inte kan ha en påverkan, men i det föreliggande experimentet var det andra aspekter av klippen som tog prioritet i avgörandet av äkthet för ett röstklipp. Det prosodiska innehållet, samt andra egenskaper hos ljudet spelade en större roll i detta fall, trots att en deltagare kommenterade att viktiga frekvenser för att känna igen talarens röst försvann med lågpassfiltren. Det betyder att filtren inte hade någon påverkan på deltagarnas förmåga att genomskåda klonerna i denna studie.

5.2 Klonens defekter

Primärt kunde vi se ett samband i reflektionerna som deltagarna fick göra efter undersökningen. De flesta uppmärksammade olika prosodiska faktorer hos klonerna som betoning av ord, melodin i en mening och uttal av olika stavelser hos talarna. Det som gör det svårt för röstkloner och talsynteser med prosodi är att prosodi innebär de faktorer som inte kan läsas ut ur fonem vilket är hur datan oftast sparas. [11] När meningarna som klonerna skulle säga skapades, märktes det att samma mening kunde låta annorlunda varje gång man genererade den. Därmed genererades varje mening flera gånger och det som lät mest naturligt valdes ut.

Resultaten för klonen av Gabriellas röst visade på en inkonsekvens i hur trovärdigt material den kan generera. Den stora variationen mellan antal som genomskådade vardera klon tyder på att olika meningar resulterade i olika kvalitet av genereringarna. Framförallt var det klon 2 som läste meningen

“ Yesterday I witnessed the most wonderful thing one can wish to see in a lifetime. ” som 6 av 10 deltagare misstog för talarens riktiga röst. Transkriptet för alla meningar som klonen läste hade samma karaktär och språk, men den meningen som klon 2 innehöll blev tillräckligt trovärdig för att vilseleda majoriteten av deltagarna. Utan mer efterforskning kan ingen slutsats dras men vårt antagande är att det var en slump att just den meningen kunde återskapas så naturligt med dem fonem som fanns att tillgå i träningsmaterialet. Resten av det klonade innehållet lyckades majoriteten av deltagarna genomskåda. Mjukvaran höll alltså inte en konstant kvalitet, utan kunde variera.

5.3 Skillnaden mellan talarnas kloner

Klonerna av Jonathans och Gabriellas röster spelades in med

samma mjukvara och likvärdiga studiomikrofoner. Däremot hade

Jonathans mikrofon puffskydd som eliminerar ljudet som skapas

av lufttrycket när man säger till exempel bokstaven “p”, vilket

inte Gabriellas mikrofon hade men det var inget som hördes vid

inspektion av varken klonerna eller inspelningarna. Allt

träningsmaterial spelades in i separata miljöer i hemmet, men vi

tror inte heller att det hade en stor påverkan då rumsklangen lät

likadant vid inspektion av både kloner och inspelningar. Antal

(11)

meningar som användes för att träna de båda klonerna var lika många, 200 stycken.

Vi tror oss kunna utesluta de utomstående faktorerna som inspelningsmiljö och lägger istället fokus på inre faktorer som hur rösterna låter. Enligt Lindemann [12] är det lättare att skapa en talsyntes med en kvinnlig röst än med en manlig röst på grund av att den kvinnliga rösten varierar mer i tonhöjd vid tal än en manlig röst gör. Det gör det enklare att urskilja fonem från träningsmaterialet och ger därför ett bättre resultat. Resultatet av undersökningen visar att deltagarna som lyssnade på Jonathans röst i större mån kunde genomskåda klonen än vad deltagarna som lyssnade på Gabriellas röst kunde. När vi själva lyssnade på klonerna tyckte vi också kunna höra en skillnad i kvalitet mellan klonerna. Lindemanns teori och ingenjörerna på företaget Dessa pekar på att skillnaden mellan klonerna beror på grundfrekvensen hos talarna. [12, 13]

5.4 Antal deltagare och kontroll på distans

För att få bättre underlag för att dra slutsatser om bekantskap och ålder skulle en större grupp av deltagare varit att föredra. Det totala antalet deltagare, 20 stycken, är fördelade på bekantskap och ålder enligt tabell 2. Antalet personer i kategorierna familj och åldern 51–65, var för liten för att kunna dra några slutsatser med signifikanta skillnader från.

Vid tiden för datainsamlingen rådde självisolering med anledning av COVID-19 och därför behövde alla tester ske på distans. Detta medförde bland annat att det inte gick att ha kontroll över hörlurarna som deltagarna använde i testerna. Bedömningen gjordes att kvaliteten på hörlurarna inte skulle ha en väsentlig påverkan då testmaterialet medvetet var lågupplöst. Dock kan skillnader i frekvenssvar i hörlurarna ha gjort att amplituderna hos frekvenser i klippen sett annorlunda ut för olika deltagare, vilket kan ha påverkat sättet som olika deltagare upplevde frekvensomfånget med och utan de olika filtren.

5.5 Val av språk

Med mjukvaran Resemble AI som användes för att klona talarnas röster gick det bara att klona röster på engelska. Svenska är talarnas vardagliga språk och även det språk som de flesta deltagarna använder för att konversera med talarna. Några av deltagarna skrev att en faktor som gjorde det svårare för dem var att de inte var vana vid att höra talarna prata helt på engelska. Alla deltagarna är flytande i engelska och vana vid att höra det språket i medier, men de flesta pratar svenska i vardagen och svenska med talarna. Igenkänning av en röst har inte bara med själva rösten att göra utan också hur talaren uttalar och använder språket [4]. I detta fall gjorde det faktum att engelska inte är talarnas vardagliga språk det svårare för deltagarna att känna igen rösterna. Däremot gick det ändå att genomskåda klonerna vilket tyder på att språket inte hade en stor påverkan.

5.6 Deltagarnas förväntningar

I undersökningen instruerades deltagarna att det fanns en andel ljudklipp som var kloner av talarens röst och en andel som var riktiga inspelningar, men deltagarna visste inte hur stora andelarna var. Flera deltagare uttryckte dessutom i kommentarerna att de inte visste hur lika klonerna skulle vara talarens riktiga röst och några deltagare var därför extra misstänksamma mot alla ljudklippen. Det syns i resultaten att deltagarna svarade att många av talarnas riktiga inspelningar var kloner. I många fall var mindre än hälften av vissa deltagares svar för inspelningar korrekta, vilket tyder på en pessimistisk utgångspunkt i förhållande till om deltagarna inte hade varit medvetna om klonerna. Nivån av misstänksamhet var därför hög. Detta kan ha fått effekten att minsta osäkerhet leder deltagaren till att tro att ljudklippet är en klon. Möjligen kan det ha funnits sätt att korrigera för detta. Till exempel om deltagarna i förväg hade fått veta hur stor andel av ljudklippen som var kloner hade de kanske inte garderat sig på samma sätt genom att svara negativt på många inspelningar för att de var osäkra på hur många kloner som fanns. Det hade dock kunnat göra det lättare för deltagarna att göra sina val ju längre testet pågår, då de hade kunnat gissa sig fram till hur många som rimligtvis borde finnas kvar.

Att undersökningen begränsade sig till att testa deltagare som var medvetna om att stimulit skulle innehålla röstkloner, hade även effekten att klonerna var under noggrann granskning och aktivt letades ut. Resultaten hade förmodligen kunnat vara annorlunda om deltagarna inte var medvetna om klonerna. Det finns potential för studier som undersöker förmågan att vilseleda hos röstkloner bland omedvetna deltagare. Exempelvis skulle man kunna ringa upp deltagare med hjälp av röstkloner och undersöka deras reaktioner. Detta är speciellt relevant eftersom att det redan har skett attacker med denna typ av teknik. [14] Det kan också vara av intresse att jämföra resultaten mellan ett test där deltagare är medvetna och där deltagare inte är medvetna för att undersöka hur stor roll misstänksamhet spelar i deltagarnas avgörningsförmåga.

I föreliggande experiment skulle det varit svårt att genomföra sådana tester då röstklonerna i så fall hade behövt vara på svenska, men det var utanför undersökningens avgränsningar.

Något som även kan ha stor påverkan är existensen av en referenspunkt för deltagarna. En person kan potentiellt lätt känna igen en klon när den väl har hört hur en riktig inspelning låter, men kanske inte skulle ha lika lätt om den behövt avgöra äktheten utan andra äkta klipp att jämföra med.

5.7 Undersökningens bidrag till området

AI-genererade röstkloner är ännu ett nytt område som har sett

mycket utveckling de senaste åren och tekniken är fortfarande i en

accelererande utvecklingsfas. Kvaliteten på röstkloner är även ett

brett spektrum som har många avgörande faktorer och som sådant

är det svårt att säga hur brett resultatet från denna undersökning

(12)

kan appliceras på området i sin helhet. En stor del av utvecklingen har på senare tid handlat om att minska träningsmaterialet som krävs för att uppnå ett bra resultat, men kvaliteten är fortfarande i stor mån beroende av längden på träningsmaterialet. Kloner i denna undersökning hade, med 200 inspelade meningar, förhållandevis lite träningsmaterial, undersökningen är därför mer representativ för andra kloner med liten mängd träningsmaterial.

Vi anser att resultaten ej kan generaliseras till att gälla för alla röstkloner, men det kan ge en indikation av prioriteringsordningen för vilka aspekter som lyssnare använder för att identifiera röstkloner från äkta inspelningar.

6. SLUTSATS

Vi lät deltagare som är bekanta med våra röster (en manlig, en kvinnlig) lyssna på en serie ljudklipp där riktiga röstinspelningar blandades med röstkloner. Klippen hade olika filter (högpass, lågpass och bandpass). Resultaten analyserades för att undersöka om passbandet hade någon påverkan på deltagarnas förmåga att avgöra äktheten på klippen, samt för att undersöka skillnader mellan den manliga och den kvinnliga röstklonen. Deltagarna fick även reflektera över testet och dessa reflektioner användes för att besvara vilka andra faktorer som påverkade deras avgöranden.

Ur resultatet av undersökningen finner vi ingen korrelation mellan användning av frekvensbegränsande filter och deltagarnas förmåga att genomskåda de två röstkloner som användes i studien.

Det kan ej uteslutas att frekvensomfång kan spela en roll i hur väl en person bekant med talarens riktiga röst kan avgöra äktheten, men ur deltagarnas kommentarer kan det utläsas att andra faktorer hade en större prioritet i avgörandet. Dessa faktorer var prosodi, övriga konstgjordhetsmarkörer såsom brist på andningspauser samt utomstående faktorer som deltagares misstänksamhet gentemot ljudklippet. Misstänksamheten hade troligen stor påverkan då minsta osäkerhet ledde deltagarna till att ifrågasätta ljudklippen.

Något som kan konstateras är en signifikant skillnad mellan hur Gabriellas röstklon presterade jämfört med Jonathans röstklon, men försiktighet bör vidtas med att dra slutsatser om detta resultat är applicerbart för manliga och kvinnliga röstkloner i allmänhet.

Fler studier skulle behövas för att kunna visa på en allmän korrelation eller brist på sådan mellan frekvensomfång för röstkloner och deras uppfattade äkthet, samt för att fastställa uppfattade skillnader i äkthet mellan manliga och kvinnliga röstkloner.

7. TACK

Vi vill tacka vår handledare Kjetil Falkenberg och vår handledningsgrupp samt alla deltagare i studien.

Vi vill också tacka professor Jonas Beskow på KTH för vägledning inom området för röstkloner.

Slutligen vill vi tacka Zakarias Faust och Christofer Bustad på Sveriges Radio för rådgivning och expertis.

8. REFERENSER

[1] Sten Ternström. Ljud som Informationsbärare. KTH, Stockholm, 2018.

[2] Bobby Chesney and Danielle Citron. 2019. Deep fakes: A looming challenge for privacy, democracy, and national security.

Calif. L. Rev. 107: 1753.

[3] Massimiliano Todisco, Xin Wang, Ville Vestman, Md Sahidullah, Héctor Delgado, Andreas Nautsch, Junichi

Yamagishi, Nicholas Evans, Tomi Kinnunen, and Kong Aik Lee.

2019. Asvspoof 2019: Future horizons in spoofed and fake audio detection. arXiv preprint arXiv:1904.05441.

[4] Stephen J Winters, Susannah V Levi, and David B Pisoni.

2008. Identification and discrimination of bilingual talkers across languages. The Journal of the Acoustical Society of America 123, 6: 4524–4538.

[5] Julien Plante-Hébert and Victor J Boucher. The effect of familiarity on speaker identification in voice line-ups.

[6] CorentinJ. 2019. Real-Time-Voice-Cloning. Github. Hämtad 17 maj, 2020 från

https://github.com/CorentinJ/Real-Time-Voice-Cloning

[7] Corentin Jemine. 2019. Master thesis: Automatic Multispeaker Voice Cloning.

[8] Jonathan Shen, Ruoming Pang, Ron J Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, and Rj Skerrv-Ryan. 2018. Natural tts synthesis by conditioning wavenet on mel spectrogram predictions. In 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 4779–4783.

[9] Seyed Hamidreza Mohammadi and Alexander Kain. 2017. An overview of voice conversion systems. Speech Communication 88: 65–82.

[10] Hafiz Malik and Raghavendar Changalvala. 2019. Fighting AI with AI: Fake Speech Detection Using Deep Learning. In Audio Engineering Society Conference: 2019 AES International Conference on Audio Forensics.

[11] Sieb Nooteboom. 1997. The prosody of speech: melody and rhythm. The handbook of phonetic sciences 5: 640–673.

[12] Roy Lindemann. 2015. Using female voices in speech synthesis. (Mars 2015) Voices. Hämtad 17 maj 2020 från https://www.readspeaker.com/blog/text-to-speech-voices/using-fe male-voices-in-speech-synthesis/

[13] Dessa. 2019. RealTalk: (Pt: II) How we recreated Joe Rogan’s voice using AI. (July 2019). Medium. Hämtad 31 januari 2020 från

https://medium.com/dessa-news/realtalk-how-it-works-94c1afda6 2f0

[14] Damiani, J. 2019. A Voice Deepfake Was Used To Scam A

CEO Out Of $243,000. (September 2019). Forbes. Hämtad 8 maj

(13)

2020 från

https://www.forbes.com/sites/jessedamiani/2019/09/03/a-voice-de epfake-was-used-to-scam-a-ceo-out-of-243000/

[15] Hunt Allcott and Matthew Gentzkow. 2017. Social media and fake news in the 2016 election. Journal of economic perspectives 31, 2: 211–236.

[16] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. 2014. Generative adversarial nets. In Advances in neural information processing systems, 2672–2680.

[17] Resemble-ai. 2019. Resemblyzer. Github. Hämtad 17 maj 2020 från https://github.com/resemble-ai/Resemblyzer

[18] Li Wan, Quan Wang, Alan Papir, and Ignacio Lopez Moreno.

2018. Generalized end-to-end loss for speaker verification. In 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 4879–4883.

[19] Dessa. 2019. Detecting Audio Deepfakes with AI.

(September 2019). Medium. Hämtad 13 maj 2020 från

https://medium.com/dessa-news/detecting-audio-deepfakes-f2edfd 8e2b35

[20] Dessa-oss. 2019. Fake-Voice-Detection. Github. Hämtad 17 maj 2020 från https://github.com/dessa-oss/fake-voice-detection [21] Yutian Chen, Yannis Assael, Brendan Shillingford, David Budden, Scott Reed, Heiga Zen, Quan Wang, Luis C Cobo, Andrew Trask, and Ben Laurie. 2018. Sample efficient adaptive text-to-speech. arXiv preprint arXiv:1809.10460.

[22] Sercan Arik, Jitong Chen, Kainan Peng, Wei Ping, and Yanqi Zhou. 2018. Neural voice cloning with a few samples. In

Advances in Neural Information Processing Systems, 10019–10029.

[23] CHEN Jitong, PENG Kainan, PING Wei, and ZHOU Yanqi.

2019. Systems and methods for neural voice cloning with a few

samples.

(14)

www.kth.se

TRITA-EECS-EX-2020:263

Förmågan att genomskåda en röstklon: Faktorer som påverkar genomskådning av AI-genererade röstkloner

INOM

EXAMENSARBETE TEKNIK, GRUNDNIVÅ, 15 HP

STOCKHOLM SVERIGE 2020 ,

Förmågan att genomskåda en röstklon

Faktorer som påverkar genomskådning av AI-genererade röstkloner

GABRIELLA DALMAN JONATHAN HEDIN

KTH

SKOLAN FÖR ELEKTROTEKNIK OCH DATAVETENSKAP

Förmågan att genomskåda en röstklon

Faktorer som påverkar genomskådning av AI-genererade röstkloner

Gabriella Dalman

KTH Royal Institute of Technology Stockholm, Sweden

gdalman@kth.se

Jonathan Hedin

KTH Royal Institute of Technology Stockholm, Sweden

jonhedin@kth.se

SAMMANFATTNING

ABSTRACT

were prosody and artefacts in the sound clips. However, there was a significant difference between the success of detecting the male and female voice clone, where the participants more frequently detected the male voice clone.

Nyckelord

Deep fake; Voice Cloning; Text-To-Speech; Voice familiarity;

Prosody; Speech Technology

1. INLEDNING

Deep fake är samlingsnamnet för digitala avbildningar av människor i bild, ljud och video som genereras med maskininlärning, men begreppet används mest inom video.

Genom att mata en algoritm med träningsmaterial, såsom videor eller ljudinspelningar, kan man låta algoritmen analysera och bygga upp modeller av till exempel personens röst eller ansikte.

Dessa modeller kan skapa nytt material eller appliceras på redan existerande media för att få det att verka som att personen i median i själva verket är personen från träningsmaterialet. [2]

Man kan argumentera för att redan existerande

forskningsområden såsom ​voice cloning och ​voice conversion

även faller under begreppet deep fakes. [7, 9] Dessa syftar till att

kopiera och härma människors tal och röstegenskaper. Genom att

analysera spektrogrammen hos transkriberade inspelningar, ju mer

material desto bättre, kan datorn lära sig hur fonem uttalas i

personens dialekt och idiolekt, det vill säga en individs unika sätt

att prata. Transkriberingen av inspelningarna används för att

mappa fonemen till spektrogrammen. Ett exempel på när en

röstklon använts i skadligt syfte är en attack som skedde mot en

[1] I vår studie vill vi undersöka om denna begränsning av frekvensomfånget, i vårt fall via filter, är avgörande för förmågan hos en lyssnare att avgöra om det är en klon eller en riktig röst de lyssnar på.

1.1 Syfte

1.2 Problemformulering

Vilka faktorer påverkar urskiljandet av mänskligt tal från klonat tal hos en talare man är bekant med?

Mer specifikt kommer undersökningen att försöka besvara följande frågor:

I. Har begräningsning av frekvensomfång någon inverkan på den omedelbara förmågan att urskilja inspelat tal från klonat tal?

II. Är det någon skillnad i förmågan att genomskåda en röstklon skapad utifrån en kvinnlig röst och en manlig röst?

III. Finns det övriga faktorer som påverkar urskiljandet av mänskligt tal från klonat tal?

1.3 Hypoteser

1.4 Avgränsningar

kräver relativt lite träningsmaterial för att klona en röst. Studien begränsas till engelska röstkloner av personer med svenska som modersmål i tjugoårsåldern. Dessutom kommer studien bara titta på inspelningar utan bakgrundsbrus som kan störa uppfattningen av talarens röst.

2. TEORI OCH RELATERAD FORSKNING

2.1 Voice Transformation, Voice Conversion och Voice Cloning

2.1.1 Deepfakes och GANs

2.1.2 Voice Transformation och Conversion

2.1.3 Voice Cloning

https://www.resemble.ai/

input, som alltså inte behöver återfinnas i träningsmaterialet. [22, 7] Många bidrag i området har syftat till att kräva en mindre mängd träningsmaterial för att uppnå ett godkänt resultat. [21, 22, 23]

2.1.4 Tacotron 2

2.1.5 Resemble AI

Resemble AI

2.2 Röstkloner och grundtonsfrekvens

https://www.resemble.ai/

https://github.com/CorentinJ/Real-Time-Voice-Cloning

2.3 Igenkänning av röster 2.3.1 Språkliga egenskaper

2.3.2 Bekantskap med rösten

2.3.3 Prosodi

Prosodi syftar till de faktorer i tal som inte kan läsas ut av fonemen. [11] Till exempel modulation av tonläge, utdragning av stavelser och variation av dynamisk styrka.

2.3 Igenkänning av röster med hjälp av AI

Det finns studier som har tittat på förmågan att träna neurala

nätverk på att urskilja spektrogram av riktigt tal från spektrogram

av fejkat tal och lyckats bra med urskiljningen. [10] Flera projekt

att hitta automatiserade åtgärder mot attacker av Automatic

Speaker Verification (ASV) system har genomförts. [3] Dessa

handlar om att utveckla nya tekniker för att skydda upplåsning av

till exempel telefoner med röstigenkänning från attacker av

syntetiskt och transformerat tal. Det finns även öppen källkod som

erbjuder verktyg för att detektera maskingenererade röstkloner.

3. METOD

3.1 Generering med hjälp av Resemble AI

En manlig och en kvinnlig klon skapades av författarnas egna röster med gratisversionen av Resemble AI. Tvåhundra engelska meningar spelades in per klon, hädanefter kallade Gabriellas klon respektive Jonathans klon, enligt applikationens instruktioner.

Inspelningarna skedde med kondensatormikrofoner via externa ljudkort, nämligen Shure SM7B, respektive Focusrite CM25 MkIII med ljudkortet Focusrite Scarlet 2i2 i båda fallen.

3.2 Röstinspelningar

forskningsområden såsom voice cloning och voice conversion

“ If it wasn’t for the bus driver stopping when he saw me running, I would be late. ” Vi uppskattar vår egen förmåga att prata engelska som flytande med en svag svensk brytning.

I testet fanns det 9 olika kategorier av filter. Den första var den kategori där ljudklippens passband ej hade redigerats. Hädanefter benämns dessa klipp som normala. Resterande ljudklipp skapades alla med hjälp av Audacitys medföljande låg- och högpassfilter (se Tabell 1).

Tabell 1 Frekvensfiltren som användes och deras brytfrekvenser.

(a) (b)

(c) (d)

Figur 1 Antalet deltagare som kunde genomskåda vardera klon samt korrekt identifiera inspelningarna, oberoende av vilket ljudfilter som användes för klippet i fråga.

Tabell 2 Antal deltagare i grupperna familj, vän, 17-27 år och 51-65 år.