INOM
EXAMENSARBETE TEKNIK, GRUNDNIVÅ, 15 HP
STOCKHOLM SVERIGE 2020 ,
Förmågan att genomskåda en röstklon
Faktorer som påverkar genomskådning av AI-genererade röstkloner
GABRIELLA DALMAN JONATHAN HEDIN
KTH
SKOLAN FÖR ELEKTROTEKNIK OCH DATAVETENSKAP
Förmågan att genomskåda en röstklon
Faktorer som påverkar genomskådning av AI-genererade röstkloner
Gabriella Dalman
KTH Royal Institute of Technology Stockholm, Sweden
gdalman@kth.se
Jonathan Hedin
KTH Royal Institute of Technology Stockholm, Sweden
jonhedin@kth.se
SAMMANFATTNING
I takt med att maskininlärning utvecklats under senare år har skapandet av så kallade deep fakes, falsk media skapad med denna teknik, oftast video eller bilder, blivit lättare. Röstkloner är ett ämne inom talteknologin som kan sägas vara motsvarigheten för deep fakes för röster. Tidigare studier har redovisat nya tekniker för att använda neurala nätverk för att återskapa trovärdiga kloner av människors röster, men få studier har gjorts på de perceptionella faktorerna hos en människas förmåga att avgöra äktheten hos kloner. Vi gjorde därför en studie med en manlig och en kvinnlig röstklon där deltagare som var bekanta med talarnas röster sen tidigare fick avgöra äktheten hos en serie klipp varibland röstkloner var inkluderade. Frekvensomfånget begränsades i klippen i olika utsträckning för att undersöka om det fanns ett samband mellan omfången och deltagarnas förmågor.
Resultaten av undersökningen visar att frekvensomfången inte hade någon statistiskt signifikant påverkan och att de avgörande faktorerna istället var prosodi och förekomsten av artefakter i ljudklippen. Däremot fanns det en betydlig skillnad mellan framgången att genomskåda den manliga röstklonen gentemot den kvinnliga, där deltagarna i större utsträckning genomskådade den manliga.
ABSTRACT
As machine learning has advanced in later years the creation of deep fakes, fake media created using this technology, most often video or images, has become easier. Voice cloning is a subject in speech technology that can be said to be the equivalent of deep fakes for voices. Earlier studies have proposed new techniques to use neural networks to create believable clones of human voices, but few studies have been made concerning the perceptual factors of the human ability to discern the authenticity in voice clones.
Therefore we made a study with one male and one female voice clone where participants familiar with the speaker’s voices determined the authenticity of a series of clips wherein voice clones were included. Different frequency ranges were applied in order to analyse if there was a correlation between the frequency ranges and the participants’ abilities. The results of the study show that the frequency range did not make a statistically significant difference and that the determining factors instead
were prosody and artefacts in the sound clips. However, there was a significant difference between the success of detecting the male and female voice clone, where the participants more frequently detected the male voice clone.
Nyckelord
Deep fake; Voice Cloning; Text-To-Speech; Voice familiarity;
Prosody; Speech Technology
1. INLEDNING
Fake news är spridningen av desinformation för att avsiktligt vilseleda i politiskt, ekonomiskt eller emotionellt syfte och kan spridas genom traditionella medier men har blivit allt vanligare med sociala medier. Under det amerikanska valet 2016 var sociala medier en stor men inte dominant källa för nyheter kring valet.
Man utförde en studie på hur stor spridning falska nyheter hade på sociala medier och av de nyheter som identifierades som fake news hade de delats totalt 38 miljoner gånger [15]. Samtidigt utvecklas tekniken inom området deep fakes med en rasande fart, vilket gör det enklare att förfalska material med en hög nivå av trovärdighet.
Deep fake är samlingsnamnet för digitala avbildningar av människor i bild, ljud och video som genereras med maskininlärning, men begreppet används mest inom video.
Genom att mata en algoritm med träningsmaterial, såsom videor eller ljudinspelningar, kan man låta algoritmen analysera och bygga upp modeller av till exempel personens röst eller ansikte.
Dessa modeller kan skapa nytt material eller appliceras på redan existerande media för att få det att verka som att personen i median i själva verket är personen från träningsmaterialet. [2]
Man kan argumentera för att redan existerande
forskningsområden såsom voice cloning och voice conversion
även faller under begreppet deep fakes. [7, 9] Dessa syftar till att
kopiera och härma människors tal och röstegenskaper. Genom att
analysera spektrogrammen hos transkriberade inspelningar, ju mer
material desto bättre, kan datorn lära sig hur fonem uttalas i
personens dialekt och idiolekt, det vill säga en individs unika sätt
att prata. Transkriberingen av inspelningarna används för att
mappa fonemen till spektrogrammen. Ett exempel på när en
röstklon använts i skadligt syfte är en attack som skedde mot en
VD för ett brittiskt energibolag.[14] Gärningsmannen använde denna typ av förfalskad röstmedia, hädanefter kallade röstkloner, av chefen för ett av bolagets moderbolag för att via telefon övertyga offret om att föra över en stor summa pengar till ett bankkonto. Frekvensomfånget på ett telefonsamtal brukar ligga mellan 300 Hz och 3400 Hz som ur ett talkommunikativt perspektiv liknar de frekvenser som är relevanta för att förstå tal.
[1] I vår studie vill vi undersöka om denna begränsning av frekvensomfånget, i vårt fall via filter, är avgörande för förmågan hos en lyssnare att avgöra om det är en klon eller en riktig röst de lyssnar på.
1.1 Syfte
Undersökningen ska utforska den mänskliga förmågan att genomskåda en röstklon som är genererad med befintlig, allmänt tillgänglig mjukvara. Arbetet ska undersöka om begränsningar i frekvensomfång, med hjälp av filter, kan göra det svårare att urskilja en röstklon från en inspelning av talarens riktiga röst, samt titta på potentiella skillnader mellan genomskådningen av en manlig och en kvinnlig röstklon. Denna undersökning sker på röster som deltagarna är bekanta med, men som ej är allmänt kända. Syftet med forskningen är att bidra till medvetenheten om teknikens utveckling inom området för deep fakes och röstkloning.
1.2 Problemformulering
Vilka faktorer påverkar urskiljandet av mänskligt tal från klonat tal hos en talare man är bekant med?
Mer specifikt kommer undersökningen att försöka besvara följande frågor:
I. Har begräningsning av frekvensomfång någon inverkan på den omedelbara förmågan att urskilja inspelat tal från klonat tal?
II. Är det någon skillnad i förmågan att genomskåda en röstklon skapad utifrån en kvinnlig röst och en manlig röst?
III. Finns det övriga faktorer som påverkar urskiljandet av mänskligt tal från klonat tal?
1.3 Hypoteser
Undersökningen utgår från hypotesen att det klonade talet innehåller artefakter vars avslöjande effekter kan minskas med hjälp av begränsningar av frekvensomfånget hos ljudklippet och därav maskera bort artfakter i klonerna. Möjliga utfall kan dock även vara att förfalskningarna går att genomskåda och att de avgörande faktorerna är onaturliga betoningar och pauser, märkligt uttal eller bristen på mänskliga fel som stammande, upprepningar och pausljud som ‘eh’ och ‘uhm’.
1.4 Avgränsningar
Undersökningen kommer endast att använda en mjukvara för att generera en förfalskad röst och inte undersöka olika mjukvarors förmågor att skapa en trovärdig röst. Undersökningen kommer att behandla röstkloner med relativt lite träningsmaterial och kommer dessutom att vara på engelska. Mjukvaran som används för skapandet av röstklonerna i denna undersökning, Resemble AI ,
1kräver relativt lite träningsmaterial för att klona en röst. Studien begränsas till engelska röstkloner av personer med svenska som modersmål i tjugoårsåldern. Dessutom kommer studien bara titta på inspelningar utan bakgrundsbrus som kan störa uppfattningen av talarens röst.
2. TEORI OCH RELATERAD FORSKNING
2.1 Voice Transformation, Voice Conversion och Voice Cloning
2.1.1 Deepfakes och GANs
En teknik som används mycket inom deep fakes för att till exempel applicera ett ansikte på ett annat ansikte i en video är Generative Adversarial Network (GAN), som är en modell för att generera material som är så likt en verklig företeelse av samma typ av material som möjligt (bild, ljud, etc). Till exempel för att framställa ett ansikte på en kropp som inte tillhör ansiktet i en video. Det går ut på att man tränar upp två neurala nätverk som
“tävlar” med varandra. Det ena nätverkets uppgift är att generera material som ska likna dess träningsmaterial, det andras är att verifiera huruvida material den får är äkta eller inte. Det generativa nätverket blir till slut så bra att det särskiljande nätverket inte längre ser någon skillnad. [16]
2.1.2 Voice Transformation och Conversion
Relaterade områden till studien inkluderar voice transformation, som går ut på att ändra vissa aspekter av en talsignal utan att tappa den lingvistiska informationen i talet. [9] Voice conversion är ett delområde till voice transformation, där målet är att ändra på en talares röstegenskaper på så sätt att det låter som en annan talare.
Det finns icke-parallell och parallell voice conversion, där parallella lösningar innebär att båda inspelningar innehåller samma lingvistiska innehåll och endast röstegenskaper ska överföras mellan dem. Text dependence/independence syftar också på ifall inspelningarna kräver transkriberingar eller ej.
2.1.3 Voice Cloning
Tekniken som används i denna undersökning är voice cloning, eller röstkloning. Där voice conversion syftar till metoder för att applicera röstegenskaper hos en ursprungstalare på en annan röst ämnar röstkloning specifikt på att fånga röstegenskaperna hos ursprungstalaren för att via text-till-tal generera tal av godtycklig
1
https://www.resemble.ai/
input, som alltså inte behöver återfinnas i träningsmaterialet. [22, 7] Många bidrag i området har syftat till att kräva en mindre mängd träningsmaterial för att uppnå ett godkänt resultat. [21, 22, 23]
2.1.4 Tacotron 2
Tacotron 2 är en fullständig text-till-talsyntes som bygger på neurala nätverk, det vill säga system som lär sig saker likt människors hjärnor kan lära sig saker. [8] Den mappar fonem i ett språk till spektrogram över hur de låter och sedan använder den WaveNet som vocoder för att syntetisera talet. Det WaveNet gör är att den omvandlar spektrogrammen till ljudsignaler igen med hjälp av neurala nätverk.
Tacotron 2 har utvärderats för hur naturligt talet uppfattas enligt ett system som heter Mean Opinion Score. Det används för att utvärdera tekniska system, bland annat talsynteser, där Tacotron 2 har fått poängen 4.53 på en skala mellan 1-5. Professionellt inspelat tal har fått en poäng på 4.58. [8]
2.1.5 Resemble AI
Resemble AI
2är ett kanadensiskt företag som använder maskininlärning för att skapa röster för olika tillämpningar, till exempel i spel eller för röstassistenter. De har även ett webbverktyg som är gratis att använda till en viss nivå för att klona sin egen röst. Vi gjorde efterforskningar på vilken teknik Resemble AI använder för skapandet av röstklonerna men inga exakta tekniska redogörelser hittades. Däremot fanns det ett Github-projekt som en av Resemble AI:s utvecklare hade lagt upp med ett program som klonar röster. [6] I det projektet hänvisar författaren vidare till Resemble AI:s mjukvara. Det projektet, Real-Time Voice Cloning , använder en kodomvandlare för tal
3som refereras till som GE2E för att extrahera egenskaper i en röst från några få sekunders tal. Sedan används Tacotron 2 utan WaveNet, vilket liknar den första Tacotron, för att skapa spektrogram av text utifrån röstens egenskaper. Slutligen används WaveNet som en vocoder för att transformera spektrogrammen till vågform, nästan precis som hos Tacotron 2. [7] Exakta redogörelser för Resemble AI saknas som nämnt, men mycket tyder på att Tacotron 2 ligger till grunden här.
2.2 Röstkloner och grundtonsfrekvens
I en artikel av Roy Lindemann skriver han att den manliga röstens tonläge varierar mellan 85-155 Hz och den kvinnliga röstens tonläge mellan 165-255 Hz, vilket gör att den manliga röstens variation, 70 Hz, är mindre än den kvinnliga röstens variation, 90 Hz. Utifrån det menar Lindemann på att det är lättare att skapa en talsyntes baserat på träningsmaterial av en kvinnlig röst för att variationen av grundtonfrekvensen är större. [12] Den större variationen hos en kvinnlig röst gör det enklare att skilja mellan
2
https://www.resemble.ai/
3