• No results found

DIPLOMOVÁ PRÁCE

N/A
N/A
Protected

Academic year: 2022

Share "DIPLOMOVÁ PRÁCE"

Copied!
51
0
0

Loading.... (view fulltext now)

Full text

(1)

TECHNICKÁ UNIVERZITA V LIBERCI

Fakulta mechatroniky, informatiky a mezioborových studií

DIPLOMOVÁ PRÁCE

Liberec 2010 Bc. Jan Pražák

(2)

TECHNICKÁ UNIVERZITA V LIBERCI

Fakulta mechatroniky, informatiky a mezioborových studií

Studijní program: N2612 – Elektrotechnika a informatika Studijní obor: 1802T007 – Informační technologie

Robustní diarizace mluvčích Robust speaker diarization

Diplomová práce

Autor: Bc. Jan Pražák

Vedoucí práce: Ing. Jan Silovský

Konzultant: Ing. Jindřich Žďánský, Ph.D.

V Liberci 21. 5. 2010

(3)

Originál zadání práce

(4)

Prohlášení

Byl(a) jsem seznámen(a) s tím, že na mou diplomovou práci se plně vztahuje zákon č. 121/2000 Sb., o právu autorském, zejména § 60 – školní dílo.

Beru na vědomí, že Technická univerzita v Liberci (TUL) nezasahuje do mých autorských práv užitím mé diplomové práce pro vnitřní potřebu TUL.

Užiji-li diplomovou práci nebo poskytnu-li licenci k jejímu využití, jsem si vědom povinnosti informovat o této skutečnosti TUL; v tomto případě má TUL právo ode mne požadovat úhradu nákladů, které vynaložila na vytvoření díla, až do jejich skutečné výše.

Diplomovou práci jsem vypracoval(a) samostatně s použitím uvedené literatury a na základě konzultací s vedoucím diplomové práce a konzultantem.

Datum

Podpis

(5)

Poděkování

Děkuji Ing. Janu Silovskému za vedení při tvorbě této práce. Dále děkuji svým rodičům a přátelům za podporu v průběhu navazujícího magisterského studia.

(6)

Abstrakt

Tato diplomová práce se zabývá tvorbou automatického systému pro rozlišení jednotlivých mluvčích v audio nahrávce (tzv. diarizace mluvčích). Kapitola 1 je úvodem do dané problematiky. Uvádí oblasti využití podobného systému a zmiňuje motivace práce.

Kapitola 2 popisuje vybranou teorii z oblasti počítačového zpracování řeči, která byla využita při tvorbě zmíněného systému a která nachází v rozpoznávacích systémech širší uplatnění.

Kapitola 3 na tuto teorii nepřímo navazuje a popisuje hojně používané metody již přímo z oblasti diarizace mluvčích. Kapitola 4 pak popisuje návrh systému včetně postupu pro získání nahrávek potřebných pro trénování dílčích modelů, které v systému vystupují. Kapitola 5 popisuje data, která byla k dispozici pro trénování, vývoj a testování systému. Kapitola 6 shrnuje praktickou část tvorby systému od zpracování dat až po jeho implementaci. Kapitola 7 uvádí výsledky testů, které byly systémem dosaženy. Závěrečná kapitola 8 shrnuje celou práci, zmiňuje plánovaná rozšíření systému a jeho plánované praktické využití.

Klíčová slova: diarizace mluvčích, zpravodajské pořady, telefonní nahrávky

Abstract

This thesis is focused on the automatic system for differentiate single speakers in audio record creation (speaker diarization). Chapter 1 is the introduction to this problematic. It deals with usage possibilities of systems like this and thesis motivation too. Chapter 2 describes chosen theory from speech processing area which was used in the system creation and which is used in recognition systems widely. Chapter 3 is connected with this theory and describes plentifully used methods from the speaker diarization area. Chapter 4 describes system suggestion including process for getting records which are needed for training (system) models.

Chapter 5 describes data which were accessible for system training, development and testing.

Chapter 6 summarizes the practical part of system creation until data processing to its implementation. Chapter 7 deals with system tests results. The final chapter 8 summarizes the whole thesis, describes planned system upgrades and its planned practical usage.

Keywords : speaker diarization, broadcast data, telephone records

(7)

Obsah

Prohlášení...3

Poděkování...4

Abstrakt ...5

1 Úvod...11

2 Vybrané partie z oblasti počítačového zpracování řeči...12

2.1 Systémový model tvorby řeči...12

2.2 Kepstrum...12

2.3 Mel-frekvenční kepstrální příznaky...13

2.4 Model směsi gaussovských rozložení (GMM)...15

2.5 Odvození modelu adaptací univerzálního modelu okolí metodou maximální aposteriorní pravděpodobnosti...16

3 Aktuální stav problematiky diarizace mluvčích...17

3.1 Detekce řeči...18

3.2 Segmentace...19

3.2.1 Detekce jedné změny mluvčího...19

3.2.2 Detekce více změn mluvčího...22

3.3 Klasifikace pohlaví a šířky pásma...23

3.4 Shlukování...23

3.5 Rekombinace shluků...24

3.6 Resegmentace...25

3.7 Vyhodnocení systému diarizace mluvčích...25

4 Návrh robustního systému diarizace mluvčích...27

4.1 Systém diarizace mluvčích...27

4.1.1 Detekce řeči...27

4.1.2 Segmentace...28

4.1.3 Klasifikace pohlaví a šířky pásma...28

4.1.4 Shlukování...29

4.2 Tvorba trénovacích nahrávek navržených modelů...29

5 Data použitá pro trénování, vývoj a testování systému...32

5.1 Telefonní data...32

5.2 Data televizních zpravodajských pořadů – záznam vysílání ČT24...33

5.3 Data televizních zpravodajských pořadů – hlavní zpravodajské relace českých televizí...33

6 Realizace robustního systému diarizace mluvčích...35

6.1 Zpracování dat...35

6.1.1 Telefonní data...35

6.1.2 Data televizních zpravodajských pořadů – záznam vysílání ČT24...36

6.1.3 Data televizních zpravodajských pořadů – hlavní zpravodajské relace českých televizí...37

6.2 Odhad prahů vystupujících v systému...39

6.3 Vybrané části z implementace systému...41

6.3.1 Detekce řeči...41

6.3.2 Segmentace...41

6.3.3 Klasifikace pohlaví a šířky pásma...43

6.3.4 Shlukování...44

(8)

7 Vyhodnocení úspěšnosti systému...46 7.1 Telefonní data...46 7.2 Data televizních zpravodajských pořadů – záznam vysílání ČT24...46 7.3 Data televizních zpravodajských pořadů – hlavní zpravodajské relace

českých televizí...47 8 Závěr...48 Příloha A : Návrh a vyhodnocení úspěšnosti algoritmu pro odhad pohlaví

mluvčího z jeho jména...49 Seznam použité literatury...50

(9)

Seznam použitých zkratek

BIC - Bayesian Information Criterion CLR - Cross Likelihood Ratio CMS - Central Mean Subtraction CMN - Central Mean Normalization DER - Diarization Error Rate DFT - Discrete Fourier Transform FFT - Fast Fourier Transform GLR - Generalized Likelihood Ratio GMM - Gaussian Mixture Model HMM - Hidden Markov Model HTK - Hidden Markov Model Toolkit IDFT - Inverse Discrete Fourier Transform MFCC - Mel-Frequency Cepstral Coefficients

NIST - National Institute of Standards and Technology SRE - Speaker Recognition Evaluation

TUL - Technická univerzita v Liberci UBM - Universal Background Model XML - eXtensible Markup Language

(10)

Seznam obrázků

Obr. 2.1: Systémový model tvorby řeči...12

Obr. 2.2: Převod frekvence na mel-frekvenci...13

Obr. 2.3: Melovská banka filtrů...14

Obr. 2.4: Vizualizace 4-komponentního GMM nad dvourozměrným příznakovým prostorem. Převzato z [Nou2001]. ...15

Obr. 2.5: Dva základní kroky v odvození modelu adaptací UBM metodou MAP v 2D prostoru příznaků p1 a p2...16

Obr. 3.1: Ukázka možného výsledku diarizace mluvčích...17

Obr. 3.2: Příklad blokového návrhu moderního systému diarizace mluvčích...18

Obr. 3.3: Průběhy funkcí pro detekci změny mluvčího aplikované na nahrávku obsahující změnu mluvčího na vyznačeném místě...21

Obr. 4.1: Blokové schéma navrženého systému diarizace mluvčích...27

Obr. 6.1: Okno programu Transcriber...37

Obr. 6.2: Okno programu Přepisovač...39

Obr. 6.3: Změny hodnot v matici vzdáleností řečových segmentů při sloučení shluků S2 a S3...44

(11)

Seznam tabulek

Tab. 4.1: Rozlišované jevy v nahrávkách zpravodajských pořadů a jejich

příslušnost k navrženým modelům...30

Tab. 4.2: Rozlišované jevy v telefonních nahrávkách a jejich příslušnost k navrženým modelům...31

Tab. 5.1: Popis telefonních dat použitých pro trénování, vývoj a testování systému...32

Tab. 5.2: Charakteristika trénovacích telefonních dat...33

Tab. 5.3: Popis dat vysílání televize ČT24 použitých pro trénování, vývoj a testování systému...33

Tab. 5.4: Popis dat hlavních zpravodajských relací českých televizí použitých pro trénování, vývoj a testování systému...34

Tab. 6.1: Přehled odhadnutých hodnot prahů vystupujících v systému...40

Tab. 6.2: Proměnné použité pro popis aplikovaného algoritmu segmentace...42

Tab. 7.1: Výsledek testu provedeného systémem na telefonních datech...46

Tab. 7.2: Výsledek testu provedeného systémem na datech záznamu vysílání ČT 24...47

Tab. 7.3: Výsledek testu provedeného systémem na datech hlavních zpravodajských relací českých televizí...47

Tab. A.1: Vyhodnocení algoritmu pro odhad pohlaví mluvčího z jeho jména...49

(12)

1 Úvod

Informační technologie zažívají v posledních letech ohromný rozvoj. Televize, telefony či osobní počítače jsou dnes již nedílnou součástí běžného života u velké části populace.

Příkladem informačních technologií jsou i tzv. technologie řečové, které se zabývají zpracováním řeči na počítači.

Systémy s hlasovým výstupem jako je automatické ohlašování stanic v dopravních prostředcích, hlášení informací o spojích na vlakových nádražích či telefonní automatická asistentka se již nějakou dobu řadí mezi ty, které jsou i běžným lidem dobře známé. Těmi se začínají pozvolna stávat i systémy pracující s hlasovým vstupem. Mezi nimi hrají prim zejména rozpoznávače řeči. Jednodušší typy těchto programů rozpoznávají řeč pouze po jednotlivých slovech (či slovních spojeních). Příkladem je MyVoice, který byl vyvinut na Technické univerzitě v Liberci (dále v textu již jen TUL) prioritně za účelem umožnění handicapovaným lidem ovládat počítač pouze prostřednictvím hlasových příkazů, nebo aplikace pro mobilní telefony umožňující vytáčení volaného hlasem. Složitější rozpoznávače řeči již ale dokáží rozpoznávat i řeč spojitou. Příkladem jsou moduly automatické transkripce umožňující mj.

prohledávání multimediálních archivů či programy diktovací, které nacházejí uplatnění v žurnalistice, v justici či ve zdravotnictví. Vznikají už ale i systémy, které jsou podobným programům nápomocny. Příkladem je tzv. systém diarizační, který má za úkol v audio nahrávce nalézt a kategorizovat jednotlivé audio zdroje (řeč, hudba, šum atd.). Systém diarizace mluvčích je pak schopen od sebe rozlišit i jednotlivé mluvčí, kteří se v nahrávce vyskytují.

Své využití nachází systém diarizace mluvčích často v kombinaci s modulem rozpoznávání mluvčího. Tím, že je systém diarizace mluvčích schopen v nahrávce rozlišit jednotlivé mluvčí (a typicky u nich určit i pohlaví), poskytuje výrazné zázemí pro následnou přímou identifikaci mluvčích. Toho se využívá i při rozpoznávání řeči, kdy je možno na místo univerzálního akustického modelu využít pro rozpoznávání přímo akustický model aktuálního řečníka (za předpokladu, že tímto modelem rozpoznávací systém disponuje, což je zejména u zpravodajských pořadů často pravda). Systému diarizace mluvčích se často využívá i pro obohacení automatických přepisů, které jsou díky tomu rozšířeny o informace o jednotlivých mluvčích, což následně napomáhá ke snadnější orientaci v přepisech.

Prioritní motivací této práce bylo vytvoření prvního systému diarizace mluvčích pro TUL a s tím související rozšíření pole působnosti tamější Laboratoře počítačového zpracování řeči.

Za neméně důležitou motivaci by autor označil publikování první česky psané práce zabývající se tématem diarizace.

(13)

2 Vybrané partie z oblasti počítačového zpracování řeči

Tato kapitola popisuje teorii hojně využívanou v rozpoznávání (nejen při diarizaci), která byla kvůli své univerzálnosti a relativní známosti v dané oblasti vyčleněna do samostatné kapitoly.

2.1 Systémový model tvorby řeči

Lidská řeč je akustický signál vycházející z lidských úst. Je tvořena proudem vzduchu, který vychází z plic a prochází hlasovým traktem, který toto vlnění modifikuje do výsledné podoby. Za účelem tvorby rozpoznávacích systémů lze proces tvorby řeči modelovat následovně:

V tomto modelu je řeč konvolucí zdrojového signálu a impulzní odezvy systému. Za účelem oddělení informace o systému od informace o zdroji je potřeba provést dekonvoluci výsledného signálu.

2.2 Kepstrum

Slovo kepstrum vzniklo přesmyčkou slova spektrum a podobným způsobem vznikly i pojmy s tím související. V této práci se to týká ještě slov liftrace (z filtrace) a kefrence (z frekvence). Kepstrum c[n] posloupnosti vzorků signálu x[n] je definováno jako [Nou2001]

c [n]=IDFT log ∣DFT  x [n]∣ , (2.1)

kde IDFT (Inverse Discrete Fourier Transform) je inverzní diskrétní Fourierova transformace a DFT (Discrete Fourier Transform) je diskrétní Fourierova transformace.

Pokud se jednotlivé složky signálu vyskytují v odlišných oblastech kepstra, lze je od sebe separovat. U řeči toto přitom platí, protože hlasivkové buzení se transformuje do oblasti vyšších kefrencí a informace o filtru se soustřeďuje do oblasti nižších kefrencí.

Obr. 2.1: Systémový model tvorby řeči

ZDROJ

(hlasivky, zdroje šumu)

SYSTÉM

(hlasový trakt)

s(t) h(t)

s(t) s(t)*h(t)

řeč

(14)

2.3 Mel-frekvenční kepstrální příznaky

Prvním krokem rozpoznávacího systému je typicky parametrizace audio signálu. Cílem tohoto kroku je získat ze signálu informaci, která je užitečná pro rozpoznávání. Výsledkem parametrizace je posloupnost příznakových vektorů zvolených příznaků. V současné době jsou nejpoužívanější Mel-frekvenční kepstrální příznaky.

Bylo zjištěno, že lidské ucho nevnímá frekvenci akustického signálu v lineární, ale přibližně v logaritmické stupnici. Tato stupnice byla pojmenována jako Melovská. V praxi to znamená, že změny nižších frekvencí je lidské ucho schopno rozeznat lépe než změny frekvencí vyšších. Převod mezi mel-frekvencí a frekvencí byl experimentálně určen a je následující [Nou2001].

f

Mel

= 2595log

10

1 700 f(2.2)

Samotný výpočet Mel-frekvenčních kepstrálních příznakových vektorů probíhá v několika krocích. Signál je nejprve rozdělen na menší části (dále jen framy), o kterých lze předpokládat, že je jejich obsah přibližně stacionární. Délka framu je nejčastěji volena 20-30ms a překryv framů 50%-60%. Na každý frame signálu je aplikován preempfázový filtr (typu horní propusť). Cílem je zejména zvýraznit vyšší frekvence (typicky řečové). Tvar filtru vypadá následovně:

y n= x n−c∗x n−1 , (2.3)

kde y(n) je n-tý vzorek framu po preempfázi, x(n) je n-tý vzorek framu před preempfází a hodnota konstanty c se volí přibližně rovna jedné (často c = 0,97).

Po preempfázi je na frame signálu aplikováno Hammingovo okénko. Jeho účelem je potlačit vliv nespojitostí na okrajích framu. Tvar funkce Hammingova okénka je na následující straně.

Obr. 2.2: Převod frekvence na mel-frekvenci

(15)

w n=0.540.46cos[ N

2 − n 2 

N ] , (2.4)

kde w(n) je n-tý vzorek framu po aplikaci Hammingova okénka a N je počet vzorků framu (délka Hammingova okénka je rovna délce framu). Hodnotu n-tého vzorku framu po aplikaci Hammingova okénka dostaneme jako:

y n= x n w n (2.5)

Následně je frame signálu doplněn nulami tak, aby výsledný počet vzorků framu byl mocninou 2 (z důvodu výrazného zrychlení následného výpočtu) a pomocí rychlé Fourierovy transformace (dále v textu jen FFT - Fast Fourier Transform) se vypočte amplitudové spektrum framu. To je následně filtrováno bankou trojúhelníkových filtrů a použito pro výpočet energie signálu v každém pásmu filtru.

Takto získaný vektor energií je dále transformován na vektor kepstrálních příznaků užitím diskrétní kosinové transformace logaritmu vektoru energie, kde výsledný k-tý Mel-frekvenční kepstrální koeficient vypočteme podle vztahu:

c  k =M 2

i=1M

log E

i

cos M k i−0.5 (2.6)

M je počet pásem melovské banky a Ei je vypočtená energie v i-tém pásmu.

Dosud vypočtené příznaky se označují jako statické. Velice často jsou dále počítány i příznaky dynamické, které charakterizují změnu statických příznaků v čase. Ty lze získat ze statických příznaků jejich numerickou derivací v čase. V praxi se používají zejména dynamické příznaky prvního a druhého řádu.

V samotném závěru parametrizace se vypočtené příznakové vektory někdy normalizují.

Používá se zejména metoda odečítání kepstrálního průměru (v literatuře často pod zkratkami CMS - Central Mean Subtraction či CMN - Central Mean Normalization). Tato normalizace má za cíl eliminovat vliv různé střední hodnoty kepstra řečového signálu pocházejícího z různých

Obr. 2.3: Melovská banka filtrů

(16)

zdrojů (různé nahrávací kanály, různé mikrofóny, různí mluvčí atd.). Její princip spočívá ve výpočtu středních hodnot u statických (dynamické příznaky mají střední hodnotu nulovou) příznaků v celé nahrávce a následném odečtení této hodnoty od (statických) příznaků ve všech framech.

2.4 Model směsi gaussovských rozložení (GMM)

Modelem směsi gaussovských rozložení (dále v textu jen GMM z anglického Gaussian Mixture Model) popisujeme rozložení pravděpodobnosti příznakových vektorů získaných z analyzovaných dat. Jedná se o váženou lineární kombinaci normálních (gaussovských) rozdělení ve tvaru:

p  x∣=

i=1 M

w

i

p

i

x , (2.7)

kde x je příznakový vektor, Mje počet komponent (složek) modelu, wi jsou váhy a pi(x) hustoty pravděpodobnosti jednotlivých komponent. Ty jsou reprezentované d-rozměrnou (d je dimenze příznakového vektoru) normální hustotou pravděpodobnosti se střední hodnotou µi a kovarianční maticí Σi, tj.

p

i

x = 1

 2

d /2 

∣

i

1/ 2

exp[ x−

i

T



i

−1

x−

i

] , (2.8)

Protože GMM je jednoznačně určen vektory středních hodnot, kovariančními maticemi a váhami jednotlivých složek, lze tento model vyjádřit i jako

= { w

i

,

i

, 

i

} , i=1, ... , M . (2.9)

Obr. 2.4: Vizualizace 4-komponentního GMM nad dvourozměrným příznakovým

prostorem. Převzato z [Nou2001].

(17)

Hodnoty vah, středních hodnot a kovariančních matic jednotlivých složek modelu se určují ve fázi trénování systému. Pro tento účel se standardně používá metoda maximální věrohodnosti (ve světové literatuře často pod anglickou zkratkou ML – Maximum Likelihood).

Cílem této metody je najít na základě množiny příznakových vektorů dat X takové parametry Gaussovské směsi, které budou maximalizovat pravděpodobnost p(X|λ). Více o této metodě lze nalézt např. v [Rey1995].

2.5 Odvození modelu adaptací univerzálního modelu okolí metodou maximální aposteriorní pravděpodobnosti

Univerzální model okolí (dále jen UBM – Universal Background Model) je GMM natrénovaný na velkém množství dat od různých mluvčích za účelem reprezentace rozdělení příznaků, které je nezávislé na mluvčím [Rey2000].

Odvození modelu adaptací UBM metodou maximální aposteriorní pravděpodobnosti (dále jen MAP – Maximum A Posteriori) se děje ve dvou základních krocích. V prvním kroku jsou počítány odhady parametrů modelu z jeho trénovacích dat. Ve druhém kroku jsou potom tyto odhadnuté parametry v určitém poměru zkombinovány s parametry UBM. Poměr tohoto zkombinování je přitom odvislý od množství trénovacích dat mluvčího (čím více trénovacích dat je k dispozici, tím větší váhu mají parametry z modelu mluvčího na výsledný adaptovaný model). Více o této metodě v [Rey2000].

Obr. 2.5: Dva základní kroky v odvození modelu adaptací UBM metodou MAP v 2D prostoru příznaků p1 a p2.

p2

p1 p1

p2

trén. data mluvčího

UBM model mluvčího

(18)

3 Aktuální stav problematiky diarizace mluvčích

Tato kapitola definuje základní pojmy a poskytuje přehled často používaných metod v oblasti diarizace mluvčích. Vychází především z dosud publikovaných prací (typicky vědeckých článků) zabývajících se touto tématikou. Vzhledem k tomu, že do doby odevzdání této práce (květen 2010) nebyla publikována žádná česky psaná práce zabývající se problematikou diarizace, potýkal se autor při vypracování této kapitoly často s problémy překladu standardně používaných anglických termínů do do této doby nestandardizované české podoby. U termínů s nejednoznačným překladem do češtiny autor proto v rámci této kapitoly uvádí při prvním použití v závorce i originální anglický termín, dle kterého se lze dále orientovat ve velké většině dostupné literatury.

Pro úplnost uveďme na začátek pár základních pojmů. Audio diarizace je definována jako proces označování a kategorizace audio zdrojů uvnitř tzv. mluveného dokumentu. Pod pojmem mluvený dokument je označována jednokanálová nahrávka skládající se z více audio zdrojů.

Typy a detaily audio zdrojů jsou aplikačně specifické. V nejjednodušším případě je v diarizaci řeč uvažována jako jedna třída klasifikace a ostatní třídy jsou tvořeny jednotlivými zdroji tříd neřečových [Tra2006]. Předmětem zájmu audio diarizace jsou především 3 typy audio nahrávek: zpravodajských pořadů, telefonní a tzv. meeting nahrávky. Vznikající diarizační systémy se zpravidla zaměřují vždy pouze na jednu z těchto tří domén.

Složitější diarizační systémy označují v detekované řeči i místa změny mluvčího a jsou schopny určit, které takto vzniklé řečové segmenty pochází od stejného mluvčího. Taková diarizace je nazývána jako diarizace mluvčích. [Tra2006]

Pojem robustní diarizace mluvčích se pak v literatuře vyskytuje nejčastěji s přívlastkem konkrétní domény, na kterou se daný systém zaměřuje, tedy například robustní diarizace mluvčích pro meetingy.

Diarizační systém se typicky skládá z několika logických bloků. Volba těchto bloků, jejich návaznost a jednotlivé metody v nich použité se liší systém od systému. Dále popsaný systém obsahuje standardní bloky moderního diarizačního systému mluvčích.

Obr. 3.1: Ukázka možného výsledku diarizace mluvčích.

(19)

3.1 Detekce řeči

Cílem tohoto bloku systému je nalézt v audio záznamu oblasti obsahující řeč. V závislosti na doméně použitých dat mohou být neřečové oblasti tvořeny různými akustickými jevy.

Například hudbou, různými zdroji hluků či tichem.

Tento problém je u diarizačních systémů typicky řešen natrénováním GMM či jiných typů modelů, například vícestavových skrytých markovských modelů (dále v textu jen HMM - Hidden Markov Model) zvolených akustických tříd na (anotovaných) trénovacích datech a použitím kritéria maximální věrohodnosti pro určení modelu, který reprezentuje daný frame testovací nahrávky s nejvyšší věrohodností.

Nejjednodušší systémy pracují pouze se 2 modely akustických tříd pro detekci řeči (řeč/neřeč) [Tra2006]. Ty složitější potom mohou obsahovat speciální akustické třídy například pro hudbu, ruchy, řeč s hudbou na pozadí, řeč s ruchy na pozadí a další. Volba konkrétních akustických tříd závisí zpravidla na cílové aplikaci. Speciální řečové třídy (například řeč s hudbou na pozadí) jsou uvažovány především za účelem minimalizace případů nesprávné detekce neřečové třídy na místo třídy řečové, která má na výsledky diarizačního systému výrazně horší dopad než nesprávná detekce opačná.

Detekce řeči po jednotlivých framech se vyhlazuje tak, aby se ve výsledku detekce neobjevovaly úseky od jednoho akustického zdroje (řečníka či neřečové třídy) kratší než stanovená minimální doba. Vhodná hodnota této doby se pohybuje cca mezi 0,3 – 0,5s.

Obr. 3.2: Příklad blokového návrhu moderního systému diarizace mluvčích.

Detekce řeči Segmentace

Klasifikace pohlaví a šířky pásma Shlukování

Resegmentace Rekombinace shluků

audio

časy řeči a popis mluvčích

(20)

Bez tohoto vyhlazení se ve výsledku detekce typicky objevují úseky od jednoho akustického zdroje délky řádově desítek milisekund, které takřka nikdy neodpovídají reálnému stavu.

3.2 Segmentace

Cílem segmentace (neboli detekce změny mluvčího) je nalézt v audio záznamu časy změny mluvčího. Za předpokladu, že tomuto bloku systému předcházel blok detekce řeči, se jedná o hledání časů změny v jednotlivých řečových segmentech signálu. Diarizační systémy používají především 2 druhy přístupů. Oba z nich pracují na principu hledání (právě jedné) změny mluvčího v rámci okna, které postupně prochází celý signál.

3.2.1 Detekce jedné změny mluvčího

Nejčastěji používaný přístup je založen na Bayesovském informačním kritériu (v textu dále jen BIC - Bayesian Information Criterion). Tento přístup byl prvně představen v [Che1998]

a hledá změnu řečníka v rámci analyzovaného okna signálu proměnné délky na základě testování hypotéz. Testovací (nulová) hypotéza představuje případ, že dané okno neobsahuje změnu řečníka a alternativní hypotéza odpovídá případu, kdy se v analyzovaném okně nachází právě jedna změna mluvčího. Tato technika hledá bod změny uvnitř okna za použití odhadu maximální věrohodnosti a penalizační funkce.

Mějme posloupnost příznakových vektorů {x1,...,xF}, která vznikla parametrizací řečového signálu o F framech. Dále nechť pro každý takový příznakový vektor xi platí, že je to nezávislá náhodná vícerozměrná normálně rozložená veličina charakterizovaná vektorem středních hodnot μi a kovarianční maticí Σi. Testujeme nulovou hypotézu (okno neobsahuje změnu mluvčího)

H

0

: x

1

, ... , x

F

~ N  ,  (3.1)

oproti hypotéze alternativní (okno obsahuje změnu mluvčího v čase t):

H

1

: x

1

,... , x

t

~ N 

1,

1

; x

t 1

, ... , x

F

~ N 

2,

2

 (3.2)

Věrohodnost změny mluvčího v čase t se spočítá jako [Che1998]:

LRt =F log∣∣−t log∣1∣−F −t log∣2

, (3.3)

kde Σ1 je kovarianční matice odpovídající posloupnosti {x1,...,xt} a Σ2 je kovarianční matice odpovídající posloupnosti {xt+1,...,xF}.

(21)

Rozdíl mezi hodnotami BIC obou hypotéz je dán jako:

BIC t =LRt − P , (3.4)

kde váha penalizační funkce λ = 1 a pro penalizační funkci P platí:

P= 1 2  d  1

2 d d 1log F , (3.5)

kde d označuje dimenzi příznakových vektorů.

Pokud je hodnota BIC(t) větší než 01, je upřednostňována hypotéza H1 (změna mluvčího v čase t) [Che1998]. Změna mluvčího v čase t v rámci analyzovaného okna tedy nastává pokud

{maxtBIC t}0

, (3.6)

přičemž d<t<F-d.

Pro tento přístup je charakteristické, že dosahuje vysoké chybovosti pro změny mluvčího, které za sebou následují v krátkých časech (např. < 2-5s) a z toho důvodu není vhodný pro nahrávky typu konverzace [Tra2006]. Jeho nevýhodou je i vysoká výpočetní náročnost a proto bývá v praktických realizacích nahrazován metodami s nižší výpočetní náročností. Samotný BIC test je pak aplikován až jako kontrola změn mluvčího, které jsou detekovány těmito výpočetně méně náročnými metodami.

Takovouto metodou bývá standardně volena (jednorozměrná) Hotellingova statistika T2. Ta má při ponechání významu jednotlivých proměnných z výše uvedeného BIC testu následující podobu [Zho2000]:

T2=t  F −t 

F 1−2T−11−2

(3.7)

Pro obě výše uvedené metody se používají další optimalizace. Velice výrazným optimalizačním prvkem je odhad parametrů pravděpodobnostního rozdělení. Nechť z1 je d-rozměrný vektor, z2 je d × d-rozměrná matice a platí následující rovnice:

z

1

t =z

1

t−1x

t

(3.8)

z

2

t=z

2

t−1 x

t

x

tT

(3.9)

1 Přesná hodnota prahu je typicky individuální pro každý systém

(22)

Poté lze odvodit maximálně věrohodné odhady parametrů normálního rozložení dat {xa,...,xb} ve formě následujících vztahů [Žďá2005]:

= z

1

b−z

1

a−1

b−a1 (3.10)

= z

2

b−z

2

a−1

b−a1 −

T

(3.11)

Ve výše uvedených vztazích představuje a čas počátku a b čas konce aktuálně analyzovaného okna.

Dle testů provedených v Matlabu je výpočet Hotellingovy statistiky T2 cca 2x rychlejší než úplný BIC test. Odhadem parametrů střední hodnoty při výpočtu Hotellingovy statistiky T2 bylo poté dosaženo dalšího cca 80x zrychlení výpočtu. Výsledky všech uvedených postupů jsou přitom pro účely diarizace srovnatelné. Průběhy jednotlivých funkcí pro konkrétní nahrávku obsahující jednu změnu mluvčího vyjadřuje Obr. 3.3.

Druhým používaným přístupem je přístup založený na výpočtu vzdálenosti mezi sousedními řečovými segmenty. Tento přístup byl prvně publikován v [Sie1997] a na rozdíl od přístupu založeném na BIC používá fixní délku okna procházejícího signálem. Délka tohoto okna bývá kompromisem mezi snahou zachytit v okně nejvýše jednu změnu detekce mluvčího a

Obr. 3.3: Průběhy funkcí pro detekci změny mluvčího aplikované na nahrávku

obsahující změnu mluvčího na vyznačeném místě.

(23)

snahou učinit toto rozhodnutí z maximálního množství dat. Jeho délka se pohybuje do 5 sekund a v závislosti na její přesné hodnotě je tento přístup schopen detekovat i změny mluvčího následující za sebou v obecně krátkých časech [Tra2006]. Nejpoužívanějšími vzdálenostními metrikami jsou symetrická Kullback-Leiblerova (v literatuře často pod zkratkou KL2 či KL-2) vzdálenost, která byla včetně způsobů implementace v diarizačním systému popsána např. v [Sie1997] a GLR1 (Generalized Likelihood Ratio). GLR je popsáno např. v [Mei2005] a to rovněž včetně způsobů implementace v rámci diarizačního systému.

3.2.2 Detekce více změn mluvčího

Jak je uvedeno v 3.2 , diarizační systémy používají pro detekci více změn mluvčího v signálu typicky okno, které postupně prochází celý signál a ve kterém je hledána právě jedna změna mluvčího. Základní algoritmus pro pohyb tohoto okna v signálu je následující [Che1998]:

(1) Inicializujeme interval [a, b], kde a = 1 a b je rovno zvolené minimální délce okna, tedy b = Wmin.

(2) Zvolenou metodou (viz. 3.2.1) testujeme, zda-li se v rámci okna nachází (právě jedna) změna mluvčího.

(3) Pokud se v rámci okna nenachází změna mluvčího, zvětšíme okno posuvem jeho koncové hranice na b = b + ΔW. Pokud je v rámci okna nalezen čas změny mluvčího tSC, nastavíme počátek okna na a = tSC + 1 a konec okna na b = a + Wmin.

(4) Pokud se koncová hranice okna nenachází mimo signál (či v případě diarizace za předpokladu předcházející detekce řeči mimo procházený řečový segment), přejdeme na (2).

Vzhledem k tomu, že detekce změny mluvčího patří společně se shlukováním k časově nejnáročnějším blokům diarizačního systému, lze v literatuře nalézt i metody pro zrychlení pohybu okna v signálu. Např. v systému publikovaném v [Rey2004] je pro určení zvětšení délky okna použito dynamického výpočtu, přičemž je posouváno i s počáteční hranicí. Tento výpočet zohledňuje počet případů, ve kterých v rámci okna nedošlo k nalezení změny mluvčího.

Čím více takovýchto případů v rámci okna nastalo, tím více je okno při další takovéto detekci zvětšeno.

Další možnosti zrychlení výpočtu detekce změny mluvčího v signálu skýtá využití vztahů 3.8 a 3.9 při zvětšování okna. Za předpokladu uchovávání vektoru z1 a matice z2 v paměti můžeme získat tyto parametry aktuálního okna dle zmíněných rovnic pouhým přičtením hodnot předešlého okna k datům, o které bylo okno rozšířeno.

1 Autorovi není znám standardizovaný český překlad

(24)

3.3 Klasifikace pohlaví a šířky pásma

Cílem této části systému je určit u jednotlivých řečových segmentů vzniklých ze segmentace pohlaví mluvčího a šířku pásma, ve kterém v nahrávce hovoří (většinou je předpokládáno, že jeden mluvčí hovoří v jedné nahrávce právě v jednom pásmu). Těchto informací se jednak využívá při následném shlukování a zároveň jsou často i součástí výsledného popisu signálu.

Klasifikace pohlaví i šířky pásma je typicky realizována metodou maximální věrohodnosti s použitím GMM. Používá se zejména klasifikace se 4 modely (kombinace pohlaví a šířky pásma), ale je možné klasifikovat pohlaví i šířku pásma zvlášť. V takovém případě může být detekce šířky pásma založena i na míře spektrální energie nad (široké pásmo) či pod (úzké pásmo) 4kHz [Rey2005]. Chybovost klasifikace pohlaví se pohybuje mezi 1-2% a chybovost klasifikace pro šířku pásma mezi 3-5% [Tra2006]. Pokud chyba detekce nastane, je často již nevratná.

3.4 Shlukování

Cílem shlukování (v literatuře jako clustering) je přiřadit k sobě řečové segmenty od stejných mluvčích vzniklé po detekci změny mluvčího. Předchází-li shlukování klasifikace pohlaví a šířky pásma, dochází ke shlukování pouze u segmentů se stejným výsledkem této klasifikace.

Nejčastěji používaným způsobem je tzv. hierarchické aglomerační shlukování (v literatuře jako hierarchical, agglomerative clustering). Tato metoda je označována i jako shlukování od zdola nahoru (v originále bottom-up clustering). Z důvodu jednoduššího popisu algoritmu označme každý dílčí řečový segment vzniklý po detekci změny mluvčího jako jeden shluk řeči mluvčího. V každé skupině shluků se shodnou klasifikací pohlaví a šířky pásma se vypočtou vzdálenosti mezi všemi dvojicemi shluků a za předpokladu, že minimální taková vypočtená vzdálenost je menší než dopředu zvolený práh (obecně jiná hodnota pro každou kombinaci pohlaví a šířky pásma), dochází k následnému sloučení dvojice shluků s minimální vzdáleností do shluku jednoho. Tento postup se opakuje dokud není taková minimální vzdálenost větší než zvolený práh.

(25)

Jako vzdálenostní metriky jsou používány zejména metriky založené na BIC, velice často potom GLR ([Tra2006], [Mei2005]). Sloučení shluků x a y do výsledného shluku z lze touto metrikou vypočítat jako [Tra2006]:

BIC= 1

2 [ N

z

log∣

z

∣−N

x

log∣

x

∣− N

y

log ∣

y

∣]− P , (3.12)

kde Σx představuje kovarianční matici dat shluku x, Nx počet framů těchto dat, λ = 1 a pro P platí:

P=d  d 3

4 log Nz

, (3.13)

kde d představuje dimenzi příznakových vektorů.

Alternativou k přístupu od zdola nahoru může být shlukování od shora dolů (v originále top-down clustering). Jeho principem je opačný postup než v případě shlukování od zdola nahoru. Na počátku je uvažován jediný shluk, který se dle umístění hranic řečových segmentů a časů změny mluvčího dělí na shluky dílčí dokud není dosaženo zvoleného stop kritéria.

3.5 Rekombinace shluků

Metoda rekombinace shluků (v originále cluster recombination) byla prvně publikována v [Bar2004] a je tak jednou z nejnovějších běžně užívaných částí diarizačního systému. Tato metoda využívá technik z oblasti rozpoznávání mluvčího. Každý shluk je reprezentován svým modelem. Aby tyto modely byly dostatečně věrohodné je potřeba, aby každý shluk obsahoval odpovídající množství dat. Z tohoto důvodu rekombinaci shluků předchází shlukování u nějž je hodnota stop kritéria zvolena tak, aby výsledných shluků bylo v porovnání s reálným stavem více, ale aby zároveň každý shluk obsahoval dostačující množství dat (dle [Tra2006] cca přes 30 sekund). Jako modely jsou používány GMM, jež jsou odvozeny metodou MAP z dopředu natrénovaných UBM (typicky jeden UBM pro každou kombinaci pohlaví a šířky pásma). Je využíváno aglomeračního shlukování (viz. 3.4) a metriky CLR (Cross Likelihood Ratio). CLR je definováno jako [Tra2006]

CLRc

i

, c

j

=log  L  x L x

i

M

i

∣M

UBMj

L  x L  x

jj

∣M M

UBMi

, (3.14)

kde ci a cj jsou porovnávané shluky a L(xi|Mj) je průměrná věrohodnost modelování příznakového vektoru framu dat xi modelem Mj. Dvojice shluků s nejvyšší hodnotou CLR vytvoří shluk nový a proces je opakován, dokud není maximální hodnota CLR mezi dvojicí shluků nižší než dopředu zvolený práh.

(26)

Parametrizace signálu pro rekombinaci shluků používá statických i dynamických příznaků prvního řádu. Tyto příznaky jsou normalizované z důvodu redukce vlivu různých akustických prostředí [Tra2006].

3.6 Resegmentace

Závěrečným logickým blokem většiny diarizačních systémů je resegmentace (v originále resegmentation). Smyslem této části systému je využít informace získané pří shlukování v opětovné segmentaci signálu. Ta je realizována nejčastěji Viterbiho dekodérem pracujícím s HMM jednotlivých řečových shluků i neřečových tříd. Tento krok je prováděn v jedné či více iteracích.

3.7 Vyhodnocení systému diarizace mluvčích

Pro vyhodnocení systému diarizace mluvčích je dnes nejčastěji používána metrika DER (Diarization Error Rate). Její výpočet je následující [RT2009]:

DER=

seg =1

S

dur seg∗ max N

Ref

seg , N

Sys

seg−N

Correct

seg 

seg =1

S

dur  seg∗N

Ref

seg

, (3.15)

kde S je počet segmentů signálu vzniklých po rozdělení oblastí řeči (reference i detekce systému) signálu všemi hranicemi (referenčními i detekovanými systémem) změny mluvčího, dur(seg) je doba trvání segmentu seg, NRef(seg) je počet mluvčích reference v seg, NSys(seg) je počet mluvčích detekovaných systémem v seg a NCorrect(seg) je počet mluvčích reference v seg, kteří po zobrazení do množiny mluvčích systému (jeden referenční mluvčí na jednoho mluvčího systému) rovněž hovoří v seg.

DER se dělí na tři typy chyb viz dále.

DER= Err

spkr

Err

miss

Err

FA

seg =1

S

dur  seg∗N

Ref

seg , (3.16)

kde Errspkr vyjadřuje celkový čas řeči, který je systémem přiřazen nesprávnému mluvčímu, Errmiss je celkový čas řeči referenčních mluvčích, jejichž řeč nebyla systémem rozpoznána a EFA 1

je naopak celkový čas řeči mluvčích detekovaných systémem, který odpovídá neřečovým oblastem reference.

1 Zkratka FA v indexu chyby označuje anglická slova False Alarm. V daném případě tedy nesprávnou signalizaci řeči.

(27)

Dílčí chyby podílející se na DER lze spočítat jako poměr celkové doby chyby a celkové doby řeči referenčních mluvčích (jmenovatel vztahů 3.15 a 3.16). Doby dílčích chyb lze vyjádřit následujícími vztahy [RT2009]:

Err

spkr

= ∑

seg=1 S

dur  seg∗min  N

Ref

seg , N

Sys

seg− N

Correct

seg (3.17)

Err

miss

= ∑

seg=1 U

dur  seg∗ N

Ref

seg – N

Sys

seg  , (3.18)

kde U je počet segmentů, pro které platí Nref(seg) > Nsys(seg).

Err

FA

= ∑

seg=1 V

dur  seg∗ N

Sys

seg  – N

Ref

seg  , (3.19)

kde V je počet segmentů, pro které platí Nsys(seg) > Nref(seg).

(28)

4 Návrh robustního systému diarizace mluvčích

Tato kapitola je rozdělena na dvě části. Část 4.1 uvádí technický popis systému a odůvodnění jeho dílčích voleb. Část 4.2 pak popisuje postup pro získání nahrávek potřebných pro trénování jednotlivých modelů navržených v části 4.1.

4.1 Systém diarizace mluvčích

Navržený systém má za cíl robustnost zejména vůči doménám televizních zpravodajských pořadů a telefonních nahrávek a nikterak nevyužívá apriorní informace o mluvčích. Tomu odpovídají i metody, které byly v jednotlivých částech systému použity. Celý systém se skládá ze 4 bloků (viz Obr. 4.1). V dílčích parametrizacích signálu je vždy použito délky framů 25ms s překryvem framů 15ms

4.1.1 Detekce řeči

Detekce řeči je v systému řešena energetickým detektorem, který je následován detektorem na bázi GMM (viz. 3.1).

Energetický detektor byl implementován zejména z důvodu neuspokojivé detekce ticha původně zamýšleného výhradně modelového detektoru. Předností tohoto detektoru je i jeho nízká výpočetní náročnost.

Detektor na bázi GMM byl implementován především za účelem detekce ruchů (hudba, ostatní rušivá pozadí, neřečové události mluvčího atd.). Obsahuje 3 modely řečové (řeč, řeč s hudbou a řeč s ostatními ruchy) a 2 neřečové (hudba, ostatní ruchy). Natrénované modely jsou GMM tvořené 64 komponentami. Počet komponent GMM byl zvolen s ohledem na množství

Obr. 4.1: Blokové schéma navrženého systému diarizace mluvčích.

Detekce řeči Segmentace

Klasifikace pohlaví a šířky pásma Shlukování

audio

časy řeči a popis mluvčích

(29)

trénovacích dat, které bylo pro trénování jednotlivých modelů tohoto bloku k dispozici.

Nejméně dat bylo k dispozici pro model hudby ve zpravodajských pořadech (cca 25 min) a nejvíce pro model (samotné) řeči (výsledný model natrénován na cca 1,5 hodinách řeči). Pro vyhlazení detekce po jednotlivých framech je použito okna s 30ti framy (0,3 s). Výsledná detekce tohoto okna je přisouzena modelu, který v něm dosáhl nejvyšší věrohodnosti (počítáno přes všechny framy okna).

Parametrizace pro detekci řeči používá 30 statických a 30 dynamických MFCC prvního řádu. Tyto příznaky jsou normalizované (přes celou nahrávku) a pro jejich získání je použito mj.

50 pásem melovské banky filtrů.

4.1.2 Segmentace

Segmentace využívá metody založené na BIC (viz. 3.2.1). Samotný BIC test je přitom aplikován až jako kontrola času změny mluvčího detekovaného odhadem Hotellingovy statistiky T2. Hranice okna procházejícího jednotlivé řečové segmenty jsou určeny dynamicky.

Okno má minimální délku 100 framů (1s) a zvětšuje se o (50+10*(n-1)) framů s posuvem okna (50+10*(n-2))/4 pro n-té nenalezení změny mluvčího v okně. V případě, že okno dosáhne délky 2000 framů (20s), je na jeho konci automaticky detekována změna mluvčího z důvodu zrychlení detekce (čím více je okno zvětšováno, tím déle segmentace trvá). Důsledky těchto falešných změn mluvčího na výslednou diarizaci jsou zpravidla odstraněny při shlukování. Pro pohyb hranic okna byl dále integrován prvek z tzv. modifikované metody s adaptivním oknem publikované v [Žďá2005]. Jeho princip je následující. V případě, že je v okně s aktuálními hranicemi [a,b] detekován čas změny mluvčího, je tento čas prohlášen pouze za kandidáta na čas změny mluvčího tSCC a okno je zmenšeno na okno s hranicemi [a, tSCC]. Pokud je i v okně [a, tSCC] detekován čas změny mluvčího, proces se opakuje. Pokud ne, je kandidát na čas změny prohlášen za skutečný čas změny. Jak je v [Žďá2005] ukázáno, tento postup poskytuje i pro malá inicializační okna délky řádově sekund nepatrně lepší výsledky, než klasická metoda s adaptivním oknem popsaná v 3.2.2 a to při takřka srovnatelné výpočetní náročnosti.

Pro účely segmentace je signál parametrizován na 30 statických MFCC. Není použita normalizace příznaků, aby nedošlo k potlačení informace o náhlých změnách v kepstru v čase, které velmi často souvisí právě se změnou mluvčího.

4.1.3 Klasifikace pohlaví a šířky pásma

V této části systému byl použit standardní klasifikátor na bázi GMM pracující se 4 modely (kombinace pohlaví a šířky pásma). Pro každý model bylo k dipozici 1,25 – 1,5 hodiny řeči.

Výsledné GMM jsou 64 komponentní. Testovány byly i 32 a 128 komponentní modely,

(30)

které ale dosahovaly horších výsledků. Parametrizace signálu pro tento blok systému je totožná s parametrizací signálu pro blok detekce řeči (viz. 4.1.1).

4.1.4 Shlukování

Pro tuto část systému byla aplikována metoda hierarchického aglomeračního shlukování (viz. 3.4) s metrikou založenou na BIC. Systém umožňuje pouze sloučení segmentů (či jejich shluků) se stejnou klasifikací pohlaví a šířky pásma. Tím je výrazně sníženo množství výpočtů vzdáleností mezi shluky a zároveň tento přístup umožňuje zvolit jiný práh pro každou kombinaci pohlaví a šířky pásma.

Parametrizace signálu pro účely shlukování využívá 12 statických MFCC. Testováno bylo i použití 13 statických a 13 dynamických dynamických MFCC prvního řádu. Shlukování využívající tuto parametrizaci dosahovalo srovnatelných výsledků s parametrizací využívající 12 statických MFCC, ale za dobu přímo úměrnou nárůstu příznaků, což vzhledem k tomu, že shlukování je vůbec nejkritičtější blok systému ohledně doby výpočtu, vedlo na zmíněnou volbu počtu příznaků pro tento blok. V parametrizaci není použita normalizace příznaků.

4.2 Tvorba trénovacích nahrávek navržených modelů

Tato kapitola popisuje aplikovaný postup pro získání nahrávek potřebných pro trénování modelů navrženého diarizačního systému mluvčích. Autorovi se o tomto nepodařilo v literatuře nic nalézt a dále uvedené řešení je tak původní.

Pro každou doménu byly navrženy elementární jevy, na které se bude obsah nahrávek domény dělit (neboli co vše má být anotováno). Po získání takovýchto anotací byla ze sady původních nahrávek domény vytvořena sada nahrávek těchto dílčích jevů (např. jedna nahrávka pro telefonní řeč mužů, druhá nahrávka pro telefonní řeč žen atd.). Pokud byl součástí modelu pouze jeden elementární jev, byla pro jeho trénování použita právě příslušná nahrávka. Pokud bylo součástí modelu více elementárních jevů, byla pro jeho trénování použitá skriptem vytvořená nahrávka skládající se z více nahrávek příslušných elementárních jevů v poměru, který odpovídal míře zastoupení jevů v trénovacích datech (u hojně zastoupených jevů typu samotné řeči nebyla pro trénování použita všechna dostupná data). Zvolené elementární jevy a jejich příslušnost k dílčím modelům systému pro danou doménu uvádí Tab. 4.1 a Tab. 4.2.

(31)

Tab. 4.1: Rozlišované jevy v nahrávkách zpravodajských pořadů a jejich příslušnost k navrženým modelům.

Blok systému využívající modely

( → )

Detekce řeči Klasifikace pohlaví a šířky pásma

Název modelu (

→ ) řeč řeč + hudba řeč + ostatní hudba ostatní řeč mužů v širokém pásmu

řeč žen v širokém pásmu

řeč mužů v úzkém pásmu (telefonní řeč)

řeč žen v úzkém pásmu (telefonní řeč)

Elementární jev (

↓ )

řeč muže (ne telefonní) X X

řeč ženy (ne telefonní) X X

telefonní řeč muže X X

telefonní řeč ženy X X

řeč muže (ne telefonní) + hudba

X X

řeč ženy (ne telefonní) + hudba

X X

řeč muže (ne telefonní) + ostatní

X X

řeč ženy (ne telefonní)

+ ostatní X X

hudba X

hluk X

ticho X

řeč více mluvčích najednou

X

(32)

Tab. 4.2: Rozlišované jevy v telefonních nahrávkách a jejich příslušnost k navrženým modelům.

Blok systému využívající modely

( → )

Detekce řeči Klasifikace pohlaví a šířky pásma

Název modelu (

→ ) řeč řeč + hudba řeč + ostatní hudba ostatní řeč mužů v širokém pásmu

řeč žen v širokém pásmu

řeč mužů v úzkém pásmu (telefonní řeč)

řeč žen v úzkém pásmu (telefonní řeč)

Elementární jev (

↓ )

řeč muže z mobilu X X

řeč ženy z mobilu X X

řeč muže z nepřenosné pevné linky

X X

řeč ženy z nepřenosné pevné linky

X X

řeč muže z přenosné

pevné linky X X

řeč ženy z přenosné

pevné linky X X

řeč více mluvčích najednou

X

ostatní X

(33)

5 Data použitá pro trénování, vývoj a testování systému

Pro trénování, vývoj a testování systému byla použita telefonní data a data televizních zpravodajských pořadů. Značná část těchto dat nebyla primárně určena pro vývoj diarizačního systému a byla z tohoto důvodu později modifikována viz 6.1.

5.1 Telefonní data

Použita byla telefonní data z mezinárodní evaluace v úloze rozpoznávání mluvčích (dále jen SRE - Speaker Recognition Evaluation) americkým Národním institutem pro standardy a technologii (dále jen NIST - National Institute for Standards and Technology) v roce 2008.

Konkrétně 1/10 testovacích dat označených jako short3. Tato data představovala kromě samotných nahrávek i jejich textové anotace.

Tab. 5.1: Popis telefonních dat použitých pro trénování, vývoj a testování systému.

formát wav, 8kHz, μ-law

popis dostačující pro účely trénování

diarizačního systému NE

popis dostačující pro účely testování diarizačního systému

ANO

forma popisu pro účely testování

diarizačního systému automatický přepis řeči po jednotlivých slovech a informace o mluvčím

celkový rozsah dat cca 18,5 hodiny

průměrná délka nahrávky cca 5 min

počet mluvčích v každé nahrávce 2

celkový počet mluvčích 440

informace o pohlaví mluvčích ANO u 59,55%

informace o typu kanálu mluvčích ANO u 67,27%

Anotace obsahovaly jednak přepisy telefonátů s časy začátku a konce každého slova a jednak mnoho dalších informací o datech (o mluvčích např. pohlaví, typ kanálu ze kterého hovoří, národnost či rok narození). Tyto informace ale nebyly úplné (ne o všech mluvčích byly k dispozici všechny zaznamenávané informace). Např. pohlaví bylo uvedeno pouze u necelých 60% mluvčích (viz Tab. 5.1). Trénovací data byla ve snaze o robustní modely vyvážena dle Tab.

5.2. Vzhledem k tomu, že u těchto vyvážených trénovacích dat bylo potřeba znát informace o

(34)

mluvčích, byla tato data vytvořena pouze z těch nahrávek, které obsahovaly řeč alespoň jednoho mluvčího1 o němž bylo známo pohlaví i typ telefonu.

Tab. 5.2: Charakteristika trénovacích telefonních dat.

celkový rozsah dat cca 4 hodiny

celkový počet mluvčích 80

vyváženost mluvčích dle pohlaví ANO

poměr zastoupení typů kanálu v pořadí mobil, nepřenosná pevná linka,

přenosná pevná linka

2:1:1

5.2 Data televizních zpravodajských pořadů – záznam vysílání ČT24

Tato data představovala 12 hodinových na sebe navazujících audio nahrávek z živého vysílání televize ČT24. Každá nahrávka obsahovala i popis pro účely diarizace vytvořený studenty Technické univerzity v Liberci v programu Transcriber (tento program je volně dostupný na serveru sourceforge.net).

Tab. 5.3: Popis dat vysílání televize ČT24 použitých pro trénování, vývoj a testování systému.

formát wav, 16kHz, a-law

popis dostačující pro účely trénování diarizačního systému

ANO

popis dostačující pro účely testování diarizačního systému

ANO

celková doba záznamu 12 hodin

doba každé nahrávky 1 hodina

datum pořízení záznamu 12.5.2009

5.3 Data televizních zpravodajských pořadů – hlavní zpravodajské relace českých televizí

Data hlavních televizních zpravodajských pořadů byla dodána firmou Newton media, a.s., která se zabývá monitoringem médií. Tato data představovala videozáznamy a jejich anotace ve formátu XML. Modifikace těchto dat pro účely trénování, vývoje a testování systému (viz 6.1.3) 1 Anotace nezřídka obsahovaly informace o pohlaví a zároveň i typu telefonu pouze o jednom mluvčím

z telefonátu.

(35)

byla ze všech použitých dat nejpracnější. Z toho důvodu bylo použito pouze cca 2,7 hodin těchto dat.

Tab. 5.4: Popis dat hlavních zpravodajských relací českých televizí použitých pro trénování, vývoj a testování systému.

formát audia mp3, 48kHz, a-law

popis dostačující pro účely trénování diarizačního systému

NE

popis dostačující pro účely testování

diarizačního systému ANO

vybrané televize Česká televize, Nova, Prima počet relací každé vybrané televize 2

celková doba záznamu cca 2,7 hodiny

(36)

6 Realizace robustního systému diarizace mluvčích

Tato kapitola popisuje praktickou část vývoje systému. Je rozdělena do 3 podkapitol. Část 6.1 se zabývá zpracováním dat, část 6.2 odhadem prahů vystupujících v systému a část 6.3 implementací systému.

6.1 Zpracování dat

Tato kapitola popisuje zpracování dat realizované zejména za účelem tvorby navržených modelů. Dále zmíněné skripty pracující s textovými soubory byly realizovány v programovacím jazyce Perl za použití vývojového prostředí Open Perl IDE. Skripty pracující s nahrávkami byly realizovány v prostředí Matlab.

6.1.1 Telefonní data

Nahrávky telefonních dat (viz Tab. 5.1) byly nejprve převedeny v programu SoX na 16kHz formát PCM. Dále byl vytvořen skript, který z celkem 3 poměrně obsáhlých anotačních souborů telefonních nahrávek vytvořil soubor jeden, který obsahoval pouze informace o nahrávkách potřebné pro diarizaci. Dle Tab. 4.2 se jednalo o pohlaví mluvčích a typ jejich telefonů v rámci telefonátu.

Poté byly vytvořeny sady trénovacích a testovacích dat. Za účelem vytvoření seznamu trénovacích dat vyvážených dle Tab. 5.2 byl vytvořen skript. Ten přednostně zařazuje na výsledný seznam nahrávky u nichž je známo pohlaví a typ telefonu u obou mluvčích (z důvodu vyčerpání co nejmenšího počtu nahrávek pro účel trénování) tak, aby přitom nebyl překročen požadovaný počet mluvčích u žádné kombinace pohlaví a typu telefonu. Pokud po projití všech takových nahrávek nejsou splněny požadované počty mluvčích u každé kombinace pohlaví a typu telefonu, jsou přidávány na seznam i nahrávky ostatní s tím, že řeč mluvčího, jehož výskyt v trénovacích datech by překročil maximální povolený limit dané kombinace pohlaví a typu telefonu, není pro trénování použita.

Další skript byl použit pro získávání rozlišovaných elementárních jevů ze sady trénovacích nahrávek. Vzhledem k charakteristice dat a navrženým elementárním jevům telefonních dat, byl princip tohoto skriptu následující. Z časových hranic jednotlivých slov každého mluvčího byly vytvořeny časové hranice souvislých řečových segmentů mluvčího (data tak byla zbavena o pro diarizaci zbytečnou informaci a zároveň byl výrazně snížen rozměr matice předávané Matlabu, viz. dále). Tyto hranice souvislých segmentů od obou mluvčích byly dále rozšířeny o hranice začátku a konce signálu a následně seřazeny vzestupně dle času výskytu v nahrávce. Tím byl signál rozdělen na segmenty, které se daly jednoznačně

(37)

klasifikovat dle obsaženého elementárního jevu, což byl také následující krok algoritmu.

Klasifikace byla založena na testování, zda-li je klasifikovaný segment obsažen v nějakém souvislém segmentu řeči (zvlášť pro oba mluvčí). Pokud byl obsažen v řeči pouze jednoho mluvčího, byl ke konkrétnímu elementárnímu jevu přiřazen na základě známého pohlaví a typu telefonu mluvčího.

Časové hranice jednotlivých elementárních jevů byly následně zapsány do výstupního textového souboru ve formě skriptu v Matlabu, který po spuštění ve zmíněném prostředí realizoval vytvoření nahrávek obsahující vždy jeden elementární jev z jedné nahrávky (celkový počet těchto nahrávek odpovídal součinu elementárních jevů a počtu nahrávek). Tím byl realizován jakýsi mezikrok před výslednou tvorbou nahrávek jednotlivých modelů. Hranice jednotlivých elementárních jevů byly Matlabu předány v jedné trojrozměrné matici u které první rozměr představoval jednotlivé elementární jevy, druhý rozměr zpracovávané trénovací nahrávky a třetí rozměr maximální počet hranic souvislých segmentů přes všechny nahrávky a všechny elementární jevy.

Takto vytvořená sada nahrávek byla zpracována závěrečným skriptem, který realizoval vytvoření výsledné trénovací nahrávky pro každý dílčí model.

6.1.2 Data televizních zpravodajských pořadů – záznam vysílání ČT24

Popisy těchto dat byly ručně modifikovány především z následujících důvodů:

1) ačkoli byly tyto popisy dle názoru autora udělány pečlivě, nedostatků se nevyvarovaly (často např. chybějící označení hudby či ruchů na pozadí řeči, záměna hudby s ruchy či neoznačovaná telefonní řeč)

2) součástí jednotlivých segmentů bylo často i ticho, které v nich dosahovalo délky až několika sekund

Ticho bylo potřeba označit a vyčlenit do samostatného segmentu, protože jeho zařazení např. do řečového segmentu by znamenalo znekvalitnění dat pro trénování řečových modelů a naopak ochudilo data pro trénování neřečového modelu. Podobný dopad by mělo i zařazení ticha do segmentu obsahujícího hudbu.

Modifikace popisu signálu byla prováděna v programu Transcriber (stejně jako popis původní). Nejčastěji vykonávanou úpravou popisu v tomto programu byla tvorba nových segmentů upřesňující popis signálu na typicky malém úseku. Často již zmíněné vyčleňování ticha do vlastních segmentů. Dále pak např. rozlišování řeči bez rušivého pozadí s řečí s rušivým pozadím (často v dílčích zpravodajských relacích, kdy je po chvíli relace spuštěna hudba na pozadí) či rozlišování segmentů řeči s rušivým pozadím se segmenty obsahující

(38)

(pouze) rušivé pozadí. Pro účely testování a trénování systému bylo ručně modifikováno 7 hodin těchto dat. Pro získání trénovacích nahrávek dílčích modelů z modifikovaných dat byl použit obdobný postup jako v případě dat telefonních (rozdíl byl pouze ve zpracování jiného anotačního souboru nahrávek).

6.1.3 Data televizních zpravodajských pořadů – hlavní zpravodajské relace českých televizí

Původní anotace těchto dat nebyly pro vývoj diarizačního systému dostačující zejména z následujících důvodů:

1) přepisy neobsahovaly označení neřečových tříd (hudba, hluk, ticho) 2) v anotacích chyběl údaj o pohlaví mluvčích

3) hranice segmentů se rozcházely s realitou (místy až o 5 sekund) a byly v přepisech uváděny s nedostatečnou přesností na 1 sekundu

4) v anotacích chybělo označení telefonní řeči

Obr. 6.1: Okno programu Transcriber.

References

Related documents

Tato podkapitola navazuje na předešlé dva PPP projekty, které byly podrobně analyzovány. Cílem podkapitoly je na základě uvedených informací porovnat český

Cílem zadané bakalářské práce bylo seznámit Se s problematikou geopolymerních materiálů a zhodnotit možnosti využití těchto materiálů jako povlaků

Jejím cílem bylo zjistit, jaké jsou nejčastější obtíže dětí v mladším školním věku při čtení, psaní a počítání. V jednotlivých kapitolách byly popsány

Východiskem této práce je poskytnout pohled na současný systém školského pora- denství a dalších pedagogických poradenských zařízení. V té souvislosti je cílem této

Cílem této diplomové práce bylo zjistit, jaký vliv mají různé rychlosti nárůstu tlaku při hydrostatické zkoušce vyboulováním na zpevnění materiálu,

V této části je rovněž zmíněna historie rodinného podnikání na českém území i napříč světem, jsou zde vysvětleny základní pojmy jako rodina, podnikání,

Hodnocen´ı navrhovan´ e vedouc´ım bakal´ aˇ rsk´ e pr´ ace: výborně minus Hodnocen´ı navrhovan´ e oponentem bakal´ aˇ rsk´ e pr´ ace:?. Pr˚ ubˇ eh obhajoby bakal´

Cílem zadané bakalářské práce bylo seznámení se s problematikou geopolyrnerních materiálů a možnostmi jejich využiti, příprava vzorků a hodnocení jejich