” Multilingv´ aln´ı syst´ emy rozpozn´ av´ an´ı ˇ reˇ ci a jejich efektivn´ı uˇ cen´ı“
Oponentsk´y posudek disertaˇcn´ı pr´ace Ing. Radka ˇSafaˇr´ıka
Pˇredloˇzen´a disertaˇcn´ı pr´ace se zab´yv´a adaptac´ı existuj´ıc´ıho syst´emu automatick´eho rozpozn´av´an´ı ˇreˇci (ASR) pro dalˇs´ı jazyky. Zamˇeˇruje se zejm´ena na slovansk´e jazyky, kter´e jsou si dostateˇcnˇe podobn´e, pˇriˇcemˇz v´ychoz´ım jazykem je ˇceˇstina. Pˇri ˇreˇsen´ı se autor nejdˇr´ıve zamˇeˇril na tvorbu jazykov´eho korpusu, v´yslovnostn´ıho slovn´ıku a jazykov´eho modelu. Dalˇs´ım c´ılem pr´ace byl n´avrh a implementace metod pro tvorbu akustick´ych mo- del˚u. Funkˇcnost navrˇzen´ych metod byla ´uspˇeˇsnˇe ovˇeˇrena na jeden´acti slovansk´ych a tˇrech dalˇs´ıch jazyc´ıch. Chybovost slov (WER) byla ve vˇetˇsinˇe pˇr´ıpad˚u niˇzˇs´ı neˇz 20 %.
1. V´yznam disertaˇcn´ı pr´ace pro obor
V´ıcejazyˇcnost a v´yvoj syst´em˚u, kter´e dok´aˇz´ı zpracov´avat ˇreˇc / pˇrirozen´y jazyk ve v´ıce jazyc´ıch je dnes velmi perspektivn´ı t´ema, kter´ym se zab´yv´a ˇrada v´yzkumn´ych instituc´ı i firem. Do t´eto oblasti patˇr´ı i n´avrh a implementace komponent pro v´yvoj multilinv´aln´ıho ASR syst´emu, ˇc´ımˇz se zab´yv´a pˇredkl´adan´a pr´ace. Hlavn´ım pˇr´ınosem pr´ace je v´yvoj jazykovˇe z´avisl´ych modul˚u (slovn´ıky, jazykov´e modely, akustick´e mo- dely) pro dalˇs´ı jazyky pˇrid´avan´e do syst´emu tak, aby byla minimalizov´ana manu´aln´ı ˇcinnost. Navrˇzen´e postupy a metody pˇredstavuj´ı, podle m´eho n´azoru, podstatn´y pˇr´ınos v dan´e oblasti. Jak´ykoliv posun je zde ˇz´adouc´ı z pohledu v´yzkumu i praxe.
2. Pouˇzit´e metody, postup ˇreˇsen´ı a splnˇen´ı stanoven´ych c´ıl˚u
Autor pouˇzil pˇri ˇreˇsen´ı pr´ace tradiˇcn´ı postupy spolu s metodami zaloˇzen´ymi na hlubok´em uˇcen´ı. V´ybˇer metod pro ˇreˇsen´ı probl´em˚u je logick´y.
Student tak´e volil vhodn´e postupy pro dosaˇzen´ı vˇsech ˇsesti d´ılˇc´ıch c´ıl˚u, kter´e je moˇzno shrnout n´asleduj´ıc´ım zp˚usobem:
i) n´avrh efektivn´ıho pˇr´ıstupu pro tvorbu jazykovˇe z´avisl´ych modul˚u s minim´aln´ı superviz´ı;
ii) n´avrh a implementace sady n´astroj˚u pro podporu automatizace potˇrebn´ych
´ uloh;
iii) pr˚uzkum moˇznost´ı vyuˇzit´ı strojov´eho uˇcen´ı pro sbˇer a anotaci dat pro tvorbu akustick´ych model˚u;
iv) aplikace navrˇzen´ych postup˚u pro vˇsechny slovansk´e jazyky;
v) praktick´e vyuˇzit´ı metod v dom´enˇe automatick´eho pˇrepisu a monitoringu m´edi´ı ve vˇsech slovansk´ych jazyc´ıch;
vi) ovˇeˇren´ı navrˇzen´ych metod a postup˚u na dalˇs´ıch vybran´ych neslovansk´ych ja- zyc´ıch.
Definovan´e c´ıle jsou jako celek velmi ambici´ozn´ı a vyˇzaduj´ı na stranˇe jedn´e dostateˇcn´e pochopen´ı problematiky a na stranˇe druh´e velk´e ˇcasov´e n´aroky. Po prostudov´an´ı pr´ace mus´ım s potˇeˇsen´ım konstatovat, ˇze byly vˇsechny uveden´e c´ıle splnˇeny.
1
3. Vyuˇzit´ı v´ysledk˚u pr´ace v praxi
Za nejvˇetˇs´ı pˇr´ınos disertaˇcn´ı pr´ace povaˇzuji jej´ı praktick´e vyuˇzit´ı. Pr´ace je z vˇetˇs´ı ˇc´asti inˇzen´yrsk´eho charakteru, nenavrhuje nov´e metody a algoritmy, ale sp´ıˇse vyuˇz´ıv´a / adaptuje / spojuje existuj´ıc´ı osvˇedˇcen´e pˇr´ıstupy pro dalˇs´ı jazyky. Nicm´enˇe v´ysledky t´eto pr´ace byly re´alnˇe nasazeny do praxe partnerskou firmou Newton technlogies v r´amci projekt˚u Multilinmedia a DeepSpot.
4. Form´aln´ı str´anka pr´ace
Pˇredloˇzen´a pr´ace je napsan´a v ˇceˇstinˇe a skl´ad´a se z dev´ıti kapitol + pˇr´ılohy. Celkem se jedn´a o 117 stran textu. Pr´ace je dobˇre ˇclenˇena. M´am jen v´ytku k um´ıstˇen´ı c´ıl˚u pr´ace, kter´e jsou uvedeny v kap. 3 (str. 37). Bylo by vhodnˇejˇs´ı c´ıle pr´ace um´ıstit na zaˇc´atek pr´ace.
Po jazykov´e str´ance je disertace na velmi dobr´e ´urovni, neobsahuje pˇreklepy ani pravopisn´e chyby. Jen nˇekter´e pouˇzit´e formulace nejsou vhodn´e pro odborn´y text (napˇr.
”.. vzeˇsl´eho z akustick´eho a jazykov´eho modelu “ na str. 23 nebo
”.. jsou ˇreˇseny moduly a n´astroje .. “ na str. 54).
D´ale obsahuje nˇekolik drobn´ych form´aln´ıch nedostatk˚u: nepˇreloˇzen´e anglick´e term´ıny (napˇr. sekce 5.1.6 Textov´y preprocessing), nˇekter´a tvrzen´ı by bylo vhodn´e doplnit referencemi (napˇr. str. 39, sekce 4.1) a prvn´ı ˇc´ıslovan´a str´anka by mˇela b´yt kap. 1 Uvod.´
5. Publikaˇcn´ı aktivita studenta
Autor publikoval v´ysledky sv´e pr´ace celkem ve dvan´acti ˇcl´anc´ıch na mezin´arodn´ıch konferenc´ıch, z nichˇz dvˇe jsou prestiˇzn´ı konference Interspeech, kter´a je hodnocena jako ”A“ podle port´alu CORE. Tento poˇcet publikac´ı pˇrevyˇsuje poˇzadavky kla- den´e na studenta doktorsk´eho studia. Kvalita publikac´ı je potvrzena v´yborn´ym citaˇcn´ım ohlasem (13 x DB Scopus).
Na druhou stranu v uveden´em seznamu postr´ad´am alespoˇn jeden ˇcasopiseck´y ˇcl´anek.
D´ale mˇe lehce zar´aˇz´ı, ˇze posledn´ı publikace je z roku 2018. Proˇc autor nepublikoval nic pozdˇeji?
6. Pˇripom´ınky / Dotazy
• V Prohl´aˇsen´ı autor mylnˇe uv´ad´ı
”bakal´aˇrskou pr´aci“, aˇckoli se jedn´a o pr´aci disertaˇcn´ı.
• ˇRada term´ın˚u a pojm˚u by si zaslouˇzila pˇresnˇejˇs´ı popis vˇc. souvisej´ıc´ıho mate- matick´eho apar´atu (napˇr. jazykov´y model - str. 21 - matematick´y popis je pouze pro bigramov´y model a to na str. 53, nebo Skryt´y Markov˚uv model).
• Na str. 23 autor popisuje modul´arn´ı ASR syst´em. V popisu obr´azku uv´ad´ı, ˇze se syst´em skl´ad´a z
”nˇekolika modul˚u“. Pr´ace je odborn´y text, proto je tˇreba poˇcet uv´est pˇresnˇe.
• V sekci 1.6 (str. 25 a 26) jsou definov´any metriky WER, OOV a OOL. Dalˇs´ı evaluaˇcn´ı metriky jsou uvedeny v sekci 6.4 (str. 70 a 71). Proˇc nejsou uvedeny vˇsechny dohromady na jednom m´ıstˇe pr´ace? Nav´ıc u metrik OOV a OOL chyb´ı matematick´y popis. Jako dalˇs´ı d˚uleˇzit´a metrika je F-m´ıra, kter´a v pr´aci pouˇzita nen´ı. Proˇc jste tuto metriku nepouˇzil?
2
• V pr´aci mi obecnˇe chyb´ı srovn´an´ı se souvisej´ıc´ımi pracemi. Pˇripravte si toto srovn´an´ı pro jednotliv´e ´ulohy, kter´e jste ˇreˇsil zejm´ena pak pro:
– identifikaci jazyka (str. 49).
– v´ysledky ASR ve v´ıce jazyc´ıch (tab. 7.3 a 8.4).
• Text v nˇekter´ych tabulk´ach (napˇr. 5.6, 5.7 nebo 6.1) by si zaslouˇzil ˇcesk´y pˇreklad.
• V dneˇsn´ı dobˇe povaˇzuji za zbyteˇcn´e prov´adˇet srovn´an´ı rozpozn´av´an´ıˇreˇci s GMM a DNN, kdyˇz je zˇrejm´e, ˇze DNN bude m´ıt lepˇs´ı v´ysledky.
• Na str. 81 uv´ad´ıte, ˇze testovac´ı sady jsou veˇrejnˇe dostupn´e. M´ate pˇredstavu, jak jsou tyto sady v ASR komunitˇe vyuˇz´ıv´any (napˇr. poˇcet staˇzen´ı nebo relevantn´ı citace)?
7. Shrnut´ı
Na z´avˇer konstatuji, ˇze disertaˇcn´ı pr´ace pana Ing. Radka ˇSafaˇr´ıka je samostatn´a vˇedeck´a pr´ace, kter´a obsahuje ˇradu nov´ych v´ysledk˚u. Pr´aci proto DOPORU ˇCUJI k obhajobˇe.
V Plzni dne 7. ´unora 2021
doc. Ing. Pavel Kr´al, Ph.D.
Katedra informatiky a v´ypoˇcetn´ı techniky Z´apadoˇcesk´a univerzita v Plzni
3