• No results found

TECHNICKÁ UNIVERZITA V LIBERCI

N/A
N/A
Protected

Academic year: 2022

Share "TECHNICKÁ UNIVERZITA V LIBERCI "

Copied!
60
0
0

Loading.... (view fulltext now)

Full text

(1)

TECHNICKÁ UNIVERZITA V LIBERCI

Fakulta mechatroniky, informatiky a mezioborových studií

BAKALÁŘSKÁ PRÁCE

Liberec 2011

David Botka

(2)

TECHNICKÁ UNIVERZITA V LIBERCI

Fakulta mechatroniky, informatiky a mezioborových studií

Studijní program: B2612 – Elektrotechnika a informatika Studijní obor: B2646 – Informační technologie

Konverze monofonních audio signálů na stereofonní pomocí NMF

Mono-to-Stereo Conversion of Audio Signals Using Non-Negative Matrix Factorization

Bakalářská práce

Autor: David Botka

Vedoucí práce: Ing. Zbyněk Koldovský, Ph.D.

Konzultant: Ing. Jiří Málek

V Liberci 14. 5. 2011

(3)

STRANA

S ORIGIN ALN´

IM´

ZADAN´ IM´

(4)

Prohl´ aˇ sen´ı

Byl jsem sezn´amen s t´ım, ˇze na mou bakal´aˇrskou pr´aci se plnˇe vztahuje z´akon ˇc. 121/2000 o pr´avu autorsk´em, zejm´ena § 60 (ˇskoln´ı d´ılo).

Beru na vˇedom´ı, ˇze TUL m´a pr´avo na uzavˇren´ı licenˇcn´ı smlouvy o uˇzit´ı m´e bakal´aˇrsk´e pr´ace a prohlaˇsuji, ˇze s o u h l a s ´ı m s pˇr´ıpadn´ym uˇzit´ım m´e bakal´aˇrsk´e pr´ace (prodej, zap˚ujˇcen´ı apod.).

Jsem si vˇedom toho, ˇze uˇz´ıt sv´e bakal´aˇrsk´e pr´ace ˇci poskytnout licenci k jej´ımu vyuˇzit´ı mohu jen se souhlasem TUL, kter´a m´a pr´avo ode mne poˇzadovat pˇrimˇeˇren´y pˇr´ıspˇevek na ´uhradu n´aklad˚u, vynaloˇzen´ych univerzitou na vytvoˇren´ı d´ıla (aˇz do jejich skuteˇcn´e v´yˇse).

Bakal´aˇrskou pr´aci jsem vypracoval samostatnˇe s pouˇzit´ım uveden´e literatury a na z´akladˇe konzultac´ı s vedouc´ım bakal´aˇrsk´e pr´ace a konzultantem.

Datum: 14. 5. 2011

Podpis

(5)

Podˇ ekov´ an´ı

Chtˇel bych podˇekovat vˇsem, kteˇr´ı mi pomohli s vypracov´an´ım bakal´aˇrsk´e pr´ace.

Dˇekuji pˇredevˇs´ım vedouc´ımu m´e pr´ace Ing. Zbyˇnku Koldovsk´emu, Ph.D. za cenn´e rady, konzultace a pomoc pˇri tvorbˇe t´eto bakal´aˇrsk´e pr´ace.

(6)

Abstrakt

Tato pr´ace pojedn´av´a o pˇrevodu monofonn´ıch audio sign´al˚u na stereofonn´ı.

Pro pˇrevod monofonn´ıho audio sign´alu na stereofonn´ı je tˇreba rozloˇzit mono- fonn´ı sign´al do jednotliv´ych sloˇzek. K tomu vyuˇz´ıv´ame metodu non-negative matrix factorization (NMF). Popisujeme jej´ı vlastnosti, moˇznosti vyuˇzit´ı a iteraˇcn´ı algoritmy v´ypoˇctu. K mˇeˇren´ı kvality rozkladu pouˇz´ıv´ame hodnoty signal to interference ratio (SIR) a signal to distortion ratio (SDR). Rozklady prov´ad´ıme na sign´alech pomoc´ı NMF se tˇremi r˚uzn´ymi objektivn´ımi funkcemi.

Porovn´av´ame v´ysledky dosaˇzen´e s Euklidovskou vzd´alenost´ı, Kullback-Leibler (KL) divergenc´ı a Itakura-Saito (IS) divergenc´ı. D´ale popisujeme digit´aln´ı sign´al v ˇcasov´e a frekvenˇcn´ı oblasti a navrhujeme postup pˇrevodu monofonn´ıho sign´alu na stereofonn´ı.

C´ılem pr´ace bylo navrhnout a popsat postup pro pˇrevod monofonn´ıho audio sign´alu na stereofonn´ı a pro realizaci implementovat algoritmy v prostˇred´ı MATLAB. D´ale pak porovnat v´ysledky NMF rozkladu s r˚uzn´ymi objektivn´ımi funkcemi a z v´ysledk˚u rozkladu vytvoˇrit stereofonn´ı sign´al.

Kl´ıˇcov´a slova: non-negative matrix factorization (NMF), pˇrevod mono- fonn´ıch audio sign´al˚u na stereofonn´ı, signal to interference ratio (SIR), signal to distortion ratio (SDR), spektrogram

(7)

Abstract

This thesis discusses the mono to stereo conversion of audio signals. For mono to stereo conversion is necessary to separate components from mono signal. For separation we a apply method called non-negative matrix factor- ization (NMF). We describe its characteristics, possibility of using and update rules for computation. To measure the quality of separation we use the sig- nal to interference ratio (SIR) and the signal to distortion ratio (SDR). We perform separations of components from audio signals using NMF with three different cost functions. We compare results reached with Euclidean distance, Kullback-Leibler (KL) divergence and Itakura-Saito (IS) divergence. Next we describe digital signal in time and frequency domain and propose the process for mono to stereo conversion of audio signals.

The aim of the thesis was to propose and describe the process for mono to stereo conversion of audio signals and for realization to implement algorithms in the MATLAB environment. Then to compare results reached with different cost functions and to make stereo signal from results of separation.

Key words: non-negative matrix factorization (NMF), mono to stereo conversion of audio signals, signal to interference ratio (SIR), signal to distor- tion ratio (SDR), spectrogram

(8)

Obsah

Prohl´aˇsen´ı . . . iii

Podˇekov´an´ı . . . iv

Abstrakt . . . v

Abstract . . . vi

Obsah . . . vii

Seznam obr´azk˚u . . . ix

Seznam tabulek . . . x

Seznam zkratek . . . xi

1 Uvod´ 1 2 Non-negative matrix factorization 3 2.1 Historie . . . 4

2.2 Podobn´e matrix factorization metody . . . 4

2.3 Podm´ınka nez´apornosti . . . 4

2.4 Oblasti pouˇzit´ı . . . 5

2.5 V´ypoˇcet . . . 6

2.6 Objektivn´ı funkce . . . 6

2.7 Multiplikativn´ı iteraˇcn´ı algoritmus . . . 7

2.8 Aditivn´ı iteraˇcn´ı algoritmus . . . 9

3 Popis digit´aln´ıho sign´alu 10 3.1 Casov´ˇ a oblast . . . 10

3.2 Frekvenˇcn´ı oblast . . . 11

3.2.1 Diskr´etn´ı Fourierova transformace . . . 11

3.2.2 Ok´enkovac´ı funkce . . . 12

(9)

3.2.3 Amplitudov´e spektrum . . . 13

3.2.4 Spektrogram . . . 14

4 Pˇrevod monofonn´ıho sign´alu na stereofonn´ı 17 4.1 Vytvoˇren´ı masky . . . 18

4.1.1 Bin´arn´ı maska . . . 18

4.2 Inverzn´ı spektrogram . . . 19

4.3 Vytvoˇren´ı stereo sign´alu . . . 21

5 Mˇeˇren´ı kvality rozkladu − SIR a SDR 22 5.1 Postup v´ypoˇctu . . . 23

6 Praktick´a aplikace 25 6.1 Rozklad sign´alu sloˇzen´eho ze tˇr´ı sloˇzek . . . 26

6.1.1 Zhodnocen´ı v´ysledk˚u . . . 29

6.2 Rozklad zaˇsumˇen´eho sign´alu . . . 31

6.2.1 Zhodnocen´ı v´ysledk˚u . . . 32

6.3 Rozklad re´aln´e nahr´avky . . . 33

6.3.1 Zhodnocen´ı v´ysledk˚u . . . 34

7 Z´avˇer 36 A Obsah pˇriloˇzen´eho CD 39 B Manu´al k implementaci 40 B.1 NMF . . . 40

B.2 Maska . . . 41

B.3 Inverzn´ı spektrogram . . . 42

B.4 Uloˇzen´ı v´ysledk˚u . . . 43

B.5 Sm´ıch´an´ı zvukov´ych sign´al˚u . . . 44

B.6 V´ypoˇcet SIR . . . 45

B.7 V´ypoˇcet SDR . . . 46

Literatura 47

(10)

Seznam obr´ azk˚ u

3.1 Digit´aln´ı sign´al v z´akladn´ı formˇe a v normalizovan´e formˇe . . . 10

3.2 Ok´enkovac´ı funkce . . . 12

3.3 Aplikace ok´enkovac´ı funkce na sign´al . . . 13

3.4 Dvoustrann´e a jednostrann´e amplitudov´e spektrum . . . 13

3.5 Skuteˇcn´e a rozmazan´e amplitudov´e spektrum . . . 14

3.6 Grafick´e zn´azornˇen´ı v´ypoˇctu spektrogramu . . . 14

3.7 Spektrogram z´aznamu hry na bic´ı . . . 15

3.8 Vliv velikosti bloku na spektrogram . . . 16

3.9 Vliv velikosti pˇrekryt´ı blok˚u na spektrogram . . . 16

4.1 Grafick´e zn´azornˇen´ı pˇrevodu monofonn´ıho sign´alu na stereofonn´ı . . . 17

4.2 Grafick´e zn´azornˇen´ı v´ysledk˚u NMF . . . 18

4.3 Aplikace bin´arn´ı masky na spektrogram . . . 19

4.4 Grafick´e zn´azornˇen´ı pˇrevodu spektrogramu do ˇcasov´e oblasti . . . 19

4.5 Urˇcen´ı pomocn´eho vektoru ok´enkovac´ıch funkc´ı . . . 20

6.1 Sloˇzky sign´alu S1, S2, S3 a souˇcet X v ˇcasov´e oblasti a jejich spektro- gramy . . . 26

6.2 P˚uvodn´ı monofonn´ı a v´ysledn´y stereofonn´ı sign´al v ˇcasov´e oblasti . . 31

6.3 P˚uvodn´ı monofonn´ı a v´ysledn´y stereofonn´ı sign´al v ˇcasov´e oblasti . . 33

6.4 P˚uvodn´ı monofonn´ı a v´ysledn´y stereofonn´ı sign´al v ˇcasov´e oblasti . . 35

(11)

Seznam tabulek

6.1 V´ysledky rozkladu do tˇr´ı sloˇzek . . . 27

6.2 V´ysledky rozkladu do ˇctyˇr sloˇzek . . . 27

6.3 V´ysledky rozkladu do pˇeti sloˇzek . . . 28

6.4 V´ysledky rozkladu do ˇsesti sloˇzek . . . 28

6.5 Hodnoty SIR a SDR rozkladu sign´alu sloˇzen´eho ze tˇr´ı sloˇzek . . . 30

6.6 Casy v´ˇ ypoˇct˚u rozkladu sign´alu sloˇzen´eho ze tˇr´ı sloˇzek . . . 30

6.7 Hodnoty SIR a SDR rozkladu zaˇsumˇen´eho sign´alu . . . 32 6.8 Casy v´ˇ ypoˇct˚u rozkladu ˇc´asti p´ısnˇe Hledan´y muˇz od kapely Taxmeni . 34

(12)

Seznam zkratek

ADC Analogovˇe-digit´aln´ı pˇrevodn´ık DFT Diskr´etn´ı Fourierova transformace EUC Euklidovsk´a vzd´alenost

FFT Fast Fourier transform fs vzorkovac´ı frekvence

ICA Independent component analysis

IDFT Inverzn´ı diskr´etn´ı Fourierova transformace

IS Itakura-Saito

KL Kullback-Leibler

LDA Linear discriminant analysis NBITS poˇcet bit˚u kvantizaˇcn´ıch ´urovn´ı NMF Non-negative matrix factorization PMF Positive matrix factorization SCA Sparse component analysis SDR Signal to distortion ratio SIR Signal to interference ratio

STFT Short-time Fourierova transformace PCA Principal component analysis

(13)

Kapitola 1 Uvod ´

Audio sign´aly byly dˇr´ıve zaznamen´av´any a tud´ıˇz i reprodukov´any pouze jako mono- fonn´ı. S rozvojem technologie se zaˇcaly pouˇz´ıvat sign´aly stereofonn´ı, kter´e maj´ı oproti monofonn´ım sign´al˚um urˇcit´e v´yhody. Pˇri pˇrehr´av´an´ı monofonn´ıho audio sign´alu na soustavˇe s v´ıce reproduktory p˚ujde ze vˇsech reproduktor˚u stejn´y zvuk.

V pˇr´ıpadˇe stereofonn´ıho audio sign´alu m˚uˇze kaˇzd´y reproduktor pˇrehr´avat jin´y kan´al.

Pokud budou reproduktory spr´avnˇe rozm´ıstˇeny, vznikne prostorov´y efekt, kter´y obvykle vyvol´av´a v posluchaˇc´ıch v´yraznˇe lepˇs´ı dojem neˇz pˇri poslechu monofonn´ıho audio sign´alu.

Nˇekter´e zvukov´e sign´aly jsou poˇr´ızeny nebo uloˇzeny jen jako monofonn´ı. Exis- tuje ale zp˚usob, kter´ym se m˚uˇze pov´est tyto monofonn´ı audio sign´aly pˇrev´est na stereofonn´ı. Audio sign´al pˇredstavuj´ıc´ı hudbu b´yv´a sloˇzen z v´ıce sloˇzek, kde jednu sloˇzku m˚uˇze pˇredstavovat hudebn´ı n´astroj, n´ızk´e frekvence, vysok´e frekvence, zpˇev atd. Smysl stereofonn´ıch sign´al˚u spoˇc´ıv´a v tom, ˇze ve vˇsech kan´alech nen´ı stejn´y sign´al. Kaˇzd´y kan´al stereofonn´ıho sign´alu m˚uˇze obsahovat r˚uzn´e sloˇzky, zat´ımco monofonn´ı sign´al m´a vˇzdy vˇse sm´ıchan´e v jenom kan´alu a jednotliv´e sloˇzky nejsou obvykle k dispozici zvl´aˇst’.

Pro pˇrevod monofonn´ıho audio sign´alu na stereofonn´ı je hlavn´ım a nejobt´ıˇznˇejˇs´ım krokem oddˇelen´ı jednotliv´ych sloˇzek ze zpracov´avan´eho sign´alu. K tomu lze vyuˇz´ıt metodu naz´yvanou non-negative matrix factorization (NMF), kterou pˇredstavili Lee a Seung [1] v roce 1999.

(14)

Metoda non-negative matrix factorization (NMF) pˇredpokl´ad´a, ˇze celek se skl´ad´a z jednotliv´ych sloˇzek. C´ılem je tyto sloˇzky detekovat − naj´ıt, co patˇr´ı k sobˇe.

Pokud tento proces dopadne ´uspˇeˇsnˇe, je pak moˇzn´e jednotliv´e sloˇzky od sebe oddˇelit a z nich vytvoˇrit stereofonn´ı sign´al. Oddˇelen´e samostatn´e sloˇzky pak uˇz staˇc´ı rozm´ıstit do r˚uzn´ych kan´al˚u. Pˇri rozkladu hudby lze pˇredpokl´adat, ˇze v´ysledn´e sloˇzky budou pˇredstavovat jednotliv´e hudebn´ı n´astoje. Kvalita v´ysledn´eho stereo- fonn´ıho sign´alu z´avis´ı pˇredevˇs´ım na kvalitˇe rozkladu do jednotliv´ych sloˇzek. Pokud se ˇz´adn´a sloˇzka nepodaˇr´ı ani ˇc´asteˇcnˇe oddˇelit, v´ysledn´y stereofonn´ı sign´al nemus´ı zn´ıt pˇriliˇs dobˇre. Rozm´ıstit vyseparovan´e sloˇzky do kan´al˚u lze pak napˇr´ıklad podle hlasitosti, obsaˇzen´ych frekvenc´ı nebo i podle hudebn´ıch n´astroj˚u.

Pro NMF bylo nalezeno uplatnˇen´ı pˇri ˇreˇsen´ı r˚uzn´ych probl´em˚u v mnoha oborech.

Jedn´a se napˇr´ıklad o analyzov´an´ı, klastrov´an´ı i rozpozn´av´an´ı. Pomoc´ı NMF lze zpracov´avat r˚uzn´e typy dat, napˇr´ıklad obr´azky, texty i zvuky.

(15)

Kapitola 2

Non-negative matrix factorization

Non-negative matrix factorization je v souˇcasnosti popul´arn´ı metoda s ˇsirok´ym vyuˇzit´ım. Pro vstupn´ı matici V s rozmˇery n × m obsahuj´ıc´ı pouze nez´aporn´a data je c´ılem naj´ıt rozklad

V ≈ WH (2.1)

s podm´ınkou, ˇze matice W i H mus´ı b´yt tak´e nez´aporn´e. Matice W m´a rozmˇery n × r a matice H m´a rozmˇery r × m, kde r je redukovan´a dimenze matic. Reduko- van´a dimenze matic r je voliteln´y parametr a ud´av´a, do kolika sloˇzek se provede rozklad. Obecnˇe se vol´ı tak, aby byla splnˇena nerovnost (2.2).

r < n · m

n + m (2.2)

Pˇri splnˇen´ı nerovnosti (2.2) doch´az´ı k redukci dat a v´ysledek souˇcinu matic W a H m˚uˇze b´yt ch´ap´an jako komprimovan´a forma matice V (Lee a Seung [1]). Jak vyjadˇruje vztah (2.1), souˇcin matic W a H obecnˇe pˇredstavuje jen aproximaci matice V, proto se NMF nˇekdy oznaˇcuje jako approximate non-negative matrix factorization nebo non-negative matrix approximation (F´evotte a kol. [2]).

Rozklad pomoc´ı NMF by mˇel b´yt jednoznaˇcn´y, ale poˇrad´ı v´ysledn´ych sloˇzek se pˇredem pokl´ad´a za nejednoznaˇcn´e. Kv˚uli t´eto vlastnosti m˚uˇze b´yt NMF pro nˇekter´e praktick´e aplikace nepouˇziteln´a.

(16)

2.1 Historie

Paatero a Tapper [3] p˚uvodnˇe navrhli metodu s n´azvem positive matrix factoriza- tion (PMF). Pozdˇeji Lee a Seung [4] ve sv´em prvn´ım ˇcl´anku s touto problematikou naz´yvali tuto metodu conic coding. V jejich dalˇs´ıch prac´ıch se jiˇz objevuje n´azev non-negative matrix factorization. N´aslednˇe v ˇcl´anku [5] pˇredstavili jednoduch´y mul- tiplikativn´ı iteraˇcn´ı algoritmus pro v´ypoˇcet NMF. Od t´e doby vzniklo mnoho modi- fikac´ı, rozˇs´ıˇren´ı a zobecnˇen´ı a NMF se tak d´a vyuˇz´ıt pro r˚uzn´e ´uˇcely (Schmidt [6]).

2.2 Podobn´ e matrix factorization metody

Vedle NMF existuj´ı i dalˇs´ı metody ˇreˇs´ıc´ı podobnou problematiku. Mezi nˇe patˇr´ı napˇr´ıklad principal component analysis (PCA), independent component analysis (ICA), sparse component analysis (SCA) a linear discriminant analysis (LDA).

Vˇsechny tyto metody se vz´ajemnˇe liˇs´ı, a proto i pro stejn´a vstupn´ı data poskytuj´ı r˚uzn´e v´ysledky. Nelze ale samozˇrejmˇe nˇekterou metodu oznaˇcit za nejlepˇs´ı, protoˇze pro ˇreˇsen´ı r˚uzn´ych probl´em˚u m˚uˇze b´yt vhodnˇejˇs´ı vyuˇz´ıt metodu jinou.

2.3 Podm´ınka nez´ apornosti

Mnoh´a data popisuj´ıc´ı urˇcit´y celek jsou v principu nez´aporn´a. Napˇr´ıklad amplitu- dov´e spektrum, poˇcet v´yskyt˚u i obrazov´a data, kde barvy jednotliv´ych pixel˚u mohou b´yt ˇc´ıselnˇe vyj´adˇreny pomoc´ı zastoupen´ı jednotliv´ych barevn´ych sloˇzek.

Skl´ad´an´ı celku z jednotliv´ych nez´aporn´ych ˇc´ast´ı nav´ıc umoˇzˇnuje pouze aditivn´ı kombinace, ˇz´adn´e vz´ajemn´e vyruˇsen´ı nem˚uˇze nastat. Tato vlastnost se i shoduje s intuitivn´ım pˇr´ıstupem, ˇze celek je souˇctem sv´ych ˇc´ast´ı. Nez´apornost vˇsech matic je tedy u NMF d˚uvodn´a podm´ınka (Schmidt [6]).

(17)

2.4 Oblasti pouˇ zit´ı

Moˇznosti vyuˇzit´ı NMF, jej´ıho zobecnˇen´ı a rozˇs´ıˇren´ı jsou velmi ˇsirok´e. Jedn´a se napˇr´ıklad o redukci dimenze, hled´an´ı pˇr´ıznak˚u, klastrov´an´ı, oddˇelen´ı sloˇzek z mixu a i rozpozn´av´an´ı. Moˇzn´e oblasti pouˇzit´ı popsal Schmidt [6]:

• Zpracov´an´ı obrazu

– hled´an´ı ˇc´ast´ı obliˇceje v obr´azku – rozpozn´av´an´ı obliˇceje

– k´odov´an´ı ˇr´ıdk´eho obrazu

– hled´an´ı kr´atk´ych video sekvenc´ı, kter´e reprezentuj´ı cel´y video z´aznam

• Zpracov´an´ı textu

– hled´an´ı s´emanticky podobn´ych slov – rozpozn´av´an´ı jazyka

• Bioinformatika

– anal´yza dat popisuj´ıc´ı geny za ´uˇcelem rozliˇsen´ı r˚uzn´ych druh˚u rakoviny – klasifikace EEG sign´alu

– anal´yza chemick´ych zmˇen v lidsk´em mozku

– zpracov´an´ı dat z pozitronov´e emisn´ı tomografie vyjadˇruj´ıc´ı srdeˇcn´ı ˇ

cinnost

• Zpracov´an´ı zvuku

– pˇrepis polyfonn´ı hudby

– hled´an´ı spektr´aln´ıch vlastnost´ı pro klasifikaci zvukov´ych sign´al˚u – oddˇelen´ı zdroj˚u zvuku z mixu

• Ostatn´ı

– anal´yza astronomick´ych dat – anal´yza barevn´eho spektra

(18)

2.5 V´ ypoˇ cet

Rozklad matic (2.1) je obvykle hled´an jako ´uloha minimalizace

W,H≥0min D(V|WH), (2.3)

kde D (V|WH) je objektivn´ı funkce, kter´a urˇcuje kvalitu aproximace. Takov´a ob- jektivn´ı funkce m˚uˇze b´yt vytvoˇrena jako mˇeˇren´ı rozd´ılnosti dvou matic. C´ılem je tedy naj´ıt takov´e matice W a H, aby rozd´ılnost vstupn´ı matice V a aproximace WH byla co nejmenˇs´ı (Lee a Seung [5]).

2.6 Objektivn´ı funkce

Objektivn´ı funkce je definovan´a jako

D(V|WH) =

n

X

i=1 m

X

j=1

d([V]i,j | [WH]i,j), (2.4)

kde d(x|y) je skal´arn´ı objektivn´ı funkce. Zp˚usob˚u, jak poˇc´ıtat hodnotu skal´arn´ı objektivn´ı funkce, je v´ıce. ˇCasto se pouˇz´ıv´a Euklidovsk´a vzd´alenost definovan´a vztahem (2.5)

dEU C(x | y) = 1

2(x − y)2 (2.5)

a zobecnˇen´a Kullback-Leibler (KL) divergence1, nˇekdy oznaˇcovan´a jako I-divergence definovan´a vztahem (2.6)

dKL(x | y) = x · logx

y − x + y. (2.6)

1Euklidovsk´a vzd´alenost (2.5) je symetrick´a, tzn. d(x|y) = d(y|x). V pˇr´ıpadˇe KL (2.6) se ale obecnˇe d(x|y) 6= d(y|x), z toho d˚uvodu to nelze naz´yvat vzd´alenost´ı. Pouˇz´ıv´a se proto pojem divergence.

(19)

Dalˇs´ı moˇznou divergenc´ı je Itakura-Saito (IS) divergence definovan´a vztahem (2.7).

dIS(x | y) = x

y − logx

y − 1 (2.7)

β-divergence je definovan´a vztahem (2.8).

dβ(x | y) =









1

β(β−1)(xβ + (β − 1)yβ − βxyβ−1) β ∈ R \ {0, 1}

x(log(x) − log(y)) + (y − x) β = 1

x

y − logxy − 1 β = 0

(2.8)

IS divergence je limitn´ı pˇr´ıpad β-divergence pro β = 0. Podobnˇe i KL divergence pro β = 1 a Euklidovsk´a vzd´alenost pro β = 2.

Existuje i ˇrada dalˇs´ıch divergenc´ı pouˇziteln´ych pro vytvoˇren´ı objektivn´ı funkce, napˇr´ıklad Cichocki a kol. [7] navrhli algoritmy s vyuˇzit´ım Csisz´ar divergenc´ı a Amariho α-divergence. Dhillon a Sra [8] popsali algoritmy pro ˇsirokou rodinu Bregmanov´ych divergenc´ı.

NMF s r˚uzn´ymi objektivn´ımi funkcemi poskytuje r˚uzn´e v´ysledky a v´ybˇer objek- tivn´ı funkce by mˇel b´yt proveden na z´akladˇe typu analyzovan´ych dat.

2.7 Multiplikativn´ı iteraˇ cn´ı algoritmus

Vyuˇzit´ı Euklidovsk´e vzd´alenosti (2.5) a Kullback-Leibler (KL) divergence (2.6) pro v´ypoˇcet NMF p˚uvodnˇe navrhli Lee a Seung [5]. Jejich odvozen´ı iteraˇcn´ıho algoritmu je zaloˇzeno na minimalizaci (2.3) pomoc´ı metody gradient descent.

Multiplikativn´ı iteraˇcn´ı algoritmus s Euklidovskou vzd´alenost´ı je pops´an vztahy (2.9) a (2.10).

H ← H (WTV)

(WTWH) (2.9)

Wia ← Wia (WHT)ia

(WHHT)ia (2.10)

(20)

Multiplikativn´ı iteraˇcn´ı algoritmus s KL divergenc´ı je pops´an vztahy (2.11) a (2.12).

H ← H P

iWiaV/(WH) P

kWka (2.11)

Wia← Wia P

µHV/(WH) P

vHav (2.12)

Lee a Seung [5] d´ale dok´azali, ˇze objektivn´ı funkce D (V|WH) je se zm´ınˇen´ymi iteraˇcn´ımi algoritmy nerostouc´ı. To znamen´a, ˇze neˇz D (V|WH) zkonverguje k mi- nimu, s kaˇzd´ym krokem se v´ysledek o nˇeco zlepˇs´ı. Iteraˇcn´ı algortimy ale nezaruˇcuj´ı konvergenci do glob´aln´ıho minima, pouze do lok´aln´ıho.

IS a β-divergenci popsali F´evotte a kol. [2]. Multiplikativn´ı iteraˇcn´ı algoritmus pro NMF s IS divergenc´ı vyjadˇruj´ı vztahy (2.13) a (2.14).

H ← H(WT((WH)[−2]· V))

(WT(WH)[−1])

(2.13)

Wia← Wia(((WH)[−2]· V)HT)ia ((WH)[−1]HT)ia

(2.14)

Multiplikativn´ı iteraˇcn´ı algoritmus pro β-divergenci je pops´an vztahy (2.15) a (2.16).

H ← H

(WT((WH)[β−2]· V))

(WT(WH)[β−1]) (2.15)

Wia← Wia(((WH)[β−2]· V)HT)ia

((WH)[β−1]HT)ia (2.16)

Jak jiˇz bylo zm´ınˇeno, pro β = 2 (Euklidovsk´a vzd´alenost) a pro β = 1 (KL divergence) je dok´az´ano, ˇze objektivn´ı funkce D (V|WH) je nerostouc´ı (Lee a Seung [5]). Kompass [9] tento d˚ukaz zobecnil a uk´azal, ˇze D (V|WH) je nerostouc´ı pro 1 ≤ β ≤ 2. V praxi se ukazuje, ˇze D (V|WH) je nerostouc´ı i pro β < 1 a pro β > 2, tud´ıˇz i pro β = 0 (IS divergence), d˚ukaz ale nebyl zat´ım nalezen (F´evotte a kol. [2]).

(21)

2.8 Aditivn´ı iteraˇ cn´ı algoritmus

Vedle multiplikativn´ıch iteraˇcn´ıch algoritm˚u pro v´ypoˇcet NMF existuj´ı i aditivn´ı iteraˇcn´ı algoritmy. Lee a Seung [5] navrhli tak´e aditivn´ı iteraˇcn´ı algoritmus s Eukli- dovskou vzd´alenost´ı (2.5) a KL divergenc´ı (2.6).

Aditivn´ı iteraˇcn´ı algoritmus s Euklidovskou vzd´alenost´ı popisuje vztah (2.17).

H ← H+ η(WTV)− (WTWH)

(2.17)

Aditivn´ı iteraˇcn´ı algoritmus s KL divergenc´ı popisuje vztah (2.18).

H ← H+ η

"

X

i

Wia

V

(WH) −X

i

Wia

#

(2.18)

Pokud je v pˇr´ıpadˇe Euklidovsk´e vzd´alenosti η nastaveno na

η = H

(WTWH) (2.19)

dostaneme stejn´y algoritmus, jak´y ud´av´a vztah (2.9). Podobnˇe i pro KL diver- genci, pokud je η nastaveno na

η = H P

iWia (2.20)

dostaneme stejn´y algoritmus jako ve vztahu (2.11).

(22)

Kapitola 3

Popis digit´ aln´ıho sign´ alu

3.1 Casov´ ˇ a oblast

Digit´aln´ı sign´al je v ˇcasov´e oblasti ˇrada ˇc´ısel, kter´a m˚uˇze vzniknout z namˇeˇren´ych nebo vypoˇcten´ych hodnot, vygenerov´an´ım s urˇcit´ymi parametry nebo i pˇrevodem analogov´eho sign´alu na digit´aln´ı pomoc´ı analogovˇe-digit´aln´ıho pˇrevodn´ıku (ADC).

Pˇri analogovˇe-digit´aln´ım pˇrevodu doch´az´ı ke vzorkov´an´ı (sn´ım´an´ı hodnot analogov´eho sign´alu) a kvantov´an´ı (pˇriˇrazen´ı ´urovnˇe). Nejd˚uleˇzitˇejˇs´ım parametrem vzorkov´an´ı je vzorkovac´ı frekvence fs a pro kvantov´an´ı poˇcet moˇzn´ych ´urovn´ı 2N BIT S. S digit´aln´ım sign´alem se ˇcasto pracuje v normalizovan´e formˇe. Pak je rozsah

´

urovn´ı v intervalu h-1;1i. Zobrazen´ı digit´aln´ıho sign´alu v z´akladn´ı a normalizovan´e formˇe je na obr´azku (3.1).

Obr´azek 3.1: Digit´aln´ı sign´al v z´akladn´ı formˇe a v normalizovan´e formˇe

(23)

3.2 Frekvenˇ cn´ı oblast

Digit´aln´ı sign´al lze popsat i ve frekvenˇcn´ı oblasti. ˇCasto se pouˇz´ıv´a amplitudov´e spektrum spolu s f´azov´ym spektrem a spektrogram. Amplitudov´e a f´azov´e spek- trum vyjadˇruje z´avislosti amplitud a f´az´ı na frekvenci a spektrogram zn´azorˇnuje zastoupen´ı jednotliv´ych frekvenc´ı v z´avislosti na ˇcase.

K v´ypoˇctu spektra digit´aln´ıch sign´al˚u se vyuˇz´ıv´a diskr´etn´ı Fourierova transfor- mace (DFT).

3.2.1 Diskr´ etn´ı Fourierova transformace

Fourierova transformace umoˇzˇnuje rozklad periodick´eho sign´alu na jednotliv´e har- monick´e sloˇzky. Pˇri pr´aci se vzorkovan´ym sign´alem se pouˇz´ıv´a diskr´etn´ı Fourierova transformace (DFT) popsan´a vztahem (3.1).

X[k] = 1 N

N −1

X

n=0

x[n] · e−j2πnk/N (3.1)

N . . . poˇcet vybran´ych vzork˚u (pˇredpoklad - jde o jednu periodu) X[k] . . . k -t´y koeficient z N vzork˚u

x[n] . . . n-t´y vzorek sign´alu

V´ystupem je N komplexn´ıch koeficient˚u diskr´etn´ıho spektra s hodnotami na frekvenc´ıch k ·fs/N. Pro re´aln´e sign´aly staˇc´ı ale vypoˇc´ıtat jen N /2 hodnot, protoˇze ostatn´ı hodnoty jsou k nim komplexnˇe sdruˇzen´e. V´ysledky pro k > N jsou stejn´e jako pro z´akladn´ı interval -N /2 < k < N /2, protoˇze spektrum je periodick´e. Pokud vybran´ych N vzork˚u nepˇredstavuje jednu periodu, v´ysledn´e spektrum je zat´ıˇzen´e r˚uzn´ymi chybami a jedn´a se pouze o aproximaci spektra. M˚uˇze doj´ıt napˇr´ıklad k roz- maz´an´ı spektra (objev´ı se neexistuj´ıc´ı sloˇzky).

V praxi se obvykle pouˇz´ıv´a optimalizovan´y v´ypoˇcet DFT naz´yvan´y FFT (Fast Fourier Transform), kter´y poskytuje stejn´e v´ysledky s v´yraznˇe niˇzˇs´ı v´ypoˇcetn´ı n´aroˇcnost´ı.

(24)

K diskr´etn´ı Fourierovˇe transformaci existuje tak´e inverzn´ı operace. Inverzn´ı diskr´etn´ı Fourierova transformace (IDFT) je popsan´a vztahem (3.2).

x[n] = 1 N

N −1

X

n=0

X[k] · ej2πnk/N (3.2)

Rozd´ıl mezi vztahem pro DFT a IDFT je jen ve znam´enku v exponenci´aln´ı funkci.

Vstupem IDFT mus´ı b´yt vˇzdy N komplexn´ıch koeficient˚u dvoustrann´eho spektra, nestaˇc´ı jen N /2 hodnot jednostrann´eho spektra. U re´aln´ych sign´al˚u se ˇcastˇeji pracuje s jednostrann´ym spektrem. Pro aplikaci IDFT je tˇreba z jednostrann´eho spektra nejprve urˇcit spektrum dvoustrann´e (Nouza [10]).

3.2.2 Ok´ enkovac´ı funkce

Zpracov´avan´e sign´aly nemus´ı b´yt periodick´e nebo jejich perioda nen´ı zn´ama, a proto doch´az´ı k rozmaz´an´ı spektra t´emˇeˇr vˇzdy. Vyn´asoben´ım v´yˇrezu sign´alu ok´enkovac´ı funkc´ı lze alespoˇn ˇc´asteˇcnˇe zamezit rozmaz´an´ı spektra. Nˇekter´e ok´enkovac´ı funkce jsou na obr´azku (3.2).

Obr´azek 3.2: Ok´enkovac´ı funkce

(25)

Sign´al vyn´asoben´y Hammingovou ok´enkovac´ı funkc´ı zobrazuje obr´azek (3.3).

Obr´azek 3.3: Aplikace ok´enkovac´ı funkce na sign´al

3.2.3 Amplitudov´ e spektrum

Amplitudov´e spektrum zobrazuje v sign´alu obsaˇzen´e frekvence a jejich amplitudy.

M˚uˇze b´yt jednostrann´e nebo dvoustrann´e. V´ysledkem vˇetˇsiny v´ypoˇcetn´ıch postup˚u je dvoustrann´e spektrum, ale v praxi se u re´aln´ych sign´al˚u ˇcastˇeji pouˇz´ıv´a jedno- strann´e. Pro urˇcen´ı jednostrann´eho spektra z dvoustrann´eho se vezme jeho polovina a amplitudy se vyn´asob´ı dvˇema. Obr´azek (3.4) zobrazuje dvoustrann´e a jednostrann´e amplitudov´e spektrum sign´alu, kter´y je sloˇzen z dvou kos´ınusov´ych pr˚ubˇeh˚u. Prvn´ı m´a frekvenci 2 Hz s amplitudou 1 a druh´y frekvenci 3 Hz s amplitudou 0.5.

Obr´azek 3.4: Dvoustrann´e a jednostrann´e amplitudov´e spektrum

Pˇri v´ypoˇctu amplitudov´eho spektra m˚uˇze doj´ıt v d˚usledku r˚uzn´ych chyb k jeho rozmaz´an´ı, tzn. objev´ı se v nˇem neexistuj´ıc´ı sloˇzky. Jedn´a se pak pouze o aproximaci spektra. Obr´azek (3.5) porovn´av´a skuteˇcn´e a rozmazan´e spektrum (Nouza [10]).

(26)

Obr´azek 3.5: Skuteˇcn´e a rozmazan´e amplitudov´e spektrum

3.2.4 Spektrogram

Spektrogram digit´aln´ıho sign´alu vyjadˇruje zastoupen´ı jednotliv´ych frekvenc´ı v z´avislosti na ˇcase. Nejˇcastˇeji se zobrazuje jako barevn´y obr´azek, kde na svisl´e ose je frekvence a na vodorovn´e ose ˇcas. ˇC´ım sytˇejˇs´ı barva, t´ım je odpov´ıdaj´ıc´ı frekvence v dan´y ˇcas v´ıce zastoupen´a.

K v´ypoˇctu spektrogramu se vyuˇz´ıv´a short-time Fourierovy transformace (STFT).

Tento proces je zn´azornˇen na obr´azku (3.6).

Obr´azek 3.6: Grafick´e zn´azornˇen´ı v´ypoˇctu spektrogramu

(27)

Bˇehem v´ypoˇctu spektrogramu je sign´al nejprve rozdˇelen do stejnˇe dlouh´ych blok˚u, pˇriˇcemˇz tyto bloky se mohou pˇrekr´yvat. Kaˇzd´y blok se vyn´asob´ı ok´enkovac´ı funkc´ı (obr´azek 3.3) a potom se zvl´aˇst’ na kaˇzd´y blok aplikuje DFT. V´ysledky DFT vˇsech blok˚u jsou pak poskl´ad´any vedle sebe. U re´aln´ych sign´al˚u se pracuje jen s polovinou v´ysledk˚u DFT, protoˇze druh´a polovina je k prvn´ı komplexnˇe sdruˇzen´a a pro spektrogram tak nenese ˇz´adnou d˚uleˇzitou informaci. Spektrogram se zobrazuje jako desetin´asobek logaritmu absolutn´ıch hodnot. Spektrogram z´aznamu hry na bic´ı je na obr´azku (3.7).

Obr´azek 3.7: Spektrogram z´aznamu hry na bic´ı

V´ıce spektrogram˚u pro jeden sign´al se m˚uˇze od sebe liˇsit. Z´aleˇz´ı na zvolen´e d´elce blok˚u, na ok´enkovac´ı funkci i na velikosti pˇrekr´yv´an´ı blok˚u. R˚uzn´e nastaven´ı tˇechto parametr˚u pˇrin´aˇs´ı urˇcit´e v´yhody i nev´yhody.

D´elka blok˚u ovlivn´ı pˇresnost rozliˇsen´ı v ˇcase a ve frekvenci. S delˇs´ım blokem bude lepˇs´ı rozliˇsen´ı ve frekvenci, ale horˇs´ı v ˇcase. S kratˇs´ım blokem naopak − lepˇs´ı rozliˇsen´ı v ˇcase, ale horˇs´ı ve frekvenci. Vˇetˇs´ı d´elka blok˚u tak´e sn´ıˇz´ı v´ypoˇcetn´ı n´aroˇcnost. D´ale z´aleˇz´ı na velikosti pˇrekr´yv´an´ı blok˚u. S vˇetˇs´ım pˇrekr´yv´an´ım blok˚u se dos´ahne lepˇs´ıho popisu sign´alu, ale v´ypoˇcetn´ı n´aroˇcnost se v´yraznˇe zv´yˇs´ı. Pˇri v´ypoˇctu spektrogramu se kv˚uli vyhlazen´ı pouˇz´ıvaj´ı ok´enkovac´ı funkce, tud´ıˇz je v´ysledek ovlivnˇen i t´ım.

R˚uzn´ymi ok´enkovac´ımi funkcemi se provede vyhlazen´ı jinak [11].

(28)

Obr´azek (3.8) zn´azorˇnuje odliˇsn´e v´ysledky v z´avislosti na d´elce blok˚u. Velikost pˇrekryt´ı blok˚u je 128 vzork˚u a pouˇzita byla Hammingova ok´enkovac´ı funkce.

Obr´azek 3.8: Vliv velikosti bloku na spektrogram

Obr´azek (3.9) porovn´av´a v´ysledky v z´avislosti na velikosti pˇrekr´yv´an´ı blok˚u.

D´elka blok˚u je 1024 vzork˚u a pouˇzita byla opˇet Hammingova ok´enkovac´ı funkce.

Obr´azek 3.9: Vliv velikosti pˇrekryt´ı blok˚u na spektrogram

(29)

Kapitola 4

Pˇ revod monofonn´ıho sign´ alu na stereofonn´ı

Pˇrevod monofonn´ıho sign´alu na stereofonn´ı navrhujeme z nˇekolika ˇc´ast´ı. Nejprve vypoˇc´ıt´ame amplitudov´y spektrogram zpracov´avan´eho sign´alu a na nˇej pak apliku- jeme NMF. V´ysledky NMF pouˇzijeme k vytvoˇren´ı masek, kter´ymi pak provedeme samotnou separaci jednotliv´ych sloˇzek. Maska je matice se stejn´ymi rozmˇery jako spektrogram zpracov´avan´eho sign´alu a separace sloˇzky probˇehne vyn´asoben´ım prvek po prvku spektrogramu s maskou. Kaˇzd´a hodnota masky urˇcuje, zda dan´a frekvence bude v dan´y ˇcas souˇc´ast´ı sloˇzky.

Pokud se podaˇr´ı nˇekter´e sloˇzky odseparovat, staˇc´ı je pak uˇz jen rozdˇelit do r˚uzn´ych kan´al˚u. Grafick´e zn´azornˇen´ı postupu pˇrevodu monofonn´ıho sign´alu na stereofonn´ı je na obr´azku (4.1).

Obr´azek 4.1: Grafick´e zn´azornˇen´ı pˇrevodu monofonn´ıho sign´alu na stereofonn´ı

(30)

4.1 Vytvoˇ ren´ı masky

Spr´avn´e vytvoˇren´ı masky je velmi d˚uleˇzit´e pro cel´y proces separace jednotliv´ych sloˇzek. K vytvoˇren´ı masky pouˇzijeme v´ysledky NMF, kter´e zn´azorˇnuje obr´azek (4.2).

Obr´azek 4.2: Grafick´e zn´azornˇen´ı v´ysledk˚u NMF

Aproximace WH lze rozepsat na souˇcet maticov´ych n´asoben´ı sloupc˚u matice W a pˇr´ısluˇsn´ych ˇr´adk˚u H, kde i-t´y sloupec matice W znaˇc´ıme wi a i-t´y ˇr´adek matice H znaˇc´ıme hi. Masku pro i-tou sloˇzku znaˇc´ıme Mi.

WH = w1· h1

| {z } M1

+ w2· h2

| {z } M2

+ . . . + wr· hr

| {z } Mr

Maska nemus´ı b´yt jen pro jednu sloˇzku. Lze vytvoˇrit v´ıce masek pro jednotliv´e sloˇzky a ty pak seˇc´ıst. Pˇred samotnou aplikac´ı masky na spektrogram ji lze jeˇstˇe r˚uzn´ymi zp˚usoby transformovat. Jedn´ım z nich je pˇrevod na bin´arn´ı masku.

4.1.1 Bin´ arn´ı maska

Bin´arn´ı maska obsahuje pouze hodnoty 0 nebo 1. Pro transformaci masky M na bin´arn´ı masku MBIN stanov´ıme urˇcitou mezn´ı hodnotu lim. Pak bin´arn´ı maska

MBIN =

0 pro M ≤ lim 1 pro M > lim

(4.1)

Aplikov´an´ım bin´arn´ı masky na spektrogram se pak zachovaj´ı ty hodnoty spektro- gramu, kter´e jsou na stejn´ych pozic´ıch jako jedniˇcky v bin´arn´ı masce. Ostatn´ı hodnoty se vynuluj´ı. ´Upravy spektrogramu proveden´e bin´arn´ı maskou ukazuje

(31)

Obr´azek 4.3: Aplikace bin´arn´ı masky na spektrogram

4.2 Inverzn´ı spektrogram

Separaci jednotliv´ych sloˇzek provedeme aplikac´ı masek na spektrogram zpra- cov´avan´eho sign´alu. Samotnou separaci tedy prov´ad´ıme ve frekvenˇcn´ı oblasti. Spek- trogram upraven´y maskou, kter´y pˇredstavuje jednu nebo v´ıce sloˇzek sign´alu, je pak tˇreba pˇrev´est zpˇet do ˇcasov´e oblasti.

K pˇrevodu spektrogramu do ˇcasov´e oblasti je nutn´e zn´at parametry, jak byl spektrogram vypoˇc´ıt´an. Pˇrevod spektrogramu do ˇcasov´e oblasti graficky zn´azorˇnuje obr´azek (4.4).

Obr´azek 4.4: Grafick´e zn´azornˇen´ı pˇrevodu spektrogramu do ˇcasov´e oblasti

(32)

Hodnoty spektrogramu jsou polovina v´ysledk˚u DFT (kapitola 3.2.4). Nejprve je tedy nutn´e kaˇzd´y blok spektrogramu zdvojit tak, aby mˇel strukturu jako p˚uvodn´ı v´ysledek DFT. Na takto upraven´e bloky je n´aslednˇe aplikov´ana IDFT. V´ysledky IDFT jsou pak poskl´ad´any za sebe, pˇriˇcemˇz ˇc´asti blok˚u, kter´e se pˇrekr´yvaj´ı, se seˇctou. Velikost pˇrekr´yv´an´ı je stejn´a jako pˇri v´ypoˇctu spektrogramu. Na konci se v´ysledn´y sign´al jeˇstˇe vydˇel´ı pomocn´ym vektorem, kter´y je sloˇzen z ok´enkovac´ıch funkc´ı. Tento pomocn´y vektor se z´ısk´a podobnˇe jako sign´al, ale jednotliv´e bloky zde pˇredstavuj´ı ok´enkovac´ı funkci. Obr´azek (4.5) zn´azorˇnuje urˇcen´ı pomocn´eho vektoru ok´enkovac´ıch funkc´ı [12].

Obr´azek 4.5: Urˇcen´ı pomocn´eho vektoru ok´enkovac´ıch funkc´ı

Pokud se na spektrogramu provedou nˇejak´e ´upravy, m˚uˇze se st´at, ˇze v ˇcasov´e oblasti budou nˇekter´e amplitudy mimo normalizovan´y rozsah h-1;1i. Pak je vhodn´e jeˇstˇe upravit sign´al tak, aby byl v normalizovan´em rozsahu.

(33)

4.3 Vytvoˇ ren´ı stereo sign´ alu

Vytvoˇren´ı stereo sign´alu je v cel´em tomto procesu posledn´ım krokem. Kdyˇz uˇz m´ame k dispozici jednotliv´e oddˇelen´e sloˇzky, staˇc´ı je jen rozdˇelit do r˚uzn´ych kan´al˚u.

Rozklad pomoc´ı NMF je ale pouze pˇribliˇzn´y, proto nen´ı pˇr´ıliˇs vhodn´e vytvoˇrit stereofonn´ı sign´al jen z oddˇelen´ych sloˇzek. Mohlo by tak doj´ıt k celkov´emu poklesu kvality. Vhodnˇejˇs´ı je rozm´ıstit jednotliv´e sloˇzky do kan´al˚u a k nim jeˇstˇe pˇriˇc´ıst zbytkov´y sign´al. Amplitudov´y spektrogram zbytkov´eho sign´alu z´ısk´ame odeˇcten´ım aproximace WH od matice V pˇredstavuj´ıc´ı spektrogram zpracov´avan´eho sign´alu.

Dostaneme tak v podstatˇe to, co se nepodaˇrilo oddˇelit. Je vhodn´e tento zbytkov´y sign´al nechat jako monofonn´ı, proto ho pˇriˇcteme do vˇsech kan´al˚u.

Poˇrad´ı rozm´ıstˇen´ı jednotliv´ych sloˇzek do kan´al˚u je obecnˇe nejednoznaˇcn´e. Z´aleˇz´ı na zpracov´avan´em sign´alu a na inicializaci algoritmu. Rozm´ıstˇen´ı sloˇzek je pak tˇreba pˇrizp˚usobit dosaˇzen´ym v´ysledk˚um rozkladu.

Nen´ı ovˇsem nutn´e prom´ıtnout do v´ysledn´eho stereofonn´ıho sign´alu vˇsechny oddˇelen´e sloˇzky. Pokud je ve zpracov´avan´em sign´alu obsaˇzen´y ˇsum, m˚uˇze se pov´est pomoc´ı NMF tento ˇsum oddˇelit a nˇekter´e sloˇzky pak mohou obsahovat pr´avˇe jen ˇsum. Vynech´an´ım tˇechto sloˇzek m˚uˇzeme dos´ahnout vyˇsˇs´ı kvality v´ysledn´eho sign´alu.

(34)

Kapitola 5

Mˇ eˇ ren´ı kvality rozkladu − SIR a SDR

Pro urˇcen´ı kvality rozkladu do jednotliv´ych sloˇzek pomoc´ı NMF pouˇz´ıv´ame hodnoty signal to interference ratio (SIR) a signal to distortion ratio (SDR). Pro pˇresn´y v´ypoˇcet hodnot SIR a SDR je ale nutn´e m´ıt p˚uvodn´ı sloˇzky obsaˇzen´e v sign´alu zvl´aˇst’.

V praxi ale nen´ı moˇzn´e ke vˇsem rozloˇzen´ym audio sign´al˚um vypoˇc´ıtat pˇresn´e SIR a SDR, protoˇze p˚uvodn´ı sloˇzky zvl´aˇst’ k dispozici nejsou. Existuj´ı ale algoritmy, kter´ymi lze tyto hodnoty odhadnout.

Pˇresn´y v´ypoˇcet SIR a SDR lze prov´est jen v experiment´aln´ı ´uloze, kde nejprve jednotliv´e sloˇzky umˇele sm´ıch´ame a n´aslednˇe pomoc´ı NMF rozloˇz´ıme. V n´asleduj´ıc´ı kapitole popisujeme postup pˇresn´eho v´ypoˇctu SIR a SDR pro experiment´aln´ı ´ulohu.

(35)

5.1 Postup v´ ypoˇ ctu

Nejprve sm´ıch´ame jednotliv´e sloˇzky

X = S1+ S2+ · · · + Sr,

kde Si jsou jednotliv´e sloˇzky a X pˇredstavuje souˇcet vˇsech sloˇzek. Pro sign´al X vypoˇc´ıt´ame spektrogram a na nˇej aplikujeme NMF. V´ysledky NMF pouˇzijeme k vytvoˇren´ı bin´arn´ıch masek M1. . . Mr, pˇriˇcemˇz

M1 → maska pro S1 M2 → maska pro S2

...

Mr → maska pro Sr

D´ale provedeme separaci postupn´ym aplikov´an´ım masek na spektrogram sign´alu X a takto upraven´e spektrogramy pak pˇrevedeme zpˇet do ˇcasov´e oblasti. Vzniknou tak oddˇelen´e sloˇzky

V1 = ispecgram(M1· X) V2 = ispecgram(M2· X)

...

Vr = ispecgram(Mr· X)

kde ispecgram() je funkce, kter´a pˇrev´ad´ı spektrogram zpˇet do ˇcasov´e oblasti. Nelze ale oˇcek´avat, ˇze se separace podaˇr´ı ´uplnˇe dokonale. Pravdˇepodobnˇe tedy bude platit, ˇze

Si 6= Vi.

Funkce ispecgram() je ok´enkovac´ı IDFT a pro definov´an´ı SIR a SDR je d˚uleˇzit´e, ˇze se jedn´a o line´arn´ı operaci. Pro souˇcet vyseparovan´ych sloˇzek Y tedy plat´ı

Y = ispecgram(M · X)

= ispecgram(M · S1) + ispecgram(M · S2) + . . . + ispecgram(M · Sr)

(36)

Obsah oddˇelen´e sloˇzky Vi lze rozepsat jako

Vi = ispecgram(Mi· X) = ispecgram(Mi· (S1 + S2 + . . . + Sr))

= ispecgram(Mi· S1 + Mi· S2 + . . . + Mi · Sr)

= ispecgram(Mi· S1)

| {z }

signal

+ ispecgram(Mi· S2) + . . . + ispecgram(Mi· Sr)

| {z }

interference

Jak vyjadˇruje vztah (5.1), SIR je pomˇer energie sign´alu a energie interference.

SIR = mean([signal]2)

mean([interf erence]2) (5.1)

Podle vztahu (5.2) se SDR urˇc´ı jako pomˇer energie sign´alu a energie distortion.

Distortion je definov´ano jako Si− Mi· Si.

SDR = mean([signal]2)

mean([distortion]2) (5.2)

Hodnoty SIR a SDR se mohou poˇc´ıtat v decibelech. V´ypoˇcet SIR a SDR v deci- belech uv´ad´ı vztahy (5.3) a (5.4).

SIRdB = 10 · log10

 mean([signal]2) mean([interf erence]2)



(5.3)

SDRdB = 10 · log10

 mean([signal]2) mean([distortion]2)



(5.4)

(37)

Kapitola 6

Praktick´ a aplikace

V t´eto kapitole popisujeme aplikaci NMF na konkr´etn´ı monofonn´ı zvukov´e sign´aly a porovn´av´ame v´ysledky dosaˇzen´e s r˚uzn´ym nastaven´ım. Z v´ysledk˚u rozkladu mono- fonn´ıho sign´alu pak vytv´aˇr´ıme sign´al stereofonn´ı.

Kaˇzd´y analyzovan´y sign´al rozloˇz´ıme pomoc´ı NMF se tˇremi objektivn´ımi funkcemi (Euklidovsk´a vzd´alenost (2.5), KL divergence (2.6) a IS divergence (2.7)).

R˚uznˇe nastavujeme redukovanou dimenzi r matic W a H (poˇcet sloˇzek, do kter´ych se prov´ad´ı rozklad). Rozklady prov´ad´ıme pro r = 3, 4, 5 a 6. Pro kaˇzd´y v´ypoˇcet jsme provedli 1000 iterac´ı NMF algoritmu.

Aplikujeme postup, kter´y jsme popsali v kapitole 4. Pro samotn´e v´ypoˇcty pouˇz´ıv´ame nˇekter´e funkce MATLABu a vlastn´ı implementaci popsanou v pˇr´ıloze B.

V prvn´ı ˇc´asti rozkl´ad´ame sign´al, kter´y je umˇele vytvoˇren jako souˇcet tˇr´ı sloˇzek.

Jelikoˇz m´ame k dispozici jednotliv´e sloˇzky zvl´aˇst’, m˚uˇzeme urˇcovat kvalitu rozkladu pomoc´ı hodnot SIR (5.3) a SDR (5.4). Ve druh´e ˇc´asti zkoum´ame v´ysledky rozkladu zaˇsumˇen´eho zvukov´eho sign´alu a testujeme, zda se podaˇr´ı sloˇzky oddˇelit od ˇsumu.

D´ale pak zpracov´av´ame skuteˇcnou nahr´avku. Aplikujeme NMF rozklad na p´ıseˇn Hledan´y muˇz od kapely Taxmeni.

Aby se daly v´ysledky l´epe srovn´avat, inicializaci matic W a H pro stejnou redukovanou dimenzi r jsme provedli vˇzdy stejn´ymi hodnotami. Mezn´ı hodnotu pro vytvoˇren´ı bin´arn´ıch masek jsme zvolili 0,5.

V´ypoˇcty jsme prov´adˇeli na poˇc´ıtaˇci s procesorem AMD Athlon 64 X2 3600+

a s operaˇcn´ı pamˇet´ı 2 GB RAM.

(38)

6.1 Rozklad sign´ alu sloˇ zen´ eho ze tˇ r´ı sloˇ zek

Nejprve vytvoˇr´ıme smˇes tˇr´ı sloˇzek X = S1 + S2 + S3. Sloˇzka S1 obsahuje hru na ˇcinely, sloˇzka S2 hru na bic´ı a ve sloˇzce S3 jsou basy. Vzorkovac´ı frekvence sign´alu je 16000 Hz, d´elka sign´alu je 10 sekund.

Obr´azek (6.1) zobrazuje jednotliv´e sloˇzky S1, S2, S3 a jejich souˇcet X.

Obr´azek 6.1: Sloˇzky sign´alu S1, S2, S3 a souˇcet X v ˇcasov´e oblasti a jejich spektro- gramy

(39)

Spektrogramy byly vypoˇc´ıt´any s d´elkou blok˚u 1024 vzork˚u, pouˇzita byla Hammingova ok´enkovac´ı funkce a velikost pˇrekr´yv´an´ı blok˚u byla nastavena na 1000 vzork˚u. K v´ypoˇctu spektrogramu jsme pouˇzili funkci MATLABu spectrogram.m.

V n´asleduj´ıc´ıch tabulk´ach jsme popsali obsahy vyseparovan´ych sloˇzek podle subjektivn´ıho hodnocen´ı poslechem. P˚uvodn´ı sloˇzku znaˇc´ıme Si a vyseparovanou sloˇzku Vi. Objektivn´ı funkci znaˇc´ıme EUC pro Euklidovskou vzd´alenost, KL pro Kullback-Leibler divergenci a IS pro Itakura-Saito divergenci. V´ysledky rozklad˚u a v´ysledn´y stereofonn´ı sign´al jsou k dispozici ve form´atu wav na pˇriloˇzen´em CD.

Tabulka 6.1: V´ysledky rozkladu do tˇr´ı sloˇzek

NMF − EUC NMF − KL NMF − IS

V1 ˇc´ast vˇsech sloˇzek bic´ı (S2) a ˇcinely (S1) ˇcinely (S1) V2 ˇc´ast vˇsech sloˇzek ˇc´ast bas˚u (S3) bic´ı (S2) V3 ˇc´ast vˇsech sloˇzek bic´ı (S2) basy (S3)

a ˇc´ast bas˚u (S3)

Tabulka 6.2: V´ysledky rozkladu do ˇctyˇr sloˇzek

NMF − EUC NMF − KL NMF − IS

V1 ˇcinely (S1) ˇc´ast bas˚u (S3) ˇcinely (S1) a ˇc´ast bic´ıch (S2)

V2 ˇcinely (S1) ˇc´ast bic´ıch (S2) bic´ı (S2) a ˇc´ast bic´ıch (S2) a ˇc´ast bas˚u (S3)

V3 ˇc´ast ˇcinel˚u (S1) ˇc´ast bic´ıch (S2) basy (S3) a ˇc´ast bas˚u (S3) a ˇc´ast bas˚u (S3)

V4 ˇc´ast vˇsech sloˇzek ˇcinely (S1) a bic´ı (S2) ˇcinely (S1)

(40)

Tabulka 6.3: V´ysledky rozkladu do pˇeti sloˇzek

NMF − EUC NMF − KL NMF − IS

V1 ˇc´ast bas˚u (S3) ˇc´ast bas˚u (S3) ˇcinely (S1) V2 ˇc´ast ˇcinel˚u (S1) ˇc´ast bas˚u (S3) ˇc´ast bas˚u (S3)

a ˇc´ast bas˚u (S3)

V3 ˇcinely (S1) a bic´ı (S2) ˇcinely (S1) ˇcinely (S1) V4 ˇc´ast bas˚u (S3) ˇc´ast bic´ıch (S2) bic´ı (S2)

a ˇc´ast bas˚u (S3)

V5 ˇc´ast ˇcinel˚u (S1) bic´ı (S2) bic´ı (S2) a basy (S3) a ˇc´ast bas˚u (S3)

Tabulka 6.4: V´ysledky rozkladu do ˇsesti sloˇzek

NMF − EUC NMF − KL NMF − IS

V1 ˇc´ast bas˚u (S3) ˇc´ast bic´ıch (S2) ˇc´ast bic´ıch (S2) a ˇc´ast bas˚u (S3) a ˇc´ast bas˚u (S3) V2 ˇc´ast bas˚u (S3) ˇc´ast bic´ıch (S2) ˇc´ast bic´ıch (S2)

a ˇc´ast bas˚u (S3)

V3 ˇcinely (S1) a bic´ı (S2) ˇcinely (S1) ˇcinely (S1) V4 ˇc´ast ˇcinel˚u (S1) bic´ı (S2) ˇc´ast bic´ıch (S2)

a ˇc´ast bas˚u (S3) a ˇc´ast bas˚u (S3) V5 ˇc´ast ˇcinel˚u (S1) ˇc´ast bic´ıch (S2) ˇcinely (S1)

a ˇc´ast bas˚u (S3) a ˇc´ast bas˚u (S3)

V6 ˇc´ast ˇcinel˚u (S1) ˇcinely (S1) ˇc´ast bic´ıch (S2) a ˇc´ast bas˚u (S3) a ˇc´ast bas˚u (S3))

(41)

6.1.1 Zhodnocen´ı v´ ysledk˚ u

NMF rozklad s pouˇzit´ım Euklidovsk´e vzd´alenosti dopadl pˇri tomto testu nejh˚uˇre.

T´emˇeˇr vˇzdy se stalo, ˇze do v´ysledn´ych sloˇzek se dostaly pouze ˇc´asti p˚uvodn´ıch sloˇzek, a to nav´ıc r˚uznˇe pom´ıchan´e. V´ysledky se r˚uznˇe mˇenily s nastaven´ım redukovan´e dimenze r matic W a H. Pouze pˇri rozkladu do ˇsesti sloˇzek se podaˇrilo oddˇelit basy (S3). ˇCinely (S1) a bic´ı (S2) se nepovedlo zcela oddˇelit ani jednou. Nˇekolikr´at se ve v´ysledn´ych sloˇzk´ach objevila jejich smˇes.

L´epe dopadly v´ysledky s KL divergenc´ı. Nˇekdy ale byly velmi podobn´e jako v´ysledky s Euklidovskou vzd´alenost´ı. Opˇet se st´avalo, ˇze ve v´ysledn´ych sloˇzk´ach byly jen ˇc´asti p˚uvodn´ıch sloˇzek sm´ıchan´e s ostatn´ımi. V´ysledky byly tak´e ovlivnˇeny nastaven´ım redukovan´e dimenze r matic W a H. Pˇri rozkladu do pˇeti sloˇzek se podaˇrilo dobˇre oddˇelit vˇsechny tˇri sloˇzky. Rozkladem do ˇsesti sloˇzek se povedlo oddˇelit ˇcinely (S1) a bic´ı (S2). Stejnˇe jako u rozkladu s Euklidovskou vzd´alenost´ı se st´avalo, ˇze nˇekter´e v´ysledn´e sloˇzky obsahovaly smˇes ˇcinel˚u (S1) a bic´ıch (S2).

Nejlepˇs´ı v´ysledky v tomto testu poskytla NMF s IS divergenc´ı. Jiˇz pˇri rozkladu do tˇr´ı sloˇzek byly v´ysledky velmi dobr´e a podaˇrilo se oddˇelit vˇsechny tˇri sloˇzky. S vyˇsˇs´ı redukovanou dimenz´ı r matic W a H se v´ysledky tak´e mˇenily a nˇekdy se pouze ˇc´asti p˚uvodn´ıch sloˇzek prom´ıtly do v´ysledn´ych sloˇzek. Rozkladem do ˇctyˇr sloˇzek se jeˇstˇe povedlo oddˇelit vˇsechny tˇri sloˇzky, ale po rozkladu do pˇeti sloˇzek byly oddˇelen´e jen ˇcinely (S1) a bic´ı (S2). Basy (S3) se r˚uznˇe pom´ıchaly s ostatn´ımi sloˇzkami. Pˇri rozkladu do ˇsesti sloˇzek se povedlo oddˇelit uˇz jen ˇcinely (S1).

Tabulka (6.5) obsahuje hodnoty SIR a SDR ´uspˇeˇsn´ych v´ysledk˚u. K v´ysledk˚um je uveden´a objektivn´ı funkce a hodnota redukovan´e dimenze r matic W a H. Uveden´e jsou jen ty v´ysledky, ve kter´ych se povedlo oddˇelit alespoˇn jednu celou sloˇzku. Pokud se nˇekter´a sloˇzka nepodaˇrila oddˇelit, je buˇnka tabulky proˇskrtnut´a.

Jak je ale patrn´e z tabulky (6.6), NMF rozklad s Euklidovskou vzd´alenost´ı mˇel nejmenˇs´ı v´ypoˇcetn´ı n´aroˇcnost. Rozklad s KL divergenc´ı trval oproti Euklidovsk´e vzd´alenosti pr˚umˇernˇe 2,6× d´ele a s IS divergenc´ı pr˚umˇernˇe 4,2× d´ele.

(42)

Tabulka 6.5: Hodnoty SIR a SDR rozkladu sign´alu sloˇzen´eho ze tˇr´ı sloˇzek

SIR SDR

N M F V1 V2 V3 V1 V2 V3

ISr=3 -1,0041 6,9438 7,8376 -1,6483 -0,7236 28,0652 ISr=4 0,0979 8,1159 7,8291 -1,5970 -0,8839 27,7106 KLr=5 -1,658 6,0699 6,0965 0,3632 -2,4642 13,1801

ISr=5 -1,0565 5,7655 − -2,0704 -4,525 −

EU Cr=6 − − 8,0968 − − 8,5331

KLr=6 -2,8668 -2,2347 − -0,1586 -3,5886 −

ISr=6 0,0368 − − -2,3757 − −

Tabulka 6.6: ˇCasy v´ypoˇct˚u rozkladu sign´alu sloˇzen´eho ze tˇr´ı sloˇzek

NMF − EUC NMF − KL NMF − IS r=3 1 min 28 s 4 min 46 s 8 min 13 s r=4 2 min 6 s 5 min 46 s 9 min 16 s r=5 2 min 31 s 6 min 21 s 9 min 45 s r=6 2 min 39 s 6 min 25 s 9 min 52 s

(43)

Obr´azek (6.2) zobrazuje p˚uvodn´ı monofonn´ı a v´ysledn´y stereofonn´ı sign´al.

Obr´azek 6.2: P˚uvodn´ı monofonn´ı a v´ysledn´y stereofonn´ı sign´al v ˇcasov´e oblasti

6.2 Rozklad zaˇ sumˇ en´ eho sign´ alu

Zpracov´avan´y sign´al je podobn´y sign´alu z kapitoly 6.1. Je tak´e sloˇzen ze tˇr´ı sloˇzek, kde sloˇzka S1 obsahuje hru na ˇcinely, sloˇzka S2 hru na bic´ı, ale ve sloˇzce S3 je ˇsum.

Spektrogramy byly vypoˇc´ıt´any se stejn´ym nastaven´ım, tj. d´elka blok˚u 1024 vzork˚u, pouˇzita byla Hammingova ok´enkovac´ı funkce a pˇrekryt´ı blok˚u bylo nas- taveno na 1000 vzork˚u.

(44)

6.2.1 Zhodnocen´ı v´ ysledk˚ u

Oddˇelen´ı sloˇzek ze zaˇsumˇen´eho sign´alu dopadlo v tomto testu ´uspˇeˇsnˇe. Zhodnocu- jeme pouze ty v´ysledky, ve kter´ych nebyl pˇri poslechu ˇz´adn´y ˇsum znateln´y.

Bic´ı (S2) se podaˇrilo oddˇelit t´emˇeˇr vˇzdy. Pouze pˇri rozkladu do tˇr´ı sloˇzek s Euklidovskou vzd´alenost´ı byly zaˇsumˇen´e vˇsechny v´ysledn´e sloˇzky. Ve vˇsech dalˇs´ıch rozkladech byly ale bic´ı (S2) velmi dobˇre oddˇeleny.

Cinely (Sˇ 1) se povedlo oddˇelit s IS divergenc´ı pˇri rozkladu do tˇr´ı sloˇzek a pˇri rozkladu do ˇctyˇr sloˇzek s KL a IS divergenc´ı. Ostatn´ı v´ysledky znatelnˇe obsahovaly ˇsum.

V tabulce (6.7) jsou uveden´e hodnoty SIR a SDR jen pro ˇcinely (S1) a bic´ı (S2), protoˇze c´ılem tohoto testu nebylo oddˇelit ˇsum (S3) do samostatn´e sloˇzky.

Casy v´ˇ ypoˇct˚u byly pˇribliˇznˇe stejnˇe dlouh´e jako v kapitole 6.1. V´ysledky rozklad˚u a v´ysledn´y stereofonn´ı sign´al jsou k dispozici ve form´atu wav na pˇriloˇzen´em CD.

Tabulka 6.7: Hodnoty SIR a SDR rozkladu zaˇsumˇen´eho sign´alu

SIR SDR

N M F V1 V2 V1 V2

KLr=3 − 7,9655 − -0,0831

ISr=3 -1,206 10,2236 -0,1964 8,9893

EU Cr=4 − 8,8578 − -1,4034

KLr=4 -1,8135 7,7137 5,1370 0,32 ISr=4 -2,4902 10,3826 -1,1261 8,4869

EU Cr=5 − 8,2673 − -1,7040

KLr=5 − 8,6633 − -0,7255

ISr=5 − 7,5542 − -1,4404

EU Cr=6 − 8,6477 − -1,6592

KLr=6 − 8,3452 − -2,3899

ISr=6 − 10,6405 − 9,5873

(45)

Na obr´azku (6.3) je zobrazen p˚uvodn´ı monofonn´ı a v´ysledn´y stereofonn´ı sign´al.

Obr´azek 6.3: P˚uvodn´ı monofonn´ı a v´ysledn´y stereofonn´ı sign´al v ˇcasov´e oblasti

6.3 Rozklad re´ aln´ e nahr´ avky

Z p´ısnˇe Hledan´y muˇz od kapely Taxmeni jsme zpracov´avali prvn´ıch 10 sekund.

Jelikoˇz tato nahr´avka byla stereofonn´ı, pro testov´an´ı NMF rozkladu jsme ji nejprve pˇrevedli na monofonn´ı. Vzorkovac´ı frekvence sign´alu byla 44100 Hz.

Spektrogram jsme vypoˇc´ıtali se stejnˇe jako v pˇredchoz´ıch testech (d´elka blok˚u 1024 vzork˚u, Hammingova ok´enkovac´ı funkce a pˇrekryt´ı blok˚u 1000 vzork˚u).

(46)

6.3.1 Zhodnocen´ı v´ ysledk˚ u

V´ysledky zhodnocujeme opˇet subjektivnˇe poslechem. Vˇsechny NMF rozklady s pouˇzit´ymi objektivn´ımi funkcemi mˇely podobn´y charakter. Sloˇzky, kter´e byly dobˇre oddˇeleny s niˇzˇs´ı redukovanou dimenz´ı r matic W a H, se obvykle objevily ve v´ysledn´ych sloˇzk´ach t´emˇeˇr stejn´e i s vyˇsˇs´ı redukovanou dimenz´ı r. V dalˇs´ıch sloˇzk´ach se pak objevoval r˚uznˇe rozdˇelen´y zbytek sign´alu.

Rozkladem pomoc´ı NMF s Euklidovskou vzd´alenost´ı se s kaˇzd´ym nastaven´ım redukovan´e dimenze r objevil ve v´ysledn´e sloˇzce doprovod na bic´ı. Zbytek sign´alu se pak vˇzdy rozdˇelil do sloˇzek, ve kter´ych pˇrevaˇzovaly bud’ niˇzˇs´ı nebo vyˇsˇs´ı frekvence.

Zaj´ımavˇejˇs´ı v´ysledky poskytla NMF s KL divergenc´ı. Ve v´ysledn´ych sloˇzk´ach se objevoval opˇet doprovod na bic´ı, ale nav´ıc i kytara. Podobnˇe jako u v´ysledk˚u s Euklidovskou vzd´alenost´ı se pak zbytek sign´alu rozdˇeloval do sloˇzek, ve kter´ych byly v´yraznˇejˇs´ı niˇzˇs´ı nebo vyˇsˇs´ı frekvence.

Jin´ych v´ysledk˚u jsme dos´ahli pouˇzit´ım NMF s IS divergenc´ı. S kaˇzd´ym nas- taven´ım redukovan´e dimenze r byla ve v´ysledc´ıch sloˇzka, ve kter´e byla obsaˇzena vˇetˇsina sign´alu. D´ale pak sloˇzka s hloubkami a jako u KL divergence sloˇzka s kytarou. Pˇri zvyˇsov´an´ı redukovan´e dimenze r se pak kytara rozdˇelovala mezi v´ıce sloˇzek. Sloˇzka s vˇetˇsinou sign´alu a sloˇzka s hloubkami z˚ust´avaly nezmˇenˇen´e.

Tabulka (6.8) uv´ad´ı ˇcasy v´ypoˇct˚u rozklad˚u. NMF s Euklidovskou vzd´alenost´ı mˇela opˇet nejmenˇs´ı v´ypoˇcetn´ı n´aroˇcnost, NMF s KL divergenc´ı trvala oproti Eukli- dovsk´e vzd´alenosti pr˚umˇernˇe 2,6× d´ele a IS divergenc´ı pr˚umˇern´e 4,3× d´ele. V´ysledky rozklad˚u a v´ysledn´y stereofonn´ı sign´al jsou k dispozici ve form´atu wav na pˇriloˇzen´em CD.

Tabulka 6.8: ˇCasy v´ypoˇct˚u rozkladu ˇc´asti p´ısnˇe Hledan´y muˇz od kapely Taxmeni

NMF − EUC NMF − KL NMF − IS r=3 4 min 8 s 13 min 23 s 22 min 39 s r=4 5 min 49 s 16 min 6 s 25 min 35 s r=5 6 min 52 s 17 min 35 s 28 min 13 s r=6 7 min 25 s 18 min 12 s 29 min 15 s

(47)

Obr´azek (6.4) zobrazuje p˚uvodn´ı monofonn´ı a v´ysledn´y stereofonn´ı sign´al.

Obr´azek 6.4: P˚uvodn´ı monofonn´ı a v´ysledn´y stereofonn´ı sign´al v ˇcasov´e oblasti

(48)

Kapitola 7 Z´ avˇ er

Bˇehem testov´an´ı NMF algoritmu se uk´azalo, ˇze celkovou kvalitu rozkladu lze ovlivnit nˇekolika zp˚usoby. Jedn´a se pˇredevˇs´ım o nastaven´ı redukovan´e dimenze r matic W a H, d´ale z´aleˇz´ı na zvolen´e objektivn´ı funkci, na parametrech, se kter´ymi byl vypoˇc´ıt´an spektrogram, a i na mezn´ı hodnotˇe bin´arn´ı masky. V´ysledky byly ovlivnˇen´e i inicializac´ı matic W a H.

Vhodn´e nastaven´ı redukovan´e dimenze r matic W a H je pro NMF rozklad velmi d˚uleˇzit´e a v´yraznˇe ovlivn´ı kvalitu cel´eho procesu rozkladu. Nelze vˇsak pˇredem jednoznaˇcnˇe urˇcit, s jakou hodnotou redukovan´e dimenze r se dos´ahne nejlepˇs´ıho v´ysledku. Bˇehem naˇsich test˚u se uk´azalo, ˇze v urˇcit´ych pˇr´ıpadech je vhodnˇejˇs´ı nastavit redukovanou dimenzi r sp´ıˇse na niˇzˇs´ı hodnotu a prov´est tak rozklad do m´enˇe sloˇzek. Rozkladem do v´ıce sloˇzek se pak nˇekdy st´avalo, ˇze v´ysledn´e sloˇzky byly r˚uznˇe pom´ıchan´e a objevovaly se v nich pouze ˇc´asti p˚uvodn´ıch sloˇzek sm´ıchan´e s ostatn´ımi.

Mnohdy vyˇsˇs´ı redukovan´a dimenze r nepˇrinesla ˇz´adn´e lepˇs´ı v´ysledky. Zvyˇsov´an´ı redukovan´e dimenze r tak´e zp˚usob´ı vyˇsˇs´ı v´ypoˇcetn´ı n´aroˇcnost. Samozˇrejmˇe ale pro nˇekter´e sign´aly m˚uˇze b´yt vhodnˇejˇs´ı prov´est rozklad do v´ıce sloˇzek. Hled´an´ı nej- vhodnˇejˇs´ı hodnoty redukovan´e dimenze r jsme prov´adˇeli experiment´alnˇe.

V´ysledky byly v´yraznˇe ovlivnˇeny i zvolenou objektivn´ı funkc´ı. Rozklad sign´alu sloˇzen´eho ze tˇr´ı sloˇzek z kapitoly 6.1 a zaˇsumˇen´eho sign´alu z kapitoly 6.2 dopadl nejl´epe pomoc´ı NMF s IS divergenc´ı. Rozklad p´ısnˇe Hledan´y muˇz od kapely Taxmeni z kapitoly 6.3 dopadl nejl´epe pomoc´ı NMF s KL divergenc´ı. Zaj´ımav´e v´ysledky zde poskytla i NMF s IS divergenc´ı. Rozklady s Euklidovskou vzd´alenost´ı mˇely ale vˇzdy

(49)

Kvalita cel´eho NMF rozkladu velmi z´avis´ı na parametrech, podle kter´ych byl vypoˇc´ıt´an spektrogram zpracov´avan´eho sign´alu. Z´aleˇz´ı pˇredevˇs´ım na d´elce blok˚u, na ok´enkovac´ı funkci a na velikosti pˇrekr´yv´an´ı blok˚u. V naˇsich testech jsme pouˇz´ıvali d´elku blok˚u 1024 vzork˚u a pˇrekryt´ı blok˚u 1000 vzork˚u. Spektrogram 10 sekundov´eho sign´alu s vzorkovac´ı frekvenc´ı 44100 Hz byl pak matice o rozmˇerech 513 × 18333, coˇz pˇri NMF rozkladu pˇredstavuje relativnˇe vysokou v´ypoˇcetn´ı n´aroˇcnost. NMF rozklad jsme testovali i pro spektrogramy s menˇs´ım pˇrekr´yv´an´ım blok˚u (napˇr´ıklad 128, 256, 512, 640, 768 a 896 vzork˚u, pˇri d´elce blok˚u 1024 vzork˚u). Ve v´ysledn´ych sloˇzk´ach pak ale bylo i v´yraznˇe obsaˇzeno prask´an´ı. Celkov´a kvalita tak byla velmi n´ızk´a, proto jsme pouˇz´ıvali spektrogramy s vˇetˇs´ım pˇrekr´yv´an´ım blok˚u. S velk´ym pˇrekr´yv´an´ım blok˚u pak nebylo ve v´ysledc´ıch ˇz´adn´e prask´an´ı znateln´e. V´ysledky byly srovnateln´e i s d´elkou blok˚u 512 vzork˚u, opˇet ale muselo b´yt nastaveno velk´e pˇrekr´yv´an´ı blok˚u. Z´aleˇzelo i na volbˇe ok´enkovac´ı funkce. Jelikoˇz jsme pak spektro- gramy pˇrev´adˇeli zpˇet do ˇcasov´e oblasti, bylo vhodn´e pouˇz´ıt ok´enkovac´ı funkci, kter´a nikde nenab´yv´a nulov´e hodnoty. N´asoben´ım nulou by totiˇz doch´azelo ke ztr´at´am informac´ı. S r˚uzn´ymi ok´enkovac´ımi funkcemi jsme dosahovali i r˚uzn´ych v´ysledk˚u.

V´yraznˇejˇs´ı rozd´ıly byly ve v´ysledc´ıch, jen kdyˇz se i v´yraznˇe liˇsily ok´enkovac´ı funkce. Rozklady spektogram˚u, ve kter´ych byly pouˇzity podobn´e ok´enkovac´ı funkce, mˇely i podobn´e v´ysledky. V´yrazn´e rozd´ıly byly napˇr´ıklad pˇri porovn´an´ı rozklad˚u spektrogram˚u, ve kter´ych byla pouˇzita obd´eln´ıkov´a ok´enkovac´ı funkce nebo Ham- mingova ok´enkovac´ı funkce. V naˇsich rozkladech jsme nejˇcastˇeji pouˇz´ıvali Hammin- govu ok´enkovac´ı funkci.

Dalˇs´ım ovlivˇnuj´ıc´ım faktorem v´ysledku je mezn´ı hodnota pˇri transformaci masky na bin´arn´ı. S vyˇsˇs´ı mezn´ı hodnotou bude maska obsahovat v´ıce nul a tak se do v´ysledku dostane menˇs´ı ˇc´ast sloˇzky. Vhodn´ym nastaven´ım mezn´ı hodnoty lze tak´e dos´ahnout lepˇs´ıch v´ysledk˚u. Podobnˇe jako hodnotu redukovan´e dimenze r jsme i optim´aln´ı mezn´ı hodnotu bin´arn´ı masky hledali experiment´alnˇe.

Jelikoˇz inicializaci v´ysledn´ych matic W a H jsme prov´adˇeli n´ahodn´ymi nez´aporn´ymi ˇc´ısly, pro r˚uznou inicializaci vych´azely i r˚uzn´e v´ysledky. S r˚uznou inicializac´ı si v´ysledky byly ale velmi podobn´e. St´avalo se jen, ˇze v´ysledn´e sloˇzky byly v jin´em poˇrad´ı, coˇz je v souladu s vlastnostmi NMF rozkladu.

(50)

Z´aleˇz´ı ale samozˇrejmˇe i na samotn´em zpracov´avan´em sign´alu. M˚uˇze se st´at, ˇze se zpracov´avan´y sign´al nepodaˇr´ı rozdˇelit do jednotliv´ych sloˇzek v poˇzadovan´e kvalitˇe.

Vˇsechny v´yˇse uveden´e skuteˇcnosti maj´ı ale vliv na koneˇcnou kvalitu rozkladu a je tak cel´a ˇrada parametr˚u a nastaven´ı, kter´ymi lze v´ysledky zlepˇsit. Vˇetˇsinu parametr˚u a nastaven´ı ale nelze urˇcit optim´alnˇe pˇredem, a tak experiment´aln´ı hled´an´ı nejlepˇs´ıch v´ysledk˚u m˚uˇze b´yt velmi ˇcasovˇe n´aroˇcn´e.

Pro vytvoˇren´ı stereofonn´ıho sign´alu z oddˇelen´ych sloˇzek jsme jiˇz jen rozdˇelili jednotliv´e sloˇzky do kan´al˚u. K nim jsme ale jeˇstˇe pˇriˇc´ıtali zbytkov´y sign´al (kapitola 4.3). Poˇrad´ı sloˇzek jsme vˇzdy museli pˇrizp˚usobit v´ysledk˚um rozkladu. Aby dobˇre oddˇelen´e sloˇzky vynikly, obvykle jsme je nesm´ıch´avali s ostatn´ımi sloˇzkami a radˇeji jsme je nech´avali v kan´alu jen se zbytkov´ym sign´alem. Ostatn´ı sloˇzky, nebo ty, kter´e si byly pˇri poslechu podobn´e, bylo v´yhodnˇejˇs´ı seˇc´ıst. Rozdˇelit do kan´al˚u podobn´e sloˇzky by mohlo pak zp˚usobit, ˇze by se v´ysledn´y sign´al jevil v´ıce jako monofonn´ı neˇz stereofonn´ı.

Metoda NMF poskytuje zaj´ımav´e moˇznosti nejen v oblasti zpracov´an´ı zvukov´ych sign´al˚u, ale tak´e ve zpracov´an´ı textu, obrazu, v zobrazovac´ıch a diagnostick´ych metod´ach v l´ekaˇrstv´ı a v dalˇs´ıch, jak jsme uvedli v kapitole 2.4. Lze pˇredpokl´adat, ˇze pro NMF bude nalezeno uplatnˇen´ı i v mnoha dalˇs´ıch odvˇetv´ıch vˇedy a jej´ı v´ysledky by v budoucnu mohly b´yt vyuˇz´ıv´any i v bˇeˇzn´em ˇzivotˇe.

(51)

Pˇ r´ıloha A

Obsah pˇ riloˇ zen´ eho CD

\Puvodni signaly\ − p˚uvodn´ı zpracov´avan´e sign´aly

\Skripty\ − implementace skript˚u popsan´ych v pˇr´ıloze B

\Stereo\ − vytvoˇren´e stereofonn´ı sign´aly

\Vysledky rozkladu\

\nahravka\ − V´ysledky rozklad˚u re´aln´e nahr´avky z kapitoly 6.3

\s12noise\ − V´ysledky rozklad˚u zaˇsumˇen´eho sign´alu z kapitoly 6.2

\s123\ − V´ysledky rozklad˚u sign´alu sloˇzen´eho ze tˇr´ı sloˇzek z kapitoly 6.1

bakalarska prace.pdf – tato pr´ace v elektronick´e podobˇe

(52)

Pˇ r´ıloha B

Manu´ al k implementaci

Implementace vˇsech k´od˚u jsme provedli a otestovali v MATLABu R2008a.

B.1 NMF

Funkce nmf.m vykon´av´a NMF algoritmus podle zadan´ych parametr˚u.

vol´an´ı: [W H] = nmf(V, eps, sekv, iterMax, r, dvr, varargin)

Vstupy:

V − vstupn´ı matice nez´aporn´ych dat (absolutn´ı hodnota spektrogramu) eps, sekv − hodnoty pro test konvergence

iterMax − maxim´aln´ı poˇcet krok˚u r − redukovan´a dimenze matic W a H dvr − objektivn´ı funkce

varargin − inicializovan´e matice W a H (nepovinn´e parametry) V´ystupy:

W, H − v´ysledn´e matice

Pokud se v parametru varargin nepˇredaj´ı inicializovan´e matice W a H, provede se inicializace matic W a H n´ahodn´ymi nez´aporn´ymi ˇc´ısly. Funkce konˇc´ı a vrac´ı v´ysledky, pokud je splnˇena alespoˇn jedna ze dvou podm´ınek. Jednou je dosaˇzen´ı maxim´aln´ıho poˇctu krok˚u (parametr iterMax ) a druhou podm´ınka konvergence

References

Related documents

Tato závěrečná práce se věnuje přiblížení problematiky práce s dětmi se speciálními potřebami ve volném čase – v rámci školní družiny Základní školy

IC mohou kontaktovat osoby ohrožené domácím násilím ale i osoby, které o domácím násilí vědí (sousedé, děti, přátelé…) Intervenční centra poskytují

Hlavním důvodem pro rekonstrukci synagogy byl její stav. V místech ulice Na Hradbách a jejích přiléhajících ulicích se nacházelo židovské ghetto, jehož

Mezi data ukl´ adan´ a do datab´ aze patˇr´ı informace o pool serveru, ke kter´ emu je tˇ eˇ zebn´ı klient aktu´ alnˇ e pˇripojen, informace o dobˇ e tˇ eˇ zby aktu´

Mezi trasy severní a jižní byla ještě zpracována mezilehlá varianta. Vychází ze stejné křižovatky jako předchozí, poté vede jihovýchodním směrem na

v tomto případě znamená, že se to pozná až na určitém stupni vývoje dítěte (tj. když už má mluvit), a dalším vývojem se zpravidla zlepšuje. Vzniká na

Bˇ ehem procesu repasov´ an´ı se z´ısk´ av´ a velk´ e mnoˇ zstv´ı dat, kter´ e je nutn´ e ukl´ adat kv˚ uli zpˇ etn´ e kontrole procesu.. nice v libovoln´ em okamˇ

V pravé ruce svírá biret, v levé drží krucifix, který se mu opírá o rameno.. Ze sutany vyčnívá levá