Zn´ azornˇ en´ı postupu reortogonalizace - Tenzorov´e s´ıtˇe a hierarchick´y Tucker˚uv rozklad

5.3.1 Reortogonalizace souˇ cinu tenzoru s matic´ı

V prvn´ım kroku souˇcinu tenzoru v HTD s matic´ı, kter´y jsme popsali na pˇr´ıkladu v kapitole5.1, tj. souˇcinu

D = T ×₃M, T ∈Rⁿ¹^×⋯×n⁸, M ∈ R^m^×n³, jsme na m´ıstˇe tˇret´ıho listu z´ıskali souˇcin

M U₍₃₎∈R^m^×r⁽³⁾,

viz obrázek 5.1. Abychom z´ıskali výsledný tenzor D v hierarchickém Tuckerovˇe roz-kladu, potˇrebujeme nejdˇr´ıve zajistit, aby matice – listy binárn´ıho stromu mˇely or-togonáln´ı sloupce. V naˇsem pˇr´ıkladu je nutné ortogonalizovat pouze sloupce tˇret´ıho listu, tedy matice M U₍₃₎.

Reortogonalizace listu

Ortogon´aln´ı sloupce zajist´ıme pomoc´ı QR rozkladu (viz napˇr. [4, kap. 3]) t´eto matice, tj. dostaneme

M U₍₃₎=Q₍₃₎R₍₃₎, kde Q₍₃₎∈R^m^×̃r⁽³⁾ a R₍₃₎∈R^̃r⁽³⁾^×r⁽³⁾, (5.8) kde

̃r₍₃₎=rank(M U₍₃₎) ≤r₍₃₎. (5.9) Matice Q₍₃₎ má ortogonáln´ı sloupce a bude tedy listem binárn´ıho stromu tak, jak je naznaˇceno na obrázku 5.5.

Poznamenejme, ˇze ̃r₍₃₎≤r₍₃₎ zp˚usob´ı, ˇze matice R₍₃₎ obecnˇe nen´ı ryze troj´ uhel-n´ıková (anglicky proper upper triangular), ale je v tzv. horn´ım schodovitém tvaru (anglicky row echelon form). Zde je mimo jiné prostor pro kompresi – zanedbáván´ım vhodnˇe urˇcených malých prvk˚u matice R z QR rozkladu listu (resp. list˚u) se m˚uˇzeme c´ılenˇe snaˇzit o sn´ıˇzen´ı hodnoty ̃r₍₃₎.

Násoben´ı trojúheln´ıkovým faktorem

Nyn´ı kdyˇz jsme zajistili, ˇze list má vzájemnˇe ortogonáln´ı sloupce, nás bude zaj´ımat, jak se projev´ı matice R₍₃₎ z QR rozkladu ve zbytku tenzorové s´ıtˇe. Dalˇs´ım krokem tedy bude násoben´ı tenzoru B₍₃₋₄₎ matic´ı R₍₃₎.

Pˇripomeˇnme vztah (4.14) vyjadˇruj´ıc´ı vztah matic U_(`) a matic pˇrenosu. Apliku-jeme-li tento vztah pro tenzor T z naˇseho pˇr´ıkladu, plat´ı

U₍₃₋₄₎= (U₍₄₎⊗U₍₃₎) ⋅B₍₃₋₄₎, kde B₍₃₋₄₎= B^{1,2}₍₃₋₄₎. (5.10) Poznamenejme, ˇze vztah (5.9) zaruˇcuje, ˇze násoben´ı matic´ı R lze vˇzdy provést, pokud nastane ̃r₍₃₎ < r₍₃₎, staˇc´ı doplnit matici R nulovými prvky do potˇrebných rozmˇer˚u.

Matice ̂B^{1,2}₍₃₋₄₎ nyn´ı ale nen´ı matic´ı pˇrenosu v pravém slova smyslu (tj. jak jsme ji zavedli na str. 37; viz (4.14)), nemá ortonormáln´ı sloupce. Abychom z n´ı matici pˇrenosu vytvoˇrili, mus´ıme zortogonalizovat sloupce této matice.

Obrázek 5.5: Schéma ortogonalizace listu binárn´ıho stromu pˇri souˇcinu tenzoru s ma-tic´ı. Matice Q z QR rozkladu je uloˇzena jako list binárn´ıho stromu, matic´ı R₍₃₎ budeme násobit pˇr´ısluˇsný tenzor tˇret´ıho ˇrádu.

Reortogonalizace matice pˇrenosu

Pro z´ıskán´ı ortonormáln´ı báze sloupcového prostoru matice ̂B₍₃₋₄₎^{1,2} provedeme opˇet jej´ı QR rozklad, tj.

B̂^{1,2}

(3−4)=Q₍₃₋₄₎R₍₃₋₄₎, Q₍₃₋₄₎∈R^(̃r⁽³⁾^{⋅ r}⁽⁴⁾^)×̃r⁽³⁻⁴⁾, R₍₃₋₄₎∈R^̃r⁽³⁻⁴⁾^×r⁽³⁻⁴⁾, (5.13) kde ̃r₍₃₋₄₎ = rank( ̂B^{1,2}₍₃₋₄₎). Zde matice Q₍₃₋₄₎ má ortonormáln´ı sloupce a je novˇe vypoˇc´ıtanou matic´ı pˇrenosu. Oznaˇc´ıme formálnˇe Q₍₃₋₄₎≡ ̃B₍₃₋₄₎, tj. rozvoj tenzoru B̃^{1,2}

(3−4), který bude uloˇzen v binárn´ım stromu HTD výsledného tenzoru; pro ilustraci viz obrázek5.6.

Stejným zp˚usobem postupujeme dále binárn´ım stromem, a tedy dalˇs´ım krokem je souˇcin

B̂₍₁₋₄₎= B₍₁₋₄₎×₂R₍₃₋₄₎, QR rozklad rozvoje ̂B^{1,2}

(1−4) = Q₍₁₋₄₎R₍₁₋₄₎ atd., dokud se nedostaneme ke koˇreni binárn´ıho stromu. Vektorizaci tenzoru D = T ×₃M tedy po tˇechto kroc´ıch dostáváme

Obrázek 5.6: Schéma postupu reortogonalizace, kdy jsme z´ıskali reortogonalizovanou matici pˇrenosu, uloˇzili ji do binárn´ıho stromu jako tenzor tˇret´ıho ˇrádu a matic´ı R₍₃₋₄₎ z QR rozkladu budeme násobit dále.

v podobˇe

vec(D) = (U₍₈₎⊗U₍₇₎⊗U₍₆₎⊗U₍₅₎⊗U₍₄₎⊗ ̃U₍₃₎⊗U₍₂₎⊗U₍₁₎)

⋅ (B₍₇₋₈₎⊗B₍₅₋₆₎⊗ ̃B₍₃₋₄₎⊗B₍₁₋₂₎) ⋅ (B₍₅₋₈₎⊗ ̃B₍₁₋₄₎) ⋅ ̂B₍₁₋₈₎. (5.14) Formálnˇe ale jeˇstˇe nemáme HTD tenzoru D, protoˇze koˇren stromu – matice ̂B₍₁₋₈₎ (pozn. ̂B₍₁₋₈₎ =vec( ̂B₍₁₋₈₎)) – nen´ı diagonáln´ı; t´ım se budeme zabývat pozdˇeji, viz kap.5.3.3.

5.3.2 Reortogonalizace souˇ ctu dvou tenzor˚ u

V pˇr´ıpadˇe souˇctu dvou tenzor˚u budeme postupovat analogicky jako v pˇr´ıpadˇe souˇ ci-nu tenzoru s matic´ı. Jediným rozd´ılem je, ˇze ortogonalitu sloupc˚u nebudeme potˇre-bovat zajistit jen pro jednu matici (jeden list binárn´ıho stromu), ale pro vˇsechny listy binárn´ıho stromu, tj. matice [U_(`)^C , U_(`)^D ], sestaveného tak, jak jsme popsali v kapitole 5.2. Stejnˇe tak budeme ch´ıt zajistit, aby tenzory tˇret´ıho ˇrádu v binárn´ım stromu odpov´ıdaly matic´ım pˇrenosu, a tedy jejich rozvoje mˇely ortonormáln´ı sloupce.

Reortogonalizace list˚u

Spoˇc´ıt´ame tedy QR rozklady list˚u stromu, tj.

[U_(`)^C , U_(`)^D] =Q_(`)R_(`), kde Q_(`) ∈Rⁿ^(`)^×̃r^(`) a R_(`) ∈R^̃r^(`)^×(r

C(`)+r^D_(`))

(srovnej s (5.8)). Kaˇzdá matice Q_(`) má ortogonáln´ı sloupce a tedy vˇsechny tyto matice budou uloˇzeny jako listy binárn´ıho stromu HTD tenzoru E formálnˇe ozna-ˇcené ̃U_(`)Ê ≡Q_(`). Matice R_(`) potom mus´ıme vynásobit pˇr´ısluˇsné tenzory binárn´ıho stromu.

Násoben´ı trojúheln´ıkovými faktory

V naˇsem pˇr´ıkladu z kapitoly 5.2 oznaˇcme jako BÊ₍₁₋₂₎ diagonáln´ı tenzor sestavený z tenzor˚u B^C₍₁₋₂₎ a B₍₁₋₂₎^D . Provedeme tedy souˇcin

B̂₍₁₋₂₎^E = B₍₁₋₂₎^E ×₁R₍₁₎×₂R₍₂₎∈R^̃r⁽¹⁾^×̃r⁽²⁾^×r⁽¹⁻²⁾

(srovnej s (5.12)). Analogicky budeme provádˇet dalˇs´ı souˇciny, tenzor˚u B a matic R. Takto z´ıskané tenzory ̂B ale opˇet nereprezentuj´ı matice pˇrenosu, protoˇze nemaj´ı ortonormáln´ı sloupce.

Reortogonalizace matic pˇrenosu

Pro matice ̂B^{1,2} tedy vˇzdy provedeme QR rozklad, tj. v naˇsem pˇr´ıkladu z´ıskáme ( ̂B₍₁₋₂₎Ê )^{1,2}=Q₍₁₋₂₎R₍₁₋₂₎, Q₍₁₋₂₎∈R^(̃r⁽¹⁾^{⋅ ̃r}⁽²⁾^)×̃r⁽¹⁻²⁾, R₍₁₋₂₎∈R^̃r⁽¹⁻²⁾^×r⁽¹⁻²⁾, kde ̃r₍₁₋₂₎=rank(( ̂B₍₁₋₂₎Ê )^{1,2}) (srovnej s (5.13)); atd. Matice Q maj´ı ortonormáln´ı sloupce a proto odpov´ıdaj´ı matic´ım pˇrenosu. Oznaˇc´ıme-li formálnˇe ̃B₍₁₋₂₎Ê ≡Q₍₁₋₂₎ atd., tyto matice jsou rozvoji tenzor˚u tˇret´ıho ˇrádu v binárn´ım stromu HTD tenzoru E, tj. napˇr´ıklad ̃B₍₁₋₂₎Ê = ( ̃BÊ

(1−2))^{1,2}. T´ımto zp˚usobem postupujeme dále smˇerem ke koˇreni stromu. Pˇripomeˇnme znovu, ˇze v pˇr´ıpadˇe souˇctu tenzor˚u se ortogonalizace bude týkat vˇsech tenzor˚u v binárn´ım stromu tenzoru E , tj. nakonec dostáváme

vec(E ) = ( ̃U₍₄₎Ê ⊗ ̃U₍₃₎Ê ⊗ ̃U₍₂₎Ê ⊗ ̃U₍₁₎Ê ) ⋅ ( ̃BÊ₍₃₋₄₎⊗ ̃B₍₁₋₂₎Ê ) ⋅ ̂B₍₁₋₄₎Ê . (5.15) Formálnˇe ale jeˇstˇe nemáme HTD tenzoru D, protoˇze koˇren stromu – matice ̂B₍₁₋₄₎Ê (pozn. ̂B₍₁₋₄₎Ê =vec( ̂B₍₁₋₄₎Ê )) – nen´ı diagonáln´ı.

5.3.3 Aktualizace koˇ rene stromu

Pˇri operac´ıch s tenzory a následné ortogonalizaci faktor˚u binárn´ıho stromu z´ıskáv´ a-me v koˇreni stromu matici ̂B_(1−k) (resp. ̂B_(1−k)Ê ) ∈ R^̃r^(1−s)^×̃r^((s+1)−k), která obecnˇe nen´ı diagonáln´ı, jak bychom od HTD poˇzadovali.

Pro z´ıskán´ı diagonáln´ı matice v koˇreni binárn´ıho stromu HTD tenzoru staˇc´ı provést singulárn´ı rozklad matice ̂B_(1−k), tj.

B̂_(1−k) =U_KΣ_KV_K^T, kde U_K ∈R^̃r^(1−s)^×r^K, Σ_K∈R^r^K^×r^K, V_K ∈R^̃r^((s+1)−k)^×r^K pˇriˇcemˇz matice Σ_K je diagonáln´ı matic´ı se singulárn´ımi ˇc´ısly matice ̃B_(1−s) na dia-gonále, která bude novým koˇrenem reortogonalizovaného binárn´ıho stromu, formálnˇe ho oznaˇc´ıme ̃B_(1−k)≡Σ_K; r_K=rank( ̂B_(1−k)). Dále zbývá uˇz jen vynásobit maticemi U_K, V_K pˇr´ısluˇsné tenzory v s´ıti HTD, tj. provét souˇciny

̃̃

B_(1−s) = ̃B_(1−s)×₃U_K a B̃̃_((s+1)−k)= ̃B_((s+1)−k)×₃V_K. (5.16) Jelikoˇz tenzory násob´ıme maticemi s ortogonáln´ımi sloupci, z˚ustanou ortogonáln´ı i rozvoje tˇechto tenzor˚u, tj. výsledné tenzory budou maticemi pˇrenosu. Staˇc´ı si uvˇedomit, ˇze pˇredchoz´ı rovnici lze pˇrepsat

̃̃

Tyto souˇciny jsou posledn´ımi kroky pro z´ıskán´ı hierarchického Tuckerova rozkladu tenzoru, který je výsledkem nˇekteré z pˇredchoz´ıch operac´ı.

Zde je také dalˇs´ı prostor pro kompresi – malá novˇe vypoˇctená singulárn´ı ˇc´ısla m˚uˇzeme v nˇekterých pˇr´ıpadech (v závislosti na aplikaci) zanedbat (poloˇzit rovny nule) a z´ıskat tak aproximaci p˚uvodn´ıho tenzoru tenzorem niˇzˇs´ı hodnosti r_K a tedy i s niˇzs´ımi pamˇet’ovými nároky pˇri jeho ukládán´ı.

5.4 Skal´ arn´ı souˇ cin dvou tenzor˚ u

V kapitole 3.3.3 jsme poukázali na moˇznosti tenzorových s´ıt´ı pro zápis ménˇe ob-vyklých tenzorových souˇcin˚u, jejichˇz pˇr´ıklady jsme ilustrovali na obrázku3.4. Zˇrejmˇe takto m˚uˇzeme interpretovat i skalárn´ı souˇcin tenzor˚u (uloˇzených ve tvaru HTD).

Mˇejme tenzory T , S ∈ Rⁿ¹^×⋯×n^k. Potom pro jejich skal´arn´ı souˇcin plat´ı

Jsou-li tenzory T a S uloˇzeny ve tvaru s´ıtˇe HTD (se stejnou strukturou stromu), lze jejich skalárn´ı souˇcin interpretovat, resp. spoˇc´ıtat zp˚usobem, jaký je vidˇet napˇr. na obrázku5.7.

Obrázek 5.7: Pˇr´ıklad výpoˇctu skalárn´ıho souˇcinu dvou tenzor˚u T a S ˇsestého ˇrádu.

Násoben´ı v pˇr´ısluˇsných módech (viz kap. 3.2, speciálnˇe obrázek 3.3) v jednot-livých kroc´ıch je naznaˇceno ˇsedým podkladem. V jednotlivých kroc´ıch postupnˇe poˇc´ıtáme/z´ıskáváme: (a) souˇcin matic U_T^TU_S (ˇsestkrát); (b) souˇciny tenzoru s ma-tic´ı B_T ×₁M₁×₂M₂ (tˇrikrát); (c) souˇcin tenzor˚u B_T ×(1,2),(1,2)B_S (tˇrikrát); (d) souˇcin tenzoru s matic´ı B ×₁M (dvakrát); (e) souˇcin tenzor˚u B_T ×(1,2),(1,2)B_S (jednou); (f) souˇcin matic M_T^TM_S (dvakrát); (g) skalárn´ı souˇcin matic ⟨M_T, M_S⟩ (viz kap. 3.3.2;

jednou); (h) výsledný skalár, tj. hledaný skalárn´ı souˇcin tenzor˚u.

5.5 V´ ypoˇ cetn´ı n´ aroˇ cnost operac´ı

Na závˇer této kapitoly shrneme nároˇcnost operac´ı s tenzory uloˇzenými v hierar-chickém Tuckerovˇe rozkladu. Zkoumat budeme pˇritom druh a poˇcet operac´ı, které mus´ıme provést, pokud chceme i výsledný tenzor z´ıskat v podobˇe hierarchického Tuckerova rozkladu. Pˇripomˇeˇnme znaˇcen´ı (4.16)

r = max

C ⊆{1,...,k}rank(T^C) a n = max{n1, . . . , nk}.

Detailnˇeji rozebereme jen výpoˇcet souˇcinu tenzoru s matic´ı v jednom módu a souˇcet dvou tenzor˚u ve tvaru HTD se stejným binárn´ım stromem. Dalˇs´ı operace jsou zm´ınˇeny v tabulce5.1.

Je dobré si uvˇedomit, ˇze vyváˇzený binárn´ı strom tenzoru ˇrádu k = 2^ς, ς ∈ N, obsahuje ς + 1 = (log₂k) + 1

”pater“, pˇriˇcemˇz nejspodnˇejˇs´ı (listy) a nejvrchnˇejˇs´ı (koˇren) jsou matice. Obecnˇe (ˇr´ad tenzoru nemus´ı b´yt mocninou dvou), budeme-li uvaˇzovat

”nejménˇe nevyváˇzený“ binárn´ı strom, HTD tenzoru obsahuje nejvýˇse

⌈log₂k⌉ − 1

”pater“ tenzor˚u tˇret´ıho ˇrádu (viz napˇr. obrázek 4.2), kde ⌈⋅⌉ znaˇc´ı horn´ı celou ˇcást reálného ˇc´ısla. Celkem bude takový strom obsahovat právˇe 2k − 1 objekt˚u, pˇriˇcemˇz k z nich jsou listy (matice), jeden je koˇren (matice) a tedy

k − 2 z nich jsou tenzory tˇret´ıho ˇr´adu.

5.5.1 N´ aroˇ cnost souˇ cinu tenzoru s matic´ı

Pro souˇcin tenzoru k-tého ˇrádu s matic´ı M ∈ R^m^×n^`, tj. T ×_` M , ve tvaru HTD mus´ıme provádˇet následuj´ıc´ı kroky:

W jeden souˇcin matic s rozmˇery m × n a n × r (v `-t´em listu);

W jeden QR rozklad matice s rozmˇery m × r (v `-t´em listu);

W (⌈log2k⌉ − 1)-krát souˇcin tenzoru tˇret´ıho ˇrádu s rozmˇery r × r × r a matice s rozmˇery r × r (v prvn´ım, nebo druhém módu);

W (⌈log2k⌉ − 1)-kr´at QR rozklad matice (resp. rozvoje tenzoru tˇret´ıho ˇr´adu) s rozmˇery r²×r;

W jeden souˇcin tˇr´ı matic se stejn´ymi rozmˇery r × r, pˇriˇcemˇz prostˇredn´ı matice je diagon´aln´ı (aktulizace koˇrene);

W jeden SVD rozklad matice s rozmˇery r × r (aktualizace koˇrene); a

W dvakr´at souˇcin tenzoru s rozmˇery r × r × r a matice s rozmˇery r × r (ve tˇret´ım m´odu; posledn´ı krok aktualizace koˇrene; viz5.16).

Pro celkov´y pˇrehled viz tak´e tabulku5.1.

5.5.2 N´ aroˇ cnost souˇ ctu dvou tenzor˚ u

Pro souˇcet dvou tenzor˚u ve tvaru HTD, mus´ıme pro z´ıskán´ı výsledného tenzoru opˇet ve tvaru HTD provést tyto kroky:

W zˇretˇezit odpov´ıdaj´ıc´ı listy, tenzory tˇret´ıho ˇrádu a koˇreny, coˇz je provedeno s nulovým poˇctem aritmetických operac´ı;

W k-kr´at QR rozklad matice s rozmˇery n × 2r (ve vˇsech listech);

W (k − 2)-krát souˇcin tenzoru tˇret´ıho ˇrádu s rozmˇery 2r × 2r × 2r a dvou matic s rozmˇery r × 2r (v prvn´ım a druhém módu);

W (k − 2)-kr´at QR rozklad matice (resp. rozvoje tenzoru tˇret´ıho ˇr´adu) s rozmˇery r²×2r;

W jeden souˇcin tˇr´ı matic s rozmˇery r × 2r, 2r × 2r a 2r × r, pˇriˇcemˇz prostˇredn´ı matice je diagon´aln´ı (aktulizace koˇrene);

W jeden SVD rozklad matice s rozmˇery r × r (aktualizace koˇrene); a

W dvakr´at souˇcin tenzoru s rozmˇery r × r × r a matice s rozmˇery r × r (ve tˇret´ım m´odu; posledn´ı krok aktualizace koˇrene; viz5.16).

Pro celkov´y pˇrehled viz tak´e tabulku 5.1.

5.5.3 N´ aroˇ cnost v´ ypoˇ ctu skal´ arn´ıho souˇ cinu

Skalárn´ı souˇcin dvou tenzor˚u k-tého ˇrádu ve tvaru HTD se stejnou strukturou stromu, provád´ıme postupnˇe v kroc´ıch, které jsou ilustrovány na obrázku 5.7. Ze schématu na obrázku je zˇrejmé, ˇze po vynásoben´ı odpov´ıdaj´ıc´ıch list˚u tenzor˚u po-stupujememe dále smˇerem ke koˇren˚um obou strom˚u, kdy postupnˇe násoben´ım ten-zor˚u s maticemi eliminujeme mezilehlé uzly tenzorové s´ıtˇe. Tuto eliminaci m˚uˇzeme provést dvˇema zp˚usoby, tak jak je ukázáno na obrázku5.8. Pro výpoˇcet skalárn´ıho souˇcinu tedy provád´ıme:

W k-kr´at souˇcin matic r × n a n × r – list˚u bin´arn´ıch strom˚u;

W eliminac´ı provád´ıme tolik, kolik je v s´ıti souˇcinu odpov´ıdaj´ıc´ıch si pár˚u tenzor˚u tˇret´ıho ˇrádu, tedy (k − 2)-krát. Pˇritom eliminace obsahuje (postupujeme-li

Obrázek 5.8: Dva zp˚usoby eliminace mezilehlých uzl˚u s´ıtˇe pˇri výpoˇctu skalárn´ıho souˇcinu. Výpoˇcetn´ı nároˇcnosti jsou ekvivalentn´ı, nebot’ souˇcin tenzoru se dvˇema ma-ticemi (v r˚uzných módech˚u; viz druhý ˇrádek uprostˇred) lze nahradit dvˇema souˇciny tenzoru stejného ˇrádu s matic´ı, jelikoˇz plat´ı T ×_`M_` ×_tM_t = (T ×_`M_`) ×_tM_t; viz napˇr. [26, kap. 2.2].

podle prvn´ıho ˇrádku obrázku5.8; postup podle druhého ˇrádku je okomentován v popisku obrázku):

V dvakrát souˇcin dvou tenzor˚u s rozmˇery r×r×r ve dvou módech (v prvn´ım a druhém);

V dvakrát souˇcin tenzoru s rozmˇery r × r × r a matice s rozmˇery r × r (v prvn´ım, nebo druhém módu).

Nakonec skalárn´ı souˇcin jeˇstˇe vyˇzaduje provést (viz obrázek5.7(f–h)):

W dvakrát souˇcin matic s rozmˇery r × r (po eliminaci tenzor˚u tˇret´ıho ˇrádu); a W jeden skalárn´ı souˇcin matic s rozmˇery r × r.

Pro celkov´y pˇrehled viz tak´e tabulku 5.1.

Z tabulky 5.1 vid´ıme, ˇze vˇsechny operace jsou lineárn´ı (nikoliv exponenciáln´ı) v k – tj. v ˇrádu p˚uvodn´ıho tenzoru – a kvartické v r – veliˇcinˇe souvisej´ıc´ı s hodnost´ı tenzor˚u. Pˇr´ıpadná úspora operac´ı (a tedy i výpoˇcetn´ıho ˇcasu) samozˇrejmˇe závis´ı na tom, jak malé reálnˇe m˚uˇze být r pro daná data.

Na závˇer poznamenejme, ˇze operacemi (souˇcet a skalárn´ı souˇcin) jsme se zabývali jen v pˇr´ıpadˇe, ˇze dvojice tenzor˚u v HTD, která vstupovala do operace, mˇela stejnou strukturu stromu vˇcetnˇe index˚u. Pokud bychom chtˇeli provést nˇekterou z tˇechto operac´ı na dvojici tenzor˚u s r˚uzným stromem, museli bychom nejprve jeden z tenzor˚u pˇrepoˇc´ıtat – tedy adaptovat tak, aby struktura obou byla pˇred operac´ı shodná.

Podobnˇe u lineárn´ıho zobrazen´ı jsme potˇrebovali, aby mˇelo kroneckerovskou stru-kturu odpov´ıdaj´ıc´ı rozmˇer˚um tenzoru. Tento poˇzadavek je vˇsak pˇrirozený, i kdyˇz zobrazen´ı m˚uˇze být i komplikovanˇejˇs´ı, neˇz jak je naznaˇceno v (5.3); m˚uˇze se jednat o souˇcet nˇekolika takových Kroneckerových souˇcin˚u.

Tabulka 5.1: Porovnán´ı výpoˇcetn´ı sloˇzitosti jednotlivých operac´ı: MMp znaˇc´ı souˇcin dvou matic (z anglického matrix-matrix product). TMp souˇcin tenzoru tˇret´ıho ˇrádu a matice (z anglického tensor-matrix product); pozn. ˇze souˇcin tenzoru se dvˇema maticemi v r˚uzných módech lze pˇrepsat jako dva souˇciny tenzoru a matice. Výpoˇcetn´ı sloˇzitost QR rozkladu uvaˇzujeme r³ pro matici r × r a r⁴ pro matici r²×r; sloˇzitost SVD rozkladu uvaˇzujeme r³ pro matici r × r; viz napˇr. [4, kap. 3.5.6] a [6, kap. 8.6.4].

Sloˇzitost jedné sub-operace eliminace u skalárn´ıho souˇcinu tenzor˚u je 4r⁴. Pˇri odvozován´ı sloˇzitost´ı jsme uvaˇzovali nejménˇe nevyváˇzený strom, s výjimkou prvn´ıho ˇrádku vˇsak budou odhady platit pro libovolný strom (napˇr. i pro tensor train (TT)).

operace poˇcty element´arn´ıch sub-operac´ı sloˇzitost

souˇcin tenzoru s matic´ı 3 MMp + (⌈log₂k⌉ + 1) TMp + ⌈log₂k⌉ QR + SVD ∼2 ⌈log₂k⌉ r⁴+5r³ aplikace lin. zobrazen´ı (5.3) (k + 2) MMp + (2k − 2) TMp + (2k − 2) QR + SVD ∼ (9k + 16)r⁴+ (k + 3)r³ souˇcet dvou tenzor˚u 2 MMp + (2k − 2) TMp + (2k − 2) QR + SVD ∼ (2k − 2)r⁴+ (2k + 3)r³ skal´arn´ı souˇcin tenzor˚u k + 2 MMp + (k − 2) eliminac´ı + skal´arn´ı souˇcin matic ∼ (4k − 8)r⁴+ (k + 2)r³

6 N´ aznak praktick´ eho v´ ypoˇ ctu HTD

Jak jsme jiˇz konstatovali, hierarchický Tucker˚uv rozklad je vhodný zejména pro ukládán´ı a manipulaci s tenzory vysokých ˇrád˚u, protoˇze jak pamˇet’ové nároky, tak operace s tenzorem jsou linárn´ı, nikoliv exponenciáln´ı, v ˇrádu tenzoru. Obecnˇe ten-zory vysokých ˇrád˚u nelze v prostém tvaru (ani v obyˇcejném Tuckerovˇe rozkladu) v˚ubec v poˇc´ıtaˇci uloˇzit právˇe z d˚uvod˚u enormn´ı spotˇreby pamˇeti; viz obrázek 4.4.

Je tedy zˇrejmé, ˇze tenzor obecnˇe nem˚uˇze do HTD dostat postupem, který by se nab´ızel z výkladu v kapitole 4. Naznaˇc´ıme proto jednu z moˇznost´ı, kde se s tenzory v HTD tvaru m˚uˇzeme setkat.

Uvaˇzujme rovnici

A(X ) = B, kde X, B ∈ Rⁿ¹^×n²^×⋯×n^k (6.1) jsou tenzor neznámých a tenzor pravých stran a kde zobrazen´ı

A ∶ Rⁿ¹^×n²^×⋯×n^k Ð→Rⁿ¹^×n²^×⋯×n^k (6.2) je invertibiln´ı. Rovnici tedy lze pˇrepsat jako soustavu rovnic

A vec(X ) = vec(B) (6.3)

s regul´arn´ı matic´ı A ˇr´adu N ≡ n₁⋅n₂⋅ ⋯ ⋅n_k.

Uˇz samotný fakt, ˇze nám je rovnice dána k ˇreˇsen´ı, znamená, ˇze oba známé ob-jekty A a B mus´ı být nˇejak úspornˇe uloˇzeny. ˇCasto má právˇe matice soustavy tvar Kroneckerova souˇcinu (viz5.3), nebo souˇctu nˇekolika málo (napˇr. L) Kroneckerových souˇcin˚u, tj. a tenzor pravých strany B je napˇr. n´ızké hodnosti; napˇr. hodnosti jedna. Tedy, je vnˇejˇs´ım souˇcinem k vektor˚u b_j ∈Rⁿ^j, j = 1, . . . , k; viz napˇr. [13].

Tenzor B, který je vnˇejˇs´ım souˇcinem k vektor˚u snadno pˇrep´ıˇseme do strukury, která bude rámcovˇe odpov´ıdat HTD. Staˇc´ı si vz´ıt jednotlivé vektory b_j jako listy, vytvoˇrit binárn´ı strom s tenzory tˇret´ıho ˇrádu (1) ∈ R^1×1×1 a s koˇrenem (1) ∈ R^1×1. Pokud chceme m´ıt tenzor ve tvaru HTD i fakticky, staˇc´ı zortogonalizovat (tedy pouze znormalizovat) listy, tj. vz´ıt normalizované vektory b_j/∥b_j∥, matice pˇrechodu svázané s tenzory tˇret´ıho ˇrádu ortonormáln´ı sloupce mˇely, zbývá tedy jako koˇren vz´ıt matici [∥b1∥ ⋅ ∥b2∥ ⋅ ⋯ ⋅ ∥bk∥] ∈R¹^×1.

Nyn´ı si staˇc´ı uvˇedomit, ˇze pro ˇreˇsen´ı soustav rovnic existuje celá ˇrada iteraˇcn´ıch metod (viz napˇr. [4, kapitoly 8 a 9], nebo [24], [25], [1], [8], a mnoho dalˇs´ıch) které zpravidla pouˇz´ıvaj´ı jen následuj´ıc´ı operace:

W násoben´ı matice A vektorem, W lineárn´ı kombinace dvou vektor˚u a W skalárn´ı souˇcin vektor˚u.

Vˇsechny tyto operace ale um´ıme s tenzory v HTD tvaru provádˇet, pˇriˇcemˇz výsledkem prvn´ıch dvou je opˇet tenzor v HTD tvaru. Zbývá tedy nˇejak zkonstruovat poˇcáteˇcn´ı aproximaci tenzoru neznámých. Nejsnazˇs´ı bude vz´ıt poˇcáteˇcn´ı odhad nulový, tj.

X₀ =0. Takový poˇcáteˇcn´ı odhad m˚uˇzeme snadno zapsat do ve tvaru HTD se stej-nou strukutrou, jako jiˇz máme zvolenou pro B, protoˇze X₀ je fakticky také vnˇejˇs´ım souˇcinem k – tentokrát nulových – vektor˚u [0, . . . , 0]^T ∈Rⁿ^j, j = 1, . . . , k (tenzory tˇret´ıho ˇrádu i matici v koˇrenu stromu lze opˇet volit (1) ∈ R¹^×1×1, resp. (1) ∈ R¹^×1; v pˇr´ıpadˇe nulového tenzoru mohou vznikout technické problémy s pˇrevodem do skuteˇcného HTD protoˇze zde budou figurovat nulové hodnosti, tedy napˇr. matice beze sloupc˚u, atd.).

V principu jsme tedy schopni nal´ezt tenzor ˇreˇsen´ı X rovnice (6.1) ve tvaru HTD.

Pro jeho úspˇeˇsné nalezen´ı zbývá jen doufat (nebo dokázat), ˇze vˇsechny hodnosti r vˇsech tenzor˚u – meziprodukt˚u iteraˇcn´ıho algoritmu, ale také hledaného ˇreˇsen´ı (viz napˇr. [13, kap. 3.2, str. 676–678]), budou rozumnˇe malé.

Na závˇer jeˇstˇe poznamenejme, ˇze mezi r˚uznými programy a toolboxy vyvinutými pro práci s tenzory, viz pˇrehled v [11] nebo [26, pˇr´ıloha A], existuje software pˇr´ımo navrˇzený pro práci s tenzory v HTD. Na obrázku 6.1 vid´ıme tenzor ˇsestého ˇrádu v HTD v htucker toolboxu, viz [14], který jsme pˇrevzali z [12].

Dim. 1, 2

Dim. 3, 4, 5, 6 Dim. 1

Dim. 2

Dim. 3, 4

Dim. 5, 6 Dim. 3

Dim. 4

Dim. 5

Dim. 6

Obrázek 6.1: Podoba HTD tenzoru ˇsestého ˇrádu v htucker toolboxu (viz [14]) v MatLabu^®, pˇrevzato z [12]. Modré ˇcáry vyznaˇcuj´ı singlulárn´ı ˇc´ısla odpov´ıdaj´ıc´ıch rozvoj˚u tenzoru.

Z´ avˇ er

Tato práce má slouˇzit jako studijn´ı text uvádˇej´ıc´ı ˇctenáˇre, který se jiˇz setkal se základn´ımi pojmy multilineárn´ı algebry, do problematiky reprezentace tenzor˚u po-moc´ı tenzorových s´ıt´ı. V textu jsme zopakovali nˇekteré d˚uleˇzité pojmy týkaj´ıc´ı se tenzor˚u, se kterými pracujeme jako s v´ıcerozmˇernými poli ˇc´ısel. Dále jsme defino-vali nˇekteré pojmy z teorie graf˚u a zavedli tzv. multigraf s volnˇe vis´ıc´ımi hranami a smyˇckami, který jsme pozdˇeji pouˇzili pro reprezentaci tenzorové s´ıtˇe. Tenzor po-moc´ı graf˚u znázorˇnujeme jako vrchol s volnˇe vis´ıc´ımi hranami, jejichˇz poˇcet odpov´ıdá ˇrádu tenzoru. Klasické hrany potom v tenzorové s´ıt´ı pˇredstavuj´ı násoben´ı tenzor˚u v odpov´ıdaj´ıc´ıh módech.

Hlavn´ım c´ılem práce bylo zaveden´ı hierarchického Tuckerova rozkladu tenzoru (HTD), objasnˇen´ı principu na kterém je zaloˇzen a t´ım i d˚ukazu jeho existence.

Grafickou reprezentac´ı tohoto rozkladu je tenzorová s´ıt’ v podobˇe (co nejménˇe ne-vyváˇzeného) binárn´ıho stromu. V textu jsme ale poukázali na moˇznosti libovolné volby binárn´ıho stromu – napˇr. tzv. tensor train je konstruován principiálnˇe stejným zp˚usobem jen s jiným tvarem binárn´ıho stromu. Výhodou hierarchického Tuckerova rozkladu je pˇredevˇs´ım pamˇet’ová úspora pˇri ukládán´ı tenzor˚u, za pˇredpokladu, ˇze hodnosti rozvoj˚u tenzoru do matice odpov´ıdaj´ıc´ı vˇetven´ı binárn´ıho stromu jsou malé.

V textu jsme proto nab´ıdli porovnán´ı nároˇcnosti na pamˇet’ poˇc´ıtaˇce, ukládáme-li tenzor r˚uznými zp˚usoby.

Vˇenovali jsme se také principu a nároˇcnosti nˇekterých operac´ı s tenzory uloˇzen´ y-mi v hierarchickém Tuckerovˇe rozkladu, pˇriˇcemˇz jsme vˇzdy chtˇeli i výsledný tenzor z´ıskat ve tvaru HTD. Na závˇer jsme nab´ıdli i náznak praktického výpoˇctu HTD v jedné konkrétn´ı situaci.

Literatura

[1] O. Axelsson, Iterative solution methods, Cambridge University Press, Cam-bridge, 1994.

[2] B. W. Bader and T. G. Kolda, Algorithm 862: Matlab tensor classes for fast algorithm prototyping, ACM Transactions on Mathematical Software, 32 (2006), pp. 635–653.

[3] L. De Lathauwer, B. De Moor, and J. Vandewalle, A multilinear sin-gular value decomposition, SIAM Journal on Matrix Analysis and Applications, 21 (2000), pp. 1253–1278.

[4] E. J. Duintjer Tebbens, I. Hnˇetynková, M. Pleˇsinger, Z. Strakoˇs, and P. Tichý, Analýza metod pro maticové výpoˇcty: základn´ı metody, Matfy-zpress, Praha, 2012.

[5] M. Fiedler, Speciáln´ı matice a jejich pouˇzit´ı v numerické matematice, TKI, Teoretická kniˇznice inˇzenýra, SNTL, Státn´ı nakladatelstv´ı technické literatury, Praha, 1981.

[6] G. H. Golub and C. F. Van Loan, Matrix computations, Johns Hopkins Studies in the Mathematical Sciences, Johns Hopkins University Press, Balti-more, MD, 4th ed., 2013.

[7] L. Grasedyck, Hierarchical singular value decomposition of tensors, SIAM Journal on Matrix Analysis and Applications, 31 (2010), pp. 2029–2054.

[8] A. Greenbaum, Iterative methods for solving linear systems, vol. 17 of Fron-tiers in Applied Mathematics, Society for Industrial and Applied Mathematics (SIAM), Philadelphia, PA, 1997.

[9] B. N. Khoromskij, Tensors-structured numerical methods in scientific com-puting: Survey on recent advances, Chemometrics and Intelligent Laboratory Systems, 110 (2012), pp. 1–19.

[10] H. A. L. Kiers, Towards a standardized notation and terminology in multiway analysis, Journal of Chemometrics, 14 (2000), pp. 105–122.

In document Tenzorov´e s´ıtˇe a hierarchick´y Tucker˚uv rozklad (Page 47-0)