Tenzorov´e s´ıtˇe a hierarchick´y Tucker˚uv rozklad

(1)

Tenzorov´ e s´ıtˇ e

a hierarchick´ y Tucker˚ uv rozklad

Diplomov´ a pr´ ace

Studijn´ı program: N1101 – Matematika

Studijn´ı obory: 7504T089 – Uˇcitelstv´ı matematiky pro stˇredn´ı ˇskoly

7503T009 – Uˇcitelstv´ı anglického jazyka pro 2. stupeˇn základn´ı ˇskoly Autor práce: Jana ˇZáková

Vedouc´ı pr´ace: Martin Pleˇsinger

(2)

Tensor networks

and hierarchical Tucker decomposition

Diploma thesis

Study programme: N1101 – Mathematics

Study branches: 7504T089 – Teacher training for upper-sec. schools: Mathematics 7503T009 – Teacher training for lower-secondary schools: English Author: Jana ˇZ´akov´a

Supervisor: Martin Pleˇsinger

(3)

(4)

(5)

Prohl´ aˇ sen´ı

Byla jsem seznámena s t´ım, ˇze na mou diplomovou práci se plnˇe vztahuje zákon ˇc. 121/2000 Sb., o právu autorském, zejména§ 60 – ˇskoln´ı d´ılo.

Beru na vˇedom´ı, ˇze Technická univerzita v Liberci (TUL) neza- sahuje do mých autorských práv uˇzit´ım mé diplomové práce pro vnitˇrn´ı potˇrebu TUL.

Uˇziji-li diplomovou pr´aci nebo poskytnu-li licenci k jej´ımu vyuˇzit´ı, jsem si vˇedoma povinnosti informovat o t´eto skuteˇcnosti TUL;

v tomto pˇr´ıpadˇe má TUL právo ode mne poˇzadovat úhradu náklad˚u, které vynaloˇzila na vytvoˇren´ı d´ıla, aˇz do jejich skuteˇcné výˇse.

Diplomovou práci jsem vypracovala samostatnˇe s pouˇzit´ım uvedené literatury a na základˇe konzultac´ı s vedouc´ım mé diplomové práce a konzultantem.

Souˇcasnˇe ˇcestnˇe prohlaˇsuji, ˇze tiˇstˇen´a verze pr´ace se shoduje s elek- tronickou verz´ı, vloˇzenou do IS STAG.

Datum:

Podpis:

(6)

Anotace

V modern´ı numerická algebˇre se stále ˇcastˇeji setkáváme s problémy, kde potˇrebujeme pracovat s v´ıcerozmˇernými daty, uloˇzenými jako tenzory. Pˇri manipulaci a výpoˇctech s tenzory velkých ˇrád˚u snadno naraz´ıme na omezen´ı na stranˇe pamˇeti poˇc´ıtaˇce.

Pokus´ıme-li se takový tenzor naivnˇe uloˇzit jako prosté v´ıcerozmˇerné pole, rychle m˚uˇze doj´ıt k vyˇcerpán´ı dostupné pamˇeti, které nelze jednoduˇse vyˇreˇsit pouˇzit´ım lepˇs´ıho poˇc´ıtaˇce. Tento jev je ve výpoˇcetn´ım svˇetˇe známý pod anglickým term´ınem

”curse of dimensionality“. Jedn´ım z nástroj˚u, které umoˇzˇnuj´ı sn´ıˇzit pamˇet’ové nároky, je Tucker˚uv rozklad tenzoru. Úspora je ovˇsem omezena tzv. vektorovou hodnost´ı tenzoru a pro tenzory vyˇsˇs´ıch ˇrád˚u nen´ı dostateˇcná.

C´ılem této práce je ukázat, ˇze na tenzory, resp. sady tenzor˚u a jejich r˚uzných vzájemných souˇcin˚u lze nahl´ıˇzet jako na specifické neorientované grafy. Vysvˇetluje zp˚usob reprezentace tenzor˚u a dalˇs´ı objekt˚u lineárn´ı algebry pomoc´ı tˇechto graf˚u.

Takov´y zp˚usob reprezentace tenzor˚u oznaˇcujeme jako tzv. tenzorov´e s´ıtˇe.

V práci je dále ukázáno, jak lze tenzor (pˇr´ıliˇs velkého ˇrádu na to, aby s n´ım ˇslo pracovat pˇr´ımo) ˇsikovnˇe rozloˇzit do tenzorové s´ıtˇe se strukturou binárn´ıho stromu, jej´ıˇz uzly jsou tvoˇreny tenzory malých ˇrád˚u; konkrétnˇe ˇrád˚u tˇri a dva. Nav´ıc poˇcet tˇechto tenzor˚u malých ˇrád˚u závis´ı na ˇrádu p˚uvodn´ıho tenzoru lineárnˇe. Tento pˇr´ıs- tup, tzv. hierarchický Tucker˚uv rozklad (HTD, z anglického hierarchical Tucker de- ceomposition) m˚uˇze vést k úspoˇre pamˇet’ových a výpoˇcetn´ıch náklad˚u pˇri ukládán´ı tenzoru, resp. pˇri manipulaci s tenzorem (násoben´ı tenzoru matic´ı, lineárn´ı kombinace tenzor˚u) v poˇc´ıtaˇci.

Práce také vysvˇetluje, jakým zp˚usobem s tenzory uloˇzenými ve tvaru HTD provádˇet vybrané základn´ı algebraické operace tak, aby výsledek byl opˇet tenzor v podobˇe hierarchického Tuckerova rozkladu.

Kl´ıˇ cov´ a slova:

multilineárn´ı algebra; tenzor; tenzrová s´ıt’; (hierarchický) Tucker˚uv rozklad (HTD);

tensor train; tensor chain; operace s tenzory; low-rank aproximace

(7)

Abstract

In modern numerical algebra, there quite frequently arise problems, where there is a need to work with multidimensional data stored in the form of tensors. While manipulating or calculating with tensors of high order, we often encounter the re- stricitions by the memory of the computer. The attempt to store such a tensor can lead to the exhaustion of the available memory, which can not be improved by the use of a better computer. This problem is referred as the curse of dimensionality.

One of the tools used for the reduction of the storage requirements is the so-called Tucker decomposition. However, the storage savings by this decomposition are re- stricted by the vector-rank of the given tensor and are not sufficient for tensors of high order.

The aim of this thesis is to explain how tensors, or sets of tensors and tensor pro- ducts can be interpreted as specific (undirected) graphs. We explain the way of the representation of tensors and other objects from linear algebra. Such representation is called the tensor network.

In the text we show the way to decompose the tensor (of order which is too high) into the tensor network of the binary tree structure. The nodes of such a tree represent tensors of order two or three. Moreover, the number of these tensors of low order depends linearly on the order of the original tensor. This approach, called hierarchical Tucker decomposition (HTD), can lead to storage requirements and computation savings while storing or manipulating with the tensor, respectively.

The thesis also explains how to do some selected basic arithmetic operations so that the result is also a tensor in HTD format.

Key words:

multilinear algebra; tensor; tensor network diagram; (hierarchical) Tucker decomposition (HTD); tensor train; tensor chain; tensor arithmetic; low-rank approxi- mation

(8)

Podˇ ekov´ an´ı

Ráda bych na tomto m´ıstˇe podˇekovala vˇsem, ktˇeˇr´ı se zaslouˇzili o to, ˇze jsem mohla vytvoˇrit tuto práci. Dˇekuji mým rodiˇc˚um, kteˇr´ı mˇe podporovali po celou dobu studia nejen materiálnˇe, ale i psychicky, a také mým pˇrátel˚um a spoluˇzák˚um, od nichˇz se mi vˇzdy dostalo pomoci a povzbuzen´ı. Zejména ale dˇekuji Martinu Pleˇsingerovi za jeho cenné rady, nadˇsen´ı, trpˇelivost a ˇcas vˇenovaný konzultac´ım.

(9)

Obsah

Anotace 5

Abstract 6

Seznam obr´azk˚u 10

Seznam tabulek 11

Pouˇzit´e znaˇcen´ı a zkratky 12

Uvod´ 14

1 Tenzory a z´akladn´ı manipulace s nimi, Tucker˚uv rozklad 16

1.1 Tucker˚uv rozklad . . . 17

2 Grafy 19 2.1 Z´akladn´ı pojmy teorie graf˚u . . . 19

2.1.1 Volnˇe vis´ıc´ı hrany, multi-hrany a smyˇcky . . . 19

2.1.2 Stupeˇn vrcholu. . . 21

2.1.3 Cesta a kruˇznice, souvisl´y graf a strom . . . 21

2.1.4 Bin´arn´ı strom . . . 22

2.1.5 Násobné hrany a jejich jednotlivé vˇetve . . . 22

2.2 Faktorov´y graf . . . 23

3 Tenzor jako graf 25 3.1 Tenzor jako graf . . . 25

3.2 Tenzorov´y souˇcin . . . 25

3.3 Dalˇs´ı objekty lineárn´ı algebry interpretovatelné jako tenzorové souˇciny 27 3.3.1 Stopa matice . . . 27

3.3.2 Skal´arn´ı souˇcin na prostoru matic . . . 27

3.3.3 M´enˇe obvykl´e objekty . . . 27

3.4 Obecn´e tenzorov´e s´ıtˇe . . . 28

3.5 Speci´aln´ı tenzorov´e s´ıtˇe . . . 29

4 Hierarchick´y Tucker˚uv rozklad (HTD) 31 4.1 Struktura HTD . . . 31

4.1.1 Nalezen´ı tenzoru druhého ˇrádu – koˇrene binárn´ıho stromu . . . 31

(10)

4.1.2 Vˇetven´ı bin´arn´ıho stromu pomoc´ı tenzor˚u tˇret´ıho ˇr´adu . . . 32

4.1.3 Listy stromu – tenzory druh´eho ˇr´adu . . . 33

4.1.4 Pˇr´ıklad rozkladu tenzoru osm´eho ˇr´adu. . . 33

4.2 Z´akladn´ı vˇeta HTD . . . 35

4.2.1 D˚ukaz z´akladn´ı vˇety hierarchick´eho Tuckerova rozkladu . . . . 35

4.2.2 Matice pˇrenosu. . . 37

4.3 Shrnut´ı konstrukce hierarchick´eho Tuckerova rozkladu . . . 37

4.3.1 Vˇetven´ı bin´arn´ıho stromu a tzv. dimension tree . . . 37

4.4 Efektivita uloˇzen´ı dat pomoc´ı hierarchick´eho Tuckerova rozkladu . . . 38

5 Manipulace s tenzory ve tvaru HTD 41 5.1 Souˇcin tenzoru s matic´ı v `-t´em m´odu . . . 41

5.1.1 Line´arn´ı zobrazen´ı ve tvaru Kroneckerova souˇcinu . . . 42

5.2 Souˇcet dvou tenzor˚u . . . 43

5.2.1 Line´arn´ı kombinace tenzor˚u . . . 44

5.3 Reortogonalizace a rekomprese . . . 45

5.3.1 Reortogonalizace souˇcinu tenzoru s matic´ı . . . 46

5.3.2 Reortogonalizace souˇctu dvou tenzor˚u . . . 49

5.3.3 Aktualizace koˇrene stromu . . . 50

5.4 Skal´arn´ı souˇcin dvou tenzor˚u . . . 51

5.5 V´ypoˇcetn´ı n´aroˇcnost operac´ı . . . 52

5.5.1 N´aroˇcnost souˇcinu tenzoru s matic´ı . . . 53

5.5.2 N´aroˇcnost souˇctu dvou tenzor˚u . . . 53

5.5.3 Nároˇcnost výpoˇctu skalárn´ıho souˇcinu . . . 54

6 Náznak praktického výpoˇctu HTD 57

Z´avˇer 60

Reference 62

(11)

Seznam obr´ azk˚ u

1.1 Tucker˚uv rozklad tenzoru ˇr´adu 3 . . . 18

2.1 Orientovan´y a neorientovan´y graf . . . 20

2.2 Stupeˇn vrcholu grafu . . . 21

2.3 Cesta a kruznice v grafu . . . 22

2.4 Souvisl´y a nesouvisl´y graf, strom . . . 22

2.5 Bin´arn´ı strom . . . 23

2.6 Faktorov´y graf . . . 24

3.1 Grafy tenzor˚u r˚uzn´ych ˇr´ad˚u . . . 25

3.2 Souˇciny vektor˚u a matic pomoc´ı graf˚u . . . 26

3.3 Souˇcin dvou tenzor˚u . . . 26

3.4 Ménˇe obvyklé typy souˇcin˚u jednoduchých objekt˚u . . . 28

3.5 Tenzory vyˇsˇs´ıch ˇr´ad˚u, souˇcin s matic´ı, Tucker˚uv rozklad . . . 28

3.6 Rozklad tenzoru do tenzorov´e s´ıtˇe. . . 29

3.7 Speci´aln´ı tenzorov´e s´ıtˇe: HTD, TT, TC . . . 30

4.1 Zn´azornˇen´ı vˇetven´ı bin´arn´ıho stromu . . . 33

4.2 HTD pro tenzor 8. ˇr´adu . . . 34

4.3 Dimension tree . . . 38

4.4 Porovnán´ı pamˇet’ových nárok˚u . . . 40

5.1 Souˇcin tenzoru v HTD s matic´ı . . . 42

5.2 Line´arn´ı zobrazen´ı ve tvaru Kroneckerova souˇcinu . . . 43

5.3 Souˇcet tenzor˚u v HTD . . . 44

5.4 Zn´azornˇen´ı postupu reortogonalizace . . . 46

5.5 Sch´ema reortogonalizace souˇcinu tenzoru s matic´ı. Krok #1 . . . 48

5.6 Sch´ema reortogonalizace souˇcinu tenzoru s matic´ı. Krok #2 . . . 49

5.7 Skal´arn´ı souˇcin tenzor˚u v HTD . . . 52

5.8 Eliminace faktor˚u pˇri skal´arn´ım souˇcinu . . . 54

6.1 Podoba HTD v htucker toolboxu v MatLabu^®. . . 59

(12)

Seznam tabulek

4.1 Porovnán´ı pamˇet’ových nárok˚u jednotlivých formát˚u. . . 39 5.1 Porovnán´ı výpoˇcetn´ı sloˇzitosti operac´ı . . . 56

(13)

Pouˇ zit´ e znaˇ cen´ı a zkratky

V textu znaˇc´ıme

vektory (tenzory ˇr´adu 1) pomoc´ı mal´ych p´ısmen u₁, u₂, u_r, v₁, v₂, v_r, x, atd.,

matice (tenzory ˇrádu 2) pomoc´ı velkých p´ısmen (latinských i ˇreckých) A, B, C, D, E, F , U , V , Σ, atd.,

tenzory ˇrádu k, k ≥ 3 pomoc´ı velkých p´ısmen psaných kaligraficky A, B, C, D, E , F , T , S, atd.,

mnoˇziny pomoc´ı velk´ych p´ısmen psan´ych Scriptem D, S , T , Xj,

ˇ

c´ıselné obory pomoc´ı velkých zdvojených p´ısmen N, R atd., speciálnˇe N0 =N ∪ {0}.

Pomoc´ı malých p´ısmen (latinských i ˇreckých) také znaˇc´ıme prvky matic a tenzor˚u a také skaláry (tenzory ˇrádu 0). Speciáln´ı význam pak maj´ı p´ısmena i, j, `, jimiˇz zpravidla indexujeme prvky matic a tenzor˚u, a k, m, n, r, která pouˇz´ıváme k oznaˇcen´ı ˇrádu tenzoru, dimenze matice nebo tenzoru, resp. hodnosti (ranku) matice nebo tenzoru.

Matice a vektory

Znaˇcen´ı V´yznam

A ∈ Rⁿ^×m reálná matice s rozmˇery n krát m, s prvky ai,j

vec(A) ∈ R^nm vektorizace matice A ∈ Rⁿ^×m A ⊗ B Kronecker˚uv souˇcin dvou matic

A^T transpozice matice A

rank(A) hodnost matice definovaná jako poˇcet lineárnˇe nazávislých ˇrádk˚u, resp. sloupc˚u matice A

∥x∥ = (∑_ix²_i)¹^/2 eukleidovsk´a norma vektoru

(14)

Tenzory

Znaˇcen´ı V´yznam

A = (a_i₁_,i₂_,i₃) ∈Rⁿ¹^×n²^×n³ tenzor tˇret´ıho ˇrádu o rozmˇerech n₁, n₂, n₃ A = (ai1,...,i_k) ∈Rⁿ¹^{×⋅⋅⋅×n}^k tenzor k-tého ˇrádu o rozmˇerech n1, . . . , nk

a_∶,i₂_,i₃ ∈Rⁿ¹ vlákno tenzoru tˇret´ıho ˇrádu v módu 1 A_∶,∶,i₃ ∈Rⁿ¹^×n² ˇrez tenzoru tˇret´ıho ˇrádu v módu (1, 2) vec(A) ∈ Rⁿ¹ⁿ²^{⋯ n}^k vektorizace tenzoru A ∈ Rⁿ¹^{×⋅⋅⋅×n}^k A^{`}∈Rⁿ^`^×((∏

kj=1nj)/n`) rozvoj tenzoru do matice v `-t´em m´odu

A^{t¹^,...,t^d^} rozvoj tenzoru do matice dle multiindexu {t₁, . . . , t_d} A^C rozvoj tenzoru do matice dle multiindexuC

A ×_`M násoben´ı tenzoru matic´ı v `-tém módu;

plat´ı (A ×_`M )^{`}=M A^{`}

A ×_`,sB tenzorový souˇcin v módech ` a s A ×_(`₁_,`₂_),(s₁_,s₂₎B tenzorový souˇcin ve dvojici mód˚u

Pouˇ zit´ e zkratky a akronymy

Zkratka V´yznam

QR QR rozklad matice, A = QR

SVD singul´arn´ı rozklad matice (singular value decomposition), A = U ΣV^T

HOSVD Tucker˚uv rozklad tenzoru (high-order SVD)

HTD hierarchick´y Tucker˚uv rozklad (hiearachical Tucker decomposition) TT tensor train

TC tensor chain

MMp souˇcin matice s matic´ı (matrix-matrix product) TMp souˇcin tenzoru s matic´ı (tensor-matrix product)

(15)

Uvod ´

V numerických výpoˇctech se ˇcasto setkáváme s potˇrebou uloˇzit data uspoˇrádaná podle urˇcitých parametr˚u. Tenzory jsou algebraickými objekty, které nám toto u- moˇzˇnuj´ı. Poˇcet parametr˚u udává ˇrád tenzoru, speciálnˇe tenzor se dvˇema rozmˇery tzv. tenzor druhého ˇrádu je matice, tenzor prvn´ıho ˇrádu je vektor. Tenzorem k-tého ˇrádu T ∈ Rⁿ¹^×n²^×⋯×n^k tedy budeme v celém tomto textu rozumˇet k-rozmˇerné pole ˇc´ısel. Obor zabývaj´ıc´ı se prac´ı s tenzory ˇrádu k ≥ 3 se nazývá multilineárn´ı algebra;

ta jistým zp˚usobem rozˇsiˇruje klasickou lineárn´ı algebru pracuj´ıc´ı se skaláry, vektory a maticemi.

Tenzorové výpoˇcty ovˇsem skýtaj´ı problémy praktického rázu, zaˇc´ınaj´ıc´ı uˇz od potˇreby tenzor nˇejak uloˇzit v poˇc´ıtaˇci. Poˇcet prvk˚u tenzoru roste exponenciálnˇe s ˇrádem tenzoru k, coˇz vede k faktu, ˇze tenzory vysokých ˇrád˚u prakticky nelze uloˇzit, v anglické literatuˇre se setkáváme s term´ınem

”curse of dimensionality“. Proto jsou stále hledány zp˚usoby, jak tento problém eliminovat a efektivnˇe tenzor uloˇzit, napˇr´ıklad v podobˇe souˇcinu tenzor˚u s niˇzˇs´ı pamˇet’ovou nároˇcnost´ı – tenzorových rozklad˚u, a následnˇe moˇznosti jak data komprimovat, tj. efektivnˇe aproximovat bez velkých ztrát informac´ı.

Ukolem t´´ eto práce je pˇredstavit moˇznosti reprezentace tenzor˚u a tenzorových rozklad˚u, s vyuˇzit´ım teorie graf˚u, v podobˇe tzv. tenzorových s´ıt´ı. Zavád´ıme pˇritom tzv. multigraf s volnˇe vis´ıc´ımi hranami a smyˇckami, kde vrcholy reprezentuj´ı tenzory v s´ıti a hrany mezi nimi znázorˇnuj´ı souˇciny v odpov´ıdaj´ıc´ıch módech. Speciálnˇe, grafem tenzorové s´ıtˇe v podobˇe binárn´ıho stromu lze reprezentovat tzv. hierarchický Tucker˚uv rozklad tenzoru, jehoˇz analýze se v práci vˇenujeme podrobnˇe.

Dalˇs´ım c´ılem tohoto textu je tedy výklad hierarchického Tuckerova rozkladu (HTD, z anglického hierarchical Tucker decomposition), zamˇeˇruj´ıc´ı se zejména na principy odvozen´ı tohoto nástroje, naopak praktickou implementaci výpoˇctu pouze naznaˇc´ıme. P˚uvodn´ı idea je ve zobecnˇen´ı singulárn´ıho rozkladu matic, která vede na tzv. Tucker˚uv rozklad, viz viz [20], [21], [22], [11] nebo [19], který umoˇzˇnuje uloˇzit tenzor ˇrádu k jako souˇcin menˇs´ıho tenzoru stejného ˇrádu, tzv. Tuckerova jádra, a k matic. Rozmˇery jádra jsou dány tzv. vektorovou hodnost´ı, tj. k-tic´ı ˇc´ısel vyjadˇruj´ıc´ı hodnosti rozvoj˚u tenzoru v jednotlivých módech. Jak je ale ukázáno napˇr. v [26], tento rozklad velmi ˇcasto (pro tenzory vyˇsˇs´ıch ˇrád˚u) nepˇrinese dostateˇcnou úsporu pamˇet’ových nárok˚u.

Hierarchický Tucker˚uv rozklad fakticky pracuje s jádrem tenzoru, které rozkládá do souˇcinu tenzor˚u tˇret´ıho (resp. druhého) ˇrádu, reprezentovaného s´ıt´ı, konkrétnˇe binárn´ım stromem, námi pˇredepsaného tvaru. Jako HTD vˇsak typicky uvaˇzujeme s´ıt’ ve tvaru maximálnˇe vyváˇzeného binárn´ıho stromu. Obdobou HTD, která je od-

(16)

vozena stejným zp˚usobem aˇz na volbu struktury stromu je tzv. tensor train, kdy je naopak volen maximálnˇe nevyváˇzený binárn´ı strom.

Text je strukturován následuj´ıc´ım zp˚usobem. Po struˇcném úvodu v kapitole 1 zavád´ıme tenzor jako v´ıcerozmˇerné pole ˇc´ısel a vysvˇetujeme základn´ı operace s tenzory, které budeme v textu dále pouˇz´ıvat, konkrétnˇe souˇcin tenzoru s matic´ı, rozvoj tenzoru do matice a Tucker˚uv rozklad tenzoru. Kapitola 2 je vˇenována pojm˚um z teorie graf˚u, které budeme potˇrebovat proto, abychom v následuj´ıc´ı kapitole 3 vysvˇetlili, jakým zp˚usobem grafy vyuˇz´ıváme k reprezentaci tenzor˚u a také jejich souˇcin˚u – tzv. tenzorových s´ıt´ı. Kapitola 4 je vˇenována hierarchickému Tuckerovu rozkladu (HTD), kde ukazujeme princip, na kterém je tento rozklad postaven a do- kazujeme jeho existenci. Porovnáváme také pamˇet’ové nároky pˇri ukládán´ı tenzoru do poˇc´ıtaˇce r˚uznými zp˚usoby a ukazujeme efektivitu uloˇzen´ı dat v HTD. V kapitole 5 vysvˇetlujeme, jak lze provádˇet vybrané základn´ı operace s tenzory, jsou-li tyto uloˇzeny v HTD tak, abychom i výsledný tenzor z´ıskali v tomto tvaru. V kapitole 6 ukazujeme, jakým zp˚usobem lze HTD tenzoru spoˇc´ıtat v dané konkrétn´ı situaci.

(17)

1 Tenzory a z´ akladn´ı manipulace s nimi, Tucker˚ uv rozklad

V prvn´ı kapitole vysvˇetl´ıme pojem tenzor a ukáˇzeme základn´ı nástroje potˇrebné pro práci s tenzory. Pˇripomeneme také Tucker˚uv rozklad tenzoru jako zobecnˇen´ı singulárn´ıho rozkladu matice.

Definice 1 (Tenzor). Necht’ T je k-rozmˇerné pole reálných ˇc´ısel t_i₁_,i₂_,...,i_k o rozmˇerech n₁, n₂, . . . , n_k. Potom

T = (t_i₁_,i₂_,...,i_k) ∈Rⁿ¹^×n²^×⋯×n^k (1.1) nazýváme tenzor k-tého ˇrádu, viz [10], [11].

Aritmetické vektory a matice povaˇzujeme za tenzory prvn´ıho, resp. druhého ˇrádu.

Tenzory stejného ˇrádu, které maj´ı stejné rozmˇery, tvoˇr´ı spoleˇcnˇe s operacemi sˇc´ıtán´ı (po prvc´ıch) a násoben´ı skalárem vektorový prostor.

D˚uleˇzitou operac´ı pro práci s tenzory je násoben´ı. Následuj´ıc´ı definice ukazuje, jak násobit tenzor s matic´ı.

Definice 2 (Souˇcin v `-t´em m´odu). Necht’ T je tenzor (1.1) a M ∈ R^m^×n^` je matice s prvky m_i,j, kde i = 1, . . . , m, j = 1, . . . , n_`. Potom

D = T ×_`M ≡⎛

⎝

n`

∑

α=1

t_i₁_,...,i_`−1_,α,i_`+1_,...,i_k⋅m_i,α⎞

⎠

∈Rⁿ¹^×⋯×n^`−1^×m×n^`+1^×⋯×n^k (1.2) se nazývá souˇcin v `-tém módu viz [11].

Vzhledem k faktu, ˇze tenzor m˚uˇzeme povaˇzovat za zobecnˇen´ı matice, je samozˇrejmˇe moˇzn´e definovat souˇcin dvou tenzor˚u obecnˇeji, analogicky k (1.2), coˇz pop´ıˇseme n´aslednˇe.

Mˇejme tenzory T = (t_i₁_,i₂_,...,i_k) ∈ Rⁿ¹^×n²^×⋯×n^k a S = (s_j₁_,j₂_,...,j_`) ∈ R^m¹^×m²^×⋯×m^`. Pokud n_p=m_q≡µ, potom

F = T ×_(p,q)S ≡

⎛

⎝

µ

∑

α=1

t_i₁_,...,i_p−1_,α,i_p+1_...,i_k⋅s_j₁_,...,j_q−1_,α,j_q+1_...,j_`⎞

⎠

∈Rⁿ¹^×⋯×n^p−1^×n^p+1^×⋯×n^k^×m¹^×⋯×m^q−1^×m^q+1^×⋯×m^` (1.3)

(18)

povaˇzujeme za souˇcin tˇechto tenzor˚u. Tento druh souˇcinu m˚uˇzeme v nˇekterých zdroj´ıch nalézt pod pojmy úˇzen´ı tenzor˚u, viz [15, str. 70], contracted product, viz [2, str. 643] nebo tensor-tensor contraction, viz [19, str. 31].

S tenzory m˚uˇzeme nˇekdy pracovat i ve tvaru matice. Pro to bude uˇzitené definovat tzv. rozvoj tenzoru v matici v daném módu, pˇr´ıp. módech.

Definice 3 (Rozvoj tenzoru v matici). Uvaˇzujme tenzor T (1.1) a jeho sadu index˚u rozdˇelenou do dvou disjunktn´ıch podmnoˇzin R a C , pˇriˇcemˇz R ≡ {r1, r₂, . . . , r_R} a C ≡ {c1, c₂, . . . , c_C} a z´aroveˇn R ∪ C = {1, 2, . . . , k} a nav´ıc plat´ı r1 <r₂ < ⋯ <r_R a c₁ <c₂< ⋯ <c_C. Matice

T^R = T^{r¹^,r²^,...,r^R^} ∈R^N^R^×N^C, kde N_R=

R

∏

`=1

n_r_`, N_C =

C

∏

`=1

n_c_`, (1.4) obsahuj´ıc´ı prvky t_i₁_,i₂_,...,i_k v ˇrádc´ıch s multiindexy (i_r_R, . . . , i_r₂, i_r₁) a ve sloupc´ıch s multiindexy (i_c_C, . . . , i_c₂, i_c₁) v lexikografickém poˇrad´ı se nazývá rozvoj tenzoru v matici (v angliˇctinˇe matricization), viz [19, kap. 3.1.2].

Speciáln´ım pˇr´ıpadem rozvoje tenzoru je tzv. rozvoj tenzoru v `-tém módu, kde jedna z mnoˇzin multiindex˚u obsahuje pouze jeden prvek, tj. R = {`}, C = {1, . . . , k} ∖ {`}.

V tomto pˇr´ıpadˇe dost´av´ame

T^{`}∈Rⁿ^`^×((∏

kj=1nj)/n`), (1.5) viz [11]. Dalˇs´ı speciáln´ı pˇr´ıpad nastává, pokud je mnoˇzina C prázdná. Dostáváme potom sloupcový vektor obsahuj´ıc´ı vˇsechny prvky tenzoru T , tzv. vektorizaci tenzoru, kterou oznaˇcujeme vec(T ).

1.1 Tucker˚ uv rozklad

Podobnˇe jako v lineárn´ı algebˇre je velice uˇziteˇcným nástrojem singulárn´ı rozklad matice (SVD z anglického singular value decomposition), existuje ve v´ıcerozmˇerném pˇr´ıpadˇe (tj. pro ˇrád tˇri a v´ıce) jeho zobecnˇen´ı, tzv. Tucker˚uv rozklad. V nˇekterých zdroj´ıch se m˚uˇzeme setkat také s názvy high-order SVD (HOSVD), tedy singulárn´ı rozklad vyˇsˇs´ıch ˇrád˚u. Zˇrejmˇe pro matice (tenzory ˇrádu dva) odpov´ıdá Tucker˚uv rozklad pˇr´ımo singulárn´ımu rozkladu matice.

Definice 4 (Tucker˚uv rozklad). Necht’ T je tenzor ˇr´adu k. Potom

T = S ×₁U₁×₂U₂×. . . ×_kU_k, U_`=U_`⁻¹, (1.6) kde U_` jsou matice s levými singulárn´ımi vektory matic rozvoj˚u tenzoru T v daných módech, tj. T^{`}, ` = 1, 2, . . . , k, nazýváme Tucker˚uv rozklad tenzoru T . Tenzor S se nazývá Tuckerovo jádro.

Tucker˚uv rozklad tenzoru je zˇrejmˇe zobecnˇen´ım singul´arn´ıho rozkladu matice. Pokud ˇc´ısla r1, r2, . . . , rk jsou hodnosti rozvoj˚u v m´odech 1, 2, . . . , k, posledn´ıch (n` −r`)

(19)

ˇrádk˚u matic T^{`}obsahuje pouze nuly. Tucker˚uv rozklad potom m˚uˇzeme stejnˇe jako singulárn´ı rozklad tenzoru vyjádˇrit v tzv. ekonomickém tvaru, tj.

T = S_T ×₁U₁^′×₂U₂^′× ⋯ ×_kU_k^′, S_T ∈R^r¹^×r²^×⋯×r^k, U_` ∈Rⁿ^`^×r^`, (1.7) viz [20], [21], [22], pˇr´ıpadnˇe [11, kap. 4.1] a [19, kap. 4.1], pro ilustraci Tuckerova rozkladu viz obr´azek 1.1.

=

×₁

×₂

×

³

Obr´azek 1.1: Tucker˚uv rozklad (HOSVD) tenzoru ˇr´adu 3. Pˇrevzato z [11].

Poznamenejme, ˇze minimáln´ı rozmˇery Tuckerova jádra, tj. právˇe rozmˇery tenzoru S_T z (1.7) se nazývaj´ı (vektorová) hodnost tenzoru, pˇr´ıpadnˇe vektorový rank, viz [11, kap. 3]. Tuckerovo jádro v pˇr´ıpadˇe obecného tenzoru vˇsak na rozd´ıl od maticového pˇr´ıpadu nemá diagonáln´ı strukturu, ale je obecnˇe hustý tenzor.

Pro podrobnˇejˇs´ı pˇrehled o manipulaci s tenzory ve tvaru Tuckerova rozkladu nebo jeho vyuˇzit´ı k aproximaci tenzoru tenzorem niˇzˇs´ı hodnosti viz [26].

(20)

2 Grafy

V této kapitole se seznám´ıme se základn´ımi pojmy týkaj´ıc´ı se teorie graf˚u. Tyto poznatky budeme dále potˇrebovat v dalˇs´ıch kapitolách pro vysvˇetlen´ı tenzorových s´ıt´ı. Pˇri zavádˇen´ı pojm˚u vycház´ıme zejména z [16].

2.1 Z´ akladn´ı pojmy teorie graf˚ u

Grafy jsou prostˇredkem pro vyj´adˇren´ı nˇejak´e mnoˇziny bod˚u a vztah˚u mezi nimi.

Tyto body nazýváme vrcholy nebo uzly grafu a pˇr´ısluˇsné vztahy mezi nimi jsou vyjádˇrené spojnicemi, které nazýváme hrany grafu. Grafy lze definovat r˚uznˇe, nej- ˇcastˇeji se setkáváme s následuj´ıc´ımi definicemi:

Definice 5 (Orientovaný graf). Orientovaný graf G je uspoˇrádaná dvojice (V, H), kde V = {v1, v2, . . . , vn} je nˇejaká neprázdná mnoˇzina a

H ⊆ V × V ≡ {(v_i, v_j) ∶ i, j ∈ {1, . . . , n}} (2.1) je mnoˇzina uspoˇr´adan´ych dvojic mnoˇziny V .

Definice 6 (Neorientovaný graf). Neorientovaný graf G je opˇet uspoˇrádaná dvojice (V, H), kde V = {v₁, v₂, . . . , v_n} je nˇejaká neprázdná mnoˇzina, ale

H ⊆ (V

2) ≡ {{v_i, v_j} ∶ i, j ∈ {1, . . . , n}} (2.2) je mnoˇzina dvouprkvkov´ych podmnoˇzin mnoˇziny V .

Prvky mnoˇziny V se nazývaj´ı vrcholy grafu G (nˇekdy také uzly) a prvky mnoˇziny H hrany grafu G. Pˇr´ıklad neorientovaného i orientovaného grafu je na obrázku 2.1.

2.1.1 Volnˇ e vis´ıc´ı hrany, multi-hrany a smyˇ cky

My budeme dále pracovat pouze s neorientovanými grafy. Budeme ale potˇrebovat nav´ıc zavést:

W tzv. volnˇe vis´ıc´ı hrany (anglicky dangling edges, viz [19, str. 29]), tj. hrany, kter´e maj´ı pouze jeden vrchol;

W v´ıce hran mezi jednou dvojic´ı vrchol˚u, tzv. n´asobnost hran.

(21)

Obrázek 2.1: Orientovaný graf (vlevo), ˇsipkami je znázornˇena orientace hran; zat´ımco napˇr. (v₅, v₄) je hranou, (v₄, v₅) hranou nen´ı. Neorientovaný graf (vpravo); zde je hranou {v4, v5}.

Pro zaveden´ı obecné tenzorové s´ıtˇe nav´ıc bude vhodné uvaˇzovat grafy, které mohou obsahovat:

W hrany, kter´e zaˇc´ınaj´ı a konˇc´ı ve stejn´em vrcholu, tzv. smyˇcky.

Poznamenejme, ˇze definice5, na rozd´ıl od definice 6, existenci smyˇcek umoˇzˇnuje.

Tˇechto rozˇs´ıˇren´ı pojmu neorientovaného grafu m˚uˇzeme doc´ılit napˇr. následuj´ıc´ımi konstrukcemi: Mnoˇzinu V nahrad´ıme mnoˇzinou V ∪ {f } = {f, v₁, v₂, . . . , v_n}, tedy pˇridáme speciáln´ı vrchol f , pˇriˇcemˇz hrany typu {f, v_i}budeme nazývat volnˇe vis´ıc´ı hrany (pozdˇeji budou odpov´ıdat tzv. fyzickým index˚um tenzoru). Násobnost vyˇre- ˇs´ıme zaveden´ım tzv. multigrafu, viz [16, str. 139]. Smyˇcky jsou neorientované hrany s obˇema konci ve stejném vrcholu; formálnˇe je m˚uˇzeme povaˇzovat za prvky mnoˇziny jednoprvkových podmnoˇzin mnoˇziny V , tj. mnoˇziny

(V

1) ≡ {{v_i}, i ∈ {1, . . . , n}}.

Vˇsechna tato rozˇs´ıˇren´ı shrneme v n´asleduj´ıc´ı definici.

Definice 7 (Neorientovan´y multigraf s volnˇe vis´ıc´ımi hranami a smyˇckami). Uspo- ˇr´adanou dvojici G = (V ∪ {f }, µ), kde V = {v₁, v₂, . . . v_n} a

µ ∶ (V ∪ {f } 2 ) ∪ (

V

1) Ð→N0,

budeme naz´yvat neorientovan´y multigraf s volnˇe vis´ıc´ımi hranami a smyˇckami.

Prvky mnoˇziny V nazýváme vrcholy a prvek f nazýváme volný vrchol. Prvky mnoˇziny (^V^∪{f}₂ ) ∪ (^V₁) nazýváme hranami, pˇriˇcemˇz prvky typu {vi, vj} jsou hrany v klasickém slova smyslu, prvky typu {f, v_i} jsou volnˇe vis´ıc´ı hrany a prvky typu {v_i} jsou smyˇcky.

Zobrazen´ı m pˇriˇrad´ı kaˇzd´e hranˇe h` ∈ (^V^∪{f}

2 ) ∪ (^V₁) násobnost µ(h`). Pokud je násobnost hrany µ(h_`) = 0, hrana nen´ı v grafu pˇr´ıtomna; µ(h_`) = 1 znamená, ˇze hrana je jednoduchá; µ(h_`) >1 znamená násobnou hran, tzv. multi-hranu.

V následuj´ıc´ım textu budeme slovem graf témˇeˇr výhradnˇe rozumˇet právˇe neori- entovaný multigraf s volnˇe vis´ıc´ımi hranami a smyˇckami.

(22)

2.1.2 Stupeˇ n vrcholu

Mˇejme graf G, který obsahuje vrchol v. Poˇcet hran, ve kterých je pˇr´ıtomen vrcholu v, nazýváme stupeˇn vrcholu v v grafu G. Toto ˇc´ıslo oznaˇcujeme deg(v), viz [16]. Vrcholy grafu, které maj´ı stupeˇn 0 se nazývaj´ı izolované. Stupˇeˇn vrcholu závis´ı na typech vrchol˚u a násobnostech hran. Stupeˇn vrcholu vi m˚uˇzeme vyjádˇrit jako následuj´ıc´ı souˇcet:

deg(v_i) =

n

∑

j=1 j≠i

µ({v_i, v_j}) +µ({v_i, f }) + 2µ({v_i}), (2.3)

kde sˇc´ıtáme poˇcty klasických, volnˇe vis´ıc´ıch hran a smyˇcek, které vedou z daného vrcholu, zat´ımco stupeˇn vrcholu f je dán následuj´ıc´ı rovnost´ı

deg(f ) =

n

∑

j

µ({v_j, f }), (2.4)

kde sˇc´ıtáme pouze volnˇe vis´ıc´ı hrany. Poznamenejme, ˇze smyˇcka z vrcholu f nen´ı pˇr´ıpustná. Pojem stupeˇn vrcholu ilustruje obrázek 2.2.

Obr´azek 2.2: Graf se ˇctyˇrmi vrcholy v₁, v₂, v₃ a f ; zde deg(v_j) = 1, 6, 3, postupnˇe pro j = 1, 2, 3, a deg(f ) = 2.

2.1.3 Cesta a kruˇ znice, souvisl´ y graf a strom

Nyn´ı vysvˇetl´ıme nˇekolik pojm˚u, které se ˇcasto vyskytuj´ı pˇri práci s grafy a i my je v této práci budemem pouˇz´ıvat.

Cesta (délky `) z vrcholu v_i do vrcholu v_j je libovolná posloupnost hran násob- nosti alespoˇn jedna

P (vi, vj) = {{vi, vi1}, {vi1, vi2}, . . . , {vi_`−1, vj}}.

Poznamenejme, ˇze námi zavedená cesta nem˚uˇze obsahovat smyˇcky, tj. hrany typu {v_i_t}. Pˇr´ıklad cesty je znázornˇen na obrázku2.3 vlevo. Kruˇznice je cesta (vˇzdy délky alespoˇn 2) z vrcholu v_i do vcholu v_i, viz obrázek 2.3 uprostˇred a vpravo. Graf nazveme souvislý právˇe tehdy, kdyˇz existuje cesta mezi kaˇzdými dvˇema vrcholy vi, vj; graf, který nen´ı souvisý nazveme nesouvislý, viz obázek 2.4 vlevo a uprostˇred. Po- znamenejme, ˇze kaˇzdý souvislý podgraf (pˇresnˇeji ˇreˇceno indukovaný podgraf, viz [16, str. 122]), ke kterému nelze pˇridat ˇzádný dalˇs´ı vrchol daného grafu tak, aby

(23)

Obr´azek 2.3: Pˇr´ıklady graf˚u, kde modrou pˇreruˇsovanou ˇcarou je zn´azornˇena cesta (vlevo) a kruˇznice (uprostˇred a vpravo).

Obrázek 2.4: Pˇr´ıklad nesouvislého grafu (vlevo), souvislého grafu (uprostˇred) a stromu (vpravo).

z˚ustal souvislý se nazývá (maximáln´ı souvislá) komponenta. Jakkoliv obecnou definici grafu (resp. multigrafu s volnˇe vis´ıc´ımi hranami a smyˇckami) jsme zavedli a pro práci s obecnými tenzorovými s´ıtˇemi je budeme potˇrebovat (viz kap. 3.4, v mnoha praktických pˇr´ıpadech vystaˇc´ıme s grafy mnohem jednoduˇsˇs´ımi, tzv. stromy. Stro- mem nazýváme souvislý graf, který neobsahuje kruˇznice, smyˇcky, ani násobné hrany.

Pˇr´ıklad stromu je na obr´azku2.4 vpravo.

2.1.4 Bin´ arn´ı strom

Dále bude uˇziteˇcné definovat pojem binárn´ı strom. Binárn´ı strom je speciáln´ım typem stromu, který se skládá z jednoho význaˇcného vrcholu (zvaného koˇren) a z uspoˇrádané dvojice binárn´ıch strom˚u – levého a pravého podstromu, viz [16, str. 360]. Pro nás bude binárn´ı strom znamenat takový graf, pro který plat´ı:

W pr´avˇe jeden vnitˇrn´ı vrchol (pˇresnˇeji ˇreˇceno vrchol nemaj´ıc´ı volnˇe vis´ıc´ı hrany) m´a stupeˇn 2, tento vrchol je tzv. koˇren;

W ostatn´ı vnitˇrn´ı vrcholy maj´ı stupeˇn 3;

W a dalˇs´ı vrcholy, kter´e maj´ı volnˇe vis´ıc´ı hrany, maj´ı stupeˇn 2.

Pˇr´ıklady bin´arn´ıch strom˚u jsou uvedeny na obr´azku2.5.

2.1.5 N´ asobn´ e hrany a jejich jednotliv´ e vˇ etve

V pˇr´ıpadˇe, ˇze budeme cht´ıt jednotliv´e ˇc´asti, tzv. vˇetve, multihrany h_` ∈ (

V ∪ {f } 2 ) ∪ (

V 1)

(24)

Obrázek 2.5: Grafy r˚uzných binárn´ıch strom˚u. Tyto stromy udeme nazývat (zleva):

ideálnˇe vyváˇzený binárn´ı strom, ˇcásteˇcnˇe (ne)vyváˇzený binárn´ı strom, maximálnˇe nevyváˇzený binárn´ı strom.

takové, ˇze µ(h_`) = m_h_` > 1, rozliˇsit, budeme pˇredpokládat, ˇze máme jejich jedno- znaˇcnˇe dané poˇrad´ı, tj. ohodnocen´ı ˇc´ısly 1, 2, . . . , m_h_`; m˚uˇzeme je znaˇcit

h⁽¹⁾_` , h⁽²⁾_` , . . . , h^(m_` ^h`⁾.

Ohodnocen´ı nebudeme formálnˇeji zavádˇet, pro naˇsi potˇrebu je postaˇcuj´ıc´ı vˇedˇet, ˇze je jednoznaˇcné.

2.2 Faktorov´ y graf

Protoˇze pomoc´ı graf˚u budeme pozdˇeji znázorˇnovat tenzory a speciálnˇe také souˇciny tenzor˚u, tedy operace, pˇri kterých napˇr. ze dvou tenzor˚u vzniká tenzor nový, budeme potˇrebovat tyto operace nˇeakým zp˚usobem pˇrevést do jazyka graf˚u. K tomu poslouˇz´ı konstrukce, kterou nazýváme faktorový graf.

Uvaˇzujme graf G s mnoˇzinou vrchol˚u V = {v₁, . . . , v_n}. Rozdˇel´ıme mnoˇzinu V na k disjunktn´ıch podmnoˇzin, tj.

V = V₁∪ ⋯ ∪V_k a z´aroveˇn V_i∩V_j = ∅, i = 1, . . . , k, j = 1 . . . , k, i ≠ j.

Budeme-li mnoˇziny V₁, . . . , V_k nyn´ı povaˇzovat za vrcholy grafu ̃G, plat´ı pro tyto vrcholy

deg(V_i) =

⎛

⎝

∑

v`∈Vi

deg(v_`)

⎞

⎠

−2 ⋅⎛

⎝

∑

h_`∈(^Vi₂)∪(^Vi₁)

µ(h_`)

⎞

⎠ ,

kde v_` jsou vrcholy uvnitˇr mnoˇziny V_i a h_` jsou hrany, které inciduj´ı pouze s vrcholy uvnitˇr mnoˇziny V_i. Takový graf budeme nazývat faktorovým grafem. Na obrázku 2.6 je zobrazen pˇr´ıklad takto vzniklého grafu.

(25)

Obrázek 2.6: Pˇr´ıklad faktorového grafu. P˚uvodn´ı graf se ˇctyˇrmi vrcholy v₁, . . . , v₄ (vlevo), kde je naznaˇceno, jak vznikne faktorový graf s vrcholy V1 a V2 (vpravo).

(26)

3 Tenzor jako graf

V této kapitole vyuˇzijeme pojm˚u zavedených v pˇredchoz´ı kapitole a vysvˇetl´ıme, jak je moˇzné znázornit tenzory v podobˇe graf˚u. Uvid´ıme, ˇze je to uˇziteˇcné zejména pro znázornˇen´ı souˇcin˚u tenzor˚u nebo tenzorových rozklad˚u.

3.1 Tenzor jako graf

Mˇejme tenzor (1.1), tj.

T = (t_i₁_,i₂_,...,i_k) ∈Rⁿ¹^×n²^×⋯×n^k.

Budeme cht´ıt tento tenzor reprezentovat jako multigraf s volnˇe vis´ıc´ımi hranami a smyˇckami (dále jen graf), který má jediný vrchol T (zámˇernˇe budeme tenzory a jim odpov´ıdaj´ıc´ı vrcholy grafu znaˇcit stejnˇe) a k volnˇe vis´ıc´ıch hran – pˇresnˇeji ˇreˇceno jedinou volnˇe vis´ıc´ı multi-hranu h = {T , f } s násobnost´ı µ(h) = k.

Jednotliv´e vˇetve multi-hrany h⁽¹⁾, h⁽²⁾, . . . , h^(k) odpov´ıdaj´ı index˚um i₁, i₂, . . . , i_k tenzoru T . V dalˇs´ım textu o nich budeme mluvit jako o fyzick´ych indexech, resp.

hran´ach (resp. vˇetv´ıch multi-hrany), viz obr´azek 3.1.

Obrázek 3.1: Grafy odpov´ıdaj´ıc´ı tenzor˚um r˚uzných ˇrád˚u (zleva): skalár (tenzor nultého ˇrádu), vektor (tenzor prvn´ıho ˇrádu), matice (tenzor druhého ˇrádu), tenzor tˇret´ıho, ˇctvrtého a osmého ˇrádu.

3.2 Tenzorov´ y souˇ cin

Nyn´ı se zamˇeˇr´ıme na znázornˇen´ı r˚uzných tenzorových interakc´ı v podobˇe grafu.

Klasické hrany spojuj´ıc´ı dva vrcholy, tj. dva tenzory, budou pˇredstavovat souˇcin tˇechto tenzor˚u v pˇr´ısluˇsných módech, viz [19, str. 29].

Zamˇeˇr´ıme se nejprve na souˇciny, které dobˇre známe z lineárn´ı algebry. Pˇr´ıklady operac´ı s vektory a maticemi, tj. tenzory prvn´ıho a druhého ˇrádu, jsou zobrazeny

(27)

Obrázek 3.2: Znázornˇen´ı souˇcin˚u vektor˚u a matic (zleva): skalárn´ı souˇcin dvou vektor˚u, vektor ve tvaru souˇcinu matice s vektorem, matice ve tvaru souˇcinu dvou matic, matice ve tvaru souˇcinu tˇr´ı matic. Jednotlivé oválné slupky jsou de-facto jednotlivé faktorové grafy.

na obrázku 3.2. Máme-li dva tenzory T a S, potom, abychom mohli provést jejich souˇcin (1.3), tj.

F = T ×_(p,q)S ≡

⎛

⎝

µ

∑

α=1

t_i₁_,...,i_p−1_,α,i_p+1_...,i_k⋅s_j₁_,...,j_q−1_,α,j_q+1_...,j_`⎞

⎠

∈Rⁿ¹^×⋯×n^p−1^×n^p+1^×⋯×n^k^×m¹^×⋯×m^q−1^×m^q+1^×⋯×m^`,

mus´ı existovat indexy i_p v tenzoru T a j_q v tenzoru S nabývaj´ıc´ı stejného roz- sahu hodnot 1, . . . , µ. Znázornˇen´ı souˇcinu tenzor˚u v podobˇe grafu je ilustrováno na obrázku3.3.

Obrázek 3.3: Princip zápisu tenzorového souˇcinu (úˇzen´ı) dvou tenzor˚u ˇrád˚u osm a ˇsest. Volnˇe vis´ıc´ı hrany dvou tenzor˚u, které odpov´ıdaj´ı mód˚um i_p a i_q stejných rozmˇer˚u a ve kterých prob´ıhá násoben´ı, jsou nahrazeny hranou spojuj´ıc´ı oba tenzory (v terminologii graf˚u jde o tzv. kontrakci hrany). ˇSedý ovál pˇredstavuje výsledný souˇcin – tenzor ˇrádu 8 + 6 − 2 = 12.

Uvˇedomme si, ˇze souˇcin tenzoru a matice v `-tém módu a souˇcin dvou tenzor˚u v daných módech, viz kap. 1, jsou definovány témˇeˇr stejnˇe aˇz na permutaci index˚u (analogii transpozice matice). Srovnej napˇr.

T ×_`M ∈ Rⁿ¹^×⋯×n^`−1^×m×n^`+1^×⋯×n^k a T ×_(`,2)M ∈ Rⁿ¹^×⋯×n^`−1^×n^`+1^×⋯×n^k^×m, viz (1.2), (1.3) a také [26, kap. 2.2 a 2.6]. Pˇri zápisu v podobˇe grafu toto odpov´ıdá pouze pˇreˇc´ıslován´ı vˇetv´ı volnˇe vis´ıc´ı multihrany souˇcinu.

(28)

3.3 Dalˇ s´ı objekty line´ arn´ı algebry interpretovateln´ e jako tenzorov´ e souˇ ciny

Poznamenejme, ˇze kromˇe standardn´ıch maticových souˇcin˚u lze t´ımto zp˚usobem vyjádˇrit i ˇradu dalˇs´ıch objekt˚u bˇeˇznˇe uˇz´ıvaných v lineárn´ı algebˇre, které ovˇsem vˇetˇsinou jako souˇciny nevykládáme.

3.3.1 Stopa matice

Stopa ˇctvercové matice A ∈ Rⁿ^×n je v lineárn´ı algebˇre definována jako souˇcet dia- gonáln´ıch prvk˚u, tj.

trace(A) =

n

∑

i=1

a_i,i.

Vyuˇzijeme-li graf, lze stopu matice interpretovat jako souˇcin ˇctvercov´e matice sama se sebou, viz obr´azek3.4.

3.3.2 Skal´ arn´ı souˇ cin na prostoru matic

Podobnˇe i skal´arn´ı souˇcin dvou matic A, B ∈ Rⁿ^×m definovan´y jako

⟨A, B⟩ = (vec(A))^T ⋅ (vec(B)) =

n

∑

i=1 m

∑

j=1

a_i,j⋅b_i,j lze zn´azornit pomoc´ı grafu, viz opˇet obr´azek3.4.

Podobným zp˚usobem lze zavést také napˇr. následuj´ıc´ı

”nestandardn´ı souˇcin“ tˇr´ı (ˇci v´ıce) matic, jejichˇz v´ysledkem je skal´ar. Pro

A ∈ Rⁿ^×m, B ∈ R^m^×o, C ∈ R^o^×n definujme souˇcin

n

∑

i=1 m

∑

j=1 o

∑

k=1

a_i,j⋅b_j,k⋅c_k,i. Tento souˇcin je ilustrov´an na obr´azku3.4 jako tˇret´ı zleva.

3.3.3 M´ enˇ e obvykl´ e objekty

Posledn´ım pˇr´ıkladem, který uvád´ıme na obrázku 3.4, je vektor vzniklý z tenzoru tˇret´ıho ˇrádu A ∈ Rⁿ^×m×m. Jednotlivé prvky tenzoru A oznaˇc´ıme a_i,j,k a ˇrezy v prvn´ım módu a_1,_∶,∶, a_2,_∶,∶, . . . , a_n,_∶,∶∈R¹^×m×m, tzv. horizontántáln´ıˇrezy, viz [11] a [26, kap. 2.1.2, obr. 2.2]. Potom definujme vektor v po sloˇzkách tak, ˇze

v_i=

m

∑

j=1

a_i,j,j.

Tedy i-tá sloˇzka vektoru v je stopou matice, která je triviálnˇe izomorfn´ı s i-tým ˇrezem tenzoru A v prvn´ım módu (horizontáln´ım ˇrezem) a_i,_∶,∶.

Je zˇrejmé, ˇze pokud rozum´ıme graf˚um, lze názorným zp˚usobem zapsat nejr˚uznˇejˇs´ı objekty. Moˇznosti vˇsak nejsou neomezené, pokud bychom napˇr. chtˇeli vyjádˇrit

”troj- rozmˇernou stopu kubického tenzoru“ tˇret´ıho ˇrádu A ∈ R^n×n×n, tj. souˇcet prvk˚u na tˇelesové úhlopˇr´ıˇcce ∑ⁿ_i₌₁ai,i,i, potˇrebovali bychom k tomu

”hranu se tˇremi konci“.

(29)

Obrázek 3.4: Ménˇe obvyklé typy souˇcin˚u (zleva): stopa matice (viz kap. 3.3.1;

skalárn´ı souˇcin dvou matic viz kap. 3.3.2; zvláˇstn´ı souˇcin tˇr´ı matic a vektor, jehoˇz sloˇzky jsou stopy matic – ˇrez˚u tenzoru tˇret´ıho ˇrádu (viz kap 3.3.3).

3.4 Obecn´ e tenzorov´ e s´ıtˇ e

V pˇredchoz´ım textu jsme vysvˇelili, jak lze interpretvat graf jako tenzor. Nyn´ı budeme cht´ıt postupovat opaˇcnˇe. Budeme m´ıt daný tenzor a danou strukturu s´ıtˇe (graf), pˇr´ıpadnˇe i nˇekteré dalˇs´ı vlastnosti, a naˇs´ım úkolem bude naj´ıt faktory tohoto tenzoru, tj. vrcholy grafu (s´ıtˇe). Grafu, který pˇredstavuje nˇejaký tenzor jako výsledek souˇcin˚u jiných tenzor˚u, ˇr´ıkáme tenzorová s´ıt’.

Tenzorovou s´ıt’ lze proto pouˇz´ıt k zápisu r˚uzných tenzorových rozklad˚u, které maj´ı právˇe podobu souˇcin˚u. V dalˇs´ıch kapitolách tohoto textu se s nˇekterými z nich seznám´ıme podrobnˇeji.

Pro znázornˇen´ı tenzorové s´ıtˇe se pouˇz´ıvá i zvláˇstn´ı terminologie k rozliˇsen´ı hran r˚uzných typ˚u. Hrany klasického typu, tj. typu {v_i, v_j}, v tenzorové s´ıti nazýváme sˇc´ıtac´ı indexy, pˇr´ıpadnˇe vnitˇrn´ı nebo virtuáln´ı indexy; volnˇe vis´ıc´ı hrany, tj. hrany typu {v_i, f }, se nazývaj´ı fyzické (pˇr´ıp. vnˇejˇs´ı) indexy a jejich poˇcet udává ˇrád celého tenzoru.

Na obrázku3.5 m˚uˇzeme porovnat znázornˇen´ı jednoduchého tenzoru tˇret´ıho ˇrádu a tenzorové s´ıtˇe – tenzoru tˇret´ıho ˇrádu ve tvaru souˇcinu tenzoru tˇret´ıho ˇrádu s matic´ı. Ve stejném obrázku dále ilustrujeme Tucker˚uv rozklad tenzoru ˇsestého ˇrádu.

Pˇripomˇeˇnme, ˇze abychom mohli takovouto s´ıt’ nazvat Tuckerovým rozkladem, pˇred- pokládáme kromˇe dané struktury také vlastnost, ˇze matice v této s´ıti maj´ı orto- normáln´ı sloupce, viz kap. 1.1.

Obrázek 3.5: Znázornˇen´ı tenzor˚u vyˇsˇs´ıch ˇrád˚u ve formˇe grafu (zleva): tenzor tˇret´ıho ˇrádu, tenzor tˇret´ıho ˇrádu ve tvaru souˇcinu tenzoru tˇret´ıho ˇrádu s matic´ı, tenzor ˇsestého ˇrádu ve tvaru Tuckerova rozkladu.

V principu, máme-li daný tenzor a pˇredepsaný graf (tenzorovou s´ıt’), m˚uˇzeme se pokusit vyjádˇrit tento tenzor v podobˇe rozkladu, který v grafickém znázornˇen´ı má právˇe podobu pˇredepsaného grafu. Pro pˇresnˇejˇs´ı pˇredstavu poslouˇz´ı pˇr´ıklad 1.

U skuteˇcných úloh samozˇrejmˇe s´ıt’ nepˇredepisujeme zcela svévolnˇe. Zpravidla se

(30)

snaˇz´ıme tenzor poskládat z objekt˚u, které maj´ı nˇejaký, napˇr. fyzikáln´ı, význam, viz [13] nebo [18], který nav´ıc umoˇzˇnuje pˇredepsat strukturu (napˇr. symetrii, nebo hodnosti) tˇechto objekt˚u (napˇr. symetrická matice, nebo symetrické ˇrezy v daném módu, toeplitzovská matice, matice hodnosti nejvýˇse r, atp.).

Pˇr´ıklad 1. Pro daný tenzor T chceme naj´ıt tenzory A, B, C, D, E , F , G tak, aby tvoˇrily s´ıt’ tenzoru T , takovou jako je na obrázku 3.6. Tato s´ıt’ odpov´ıdá souˇcinu definovanému vztahem:

T ≈ (t_i₁_,i₂_,i₃_,i₄_,i₅_,i₆_,i₇_,i₈) (3.1)

= ( ∑

α1,...,α9

ai1,i2,α1⋅bi3,α1,α2α3 ⋅cα2,α9,α9,α4,α5⋅dα4,α6⋅eα5,α6,i4,i5⋅fα3,α7,α8 ⋅gα7,α8,i6).

Obrázek 3.6: Rozklad tenzoru T ˇsestého ˇrádu do (resp. aproximace pomoc´ı) tenzo- rové s´ıtˇe tvoˇrené tenzory A, B, C, D, E , F a G niˇzˇs´ıch ˇrád˚u; viz pˇr´ıklad 1.

3.5 Speci´ aln´ı tenzorov´ e s´ıtˇ e

Obecnˇe je motivac´ı pro konstrukci tenzorových s´ıt´ı zejména umoˇznit práci s roz- sáhlými v´ıcerozmˇernými daty. Napˇr´ıklad tenzor T ∈ R²^×2×⋯×2 ˇrádu 100 obsahuje 2¹⁰⁰≈1.2676506 × 10³⁰ prvk˚u, coˇz zˇrejmˇe nelze uloˇzit do pamˇeti poˇc´ıtaˇce.¹ Nav´ıc zde ani pˇr´ıpadná komprese, napˇr. pomoc´ı klasického Tuckerova rozkladu (viz [26, kap.

4], [19, str. 20], a [3, str. 1267]), nepom˚uˇze. Dalˇs´ı motivac´ı m˚uˇze být snaha pomoc´ı tenzorových s´ıt´ı zpˇrehlednit mnohorozmˇerná data, viz zejména [18]. Naˇs´ım c´ılem tedy bude naj´ıt takové s´ıtˇe, které umoˇzn´ı

W sn´ıˇzit pamˇet’ové nároky (tj. budeme cht´ıt naj´ıt rozklad do s´ıtˇe s co nejménˇe tenzory co nejniˇzˇs´ıch ˇrád˚u);

1Uvaˇzujeme-li, ˇze na uloˇzen´ı jednoho ˇc´ısla napˇr. v pˇresnosti double potˇrebujeme 8 byt˚u, pak 2¹⁰⁰=2⁶⁰⋅2⁴⁰ a na uloˇzen´ı 2⁴⁰=1024⁴ˇc´ısel potˇrebujeme 8 terabyt˚u.

(31)

W snadno dále manipulovat s tenzory ve tvaru s´ıtˇe (tj. hledáme topologicky jed- noduché s´ıtˇe).

Tyto poˇzadavky vedou k tenzorové s´ıti ve tvaru binárn´ıho stromu. Nejˇcastˇeji pou- ˇz´ıvané jsou: hierarchický Tucker˚uv rozklad (HTD; z anglického hierarchical Tucker decomposition), viz napˇr. [19, kap. 3] nebo [7], tensor train (TT), viz [17], a dalˇs´ı, viz také obrázek 3.7. V ideáln´ım pˇr´ıpadˇe hierarchický Tucker˚uv rozklad dostáváme ve tvaru vyváˇzeného binárn´ıho stromu. Obecnˇe se snaˇz´ıme dostat strom, který nen´ı pˇr´ıliˇs nevyváˇzený. Pˇr´ıpadná nevyváˇzenost m˚uˇze být zp˚usobena:

W ˇr´adem tenzoru (je-li r˚uzn´y od k = 2^ς);

W praktickými d˚uvody (významem komponent – tj. kdyˇz fyzické indexy odpov´ıdaj´ı urˇcitému jevu, napˇr. tepelné vodivosti jako v [13, kap. 4.1]).

Obrázek 3.7: Pˇr´ıklady tenzorových s´ıt´ı odpov´ıdaj´ıc´ı tenzoru ˇsestého ˇrádu (zleva):

hierarchický Tucker˚uv rozklad tenzoru (HTD) – s´ıt’ ve tvaru ne zcela vyváˇzeného binárn´ıho stromu, tensor train (TT) – maximálnˇe nevyváˇzený binárn´ı strom a tzv.

tensor chain (TC), viz [9, str. 5]. Ten z pˇredchoz´ıho rozkladu vzniká pˇridán´ım je- diné hrany; na rozd´ıl od obou pˇredchoz´ıch obsahuje kruˇznici a je tedy výpoˇcetnˇe nároˇcnˇejˇs´ı na konstrukci. Pokud se budeme na vnitˇrn´ı tmavˇs´ı blok d´ıvat jako na jediný tenzor, vˇsechny tˇri obrázky mohou pˇredstavovat obyˇcejný Tucker˚uv rozklad.

(32)

4 Hierarchick´ y Tucker˚ uv rozklad (HTD)

Jedn´ım z rozklad˚u, jehoˇz struktura je znázorˇnována ve tvaru tenzorové s´ıtˇe, je hi- erarchický Tucker˚uv rozklad. Klasický Tucker˚uv rozklad, který jsme jiˇz pˇripomnˇeli v kapitole 1, umoˇzˇnuje vyjádˇren´ı tenzoru ˇrádu k ve tvaru souˇcinu tenzoru (jehoˇz rozmˇery jsou omezené vektorovým rankem p˚uvodn´ıho tenzoru) ˇrádu k, tzv. jádra tenzoru, s k maticemi. Hierarchický Tucker˚uv rozklad (HTD z anglického hierarchical Tucker decomposition) spoˇc´ıvá nav´ıc v rozloˇzen´ı Tuckerova jádra daného tenzoru do tvaru souˇcinu jednoduˇsˇs´ıch tenzor˚u. Takový rozklad m˚uˇzeme reprezentovat tenzorovou s´ıt´ı (pˇredem dané struktury). V této kapitole vysvˇetl´ıme základn´ı princip vytvoˇren´ı hierarchického Tuckerova rozkladu a t´ım zároveˇn ovˇeˇr´ıme jeho existenci.

4.1 Struktura HTD

V této ˇcásti si ukáˇzeme, jakým zp˚usobem lze tenzor transformovat do potˇrebné struktury dané tenzorvou s´ıt´ı, která bude m´ıt podobu binárn´ıho stromu, jako napˇr.

na obr´azku 3.7 vlevo. Uvaˇzujme tedy tenzor (1.1) ˇr´adu k

T = (t_i₁_,i₂_,...,i_k) ∈Rⁿ¹^×n²^×⋯×n^k. (4.1) Nultým krokem m˚uˇze být klasický Tucker˚uv rozklad, pˇriˇcemˇz HTD se provede pro Tuckerovo jádro. My zde HTD vyloˇz´ıme pro obecný tenzor (ne nezbytnˇe Tuckerovo jádro).

4.1.1 Nalezen´ı tenzoru druh´ eho ˇ r´ adu – koˇ rene bin´ arn´ıho stromu

Nyn´ı budeme hledat rozklad tenzoru do s´ıtˇe pˇredepsaného tvaru. Konkrétnˇe budeme cht´ıt dosáhnout co nejv´ıce vyváˇzeného stromu. Z kapitoly2.1.4v´ıme, ˇze kromˇe vrchol˚u s volnˇe vis´ıc´ımi hranami obsahuje binárn´ı strom vrcholy stupˇn˚u 3 a jeden vrchol (koˇren) stupnˇe 2. D˚uleˇzitými nástroji pro nalezen´ı takového binárn´ıho stromu dále budou:

W rozvoj tenzoru v matici (viz definici 3),

W singul´arn´ı rozklad matice (viz napˇr. [4, kap. 5]).

Tenzorovou s´ıt’ konkrétn´ıho tvaru z´ıskáme tak, ˇze kaˇzdá hrana tenzorové s´ıtˇe bude pˇredstavovat rozvoj tenzoru v módech odpov´ıdaj´ıch rozdˇelen´ı mnoˇziny index˚u tenzoru. V naˇsem pˇr´ıpadˇe, kdy chceme z´ıskat vyváˇzený binárn´ı strom pro jádro tenzoru

(33)

(4.1), rozdˇel´ıme mnoˇzinu jeho index˚u

{1, 2, . . . , k}

do dvou disjunktn´ıch podmnoˇzin

{1, . . . , s} a {s + 1, . . . , k},

pro nˇejak´e s, 1 ≤ s < k. Potom lze vytvoˇrit rovoj tenzoru v matici podle prvn´ı podmnoˇziny, tj.

T^{1,...,s}∈R^N^L^×N^R, kde N_L=n₁⋅n₂⋅ ⋯ ⋅n_s, N_R=n_s₊₁⋅n_s₊₂⋅ ⋯ ⋅n_k. Uvaˇzujme ekonomický tvar singulárn´ıho rozkladu této matice

T^{1,...,s}=U_(1−s)Σ_(1−s)(V_(1−s))^T, (4.2) kde

U_(1−s) ∈R^N^L^×r^(1−s), Σ_(1−s)∈R^r^(1−s)^×r^(1−s), V_(1−s)∈R^N^R^×r^(1−s), (4.3) pˇriˇcemˇz

r_(1−s)=rank (T^{1,...,s}). (4.4)

T´ımto jsme dosáhli prvn´ıho kroku pˇri hledán´ı HTD, jelikoˇz máme tenzor ˇrádu 2, matici Σ_(1−s), která je koˇrenem hledaného binárn´ıho stromu, viz obrázek 3.7 vlevo.

4.1.2 Vˇ etven´ı bin´ arn´ıho stromu pomoc´ı tenzor˚ u tˇ ret´ıho ˇ r´ adu

Z obrázku je dále patrné, ˇze s´ıt’ HTD obsahuje také velké mnoˇzstv´ı tenzor˚u tˇret´ıho ˇrádu, které budeme hledat ve smˇeru k list˚um, tak jak naznaˇcuje obrázek4.1.

Pro jejich nalezen´ı vyuˇzijeme d˚uleˇzitou vlastnost, kterou pozdˇeji zobecn´ıme ve vˇetˇe 1. Uvaˇzujme m takové, ˇze 1 ≤ m < s. Uvaˇzujme dále matice U_(1−m) a U_((m+1)−s) levých singulárn´ıch vektor˚u z´ıskané z ekonomických singulárn´ıch rozklad˚u rozvoj˚u T^{1,...,m} a T{m+1,...,s} podobnˇe jako ve (4.2)–(4.4). Pro obor hodnot matice U_(1−s) plat´ı

R(U_(1−s)) ⊆ R (U_((m+1)−s)⊗U_(1−m)), (4.5) neboli kaˇzdý sloupec matice U_(1−s) lze zapsat jako lineárn´ı kombinaci sloupc˚u Kro- neckerova souˇcinu matic U_(1−m) a U_((m+1)−s). Tedy existuje matice B taková, ˇze

U_(1−s) = (U_((m+1)−s)⊗U_(1−m)) ⋅B_(1−s), B_(1−s)∈R^(r^(1−m)^{⋅ r}^((m+1)−s)^)×r^(1−s); (4.6) sloupce matice B_(1−s) obsahuj´ı koeficienty výˇse zm´ınˇených lineárn´ıch kombinac´ı.

Tuto matici je moˇzné chápat jako rovoj tenzoru tˇret´ıho ˇrádu B tak, ˇze B_(1−s)= B^{1,2}

(1−s), kde B_(1−s)∈R^r^(1−m)^×r^((m+1)−s)^×r^(1−s). (4.7) Analogickým postupem budeme dál pracovat s maticemi U_(1−m) a U_((m+1)−s), ˇc´ımˇz se postupnˇe rozvˇetvuje binárn´ı strom a z´ıskáváme tak dalˇs´ı faktory – tenzory tˇret´ıho ˇrádu – tenzorové s´ıtˇe, viz obrázek 4.2. S matic´ı V_(1−s) naloˇz´ıme podobnˇe, staˇc´ı si uvˇedomit, ˇze plat´ı

V_(1−s)≡U_((s+1)−k), nebot’ (T^{1,...,s})^T = T{s+1,...,k}. (4.8) Uvˇedomme si, ˇze podobu tenzorové s´ıtˇe (vˇetven´ı binárn´ıho stromu) urˇcuje vˇzdy rozdˇelen´ı mnoˇziny index˚u a tomu odpov´ıdaj´ıc´ı rozvoje v jednotlivých kroc´ıch.

(34)

Obrázek 4.1: Znázornˇen´ı vˇetven´ı binárn´ıho stromu – tenzorové s´ıtˇe pˇri hierarchickém Tuckerovˇe rozkladu.

4.1.3 Listy stromu – tenzory druh´ eho ˇ r´ adu

Zp˚usobem popsan´ym v pˇredchoz´ı ˇc´asti se postupnˇe dostaneme aˇz k mnoˇzinˇe matic U₍₁₎, U₍₂₎, . . . , U_(k), U_(`) ∈Rⁿ^`^×r^(`), ` = 1, . . . , k.

Pˇripomeˇnme, ˇze pro hodnoty r_` z klasického Tuckerova rozkladu a hodnosti r_(`), které z´ıskáváme pˇri hierarchickém Tuckerovˇe rozkladu plat´ı

r_`=r_(`)=rank(T^{`}),

jelikoˇz hodnosti Tuckerova jádra jsou dány jednoznaˇcnˇe. Dále také zˇrejmˇe plat´ı R(U_`^′) = R(U_(`)).

4.1.4 Pˇ r´ıklad rozkladu tenzoru osm´ eho ˇ r´ adu

Pˇr´ıklad 2. V tomto pˇr´ıkladu postupnˇe pouˇzijeme vztah (4.6) k ilustraci postupu pˇri HTD tenzoru T ˇrádu k = 8 = 2³, viz také obrázek 4.2. Zˇrejmˇe plat´ı

vec(T ) = T^{1,...,8} = (U₍₅₋₈₎⊗U₍₁₋₄₎) ⋅B₍₁₋₈₎, kde B₍₁₋₈₎=vec(Σ₍₁₋₄₎) a U₍₅₋₈₎=V₍₁₋₄₎, viz (4.2) a (4.8), a kde

U₍₁₋₄₎ = (U₍₃₋₄₎⊗U₍₁₋₂₎) ⋅B₍₁₋₄₎, U₍₅₋₈₎ = (U₍₇₋₈₎⊗U₍₅₋₆₎) ⋅B₍₅₋₈₎,