Datov´ a ´ uloˇ ziˇstˇ e - Souˇ casn´ y stav

1.2 Souˇ casn´ y stav

1.2.2 Datov´ a ´ uloˇ ziˇstˇ e

Pravdˇepodobnˇe nejjednoduˇsˇs´ım zp˚usobem ukládán´ı dat v poˇc´ıtaˇc´ıch je stále uloˇzen´ı do souboru. K tomu nen´ı zapotˇreb´ı ˇzádný speciáln´ı SW, pouze textový nebo binárn´ı soubor. Nen´ı potˇreba ˇzádné speciáln´ı pˇripojen´ı, staˇc´ı m´ıt pˇr´ıstup k souboru a práva zapisovat do nˇej. Nevýhodou se stává nekonzistence dat souboru a jeho následné pro-hledáván´ı. Pˇri zvˇetˇsuj´ıc´ı se velikosti souboru je obt´ıˇznˇejˇs´ı jeho zpracován´ı. V dneˇsn´ı dobˇe se kv˚uli big data mluv´ı o NoSQL databáz´ıch, pˇritom souˇcasné klasické relaˇcn´ı databáze jsou mnohdy lepˇs´ım ˇreˇsen´ım.

Relaˇcn´ı datab´aze

Relaˇcn´ı databáze maj´ı za sebou dlouhou historii vývoje, a t´ım pádem stoj´ı na pevné p˚udˇe. Jedna z jejich nejvˇetˇs´ıch výhod je dotazovac´ı jazyk SQL. Ten má pevný mate-matický základ, a proto jsou v mnoha pˇr´ıpadech relaˇcn´ı databáze lepˇs´ım ˇreˇsen´ım neˇz NoSQL. Relaˇcn´ı databáze je typ databáze, která ukládá a zprostˇredkovává pˇr´ıstup datovým bod˚um, které jsou spoleˇcnˇe propojeny. Zároveˇn jsou zaloˇzeny na relaˇcn´ım modelu, coˇz je intuitivn´ı pˇr´ımoˇcará cesta reprezentován´ı dat v tabulkách. [8]

V´yhody:

• Vertik´aln´ı ˇsk´alovatelnost (vyˇsˇs´ı cena)

• Pˇri r˚ustu objemu dat roste sloˇzitost udrˇzitelnosti a flexibility

NoSQL datab´aze

Databáze NoSQL (Not only SQL) je databáze, která se pouˇz´ıvá pro ukládán´ı velkého mnoˇzstv´ı dat. Databáze jsou distribuovaná, nerelaˇcn´ı, open source a horizontálnˇe ˇskálovaná [9]. Jsou navrˇzena pro distribuovaná datová úloˇziˇstˇe. V souˇcasné dobˇe se neukládaj´ı pouze data ve formˇe textu. Je potˇreba uloˇzit sociáln´ı vazby (grafy), geo-grafická data, logy systém˚u (kdy jejich velikost ˇcasto exponenciálnˇe roste), a právˇe proto jsou navrˇzeny NoSQL databáze. Pravdˇepodobnˇe nejvˇetˇs´ı nevýhodou oproti relaˇcn´ım databáz´ım je absence transakc´ı ve vˇetˇsinˇe NoSQL databáz´ı. Zde plat´ı tak-zvaný CAP teorém. CAP teorém znamená konzistenci, dostupnost a odd´ılovou to-leranci.

• Konzistence: Data dostupn´a na vˇsech stroj´ıch po aktualizac´ıch a dalˇs´ıch akc´ıch

• Dostupnost: Data mus´ı b´yt vˇzdy dostupn´a

• Odd´ılná tolerance: Po dobu chybovosti stroje nebo nˇejaké chyby databáze mus´ı fungovat v bˇeˇzném reˇzimu bez zastaven´ı ˇcinnosti

Bohuˇzel nelze splnit vˇsechny tˇri moˇznosti, a proto se vol´ı kombinace po dvou dle poˇzadavk˚u. Typicky se vol´ı kombinace konzistence a dostupnosti.

V´yhody:

• Moˇznost volen´ı datab´aze dle datov´eho modelu

• Nevyˇzaduj´ı pevné schéma databáze

• Podpora nestrukturovaných dat a nepˇredv´ıdatelných dat Nevýhody:

• Nepouˇz´ıvaj´ı se JOIN operace

• Nem´a deklarativn´ı dotazovac´ı jazyk

• Pˇr´ıpadn´a konzistence upˇrednostnˇena pˇred ACID vlastnostmi

Dokumentovˇe orientovan´e NoSQL datab´aze

Dle pr˚uzkumu StackOverflow z roku 2019 je nejrozˇs´ıˇrenˇejˇs´ı NoSQL databáz´ı Mon-goDB z této kategorie [10]. Na rozd´ıl od relaˇcn´ıch databáz´ı, kde jsou data uloˇzena v tabulkách, dokumentovˇe orientované databáze maj´ı dokumenty. Dokumenty lze zhruba pˇrirovnat k ˇrádk˚um v tabulce, ale s t´ım rozd´ılem, ˇze dokumenty jsou mno-hem v´ıce flexibiln´ı, protoˇze jsou bez pˇredem daného schématu (schema-less). Doku-menty bývaj´ı standardn´ıho formátu (xml, json). Zde je opˇet vidˇet velký rozd´ıl od relaˇcn´ıch databáz´ı, protoˇze jsou ˇrádky v tabulce ˇcasto identické (myˇsleno v ideáln´ım pˇr´ıpadˇe, kdy jsou data konzistentn´ı a napˇr´ıklad v atributu datum se opravdu nacház´ı datum), kdeˇzto v pˇr´ıpadˇe dokumentovˇe orientovaných databáz´ı m˚uˇze být struktura jednotlivých dokument˚u naprosto odliˇsná, ale také v´ıce ˇci ménˇe podobná [11].

Grafov´e datab´aze

Grafové databáze jsou v podstatˇe zaloˇzeny na teorii graf˚u. Grafy jsou sloˇzeny z vr-chol˚u, hran a jejich ohodnocen´ım (vztah). V tˇechto databáz´ıch vrcholy znamenaj´ı entity, ohodnocené hrany mezi vrcholy znaˇc´ı atributy a hrany reprezentuj´ı vztah mezi vrcholy.

V relaˇcn´ıch databáz´ıch je obrovský problém naznaˇcit vztahy mezi objekty, a to je právˇe silnou stránkou grafových databáz´ı. Pravdˇepodobnˇe nejznámˇejˇs´ım pˇr´ıkladem je databáze Neo4j [12].Ta umoˇzˇnuje efektivn´ı grafové zpracován´ı v reálném ˇcase pomoc´ı pˇr´ımého indexovaného pˇr´ıstupu k sousedn´ım uzl˚um z daného uzlu [13].

Nˇekteré grafovˇe orientované databáze mohou splˇnovat ACID. Ovˇsem vzniká otázka za jakou cenu. Pointa pouˇz´ıván´ı NoSQL databáz´ı je v jejich s´ıle ˇskálovatelnosti a práce s big daty, ovˇsem pokud jsou pouˇzity ”levnˇe”, jsou NoSQL databáze pouˇzity jako alternativa k RDBMS.

Datab´aze typu kl´ıˇc-hodnota

Jak název napov´ıdá, data jsou uloˇzena v páru kl´ıˇc hodnota. Dalo by se ˇr´ıci, ˇze tento typ databáz´ı je v podstatˇe rodiˇcem vˇsech NoSQL databáz´ı [11]. Kl´ıˇc je unikátn´ı identifikátor k daným dat˚um. Nejpouˇz´ıvanˇejˇs´ım zástupcem tohoto typu databáze je dle dotazn´ıku Redis [10]. Zároveˇn je to dle hodnocen´ı nejv´ıce obl´ıbená databáze mezi vývojáˇri.

Data Warehouse

Data warehouse (DW) je velkokapacitn´ı úloˇziˇstˇe, které je um´ıstˇeno nad databázemi.

Je navrˇzeno pro ukládán´ı stˇrednˇe velkých strukturovaných dat pro ˇcasté a opakované analýzy. ˇCasté vyuˇzit´ı DW je ke sdruˇzován´ı dat z v´ıce zdroj˚u. Nˇekteré DW jsou schopné pracovat s nestrukturovanými daty, ale nen´ı to bˇeˇzné. Protoˇze jsou data strukturovaná, schéma je determinováno jeˇstˇe pˇred t´ım, neˇz mohou být data pˇridána do DW.

Charakteristiky:

• Data jsou typicky nahrávána z transakˇcn´ıch systém˚u a zároveˇn jsou oˇciˇstˇena

• Zachycuje data a organizuje do sch´emat

• Sch´ema je definov´ano jeˇstˇe pˇred t´ım, neˇz se data nahraj´ı

• Pouˇzit´ı pro generov´an´ı report˚u a dashboard˚u

Typick´ymi z´astupci DW jsou SAP Bussiness Warehouse, Snowflake a Oracle Exadata Database Machine.

Data Lake

Data lake (DL) je centralizované úloˇziˇstˇe navrˇzené pro ukládán´ı strukturovaných i nestrukturovaných dat jakéhokoliv typu a bez velikostn´ıch limit˚u. Typicky se data pˇrenesou rovnou ze systém˚u, které je generuj´ı, pˇr´ımo do DL bez jakékoliv úpravy.

Kaˇzdému datovému elementu DL pˇriˇrad´ı unikátn´ı identifikátor, který je uloˇzen, a následnˇe umoˇzˇnuje lehˇc´ı vyhledáván´ı pomoc´ı dotaz˚u. DL je sp´ıˇse povaˇzován za big data platformu pro nestrukturovaná data.

Charakteristiky:

• Data jsou typicky nestrukturovan´a, ve sv´e p˚uvodn´ı podobˇe

• Ideáln´ı úloˇziˇstˇe pro hluboké analýzy nestrukturovaných dat s pomoc´ı analy-tických nástroj˚u, strojového uˇcen´ı a podobnˇe

• Schéma je definováno aˇz po uloˇzen´ı dat. D´ıky tomu nen´ı potˇrebná prvotn´ı reˇzie a d˚usledkem je vyˇsˇs´ı flexibilita

Typick´ymi pˇredstaviteli DL jsou Hadoop, Microsoft Azure Data Lake, Amazon AWS Data Lake.

In document Zpracov´an´ı velk´ych dat logistiky v automotive (Page 17-21)