Uk´ azka v´ ysledku vyhled´ av´ an´ı z testovac´ıho datasetu

2.1.3 Pouˇ zit´ı

Splunk je výraznˇe pouˇz´ıvaný ve velkých spoleˇcnostech, typicky tam, kde jsou výrobn´ı linky. Forwarder je nasazen na úloˇzných m´ıstech, kde jsou ukládány logy, at’ uˇz

z výrobn´ıch systém˚u nebo z jiného m´ısta. Pˇri nˇejaké zmˇenˇe, nebo v definovaných intervalech forwarder pos´ılá data do Splunku, kde prob´ıhá datová analýza a jej´ı výsledky jsou zobrazeny pomoc´ı graf˚u, statistik a tabulek v reportech, dashboardech a alertech.

Reporty

Reporty jsou výsledky vyhledávac´ıch dotaz˚u, které mohou zobrazit statistiky a vizu-alizace událost´ı. Reporty mohou být spuˇstˇeny kdykoliv a mohou zachytit nejnovˇejˇs´ı data pˇri kaˇzdém spuˇstˇen´ı. Zároveˇn mohou být sd´ıleny s ostatn´ımi uˇzivateli a hlavnˇe mohou být pˇridány do dashboard˚u.

Dashboardy

Dashboard je kolekce objekt˚u (report˚u, odkaz˚u a podobnˇe). Umoˇzˇnuj´ı nám kom-binovat v´ıce report˚u dohromady, a t´ım ucelit pˇr´ıbˇeh dat na jedno velké plátno.

Dashboard se skládá z panel˚u, které v sobˇe maj´ı grafy, statistiky a podobnˇe, coˇz jsou jednotlivé reporty.

Alerty

Alerty jsou akce, které se spust´ı pˇri specifické události, kdy jsou splnˇeny urˇcité podm´ınky definované uˇzivatelem. C´ılem alert˚u je z´ıskat napˇr´ıklad logován´ı akc´ı, které jsou nˇejakým zp˚usobem kritické a tyto alerty odeslat pomoc´ı e-mailu nebo na specifický endpoint.

Casovaˇˇ ce

Casovaˇˇ ce slouˇz´ı k nastaven´ı trigger˚u pro spouˇstˇen´ı report˚u automaticky bez uˇzivatelského zásahu. Ty mohou být dle definice spouˇstˇeny v r˚uzných interva-lech: mˇes´ıˇcnˇe, týdnˇe, dennˇe nebo pro specifický ˇcasový rozsah. T´ım m˚uˇze doj´ıt k zlepˇsen´ı výkonu (rychlosti) v dashboardech pˇri otevˇren´ı uˇzivatelem. ˇCasovaˇce dis-ponuj´ı moˇznost´ı automatického zas´ılan´ı reportu po skonˇcen´ı ˇcinnosti.

2.1.4 Dalˇ s´ı vlastnosti

Splunk disponuje mnoha addony a sadami nástroj˚u, které se daj´ı pˇridat k základn´ı verzi. Nˇekteré jsou samozˇrejmˇe placené. Zaj´ımavé addony pro Splunk jsou napˇr´ıklad Splunk Analytics for Hadoop - pro ucelené vyhledáván´ı a analyzován´ı Hadoop dat se Splunk Enterprise. Následnˇe r˚uzné konektory pro pˇr´ıpojen´ı k databázi (ODBC, DB Connect), mobiln´ı addon a Amazon Web Services [15]

Velmi zaj´ımavý nástroj pro Splnuk je Splunk Machine Learning Toolkit, který disponuje knihovnami pro machine learning a Pythonem spolu s knihovnami Pandas, NumPy, SciKit, SciPy a dalˇs´ımi. T´ımto zp˚usobem je moˇzné vyˇreˇsit situaci z´ıskán´ı dat ze Splunku pro machine learning.

2.2 Apache Hadoop

Apache Hadoop je framework, který umoˇzˇnuje distribuované zpracován´ı velkých da-taset˚u napˇr´ıˇc clustery s vyuˇzit´ım jednoduchých programovac´ıch model˚u. Je navrˇzen pro ˇskálován´ı od jednoho serveru aˇz k tis´ıc˚um stroj˚u, kde kaˇzdý z nich nab´ız´ı lokáln´ı komunikaci a ukládán´ı. Abychom se nemuseli spoléhat na hardware pro doruˇcen´ı vy-soké dostupnosti, Hadoop je navrˇzen tak, aby detekoval a vyˇreˇsil selhán´ı na aplikaˇcn´ı vrstvˇe. Základn´ı myˇslenka je taková, ˇze se data rozdˇel´ı a uloˇz´ı napˇr´ıˇc kolekc´ı stroj˚u (cluster). Poté je na ˇradˇe práce s daty na m´ıstˇe, kde jsou skuteˇcnˇe uloˇzena. Tedy v tomto pˇr´ıpadˇe uˇz v clusteru. V této fázi je jednoduché pˇridávat stroje do clusteru dle r˚ustu dat.

2.2.1 Hadoop ekosyst´ em - z´ akladn´ı moduly

Hadoop se skládá z mnoha modul˚u, nˇekteré jsou povinné a nˇekteré lze pˇridávat a odeb´ırat dle potˇreby ˇreˇsen´ı.

Hadoop HDFS

Hadoop HDFS je distribuovaný souborový systém, který pracuje s velkými datasety.

Je to nejspodnˇejˇs´ı vrstva celého Hadoop ekosystému pro ukládán´ı dat. Data mohou být témˇeˇr v jakékoliv formˇe (json, csv, txt, ...).

Soubor, nahraný do HDFS, je rozdˇelen do nˇekolika blok˚u o velikosti 64 MB (základn´ı velikost), kde kaˇzdý blok dostane své unikátn´ı jméno. Po nahrán´ı souboru do clusteru bude kaˇzdý blok uloˇzen do jednoho nodu v clusteru. Na kaˇzdém stroji v clusteru bˇeˇz´ı takzvaný DataNode. O tom, jakým zp˚usobem z´ıskáme z rozdˇelených blok˚u zpˇet p˚uvodn´ı soubor, se stará NameNode. Informace uloˇzené v NameNode se nazývaj´ı Metadata. V rámci bezpeˇcnosti existuje kopie NameNodu pro pˇr´ıpad výpadku hlavn´ıho NameNodu. Dalˇs´ı bezpeˇcnostn´ı prvek je takový, ˇze Hadoop vy-tvoˇr´ı tˇri kopie kaˇzdého bloku souboru a náhodnˇe je rozdˇel´ı do tˇrech nod˚u.

Jeden z hlavn´ıch c´ıl˚u HDFS je rychlé zotaven´ı z hardwarových chyb. Protoˇze jedna HDFS instance se m˚uˇze skládat z nˇekolika tis´ıc server˚u, selhán´ı nˇekterého z nich je nevyhnutelné. HDFS byl postaven tak, aby detekoval tato selhán´ı a au-tomaticky se z nich zotavil. Jinými slovy, HDFS a ostatn´ı hlavn´ı moduly Hadoopu pˇredpokládaj´ı, ˇze hardwarové chyby mohou nastat, a t´ım pádem jsou pˇripraveny na rychlé a automatické zotaven´ı.

Hadoop YARN

Základn´ı myˇslenkou Yarnu je rozdˇelen´ı funkcionalit ˇr´ızen´ı zdroj˚u a plánovaˇce úloh na rozdˇelené daemony. Myˇslenka je taková, ˇze existuje jeden centráln´ı správce zdroj˚u a potom pro kaˇzdý daemon jeden aplikaˇcn´ı správce.

Hadoop MapReduce

MapReduce je model pro paraleln´ı zpracován´ı velkého mnoˇzstv´ı dat. Jelikoˇz sériové zpracován´ı velkého souboru je pomalé, MapReduce je navrˇzen tak, aby zpracovával data paralelnˇe. Soubor je tedy rozdˇelen do blok˚u a kaˇzdý je zároveˇn zpracováván.

MapReduce se rozdˇeluje na dvˇe ˇcásti. Prvn´ı je mapovac´ı, kdy se nejdˇr´ıve seskup´ı spoleˇcné atributy s hodnotami (key, value) podle kl´ıˇce. Takto seskupené ˇcásti jsou následnˇe dle úlohy poslány na redukˇcn´ı ˇcást, kde jsou data jiˇz seˇrazena a pˇripravena k fináln´ı úpravˇe. Napˇr´ıklad, mˇejme dataset mˇest s obchody a jejich trˇzbami. V ma-povac´ı ˇcásti se seskup´ı stejná mˇesta (key) a jejich trˇzby. Následnˇe takto setˇr´ıdˇená mˇesta jsou zvláˇst’ poslána redukˇcn´ı ˇcásti, kde kaˇzdý

”reducer“ poˇc´ıt´a roˇcn´ı trˇzby pro jedno mˇesto.

Psan´ı MapReduce k´odu je podporov´ano jazyky Python, Java, Ruby a dalˇs´ımi.

Hadoop Common

Hadoop Common je kolekce bˇeˇzných utilit a knihoven, které podporuj´ı ostatn´ı mo-duly. Je to nezbytná ˇcást celého frameworku spolu s Yarn, MapReduce a HDFS.

Je brán jako základn´ı/kl´ıˇcový modul celého frameworku, protoˇze zprostˇredkovává základn´ı sluˇzby jako napˇr´ıklad abstrakci operaˇcn´ıho systému, na kterém je fra-mework nasazen, a i jeho souborového systému.

2.2.2 Hadoop ekosyst´ em - pˇ r´ıdavn´ e moduly

Pˇr´ıdavných modul˚u je opravdu mnoho, proto jsou zde vypsány pouze ty nejznámˇejˇs´ı, které jsou s touto prac´ı do jisté m´ıry spjaty.

Psan´ı MapReduce kódu nen´ı úplnˇe snadné (je vyˇzadována znalost nˇekterého programovac´ıho jazyku podporovaného MapReduce - Java, Python apod.). Proto vznikly nástroje jako je Impala a Hive. Nam´ısto psan´ı kódu tyto nástroje umoˇzˇnuj´ı vyuˇz´ıt SQL pro dotazován´ı. Dalˇs´ı moˇznost´ı je Pig, který umoˇzˇnuje analyzovat data pomoc´ı jednoduchého skriptovac´ıho jazyku.

Impala

Apache Impala je paralelnˇe zpracovávaj´ıc´ı SQL dotazovac´ı nástroj pro data, která jsou uloˇzena v clusteru bˇeˇz´ıc´ım na Apache Hadoop. Impala podporuje HDFS

i Apache HBase, dále podporuje autentizaci pomoc´ı Kerberos. Nejvˇetˇs´ı výhoda Im-paly je zp˚usob dotazován´ı na HDFS. Impala totiˇz nevyuˇz´ıvá MapReduce, a tedy se dotazuje na pˇr´ımo. T´ım dojde k uˇsetˇren´ı ˇcasu pro startován´ı MapReduce. Pouˇz´ıvá se tedy pro rychlé analýzy nebo pro velké datasety. ˇCasto je Impala pouˇz´ıvána jako nástroj pro z´ıskán´ı dat do Power BI pomoc´ı direct query.

Hive

Hive je pomalejˇs´ı alternativa k Impala, a to z d˚uvodu vyuˇzit´ı MapReduce. Hive interpreter pˇremˇen´ı SQL na MapReduce kód, který je poté spuˇstˇen na clusteru.

Jinými slovy, pˇri kaˇzdém dotazu je nutné spustit MapReduce job. Coˇz m˚uˇze být opravdu pomalé pˇri velkém mnoˇzstv´ı dat. Proto se Hive sp´ıˇse pouˇz´ıvá pˇri menˇs´ım mnoˇzstv´ı dat, nebo u aplikac´ı, kde nezáleˇz´ı na ˇcase dokonˇcen´ı. Hive je optimalizovaný pro spouˇstˇen´ı dlouhých batch-processing jobs.

Hue

Apache Hue je open source online editor, který slouˇz´ı pro práci s daty uloˇzenými v HDFS pomoc´ı SQL. Umoˇzˇnuje pouˇz´ıt nˇekolik interpretr˚u (Impala, Hive, MySQL, SparkSQL a dalˇs´ı). Zároveˇn umoˇzˇnuje generován´ı graf˚u a statistik.

In document Zpracov´an´ı velk´ych dat logistiky v automotive (Page 25-30)