Cloudera Hadoop ekosyst´ em. Pˇrevzato z [16]

2.2.3 Hadoop distribuce

Propojit vˇsechny tyto pˇr´ıdavné modely dohromady s hlavn´ımi ˇcástmi Hadoop eko-systému je obecnˇe celkem nároˇcné. Vˇsechny moduly Hadoop ekosystému jsou open-source. Jen nˇekteré moduly spolu nejsou kompatibiln´ı a m˚uˇze nastat hodnˇe kompli-kac´ı. Proto existuj´ı jiˇz r˚uzné distribuce, napˇr´ıklad CDH, která zabal´ı celý ekosystém s pˇr´ıdavnými moduly dohromady pro snadnou instalaci.

Cloudera

Spoleˇcnost Cloudera vlastn´ı Hadoop distribuci nesouc´ı název Cloudera distribution including Apache Hadoop (CDH). Je to open source platformn´ı distribuce zahrnuj´ıc´ı Apache Hadoop, která je postavena tak, aby splˇnovala poˇzadavky spoleˇcnost´ı. Tato distribuce zároveˇn obsahuje mnoho dalˇs´ıch kritických open source projekt˚u, které s Hadoop souvis´ı. Obsahuje tedy Hadoop core, Hive, HBase, Impala, Hue a mnoho dalˇs´ıch [17]. Zároveˇn obsahuje systémy, které pomáhaj´ı s integrac´ı dat a celého systému.

mapR

Alternativn´ı distribuc´ı je mapR. Jedná se o v´ıce univerzáln´ı distribuci, protoˇze nen´ı postavená ˇcistˇe na HDFS. MapR má sv˚uj vlastn´ı souborový systém, MAPRFS. To pˇrináˇs´ı své výhody, hlavnˇe co se týˇce bezpeˇcnosti.

2.3 Power BI

Power BI je nástroj od spoleˇcnosti Microsoft, který se pouˇz´ıvá pro datovou analýzu.

Skládá se z mnoha konektor˚u, sluˇzeb a aplikac´ı. Je moˇzné ho pouˇz´ıt v podobˇe desk-topové nebo mobiln´ı aplikace. Power BI disponuje mnoha konektory pro naˇcten´ı dat, jako naˇcten´ı ze souboru, z databáze nebo z cloudové ˇci jiné datové plat-formy. Napˇr´ıklad pro Hadoop existuje Power BI konektor pro Impalu. Protoˇze je objem dat ˇcasto velký a kaˇzdá aktualizace dat (napˇr´ıklad z databáze) trvá delˇs´ı

dobu (v závislosti na objemu dat), Power BI disponuje takzvaným direct query. To umoˇzˇnuje naˇc´ıtat data ze zdroje definovaný ˇcas (pouze nová data).

Práce s Power BI pˇri tvorbˇe report˚u je celkem intuitivn´ı, ale zároveˇn to neub´ırá na

uˇcinnosti. To stejné plat´ı i pro naˇc´ıtán´ı dat z r˚uzných zdroj˚u. Pˇri práci se souborem (napˇr´ıklad csv), Power BI pozná oddˇelovaˇc a podle nˇej rozdˇel´ı jednotlivé atributy.

Pokud by ho n´ahodou nerozpoznal, je moˇzn´e ho ruˇcnˇe urˇcit.

Pˇri práci s malým objemem dat nebude v desktopové verzi problém. Práce s vˇetˇs´ım poˇctem dat m˚uˇze být uˇz limituj´ıc´ı. Napˇr´ıklad pˇri práci s nˇekolika GB dat z databáze se m˚uˇze zdát, ˇze aktualizace graf˚u je ponˇekud pomalá. Je to z toho d˚uvodu, ˇze po vytvoˇren´ı datových pˇripojen´ı a transformaci dat, jsou data naˇctena do datového modelu pˇr´ımo do aplikace. Jedna z hlavn´ıch pˇrednost´ı Power BI jsou propo-jené komponenty v jednom reportu. To znamená, ˇze pokud jsou v reportu vytvoˇreny vizualizace (graf, tabulka) a zároveˇn nˇejaké filtrován´ı, tak se potom pˇrenese filtrován´ı na kaˇzdou vizualizaci. Zároveˇn vytvoˇrených report˚u m˚uˇze být v´ıce a nˇekteré (nebo vˇsechny) komponenty a filtry mohou být pouˇzity napˇr´ıˇc jednotlivými reporty.

3 N´ avrh ˇ reˇ sen´ı

V této kapitole je vysvˇetleno, jaký je souˇcasný stav z´ıskáván´ı dat ze Splunku pro sklad logistiky. S t´ım souvis´ı popsán´ı situac´ı, ve kterých vzniká chybovost. Následnˇe je popsáno, jaké jsou moˇznosti komunikace mezi pouˇzitými systémy. Z této analýzy jsou vybrány nejlepˇs´ı zp˚usoby, které jsou následnˇe aplikovány.

3.1 Souˇ casn´ y stav

Ve skladu logistiky jsou autonomn´ı roboti, kteˇr´ı vykládaj´ı boxy do regál˚u a také je nakládaj´ı na pás. Zároveˇn ukládaj´ı své stavy a chyby do soubor˚u. Tyto soubory jsou prohledávány a jejich data jsou nahrávána pomoc´ı Splunk forwarderu do Splunku, kde prob´ıhá datová analýza. Problém je v tom, ˇze pˇr´ıstup ke Splunku je do jisté m´ıry omezen a práce s n´ım vyˇzaduje pokroˇcilé znalosti. Jinými slovy, tvorba report˚u ve Splunku nen´ı tak jednoduchá, jako napˇr´ıklad v Power BI. To znamená, ˇze reporty a dashboardy ve Splunku tvoˇr´ı skupina datových specialist˚u. To stejné plat´ı pro jejich sebemenˇs´ı zmˇeny. Dalo by se totiˇz ˇr´ıct, ˇze Splunk nen´ı urˇcený primárnˇe pro business view.

Konkrétnˇe se jedná o chyby pˇri vykládán´ı box˚u a jejich dalˇs´ı manipulaci. Ve Splunku jsou data oˇciˇstˇena a parsována do pouˇzitelné podoby pro následné vykreslen´ı tabulek a graf˚u. Vˇzdy na konci smˇeny (tedy po 8 hodinách: 6:00, 14:00, 22:00) zamˇestnanec pˇristoup´ı ke Splunku, exportuje naparsovaná a oˇciˇstˇená data do souboru typu csv, který stáhne a nahraje do pˇredem definované sloˇzky s urˇcitým názvem. V této sloˇzce se následnˇe soubory nahrávaj´ı do Power BI. Tento proces je velice neefek-tivn´ı a zdlouhavý. Pˇri tomto procesu vzniká zároveˇn velká chybovost. Exportované

soubory mus´ı být vˇzdy na konci smˇeny uloˇzeny na stanovené m´ısto s pˇredem defino-vaným jménem. ˇCasto se stává, ˇze tato kritéria nejsou dodrˇzena a následnˇe vznikaj´ı dalˇs´ı problémy. Primárnˇe z tohoto d˚uvodu vznikla tato práce, aby byl celý tento proces efektivnˇejˇs´ı a univerzáln´ı. To znamená jakákoliv data ze Splunku uloˇzit do data lake a následnˇe je z´ıskat do platformy Power BI.

Kritick´a m´ısta pro tento use case jsou tedy n´asleduj´ıc´ı:

• Sloˇzit´a tvorba report˚u ve Splunku (je potˇreba skupina datov´ych specialist˚u)

• Ukládán´ı souboru na správné m´ısto

• Zadáván´ı správného názvu exportovaného csv souboru

• ˇCas trv´an´ı ruˇcn´ıho exportov´an´ı souboru

• ˇCas strávený opravou po pˇr´ıpadném chybném uloˇzen´ı souboru

Kromˇe prvn´ıho bodu jsou ostatn´ı zp˚usobené lidskou chybou, kterou bohuˇzel nelze vˇzdy ovlivnit. Pakliˇze soubor nen´ı na správném m´ıstˇe se správným jménem, nelze ho automaticky nahrát do Power BI. Je tedy potom potˇreba soubor naj´ıt a napravit chybu.

Ovˇsem obecnˇe se jedná o to, ˇze pokud jsou potˇreba data ze Splunku z´ıskat, v souˇcasné situaci je vˇzdy potˇreba data ruˇcnˇe stáhnout. Jde tedy o automatizaci celého tohoto procesu z´ıskáván´ı csv soubor˚u pro libovolný datový zdroj ze Splnuku.

3.2 Anal´ yza zp˚ usobu komunikace mezi syst´ emy

Na úplném zaˇcátku je vˇzdy potˇreba zanalyzovat systémy, které spolu budou nˇejakým zp˚usobem komunikovat. V této práci se jedná hlavnˇe o systém Splunk, Cloudera Ha-doop a Power BI. Existuje nˇekolik zp˚usob˚u, jak pˇrenáˇset data mezi tˇemito systémy.

Vzhledem k tomu, ˇze data jsou jiˇz odes´ılána pomoc´ı Splunk forwarderu na Splunk indexy, staˇc´ı se v tomto pˇr´ıpadˇe zamˇeˇrit na ˇcást pˇrenáˇsen´ı dat mezi Splunkem, Clouderou Hadoop a následnˇe Power BI. Data ze Splunku do Cloudery Hadoop lze pˇrenést v´ıce zp˚usoby.

3.2.1 Pˇ renos dat ze Splunku do Cloudera Hadoop

Hadoop connector

Prvn´ı moˇznost´ı je odlévat data pˇr´ımo ze Splunku do data lake (Cloudera Hadoop) a z nˇej poté pomoc´ı Impala connectoru do Power BI. Tato moˇznost je pravdˇepodobnˇe nejv´ıce pˇr´ımoˇcará a zdá se nejjednoduˇsˇs´ı. Ovˇsem má to své nevýhody. Tou nejvˇetˇs´ı nevýhodou je zat´ıˇzen´ı Splunku pˇri odléván´ı dat. Uˇz v této situaci je relativnˇe zat´ıˇzen a pˇri dalˇs´ı vˇetˇs´ı zátˇeˇzi by se mohl zpomalit celý jeho chod, coˇz by mˇelo kritický do-pad, jelikoˇz je pouˇz´ıván nejen pro analýzu tohoto skladu, ale pro v´ıce aplikac´ı. Zvláˇst’

kdyˇz jsou chyby generov´any v podstatˇe kaˇzdou minutu.

Z této kritické negativn´ı vlastnosti vyplynulo zam´ıtnut´ı této metody pro tuto apli-kaci. Nicménˇe tuto metodu je moˇzné pouˇz´ıt pro doc´ılen´ı jiné potˇreby. Nejvˇetˇs´ı zátˇeˇz totiˇz nespoˇc´ıvá v samotném odléván´ı dat, ale jiˇz v parsován´ı dat. Tedy pokud se pouze odlévaj´ı nezpracovaná raw data nebo s minimáln´ı úpravou, lze tento zp˚usob vyuˇz´ıt jako zálohu dat, jelikoˇz ve Splunk indexerech data z˚ustávaj´ı pˇribliˇznˇe mˇes´ıc (konfigurovatelná doba).

Splunk REST API

Splunk disponuje REST API, pomoc´ı kterého lze z´ıskávat data, zakládat alerty a podobnˇe. Velkou výhodu tohoto API je to, ˇze ho vystavuj´ı i Splunk frontend nody, takˇze zjednoduˇsenˇe ˇreˇceno, pˇripojen´ı pomoc´ı API nezatˇeˇzuje hlavn´ı backen-dový Splunk node.

Splunk nab´ız´ı jiˇz pˇripravené bal´ıˇcky pro práci s REST API pro jazyky Python, Java a dalˇs´ı, které velice usnadˇnuj´ı práci [18]. V této práci je pouˇzit bal´ıˇcek pro Python.

Tento bal´ıˇcek v sobˇe obsahuje ˇreˇsen´ı pro autentizaci, autorizaci, z´ıskáván´ı dat, zakládán´ı alert˚u, odes´ılán´ı soubor˚u do Splunku a dalˇs´ı. Dává tedy nejvˇetˇs´ı smysl pouˇz´ıt právˇe toto ˇreˇsen´ı.

Bal´ıˇcek nab´ız´ı celkem ˇctyˇri moˇzné metody, pomoc´ı kterých lze z´ıskávat data:

• Blocking search. Tento typ vyhledáván´ı umoˇzˇnuje vytvoˇrit search job, který bˇeˇz´ı synchronnˇe v takzvaném blokovac´ım módu. To znamená, ˇze se job vrát´ı

aˇz poté, co se z´ıskaj´ı vˇsechny výsledky. Z job objektu lze poté z´ıskat v´ıce informac´ı. Napˇr´ıklad, jak dlouho job trval, kolik bylo vráceno event˚u, jaké bylo pˇriˇrazeno job ID a dalˇs´ı.

• Normal search. Normal search vytvoˇr´ı klasický search job, stejnˇe jako bloc-king search. Rozd´ıl je v tom, ˇze normal search vrát´ı ihned search ID, pomoc´ı kterého je nutné vyhledat search job a následnˇe ho stáhnout. Ovˇsem opˇet se mus´ı ˇcekat, neˇz se search job dokonˇc´ı.

• One-shot search. Toto je ta nejjednoduˇsˇs´ı a nejpˇr´ımoˇcaˇrejˇs´ı metoda. Jedná se o to, ˇze se vytvoˇr´ı takzvaný jednoúˇcelový search. Na rozd´ıl od ostatn´ıch metod nevytváˇr´ı a nevrac´ı search job, ale naopak se zablokuje, dokud nen´ı search dokonˇcen a nen´ı vrácen stream obsahuj´ıc´ı eventy. To také ale znamená, ˇ

ze nejsou vráceny informace o searchi. Je vrácen pouze stream event˚u a pokud nˇekde nastane nˇejaká chyba (napˇr´ıklad v parsován´ı dat nebo v samotném searchi), tak Splunk vrát´ı chybovou hláˇsku, která se m˚uˇze napˇr´ıklad zalogovat.

Tato metoda je z tˇechto d˚uvod˚u v práci pouˇzita, jelikoˇz je ze searche z´ıskáno to nejpodstatnˇejˇs´ı - moˇzná chybová hláˇska a nebo tok event˚u.

• Export search. Export search je ta nejv´ıce spolehlivá metoda, kterou lze z´ıskat vˇetˇs´ı mnoˇzstv´ı dat, protoˇze se eventy vrac´ı jako tok dat na rozd´ıl od ostatn´ıch metod popsaných výˇse, kdy je na serveru po nˇejakou dobu uloˇzen search job. Takˇze jakékoliv limitace ze strany serveru, co se týˇce objemu dat, pro tuto metodu neplat´ı. Export search se spust´ı okamˇzitˇe a zároveˇn hned po spuˇstˇen´ı zaˇcne pˇrenáˇset data klientovi.

Tedy Splunk REST API bylo nakonec vybráno jako implementaˇcn´ı ˇreˇsen´ı pro tuto ˇcást z´ıskáván´ı dat z d˚uvodu velkého mnoˇzstv´ı zp˚usob˚u, jak s daty pracovat a zároveˇn z d˚uvodu menˇs´ıho zat´ıˇzen´ı Splunku. Toto REST API bude komunikovat se Splunkem z linuxového serveru, kde budou um´ıstˇeny Python skripty, generuj´ıc´ı csv soubor.

3.2.2 Pˇ renos dat ze serveru do Cloudery Hadoop

V dalˇs´ım kroku je potˇreba soubor ze serveru nahr´at do Cloudery Hadoop. To lze doc´ılit pomoc´ı UC4 jobu.

UC4 job

UC4 je software pro plánované spouˇstˇen´ı job˚u, d´ıky kterému lze napˇr´ıklad pˇrenáˇset soubory napˇr´ıˇc architekturami a úloˇziˇsti. Má mnoho konfigurovatelných parametr˚u.

V této práci je pouˇzit právˇe na pˇrenos csv souboru z linuxového serveru, kde csv vzniká, na c´ılový linuxový server, kde se csv ukládá do Cloudery Hadoop. Pˇr´ıklady konfigurovatelných parametr˚u jsou napˇr´ıklad smazán´ı souboru po pˇrenosu, moˇznost zaslat informace o chybném stavu a dalˇs´ı. Tento zp˚usob byl vybrán z d˚uvodu jiˇz otestované funkˇcnosti na jiných projektech.

3.2.3 Pˇ renos dat z Hadoop do Power BI

Opˇet je zde v´ıce moˇznost´ı, jak doc´ılit poˇzadovaného pˇrenosu. Existuje totiˇz v´ıce connector˚u a kaˇzdý z nich funguje trochu jinak. Pro ukázku jsou zde uvedeny dva pˇr´ıklady, z toho Impala connector je pouˇzit v této práci.

ODBC

Klasický ODBC connector nab´ız´ı pouze základn´ı jednoduchý import dat. To m˚uˇze být výhodné, pokud se data v databáz´ı jiˇz nemˇen´ı nebo se mˇen´ı jen velmi málo.

Impala connector

Impala connector je nástroj, kterým lze efektivnˇe z´ıskávat data z Hadoop, a to hlavnˇe z toho d˚uvodu, ˇze pouˇz´ıvá optimalizované dotazy pro z´ıskán´ı dat, jelikoˇz Impala bývá souˇcást´ı Hadoop ekosystému. Zároveˇn nab´ız´ı takzvané DirectQuery, coˇz je automatické stahován´ı dat pˇri nˇejaké zmˇenˇe dat v Hadoop. DirectQuery má tu výhodu, ˇze následnˇe stahuje pouze data, která jsou nová nebo zmˇenˇená. D´ıky tomu je Power BI pˇri aktualizaci dat rychlejˇs´ı, neˇz kdyby se data naˇc´ıtala pomoc´ı klasického

Importu, kdy se naˇc´ıtá vˇse. Tento connector bude pouˇzit z d˚uvodu automatického stahován´ı nových dat, coˇz je vlastnost, která je jedn´ım z poˇzadavk˚u na funkcionalitu ˇreˇsen´ı.

3.2.4 Pˇ renos logovan´ ych event˚ u do Splunku

Základn´ı myˇslenkou je logovat do souboru vˇzdy po zpracován´ı dat, pokud pˇrenos probˇehl úspˇeˇsnˇe. To bude platit i ve fináln´ı implementaci. Ovˇsem aby se nemusel implementovat nˇejaký mechanizmus v Pythonu pro zas´ılán´ı alert˚u, je moˇzné vyuˇz´ıt Splunku pro vizualizaci log˚u aplikace a pˇr´ıpadné vytváˇren´ı alert˚u.

Prvn´ı moˇznost´ı je instalace forwarderu na serveru, který bude data ze souboru odes´ılat. Tato varianta je pro tento úˇcel zbyteˇcnˇe komplikovaná, jelikoˇz se eventy vytváˇr´ı vˇzdy na konci smˇeny (tedy tˇri ˇrádky za jeden den). Existuje tedy druhý zp˚usob, mnohem elegantnˇejˇs´ı. Splunk disponuje HTTP Event Collectorem, pomoc´ı kterého lze zas´ılat data. To znamená, ˇze se data mohou odes´ılat pomoc´ı curl funkce do Splunku pomoc´ı HEC vˇzdy po zalogován´ı eventu. Tedy napˇr´ıklad minutu poté, co probˇehlo staˇzen´ı dat a vytvoˇren´ı eventu do logu. Toto ˇreˇsen´ı nevyˇzaduje ˇzádnou dalˇs´ı instalaci komponent (jako v pˇredeˇslé moˇznosti instalace forwarderu na server).

Tedy ve Splunku staˇc´ı vytvoˇrit token pro index, do kter´eho se data budou pos´ılat.

Název indexu by mˇel odpov´ıdat názvu aplikace, která ˇreˇs´ı nˇejaký problém.

V tomto pˇr´ıpadˇe to m˚uˇze být napˇr´ıklad dataextract. V budoucnosti budou pˇribývat aplikace, které toto ˇreˇsen´ı budou pouˇz´ıvat. To znamená, ˇze v jednom indexu bude moˇzné vidˇet vˇsechny aplikace, které stahuj´ı data ze Splunku. Ty se následnˇe budou moci r˚uznˇe filtrovat.

3.3 N´ avrh univerz´ aln´ı aplikace

Po z´ıskán´ı dat pomoc´ı REST API je potˇreba data rozparsovat a zapsat do csv sou-boru. Vˇsechno toto zpracován´ı dat a ukládán´ı do souboru prob´ıhá na linuxovém serveru.

Idea je takov´a, ˇze budou existovat celkem tˇri python skripty pro z´ısk´an´ı dat a

je-jich ukládán´ı do souboru csv. Kl´ıˇcovým skriptem a teoreticky jediným mˇenitelným by byl konfiguraˇcn´ı skript. V tomto skriptu by byly definovány údaje pro auten-tizaci, samotného search jobu, parsovac´ıch parametr˚u, výstupn´ıho souboru a logo-vac´ıho souboru. Následnˇe skript pro autentizaci uˇzivatele, který by byl kompletnˇe univerzáln´ı, jelikoˇz pˇrihlaˇsovac´ı údaje by byly definované v konfiguraˇcn´ım souboru.

Následnˇe hlavn´ı skript, ve kterém prob´ıhá z´ıskán´ı dat ze Splunku, jejich parsován´ı a ukládán´ı do souboru. V tomto skriptu by se teoreticky nemuselo nic mˇenit, jelikoˇz SPL dokáˇze dobˇre z´ıskat data pomoc´ı samotného dotazu.

Samotn´e automatizace spouˇstˇen´ı skript˚u lze doc´ılit napˇr´ıklad pomoc´ı cron jobu.

V nˇem se definuje pˇresný ˇcas, kdy má být skript spuˇstˇen, a t´ım pádem i ˇcas z´ıskaného csv souboru.

4 Implementace ˇ reˇ sen´ı

V této kapitole je popsána celková implementace datového toku spolu s vytvoˇrenou univerzáln´ı aplikac´ı pro z´ıskáván´ı dat ze Splunku. Zároveˇn s touto aplikac´ı je popsán logovac´ı systém samotné aplikace i jej´ı testy.

4.1 Implementace datov´ eho toku

Z analýzy pouˇzitých systém˚u popsaných v kapitole 3.2 vyplývá následuj´ıc´ı schéma, ve kterém je znázornˇena celková implementace datového toku.

In document Zpracov´an´ı velk´ych dat logistiky v automotive (Page 30-40)