Zpracov´an´ı velk´ych dat logistiky v automotive

(1)

Zpracov´ an´ı velk´ ych dat logistiky v automotive

Diplomov´ a pr´ ace

Studijn´ı program: N2612 – Elektrotechnika a informatika Studijn´ı obor: 1802T007 – Informaˇcn´ı technologie Autor práce: Bc. Lukáˇs Vosecký

Vedouc´ı pr´ace: Mgr. Jiˇr´ı Vran´y, Ph.D.

Konzultant: Ing. Jakub Vancl (ˇSkoda Auto a.s.)

(2)

Zadání diplomové práce

Zpracování velkých dat logistiky v automotive

Jméno a příjmení: Bc. Lukáš Vosecký Osobní číslo: M18000156

Studijní program: N2612 Elektrotechnika a informatika Studijní obor: Informační technologie

Zadávající katedra: Ústav nových technologií a aplikované informatiky Akademický rok: 2019/2020

Zásady pro vypracování:

1. Seznamte se s problematikou velkých dat a platformami pro jejich zpracování jako Splunk, Cloudera Hadoop a Power BI.

2. Navrhněte řešení pro transformaci, manipulaci a přenos dat ze softwarové platformy Splunk do Cloudera Hadoop. Zaměřte se na univerzálnost a přenositelnost zpracování datového toku.

3. Implementujte prototyp navrženého řešení pomocí jazyka Python.

4. Vytvořte reporty v Power BI pro otestování funkčnosti celého datového toku a pro základní ukázkovou vizualizaci.

(3)

Rozsah grafických prací: dle potřeby Rozsah pracovní zprávy: 40-50 stran

Forma zpracování práce: tištěná/elektronická

Jazyk práce: Čeština

Seznam odborné literatury:

[1] POWELL, Brett. Mastering Microsoft Power BI: Expert techniques for effective data analytics and business intelligence. 1. Birmingham, UK: Packt Publishing, 2018. ISBN 978-1788297233.

[2] KELLEHER, John D. a Brendan TIERNEY. Data science. Cambridge, Massachusetts: The MIT Press, [2018]. ISBN 978-0262535434.

[3] VANDERPLAS, Jacob T. Python data science handbook: essential tools for working with data.

2016. ISBN 978-1491912058.

Vedoucí práce: Mgr. Jiří Vraný, Ph.D.

Ústav nových technologií a aplikované informatiky Konzultant práce: Ing. Jakub Vancl

Škoda Auto a.s.

Datum zadání práce: 9. října 2019 Předpokládaný termín odevzdání: 18. května 2020

prof. Ing. Zdeněk Plíva, Ph.D.

děkan

L.S.

Ing. Josef Novák, Ph.D.

vedoucí ústavu

(4)

Prohlášení

Prohlašuji, že svou diplomovou práci jsem vypracoval samostatně jako pů- vodní dílo s použitím uvedené literatury a na základě konzultací s vedou- cím mé diplomové práce a konzultantem.

Jsem si vědom toho, že na mou diplomovou práci se plně vztahuje zákon č. 121/2000 Sb., o právu autorském, zejména § 60 – školní dílo.

Beru na vědomí, že Technická univerzita v Liberci nezasahuje do mých au- torských práv užitím mé diplomové práce pro vnitřní potřebu Technické univerzity v Liberci.

Užiji-li diplomovou práci nebo poskytnu-li licenci k jejímu využití, jsem si vědom povinnosti informovat o této skutečnosti Technickou univerzi- tu v Liberci; v tomto případě má Technická univerzita v Liberci právo ode mne požadovat úhradu nákladů, které vynaložila na vytvoření díla, až do jejich skutečné výše.

Současně čestně prohlašuji, že text elektronické podoby práce vložený do IS/STAG se shoduje s textem tištěné podoby práce.

Beru na vědomí, že má diplomová práce bude zveřejněna Technickou uni- verzitou v Liberci v souladu s § 47b zákona č. 111/1998 Sb., o vysokých školách a o změně a doplnění dalších zákonů (zákon o vysokých školách), ve znění pozdějších předpisů.

Jsem si vědom následků, které podle zákona o vysokých školách mohou vyplývat z porušení tohoto prohlášení.

9. dubna 2020 Bc. Lukáš Vosecký

(5)

Podˇ ekov´ an´ı

Chtˇel bych pˇredevˇs´ım podˇekovat vedouc´ımu mé diplomové práce panu Mgr. Jiˇr´ımu Vranému, Ph.D. za podporu, vstˇr´ıcnost a mo- tivaci k lepˇs´ım výsledk˚um. Dále bych rád podˇekoval Ing. Jaku- bovi Vanclovi, který byl mou oporou po celou dobu mé stáˇze ve Skoda Auto. V neposledn´ı ˇradˇˇ e dˇekuji Karlovi Tvrzn´ıkovi, Milanovi Suchému a Jánovi Suchému za cenné rady a z´ıskané zkuˇsenosti.

(6)

Zpracov´ an´ı velk´ ych dat logistiky v automotive

Abstrakt

Tato práce ˇreˇs´ı problém zpracován´ı, transformace a pˇrenosu dat z platformy Splunk do data lake Cloudera Hadoop a následnˇe do Power BI. C´ılem práce je navrh- nout a implementovat univerzáln´ı a pˇrenositelnou aplikaci v jazyce Python, která bude tento problém ˇreˇsit. Na základˇe analýz moˇznost´ı komunikace výˇse zm´ınˇených systém˚u je vytvoˇrena univerzáln´ı aplikace, která se skládá z nˇekolika Python skript˚u.

Univerzálnost a pˇrenositelnost je zajiˇstˇena t´ım, ˇze se pro jiný zdroj dat ze Splunku bude mˇenit pouze jeden konfiguraˇcn´ı skript a ostatn´ı z˚ustanou beze zmˇeny. Navrˇzená aplikace byla nasazena do produkce a úspˇeˇsnˇe ˇreˇs´ı prvn´ı use case pro sklad logistiky, který je v této práci popsán.

Kl´ıˇ cov´ a slova:

zpracov´an´ı, transformace a pˇrenos velk´ych dat, big data, Splunk, Python, Cloudera Hadoop, Power BI

Automotive Logistic Big Data Analysis

Abstract

The issue discussed in this work concerns processing, transforming and transferring of data from Splunk platform to Cloudera Hadoop data lake and then to Power BI.

The main goal of this work is to design and implement a universal and transferable application in Python language which is supposed to solve this issue. The universal

(7)

application consisting of several Python scripts is based on analyses of communi- cation capabilities between the systems mentioned above. For any other source of Splunk type data, there is only one configuration script that needs to be changed, hence the needs of universality and transferability are met. The application was put into production and is now solving first use case in a logistic warehouse which is described in this work.

Key words:

processing, transforming and transferring of big data, big data, Splunk, Python, Cloudera Hadoop, Power BI

(8)

Obsah

Seznam obr´azk˚u. . . 10

Seznam zkratek . . . 11

Uvod´ 12 1 Big Data 14 1.1 Historie . . . 15

1.2 Souˇcasn´y stav . . . 16

1.2.1 Pˇrek´aˇzky . . . 17

1.2.2 Datov´a ´uloˇziˇstˇe . . . 17

1.2.3 Datov´a anal´yza . . . 21

2 N´astroje pro big data 23 2.1 Splunk . . . 23

2.1.1 Nasazen´ı Splunku . . . 24

2.1.2 Search Processing Language . . . 25

2.1.3 Pouˇzit´ı . . . 25

2.1.4 Dalˇs´ı vlastnosti . . . 27

2.2 Apache Hadoop . . . 27

2.2.1 Hadoop ekosyst´em - z´akladn´ı moduly . . . 27

2.2.2 Hadoop ekosyst´em - pˇr´ıdavn´e moduly . . . 29

2.2.3 Hadoop distribuce . . . 31

2.3 Power BI. . . 31

3 N´avrh ˇreˇsen´ı 33 3.1 Souˇcasn´y stav . . . 33

3.2 Anal´yza zp˚usobu komunikace mezi syst´emy . . . 34

3.2.1 Pˇrenos dat ze Splunku do Cloudera Hadoop . . . 35

3.2.2 Pˇrenos dat ze serveru do Cloudery Hadoop . . . 37

3.2.3 Pˇrenos dat z Hadoop do Power BI . . . 37

3.2.4 Pˇrenos logovan´ych event˚u do Splunku. . . 38

3.3 N´avrh univerz´aln´ı aplikace . . . 38

4 Implementace ˇreˇsen´ı 40 4.1 Implementace datov´eho toku . . . 40

4.2 Vytvoˇren´a aplikace . . . 42

4.3 Logov´an´ı a testov´an´ı ˇreˇsen´ı. . . 48

(9)

4.3.1 Logován´ı událost´ı . . . 48 4.3.2 Testován´ı kódu . . . 50 4.4 Kontrola datového toku a výsledná analýza dat . . . 52

5 Z´avˇer 56

A Obsah pˇriloˇzen´eho CD 60

(10)

Seznam obr´ azk˚ u

1.1 3 V’s of big data. Pˇrevzato z [4].. . . 16

2.1 Vzorov´y model Splunk architektury . . . 24

2.2 Ukázka výsledku vyhledáván´ı z testovac´ıho datasetu . . . 25

2.3 Cloudera Hadoop ekosyst´em. Pˇrevzato z [16]. . . 30

4.1 Sch´ema datov´eho toku . . . 40

4.2 Sch´ema aplikace . . . 42

4.3 Sch´ema datov´eho modelu . . . 47

4.4 Ukázka úspˇeˇsných event˚u odeslaných do Splunku . . . 49

4.5 Uk´azkov´a vizualizace 1. Data byla upravena. . . 54

4.6 Uk´azkov´a vizualizace 2. Data byla upravena. . . 55

(11)

Seznam zkratek

TB Terabyte

BI Business Intelligence SW Software

SQL Structured Query Language

CAP Consistency, Availability and Partition Tolerance ACID Atomicity, Consistency, Isolation and Durability DML Data Manipulation Language

DDL Data Definition Language

RDBMS Relational Database Management System DW Data Warehouse

DL Data Lake

ODBC Open Database Connectivity SPL Search Processing Language HTTP Hypertext Transfer Protocol

HTTPS Hypertext Transfer Protocol Secure

(12)

Uvod ´

Pojem big data v souˇcasné dobˇe nemá sjednocenou a ustálenou definici. Existuje jich v´ıce, jelikoˇz kaˇzdý m˚uˇze vn´ımat vlastnosti velkých dat trochu jinak. Dle mého názoru je nejlépe vystihuj´ıc´ı Gartnerova definice: Velká data jsou velkoobjemová, rychlá a/nebo r˚uznorodá informaˇcn´ı aktiva, která vyˇzaduj´ı nákladovˇe efektivn´ı, inovativn´ı formy zpracován´ı informac´ı, které umoˇzˇnuj´ı lepˇs´ı pˇrehled, rozhodován´ı a automatizaci proces˚u [3]. Podrobnˇejˇs´ı vysvˇetlen´ı se nacház´ı dále v kapitole 1.

Dle [1] je pojem big data v souˇcasnosti velice pouˇz´ıvaný oproti pˇredchoz´ım rok˚um. At’ uˇz jde o automobilový nebo jiný pr˚umysl, tento pojem se v r˚uzných odvˇetv´ıch vyskytuje ˇcasto. V návaznosti na to nen´ı úplnˇe problém big data z´ıskat nebo je generovat. Problém spoˇc´ıvá v jejich zpracován´ı a obecnˇe v manipulaci s nimi.

Existuje mnoho systém˚u, které dokáˇz´ı big data zpracovávat, ukládat a trans- formovat. Správný výbˇer systému závis´ı na v´ıce ukazatel´ıch, napˇr´ıklad na cenové dostupnosti, zkuˇsenostech se systémy, jejich spoleˇcné komunikaci a podobnˇe. V této práci se jedná o následuj´ıc´ı: Splunk pro z´ıskáván´ı dat a jejich prvotn´ı parsován´ı a vizualizaci, Cloudera Hadoop pro jejich ukládán´ı a Power BI pro koncovou datovou analýzu.

Tato práce se zabývá pˇrenosem, zpracován´ım a transformac´ı dat právˇe mezi tˇemito systémy za úˇcelem z´ıskán´ı dat ze Splunku do data lake Cloudera Hadoop pro jejich ukládán´ı a následnˇe z´ıskán´ı z data lake do Power BI. Jak je popsáno v kapitole3.2, je v´ıce zp˚usob˚u, jak toho doc´ılit. C´ılem je zautomatizovat celý proces z´ıskáván´ı dat ze Splunku do Cloudera Hadoop. To hlavnˇe z d˚uvodu zamezen´ı moˇzné chybovosti pˇri ruˇcn´ım exportován´ı dat (do csv soubor˚u), uˇsetˇren´ı práce, náklad˚u a ˇcasu. Tato úskal´ı spolu s pˇresnˇejˇs´ım popisem ruˇcn´ıho z´ıskáván´ı dat ze Splunku

(13)

jsou pops´ana v kapitole 3.1.

Vytvoˇrená aplikace v jazyce Python ˇreˇs´ı prvn´ı pˇrenos dat mezi systémem Splunk a Cloudera Hadoop. D˚uraz byl kladen na univerzálnost a pˇrenositelnost aplikace. To je z toho d˚uvodu, ˇze pˇrenos˚u dat pro r˚uzné aplikace (myˇsleno r˚uzná data z r˚uzných systém˚u) bude pˇribývat. V této práci byl ˇreˇsen pˇrenos dat konkrétnˇe pro sklad logistiky.

V závˇeru práce je vytvoˇrena datová analýza v Power BI pro otestován´ı funkˇcnosti celého datového toku a základn´ı ukázková vizualizace.

(14)

1 Big Data

Co vlastnˇe term´ın big data znamená? Na to nen´ı bohuˇzel v souˇcasnosti jednoduché odpovˇedˇet. V dneˇsn´ı dobˇe je to velice pouˇz´ıvaný term´ın, který nabývá na popularitˇe.

Souˇcasná spoleˇcnost je obklopena velkým mnoˇzstv´ım zaˇr´ızen´ı vˇseho moˇzného druhu, která velká data generuj´ı nebo jiˇz zpracovávaj´ı.

Definice

Definice big data má za sebou dlouhý vývoj vzhledem k vývoji technologi´ı a spoleˇcnosti. V souˇcasnosti neexistuje jednotná ustálená definice. Mnoho vˇedeckých pracovn´ık˚u a ˇreditel˚u spoleˇcnost´ı zavedlo své definice na základˇe analytických pˇr´ıstup˚u nebo pro svá vyuˇzit´ı velkých dat. Napˇr´ıklad dle útvaru Leadership Coun- cil for Information Advantage je big data souhrn nekoneˇcných dataset˚u (sestavená pˇreváˇznˇe z nestrukturovaných dataset˚u) [2]. Tato definice se zamˇeˇruje primárnˇe na velikost dat, coˇz je obecný problém v tˇechto definic´ıch, protoˇze tato definice unikátnˇe nedefinuje big data od jiného datasetu. Jak je popsáno v kapitole1.1, charakteristik jako velikost dat je v´ıce a proto existuj´ı lepˇs´ı definice, neˇz je tato. Gartnerova definice je pravdˇepodobnˇe nejlépe vystihuj´ıc´ı charakteristikou big data: Velká data jsou vel- koobjemová, rychlá a/nebo r˚uznorodá informaˇcn´ı aktiva, která vyˇzaduj´ı nákladovˇe efektivn´ı, inovativn´ı formy zpracován´ı informac´ı, které umoˇzˇnuj´ı lepˇs´ı pˇrehled, roz- hodován´ı a automatizaci proces˚u [3].

Ovˇsem z definice nevyplývá pˇresná velikost dat, jen jejich vlastnosti. Nen´ı totiˇz pˇresnˇe definováno, jaký objem dat je povaˇzován za big data. Lze ovˇsem pˇredpokládat, ˇze by se mohlo jednat o des´ıtky TB a v´ıce.

(15)

Business Inteligence

Stejnˇe jako big data, BI nemá jednotnou definici. Tento term´ın si opˇet proˇsel velkým vývojem, ovˇsem prvn´ı zm´ınka byla v roce 1958 ze spoleˇcnosti IBM [6]. Jedna z mnoha definic je napˇr´ıklad tato: BI je framework sestávaj´ıc´ı z mnoˇziny koncept˚u, teori´ı a metod pro vylepˇsen´ı obchodn´ıho rozhodován´ı skrze pomocné systémy [7]. Zjed- noduˇsenˇe ˇreˇceno, jedná se o sadu nástroj˚u, které pracuj´ı s daty za úˇcelem interpretace výsledk˚u. Pˇr´ıkladem jsou nástroje Power BI, SAP BI, Splunk a dalˇs´ı.

1.1 Historie

Prvn´ı zm´ınka o term´ınu big data pocház´ı z roku 1980. Výzkumn´ıci z Oxford English Discovery zjistili, ˇze sociolog Charles Tilly byl prvn´ım ˇclovˇekem, který pouˇzil term´ın big data v jedné vˇetˇe svého ˇclánku. Zaj´ımavost´ı je, ˇze jiˇz v roce 1944 Fremont Ryder spekuloval o tom, ˇze v roce 2040 bude m´ıt knihovna Yale 200 milión˚u záznam˚u kv˚uli explozi informac´ı.

Mezi lety 1997 a 2000 byl term´ın big data pouˇz´ıván v r˚uzných akademických ˇclánc´ıch. Avˇsak v roce 2001 pˇriˇsel prvn´ı zlomový bod ohlednˇe tohoto term´ınu. Byla to takzvaná

”3 V’s of big data. High-volume, High-velocity and High-variety.“ Auto- rem je Doug Laney [3]. Doug Laney poukazuje na velikost dat (high-volume), rychlost, kterou jsou data generov´ana (high-velocity) a r˚uznorodost dat (high-variety).

Modifikace modelu 3 V’s je 4 V’s, kter´a pˇriˇsla v roce 2011 od spoleˇcnosti IBM.

Volume, Velocity a Variety z˚ustávaj´ı, ale je k nim nav´ıc pˇridáno Veracity, coˇz znaˇc´ı kvalitu dat, která jsou dostupná k analýze. Pokud je low veracity, znamená to, ˇze se v datech nacház´ı vˇetˇs´ı procento nepotˇrebných nebo nezaj´ımavých údaj˚u. Do toho vstupuj´ı i chybˇej´ıc´ı údaje a podobnˇe.

Je moˇzné ˇr´ıci, ˇze rok 2005 byl pro term´ın big data zlomový. V roce 2005 Tim O’reilly publikoval ˇclánek

”What is web 2.0“, ve kterém byl pouˇzit term´ın big data v modern´ım kontextu [5]. Zároveˇn v tento rok byl vytvoˇren Framework Hadoop spoleˇcnost´ı Yahoo!. Hadoop byl nasazen nad jiˇz existuj´ıc´ı model MapReduce od spoleˇcnosti Google, který byl vytvoˇren v roce 2004. Obˇe tyto technologie jsou kl´ıˇcové

(16)

pro pr´aci s velk´ymi daty.

Obr´azek 1.1: 3 V’s of big data. Pˇrevzato z [4].

Problém v dobách bez tˇechto systém˚u spoˇc´ıval v tom, ˇze se data dala pouze z´ıskávat, ale nebylo moˇzné s nimi dále efektivnˇe nakládat. Neexistovaly ˇzádné pro- pracované systémy pro jejich zpracován´ı jako Hadoop a MapReduce. Tyto technologie pˇriˇsly aˇz v nadcházej´ıc´ıch letech.

Následuj´ıc´ı roky pˇricházely vyhledávac´ı systémy, NoSQL databáze a dalˇs´ı, o kterých je napsáno v dalˇs´ıch kapitolách.

1.2 Souˇ casn´ y stav

Big data jsou spojena s velkými datasety a s velikost´ı dat, která je nad rámec flexibility bˇeˇzných relaˇcn´ıch databáz´ı k z´ıskán´ı, uloˇzen´ı, zpracován´ı a vyhodnocen´ı dat.

(17)

V dneˇsn´ım digitáln´ım svˇetˇe jsou data generována z r˚uzných zdroj˚u a velkou rychlost´ı pˇremist’ována z jednoho m´ısta na druhé. Analýza velkých dataset˚u umoˇznila obrovský posun v mnoha odvˇetv´ıch.

1.2.1 Pˇ rek´ aˇ zky

Soukrom´ı

Soukrom´ı je jednou z nejvˇetˇs´ıch pˇrekáˇzek nejen v oblasti velkých dat. Naprostá vˇetˇsina lid´ı má obavy ohlednˇe zpracován´ı jejich osobn´ıch informac´ı. Jak bylo jiˇz zm´ınˇeno, big data jsou vˇsude kolem nás a zaˇr´ızen´ı, která lidé vlastn´ı, je vyuˇz´ıvaj´ı.

Pˇr´ıkladem by mohla být analýza zákazn´ık˚u na základˇe nakupovac´ıch vzor˚u: kde zákazn´ıci nakupuj´ı, co nakupuj´ı a za kolik penˇez. To uˇz samozˇrejmˇe supermarkety v dneˇsn´ı dobˇe vyuˇz´ıvaj´ı pomoc´ı karet pro zákazn´ıky.

ˇSum v datech

Bohuˇzel data nejsou vˇzdy ˇcistá a proto je potˇreba je od ˇsumu vyˇcistit. Tomuto procesu ˇciˇstˇen´ı dat se ˇr´ıká data cleansing nebo data wragling. Jde o situaci, kdy v atributech nˇekteré hodnoty chybˇej´ı, nebo kdy obsahuj´ı hodnoty, které tam nepatˇr´ı (nˇekteré jsou nav´ıc) a podobnˇe. ˇCasto se stane, ˇze z vˇetˇs´ı mnoˇziny dat je ve výsledku znatelnˇe menˇs´ı mnoˇzina. Jde v podstatˇe o takovou hru, kdy se hledá jen to podstatné a data se r˚uznˇe transformuj´ı do pˇrehlednˇejˇs´ı podoby.

1.2.2 Datov´ a ´ uloˇ ziˇ stˇ e

Pravdˇepodobnˇe nejjednoduˇsˇs´ım zp˚usobem ukládán´ı dat v poˇc´ıtaˇc´ıch je stále uloˇzen´ı do souboru. K tomu nen´ı zapotˇreb´ı ˇzádný speciáln´ı SW, pouze textový nebo binárn´ı soubor. Nen´ı potˇreba ˇzádné speciáln´ı pˇripojen´ı, staˇc´ı m´ıt pˇr´ıstup k souboru a práva zapisovat do nˇej. Nevýhodou se stává nekonzistence dat souboru a jeho následné pro- hledáván´ı. Pˇri zvˇetˇsuj´ıc´ı se velikosti souboru je obt´ıˇznˇejˇs´ı jeho zpracován´ı. V dneˇsn´ı dobˇe se kv˚uli big data mluv´ı o NoSQL databáz´ıch, pˇritom souˇcasné klasické relaˇcn´ı databáze jsou mnohdy lepˇs´ım ˇreˇsen´ım.

(18)

Relaˇcn´ı datab´aze

Relaˇcn´ı databáze maj´ı za sebou dlouhou historii vývoje, a t´ım pádem stoj´ı na pevné p˚udˇe. Jedna z jejich nejvˇetˇs´ıch výhod je dotazovac´ı jazyk SQL. Ten má pevný mate- matický základ, a proto jsou v mnoha pˇr´ıpadech relaˇcn´ı databáze lepˇs´ım ˇreˇsen´ım neˇz NoSQL. Relaˇcn´ı databáze je typ databáze, která ukládá a zprostˇredkovává pˇr´ıstup datovým bod˚um, které jsou spoleˇcnˇe propojeny. Zároveˇn jsou zaloˇzeny na relaˇcn´ım modelu, coˇz je intuitivn´ı pˇr´ımoˇcará cesta reprezentován´ı dat v tabulkách. [8]

V´yhody:

• SQL

• Pevnˇe dan´a struktura

• Rozs´ahl´a komunita

• Transakce

• Rychlost vyhledáván´ı Nevýhody:

• Vertik´aln´ı ˇsk´alovatelnost (vyˇsˇs´ı cena)

• Pˇri r˚ustu objemu dat roste sloˇzitost udrˇzitelnosti a flexibility

NoSQL datab´aze

Databáze NoSQL (Not only SQL) je databáze, která se pouˇz´ıvá pro ukládán´ı velkého mnoˇzstv´ı dat. Databáze jsou distribuovaná, nerelaˇcn´ı, open source a horizontálnˇe ˇskálovaná [9]. Jsou navrˇzena pro distribuovaná datová úloˇziˇstˇe. V souˇcasné dobˇe se neukládaj´ı pouze data ve formˇe textu. Je potˇreba uloˇzit sociáln´ı vazby (grafy), geo- grafická data, logy systém˚u (kdy jejich velikost ˇcasto exponenciálnˇe roste), a právˇe proto jsou navrˇzeny NoSQL databáze. Pravdˇepodobnˇe nejvˇetˇs´ı nevýhodou oproti relaˇcn´ım databáz´ım je absence transakc´ı ve vˇetˇsinˇe NoSQL databáz´ı. Zde plat´ı tak- zvaný CAP teorém. CAP teorém znamená konzistenci, dostupnost a odd´ılovou to- leranci.

(19)

• Konzistence: Data dostupn´a na vˇsech stroj´ıch po aktualizac´ıch a dalˇs´ıch akc´ıch

• Dostupnost: Data mus´ı b´yt vˇzdy dostupn´a

• Odd´ılná tolerance: Po dobu chybovosti stroje nebo nˇejaké chyby databáze mus´ı fungovat v bˇeˇzném reˇzimu bez zastaven´ı ˇcinnosti

Bohuˇzel nelze splnit vˇsechny tˇri moˇznosti, a proto se vol´ı kombinace po dvou dle poˇzadavk˚u. Typicky se vol´ı kombinace konzistence a dostupnosti.

V´yhody:

• Moˇznost volen´ı datab´aze dle datov´eho modelu

• Nevyˇzaduj´ı pevné schéma databáze

• Podpora nestrukturovaných dat a nepˇredv´ıdatelných dat Nevýhody:

• Nepouˇz´ıvaj´ı se JOIN operace

• Nem´a deklarativn´ı dotazovac´ı jazyk

• Pˇr´ıpadn´a konzistence upˇrednostnˇena pˇred ACID vlastnostmi

Dokumentovˇe orientovan´e NoSQL datab´aze

Dle pr˚uzkumu StackOverflow z roku 2019 je nejrozˇs´ıˇrenˇejˇs´ı NoSQL databáz´ı Mon- goDB z této kategorie [10]. Na rozd´ıl od relaˇcn´ıch databáz´ı, kde jsou data uloˇzena v tabulkách, dokumentovˇe orientované databáze maj´ı dokumenty. Dokumenty lze zhruba pˇrirovnat k ˇrádk˚um v tabulce, ale s t´ım rozd´ılem, ˇze dokumenty jsou mnohem v´ıce flexibiln´ı, protoˇze jsou bez pˇredem daného schématu (schema-less). Doku- menty bývaj´ı standardn´ıho formátu (xml, json). Zde je opˇet vidˇet velký rozd´ıl od relaˇcn´ıch databáz´ı, protoˇze jsou ˇrádky v tabulce ˇcasto identické (myˇsleno v ideáln´ım pˇr´ıpadˇe, kdy jsou data konzistentn´ı a napˇr´ıklad v atributu datum se opravdu nacház´ı datum), kdeˇzto v pˇr´ıpadˇe dokumentovˇe orientovaných databáz´ı m˚uˇze být struktura jednotlivých dokument˚u naprosto odliˇsná, ale také v´ıce ˇci ménˇe podobná [11].

(20)

Grafov´e datab´aze

Grafové databáze jsou v podstatˇe zaloˇzeny na teorii graf˚u. Grafy jsou sloˇzeny z vr- chol˚u, hran a jejich ohodnocen´ım (vztah). V tˇechto databáz´ıch vrcholy znamenaj´ı entity, ohodnocené hrany mezi vrcholy znaˇc´ı atributy a hrany reprezentuj´ı vztah mezi vrcholy.

V relaˇcn´ıch databáz´ıch je obrovský problém naznaˇcit vztahy mezi objekty, a to je právˇe silnou stránkou grafových databáz´ı. Pravdˇepodobnˇe nejznámˇejˇs´ım pˇr´ıkladem je databáze Neo4j [12].Ta umoˇzˇnuje efektivn´ı grafové zpracován´ı v reálném ˇcase pomoc´ı pˇr´ımého indexovaného pˇr´ıstupu k sousedn´ım uzl˚um z daného uzlu [13].

Nˇekteré grafovˇe orientované databáze mohou splˇnovat ACID. Ovˇsem vzniká otázka za jakou cenu. Pointa pouˇz´ıván´ı NoSQL databáz´ı je v jejich s´ıle ˇskálovatelnosti a práce s big daty, ovˇsem pokud jsou pouˇzity ”levnˇe”, jsou NoSQL databáze pouˇzity jako alternativa k RDBMS.

Datab´aze typu kl´ıˇc-hodnota

Jak název napov´ıdá, data jsou uloˇzena v páru kl´ıˇc hodnota. Dalo by se ˇr´ıci, ˇze tento typ databáz´ı je v podstatˇe rodiˇcem vˇsech NoSQL databáz´ı [11]. Kl´ıˇc je unikátn´ı identifikátor k daným dat˚um. Nejpouˇz´ıvanˇejˇs´ım zástupcem tohoto typu databáze je dle dotazn´ıku Redis [10]. Zároveˇn je to dle hodnocen´ı nejv´ıce obl´ıbená databáze mezi vývojáˇri.

Data Warehouse

Data warehouse (DW) je velkokapacitn´ı úloˇziˇstˇe, které je um´ıstˇeno nad databázemi.

Je navrˇzeno pro ukládán´ı stˇrednˇe velkých strukturovaných dat pro ˇcasté a opakované analýzy. ˇCasté vyuˇzit´ı DW je ke sdruˇzován´ı dat z v´ıce zdroj˚u. Nˇekteré DW jsou schopné pracovat s nestrukturovanými daty, ale nen´ı to bˇeˇzné. Protoˇze jsou data strukturovaná, schéma je determinováno jeˇstˇe pˇred t´ım, neˇz mohou být data pˇridána do DW.

Charakteristiky:

(21)

• Data jsou typicky nahrávána z transakˇcn´ıch systém˚u a zároveˇn jsou oˇciˇstˇena

• Zachycuje data a organizuje do sch´emat

• Sch´ema je definov´ano jeˇstˇe pˇred t´ım, neˇz se data nahraj´ı

• Pouˇzit´ı pro generov´an´ı report˚u a dashboard˚u

Typick´ymi z´astupci DW jsou SAP Bussiness Warehouse, Snowflake a Oracle Exadata Database Machine.

Data Lake

Data lake (DL) je centralizované úloˇziˇstˇe navrˇzené pro ukládán´ı strukturovaných i nestrukturovaných dat jakéhokoliv typu a bez velikostn´ıch limit˚u. Typicky se data pˇrenesou rovnou ze systém˚u, které je generuj´ı, pˇr´ımo do DL bez jakékoliv úpravy.

Kaˇzdému datovému elementu DL pˇriˇrad´ı unikátn´ı identifikátor, který je uloˇzen, a následnˇe umoˇzˇnuje lehˇc´ı vyhledáván´ı pomoc´ı dotaz˚u. DL je sp´ıˇse povaˇzován za big data platformu pro nestrukturovaná data.

Charakteristiky:

• Data jsou typicky nestrukturovan´a, ve sv´e p˚uvodn´ı podobˇe

• Ideáln´ı úloˇziˇstˇe pro hluboké analýzy nestrukturovaných dat s pomoc´ı analy- tických nástroj˚u, strojového uˇcen´ı a podobnˇe

• Schéma je definováno aˇz po uloˇzen´ı dat. D´ıky tomu nen´ı potˇrebná prvotn´ı reˇzie a d˚usledkem je vyˇsˇs´ı flexibilita

Typick´ymi pˇredstaviteli DL jsou Hadoop, Microsoft Azure Data Lake, Amazon AWS Data Lake.

1.2.3 Datov´ a anal´ yza

Datová analýza je proces, který pˇrinese dat˚um smysl [14]. Obecnˇe se skládá z nˇekolika krok˚u, které na sebe navazuj´ı. Zároveˇn se mohou jednotlivé kroky mˇenit

(22)

v závislosti na tom, jestli jsou data strukturovaná nebo nestrukturovaná, pokud jsou jiˇz dopˇredu pˇripravená a podobnˇe. Pokud data nejsou nijak oˇciˇstˇená, to znamená, ˇze jsou v p˚uvodn´ı podobˇe, je prvn´ım krokem oˇciˇstˇen´ı dat. To je proces, kdy je potˇreba proj´ıt velkou ˇcást´ı datasetu, naj´ıt chybˇej´ıc´ı a nepotˇrebná data, duplicitn´ı hodnoty, anomálie a nˇejakým zp˚usobem napravit tyto nedostatky. Zde je potˇreba znát kaˇzdý atribut a význam celého datasetu, jelikoˇz odstranˇen´ı nˇekterých atribut˚u, byt’ jejich hodnoty mohou být napˇr´ıklad nˇekde prázdné a podobnˇe, m˚uˇze být kritickou chybou pro datovou analýzu. V dalˇs´ım kroku prob´ıhá analýza kvality datasetu pomoc´ı statistických metod, jako výpoˇcet mediánu, smˇerodatné odchylky a podobnˇe.

V tomto kroku se zjist´ı, jak je dataset rozloˇzen a jaké má vlastnosti. Následnˇe jiˇz m˚uˇze prob´ıhat samotná datová analýza pomoc´ı analytických nástroj˚u jako Splunk 2.1, Power BI 2.3 a dalˇs´ı.

(23)

2 N´ astroje pro big data

V této kapitole jsou popsány nástroje, které jsou pouˇzity v této práci. Nástroj˚u existuje v´ıce, ale c´ılem bylo propojit právˇe tyto konkrétn´ı nástroje pro práci s velkými daty.

2.1 Splunk

Splunk je softwarová platforma, která slouˇz´ı primárnˇe ke zpracován´ı a vizualizaci typicky strojových dat (napˇr´ıklad data ze senzor˚u, robot˚u, komunikaˇcn´ıch proto- kol˚u (MQ, MQTT) a dalˇs´ı). Splunk akceptuje témˇeˇr jakýkoliv formát dat hned po instalaci. Jinými slovy, Splunk nemá pevnˇe definované schéma. Naopak provád´ı ex- trakci atribut˚u v ˇcase hledán´ı. Mnoho datových formát˚u je rozpoznáno ihned (json, csv...), ty které nejsou, mohou být specifikovány v konfiguraˇcn´ıch souborech nebo aˇz pˇri hledac´ıch výrazech. Splunk je tedy nástroj pro vyhledán´ı, analýzu a reporting velkého mnoˇzstv´ı dat, typicky strojových dat v reálném ˇcase. Tento nástroj je op- timalizovaný pro rychlé indexován´ı a naˇc´ıtán´ı perzistentn´ıch nestrukturovaných dat do systému. Splunk je nástroj, který primárnˇe pouˇz´ıvá logy. Zároveˇn nemus´ı fungovat jako nástroj pro reporting v reálném ˇcase, i kdyˇz v tom je jeho velká s´ıla. Soubory do nˇej mohou být nahrány jednotlivˇe pro jednoúˇcelové datové analýzy. Bˇehem fáze indexován´ı, kdy Splunk zpracovává pˇr´ıchoz´ı data, indexer udˇelá velký zásah: oddˇel´ı od sebe jednotlivé události, kdy jedna událost koresponduje s jedn´ım záznamem v souboru. Kaˇzdé události pˇridá timestamp a nˇekteré dalˇs´ı atributy jako napˇr´ıklad stroj, ze kterého záznam pocház´ı. Poté jsou kl´ıˇcová slova události pˇridána do in- dexového souboru pro zrychlen´ı pozdˇejˇs´ıho vyhledáván´ı a samotné textové události

(24)

jsou komprimovány do soubor˚u pˇr´ımo v souborovém systému.

2.1.1 Nasazen´ı Splunku

Nasazen´ı spoˇc´ıvá v tom, ˇze se nainstaluje forwarder na m´ısto (typicky server), kde je uloˇzen log soubor. Tento forwarder pˇrepos´ılá data z logu do indexeru. Indexer je komponenta, která je um´ıstˇena jiˇz na Splunk serveru, a která efektivnˇe uchovává data na nˇejakou definovanou dobu. Tato data jsou indexována pro rychlé vyhledáván´ı a nad nimi je jiˇz pouˇzita fináln´ı komponenta search head, pomoc´ı které se provád´ı analýza dat. Vzorový model by mohl vypadat napˇr´ıklad takto.

Obr´azek 2.1: Vzorov´y model Splunk architektury

Na tomto modelu lze vidˇet, ˇze kaˇzdá aplikace má sv˚uj vlastn´ı forwarder. To je z toho d˚uvodu, ˇze instalace forwarderu je um´ıstˇena k samotným log˚um. Zároveˇn jiˇz

(25)

na forwarderu se mohou filtrovat data, která má pos´ılat indexeru, coˇz je pro kaˇzdou aplikaci jinak. Indexer jiˇz nemus´ı být jiný pro r˚uzné aplikace.

2.1.2 Search Processing Language

Tento jazyk obsahuje mnoho pˇr´ıkaz˚u, funkc´ı a argument˚u, které jsou napsány tak, aby bylo pouˇzit´ı co nejjednoduˇsˇs´ı a zároveˇn efektivn´ı za úˇcelem z´ıskán´ı poˇzadovaných výsledk˚u z dat. Existuj´ı následuj´ıc´ı komponenty SPL:

Hledan´e v´yrazy

To jsou konkrétn´ı výrazy, které jsou psány ve vyhledávac´ım boxu pro z´ıskán´ı speci- fických záznam˚u z dat, která splˇnuj´ı daná kritéria.

1 index=* host="bro_http" 404 | table time src url

Zdrojový kód 1: Ukázka SPL na testovac´ı dataset

Tento search job prohledá vˇsechny indexy. Host se oznaˇcuje konkrétn´ı zdroj zaˇr´ızen´ı. Najde události, ve kterých se vyskytuje ˇretˇezec 404, a následnˇe data pˇretransformuje do podoby následuj´ıc´ı tabulky.

Obrázek 2.2: Ukázka výsledku vyhledáván´ı z testovac´ıho datasetu

2.1.3 Pouˇ zit´ı

Splunk je výraznˇe pouˇz´ıvaný ve velkých spoleˇcnostech, typicky tam, kde jsou výrobn´ı linky. Forwarder je nasazen na úloˇzných m´ıstech, kde jsou ukládány logy, at’ uˇz

(26)

z výrobn´ıch systém˚u nebo z jiného m´ısta. Pˇri nˇejaké zmˇenˇe, nebo v definovaných intervalech forwarder pos´ılá data do Splunku, kde prob´ıhá datová analýza a jej´ı výsledky jsou zobrazeny pomoc´ı graf˚u, statistik a tabulek v reportech, dashboardech a alertech.

Reporty

Reporty jsou výsledky vyhledávac´ıch dotaz˚u, které mohou zobrazit statistiky a vizualizace událost´ı. Reporty mohou být spuˇstˇeny kdykoliv a mohou zachytit nejnovˇejˇs´ı data pˇri kaˇzdém spuˇstˇen´ı. Zároveˇn mohou být sd´ıleny s ostatn´ımi uˇzivateli a hlavnˇe mohou být pˇridány do dashboard˚u.

Dashboardy

Dashboard je kolekce objekt˚u (report˚u, odkaz˚u a podobnˇe). Umoˇzˇnuj´ı nám kom- binovat v´ıce report˚u dohromady, a t´ım ucelit pˇr´ıbˇeh dat na jedno velké plátno.

Dashboard se skládá z panel˚u, které v sobˇe maj´ı grafy, statistiky a podobnˇe, coˇz jsou jednotlivé reporty.

Alerty

Alerty jsou akce, které se spust´ı pˇri specifické události, kdy jsou splnˇeny urˇcité podm´ınky definované uˇzivatelem. C´ılem alert˚u je z´ıskat napˇr´ıklad logován´ı akc´ı, které jsou nˇejakým zp˚usobem kritické a tyto alerty odeslat pomoc´ı e-mailu nebo na specifický endpoint.

Casovaˇˇ ce

Casovaˇˇ ce slouˇz´ı k nastaven´ı trigger˚u pro spouˇstˇen´ı report˚u automaticky bez uˇzivatelského zásahu. Ty mohou být dle definice spouˇstˇeny v r˚uzných intervalech: mˇes´ıˇcnˇe, týdnˇe, dennˇe nebo pro specifický ˇcasový rozsah. T´ım m˚uˇze doj´ıt k zlepˇsen´ı výkonu (rychlosti) v dashboardech pˇri otevˇren´ı uˇzivatelem. ˇCasovaˇce dis- ponuj´ı moˇznost´ı automatického zas´ılan´ı reportu po skonˇcen´ı ˇcinnosti.

(27)

2.1.4 Dalˇ s´ı vlastnosti

Splunk disponuje mnoha addony a sadami nástroj˚u, které se daj´ı pˇridat k základn´ı verzi. Nˇekteré jsou samozˇrejmˇe placené. Zaj´ımavé addony pro Splunk jsou napˇr´ıklad Splunk Analytics for Hadoop - pro ucelené vyhledáván´ı a analyzován´ı Hadoop dat se Splunk Enterprise. Následnˇe r˚uzné konektory pro pˇr´ıpojen´ı k databázi (ODBC, DB Connect), mobiln´ı addon a Amazon Web Services [15]

Velmi zaj´ımavý nástroj pro Splnuk je Splunk Machine Learning Toolkit, který disponuje knihovnami pro machine learning a Pythonem spolu s knihovnami Pandas, NumPy, SciKit, SciPy a dalˇs´ımi. T´ımto zp˚usobem je moˇzné vyˇreˇsit situaci z´ıskán´ı dat ze Splunku pro machine learning.

2.2 Apache Hadoop

Apache Hadoop je framework, který umoˇzˇnuje distribuované zpracován´ı velkých dataset˚u napˇr´ıˇc clustery s vyuˇzit´ım jednoduchých programovac´ıch model˚u. Je navrˇzen pro ˇskálován´ı od jednoho serveru aˇz k tis´ıc˚um stroj˚u, kde kaˇzdý z nich nab´ız´ı lokáln´ı komunikaci a ukládán´ı. Abychom se nemuseli spoléhat na hardware pro doruˇcen´ı vy- soké dostupnosti, Hadoop je navrˇzen tak, aby detekoval a vyˇreˇsil selhán´ı na aplikaˇcn´ı vrstvˇe. Základn´ı myˇslenka je taková, ˇze se data rozdˇel´ı a uloˇz´ı napˇr´ıˇc kolekc´ı stroj˚u (cluster). Poté je na ˇradˇe práce s daty na m´ıstˇe, kde jsou skuteˇcnˇe uloˇzena. Tedy v tomto pˇr´ıpadˇe uˇz v clusteru. V této fázi je jednoduché pˇridávat stroje do clusteru dle r˚ustu dat.

2.2.1 Hadoop ekosyst´ em - z´ akladn´ı moduly

Hadoop se skládá z mnoha modul˚u, nˇekteré jsou povinné a nˇekteré lze pˇridávat a odeb´ırat dle potˇreby ˇreˇsen´ı.

(28)

Hadoop HDFS

Hadoop HDFS je distribuovaný souborový systém, který pracuje s velkými datasety.

Je to nejspodnˇejˇs´ı vrstva celého Hadoop ekosystému pro ukládán´ı dat. Data mohou být témˇeˇr v jakékoliv formˇe (json, csv, txt, ...).

Soubor, nahraný do HDFS, je rozdˇelen do nˇekolika blok˚u o velikosti 64 MB (základn´ı velikost), kde kaˇzdý blok dostane své unikátn´ı jméno. Po nahrán´ı souboru do clusteru bude kaˇzdý blok uloˇzen do jednoho nodu v clusteru. Na kaˇzdém stroji v clusteru bˇeˇz´ı takzvaný DataNode. O tom, jakým zp˚usobem z´ıskáme z rozdˇelených blok˚u zpˇet p˚uvodn´ı soubor, se stará NameNode. Informace uloˇzené v NameNode se nazývaj´ı Metadata. V rámci bezpeˇcnosti existuje kopie NameNodu pro pˇr´ıpad výpadku hlavn´ıho NameNodu. Dalˇs´ı bezpeˇcnostn´ı prvek je takový, ˇze Hadoop vy- tvoˇr´ı tˇri kopie kaˇzdého bloku souboru a náhodnˇe je rozdˇel´ı do tˇrech nod˚u.

Jeden z hlavn´ıch c´ıl˚u HDFS je rychlé zotaven´ı z hardwarových chyb. Protoˇze jedna HDFS instance se m˚uˇze skládat z nˇekolika tis´ıc server˚u, selhán´ı nˇekterého z nich je nevyhnutelné. HDFS byl postaven tak, aby detekoval tato selhán´ı a automaticky se z nich zotavil. Jinými slovy, HDFS a ostatn´ı hlavn´ı moduly Hadoopu pˇredpokládaj´ı, ˇze hardwarové chyby mohou nastat, a t´ım pádem jsou pˇripraveny na rychlé a automatické zotaven´ı.

Hadoop YARN

Základn´ı myˇslenkou Yarnu je rozdˇelen´ı funkcionalit ˇr´ızen´ı zdroj˚u a plánovaˇce úloh na rozdˇelené daemony. Myˇslenka je taková, ˇze existuje jeden centráln´ı správce zdroj˚u a potom pro kaˇzdý daemon jeden aplikaˇcn´ı správce.

Hadoop MapReduce

MapReduce je model pro paraleln´ı zpracován´ı velkého mnoˇzstv´ı dat. Jelikoˇz sériové zpracován´ı velkého souboru je pomalé, MapReduce je navrˇzen tak, aby zpracovával data paralelnˇe. Soubor je tedy rozdˇelen do blok˚u a kaˇzdý je zároveˇn zpracováván.

(29)

MapReduce se rozdˇeluje na dvˇe ˇcásti. Prvn´ı je mapovac´ı, kdy se nejdˇr´ıve seskup´ı spoleˇcné atributy s hodnotami (key, value) podle kl´ıˇce. Takto seskupené ˇcásti jsou následnˇe dle úlohy poslány na redukˇcn´ı ˇcást, kde jsou data jiˇz seˇrazena a pˇripravena k fináln´ı úpravˇe. Napˇr´ıklad, mˇejme dataset mˇest s obchody a jejich trˇzbami. V mapovac´ı ˇcásti se seskup´ı stejná mˇesta (key) a jejich trˇzby. Následnˇe takto setˇr´ıdˇená mˇesta jsou zvláˇst’ poslána redukˇcn´ı ˇcásti, kde kaˇzdý

”reducer“ poˇc´ıt´a roˇcn´ı trˇzby pro jedno mˇesto.

Psan´ı MapReduce k´odu je podporov´ano jazyky Python, Java, Ruby a dalˇs´ımi.

Hadoop Common

Hadoop Common je kolekce bˇeˇzných utilit a knihoven, které podporuj´ı ostatn´ı moduly. Je to nezbytná ˇcást celého frameworku spolu s Yarn, MapReduce a HDFS.

Je brán jako základn´ı/kl´ıˇcový modul celého frameworku, protoˇze zprostˇredkovává základn´ı sluˇzby jako napˇr´ıklad abstrakci operaˇcn´ıho systému, na kterém je framework nasazen, a i jeho souborového systému.

2.2.2 Hadoop ekosyst´ em - pˇ r´ıdavn´ e moduly

Pˇr´ıdavných modul˚u je opravdu mnoho, proto jsou zde vypsány pouze ty nejznámˇejˇs´ı, které jsou s touto prac´ı do jisté m´ıry spjaty.

Psan´ı MapReduce kódu nen´ı úplnˇe snadné (je vyˇzadována znalost nˇekterého programovac´ıho jazyku podporovaného MapReduce - Java, Python apod.). Proto vznikly nástroje jako je Impala a Hive. Nam´ısto psan´ı kódu tyto nástroje umoˇzˇnuj´ı vyuˇz´ıt SQL pro dotazován´ı. Dalˇs´ı moˇznost´ı je Pig, který umoˇzˇnuje analyzovat data pomoc´ı jednoduchého skriptovac´ıho jazyku.

Impala

Apache Impala je paralelnˇe zpracovávaj´ıc´ı SQL dotazovac´ı nástroj pro data, která jsou uloˇzena v clusteru bˇeˇz´ıc´ım na Apache Hadoop. Impala podporuje HDFS

(30)

i Apache HBase, dále podporuje autentizaci pomoc´ı Kerberos. Nejvˇetˇs´ı výhoda Im- paly je zp˚usob dotazován´ı na HDFS. Impala totiˇz nevyuˇz´ıvá MapReduce, a tedy se dotazuje na pˇr´ımo. T´ım dojde k uˇsetˇren´ı ˇcasu pro startován´ı MapReduce. Pouˇz´ıvá se tedy pro rychlé analýzy nebo pro velké datasety. ˇCasto je Impala pouˇz´ıvána jako nástroj pro z´ıskán´ı dat do Power BI pomoc´ı direct query.

Hive

Hive je pomalejˇs´ı alternativa k Impala, a to z d˚uvodu vyuˇzit´ı MapReduce. Hive interpreter pˇremˇen´ı SQL na MapReduce kód, který je poté spuˇstˇen na clusteru.

Jinými slovy, pˇri kaˇzdém dotazu je nutné spustit MapReduce job. Coˇz m˚uˇze být opravdu pomalé pˇri velkém mnoˇzstv´ı dat. Proto se Hive sp´ıˇse pouˇz´ıvá pˇri menˇs´ım mnoˇzstv´ı dat, nebo u aplikac´ı, kde nezáleˇz´ı na ˇcase dokonˇcen´ı. Hive je optimalizovaný pro spouˇstˇen´ı dlouhých batch-processing jobs.

Hue

Apache Hue je open source online editor, který slouˇz´ı pro práci s daty uloˇzenými v HDFS pomoc´ı SQL. Umoˇzˇnuje pouˇz´ıt nˇekolik interpretr˚u (Impala, Hive, MySQL, SparkSQL a dalˇs´ı). Zároveˇn umoˇzˇnuje generován´ı graf˚u a statistik.

Obr´azek 2.3: Cloudera Hadoop ekosyst´em. Pˇrevzato z [16].

(31)

2.2.3 Hadoop distribuce

Propojit vˇsechny tyto pˇr´ıdavné modely dohromady s hlavn´ımi ˇcástmi Hadoop eko- systému je obecnˇe celkem nároˇcné. Vˇsechny moduly Hadoop ekosystému jsou open- source. Jen nˇekteré moduly spolu nejsou kompatibiln´ı a m˚uˇze nastat hodnˇe kompli- kac´ı. Proto existuj´ı jiˇz r˚uzné distribuce, napˇr´ıklad CDH, která zabal´ı celý ekosystém s pˇr´ıdavnými moduly dohromady pro snadnou instalaci.

Cloudera

Spoleˇcnost Cloudera vlastn´ı Hadoop distribuci nesouc´ı název Cloudera distribution including Apache Hadoop (CDH). Je to open source platformn´ı distribuce zahrnuj´ıc´ı Apache Hadoop, která je postavena tak, aby splˇnovala poˇzadavky spoleˇcnost´ı. Tato distribuce zároveˇn obsahuje mnoho dalˇs´ıch kritických open source projekt˚u, které s Hadoop souvis´ı. Obsahuje tedy Hadoop core, Hive, HBase, Impala, Hue a mnoho dalˇs´ıch [17]. Zároveˇn obsahuje systémy, které pomáhaj´ı s integrac´ı dat a celého systému.

mapR

Alternativn´ı distribuc´ı je mapR. Jedná se o v´ıce univerzáln´ı distribuci, protoˇze nen´ı postavená ˇcistˇe na HDFS. MapR má sv˚uj vlastn´ı souborový systém, MAPRFS. To pˇrináˇs´ı své výhody, hlavnˇe co se týˇce bezpeˇcnosti.

2.3 Power BI

Power BI je nástroj od spoleˇcnosti Microsoft, který se pouˇz´ıvá pro datovou analýzu.

Skládá se z mnoha konektor˚u, sluˇzeb a aplikac´ı. Je moˇzné ho pouˇz´ıt v podobˇe desk- topové nebo mobiln´ı aplikace. Power BI disponuje mnoha konektory pro naˇcten´ı dat, jako naˇcten´ı ze souboru, z databáze nebo z cloudové ˇci jiné datové platformy. Napˇr´ıklad pro Hadoop existuje Power BI konektor pro Impalu. Protoˇze je objem dat ˇcasto velký a kaˇzdá aktualizace dat (napˇr´ıklad z databáze) trvá delˇs´ı

(32)

dobu (v závislosti na objemu dat), Power BI disponuje takzvaným direct query. To umoˇzˇnuje naˇc´ıtat data ze zdroje definovaný ˇcas (pouze nová data).

Práce s Power BI pˇri tvorbˇe report˚u je celkem intuitivn´ı, ale zároveˇn to neub´ırá na

´

uˇcinnosti. To stejné plat´ı i pro naˇc´ıtán´ı dat z r˚uzných zdroj˚u. Pˇri práci se souborem (napˇr´ıklad csv), Power BI pozná oddˇelovaˇc a podle nˇej rozdˇel´ı jednotlivé atributy.

Pokud by ho n´ahodou nerozpoznal, je moˇzn´e ho ruˇcnˇe urˇcit.

Pˇri práci s malým objemem dat nebude v desktopové verzi problém. Práce s vˇetˇs´ım poˇctem dat m˚uˇze být uˇz limituj´ıc´ı. Napˇr´ıklad pˇri práci s nˇekolika GB dat z databáze se m˚uˇze zdát, ˇze aktualizace graf˚u je ponˇekud pomalá. Je to z toho d˚uvodu, ˇze po vytvoˇren´ı datových pˇripojen´ı a transformaci dat, jsou data naˇctena do datového modelu pˇr´ımo do aplikace. Jedna z hlavn´ıch pˇrednost´ı Power BI jsou propo- jené komponenty v jednom reportu. To znamená, ˇze pokud jsou v reportu vytvoˇreny vizualizace (graf, tabulka) a zároveˇn nˇejaké filtrován´ı, tak se potom pˇrenese filtrován´ı na kaˇzdou vizualizaci. Zároveˇn vytvoˇrených report˚u m˚uˇze být v´ıce a nˇekteré (nebo vˇsechny) komponenty a filtry mohou být pouˇzity napˇr´ıˇc jednotlivými reporty.

(33)

3 N´ avrh ˇ reˇ sen´ı

V této kapitole je vysvˇetleno, jaký je souˇcasný stav z´ıskáván´ı dat ze Splunku pro sklad logistiky. S t´ım souvis´ı popsán´ı situac´ı, ve kterých vzniká chybovost. Následnˇe je popsáno, jaké jsou moˇznosti komunikace mezi pouˇzitými systémy. Z této analýzy jsou vybrány nejlepˇs´ı zp˚usoby, které jsou následnˇe aplikovány.

3.1 Souˇ casn´ y stav

Ve skladu logistiky jsou autonomn´ı roboti, kteˇr´ı vykládaj´ı boxy do regál˚u a také je nakládaj´ı na pás. Zároveˇn ukládaj´ı své stavy a chyby do soubor˚u. Tyto soubory jsou prohledávány a jejich data jsou nahrávána pomoc´ı Splunk forwarderu do Splunku, kde prob´ıhá datová analýza. Problém je v tom, ˇze pˇr´ıstup ke Splunku je do jisté m´ıry omezen a práce s n´ım vyˇzaduje pokroˇcilé znalosti. Jinými slovy, tvorba report˚u ve Splunku nen´ı tak jednoduchá, jako napˇr´ıklad v Power BI. To znamená, ˇze reporty a dashboardy ve Splunku tvoˇr´ı skupina datových specialist˚u. To stejné plat´ı pro jejich sebemenˇs´ı zmˇeny. Dalo by se totiˇz ˇr´ıct, ˇze Splunk nen´ı urˇcený primárnˇe pro business view.

Konkrétnˇe se jedná o chyby pˇri vykládán´ı box˚u a jejich dalˇs´ı manipulaci. Ve Splunku jsou data oˇciˇstˇena a parsována do pouˇzitelné podoby pro následné vykreslen´ı tabulek a graf˚u. Vˇzdy na konci smˇeny (tedy po 8 hodinách: 6:00, 14:00, 22:00) zamˇestnanec pˇristoup´ı ke Splunku, exportuje naparsovaná a oˇciˇstˇená data do souboru typu csv, který stáhne a nahraje do pˇredem definované sloˇzky s urˇcitým názvem. V této sloˇzce se následnˇe soubory nahrávaj´ı do Power BI. Tento proces je velice neefek- tivn´ı a zdlouhavý. Pˇri tomto procesu vzniká zároveˇn velká chybovost. Exportované

(34)

soubory mus´ı být vˇzdy na konci smˇeny uloˇzeny na stanovené m´ısto s pˇredem defino- vaným jménem. ˇCasto se stává, ˇze tato kritéria nejsou dodrˇzena a následnˇe vznikaj´ı dalˇs´ı problémy. Primárnˇe z tohoto d˚uvodu vznikla tato práce, aby byl celý tento proces efektivnˇejˇs´ı a univerzáln´ı. To znamená jakákoliv data ze Splunku uloˇzit do data lake a následnˇe je z´ıskat do platformy Power BI.

Kritick´a m´ısta pro tento use case jsou tedy n´asleduj´ıc´ı:

• Sloˇzit´a tvorba report˚u ve Splunku (je potˇreba skupina datov´ych specialist˚u)

• Ukládán´ı souboru na správné m´ısto

• Zadáván´ı správného názvu exportovaného csv souboru

• ˇCas trv´an´ı ruˇcn´ıho exportov´an´ı souboru

• ˇCas strávený opravou po pˇr´ıpadném chybném uloˇzen´ı souboru

Kromˇe prvn´ıho bodu jsou ostatn´ı zp˚usobené lidskou chybou, kterou bohuˇzel nelze vˇzdy ovlivnit. Pakliˇze soubor nen´ı na správném m´ıstˇe se správným jménem, nelze ho automaticky nahrát do Power BI. Je tedy potom potˇreba soubor naj´ıt a napravit chybu.

Ovˇsem obecnˇe se jedná o to, ˇze pokud jsou potˇreba data ze Splunku z´ıskat, v souˇcasné situaci je vˇzdy potˇreba data ruˇcnˇe stáhnout. Jde tedy o automatizaci celého tohoto procesu z´ıskáván´ı csv soubor˚u pro libovolný datový zdroj ze Splnuku.

3.2 Anal´ yza zp˚ usobu komunikace mezi syst´ emy

Na úplném zaˇcátku je vˇzdy potˇreba zanalyzovat systémy, které spolu budou nˇejakým zp˚usobem komunikovat. V této práci se jedná hlavnˇe o systém Splunk, Cloudera Ha- doop a Power BI. Existuje nˇekolik zp˚usob˚u, jak pˇrenáˇset data mezi tˇemito systémy.

Vzhledem k tomu, ˇze data jsou jiˇz odes´ılána pomoc´ı Splunk forwarderu na Splunk indexy, staˇc´ı se v tomto pˇr´ıpadˇe zamˇeˇrit na ˇcást pˇrenáˇsen´ı dat mezi Splunkem, Clouderou Hadoop a následnˇe Power BI. Data ze Splunku do Cloudery Hadoop lze pˇrenést v´ıce zp˚usoby.

(35)

3.2.1 Pˇ renos dat ze Splunku do Cloudera Hadoop

Hadoop connector

Prvn´ı moˇznost´ı je odlévat data pˇr´ımo ze Splunku do data lake (Cloudera Hadoop) a z nˇej poté pomoc´ı Impala connectoru do Power BI. Tato moˇznost je pravdˇepodobnˇe nejv´ıce pˇr´ımoˇcará a zdá se nejjednoduˇsˇs´ı. Ovˇsem má to své nevýhody. Tou nejvˇetˇs´ı nevýhodou je zat´ıˇzen´ı Splunku pˇri odléván´ı dat. Uˇz v této situaci je relativnˇe zat´ıˇzen a pˇri dalˇs´ı vˇetˇs´ı zátˇeˇzi by se mohl zpomalit celý jeho chod, coˇz by mˇelo kritický do- pad, jelikoˇz je pouˇz´ıván nejen pro analýzu tohoto skladu, ale pro v´ıce aplikac´ı. Zvláˇst’

kdyˇz jsou chyby generov´any v podstatˇe kaˇzdou minutu.

Z této kritické negativn´ı vlastnosti vyplynulo zam´ıtnut´ı této metody pro tuto aplikaci. Nicménˇe tuto metodu je moˇzné pouˇz´ıt pro doc´ılen´ı jiné potˇreby. Nejvˇetˇs´ı zátˇeˇz totiˇz nespoˇc´ıvá v samotném odléván´ı dat, ale jiˇz v parsován´ı dat. Tedy pokud se pouze odlévaj´ı nezpracovaná raw data nebo s minimáln´ı úpravou, lze tento zp˚usob vyuˇz´ıt jako zálohu dat, jelikoˇz ve Splunk indexerech data z˚ustávaj´ı pˇribliˇznˇe mˇes´ıc (konfigurovatelná doba).

Splunk REST API

Splunk disponuje REST API, pomoc´ı kterého lze z´ıskávat data, zakládat alerty a podobnˇe. Velkou výhodu tohoto API je to, ˇze ho vystavuj´ı i Splunk frontend nody, takˇze zjednoduˇsenˇe ˇreˇceno, pˇripojen´ı pomoc´ı API nezatˇeˇzuje hlavn´ı backen- dový Splunk node.

Splunk nab´ız´ı jiˇz pˇripravené bal´ıˇcky pro práci s REST API pro jazyky Python, Java a dalˇs´ı, které velice usnadˇnuj´ı práci [18]. V této práci je pouˇzit bal´ıˇcek pro Python.

Tento bal´ıˇcek v sobˇe obsahuje ˇreˇsen´ı pro autentizaci, autorizaci, z´ıskáván´ı dat, zakládán´ı alert˚u, odes´ılán´ı soubor˚u do Splunku a dalˇs´ı. Dává tedy nejvˇetˇs´ı smysl pouˇz´ıt právˇe toto ˇreˇsen´ı.

Bal´ıˇcek nab´ız´ı celkem ˇctyˇri moˇzné metody, pomoc´ı kterých lze z´ıskávat data:

• Blocking search. Tento typ vyhledáván´ı umoˇzˇnuje vytvoˇrit search job, který bˇeˇz´ı synchronnˇe v takzvaném blokovac´ım módu. To znamená, ˇze se job vrát´ı

(36)

aˇz poté, co se z´ıskaj´ı vˇsechny výsledky. Z job objektu lze poté z´ıskat v´ıce informac´ı. Napˇr´ıklad, jak dlouho job trval, kolik bylo vráceno event˚u, jaké bylo pˇriˇrazeno job ID a dalˇs´ı.

• Normal search. Normal search vytvoˇr´ı klasický search job, stejnˇe jako blocking search. Rozd´ıl je v tom, ˇze normal search vrát´ı ihned search ID, pomoc´ı kterého je nutné vyhledat search job a následnˇe ho stáhnout. Ovˇsem opˇet se mus´ı ˇcekat, neˇz se search job dokonˇc´ı.

• One-shot search. Toto je ta nejjednoduˇsˇs´ı a nejpˇr´ımoˇcaˇrejˇs´ı metoda. Jedná se o to, ˇze se vytvoˇr´ı takzvaný jednoúˇcelový search. Na rozd´ıl od ostatn´ıch metod nevytváˇr´ı a nevrac´ı search job, ale naopak se zablokuje, dokud nen´ı search dokonˇcen a nen´ı vrácen stream obsahuj´ıc´ı eventy. To také ale znamená, ˇ

ze nejsou vráceny informace o searchi. Je vrácen pouze stream event˚u a pokud nˇekde nastane nˇejaká chyba (napˇr´ıklad v parsován´ı dat nebo v samotném searchi), tak Splunk vrát´ı chybovou hláˇsku, která se m˚uˇze napˇr´ıklad zalogovat.

Tato metoda je z tˇechto d˚uvod˚u v práci pouˇzita, jelikoˇz je ze searche z´ıskáno to nejpodstatnˇejˇs´ı - moˇzná chybová hláˇska a nebo tok event˚u.

• Export search. Export search je ta nejv´ıce spolehlivá metoda, kterou lze z´ıskat vˇetˇs´ı mnoˇzstv´ı dat, protoˇze se eventy vrac´ı jako tok dat na rozd´ıl od ostatn´ıch metod popsaných výˇse, kdy je na serveru po nˇejakou dobu uloˇzen search job. Takˇze jakékoliv limitace ze strany serveru, co se týˇce objemu dat, pro tuto metodu neplat´ı. Export search se spust´ı okamˇzitˇe a zároveˇn hned po spuˇstˇen´ı zaˇcne pˇrenáˇset data klientovi.

Tedy Splunk REST API bylo nakonec vybráno jako implementaˇcn´ı ˇreˇsen´ı pro tuto ˇcást z´ıskáván´ı dat z d˚uvodu velkého mnoˇzstv´ı zp˚usob˚u, jak s daty pracovat a zároveˇn z d˚uvodu menˇs´ıho zat´ıˇzen´ı Splunku. Toto REST API bude komunikovat se Splunkem z linuxového serveru, kde budou um´ıstˇeny Python skripty, generuj´ıc´ı csv soubor.

(37)

3.2.2 Pˇ renos dat ze serveru do Cloudery Hadoop

V dalˇs´ım kroku je potˇreba soubor ze serveru nahr´at do Cloudery Hadoop. To lze doc´ılit pomoc´ı UC4 jobu.

UC4 job

UC4 je software pro plánované spouˇstˇen´ı job˚u, d´ıky kterému lze napˇr´ıklad pˇrenáˇset soubory napˇr´ıˇc architekturami a úloˇziˇsti. Má mnoho konfigurovatelných parametr˚u.

V této práci je pouˇzit právˇe na pˇrenos csv souboru z linuxového serveru, kde csv vzniká, na c´ılový linuxový server, kde se csv ukládá do Cloudery Hadoop. Pˇr´ıklady konfigurovatelných parametr˚u jsou napˇr´ıklad smazán´ı souboru po pˇrenosu, moˇznost zaslat informace o chybném stavu a dalˇs´ı. Tento zp˚usob byl vybrán z d˚uvodu jiˇz otestované funkˇcnosti na jiných projektech.

3.2.3 Pˇ renos dat z Hadoop do Power BI

Opˇet je zde v´ıce moˇznost´ı, jak doc´ılit poˇzadovaného pˇrenosu. Existuje totiˇz v´ıce connector˚u a kaˇzdý z nich funguje trochu jinak. Pro ukázku jsou zde uvedeny dva pˇr´ıklady, z toho Impala connector je pouˇzit v této práci.

ODBC

Klasický ODBC connector nab´ız´ı pouze základn´ı jednoduchý import dat. To m˚uˇze být výhodné, pokud se data v databáz´ı jiˇz nemˇen´ı nebo se mˇen´ı jen velmi málo.

Impala connector

Impala connector je nástroj, kterým lze efektivnˇe z´ıskávat data z Hadoop, a to hlavnˇe z toho d˚uvodu, ˇze pouˇz´ıvá optimalizované dotazy pro z´ıskán´ı dat, jelikoˇz Impala bývá souˇcást´ı Hadoop ekosystému. Zároveˇn nab´ız´ı takzvané DirectQuery, coˇz je automatické stahován´ı dat pˇri nˇejaké zmˇenˇe dat v Hadoop. DirectQuery má tu výhodu, ˇze následnˇe stahuje pouze data, která jsou nová nebo zmˇenˇená. D´ıky tomu je Power BI pˇri aktualizaci dat rychlejˇs´ı, neˇz kdyby se data naˇc´ıtala pomoc´ı klasického

(38)

Importu, kdy se naˇc´ıtá vˇse. Tento connector bude pouˇzit z d˚uvodu automatického stahován´ı nových dat, coˇz je vlastnost, která je jedn´ım z poˇzadavk˚u na funkcionalitu ˇreˇsen´ı.

3.2.4 Pˇ renos logovan´ ych event˚ u do Splunku

Základn´ı myˇslenkou je logovat do souboru vˇzdy po zpracován´ı dat, pokud pˇrenos probˇehl úspˇeˇsnˇe. To bude platit i ve fináln´ı implementaci. Ovˇsem aby se nemusel implementovat nˇejaký mechanizmus v Pythonu pro zas´ılán´ı alert˚u, je moˇzné vyuˇz´ıt Splunku pro vizualizaci log˚u aplikace a pˇr´ıpadné vytváˇren´ı alert˚u.

Prvn´ı moˇznost´ı je instalace forwarderu na serveru, který bude data ze souboru odes´ılat. Tato varianta je pro tento úˇcel zbyteˇcnˇe komplikovaná, jelikoˇz se eventy vytváˇr´ı vˇzdy na konci smˇeny (tedy tˇri ˇrádky za jeden den). Existuje tedy druhý zp˚usob, mnohem elegantnˇejˇs´ı. Splunk disponuje HTTP Event Collectorem, pomoc´ı kterého lze zas´ılat data. To znamená, ˇze se data mohou odes´ılat pomoc´ı curl funkce do Splunku pomoc´ı HEC vˇzdy po zalogován´ı eventu. Tedy napˇr´ıklad minutu poté, co probˇehlo staˇzen´ı dat a vytvoˇren´ı eventu do logu. Toto ˇreˇsen´ı nevyˇzaduje ˇzádnou dalˇs´ı instalaci komponent (jako v pˇredeˇslé moˇznosti instalace forwarderu na server).

Tedy ve Splunku staˇc´ı vytvoˇrit token pro index, do kter´eho se data budou pos´ılat.

Název indexu by mˇel odpov´ıdat názvu aplikace, která ˇreˇs´ı nˇejaký problém.

V tomto pˇr´ıpadˇe to m˚uˇze být napˇr´ıklad dataextract. V budoucnosti budou pˇribývat aplikace, které toto ˇreˇsen´ı budou pouˇz´ıvat. To znamená, ˇze v jednom indexu bude moˇzné vidˇet vˇsechny aplikace, které stahuj´ı data ze Splunku. Ty se následnˇe budou moci r˚uznˇe filtrovat.

3.3 N´ avrh univerz´ aln´ı aplikace

Po z´ıskán´ı dat pomoc´ı REST API je potˇreba data rozparsovat a zapsat do csv souboru. Vˇsechno toto zpracován´ı dat a ukládán´ı do souboru prob´ıhá na linuxovém serveru.

Idea je takov´a, ˇze budou existovat celkem tˇri python skripty pro z´ısk´an´ı dat a je-

(39)

jich ukládán´ı do souboru csv. Kl´ıˇcovým skriptem a teoreticky jediným mˇenitelným by byl konfiguraˇcn´ı skript. V tomto skriptu by byly definovány údaje pro autentizaci, samotného search jobu, parsovac´ıch parametr˚u, výstupn´ıho souboru a logovac´ıho souboru. Následnˇe skript pro autentizaci uˇzivatele, který by byl kompletnˇe univerzáln´ı, jelikoˇz pˇrihlaˇsovac´ı údaje by byly definované v konfiguraˇcn´ım souboru.

Následnˇe hlavn´ı skript, ve kterém prob´ıhá z´ıskán´ı dat ze Splunku, jejich parsován´ı a ukládán´ı do souboru. V tomto skriptu by se teoreticky nemuselo nic mˇenit, jelikoˇz SPL dokáˇze dobˇre z´ıskat data pomoc´ı samotného dotazu.

Samotn´e automatizace spouˇstˇen´ı skript˚u lze doc´ılit napˇr´ıklad pomoc´ı cron jobu.

V nˇem se definuje pˇresný ˇcas, kdy má být skript spuˇstˇen, a t´ım pádem i ˇcas z´ıskaného csv souboru.

(40)

4 Implementace ˇ reˇ sen´ı

V této kapitole je popsána celková implementace datového toku spolu s vytvoˇrenou univerzáln´ı aplikac´ı pro z´ıskáván´ı dat ze Splunku. Zároveˇn s touto aplikac´ı je popsán logovac´ı systém samotné aplikace i jej´ı testy.

4.1 Implementace datov´ eho toku

Z analýzy pouˇzitých systém˚u popsaných v kapitole 3.2 vyplývá následuj´ıc´ı schéma, ve kterém je znázornˇena celková implementace datového toku.

Obrázek 4.1: Schéma datového toku

(41)

Celý proces transformace dat funguje následovnˇe. Cron job spouˇst´ı hlavn´ı skript, který je popsaný v kapitole 4.2, vˇzdy na konci smˇeny, tedy 6:01, 14:01 a 22:01 pˇr´ıkazem: python3 main.py –c error codes config.py. Pomoc´ı pˇrep´ınaˇce –c se vybere poˇzadovaný konfiguraˇcn´ı soubor pro danou aplikaci. Tento soubor je dále popsaný v kapitole 4.2. Dále se tento soubor importuje do hlavn´ıho skriptu a následnˇe je zavolán autentizaˇcn´ı skript splunk auth.py, popsaný v kapitole 4.2, s konfiguraˇcn´ım skriptem ve vstupn´ım parametru. V nˇem se vytvoˇr´ı session, se kterou se dále pracuje v hlavn´ım skriptu, ve kterém prob´ıhá samotné parsován´ı dat a ukládán´ı do csv souboru. Vˇsechny zranitelné ˇcásti kódu jsou zabalené v bloku try except, d´ıky kterému nem˚uˇze doj´ıt k neˇcekanému stavu aplikace, a se pˇredejde pˇr´ıpadnému uloˇzen´ı chybných dat.

Celková doba od z´ıskán´ı dat aˇz po vytvoˇren´ı csv souboru trvá pr˚umˇernˇe 5,5 vteˇrin se smˇerodatnou odchylkou 1,75. Tento ˇcasový údaj byl vypoˇc´ıtán nad eventy za dobu jednoho mˇes´ıce od nasazen´ı do produkce. D˚uvodem je celkem rozsáhlý search job query, který je ve skuteˇcnosti sloˇzen ze dvou a je spojen pomoc´ı operace append.

Pokud by se search job rozdˇelil na dva, bylo by potˇreba vytvoˇrit druhý konfiguraˇcn´ı soubor a nˇejakým zp˚usobem synchronizovat zápis do jednoho csv souboru. Dále by byl potˇreba dalˇs´ı cronjob pro spouˇstˇen´ı aplikace s jiným konfiguraˇcn´ım souborem.

Doˇslo by tedy k vˇetˇs´ımu rozsahu aplikace pro tento use case, ale bylo by oˇcekáváno, ˇze by opravdu doˇslo k rychlejˇs´ımu z´ıskáván´ı dat. Bylo totiˇz zmˇeˇreno, ˇze pokud se search query pustily samostatnˇe ve Splunku, pr˚umˇerná doba z´ıskán´ı dat byla 2 vteˇriny. Vzhledem k tomu, ˇze je tento ˇcas zanedbatelný, z˚ustal jako ˇreˇsen´ı jeden search job. V následuj´ıc´ı tabulce je znázornˇen rozd´ıl zpracován´ı dat ve Splunku a v Pythonu pˇri pouˇzit´ı jednoho search jobu. Tyto hodnoty byly vypoˇc´ıtány nad eventy za dobu jednoho mˇes´ıce od nasazen´ı do produkce.

Python Splunk Pr˚umˇern´y ˇcas (s) 5,5 6,4 Smˇerodatn´a odchylka 1,75 1,59

Tabulka 4.1: Porovn´an´ı hodnot pro zpracov´an´ı dat ve Splunku a Pythonu

(42)

Jakmile je výstupn´ı soubor vytvoˇren, UC4 job ho pˇrenese na server Cloudery Ha- doop, kde prob´ıhá nahrán´ı do data lake a následnˇe jsou data pˇripravena k pouˇzit´ı.

P˚uvodn´ı soubor je smazán, aby se soubory zbyteˇcnˇe nehromadily. Pokud by se náhodou stalo, ˇze by doˇslo k jakémukoliv výpadku jednoho z job˚u nebo serveru a podobnˇe, je moˇzné vˇzdy csv soubor ruˇcnˇe exportovat ze Splunku a nahrát ho na sd´ılený disk, kde UC4 job tyto soubory v definované ˇcasy nahraje do Cloudery Hadoop. Dalˇs´ı moˇznost´ı je opˇet i ruˇcn´ı import csv soubor˚u do Cloudery Hadoop.

4.2 Vytvoˇ ren´ a aplikace

Vytvoˇrená aplikace pro tento use case se skládá celkem z pˇeti python skript˚u. Jak jiˇz bylo zm´ınˇeno, celá aplikace je postavená tak, aby ji bylo moˇzné pˇrenáˇset z jednoho zdroje dat na dalˇs´ı. To ve skuteˇcnosti znamená, ˇze pˇri pouˇzit´ı pro jiný use case je potˇreba zmˇenit pouze jeden skript, a to právˇe ten konfiguraˇcn´ı.

Obr´azek 4.2: Sch´ema aplikace

Pˇreruˇsovanou ˇcárou je znázornˇeno pouˇzit´ı dalˇs´ı aplikace. Tedy je zapotˇreb´ı pouze vytvoˇrit nový konfiguraˇcn´ı skript s novými parametry, a t´ım pádem je potom novˇe vzniklý csv soubor bez jakýchkoliv dalˇs´ıch úprav.

(43)

Konfiguraˇcn´ı skript

V konfiguraˇcn´ım skriptu pro jiné datové zdroje je moˇzné mˇenit následuj´ıc´ı parametry: samotný search job, výstupn´ı promˇenné ze search jobu, interval pro z´ıskán´ı dat, výstupn´ı soubor a popˇr´ıpadˇe log soubor.

Výstupn´ımi promˇennými jsou myˇsleny parametry, které se z celého search jobu nakonec z´ıskaj´ı. Aplikace je totiˇz postavená tak, aby Splunk search job mˇel na konci formátován´ı do tabulky. To znamená, ˇze search job bude vypadat následovnˇe:

1 index=example_search ... | table

Zdrojový kód 2: Poˇzadovaný formát search jobu

Za pˇr´ıkaz table (formátován´ı do tabulky) se následnˇe automaticky vloˇz´ı parametry, které jsou ruˇcnˇe vloˇzeny do datové struktury list pˇred samotným search jobem.

D´ıky tomuto ˇreˇsen´ı je potom v hlavn´ım skriptu moˇzné automaticky ukládat hodnoty do csv souboru, jelikoˇz názvy sloupc˚u jsou totoˇzné s tˇemito parametry.

Na výstupn´ı soubor jsou kladené jisté nároky. T´ım je myˇsleno, ˇze soubor mus´ı být pro integraci do Cloudery Hadoop vˇzdy formátu csv a kódován´ı utf-8. Pakliˇze by se nˇekdy situace zmˇenila, aplikace je na to pˇripravená, jelikoˇz v konfiguraˇcn´ım souboru je oddˇelený jak název a kódován´ı souboru, tak i jeho pˇr´ıpona. Dalˇs´ım poˇzadavkem je ukládán´ı timestampu za název souboru, který pˇredstavuje ˇcas vytvoˇren´ı souboru.

Tedy pro tento konkrétn´ı use case: cakl errorcodes YYYYMMDDHHmmss.csv, kde cakl je název aplikace, errocodes je název tabulky a na konci je formát timestampu.

Vkládán´ı timestampu je opˇet ˇreˇseno automaticky bez ruˇcn´ıho zásahu.

(44)

Autentizaˇcn´ı skript

Tento skript opˇet nevyˇzaduje ˇzádný zásah. Je volaný z hlavn´ıho skriptu a jednoduˇse si z´ıská údaje z konfiguraˇcn´ıho souboru a vytvoˇr´ı si session se Splunk frontend no- dem, kterou následnˇe poˇsle do metody pro z´ıskán´ı dat. Tato session má v základn´ı konfiguraci timeout jednu hodinu, coˇz tedy plat´ı i v tomto pˇr´ıpadˇe. Samozˇrejmˇe je to konfigurovatelný atribut, který lze zmˇenit v obecné konfiguraˇcn´ı sekci serveru.

Nejdˇr´ıve je potˇreba vytvoˇrit Splunk uˇzivatele s právy a rolemi pro REST API a obecnˇe REST API povolit na nˇejakém nodu (tyto vlastnosti nejsou výchoz´ı). Pro vytvoˇren´ı session je potˇreba tedy znát jméno a heslo Splunk uˇzivatele s rol´ı REST API user, host, port a volitelný parametr scheme, coˇz je typ spojen´ı (HTTP nebo HTTPS).

1 NAME = os.path.basename(__file__)

2 def create_instance(config):

3 """ Creates session

4 returns service object

5 """

6 USER = config.user['USERNAME']

7 PWD = config.user['PASSWORD']

8 HOST = config.connection['HOST']

9 PORT = config.connection['PORT']

10 try:

11 service = client.connect(

12 host=HOST,

13 port=PORT,

14 username=USER,

15 password=PWD,

16 scheme="https"

17 )

18 return service

19 except Exception as e:

20 log_event("error", NAME + " " + str(e))

21 sys.exit(1)

Zdrojov´y k´od 3: Vytvoˇren´ı Splunk session

(45)

Hlavn´ı skript

Jak bylo jiˇz zm´ınˇeno, v hlavn´ım skriptu se dˇeje hlavn´ı ˇcást transformace dat. Vzhle- dem k poˇzadavku na univerzálnost a pˇrenositelnost ˇreˇsen´ı je naˇc´ıtán´ı konfiguraˇcn´ıho skriptu ˇreˇseno pomoc´ı parametru pˇri spouˇstˇen´ı hlavn´ıho skriptu. Funkcionalita je ukázána na následuj´ıc´ım bloku kódu.

1 if __name__ == '__main__':

2 parser = argparse.ArgumentParser(description='Splunk ETL into hadoop')

3 parser.add_argument("--c", type=str,

4 help="Enter python config file with extension", required=True)

5 args = parser.parse_args()

6 config_name = args.c

7

8 if os.path.isfile(config_name):

9 # in case of another location of config file, or for cron usage

10 config_name = config_name.split("/")[-1]

11 # import of config file from args

12 config_name = config_name.split(".")

13 conf = importlib.import_module(config_name[0])

14 else:

15 log_event("error", NAME +

16 " Config file from command line arguments does not exist: " +

17 config_name)

18 sys.exit(1)

Zdrojov´y k´od 4: Naˇcten´ı konfiguraˇcn´ıho souboru

Po z´ıskán´ı a naˇcten´ı konfiguraˇcn´ıho skriptu je vytvoˇrena Splunk session. Pokud tento proces probˇehl v poˇrádku, dalˇs´ım krokem je odeslán´ı pomoc´ı REST API search job a z´ıskán´ı výsledk˚u. Jak bylo zm´ınˇeno v kapitole 3.2.1, pro odeslán´ı a z´ıskán´ı dat je pouˇzit oneshot search. Oneshot search potˇrebuje ve vstupn´ıch atributech samotný search job a slovn´ık parametr˚u. Mezi tyto parametry patˇr´ı ˇcasový interval, ve kterém se maj´ı data stáhnout. Tento údaj je opˇet brán z konfiguraˇcn´ıho souboru. Je t´ım myˇslen ˇcas nejstarˇs´ı události. Druhý ˇcasový údaj je ˇcas nejnovˇejˇs´ı události, tedy ˇcas ve chv´ıli, kdy se operace odehrává. Následnˇe mód search jobu, coˇz je v pˇr´ıpadˇe oneshotu normal mode a nakonec limit pro poˇcet event˚u. Tento limit je nepovinný parametr a bez jeho definován´ı je limit 100 event˚u. Pro z´ıskán´ı vˇsech event˚u je