• No results found

Uk´ azkov´ a vizualizace 2. Data byla upravena

5 Z´ avˇ er

C´ılem pr´ace bylo sezn´amit se s problematikou zpracov´an´ı velk´ych dat a n´astroji pro pr´aci s nimi, pˇriˇcemˇz se jednalo zejm´ena o transformaci, manipulaci a pˇrenos tˇechto dat mezi syst´emy Splunk, Cloudera Hadoop a Power BI. N´aslednˇe byla provedena anal´yza tˇechto syst´em˚u. Na z´akladˇe proveden´e anal´yzy byly d´ale vybr´any nejlepˇs´ı moˇzn´e technologie pro pˇrenos dat a byla navrˇzena aplikace, kter´a by tyto technologie vyuˇz´ıvala. D´ale byl tento n´avrh realizov´an, aplikace byla implementov´ana v jazyce Python, ˇc´ımˇz byl cel´y proces z´ısk´av´an´ı dat ze Splunku do data lake zautomatizov´an a bylo tak zabr´anˇeno moˇzn´ym chyb´am, kter´e vznikaj´ı pˇri ruˇcn´ım exportov´an´ı csv souboru. Tyto chyby jsou pops´any v kapitole 3.1. Nakonec byly vytvoˇreny reporty v Power BI, kter´e ovˇeˇrily spr´avnost datov´eho toku a z´aroveˇn slouˇz´ı jako uk´azkov´a vizualizace pro tento datov´y zdroj.

V r´amci anal´yzy jiˇz zm´ınˇen´ych syst´em˚u bylo pˇredstaveno nˇekolik moˇznost´ı, jak data pˇren´aˇset mezi tˇemito syst´emy. Kompletn´ı anal´yza spolu s v´ybˇerem pouˇzit´ych technologi´ı je pops´ana v kapitole 3.2. Pro pˇrenos dat ze Splunku do Cloudery Ha-doop bylo nakonec pouˇzito REST API, kter´ym Splunk disponuje. V n´avaznosti na to byla vytvoˇrena univerz´aln´ı aplikace v jazyce Python na linuxov´em serveru. Aplikace je navrˇzena tak, aby se pro libovoln´y zdroj dat ze Splunku mˇenil pouze jeden kon-figuraˇcn´ı skript. V konfiguraˇcn´ım skriptu se bude pro jin´y zdroj dat mˇenit samotn´y search job, z´ısk´avan´e parametry ze search jobu, jm´eno v´ystupn´ıho souboru, interval pro z´ısk´an´ı dat a popˇr´ıpadˇe i jin´y log soubor. Vˇsechny ostatn´ı skripty z˚ustanou beze zmˇeny. Automatizovan´e spouˇstˇen´ı skriptu je nastaveno pomoc´ı cron jobu.

Pro zpˇetnou kontrolu funkˇcnosti a pˇr´ıpadn´e alerty je vˇzdy posledn´ı event z log souboru odes´ıl´an zpˇet do Splunku pomoc´ı bash scriptu. Pˇr´ı ´uspˇeˇsn´em z´ısk´an´ı dat

se zaloguje event s ˇcasem trv´an´ı od zah´ajen´ı requestu pro z´ısk´an´ı dat aˇz po uloˇzen´ı dat do souboru, se jm´enem pouˇzit´eho konfiguraˇcn´ıho souboru a poˇctem z´ıskan´ych event˚u ze Splunku. Pˇri vznikl´e chybˇe se zaloguje jm´eno pouˇzit´eho konfiguraˇcn´ıho souboru, jm´eno skriptu, ve kter´em chyba vznikla, a samotn´a informace o chybˇe.

V jiˇz zm´ınˇen´e anal´yze byl tak´e vybr´an zp˚usob zas´ıl´an´ı vytvoˇren´eho csv souboru na server Cloudery Hadoop pomoc´ı UC4 jobu.

D´ale byl vytvoˇren datov´y model v prostˇred´ı Power Designer, kter´y reprezentuje samotnou datovou strukturu v Cloudera Hadoop spolu s metadaty, kter´a slouˇz´ı pro popis dat. Pomoc´ı tohoto modelu byla vytvoˇrena datov´a struktura v Cloudera Hadoop.

V posledn´ı praktick´e ˇc´asti byla vytvoˇrena vizualizace dat v Power BI pro kontrolu datov´eho toku a uk´azkovou vizualizaci. Ta se skl´ad´a celkem ze dvou report˚u. D´ıky t´eto anal´yze se zjistila chyba, kter´a spoˇc´ıvala v tom, ˇze bylo z´ısk´av´ano pˇr´ıliˇs mnoho chybov´ych stav˚u jednoho druhu. To bylo zp˚usobeno chybn´ym form´atem search jobu v konfiguraˇcn´ım skriptu. Konkr´etnˇe se jednalo o chybn´e escapov´an´ı zpˇetn´ych lom´ıtek v nastaven´e cestˇe vstupn´ıho log souboru pro z´ısk´an´ı dat v SPL. Jak bylo zm´ınˇeno v kapitole4.4, search job se skl´ad´a ve skuteˇcnosti ze dvou search job˚u spojen´ych po-moc´ı pˇr´ıkazu append a jeden z nich kv˚uli t´eto chybˇe nebyl zpracov´an. Po t´eto opravˇe byla data korektn´ı, a tedy dne 9. 3. 2020 bylo cel´e ˇreˇsen´ı spuˇstˇeno do produkce.

Z´aroveˇn byla vytvoˇrena intern´ı dokumentace cel´eho tohoto procesu z´ısk´av´an´ı dat, kter´a bude slouˇzit k dalˇs´ım pouˇzit´ım pro dalˇs´ı datov´e zdroje.

Toto ˇreˇsen´ı odstraˇnuje vˇsechnu moˇznou chybovost, kter´a vznikala pˇri ruˇcn´ım exportov´an´ı dat ze Splunku, coˇz znamen´a zad´an´ı ˇspatn´eho n´azvu souboru a jeho uloˇzen´ı na nespr´avn´e m´ısto. S t´ım souvis´ı i ˇcas str´aven´y opravou tˇechto chyb a ˇcas samotn´eho exportov´an´ı dat souboru. D´ıky tomuto ˇreˇsen´ı jiˇz nen´ı potˇreba ˇz´adn´y lidsk´y z´asah pro export dat. Pouze se nastav´ı pˇripojen´ı k data lake, a t´ım jsou data automaticky naˇc´ıt´ana do Power BI. Z´aroveˇn d´ıky univerzalitˇe je moˇzn´e toto ˇreˇsen´ı pˇrev´est na jin´y zdroj dat pouze pomoc´ı vytvoˇren´ı nov´eho konfiguraˇcn´ıho souboru a nastaven´ı cron job˚u pro spouˇstˇen´ı skript˚u.

Literatura

[1] Sheng, Jie & Wang, Xiaojun. (2017). A Multidisciplinary Perspective of Big Data in Management Research. International Journal of Production Econo-mics. 191. 10.1016/j.ijpe.2017.06.006.

[2] M.D. Assunca, R. N. Calheiros, S. Bianchi, M. A. S. Netto, and R. Buyya,

”Big Data Computing and Clouds: Challanges, Solutions, and Future Directi-ons,”arXiv, vol. 1, no. 1, pp. 1-39, Dec. 2019

[3] Doug Laney, “3D Data Management: Controlling Data Volume, Velocity, and Variety”, Gartner, file No. 949. 6 February 2001,

http://blogs.gartner.com/douglaney/files/2012/01/ad949-3D-Data-Management-Controllin-Data-Volume-Velocity-and-Variety.pdf

[4] PICKELL, Devin. What is Big Data? A Complete Guide [online]. In: . 22.08.2018 [cit. 2020-03-18]. Dostupn´e z: https://learn.g2.com/big-data [5] O’REILLY, Tim, What is Web 2.0: Design Patterns and Business Models for

the Next Generation of Software[online].2005, 5[cit. 2019-10-10]. Dostupn´e z:

https://oreilly.com/pub/a/web2/archive/what-is-web-20.html [6] Luhn, H.P.: A Business Intelligence System. IBM J. Res. Dev. 2

[7] Lim, E., Chen, H., Chen, G.: Business intelligence and analytics: research directions. ACM Trans. Manage. Inf. Syst., vol. 3, no. 4, Article 17, pp.1-10 (2013)

[8] What is Relational Database?. Oracle.com[online]. [cit. 2019-10-17]. Dostupn´e z: https://www.oracle.com/database/what-is-relational-database

[9] Dave, Meenu. (2012). SQL and NoSQL Databases. International Journal of Advanced Research in Computer Science and Software Engineering.

[10] Developer Survey Results 2019. Stackoverflow[online].[cit. 2019-10-11].

Dostupn´e z: https://insights.stackoverflow.com/survey/2019#technology -databases

[11] NAYAK, A., Poriya, A., Poojary, D. (2013). Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems, 5(4), 16-19.

[12] WEBBER, Jim. A programmatic introduction to Neo4j. In: Proceedings of the 3rd annual conference on Systems, programming and applications: software for humanity - SPLASH ’12[online]. New York, New York, USA: ACM Press, 2012, 2012, s. 2017-[cit. 2019-10-17]. DOI: 10.115/2384716.2384777. Dostupn´e z: http://dl.acm.org/citation.cfm?doid=2384716.2384777

[13] DAVOUDIAN, Ali, Liu CHEN a Mengchi LIU. A Survey on NoSQL Stores. ACM Computing Survey[online]. 2018, 51(2), 1-43[cit.

2019-10-17]. DOI: 10.1145/3158661. ISSN 03600300. Dostupn´e z:

http://dl.acm.org/citation.cfm?doid=3186333.3158661

[14] P. Russom, ”Big Data Analytics,”The Data Warehousing Institute, vol. 4, no.

1, pp. 1-36, 2011.

[15] Splunk Apps and Add-Ons: Enhance and Extend the Value of Splunk [online].

[cit. 2019-12-29]. Dostupn´e z: https://www.splunk.com/en us/products/apps-and-add-ons.html

[16] Apache Hadoop Ecosystem [online]. [cit. 2020-03-25]. Dostupn´e z:

https://www.cloudera.com/products/open-source/apache-hadoop.html [17] CDH Components [online]. [cit. 2019-12-29]. Dostupn´e z:

https://www.cloudera.com/products/open-source/apache-hadoop/key-cdh-components.html

[18] About developing apps and add-ons for Splunk

En-terprise [online]. [cit. 2020-03-22]. Dostupn´e z:

https://dev.splunk.com/enterprise/docs/welcome#Splunk-Enterprise-SDKs

A Obsah pˇ riloˇ zen´ eho CD

• text diplomov´e pr´ace

diplomova prace 2020 Lukas Vosecky.pdf

zadani diplomova prace 2020 Lukas Vosecky.pdf

• zdrojov´e k´ody

error codes config.py error codes main.py splunk auth.py sendEvent.sh tests.py logger.py