• No results found

TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky, informatiky a mezioborových studií

N/A
N/A
Protected

Academic year: 2022

Share "TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky, informatiky a mezioborových studií"

Copied!
67
0
0

Loading.... (view fulltext now)

Full text

(1)

TECHNICKÁ UNIVERZITA V LIBERCI

Fakulta mechatroniky, informatiky a mezioborových studií

Studijní program: B2612 – Elektrotechnika a informatika Studijní obor:1802R022 – Informatika a logistika

Příspěvek dataminingových metod k efektivním marketingovým akcím

Bakalářská práce

Autor: Martin Stránský

Vedoucí práce: RNDr. Klára Císařová, Ph.D.

V Liberci dne 5. května 2013

(2)

Prohlášení

Prohlášení

Byl jsem seznámen s tím, že na mou bakalářskou práci se plně vztahuje zákon č. 121/2000 Sb. o právu autorském, zejména § 60 — školní dílo.

Beru na vědomí, že Technická univerzita v Liberci (TUL) nezasahuje do mých práv užitím mé bakalářské práce pro vnitřní účely TUL.

Užiji-li bakalářskou práci nebo poskytnu-li licenci k jejímu využití, jsem si vědom povinnosti informovat o této skutečnosti TUL; v tomto případě má TUL právo ode mne požadovat úhradu nákladů, které vynaložila na vytvoření díla, až do jejich skutečné výše.

Bakalářskou práci jsem vypracoval samostatně s použitím uvedené literatury a na základě konzultací s vedoucím bakalářské práce.

Datum

Podpis

(3)

Poděkování

Poděkování

Chtěl bych tímto poděkovat vedoucí mé práce RNDr. Kláře Císařové, Ph.D, za zájem, poskytnutí odborných rad, praktických zkušeností a vědomostí v tomto segmentu.

Nakonec bych velice rád poděkoval svým rodičům a blízkým za podporu v celém průběhu studia na vysoké škole.

(4)

Abstrakt

Abstrakt

Bakalářská práce přehledně a efektivně nastiňuje problematiku dolování dat v prostředí marketingu, kde se datamining stává strategickou nutností pro společnosti.

Čtenář se seznámí s jednoduchými příklady využití v praxi, především nástroji a způsoby využití dat, které obchodníci využívají pro svá marketingová rozhodnutí.

Představí se software SPSS Modeler a jeho využití ve všech fázích dataminingu, podle standardu CRISP-DM. Jeho využití se předvede na příkladu veřejných zakázek v České republice, kde výstupem jsou ohodnocené zakázky podle úplnosti dat a transparentnosti.

Klíčová slova

Datamining, marketing, veřejné zakázky, software SPSS Modeler, CRISP-DM

Abstract

The bachelor thesis outlines very clearly and effectivelythe isme of datamining in an marketing environment, where is the tool of datamining strategice necessity for companies.

Reader is going to learn about simply examples of using the datamining in practice, especially with the tools and wals how to use the data, which the businessmen have been using for theirs marketing decisions. There will be introduced the software SPSS Modeler and his use in the all phases of datamining according to standard CRISP-DM. His use is going to be demonstrated through an example of public contracts in the Czech Republic, where the outputs are evaluated contracts according to completenessof data and transparency.

Keywords

Datamining, marketing, procurement, software SPSS Modeler, CRISP-DM

(5)

Obsah

Obsah

Prohlášení ... 3

Poděkování ... 4

Abstrakt ... 5

Obsah ... 6

Seznam obrázků ... 8

Seznam zkratek ... 9

1 Úvod ... 10

2 Datamining v marketingu ... 11

2.1 Datamining v praxi ... 11

2.2 Definice dataminingu ... 11

2.3 Příklady využití dataminingu v marketingu ... 12

2.3.1 Profil zákazníka ... 12

2.3.2 Nákupní košík ... 12

2.3.3 Analýza odchodu zákazníků ke konkurenci ... 13

2.3.4 Oslovení zákazníků ... 13

3 Metody dataminingu ... 15

3.1 Rozhodovací stromy ... 15

3.1.1 C&R Tree (Classification And RegressionTree) ... 15

3.2 Metody regresní analýzy ... 17

3.2.1 Lineární regrese ... 17

4 Nástroj PSW Modeler ... 21

4.1 Porozumění problému ... 22

4.2 Porozumění datům ... 23

4.3 Příprava dat ... 23

4.4 Modelování ... 24

(6)

4.5 Ohodnocení ... 25

4.6 Nasazení ... 25

5 Případové studie zpracované pro e-learningový portál ... 26

6 Veřejné zakázky v České republice ... 27

6.1 Zdroje dat ... 27

6.2 Příprava dat ... 28

6.2.1 Analytické proudy ... 29

6.2.2 Proudy úpravy dat ... 31

6.2.3 Skórovací proudy ... 32

6.2.4 Datová matice ... 35

6.3 Hodnocení subjektů ... 36

7 Závěr a doporučení ... 39

Seznam literatury ... 41 Příloha A – Zacílení marketingové kampaně – PEP nový produkt banky Příloha B – Efektivita marketingových akcí

Příloha C – Hodnocení zakázek – „Top“ 50 Příloha D – Obsah CD

(7)

Seznam obrázků

Seznam obrázků

Obr. 2.1: Oslovení zákazníkapři použití dataminingu ... 14

Obr. 3.1: C&R Tree ... 16

Obr. 3.2: Metoda proložení přímky ... 19

Obr. 3.3: Metoda nejmenších čtverců ... 20

Obr. 4.1: Schéma CRISP-DM ... 21

Obr. 6.1: Struktura databáze ... 28

Obr. 6.2: Proud hledání duplicity zadavatele ... 29

Obr. 6.3: Proud selekce dodavatelů ... 31

Obr. 6.4: Část diagramu vzniku nové proměnné cena_zakazky ... 32

Obr. 6.5: Proud skórování dodavatelů ... 33

Obr. 6.6: Proud celkového skóre ... 35

Obr. 6.7: Ohodnocení krajů dle průměrného skóre ... 37

Obr. 6.8: Poměr zakázek s dotací z EU podle krajů ... 38

(8)

Seznam zkratek

Seznam zkratek

 API – Application Programming Interface

 C&R Tree – Classification And RegressionTree

 CRISP-DM – Cross-Industry Standard Process pro Datamining

 ČEZ – České Energetické Závody

 EU – European Union

 IČO – Identifikační Číslo Osoby

 ISVZ – Informační Systém Veřejných Zakázek

 IT – Information Technology

 ODBC – Open DataBase Connectivity

 PEP – Personal Equity Plan

 PSČ – Poštovní Směrovací Číslo

 PSW – Predictive SoftWare

 REST – Representationa lState Transfer

 SAS – Statistical Analysis Systém

 SPSS – Statistical Package for the Social Sciences

(9)

Úvod

1 Úvod

S rozvojem globálního trhu a příchodem nových technologií se podstatně mění i pohled na marketing. V moderně smýšlejících podnicích má stále větší význam a díky novým metodám se stává účinnější.

Cílem této práce je nastínit příspěvek metod dataminingu k efektivním marketingovým akcím, které jsou popsané pomocí vybraných metod a nástrojů PSW Modeler 14.2. Dále vytipovat činnosti související s obchodními aktivitami podnikatelských subjektů, kde by mohl datamining efektivně dopomoci ke snížení finančních nákladů. Připravit a zpracovat konkrétní úlohu, zabývající se marketingovou kampaní, pomocí softwaru PSW Modeler, pro připravovaný předmět Datamining.

Od prvotního porozumění a přípravy dat po modelování, ohodnocení a následné nasazení modelu. Dále je cílem vypracovat téma datamining v marketingových akcích a společně se vzorovou úlohou jej aplikovat do e-learningového kurzu pro studijní účely.

(10)

Datamining v marketingu

2 Datamining v marketingu

2.1 Datamining v praxi

Podnikatelé a malé podniky znají přání svých zákazníků, se kterými jsou stále ve styku. V průběhu času poznávají, co si jaký zákazník přeje, a mohou takovému zákazníkovi nabídnout služby či produkt dle jeho přání. Výsledkem je šťastný, spokojený a věrný zákazník, který pro podnik znamená zisk.

Mohou větší společnosti dosáhnout takovéhoto přístupu? Když bude zákazník pokaždé hovořit s někým jiným, např. na call-centru? Co nahradí majitele obchodu, který každodenně přichází do styku se svými klienty a rozpozná jejich zvyky a náročnost?

Odpověď je zřejmá. Firmy musejí především spoléhat na jiné formy učení a zaškolování zaměstnanců. Ti by měli porozumět každému zákazníkovi tak, aby splnili jeho přání, představy a požadavky. Přistupovat k němu individuálně, čímž se zvýší konkurenceschopnost podniku a také jeho konkurenční bariéra. Pomocí atributů hodnocení jednotlivých zákazníků si mohou společnosti uvědomit, do kterých zákazníků budou investovat čas a peníze a s kterými je lepší se nyní rozloučit, případně s nimi navázat obchodní styky až později. Tato změna v pohledu na zákazníka vyžaduje změnu v celém chápání podniku, a to především v marketingu společnosti.

K dosažení těchto cílů nejen v marketingu slouží technika zvaná datamining, která je založená na učení se z každodenních dat, které si zákazníci s těmito velkými podniky vyměňují. V nadnárodních společnostech je vše automatizované a vše má svůj pevný řád. Využívají se zde v hojné míře informační technologie. Informace se ukládají do takzvaných datových skladů z různých zdrojů, jak z webových serverů, telefonních záznamů, plateb, autorizačních přístupů apod. Pomocí každé další informace se podnik dozvídá o svých klientech další údaje a učí se z nich. Ve skutečnosti si mnoho společností s takovými daty neví rady. Po zúčtování data buď skartuje, nebo je za nemalé náklady bez dalšího využití uloží.

2.2 Definice dataminingu

Datamining je termín, který v sobě skrývá mnoho technik a nástrojů. Používá sofistikované nástroje pro analýzu dat, objevuje platné modely a vztahy za pomocí dat z datových center. Nástroje mohou zahrnovat statistické modely, matematické algoritmy

(11)

Datamining v marketingu

a metody strojového učení, algoritmy, které zlepšují jejich výkon automaticky pomocí zkušeností, jako jsou neuronové sítě nebo rozhodovací stromy. V důsledku toho datamining nejenom shromažďuje a spravuje data, ale také v sobě zahrnuje analýzu a predikci[1]. Jeho využití je nejen v marketingu, ale i v řadě průmyslových odvětví, tato práce se však zabývá pouze otázkou dataminingu v marketingu. Pomocí technik a nástrojů dataminingu mohou společnosti přicházet s novými nápady, navrhovat nová pravidla, předvídat budoucnost a lépe porozumět svým minulým, přítomným a budoucím klientům.

2.3 Příklady využití dataminingu v marketingu

Datamining byl vždy brán spíše jako konkurenční výhoda nebo něco navíc.

Nyní je to důležitý nástroj pro udržení se na trhu.

2.3.1 Profil zákazníka

Marketingoví odborníci v době stagnace trhu mají za úkol udržet růst podniku.

Na druhou stranu se jim ale rozpočty na reklamu snižují. Chtějí-li uspět, musí svůj marketing a propagaci zamířit na konkrétní skupinu lidí, kteří mají společné vlastnosti a s největší pravděpodobností zareagují na danou kampaň.

Pomocí technik dataminingu je to možné. Jeden ze způsobů, jak určit, zda profil zákazníka odpovídá daným kritériím, je měření „vzdálenosti“ profilu zákazníka od daných kritérií.

2.3.2 Nákupní košík

Košík představuje záznam o nákupu zákazníka, který elektronické pokladny běžně poskytují. Obsahuje různý sortiment zboží, který je zakoupený v určitém čase.

Kompletní seznam nákupů v sobě skrývá cenná data, jako například co zákazníci nakupují a kdy. Analýza nákupního košíku může vézt k pochopení zákazníka a jeho zvyků. Zákazníci mají tendenci nakupovat některé zboží společně a v daném či podobném množství.

Díky těmto datům může být marketing účinnější. Obchody například rozmístí zboží tak, aby produkty, které jsou často nakupovány, byly společně vedle sebe, nebo ke zboží přidávají dárkové kupony. Aby společnosti získaly ještě více konkrétních dat o nákupech, používají takzvané věrnostní karty. Klienti vyplní své osobní údaje,

(12)

Datamining v marketingu

jako věk, pohlaví, bydliště, počet dětí apod. Takže např. při placení dojde ke spárování daného nákupu se záznamem o daném zákazníkovi.

Nejedná se zde jen o prodej zboží, ale také o zákazníka a danou objednávku.

Díky identifikaci zákazníka mohou společnosti sledovat jeho chování v dlouhodobém horizontu a sledovat úspěšnost dané marketingové akce. Zjistí, zda dává přednost klasické přípravě jídla, či vaření z polotovarů. Dále kolik kusů zboží je v jedné objednávce, kolik objednávek vytvoří za daný časový úsek apod.

2.3.3 Analýza odchodu zákazníků ke konkurenci

Zákazník je pro každou společnost velice důležitý. Pokud odejde, musí přijít nový zákazník, a to jsou další náklady. Nový zákazník také pravděpodobně nebude od začátku generovat takové příjmy a to především v nasyceném trhu, aby se vrátily náklady na jeho získání. Retenční kampaně v tomto ohledu mohou být velice efektivní, ale i ony jsou velmi nákladné.

Např. mobilní operátoři, pokud s nimi klienti prodlouží smlouvu na dobu určitou, jim nabídnou nový telefon nebo zvýhodněnou cenu. Operátor sice nebude mít ze zákazníka takový zisk, ale získává jistotu, že po danou dobu se o zákazníka nemusí bát a i tak z toho profituje. Problém s těmito nabídkami je, že ne každý klient takovou nabídku přijme. Kdo by nechtěl levnější volání nebo mobil?

Mnozí lidé by však klienty zůstali i před takovouto nabídkou. Tím pádem operátor přišel o zisk, který by mohl mít, pokud by zákazník platil plnou cenu.

Proto společnosti velice zajímá, kteří zákaznici chtějí danou společnost opustit, a na ně zaměřují své nabídky. Pro získání takovýchto informací je vhodné použít dataminingové metody.

2.3.4 Oslovení zákazníků

Datamining, neboli dolování dat, lze úspěšně aplikovat do problematiky oslovení stávajících zákazníků. Záměrem je zvýšit ziskovost zákazníka pomocí aktivit zvaných up-selling a crossselling, kde hlavním úkolem je navýšit cenu objednávky. Up- selling se snaží zákazníkovi prodat produkt s větší přidanou hodnotou, jako např. vyšší řadu výrobku. Cross-selling nabízí doplňkový prodej, např. paměťovou kartu k mobilnímu zařízení. Díky dataminingu lze zjistit, komu a co nabídnout v tu správnou dobu.

(13)

Datamining v marketingu

Pokud jsou všechny kroky analýzy dat provedeny správně, pak jsou výsledky znatelné (viz. Obr. 2.1), to však neplatí ve všech případech. Pokud by nebyly použity metody dataminingu, znamenalo by to například, že při oslovení 60% zákazníků bude právě 60 % těch, kteří by na nabídku reagovali. Naopak při použití dataminingových metod (červený průběh funkce) bude při oslovení 40% zákazníků na nabídku reagovat stejný počet zákazníků jako při oslovení 60% bez dataminingu. Tím společnost ušetří třetinu nákladů spojených s kampaní, ať už se jedná o nabídky po telefonu či o dopisy psané klientům.

Obr. 2.1: Efektivita oslovení zákazníkapři použití dataminingu

(14)

Metody dataminingu

3 Metody dataminingu

Datamining používá širokou škálu výpočetních metod. Zejména statistické analýzy, rozhodovací stromy, neuronové sítě, regresi, baysovské sítě, nejbližší sousedy atd. Stručně budou popsány metody, které jsou použité v případových studiích v praktické části této práce.

3.1 Rozhodovací stromy

Je mnoho metod, které lze vybrat pro analýzu, avšak klasifikace založené na několika logických podmínkách if–then mají řadu výhod. Ve většině případů je interpretace výsledků zobrazených pomocí stromu velmi jednoduchá. Je mnohem snazší vyhodnotit logické podmínky než odhad hodnot ze všech prediktorů. Může také přinést značně jednodušší model. Například při analýze marketingového problému je lehčí použít několik jednoduchých podmínek než některé komplikované rovnice.

3.1.1 C&R Tree (Classification And RegressionTree)

Metoda rekurzivního dělení je založená na klasifikaci a regresi stromů, která je vhodná pro předpověď dat, a popisuje vytváření binárních stromů, kde výstup je spojitý.

Jedná se o techniku učení neparametrických rozhodovacích stromů (nemají předpoklady o rozložení vstupujících dat).

Metoda C&R Tree je především vhodná pro práci s velkým množstvím proměnných. Lze ji také použít pro zpřehlednění dat a rozpoznání důležitých prediktorů v modelu. C&R Tree pokládá otázky typu ano/ne a rozděluje data na čím dál menší části s maximální homogenitou vzhledem k cílové proměnné. Algoritmus je rozdílný pro klasifikační a regresní stromy.

Klasifikační strom

Dělení pomocí klasifikačního stromu se využívá tehdy, pokud je závislá proměnná kategoriální. To znamená, že se soubor původních dat snaží v závislosti na nezávislých proměnných rozdělit do skupin, přičemž, v ideálním případě, každá skupina má přiřazení ke stejné kategorii závislé proměnné[4].

Nechť je dán uzel up (nadřazený uzel – předek), upl (podřazený uzel – levý potomek), upp (podřazený uzel – pravý potomek) a matice učení X [M * N] s počtem

(15)

Metody dataminingu

M proměnných xj a s N pozorováním, kde je nejlepší dělení proměnné xj. Vektor Y se skládá z N pozorování s počtem tříd K.

Obr. 3.1: C&R Tree

Homogenita potomků je definována pomocí funkce znečištění i(u), viz. vzorec (3.3). Maximální homogenita z levého a pravého potomka je maximalizací změny nečistoty funkce i(u)[6].

 ( ) (3.1)

Kde i(up) je hodnota nečistoty pro nadřazený uzel a E[i(uc)] je předpokládaná hodnota nečistot pro podřízené uzly. Při dosazení do předchozího vztahu Ppl (pravděpodobnost levého potomka) a Ppp (pravděpodobnost pravého potomka) se dostane:

 ( ) ( ) (3.2)

Což znamená, že algoritmus C&R Tree bude prohledávat všechny možné hodnoty proměnných matice X, přes všechna možná dělení , která budou maximalizovat změnu nečistot i(u).

Definovat nečistoty funkce i(u) lze mnoha způsoby. Nejpoužívanější je pravidlo Giniho rozdělení.

(3.3)

Kde k a l nabývá hodnoty 1,…,K, kde K je počet tříd a je podmíněná pravděpodobnost třídy K v uzlu u.

u

p

u

pl

u

pp

(16)

Metody dataminingu

Po dosazení Giniho pravidla (3.3) do vzorce (3.2) se dostane:

 ∑ ( | )

∑ ( | )

∑ ( | )

(3.4)

Algoritmus vyhledá vzorek pro největší třídu a izoluje ho od zbytku dat.

Regresní strom

Regresní stromy se používají v případě, že závislá proměnná není kategoriální, ale kardinální, což znamená, že každá její hodnota může být v obecnosti různá[4].

Na rozdíl od klasifikačního stromu mají regresní stromy u každého uzlu, který nemá žádné potomky, přiřazenou konstantu. Konstanta je reálný odhad závislé proměnné Y.

Algoritmus hledá nejlepší dělení v souladu s mocninou na základě minimalizace součtu rozptylů dvou výsledných závislých uzlů na rodiči.

[ ( ) ( )]

(3.5)

Kde Var(Ypl), Var(Ypp) je závislá proměnná (odezva) pro levé a pravé potomky a , je podmínka optimálního rozdělení.

Minimalizace algoritmu je totožná s Giniho rozdělením, viz. vzorec (3.3). Pokud se přidělí objekt třídy K hodnotě 1 a 0 se přiřadí k jiným třídám, pak rozptyl těchto hodnot je roven . Podle počtu tříd K jsou nečistoty dány funkcí i(t).

(3.6)

3.2 Metody regresní analýzy

Regresní modely patří mezi statistické metody, které jsou často využívané v nejrůznějších vědních odvětvích, zejména pro svou snadnou implementaci. Snaží se jednoduše popsat vztahy mezi různými vlastnostmi objektů.

3.2.1 Lineární regrese

Metoda lineární regrese patří k těm nejjednodušším, avšak může mít velice dobré výsledky, především pokud je aplikována na řídká data.

(17)

Metody dataminingu

Lineární regrese odhaduje hodnoty kvantitativní proměnné X na základě kvantitativní proměnné Y pomocí přímky, která nejlépe odpovídá průběhu závislosti proměnných X a Y. Kde X je nezávislá proměnná (známý atribut) a Y je závislá proměnná (neznámý atribut). Závislost proměnných X a Y lze popsat pomocí regresní přímky.

(3.7)

Pokud se jedná o polynom vyššího stupně, používá se pojem křivková závislost.

Např. rovnice pro parabolu by tak vypadala takto.

(3.8)

Regresní koeficient a je vzdálenost průsečíku regresní přímky s osou y. Regresní koeficient b je sklon úhlu regresní přímky a osy x. Vyjadřuje změnu závislé proměnné Y, pokud se změní nezávislá proměnná X o jednotku.

Metoda proložení přímky

Hledá se teoretický průběh funkce pro soubor dvojic xi – yi, kde k pravděpodobnostnímu rozdělení hodnot y, což je náhodná veličina, existují právě dané hodnoty x.

(3.9)

Teoretické hodnoty y a naměřené hodnoty yi se liší. Rozdíl je dán funkcí i.

 (3.10)

Pro získání základního souboru dvojic je potřebné mít všechny možné dvojice xi – yi. K dispozici je však pouze výběr naměřených dvojic, ze kterého nelze definovat a . Z naměřených dvojic se proto musí vytvořit bodový odhad (část osy y) a (směrnice přímky) pomocí empirické regresní funkce. Vypočítané hodnoty veličiny y se značí ̂.

(18)

Metody dataminingu

̂ (3.11)

Obr. 3.2:Metoda proložení přímky

K hodnotě xi tedy existují dvě hodnoty y a to empirická yi a teoretická ̂ Odhad chyby nebo takzvaná rezidua se spočítá dle vzorce níže.

̂ (3.12)

Metoda nejmenších čtverců

Odhady parametrů a ab se provádí např. pomocí metody nejmenších čtverců.

Metoda je založená na minimalizaci reziduálního součtu čtverců.

(3.13)

(19)

Metody dataminingu

Obr. 3.3:Metoda nejmenších čtverců

Nejlépe se přímka proloží tak, že suma rozdílů naměřených hodnot yi a vypočítaných hodnot yi má nejmenší hodnotu ze všech možných proložení.

(3.14)

Pomocí korelačního koeficientu r a směrodatné odchylky sx a sy lze vypočítat parametr b, neboli regresní koeficient.

(3.15)

Parametr a se vypočítá pomocí těžiště T [Tx, Ty] a parametru b.

(3.16)

∑ (3.17)

∑ (3.18)

(20)

Nástroj PSW Modeler

4 Nástroj PSW Modeler

IBM Business Analytics software dává možnost maximálně využít existující data. Uživatele tyto nástroje vedou ke zlepšení výkonnosti podniku od prediktivní analýzy, finanční výkonnosti až po strategii řízení. Součástí je i PSW Modeler 14.2, který pomáhá organizacím mimo jiné předpovídat budoucí události, a tak aktivně přispět k lepším obchodním výsledkům. Komerční, vládní a akademičtí zákazníci Modeler využívají především k získávání a udržení zákazníků a ke snížení podvodů, snížení rizika a splnění podnikatelských cílů[5].

SPSS Modeler díky vizuálnímu prostředí umožňuje klientům uplatnit své obchodní znalosti na svých prediktivních modelech za kratší časový úsek. Obsahuje především všechny kroky CRISP-DM (Cross-Industry Standard Process pro Datamining) verze 1.0 (viz. Obr. 4.1). Jedná se o standard z roku 1999, který sjednotil metodologii dataminingových řešení. Díky tomu klienti nemusí vymýšlet vlastní metodologii a mohou se soustředit na řešení vlastních úloh.

Obr. 4.1: Schéma CRISP-DM

(21)

Nástroj PSW Modeler

Model životního cyklu CRISP-DM je tvořen šesti základními fázemi:

1. Porozumění problému 2. Porozumění datům 3. Příprava dat 4. Modelování 5. Ohodnocení 6. Nasazení

Předchozí sled není pevně daný. V každém projektu je to jiné a mezi fázemi se lze pohybovat dle potřeb. Například při zjišťování transparentnosti veřejných zakázek se pracuje s velkým množstvím dat bez konkrétního cíle. Větší zřetel bude tedy brán na průzkum a vizualizaci dat.

4.1 Porozumění problému

V prvním kroku si musí daná organizace ujasnit cíle a očekávání, které si slibuje od dataminingu. Na novém projektu by se měli již od začátku podílet všichni zainteresovaní, především management, marketing a IT oddělení.

Stanovení cílů je jeden z nejdůležitějších bodů této fáze. Zejména popis problému, který se má pomocí dataminingu řešit. Kritéria úspěchu či neúspěchu se dělí do dvou kategorií, a to na objektivní a subjektivní. Objektivní lze lehce změřit, např. zvýšení tržeb. Subjektivní hodnocení vychází z dlouholeté praxe odborníka v dané oblasti a záleží, jak danou situaci vnímá, např. nesplácení úvěru z nevůle nebo kvůli platební neschopnosti. Primárně se jedná o finanční cíle, např. zvýšení zisku, šetření, zrychlení procesu.

Pro posouzení situace je nezbytné vytvořit soupis výchozího stavu, ať už se jedná o hardware, datové či personální zdroje. V dokumentu by také neměly chybět předpoklady a omezení, rizika, terminologie a náklady a výnosy projektu.

Součástí této fáze je i předběžný plán projektu, kde nesmí chybět jednotlivé fáze, časová náročnost každé fáze, její personální zabezpečení a rizika spojená s danou fází.

Všechny tyto části fáze porozumění problému lze efektivně plánovat v projektovém manažeru CRISP-DM, který je součástí Modeleru, který nabízí celou řadu interaktivních grafů, zejména pavučinový graf pro analýzu vztahů dat.

(22)

Nástroj PSW Modeler

4.2 Porozumění datům

Pro pochopení dat je vhodné použít tabulky a grafy, které mohou být organizovány opět pomocí nástroje CRISP-DM, pomocí něhož lze popsat výsledky a určit kvalitu dat.

Data lze získávat z mnoha zdrojů, např. z průzkumu trhu, z firemní databáze, či webových serverů. Modeler podporuje formáty jako SPSS, SAS, Excel, dBase, Lotus atd. Pokud jsou informace nedostatečné, musí se provézt průzkumy nebo taková data zakoupit. Získaná data se musí popsat, obzvláště množství a kvalita. Pro modelování je nejlepší mít co největší databázi, která vytváří přesnější modely, ale je časově náročnější, proto se musí zvolit vhodný kompromis mezi velikostí dat a času. Součástí Modeleru jsou nástroje pro zjednodušení struktury dat, kde se vytřídí informace, které nebudou použity v modelu.

Údaje ze zdrojů jsou málokdy dokonalé, např. chybí některé hodnoty nebo obsahují překlepy. Proto je třeba vždy provést kvalitativní analýzu dat s použitím reportovacích nástrojů Modeleru.

4.3 Příprava dat

Jedná se o časově nejnáročnější fázi a také jednu z nejdůležitějších. Pokud se však první dvě fáze životního cyklu udělají správně, časová náročnost se výrazně sníží.

Příprava dat vede k vytvoření matice dat, která bude vstupem do dataminingových metod používaných na modelování.

Ve fázi porozumění dat se získaly informace o tom, jak data upravit a použít pro naplnění dříve definovaných dataminingových cílů. Například pro různá posouzení dat je nutno udělat výběr z těchto dat. Pro získávání „vysvětlujících podmnožin“ se používají dvě techniky. První z nich je výběr řádků v matici, kde se vyberou konkrétní záznamy, obvykle s nějakou podmínkou. Druhá možnost je výběr atributů, tedy sloupců v matici, kde se vyberou takové vlastnosti popsané atributem, u kterých se předpokládá, že budou mít vliv na modelování.

Data, která se „vyselektovala,“ je nutné vyčistit. V Modeleru k tomu slouží uzel Record a FieldOperation. Pokud chybí údaje, musí se takové řádky nebo sloupce zpracovat, a to v závislosti na chystaném modelu. Některé algoritmy dataminingu chybějící údaje nepřipouští, a pak záleží na rozhodnutí dataminera, jak data vyčistí.

(23)

Nástroj PSW Modeler

Může taková data z modelování úplně vyloučit, nebo u některých položek lze takové hodnoty dopočítat či odhadnout. Dalším důvodem k čištění dat může být použití několika zdrojů dat, často se stává, že dojde k jinému kódování u stringových řetězců.

Takové položky jednoho atributu se musí sjednotit do stejného formátu. Pro zjištění kvality dat se v předchozí fázi CRISP-DM použil uzel pro kvalitativní analýzu dat.

Ta v sobě obsahuje informace, na která data je vhodné se soustředit.

Získaná data nemusí být dostatečná, proto je časté, že se vytvoří na základě logické úvahy datamineranové údaje (logickými funkcemi, agregací, odvozením apod.).

Nová proměnná nebo nové záznamy lze vytvořit v Modeleru několika způsoby, např.

pomocí uzlů Derive, uzlů pod záložkou RecordOperations a FieldOperations.

Data pro analýzu mohou být uložena v několika tabulkách, což pro modelovací nástroje Modeleru není vhodné a je nutné je integrovat. Pro integraci dat se používají dvě metody. První metoda slučuje dva soubory s podobnými záznamy, ale různými atributy. To lze provézt, pokud mají soubory stejný jedinečný identifikátor, např. IČO, uzlem Merge. Pro sloučení v Modeleru lze využít nástroje keyfield. Druhá metoda přidává data z několika souborů s podobnými atributy, ale různými záznamy uzlem Append.

4.4 Modelování

Ve fázi modelování se aplikují modely na získanou datovou matici. Jednotlivé sloupce stále představují atributy pro záznam v řádku matice. Jsou nejen typově odlišné, ale odlišují se i svou úlohou pro modelování, označovanou pojmem role. To se musí nastavit v uzlu Type, vždy podle modelu. Pokud se ukáže, že parametry atributů jsou nevhodné, změní se, nebo se dataminer musí vrátit o jeden či několik kroků zpět a hledat jinou cestu. V první části modelování se vybere modelovací technika. Ta je závislá na formulaci problému, typu dat, požadavku na přesnost, specifikaci, formátu, času a také na ceně.

Před samotným modelováním je nutné vytvořit postup, který bude nezávisle hodnotit kvalitu modelu. Např. data se náhodně rozdělí na dvě části. První část je trénovací, to jsou data pro učení modelu. Druhá část je testovací, to jsou data pro evaluaci. Model se vytvoří na trénovacích datech a kvalita se procentuálně vypočítá z testovacích dat.

(24)

Nástroj PSW Modeler

Nyní by mělo být vše připraveno pro samotné modelování. Obvykle se tvoří několik různých modelů s odlišnými parametry najednou a výsledky se porovnávají.

V Modeleru jsou uzly určené pro modelování v záložce Modeling. V proudu by měl předcházet uzel Type, kde se nastaví rozmezí hodnot, vstupní a výstupní proměnné a jejich typ. Nově vytvořené modely po výpočtu, které mají podobu zlatých diamantů, se připojují přímo do proudu, kde s nimi lze dále pracovat.

V posledním kroku je zapotřebí daný model posoudit z pohledu metod a zhodnotit jeho výsledky na základě objektivních a subjektivních kritérií. V Modeleru se k tomu využívají nástroje jako hodnotící tabulky, analýzy grafů a výsledky modelů.

4.5 Ohodnocení

V této fázi se stanoví, zda jsou modely správné, efektivní a úspěšné tak, jak se definovaly ve fázi porozumění problému. Především je zapotřebí ohodnotit dataminingové výsledky.

Další důležitou částí je posouzení procesu, kde by se pro každou fázi CRISP-DM měly zhodnotit dané činnosti a rozhodnutí. Především to, zda daná část přispívá k lepším výsledkům dataminingu, či zda existují lepší postupy pro zefektivnění daného kroku.

Když jsou známy výsledky a hodnocení z dolování dat, je možné vymezit další kroky. První varianta je, že se model zavede do fáze nasazení a vypracuje se závěrečná zpráva, a to i při nesplnění zadaných cílů. Druhou variantou je navrátit se k předchozím fázím a zefektivnit model podle již zjištěných informací.

4.6 Nasazení

Vytvořením a použitím vhodného modelu úloha nekončí. Model je zapotřebí nasadit do praxe, kde výstupem dataminingu by měl být funkční prvek, který umožní predikci pro nově vložená data. Modeler také nabízí několik variant exportu dat a výsledků pro on-line i off-line úlohy, které se integrují do informačních systémů a využívají se pro marketingová rozhodnutí.

Ve fázi nasazení je také vhodné použít, podle CRISP-DM, monitorování a údržbu systému a vytvoření závěrečné zprávy, kde dojde k zhodnocení celého projektu.

(25)

Případové studie zpracované pro e-learningový portál

5 Případové studie zpracované pro e-learningový portál

Pro připravovaný předmět Datamining jsem zpracoval dvě případové studie související s tématem této práce. Jsou to příklady výše uvedeného teoretického postupu s názvem „Efektivita marketingových akcí“ a „Zacílení marketingové kampaně“. Celý text je přílohou a také je integrovaný jako dva příklady v kurzu MTI/DM.

V dnešní době probíhá mnoho marketingových akcí. Často však mají velmi nízkou návratnost. V příkladu „Efektivita marketingových akcí“ je úkolem kvantifikovat vliv reklamy na prodej a tyto informace využít k sestavení modelu.

Dataminer, který má úlohu řešit, musí nejdříve data dokonale analyzovat a zpracovat do datové matice, která bude základem pro modelování. V modelovací části se budou srovnávat modely rozhodovacího stromu C&R Tree a lineární regrese. Výstupem příkladu bude tabulka s odhadovanou výší tržby po provedení reklamní kampaně, ze které se bude moci vyčíst, zda se takováto marketingová akce vyplatí, či nikoliv.

Cílem dataminingové úlohy „Zacílení marketingové kampaně“ je pomoci marketingovému oddělení v bance při zavádění nového produktu PEP (Personal ekvity plan). V prvním kroku zaslala banka nabídku 600 náhodně vybraných klientů a získala od nich údaje o zájmu o produkt. Tato data spolu s informacemi o zákaznících z databáze tvoří historická data, na kterých se vybuduje model. Model bude mít za úkol nalézt takovou množinu adresátů, u které bude dosaženo vyšší míry odezvy, než by odpovídala náhodně oslovená skupina adresátů. Tato změna strategie by měla vést ke snížení nákladů na kampaň a zvýšení zisku společnosti.

(26)

Veřejné zakázky v České republice

6 Veřejné zakázky v České republice

V průběhu řešení jsem dostal úkol najít si nějaký reálný zdroj dat, data získat a poté je zpracovat v Modeleru ve fázi porozumění a zpracování. Další modelování bude předmětem dalších projektů. Původní představa byla o reálném „Nákupním košíku“ z některého prodejního řetězce. To je úkol, který v krátkém čase nebylo možné realizovat, protože by do jednání o datech muselo vstoupit vedení univerzity a vedení řetězce. To je běh na delší trať, a proto jsem hledal dostupnější data. Po čase jsem objevil data veřejně dostupná a provozovaná důvěryhodným providerem o veřejných zakázkách v ČR. Data jsem získal a jejich zpracování potvrdilo to, co říká teorie o fázi zpracování. Tedy na prozkoumání struktur, vytvoření vstupní datové matice a vyčištění dat je potřeba velký objem prací a jedná se o časově náročné operace.

6.1 Zdroje dat

V České republice je zadavatel veřejných zakázek povinen uveřejňovat informace podle zákona č. 137/2006 Sb. o veřejných zakázkách. K tomu slouží informační systém o veřejných zakázkách (www.isvz.cz), který je provozován firmou NESS Czech s.r.o. pro Ministerstvo pro místní rozvoj ČR.

Portál hlavního města Praha zveřejňuje rodné listy zakázek na stránkách www.zakazky.praha.eu, které slouží občanům k nalezení informací o dané zakázce, od výběrového řízení až po plnění zakázky, jako jeden z nástrojů boje proti korupci města Praha.

Zdrojem dat pro tuto práci byl vybrán portál všechnyzakázky.cz (www.vsechnyzakazky.cz), který přehledně a souhrnně slučuje informace z předchozích dvou portálů. Umožňuje vyhledávání souhrnných informací podle různých parametrů zadavatele, dodavatele i zakázky. Export většího množství dat je možné do formátu xls, avšak takto vygenerovaná datová matice v sobě nenese tolik informací, jako např. zdroj informací, adresu dodavatele a zadavatele. Pro získání všech možných dat z portálu se využilo rozhraní REST API, které webová stránka poskytuje.

Získaná databáze obsahuje tři základní tabulky s informacemi o zadavateli, dodavateli a zakázkách, kde jeden zadavatel a dodavatel může mít několik zakázek (viz. Obr. 6.1). Tabulka zakázka má dvě závislé tabulky: druh řízení a typ zakázky.

(27)

Veřejné zakázky v České republice

Tabulka zadavatel má tři závislé tabulky: počet zaměstnanců, kraj a s tabulkou dodavatel má stejnou tabulku typ subjektu.

Databáze obsahuje veřejné zakázky od 7. 7. 2006 do 2. 4. 2013. Tabulka zakázka má 91 413 řádků, které obsahují informace o ceně zakázky, dodavateli, druhu řízení, počtu nabídek, zdroji, názvu, ceně celkem, dopočítané ceně, rámcové smlouvě, datu zadání, názvu zdroje, popisu, podpoře EU, typu zakázky, zadavateli a skupině.

Tabulka dodavatel má 16 416 řádků, které obsahují informace o státu, IČO, kraji, PSČ, městu, názvu a typu subjektu.

Tabulka zadavatel má 6 084 řádků s údaji o státu, IČO, kraji, PSČ, počtu zaměstnanců, městu, názvu a typu subjektu.

Obr. 6.1: Struktura databáze (zdroj: www.vsechnyzakazky.cz/api/)

6.2 Příprava dat

Pro připojení databáze do Modeleru se použije správce zdrojů dat ODBC, který obsahuje informace o připojení k dané databázi. Databáze je uložená na localhost pomocí softwaru phpMyAdmin. Pro načtení dat v Modeleru se použije uzel Database, kde se načte databáze z lokálního serveru a vybere tabulka se vstupními daty.

(28)

Veřejné zakázky v České republice

6.2.1 Analytické proudy

Vstupní databáze je velice rozsáhlá a je zapotřebí určit, zda se některé informace neopakují či jsou zbytečné pro modelování.

Nejobsáhlejší je tabulka se zakázkami a je možné, že by mohla obsahovat duplicitní řádky. Vyhledání takovýchto položek se provede agregací pomocí klíčového slova id, vytvoří se nová proměnná X, která obsahuje počet výskytů stejných zakázek.

Po spuštění proudu se zjistilo, že z 91 413 zakázek je jedinečných 57 273 zakázek – to bylo poměrně překvapivé zjištění. Stává se tak z mnoha důvodů, které rozeberu v závěru práce. Soubor se zakázkami bez duplikátu se vytvoří v uzlu Distinct, do kterého se připojí vstupní tabulka se zakázkami. V uzlu Distinct je zapotřebí vybrat id jako klíčovou oblast pro seskupování, podle které se v rámci vytvořených skupin seřadí záznamy.

Pro tabulku zadavatel se v první fázi přípravy dat zjistí, zda nejsou zadavatelé také duplicitní, jako tomu bylo u zakázek. Hledání duplikátu se provede pomocí uzlu Aggregate, podle IČO, které je jedinečné a organizace by jej měly uvést při zadávání zakázek (viz. Obr. 6.2).

Obr. 6.2: Proud hledání duplicity zadavatele

Po spuštění proudu se zjistilo, že IČO zadalo 5 771 z 6 084 zadavatelů a žádný zadavatel, který vyplnil IČO, není duplicitní. Zbývá tedy prověřit 313 zadavatelů, kde klíčem pro vyhledávání se zvolí název dodavatele. Po spuštění proudu se zjistilo, že

(29)

Veřejné zakázky v České republice

název zadalo všech 313 zadavatelů s jedinečným názvem, z čehož vyplývá, že z 6 084 zadavatelů není ani jeden duplicitní.

Hledání duplikátu pro tabulku dodavatel se provede obdobně jako u zadavatele.

Jako klíčové slovo pro souhrn z dat se stanoví IČO. Z 16 416 je vyplněno u 9 385 dodavatelů a žádný není duplicitní. U zbylých 7 031 dodavatelů se určí zdvojení podle názvu. Po spuštění proudu se zjistila jedna duplicita, jednou není název uveden (prázdná množina) a u 547 dodavatelů není uveden subjekt (neuvedený subjekt).

U dodavatelů, kde není uveden subjekt, již nelze dohledat duplicita, jelikož k tomu už nejsou vhodná data. Dodavatel, který neuvedl žádný název, dostal po dalším zkoumání tři zakázky v řádech stamiliónů od společnosti ČEZ a nelze ho dohledat, jelikož u něho není uveden název, IČO, město, PSČ ani typ subjektu. Protože na každou zakázku, kde byl vybrán předešlý dodavatel, byl počet nabídek roven jedné či dokonce žádné, je tento dodavatel i se všemi 3 zakázkami brán jako podezřelý (id dodavatele = 378 041).

U dodavatele, u kterého se vyskytla duplicita (id dodavatele = 353 251, 353 252), se po dalším bádání zjistilo, že nedostal žádnou zakázku, proto je nedůležitý a je odebrán z tabulky dodavatelé.

Jelikož se vyskytl v databázi dodavatel, který nedostal zakázku, je vhodné zjistit, zda neexistují další. Z tabulky zakázka se vybere proměnná dodavatel pomocí agregačního uzlu, který vytvoří novou proměnnou N, která udává počet výskytů zakázek u dodavatele (viz. Obr. 6.3). Zároveň se vytvoří statistické proměnné, např.

cena_Sum (celková suma cen za všechny zakázky získané daným dodavatelem), cena_Min (nejmenší cena zakázky získané daným dodavatelem). Po spuštění se zjistilo, že alespoň jednu zakázku získalo 12674 dodavatelů, z čehož plyne, že 3 742 dodavatelů nezískalo žádnou zakázku a není zapotřebí s nimi dále v projektu pracovat. Proto se vytvořil seznam úspěšných dodavatelů, kteří získali zakázku, a pro další práci s dodavateli se vyexportoval soubor exp_dodavatel.sav.

(30)

Veřejné zakázky v České republice

Obr. 6.3: Proud selekce dodavatelů

Po vyselektování 3 742 dodavatelů z databáze je také vhodné posoudit, zda všichni zadavatelé zadali zakázky. Analytický proud je obdobný jako u selekce dodavatelů. Jen se zamění pro agregaci proměnná zadavatel a pro vypsání seznamu zadavatelů, kteří vypsali zakázku, se zvolí vstupní tabulka zadavatel. Po zapnutí proudu se vypsalo 4 844 z celkových 6 084 zadavatelů, což znamená 1 240 zadavatelů, kteří jsou v databázi navíc. Pro další práci se zadavateli se vyexportuje soubor exp_zadavatel.sav, který obsahuje seznam se zadavateli, kteří vypsali alespoň jednu zakázku.

6.2.2 Proudy úpravy dat

V tabulce se zakázkami se vyskytují dva atributy označující ceny zakázky. První se nazývá cena a druhý cena_celkem. Proměnná cena má udávat celkovou cenu, kterou zaplatí zadavatel, a proměnná cena_celkem by měla označovat cenu zakázky při rámcové smlouvě. Tyto atributy však nesou zkreslující informace již od zdrojových dat, jako např. nevyplněná pole, zaměněná pole. Pro korekci chyb se vytvořila nová proměnná cena_zakazky za pomoci několika podmínek v uzlu Derive (viz. Obr. 6.4).

(31)

Veřejné zakázky v České republice

Obr. 6.4: Část diagramu vzniku nové proměnné cena_zakazky

Díky nové proměnné cena_zakazky je jasně definovaná cena, kterou dodavatel obdrží od zadavatele zakázky. V některých případech algoritmus potlačuje chyby cen z portálu všechnyzakázky.cz, které jsou však pravděpodobně způsobeny špatnými informacemi již ze stránek isvzs.cz.

6.2.3 Skórovací proudy

Data do informačního systému o veřejných zakázkách vkládají zadavatelé, kterých je přes čtyři tisíce. Proto je možné, že data, která jsou v systému Ministerstva pro místní rozvoj, jsou neúplná či nepřesná. Je pochybením SW, že tyto chyby povolí.

Některým chybám je nutné zabránit při vkládání dat do systému. Podle zákona o veřejných zakázkách jsou vyskytující se chyby protiprávní, jelikož základní informace, jako např. IČO, název firmy, adresa, je zadavatel povinen vyplnit.

Takovéto jednání je buď z nedbalosti, nebo je úmyslné a má za úkol zakrýt trestnou činnost – to je chování, které by následné modelování mělo prověřit, resp. připravit pro to potřebné informace. Pro odlišení správně vyplněných veřejných zakázek a dodavatelů od podezřelých subjektů se musí jednotlivé zakázky a dodavatelé ohodnotit. Posuzují se také zakázky, které se zdají být netransparentní, např. dle druhu řízení či počtu nabídek.

(32)

Veřejné zakázky v České republice

Čím vyšší skóre daná zakázka či zadavatel dostane, tím je podezřelejší. Skóre se vytvoří

„expertním“ posouzením, jak popisuje následující text.

Pro ohodnocení dodavatele se vybere soubor exp_dodavatele, který se při analytickém proudu vyexportoval. Vytvoří se nová proměnná Skore_dodavatel, ke které se pomocí uzlu Filler postupně přičítají body, dle tabulky níže.

Tab. 6.1: Skóre dodavatele Skóre pro dodavatele

proměnná zadaná hodnota skóre pro danou hodnotu

IČO 0 5

stát 1

PSČ 0 1

město 1

ares 0 2

typ subjektu 1 3

1161 3

Pokud se u dodavatele např. neuvede IČO (odpovídá hodnota 0), k proměnné Skore_dodavatel se přičte 5 bodů. Když není uveden ani stát (odpovídá nevyplněná buňka), přičte se k proměnné další 1 trestný bod (celkem jich je u daného dodavatele již 6). Dále se pokračuje obdobným způsobem (viz. Obr. 6.5). Na konci proudu se data vyexportují do nového souboru exp_skore_dodavatel, který nově obsahuje skóre.

Obr. 6.5: Proud skórování dodavatelů

(33)

Veřejné zakázky v České republice

Ohodnocení zakázek se provádí podobně jako u dodavatelů. Vstupním souborem je tabulka zakázka, ke které se přidá nová proměnná Skore. V proudu následuje uzel Filler, který přičítává k proměnné Skore trestné body podle zadaných hodnot u proměnných druh_rizeni, pocet_nabidek, ramcova_smlouva, typ_zakazky, popis, cena_dopocitana (viz. Tab. 6.2). Výstupem proudu je vyexportovaný soubor exp_skore_zakazka, který obsahuje vstupní data tabulky zakázka i s proměnnou Skore.

Tab. 6.2: Skóre zakázky Skóre pro zakázku

proměnná zadaná hodnota Popis skóre pro danou hodnotu

druh řízení 1 neznámý 10

1115 jednací bez uveřejnění 10

1117 užší 10

1119 jednací s uveřejněním 1

1120 soutěžní dialog 4

1121 soutěž o návrh 2

počet nabídek 0 10

1 10

2 6

3 3

4 1

rámcová smlouva 1 1 = ano 3

typ zakázky 185 jiné služby 1

cena dopočítána 1 1 = ano 3

popis pole nevyplněno 3

Skóre pro zakázky a dodavatele se vypočítalo a uložilo do nových souborů exp_skore_zakazka.sav a exp_skore_dodavatel.sav. Jelikož je každá zakázka spjatá s konkrétním dodavatelem, nabízí se sečíst u dané zakázky skóre zakázky a dodavatele.

Vstupem proudu jsou předešlá vyexportovaná data spuštěná přes uzel StatisticsFile (viz. Obr. 6.6). K propojení dat dochází pomocí uzlu Merge, kde klíčem spojení je dodavatel. Před spojením se musí u dodavatele přejmenovat proměnná nazev, jelikož má stejné jméno i atribut v tabulce se zakázkami. V uzlu Merge se ještě vyfiltrují atributy created a modified u obou vstupů, jelikož nenesou žádnou informaci, která by byla dále zapotřebí. Po spojení tabulek se vytvoří nová proměnná skore_celkem v uzlu Derive sečtením proměnných Skore a Skore_dodavatele. Před exportem nově

(34)

Veřejné zakázky v České republice

vzniklého souboru exp_skore_celkem pomocí uzlu StatisticsExport se data setřídí podle skore_celkem v uzlu Sort.

Obr. 6.6: Proud celkového skóre

Po spuštění proudu se u každé zakázky vypočítalo skóre v rozmezí 0 až 36 trestných bodů. U 9154 zakázek se jedná o hodnocení nad 20 bodů. „Top“ 50 je uvedeno v příloze.

6.2.4 Datová matice

Datová matice v sobě zahrnuje veškeré informace, které jsou vhodné pro modelování. Vstupními soubory matice jsou exp_skore_celkem a exp_zadavatel. Než se tyto dvě tabulky spojí v uzlu Merge přes proměnnou zadavatel, je zapotřebí přejmenovat proměnné ze souboru exp_zadavatel, jelikož se shodují s proměnnými z druhého souboru. V uzlu Filter se odstraní nepotřebné atributy, jako např. vložení dat do databáze. Nově vzniklá matice se vyexportuje v uzlu Statistics Export pod názvem datova_matice. Obsahuje 57 273 řádků a 41 sloupců.

(35)

Veřejné zakázky v České republice

6.3 Hodnocení subjektů

S vytvořenými novými proměnnými a datovou maticí lze nyní dále pracovat.

Především lze snadno využívat informace mezi zakázkami, zadavateli a dodavateli a vyhledávat mezi nimi spojitosti.

Prvně se nabízí ohodnotit zadavatele zakázek. Vstupem je datová matice, ze které se odstraní atributy, které se při hodnocení nevyužijí. V uzlu Aggregate se vybere jako klíčové slovo proměnná nazev_zadavatele, podle které se vytvoří nová proměnná Record_Count, která značí, kolikrát zadavatel zadal zakázku. U proměnných skore_celkem a cena_zakazky se vypočítá suma a průměrná hodnota. Po setřídění dle průměrného skóre zakázky vyšel jako nejhorší dle skóre úřad práce v Karlových Varech s 32 body (viz. Tab. 6.3).

Tab. 6.3: Hodnocení zadavatele

Setřídit zadavatele lze i podle jiných kritérií, např. podle nejvyššího průměru ceny či součtu cen zakázek.

Hodnocení dodavatelů je obdobné. Liší se zejména klíčovým slovem, kde je vybrána proměnná nazev_dodavatele. Po setřídění dle nejvyššího průměru skóre dopadl nejhůře dodavatel Allianz Healtcare, s.r.o, s jedinou zakázkou od revmatologického ústavu (viz. Tab. 6.4).

Tab. 6.4: Hodnocení dodavatele

Průměrné skóre zakázky je 10,71 trestných bodů s průměrnou cenou 19 408 373 Kč. Součet všech zakázek za sledované období přesáhl biliónu Kč.

(36)

Veřejné zakázky v České republice

Skóre jednotlivých zakázek se může lišit např. dle krajů. Pro výpočet průměrného ohodnocení dle krajů se použije datová matice. Odfiltrují se nepotřebné atributy a seřadí se podle nejlepšího skóre zakázek. Vytvoří se tabulka s průměrnými a celkovými hodnotami cen a skóre dle krajů. Nejlépe si vede Olomoucký kraj s 8,87 body a nejhůře je na tom Jihočeský kraj s 11,8 body (viz. Obr. 6.7). Kraje jsou barevně odlišeny dle skóre od nejlepšího (modrá barva) po nejhorší (červená barva).

Obr. 6.7: Ohodnocení krajů dle průměrného skóre

Některé zakázky jsou spolufinancovány Evropskou unií. U každé zakázky je napsáno, zda je podpořena, či nikoliv, avšak chybí zde jakékoli číselné či procentuální vyjádření. Dotaci získalo 15 313 z 57 273 zakázek s celkovou cenou zakázek 291 233 552 896 Kč. Průměrná cena zakázky je 19 018 713Kč.

Jak si vedou jednotlivé kraje v získávání podpory z EU se zjistí pomocí uzlu Aggregate. Klíčem jsou proměnné podporeno_eu a kraj_zadavatele. Výpočet se provádí dle vzorce u každého kraje (pro výpočet jsou použita jen data k danému kraji).

(∑ )

(∑ ) (∑ ) (6.1)

(37)

Veřejné zakázky v České republice

Nejlépe si v poměru dotovaných zakázek vede Pardubický kraj s Vysočinou, nejhůře je na tom Královéhradecký kraj, který po přepočítání podpořených zakázek EU na cenu zakázky získává jen 16,56 %. Což znamená, že z každé zakázky, která se provede na území Královéhradeckého kraje, je jen 16,56 % spolufinancováno EU.

Celorepublikový průměr je 26,2 %.

Obr. 6.8: Poměr zakázek s dotací z EU podle krajů

Veškeré proudy z Modeleru jsou uloženy na přiloženém CD, spolu se vstupní databází a vyexportovanými soubory.

(38)

Závěr a doporučení

7 Závěr a doporučení

Bakalářská práce si kladla za cíl představit vybrané metody a postupy dataminingu, které přispějí k efektivitě marketingových akcí. Praktické úlohy byly realizované pomocí PSW Modeler 14.2. Za použití příkladů obchodních aktivit podnikatelských subjektů byla vysvětlena podstata dataminingu v marketingu.Vybrané modelovací metody jsou použité v případových studiích, které jsou popsány v přílohách A a B, a byly realizovány v PSW Modeleru. Přílohy budou sloužit jako návod pro modelovací úlohy „Zacílení marketingové kampaně“ a „Efektivita marketingových akcí“ pro studenty plánovaného předmětu Datamining. Vytvořené případové studie vycházejí z podkladů od vedoucí práce, ale byly podstatně přepracované a upravené pro výuku.

Příklad veřejných zakázek je samostatný experiment, provedený v rámci bakalářské práce. Vypracována byla kompletní příprava dat, což tvoří u tak rozsáhlého projektu 70% práce. Úloha je založená na reálných datech všech veřejných zakázek v ČR, která slouží ke kontrole veřejnosti. V tuto chvílí nese znaky vyvíjejícího se systému, vysokou chybovost, programátorsky nedotažené rozhraní pro zadávání vstupních dat. Proto jako další výsledek této práce byl odeslán seznam doporučení s vysvětlením na Ministerstvo pro místní rozvoj ČR. V tomto dopise doporučuji přepracovat formuláře pro vkládání veřejných zakázek do portálu ISVZ, především zvolit jako povinnou položku IČO dodavatele, které funguje v mnoha systémech jako jedinečný identifikační klíč. Pochopitelně by pak bylo možné propojit daného dodavatele i s jinými rejstříky. Dále určit jako povinné údaje např.: druh veřejného zadavatele, hlavní předmět činnosti, celkovou předpokládanou hodnotu zakázky, dobu trvání zakázky a lhůtu pro dokončení kritéria pro zadání zakázky. Pro větší transparentnost zakázek by bylo vhodné zavést položky, které by informovaly o zdrojích financí, subdodavatelů a jejich číselné vyjádření. Jako nevhodné se zdá vyplňovat u zadavatelů počet zaměstnanců, a naopak u dodavatelů by tento údaj měl být povinný. Přitom by bylo příhodné posoudit, zda subjekt, který dostal zakázku v řádech stamiliónů, nezaměstnává jen několik zaměstnanců, a jeho jednání je tím podezřelé, funguje jen jako prostředník odčerpávající finanční dotaci. Doporučuji také proškolit personál zadavatelů zakázek, kteří buď z neinformovanosti nebo z nedbalosti nevyplňují všechny položky ve formuláři. Problematika veřejných zakázek by mohla být částečně

(39)

Závěr a doporučení

vyřešena s plánovanou novelou zákona o veřejných zakázkách, která v plném znění nabývá účinnosti 1. 1. 2014, avšak pokud zadavatelé nebudou nuceni zveřejňovat své informace o všech fázích zakázky a nebude zde dostatečná kontrola, budou všechny mechanismy protikorupční strategie zbytečné. Další modelování nad zpracovanými daty má potenciál odhalit skryté souvislosti a informace. Podle informací vedoucí práce budou práce s daty o veřejných zakázkách pokračovat.

(40)

Seznam literatury

Seznam literatury

[1] SEIFERT, Jeffrey W. Datamining: Analyst in Information Science and Technology Policy. The Library of Congress, 2003. ISBN Order Code RL31798.

[2] ŠKALOUDOVÁ, Alena. PH.D., Regrese. Katedra psychologie Univerzity Karlovy v Praze [online]. 03/01/2012 [cit. 2013-03-26]. Dostupné z:

http://userweb.pedf.cuni.cz/kpsp/

[3] POPELKA J., Synek V. Úvod do statistické analýzy dat. Ústí nad Labem, Univerzita Jana Evangelisty Purkyně v Ústí nad Labem, Fakulta životního prostředí. 2009. 200 s. ISBN 978-80-7414-117-1.

[4] ŽAMBOCHOVÁ M. Informační Bulletin: České statistické společnosti. 2008, roč. 19, č. 3. ISSN 1210 – 8022.

[5] IBM SPSS Modeler 15: Algorithms Guide. In: [online]. 2012 [cit. 2013-04-08].

Dostupné z:

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/15.0/e n/AlgorithmsGuide.pdf

[6] TIMOFEEV, Roman. Classification and Regression Trees: Theory and Applications. In: [online]. [cit. 2013-04-09]. Dostupné z: http://edoc.hu- berlin.de/master/timofeev-roman-2004-12-20/PDF/timofeev.pdf

(41)

Př í loha A

Zací lení mařketingove kampane , PEP nový přodukt banký

Dnešní doba je plná reklamy. Je poměrně snadné pomocí reklamy zasáhnout širokou vrstvu obyvatelstva, což může být velice nehospodárné a může mít i opačný efekt. Cílem dataminingové úlohy je nalézt takovou množinu adresátů, u které bude dosaženo vyšší míry odpovědi, než by odpovídala náhodně oslovená skupina adresátů.

Tato změna strategie by měla vést ke snížení nákladů na kampaň a zvýšení zisku společnosti.

A Zadání

Banka zavádí nový produkt PEP (Personal equity plan) a hodlá provést marketingovou kampaň pro tento produkt. V prvním kroku zaslala banka nabídku 600 náhodně vybraných klientů a získala od nich údaje o zájmu o produkt. Tato data spolu s informacemi o zákaznících z databáze tvoří historická data, na kterých se vybuduje model. Model bude sloužit pro předpověď, komu zasílat nabídku produktu.

A.1 Vstupní data

V souboru data_model.txt se nacházejí údaje o 600 klientech. Každý řádek odpovídá jednomu klientovi. Proměnná pep je cílová proměnná, která se bude modelovat.

Tab. A.1.1: Proměnné v data_model.txt

Proměnná Popis

id Identifikační číslo zákazníka

vek Věk zákazníka

pohlavi Pohlaví zákazníka

region Typ regionu zákazníka

prijem Příjem zákazníka za poslední rok

stav Rodinný stav zákazníka

deti Počet dětí zákazníka

uver_auto Indikátor, zda má zákazník úvěr na automobil

(42)

ucet_sporici Indikátor, zda má zákazník spořicí účet ucet_bezny Indikátor, zda má zákazník běžný účet

hypoteka Indikátor, zda má zákazník hypotéku

pep Indikátor, zda má zákazník zájem o produkt PEP

A.2 Příprava datové matice

Pro úlohu máme „syrová“ data, která jsou virtuální, ale kopírují skutečná data, které banky obvykle o svých klientech sbírají.

Úloha se bude řešit pomocí softwaru IBM SPSS Modeler 14.2, kde se ihned po zapnutí programu vytvoří nový stream, a proto se může ihned začít. Nejprve se vloží uzel Var.File ze záložky Sources, pomocí něhož se vloží vstupní data do modelu.

Po rozkliknuti uzlu Var.File se přidá cesta k souboru data_model.txt (viz. Obr. A.2.1).

Pro zobrazení náhledu prvních deseti řádků dat se stiskne tlačítko Preview nahoře v uzlu Var.file.

Obr. A.2.1: Vložení souboru data_model.txt

Pro změnu definovaných vstupních proměnných se vloží za uzel Var.File ze záložky Field Ops uzel Type. Oba uzly se musí spojit, buď kliknutím na první uzel kolečkem myši a přetažením přímky na druhý uzel nebo pomocí klávesy F2.

Po rozkliknuti nově vloženého uzlu, se zobrazí tabulka vstupních proměnných, kde se data načtou pomocí tlačítka Read Values. Upraví se cílová proměnná pep (Personal equity plan) u níž se ve sloupci Values zvolí možnost Specify a definuje se jako

(43)

hodnota True “ano“ a jako hodnotu False “ne“ (viz. Obr. A.2.2). To sice nemá vliv na kvalitu modelu, ale je to přirozenější definice a ovlivní to způsob vynášení křivek v evaluačních grafech. Typ proměnné deti se nastaví jako ordinální (Ordinal) a opět pomocí tlačítka Read Values se načtou data.

Obr. A.2.2: Specifikace vstupních proměnných

Předpokládá se, že počet dětí by mohl mít vliv na cílovou proměnnou.

Pro prohlédnutí rozložení cílové proměnné k proměnné deti je vhodné použít uzel Distribution ze záložky Graphs. Obdobně (pomocí kolečka myši) se připojí za uzel Type. Po rozkliknuti uzlu Distibution se zvolí do pole Field proměnná deti a graf se obarví pomocí pole Color cílovou proměnnou pep. Pro lepší zobrazení dat se zaškrtne Normalize by color (viz. Obr. A.2.3). Pro zobrazení grafu se stiskne tlačítko Run.

(44)

Graf ukazuje, že pro různý počet dětí dostáváme odlišný zájem o nabízený produkt v závislosti na počtu dětí.

Úkolem je pomocí modelu odhadnout výstupní proměnnou, proto se data musí rozdělit na testovací a trénovací část pomocí uzlu Partition (záložka Field Ops), který stačí připojit za uzel Type (viz. Obr. A.2.4). Nemusí se nic nastavovat, rozdělení se automaticky provede rovným dílem.

Obr. A.2.4: Proud přípravy dat

Proměnná pep se pomocí modelu bude odhadovat, a proto se v dalším uzlu Type nastaví jako cílová role Target (viz. Obr. A.2.5). Ostatní proměnné vstupují do modelu jako prediktory. Výjimku tvoří proměnná id, která v modelu nemá smysl, systém jí již intuitivně přidělil prázdnou roli None.

Obr. A.2.5: Nastavení Type

Jako první se vyzkouší model rozhodovacího stromu C5.0, který se nachází v záložce Modeling. Připojí se k modelu za druhý Type (viz. Obr. A.2.6), opět pomocí

(45)

kolečka myši. Nastavení se ponechá defaultní. Uzel C5.0 se rozklikne a dole se spustí pomocí tlačítka Run. Po spuštění se připojí za vložený uzel zlatý diamant, který se pojmenuje pep.

Obr. A.2.6: Proud přípravy dat

Poklepáním se otevře a v záložce Viewer se zobrazí dendrogram (druh diagramu viz. Obr. A.2.7) odhadnutého modelu. Z něhož vyplývá, že dle rozhodovací stromu C5.0 mají nejsilnější vztah k cílové proměnné pep proměnné deti a prijem.

Obr. A.2.7: Dendrogram rozhodovací stromu C5.0

Je vhodné pro další algoritmy proměnné deti a prijem zkombinovat do jedné proměnné. Logickým ukazatelem může tedy být příjem na dítě. Pokud klient nemá žádné dítě, bude se brát v potaz jen jeho příjem. Nová proměnná se vytvoří pomocí uzlu Derive nacházejícího se v záložce Field Ops. Připojí se za druhý uzel Type.

Poklepáním se otevře a v záložce Settings se přenastaví Derive field: na prijem_dite, což je název nové proměnné, dále Derive as: na Conditional pomocí něhož se může vložit podmínka. If: deti = 0, Then: prijem, Else: prijem/deti.

References

Related documents

Záložka obsah kurzu obsahuje stručný přehled (formou tabulky) obsahu kurzu a možnost přejít na případ užití Administrace obsahu kurzu.. 6.2.3.2

Důvodem proč vzorky s leptaným povrchem (beads) a perličkovým povrchem (abreade) dosahují 8 až 34krát větších hodnot Ramanovské intenzity než vzorky s křemíkovou

Tento budič je koncovým prvkem generátoru obdélníkového průběhu napětí a slouží k posílení výstupu a zároveň z výstupního signálu hradlového pole o

V této diplomové práci budu řešit návrh a tvorbu webové aplikace sloužící k vizualizaci průchodu paketu počítačovou sítí, kde je kladen důraz na zobrazení

Alternativou, která však již nefunguje na bázi XML, a tím pádem vylučuje využití SOAP, může být i předání nestrukturovaných dat s primitivními datovými

Při návrhu je nutno dbát na omezující podmínku, že v daný okamžik lze provozovat pouze jednu úlohu (dle Na jedné stanici (server) bude možno v jeden okamžik

Mezi základní filtry patří například Servlet Config, který realizuje nastavení části kontextu akce na základě implementovaného rozhraní..

V období generální opravy vozidla (rok 2009) jsou JN údrţby včetně pořizovacích nákladů téměř na úrovni jako v předchozím roce (2008), v dalším roce je patrný