ASOCIAˇCNÍ ALGORITMY V DATAMININGOVÝCH ÚLOHÁCH

(1)

ASOCIAˇ CN´I ALGORITMY V DATAMININGOV ´ YCH ´ ULOH ´ ACH

Bakal´ aˇ rsk´ a pr´ ace

Studijn´ı program: B2646 – Informaˇcn´ı technologie Studijn´ı obor: 1802R007 – Informaˇcn´ı technologie Autor pr´ace: Milan Kov´aˇcik

Vedouc´ı pr´ace: Ing. Bc. Mari´an Lamr

(2)

ASSOCIATION ALGORITHMS IN DATAMINING TASKS

Bachelor thesis

Study programme: B2646 – Information technology Study branch: 1802R007 – Information technology Author: Milan Kov´aˇcik

Supervisor: Ing. Bc. Mari´an Lamr

(3)

(4)

(5)

Prohl´ aˇ sen´ı

Byl jsem seznámen s t´ım, ˇze na mou bakaláˇrskou práci se plnˇe vztahuje zákon ˇc. 121/2000 Sb., o právu autorském, zejména § 60 – ˇskoln´ı d´ılo.

Beru na vˇedom´ı, ˇze Technická univerzita v Liberci (TUL) neza- sahuje do mých autorských práv uˇzit´ım mé bakaláˇrské práce pro vnitˇrn´ı potˇrebu TUL.

Uˇziji-li bakaláˇrskou práci nebo poskytnu-li licenci k jej´ımu vyuˇzit´ı, jsem si vˇedom povinnosti informovat o této skuteˇcnosti TUL;

v tomto pˇr´ıpadˇe má TUL právo ode mne poˇzadovat úhradu náklad˚u, které vynaloˇzila na vytvoˇren´ı d´ıla, aˇz do jejich skuteˇcné výˇse.

Bakaláˇrskou práci jsem vypracoval samostatnˇe s pouˇzit´ım uvedené literatury a na základˇe konzultac´ı s vedouc´ım mé bakaláˇrské práce a konzultantem.

Datum:

Podpis:

(6)

Abstrakt

Tato bakaláˇrská práce se zabývá asociaˇcn´ımi algoritmy v data mi- ningových úlohách. V teoretické ˇcásti je rozebrána metodologie CRISP-DM, podle které je zpracována pˇr´ıpadová studie pro mode- lovou úlohu analýza nákupn´ıho koˇs´ıku. Jako e-learningová podpora pro pˇredmˇet data mining byla naprogramována aplikace pro gene- rován´ı asociaˇcn´ıch pravidel pomoc´ı algoritmu Apriori.

Kl´ıˇcová slova: Data mining, CRISP-DM, analýza nákupn´ıho koˇs´ıku, asociaˇcn´ı pravidla, Apriori

Abstract

This bachelor thesis talks about association algorithms in data mining tasks. There is the analyse of CRISP-DM methodology in the teoretical part, which is base for the case study of the model task:

market basket analyse. The application for generating of association rules was programmed with using Apriori algorithm as the e-learning support for the Data mining course.

Keywords: Data mining, CRISP-DM, market basket analyse, association rules, Apriori

(7)

Podˇ ekov´ an´ı

T´ımto bych rád podˇekoval svému vedouc´ımu práce Ing. Bc. Mariánu Lamrovi za konzultace a uˇziteˇcné rady pˇri ˇreˇsen´ı práce. Dˇekuji své rodinˇe a pˇrátel˚um za podporu a RNDr. Kláˇre C´ısaˇrové, Ph.D.

dˇekuji za konzultace.

(8)

Obsah

Uvod´ 9

1 Data mining 11

1.1 Ulohy v data miningu´ . . . 11

1.2 Metodologie . . . 12

1.2.1 SEMMA . . . 12

1.2.2 CRISP-DM . . . 13

1.3 Cross-selling . . . 16

1.4 Software . . . 16

1.4.1 IBM SPSS Modeler . . . 16

2 Modelov´an´ı v data miningu pomoc´ı asociaˇcn´ıch pravidel 17 2.1 Asociaˇcn´ı pravidla . . . 17

2.2 Princip algoritmu Apriori . . . 18

2.2.1 Generov´an´ı frekventovan´ych mnoˇzin . . . 19

2.2.2 Generov´an´ı asociaˇcn´ıch pravidel . . . 21

3 Analýza nákupn´ıch koˇs´ık˚u 22 3.1 Analýza datového souboru . . . 23

3.1.1 Data audit . . . 23

3.1.2 Histogram ID objedn´avky . . . 25

3.1.3 Poˇcet n´avrat˚u z´akazn´ıka . . . 26

3.2 Pˇr´ıprava dat . . . 26

3.3 Modelov´an´ı . . . 28

3.4 Nasazen´ı . . . 31

4 Implementace aplikace 32 4.1 N´avrh grafick´eho rozhran´ı . . . 32

(9)

4.2 Hierarchie tˇr´ıd . . . 33

4.2.1 Zisk dat . . . 33

4.2.2 Cten´ı z csv souboru . . . 34ˇ 4.2.3 Uchov´an´ı atribut˚u . . . 36

4.2.4 Zprostˇredkov´an´ı informac´ı . . . 36

4.2.5 Frekventovan´e mnoˇziny . . . 37

4.2.6 Nalezen´ı implikac´ı . . . 38

4.2.7 Ovˇeˇren´ı nalezen´ych implikac´ı . . . 39

5 Z´avˇer 40 Poˇzit´a literatura . . . 41

Seznam pˇr´ıloh . . . 42

(10)

Uvod ´

Tématem bakaláˇrské práce jsou asociaˇcn´ı algoritmy v data miningových úlohách.

V dneˇsn´ı dobˇe, je ukládáno stále v´ıce dat, které jen bezcennˇe leˇz´ı v databáz´ıch, a proto se ve svˇetˇe informatiky stále v´ıce objevuje pojem data mining. Tento pojem se dá pˇreloˇzit jako dolován´ı dat, nebo vytˇeˇzován´ı dat z databáz´ı. Pomoc´ı dolován´ı z dat je moˇzné z´ıskat potencionálnˇe uˇziteˇcné informace. Tyto informace je nutné zpracovat a posoudit, jak s nimi naloˇzit. Tato práce se zabývá analýzou nákupn´ıho koˇs´ıku, z nˇehoˇz lze z´ıskat spoustu informac´ı pouˇzitelných v marketingu.

Jen z jednoduchého pr˚uchodu dat lze zjistit strukturu, obsah, úplnost a kvalitu dat. Po podrobnˇejˇs´ım zkoumán´ı m˚uˇzeme zjistit, jac´ı uˇzivatelé se vracej´ı a co si kupuj´ı, to je dobré pˇredevˇs´ım z obchodn´ıho hlediska, jelikoˇz udrˇzen´ı zákazn´ıka je ménˇe nákladné neˇz zisk nového. Z´ıskané znalosti je moˇzné vyuˇz´ıt na c´ılenou marketingovou kampaˇn, coˇz m˚uˇze uˇsetˇrit velké mnoˇzstv´ı penˇez. Hlavn´ı je vˇsak zjistit, jaké zboˇz´ı si zákazn´ıci nejˇcastˇeji kupuj´ı v kombinaci s jiným zboˇz´ım a pomoc´ı tˇechto informac´ı zákazn´ık˚um nab´ızet produkty podle toho, co maj´ı aktuálnˇe ve svém nákupn´ım koˇs´ıku.

Hlavn´ım c´ılem bakaláˇrské práce je naprogramovat aplikaci na generován´ı aso- ciaˇcn´ıch pravidel. Pro generován´ı asociaˇcn´ıch pravidel bude pouˇzit algoritmus Apri- ori. Pro aplikaci bude navrhnuto grafické rozhran´ı s moˇznost´ı volby vstupn´ıho souboru. Po naˇcten´ı dat, si uˇzivatel bude moci zvolit, z kterých atribut˚u (druh zboˇz´ı) má generovat asociaˇcn´ı pravidla. V pˇr´ıpadˇe, kdy jsou k dispozici osobn´ı data o zákazn´ıkovi, lze generovat pravidla pouze na urˇcité skupiny lid´ı. Nakonec uˇzivatel nastav´ı citlivost algoritmu a zaháj´ı generován´ı pravidel. Výstupem programu je tabulka vygenerovaných asociaˇcn´ıch pravidel. Pˇr´ımo v aplikaci bude moˇzné vyzkouˇset si pravidla pomoc´ı simulace nákupu a podle obsahu koˇs´ıku se c´ılenˇe doporuˇc´ı dalˇs´ı zboˇz´ı. Výsledné implikace bude moˇzné uloˇzit do souboru a dále pouˇz´ıt v praxi.

D´ılˇc´ım c´ılem je zpracov´an´ı pˇr´ıpadov´e studie pro pˇredmˇet v navazuj´ıc´ım stu-

(11)

diu. Studie zahrnuje celou analýzu vˇsech koˇs´ık˚u, zjiˇstˇen´ı a rozebrán´ı d˚uleˇzitých faktor˚u a zpracován´ı dat do podoby vhodné pro algoritmus Apriori. Analýza zahrnuje sestaven´ı funkˇcn´ıho modelu a vyzkouˇsen´ı vygenerovaných pravidel. Pro analýzu a sestaven´ı modelu bude pouˇzit data miningový nástroj IBM SPSS Modeler a po- stupovat se bude pomoc´ı metodologie CRISP-DM popsané v teoretické ˇcásti.

K dispozici jsou vˇsak jen ideáln´ı data, vytvoˇrená ke studijn´ım úˇcel˚um, proto z nich nelze zjistit nˇekteré faktory vyplývaj´ıc´ı z praxe. Z´ıskán´ım dat z reálného obchodu by celá analýza i výsledná pravidla mohla být pouˇzita v praxi. Celá analýza a program mohou poslouˇzit dalˇs´ım provozovatel˚um jako návod, jak se svoj´ı databáz´ı naloˇzit co nejlépe.

(12)

1. Data mining

Term´ın data mining v pˇrekladu znamená dolován´ı dat nebo vytˇeˇzován´ı dat, nˇekdy chápána jako dobýván´ı znalost´ı z databáze (Knowledge Discovery in Databases [5]).

Data mining je proces vytˇeˇzován´ı dat z rozsáhlých databáz´ı, k nˇemuˇz se vyuˇz´ıvaj´ı metody umˇelé inteligence, strojového uˇcen´ı, statistik a databázových systém˚u.

Obecnˇe jde o vytˇeˇzován´ı informac´ı z databáz´ı a transformovan´ı do srozumitelné podoby pouˇzitelné k dalˇs´ımu pouˇzit´ı.

Manuáln´ı z´ıskáván´ı informac´ı z dat je známé jiˇz nˇekolik stolet´ı, mezi prvn´ı pouˇz´ıvané metody patˇr´ı Bayeovská vˇeta (1700) a regresn´ı analýza (1800). S ros- touc´ım vlivem výpoˇcetn´ı techniky se zvýˇsilo shromaˇzd’ován´ı a sloˇzitost dat. Nebylo jiˇz moˇzné ruˇcn´ı zpracován´ı a analyzován´ı dat, a proto zaˇcal vzestup automatického zpracován´ı dat, který byl podporován dalˇs´ımi objevy v informatice, jako jsou shlu- kové analýzy, neuronové s´ıtˇe, rozhodovac´ı stromy a genetické algoritmy. Data mining vlastnˇe vyuˇz´ıvá tyto metody k zisku skrytých vzorc˚u v rozsáhlých datech. [1]

1.1 Ulohy v data miningu ´

Dolován´ı dat lze pouˇz´ıt na velké mnoˇzstv´ı nejr˚uznˇejˇs´ıch problém˚u. Jednotlivé problémy lze zaˇradit do kategori´ı, avˇsak rozdˇelen´ı do kategori´ı nen´ı jasnˇe stanovené.

Zde je nˇekolik základn´ıch úloh ˇreˇsených v data miningu.

• Predikce – na základˇe statických technik jsou pˇredpov´ıdány následuj´ıc´ı hodnoty z pˇredeˇslých hodnot.

• Deskripce – nalezen´ı skryté struktury nebo vazeb, které jsou pouˇzity k následnému vyhodnocován´ı.

• Klasifikace – rozdˇelen´ı objekt˚u do tˇr´ıd na základˇe spoleˇcných charakteris- tických rys˚u. Tˇr´ıdy jsou dány pˇredem, a kaˇzdý objekt do nich lze jednoznaˇcnˇe zaˇradit.

(13)

• Regrese – na základˇe pˇredeˇslých zkuˇsenost´ı pˇredpov´ıdá následuj´ıc´ı hodnotu.

Jedn´a se o statickou metodu popisuj´ıc´ı vztahy mezi vstupn´ımi a v´ystupn´ımi hodnotami.

• Segmentace – jedná se o nejstarˇs´ı techniku pouˇz´ıvanou v data miningu, zaloˇzenou na rozdˇelen´ı objekt˚u do skupin (shluk˚u), které jsou vytváˇreny v analýze dat. Objekty jsou zaˇrazeny do shluk˚u podle podobnosti charak- teristických rys˚u.

• Sumarizace – sumarizaci je vhodné pouˇz´ıt u velkého poˇctu dat, k zjiˇstˇen´ı struktury tˇechto dat. Jsou zde pouˇzity základn´ı aritmetické operace.

1.2 Metodologie

V souˇcasnosti se data miningem zabývá stále v´ıce firem, které chtˇej´ı výsledky rychle, levnˇe a efektivnˇe, v d˚usledku toho pˇricházej´ı na scénu metodologie. Stan- dardizace postup˚u je jedn´ım ze zp˚usob˚u, jak ˇsetˇrit prostˇredky a ˇcas. Bylo vy- tvoˇreno nˇekolik metodologi´ı popisuj´ıc´ı efektivn´ı postup zpracován´ı projektu, mezi nejznámˇejˇs´ı a nejpouˇz´ıvanˇejˇs´ı patˇr´ı metodologie SEMMA a CRISP-DM.

1.2.1 SEMMA

Jméno této metodologie je sloˇzen´ım prvn´ıch p´ısmen z jednotlivých fáz´ı vytˇeˇzován´ı dat. SEMMA byla vyvinuta spoleˇcnost´ı SAS Institute a je povaˇzována za obecnou metodiku dolován´ı dat. Spoleˇcnost SAS Institute tvrd´ı, ˇze SEMMA je sp´ıˇse logická organizace funkˇcn´ı sady nástroj˚u pro produkt SAS Enterprise Miner, a proto jej´ı pouˇz´ıván´ı mimo tento produkt m˚uˇze být dvojznaˇcné. Je zamˇeˇrena pˇredevˇs´ım na mo- delován´ı úloh a oproti CRISP-DM nezahrnuje obchodn´ı stránku projektu. [6]

• Sample – výbˇer dat dostateˇcnˇe velikých a zároveˇn dostateˇcnˇe malých, aby byla data efektivnˇe vyuˇzita.

• Explore – porozumˇen´ı dat˚um, objevov´an´ı souvislost´ı pomoc´ı vizualizace.

• Modify – pˇr´ıprava dat pro modelov´an´ı.

• Model – modelován´ı na pˇripravených datech k dosaˇzen´ı výsledku.

• Assess – zhodnocen´ı v´ysledk˚u.

(14)

1.2.2 CRISP-DM

Metodologie CRISP-DM (CRoss – Industry Standard Process for Data Mining) byla vyvinuta jako projekt Evropské komise standardizuj´ıc´ı postup vytváˇren´ı data miningových projekt˚u. CRISP-DM nab´ız´ı návod krok po kroku pro kaˇzdou ˇcást projektu. Model pomáhá zpracovávat projekty rychleji, efektivnˇeji, s niˇzˇs´ımi náklady a bez bˇeˇzných chyb. Metodologie je popsána v ˇsesti kroc´ıch, to vˇsak neznamená, ˇze mus´ıme j´ıt od prvn´ıho kroku k posledn´ımu, v rámci celého projektu se m˚uˇzeme vracet k minulým krok˚um a mˇenit je tak, aby bylo dosaˇzeno poˇzadovaného c´ıle.

V praxi je bˇeˇzné vracet se i nˇekolikrát do stejného bodu. Na obrázku 1.1 je zobrazen pr˚ubˇeh cyklu CRISP-DM. [4]

Obr´azek 1.1: Pr˚ubˇeh metodologie CRISP-DM [7]

(15)

• Business understanding - (porozumnˇen´ı problematice)

V prvn´ı fázi je nutné pochopit, ˇceho chce zákazn´ık dosáhnout z obchodn´ıho hlediska. Zákazn´ıci maj´ı obˇcas protich˚udné c´ıle a omezen´ı, kterým mus´ı analytik porozumˇet a navrhnout vyváˇzenou cestu. Dalˇs´ım úkolem analytika je odhalen´ı d˚uleˇzitých faktor˚u, jeˇz by mohly ovlivnit výsledek projektu.

Nejd˚uleˇzitˇejˇs´ı je stanovit spr´avn´y c´ıl a to pˇredevˇs´ım z obchodn´ıho hlediska.

Zde pˇricház´ı i prvn´ı plán projektu, jak dolovat data za správným úˇcelem projektu, stanoven´ı základn´ıch postup˚u a výbˇer nástroj˚u a technik. Je d˚uleˇzité stanovit kritéria pro úspˇech z podnikatelského hlediska. Dalˇs´ım bodem je po- drobnˇejˇs´ı zjiˇstˇen´ı o zdroj´ıch dat, vytvoˇrit seznam dostupných zdroj˚u pro projekt, a to i lidských zdroj˚u a software. Zkoumaná vstupn´ı data mus´ı být zhodnocena, zda by nemˇela být doplnˇena nebo modifikována. Na základˇe známých fakt˚u je nutné zhodnotit m´ıru rizika, dostupnost zdroj˚u a výˇsi náklad˚u. Na rozsáhlejˇs´ıch projektech, na kterých spolupracuje velký tým je dobré sestavit slovn´ık term´ın˚u.

• Data understanding - (porozumnˇen´ı dat˚um)

Zisk dat, nebo pˇr´ıstupu k dat˚um z projektových zdroj˚u, je nutné tato data pochopit, k tomu je k dispozici velká ˇrada nástroj˚u. Pomoc´ı tˇechto nástroj˚u jsou data charakterizována a jsou popsány jejich vlastnosti, vˇcetnˇe formátu dat, mnoˇzstv´ı dat, popis pol´ı kaˇzdé tabulky a dalˇs´ı objevené vlastnosti, pomoc´ı nichˇz je vyhodnoceno, zda data splˇnuj´ı poˇzadavky. Pro analýzu se zde ˇcasto vyuˇz´ıvá jednoduchých funkc´ı, jako nalezen´ı minima a maxima, pr˚umˇerné hodnoty, nebo ˇcetnosti jednotlivých hodnot. Poté jsou zkoumány data d˚ukladnˇeji a jsou vytipovány souvisej´ıc´ı mnoˇziny a jejich podmnoˇziny. Zhodnot´ı se prvn´ı hypotézy a jejich vliv na výsledek projektu. D˚uleˇzité je zhodnocen´ı kvality dat, zda jsou data kompletn´ı a neobsahuj´ı chyby. Pokud obsahuj´ı chyby, je nutné vˇedˇet, o jaké chyby se jedná, jak jsou ˇcasté a jestli mohou ovlivnit výsledek.

• Data preparation - (pˇr´ıprava dat)

Na zaˇcátku je d˚uleˇzité zhodnotit technické omezen´ı, jako objem dat nebo da- tových typ˚u. Hlavn´ı je selekce potˇrebných atribut˚u (sloupc˚u) a výbˇer záznam˚u (ˇrádk˚u). Mus´ı být rozhodnuto jaké atributy a záznamy budou vybrány nebo vylouˇceny. Pomoc´ı vylouˇcen´ı nˇekterých záznam˚u je zvýˇsena kvalita dat.

T´ım jsou vybrána pouze kompletn´ı data, je moˇzné chybˇej´ıc´ı data doplnit pomoc´ı technik, odhaduj´ıc´ıch chybˇej´ıc´ı údaje. Pˇri konstrukci dat mohou vznikat

(16)

nové atributy nebo generované záznamy, potˇrebné pro modelován´ı. ˇCasto se sluˇcuje v´ıce zdroj˚u do jednoho spoleˇcného a vytváˇr´ı se zcela nové tabulky.

• Modeling - (modelov´an´ı)

V prvn´ım kroku byl vybrán nástroj pro modelován´ı, ale v tomto kroku je nutné vybrat konkrétn´ı modelovac´ı techniku, která bude pouˇzita. Mezi pouˇz´ıvané techniky patˇr´ı napˇr´ıklad rozhodovac´ı stromy, neuronové s´ıtˇe nebo asociaˇcn´ı pravidla. Je moˇzné pouˇz´ıt v´ıce modelovac´ıch technik a porovnávat výsledky, coˇz zvýˇs´ı pravdˇepodobnost správného výsledku. Nˇekteré modelovac´ı techniky maj´ı specifické poˇzadavky na data, které mus´ı být splnˇeny. Pˇred samotným modelován´ım je dobré sestavit mechanismus na testován´ı kvality modelu.

Následuje sestaven´ı modelu a nastaven´ı parametr˚u a citlivost jednotlivých modelovac´ıch technik pro potˇrebný výsledek. Na závˇer je posuzována pˇresnost a kvalita modelu.

• Evaluation - (zhodnocen´ı)

V minul´em kroku byl model posuzov´an z hlediska pˇresnosti a obecnosti.

V tomto kroku je vˇsak posuzován z obchodn´ıho hlediska, zda model splˇnuje c´ıle projektu, je hodnoceno jestli je model pouˇzitelný ˇci nikoliv. K hodnocen´ı kvality modelu slouˇz´ı dvˇe mnoˇziny, prvn´ı mnoˇzina vstupn´ıch dat, na kterých se model nauˇc´ı generovat pravidla, druhá mnoˇzina slouˇz´ı k otestován´ı pravidel. Pomoc´ı testovac´ıch dat lze urˇcit procentuáln´ı úspˇeˇsnost modelu. Výsledky mohou ukázat dalˇs´ı moˇznosti smˇeˇrován´ı obchodn´ı taktiky, odhalit nové výzvy a informace. V okamˇziku, kdy se zdá, ˇze jsou výsledky uspokojivé, je vhodné udˇelat pˇrezkoumán´ı a pod´ıvat se do minulých krok˚u, jestli nedoˇslo k pˇrehlédnut´ı chyby nebo nˇekterého z významných faktor˚u. Na závˇer je sestaven seznam krok˚u dalˇs´ıch moˇzných akc´ı, jak model zlepˇsit nebo modifikovat.

Nakonec je rozhodnuto zda se modul nasad´ı do praxe nebo jestli bude poslán zpˇet k pˇrepracován´ı nˇekterého z krok˚u.

• Deployment - (uveden´ı do praxe)

Naplánován´ı strategie pro nasazen´ı do praxe popsána krok po kroku. Po nasazen´ı do praxe je nutné monitorovat a udrˇzovat. Správná strategie údrˇzby pomáhá vyhnout se nesprávnému pouˇz´ıván´ı. Po zaveden´ı do praxe je nutné zhodnotit zda se nevyskytli nˇejaké chyby a zjistit co se mˇelo stát ale nestalo.

(17)

1.3 Cross-selling

Bez Cross-sellingu (kˇr´ıˇzový prodej) se v dneˇsn´ı dobˇe neobejde ˇzádný vˇetˇs´ı internetový obchod, právˇe tato metoda nejv´ıce souvis´ı s prodejem zboˇz´ı na internetu.

Cross-selling je marketingová metoda zajiˇst’uj´ıc´ı zvýˇsen´ı trˇzeb, pomoc´ı c´ılené nab´ıdky doplˇnk˚u k zakoupenému zboˇz´ı. K z´ıskán´ı modelu této metody je potˇreba znát, co si zákazn´ıci koupili dˇr´ıve v kombinaci s jiným zboˇz´ım. To lze zjistit z da- tabáz´ı, které si kaˇzdý internetový obchod ukládá. Z tˇechto dat jsou doslova vy- dolována pravidla urˇcuj´ıc´ı nab´ıdku k vybranému zboˇz´ı. Pro tento druh dolován´ı se nejˇcastˇeji pouˇz´ıvá algoritmus Apriori.

1.4 Software

Pro sestavován´ı model˚u je d˚uleˇzité m´ıt software, který zná potˇrebné modely ke generován´ı pravidel a zároveˇn um´ı pracovat s r˚uznými formáty vstupn´ıch dat. Výbˇer software závis´ı na prostˇredc´ıch, m˚uˇzeme si vybrat mezi open source a komerˇcn´ım software. Pro tuto práci byl vybrán komerˇcn´ı nástroj IBM SPSS Modeler.

1.4.1 IBM SPSS Modeler

P˚uvodnˇe se software jmenoval Clementine a byl vyvinut spoleˇcnost´ı Inte- gral Solutions Limited (ISL) ve Velké Británii. Prvn´ı verze vyˇsla roku 1994 pod oznaˇcen´ım Clementine 1.0. Tento nástroj se rychle stal obl´ıbeným v oblasti data miningu, hlavnˇe d´ıky pouˇzit´ı ikon v grafickém prostˇred´ı, coˇz uˇzivatele osvobo- zovalo od ruˇcn´ıho psan´ı kódu v programovac´ım jazyce. Ovˇsem prvn´ı verze Modeleru vydaná spoleˇcnost´ı IBM je aˇz verze 14.2 z roku 2011.

IBM SPSS Modeler je data miningový nástroj urˇcený na analýzu textu a do- lován´ı dat z databáz´ı. Vytváˇr´ı prediktivn´ı modely a provád´ı r˚uzné analytické úlohy pomoc´ı grafického rozhran´ı, d´ıky kterému m˚uˇze uˇzivatel pouˇz´ıvat data miningové algoritmy. [3]

(18)

2. Modelov´ an´ı v data miningu pomoc´ı asociaˇ cn´ıch pravidel

2.1 Asociaˇ cn´ı pravidla

V bˇeˇzném jazyce se hojnˇe vyuˇz´ıvá posuzován´ı bud’ a nebo, tato syntaxe je základem aciaˇcn´ı pravidla. Jelikoˇz se jedná o jedno z nejstarˇs´ıch a nejjednoduˇsˇs´ıch vyhodno- cován´ı, patˇr´ı mezi nejpouˇz´ıvanˇejˇs´ı prostˇredky pro reprezentaci znalost´ı. Asociaˇcn´ı pravidla jsou spjata pˇredevˇs´ım s analýzou nákupn´ıho koˇs´ıku. V analýze jde o hledán´ı spoleˇcných vztah˚u mezi jednotlivými atributy, pˇr´ıtomnost jedné poloˇzky implikuje jednu nebo v´ıce poloˇzek v jedné transakci.

U nalezených pravidel z dat je d˚uleˇzité naj´ıt vztahy mezi pˇredpokladem a závˇerem.

Ant⇒Con (2.1)

Kde Ant (antecedent, pˇredpoklad) implikuje Con (consequent, z´avˇer). Kombi- nace kategori´ı pro n koˇs´ık˚u zn´azorˇnuje kontingenˇcn´ı tabulka (Tabulka 2.1).

Con -Con ^P

Ant a b r

-Ant c d s

P k l n

Tabulka 2.1: Kontingenˇcn´ı tabulka

• a = n(Ant ^V Con)

Poˇcet pˇr´ıpad˚u kdy je splnˇen pˇredpoklad a z´aroveˇn z´avˇer.

• b = n(Ant ^V -Con)

Poˇcet pˇr´ıpad˚u kdy je splnˇen pˇredpoklad a z´avˇer nen´ı splnˇen.

(19)

• c = n(-Ant ^V Con)

Poˇcet pˇr´ıpad˚u kdy pˇredpoklad nen´ı splnˇen a z´avˇer je splnˇen.

• d = n(-Ant ^V -Con)

Poˇcet pˇr´ıpad˚u kdy nen´ı splnˇen pˇredpoklad ani z´avˇer.

Z tˇechto ˇcetnost´ı lze vypoˇc´ıtat charakteristiky vypov´ıdaj´ıc´ı o kvalitˇe nalezeného pravidla. Základn´ımi charakteristikami jsou podpora (support) a spolehlivost (confidence). Podpora je v kolika procentech pˇr´ıpad˚u byl splnˇen pˇredpoklad i závˇer.

Support = a

n (2.2)

Spolehlivost je pravdˇepodobnost splnˇen´ı z´avˇeru, pokud je splnˇen pˇredpoklad.

Conf idence = a

r (2.3)

2.2 Princip algoritmu Apriori

Algoritmus Apriori slouˇz´ı k vyhledáván´ı frekventovaných mnoˇzin a k následnému generován´ı asociaˇcn´ıch pravidel. Snahou algoritmu je nalézt vazby mezi jednotlivými atributy v databázi, takové ˇze pˇr´ıtomnost jednoho nebo v´ıce atribut˚u implikuje pˇr´ıtomnost jiných atribut˚u v jedné transakci. Hlavn´ı snahou je z´ıskat co nejsilnˇejˇs´ı asociaˇcn´ı pravidla. Pomoc´ı následuj´ıc´ıch metrik jsou vybrána nejsilnˇejˇs´ı pravidla. [2]

• Podpora (support)

Minimáln´ı práh ˇcetnosti mnoˇziny poloˇzek v celé databázi, vyjádˇrené v procentech. Pokud mnoˇzina poloˇzek splˇnuje minimáln´ı podporu, je pro algoritmus zaj´ımavá a bude s n´ı dále pracovat.

podpora = kosiky obsahujici mnozinu prvku

vsechny kosiky ∗ 100% (2.4)

• Spolehlivost (confidence)

Jak moc se lze spolehnout na výsledné pravidla. Spolehlivost je poˇc´ıtána pro kaˇzdý prvek ve frekventované mnoˇzinˇe a jsou vybrána jen ta nejsilnˇejˇs´ı pravidla, tedy jen pravidla splˇnuj´ıc´ı zadanou spolehlivost. Kaˇzdý prvek frek- ventované mnoˇziny je porovnáván se vˇsemi jeho podmnoˇzinami.

podpora = pocet vyskytu mnoziny

pocet vyskytu podmnoziny ∗ 100% (2.5)

(20)

2.2.1 Generov´ an´ı frekventovan´ ych mnoˇ zin

Generován´ı zaˇc´ıná pr˚uchodem databáze a zjiˇstˇen´ım vˇsech dostupných atribut˚u.

Z tˇech je sestavena prvn´ı jednopoloˇzková mnoˇzina kandidát˚u, která obsahuje vˇsechny atributy.

Id objedn´avky Seznam zboˇz´ı

1 I1, I2, I4

2 I1, I5

3 I2, I4

4 I1, I2, I4, I5

5 I4, I5

6 I1, I2, I4

7 I2, I4, I5

8 I1, I2, I3, I4, I5

Tabulka 2.2: Datab´aze objedn´avek

V tabulce 2.2 je vidˇet 8 nákupn´ıch koˇs´ık˚u, kde kaˇzdý má sv˚uj seznam zboˇz´ı.

Právˇe zboˇz´ı budeme potˇrebovat ke generován´ı frekventovaných mnoˇzin. Pˇredt´ım je vˇsak nutné si stanovit vstupn´ı podm´ınky pro generován´ı tˇechto mnoˇzin. Pokud zvol´ıme minimáln´ı podporu 25%, je vypoˇc´ıtán minimáln´ı poˇcet koˇs´ık˚u, které mus´ı obsahovat mnoˇzinu zboˇz´ı.

minimalni support = pocet vsech nakupu ∗ zadany support

100 = 8 ∗ 25

100 = 2 (2.6) Pokud je znám minimáln´ı support, m˚uˇze být sestavena prvn´ı mnoˇzina kandidát˚u C1, která bude obsahovat vˇsechny druhy zboˇz´ı z nákup˚u. Následnˇe bude sestavena frekventovaná mnoˇzina L1 z kandidát˚u, kteˇr´ı splˇnuj´ı minimáln´ı support. Pro zjiˇstˇen´ı ˇcetnosti výskytu je nutné v kaˇzdém kroku proj´ıt celou databázi.

(21)

Zboˇz´ı Poˇcet v´yskyt˚u

I1 5

I2 6

I3 1

I4 7

I5 5

Tabulka 2.3: Mnoˇzina kandid´at˚u C1

Z mnoˇziny kandid´at˚u C1 vybereme pouze prvky splˇnuj´ıc´ı minim´aln´ı support, tak dostaneme frekventovanou mnoˇzinu L1.

Mnoˇzina Poˇcet v´yskyt˚u

I1 5

I2 6

I4 7

I5 5

Tabulka 2.4: Frekventovan´a mnoˇzina L1

Z vygenerované frekventované mnoˇziny z tabulky 2.3 sestav´ıme novou mnoˇzinu kandidát˚u C2 spojen´ım mnoˇziny L1 s mnoˇzinou L1. V tomto kroku je vyuˇzita vlast- nost algoritmu Apriori, ten kontroluje jestli kaˇzdá podmnoˇzina z mnoˇziny kandidát˚u C2 je frekventovanou mnoˇzinou. Pokud nˇekterá z podmnoˇzin nen´ı frekventovanou mnoˇzinou je mnoˇzina vylouˇcena z mnoˇziny kandidát˚u.

Mnoˇzina Poˇcet v´yskyt˚u

I1, I2 4

I1, I4 4

I1, I5 3

I2, I4 5

I2, I5 3

I4, I5 3

Tabulka 2.5: Mnoˇzina kandid´at˚u C2

Jelikoˇz vˇsechny mnoˇziny v mnoˇzinˇe kandidát˚u splˇnuj´ı minimáln´ı podporu je výsledná frekventovaná mnoˇzina L2 rovna mnoˇzinˇe kandidát˚u C2. Následovalo

(22)

by dalˇs´ı spojen´ı mnoˇziny L2 s mnoˇzinou L2. Takto by algoritmus pokraˇcoval dokud by byly nalézány frekventované mnoˇziny.

2.2.2 Generov´ an´ı asociaˇ cn´ıch pravidel

Nalezen´ı asociaˇcn´ıch pravidel se provád´ı pomoc´ı vyuˇzit´ı silných mnoˇzin, odstranˇena jsou pouze pravidla, jejichˇz confidence nesplˇnuje minimáln´ı confidenci. Minimáln´ı confidence se vol´ı jiˇz na zaˇcátku, pro tento pˇr´ıklad je urˇcena minimáln´ı confidence 75%. Napˇr´ıklad z frekventované mnoˇziny L2 je vybrána mnoˇzina {I2, I4}, z n´ıˇz jsou generována pravidla.

• I2 → I4

conf idence = support{I2, I4}

support{I2} ∗ 100 = 5

6∗ 100 = 83, 3% (2.7)

• I4 → I2

conf idence = support{I2, I4}

support{I4} ∗ 100 = 5

7∗ 100 = 71, 4% (2.8) Odstranˇeno je druhé pravidlo, které nesplˇnuje minimáln´ı confidenci. Takto jsou ge- nerována vˇsechna pravidla ze vˇsech nalezených frekventovaných mnoˇzin. Pro algoritmus je nalezen´ı silných pravidel nenároˇcné oproti hledán´ı frekventovaných mnoˇzin.

(23)

3. Anal´ yza n´ akupn´ıch koˇ s´ık˚ u

C´ılem této práce je zpracován´ı úlohy analýza nákupn´ıho koˇs´ıku pro pˇredmˇet data mining. Pro tento úˇcel byl vybrán nástroj IBM SPSS Modeler urˇcen k realizaci celých projekt˚u v oblasti data miningu. V tomto projektu bude pouˇzit pˇredevˇs´ım k analýze dat a následnému zpracován´ı dat. Analytická ˇcást má za úkol zjistit vˇse potˇrebné o datech, jako jsou chybˇej´ıc´ı hodnoty, nalezen´ı extrémn´ıch hodnot. Pomoc´ı

´

udaj˚u z analýzy se budou data moci zpracovat do výsledné podoby, potˇrebné pro zpracován´ı algoritmem Apriori. Dále bude z analýzy vyplývat, jak ˇcasto se zákazn´ıci vracej´ı, z ˇcehoˇz lze vyvodit závˇery, jak k takovýmto zákazn´ık˚um pˇristupovat.

Kdyˇz jsou známa vˇsechna fakta o datech, je potˇreba data transformovat na základˇe známých informac´ı. Provedená transformace nemus´ı být koneˇcná, jestliˇze dalˇs´ı kroky ukáˇz´ı, ˇze jsou data nedostateˇcná nebo naopak obsahuj´ı v´ıce informac´ı neˇz je potˇreba. Koneˇcná transformovaná data budou uloˇzena do nové datového souboru, který bude následnˇe zpracován. Zpracován´ı dat probˇehne pomoc´ı algoritmu Apriori, obsaˇzeným v IBM SPSS Modeleru. V tomto kroku je d˚uleˇzité nastaven´ı správné citlivosti algoritmu, jinak by výsledek mohl být znehodnocen. Z´ıskané implikace budou aplikovány a na základˇe výsledk˚u budou zákazn´ıkovi nab´ızeny dalˇs´ı druhy zboˇz´ı.

Pro analýzu nákupn´ıho koˇs´ıku je rozhodnuto, pokud je potˇreba efektivnˇe prodávat souvisej´ıc´ı produkty. Pomoc´ı analýzy se dozv´ıme, co si zákazn´ıci nejˇcastˇeji kupuj´ı v kombinaci s jinými produkty. Toto zjiˇstˇen´ı je pro majitele internetového obchodu velmi zaj´ımavé, jelikoˇz m˚uˇze tˇechto znalost´ı vyuˇz´ıt k c´ılené nab´ıdce produktu, které zákazn´ık zat´ım nekoupil. Zákazn´ıkovi, který má v koˇs´ıku notebook, tak bude nab´ıdnuto to, co si lidé nejˇcastˇeji kupuj´ı právˇe s notebookem, jako je taˇska na notebook, myˇs nebo chlad´ıc´ı podloˇzka. C´ılem prodávaj´ıc´ıho je tedy nab´ıdnout zákazn´ıkovi co nejzaj´ımavˇejˇs´ı zboˇz´ı tak, aby si ho zákazn´ık koupil.

(24)

3.1 Anal´ yza datov´ eho souboru

K dispozici byla pouze ideáln´ı data, ze kterých nelze z´ıskat informace z praxe. Tato data jsou vytvoˇrena pouze k simulaci a jsou nastavena tak, aby z nich bylo moˇzné vydolovat informace. Proto byla sehnána reálná data z internetového obchodu, která budou zkoumána.

Pˇred zaˇcátkem generován´ı pravidel je nutné zjistit podobu dat. Jelikoˇz vstupn´ı soubor pro tento projekt je ve formátu xsl, m˚uˇze prob´ıhat analýza v excelu, vzhledem k mnoˇzstv´ı dat, by analýza byla ˇcasovˇe extrémnˇe nároˇcné. Ovˇsem v dneˇsn´ı dobˇe kdy je data mining hojnˇe vyuˇz´ıván existuje spousta nástroj˚u urˇcených právˇe pro dolován´ı dat. Pro tento projekt byl zvolen IBM SPSS Modeler, který slouˇz´ı jak k analýze dat tak i k modelován´ı celých projekt˚u. Pomoc´ı IBM SPSS Modeleru budou data pro- zkoumána a na základˇe zkoumán´ı modifikována do potˇrebné podoby.

Na obrázku 3.1 je proud pouˇzitý pro analýzu dat. Vstupem do proudu je soubor export-objednavky.xsl, coˇz jsou data urˇcená pro tento projekt v nezmˇenˇené podobˇe z internetového obchodu. V uzlu Type se pouze naˇc´ıtaj´ı hodnoty jednotlivých atri- but˚u, popˇr´ıpadˇe se zde mohou mˇenit jejich datové typy. Tento proud umoˇzˇnuje prozkoumat data pomoc´ı nˇekolika uzl˚u, které odhal´ı nˇekterá fakta o datech.

Obr´azek 3.1: Proud pro anal´yzu dat

3.1.1 Data audit

Uzel Data Audit je ˇcasto pouˇz´ıván k prvotn´ımu zkoumán´ı vstupn´ıch dat, poskytuje komplexn´ı pohled na data. Zobrazuje souhrnné statistiky, histogram a distribuˇcn´ı grafy pro kaˇzdé pole. Uzel má dvˇe karty pouˇzitelné pro zkoumán´ı dat prvn´ı z nich karta Audit zobrazuje jiˇz zm´ınˇené statistiky a grafy. Na kartˇe quality je posuzována kvalita dat, zobrazuje informace o extrémn´ıch, odlehlých a chybˇej´ıc´ı hodnotách. Po- skytuje také nástroj pro zpracován´ı tˇechto dat.

(25)

Obr´azek 3.2: Zobrazen´ı karty quality z uzlu Data Audit

Z auditu dat zobrazeném na obrázku 3.2 je patrná struktura souboru, který obsahuje ˇsest atribut˚u (sloupc˚u) a 49 428 záznam˚u (ˇrádk˚u). Po pr˚uchodu souboru bylo zjiˇstˇeno, ˇze kaˇzdý záznam obsahuje jeden produkt v koˇs´ıku, takˇze v´ıce záznam˚u se spoleˇcným ID objednávky tvoˇr´ı jeden nákupn´ı koˇs´ık. Proto bude nutné v pˇr´ıpravˇe dat pˇretransformovat data do podoby, kde jeden záznam bude obsahovat jeden nákupn´ı koˇs´ık. Ze sloupce Unique je patrný poˇcet kategori´ı obsaˇzených v souboru. Ovˇsem 203 kategori´ı je pro sestavován´ı modelu pˇr´ıliˇs mnoho. Bylo vyzkouˇseno, ˇze s takto velkým mnoˇzstv´ım kategori´ı nen´ı moˇzné naj´ıt spoleˇcné mnoˇziny.Z pr˚uchodu internetových stránek je patrné, ˇze se jedná o podkategorie.

Proto je nutn´e tyto podkategorie slouˇcit do pˇr´ısluˇsn´ych kategori´ı.

Obr´azek 3.3: Zobrazen´ı karty quality z uzlu Data Audit

(26)

Z karty quality auditu dat bylo zjiˇstˇeno, ˇze 58% dat nen´ı kompletn´ı coˇz je vidˇet na Obrázku 3.3. V ID kategorie a Název kategorie produktu je spousta chybˇej´ıc´ıch hodnot, coˇz m˚uˇze být problém, jelikoˇz právˇe atribut Název kategorie produktu bude pro projekt nejd˚uleˇzitˇejˇs´ı a je nutné z´ıskat pouze data obsahuj´ıc´ı tento atribut.

3.1.2 Histogram ID objedn´ avky

Do histogramu vstupuj´ı jiˇz kompletn´ı data, v uzlu Odstranˇen´ı doˇslo k selekci dat bez chybˇej´ıc´ıch prvk˚u. U vybraných dat bylo spoˇc´ıtáno, kolik záznam˚u obsahuje jeden nákupn´ı koˇs´ık, jednotlivé koˇs´ıky byly setˇr´ıdˇeny podle ID objednávky tak, aby bylo patrné, jaký byl vývoj poˇctu nákup˚u na koˇs´ık v ˇcase.

Obrázek 3.4: Poˇcet nákup˚u na ID objednávky

Z histogramu na obrázku 3.4 je patrný nár˚ust okolo hodnoty ID objednávky 9 000, takˇze na jeden koˇs´ık pˇripadá v pr˚umˇeru aˇz dvakrát v´ıce zboˇz´ı. Tento nár˚ust lze vysvˇetlit velkou obchodn´ı kampan´ı, která nalákala zákazn´ıky ke koupi zboˇz´ı z obchodu. Po pr˚uchodu dat je vˇsak patrné, ˇze d˚uvod je zcela jiný. Do ID objednávky 8 914, nejsou kompletn´ı data u názv˚u kategori´ı produktu.

(27)

3.1.3 Poˇ cet n´ avrat˚ u z´ akazn´ıka

Z obchodn´ıho hlediska je dobré vˇedˇet jac´ı zákazn´ıci se vrac´ı a nakupuj´ı pravi- delnˇe, o takové zákazn´ıky je potˇreba se starat, aby neutekli ke konkurenci. Vˇerným zákazn´ık˚um jsou nab´ızeny výhody ve formˇe bonus˚u, slev nebo dárkových poukaz˚u.

Proˇc se ale starat o nˇekolik zákazn´ık˚u, kteˇr´ı se vrac´ı? Odpovˇed’ je jednoduchá, protoˇze je známo, ˇze náklady na udrˇzen´ı stávaj´ıc´ıch uˇzivatel˚u jsou nˇekolikanásobnˇe menˇs´ı, neˇz na zisk nových zákazn´ık˚u. Nejde vˇsak jen o penˇeˇzn´ı stránku, ale i o ˇcas strávený nad reklamn´ı kampan´ı a administrativou, která vˇsak nakonec nemus´ı m´ıt ˇzádnou odezvu. Z Obrázku 3.5 je patrné, kteˇr´ı zákazn´ıci se nejˇcastˇeji vracej´ı do tohoto obchodu.

Obrázek 3.5: Poˇcet návrat˚u zákazn´ık˚u

3.2 Pˇ r´ıprava dat

Z analýzy dat je zˇrejmé, ˇze data mus´ı být restrukturalizována a nˇekteré záznamy mus´ı být odstranˇeny. Pr˚ubˇeh pˇr´ıpravy dat je zobrazen na obrázku 3.6.

(28)

Obr´azek 3.6: Proud pro pˇr´ıpravu dat

Vstupem do proudu jsou p˚uvodn´ı data, která pomoc´ı nˇekolika uzl˚u budou zmˇenˇena do potˇrebné podoby. Jednotlivé uzly jsou popsány na dalˇs´ı stránce.

• Odstranˇen´ı mezer a uˇziteˇcn´a data

V uzlu Odstranˇen´ı mezer jsou odstranˇena prázdná m´ısta z atributu název kategorie produktu. V následuj´ıc´ım uzlu Uˇziteˇcná data jsou vybrána pouze data s ID objednávky vyˇsˇs´ı neˇz 8 914, protoˇze právˇe do této objednávky je ˇcastý výskyt prázdných m´ıst. U vyˇsˇs´ıch ID objednávky je poˇcet výskyt˚u prázdných m´ıst zanedbatelný a nemá velký vliv na výsledná pravidla.

• Kategorie

Zde se prov´ad´ı slouˇcen´ı podkategori´ı do kategori´ı podle internetov´eho obchodu.

Jelikoˇz se nejˇcastˇeji kupuj´ı triˇcka a mikiny, bylo rozhodnuto, ˇze tyto dvˇe kategorie se rozdˇel´ı do podkategori´ı a to pánská, dámská a dˇetská. Výsledných implikac´ı je s takto rozdˇelenými kategoriemi v´ıce, neˇz v pˇr´ıpadˇe kdy jsou pouze kategorie triˇcka a mikiny.

• Restrukturalizace

Koneˇcné slouˇcen´ı jednotlivých ˇrádk˚u do jednotlivých koˇs´ık˚u podle ID ob- jednávky. Výstupem z tohoto uzlu jsou data, kde v prvn´ım sloupci je ID ob- jednávky a v dalˇs´ıch kategorie. Pro kaˇzdý koˇs´ık jsou v jednotlivých sloupc´ıch hodnoty T nebo F, podle toho, zda v koˇs´ıku byl produkt z dané kategorie (T) ˇ

ci nikoliv (F).

• N´azev kategori´ı a n´akupn´ı koˇs´ıky

Pouze kosmetická úprava jednotlivých atribut˚u, jelikoˇz uzel restrukturalizace automaticky pˇridá prefix kaˇzdé kategorii. Nakonec jsou data exportována do souboru v uzlu nákupn´ı koˇs´ıky.

(29)

3.3 Modelov´ an´ı

V této fázi projektu docház´ı k z´ıskán´ı p˚uvodn´ıch poˇzadavk˚u, v tomto pˇr´ıpadˇe k vyge- nerován´ı asociaˇcn´ıch pravidel pomoc´ı algoritmu Apriori. Je nutné nastavit správné vstupn´ı podm´ınky algoritmu, abychom nalezli implikace. Optimáln´ımi vstupn´ımi podm´ınkami jsou confidence 30% a minimáln´ı support 3%. Je zˇrejmé, ˇze vstupn´ı podm´ınky jsou n´ızké, to je zapˇr´ıˇcinˇeno pˇredevˇs´ım velkou spoustou jednopoloˇzkových nákup˚u.

Obr´azek 3.7: Proud pro generov´an´ı asociaˇcn´ıch pravidel

Pˇred samotným generován´ım pravidel pomoc´ı Apriori se pod´ıváme na vzájemné vztahy vˇsech druh˚u zboˇz´ı. Pavuˇcinový graf z obrázku 3.8 zobrazuje ˇcetnost spoleˇcných výskyt˚u jednotlivých poloˇzek v jednom nákupn´ım koˇs´ıku, s´ıla ˇcáry urˇcuje ˇcetnost spoleˇcných výskyt˚u. Nejˇcastˇeji zákazn´ıci kupuj´ı pánská triˇcka s pánskými mi- kinami, tento vztah by mˇel být zˇrejmý i ve vygenerovaných asociaˇcn´ıch pravidlech.

(30)

Obr´azek 3.8: Pavuˇcinov´y graf vztah˚u mezi poloˇzkami

Datový tok vstupuj´ıc´ı do uzlu Apriori vygeneruje krystal, v nˇemˇz jsou zobrazeny nalezené implikace. Vygenerované implikace podle vstupn´ıch podm´ınek jsou zobrazeny na obrázku 3.9. Implikace jsou znázornˇeny dle následuj´ıc´ıho vztahu.

X⇐A & B & C & ... (3.1) X znázorˇnuje sloupec consequent (závˇer), pˇredpoklady (sloupec antecedent) jsou znázornˇeny pomoc´ı hodnot A, B, C, atd. Aby bylo moˇzné nab´ıdnout zákazn´ıkovi závˇer, mus´ı být splnˇeny vˇsechny pˇredpoklady. Ostatn´ı sloupce popisuj´ı statistické hodnoty jednotlivých implikac´ı.

(31)

Obr´azek 3.9: Nalezen´e implikace

• Instances

Suma koˇs´ık˚u splˇnuj´ıc´ıch pˇredpoklad.

• Support

Kolik procent ze vˇsech koˇs´ık˚u splnilo pˇredpoklad.

• Confidence

Procento pˇr´ıpad˚u, kdy byl splnˇen pˇredpoklad a zároveˇn závˇer. Výpoˇcet je provádˇen pouze z koˇs´ık˚u, které splnily pˇredpoklad. Tento atribut urˇcuje m´ıru spolehlivosti pravidla.

• Rule support

V kolika procentech vˇsech koˇs´ık˚u se objevil pˇredpoklad i z´avˇer.

• Lift

Zlepˇsen´ı pravidla, kolikrát je pravidlo lepˇs´ı pˇri pouˇzit´ı pˇredpokladu, neˇz pˇri náhodném výbˇeru zboˇz´ı bez ohledu na ostatn´ı zboˇz´ı.

Lif t = conf idence

support antecedentu (%) (3.2)

• Deployability Procento pˇr´ıpad˚u, kdy byl splnˇen pˇredpoklad, ale z´avˇer ne.

Pro tyto pˇr´ıpady je pravidlo pouˇzito a je nab´ıdnut z´akazn´ıkovi z´avˇer.

Deployability = support − rule support (3.3)

(32)

3.4 Nasazen´ı

Uveden´ı do praxe v Modeleru lze nasimulovat. Do koˇs´ıku je vloˇzen zákazn´ık˚uv nákup a na základˇe vygenerovaných pravidel rozhodne uzel Apriori co zákazn´ıkovi nab´ıdnout. Napˇr´ıklad zákazn´ık má v koˇs´ıku dámskou mikinu a pánské triˇcko, v uzlu nab´ıdka bude doporuˇcen´ı dalˇs´ıho zboˇz´ı.

Obr´azek 3.10: Doporuˇcen´ı n´akupu

Po pr˚uchodu uzlem Apriori budou z´akazn´ıkovi nab´ıdnuty dva produkty, kter´e splˇnuj´ı pˇredpoklad.

Obr´azek 3.11: Doporuˇcen´e produkty

Nab´ıdku lze ovˇeˇrit, na obrázku 3.9 je pˇredpoklad dámská mikina s pánským triˇckem dvakrát a jako své závˇery má právˇe dámské triˇcko a pánskou mikinu.

(33)

4. Implementace aplikace

Hlavn´ım c´ılem je naprogramovat aplikaci umoˇzˇnuj´ıc´ı zpracován´ı pˇripravených dat algoritmem Apriori. Spustitelná aplikace bude naˇc´ıtat data ve formátu csv [8].

P výbˇeru dat lez nastavit atributy a citlivost pro algoritmus. Pokud jsou dostupné osobn´ı informace o zákazn´ıc´ıch, lze generovat pravidla pouze pro urˇcité skupiny zákazn´ık˚u. Z´ıskané implikace budou zobrazeny v tabulce spoleˇcnˇe se statistickými

´

udaji o implikac´ıch. Uˇzivatel pouˇz´ıvaj´ıc´ı aplikaci m˚uˇze simulovat n´akup a pomoc´ı z´ıskan´ych implikac´ı nab´ıdnout dalˇs´ı produkty.

Aplikace byla navrˇzena v jazyce Java, jako podpora pro pˇredmˇet data mining.

Pro jazyk Java bylo rozhodnuto pˇredevˇs´ım kv˚uli tomu, ˇze je multiplatformn´ı. Proto jej studenti budou moci pouˇz´ıvat bez ohledu na vlastn´ı operaˇcn´ı systém. Aplikace byla navrˇzena tak, aby simulovala chován´ı algoritmu Apriori v IBM SPSS Modeleru a nav´ıc mohla generovat pravidla pouze na c´ılené skupiny.

4.1 N´ avrh grafick´ eho rozhran´ı

Grafické rozhran´ı slouˇz´ı pˇredevˇs´ım ke snadnˇejˇs´ı manipulaci s algoritmem. Jeho podoba je znázornˇena na obrázku 4.1 s jiˇz vygenerovanými pravidly ze souboru z pˇr´ıpravy dat. Do aplikace je moˇzné nahrávat pouze csv soubory v horn´ı ˇcásti rozhran´ı pomoc´ı tlaˇc´ıtka vybrat. Po výbˇeru se celý soubor projde a zjist´ı se jeho atributy, které mohou být, bud’ jednotlivé druhy zboˇz´ı nebo osobn´ı informace o zákazn´ıkovi, ty jsou zobrazeny v levé ˇcásti aplikace. Jako posledn´ı moˇznost je zvolen´ı citlivosti algoritmu pomoc´ı nastaven´ı minimáln´ıho supportu a minimáln´ı confidence, kde obˇe hodnoty jsou zadávány procentuálnˇe. Po vygenerován´ı pravidel se v pravé ˇcásti zobraz´ı tabulka s nalezenými implikacemi, které mohou být vy- zkouˇseny pomoc´ı tlaˇc´ıtka nákup. To vytvoˇr´ı nové okno s poloˇzkami a dle vybraného zboˇz´ı se zobraz´ı nab´ıdka.

(34)

Obr´azek 4.1: Vzhled grafick´eho rozhran´ı

4.2 Hierarchie tˇ r´ıd

V pˇr´ıloze A je znázornˇen diagram tˇr´ıd, kde jsou vidˇet vazby mezi tˇr´ıdami. Je zˇrejmé, ˇze tˇr´ıda Data je jádrem této aplikace a ˇr´ıd´ı témˇeˇr celý program, poskytuje data pouze pro tˇr´ıdu GUI, která ˇr´ıd´ı veˇskerou komunikaci s uˇzivatelem a zobrazuje výsledná data. K uchován´ı atribut˚u a jejich promˇenných je zde tˇr´ıda HeadItems. Z tˇr´ıdy GUI je moˇzné spustit pouze GUIBuy, ta slouˇz´ı k ovˇeˇren´ı vygenerovaných implikac´ı.

V tˇr´ıdˇe FrequentItemsL jsou generovány frekventované mnoˇziny a je zde provádˇeno generován´ı kandidát˚u a odstranˇen´ı mnoˇzin nesplˇnuj´ıc´ıch support. Poloˇzky ve frek- ventovaných mnoˇzinách jsou reprezentovány instancemi z tˇr´ıdy ItemSet. Abstraktn´ı tˇr´ıda Reader slouˇz´ı pouze k dˇedˇen´ı a jej´ım potomkem je CSVReader, ten poskytuje data z vybraného souboru. Podrobnˇejˇs´ı popis tˇr´ıd je popsán n´ıˇze.

4.2.1 Zisk dat

Pro zisk dat slouˇz´ı abstraktn´ı tˇr´ıda Reader slouˇz´ıc´ı pouze k dˇedˇen´ı, byla pouˇzita pˇredevˇs´ım kv˚uli moˇznosti naˇc´ıtat dalˇs´ı vstupn´ı formáty souboru. Jednotné zpra- cován´ı vˇsech vstupn´ıch soubor˚u nen´ı moˇzné, jelikoˇz kaˇzdý formát má charakteristic- kou strukturu. Prozat´ım jsou naˇc´ıtány pouze csv soubory, které zpracovává potomek této tˇr´ıdy CSVReader.

(35)

Prvn´ı volaná metoda, bez ohledu na to, jaký je formát vstupu, je metoda getHeadItems. Jako parametr je pˇredávána cesta k souboru. Metoda vrac´ı pole string˚u s názvy atribut˚u a zároveˇn je v n´ı nastaveno poˇcet transakc´ı obsaˇzených ve vstupn´ım souboru (setNumberOfShoping). Poˇcet transakc´ı je d˚uleˇzitý pro výpoˇcet minimáln´ıho supportu a confidence.

public String[] getHeadItems(String path){

this.path = path;

this.filterIndex = null;

setNumberOfShoping();

return getHead();

}

4.2.2 Cten´ı z csv souboru ˇ

CSVReader je potomek tˇr´ıdy Reader, zpracovává vstupn´ı soubory ve formátu csv.

Tato tˇr´ıda poskytuje data ze souboru a informace o nˇem ostatn´ım tˇr´ıdám, prob´ıhá zde i filtrován´ı dat podle osobn´ıch informac´ı zákazn´ıka. Pokud je nastaven filtr, tak metoda getData vrac´ı pouze vyfiltrovaná data. Na obrázku 4.2 je znázornˇen vývojový diagram metody getData.

(36)

Obr´azek 4.2: Zisk dat ze souboru

V cyklech while se ˇcte celý soubor a je naˇc´ıtán po ˇrádc´ıch, ty jsou rozdˇeleny podle stˇredn´ıku do pole string˚u. Je-li nastaven filtr, data jsou filtrována pomoc´ı index˚u filtrovaných atribut˚u a k nim pˇriˇrazených hodnot, které maj´ı být vyfiltrovány.

Metoda getHead vrac´ı pouze hlaviˇcku souboru, tedy vˇsechny atributy obsaˇzené v souboru. Pomoc´ı pozic tˇechto atribut˚u vrac´ı metoda getFlags hodnoty svých atribut˚u, to je nutné abychom mohli nastavit filtrován´ı v grafickém rozhran´ı. Jestliˇze je zvo- leno filtrován´ı podle nˇekterého atributu, volá se funkce setFilter. Ta nastav´ı indexy a s nimi spjaté hodnoty urˇcené pro filtrován´ı a také pˇrepoˇc´ıtá hodnotu numbe- rOfShoping tak, aby odpov´ıdala poˇctu vyfiltrovaných koˇs´ık˚u.

(37)

4.2.3 Uchov´ an´ı atribut˚ u

Pomoc´ı instance tˇr´ıdy HeadItem jsou uchováván potˇrebná data o atributech.

Pro aplikaci jsou uchovány hodnoty jméno, index, moˇzné hodnoty atributu. Po- kud je nastaven filtr uloˇz´ı se vybraná poloˇzka.

public HeadItem(String name, int index) { this.setName(name);

this.setIndex(index); }

Jiˇz v konstruktoru mus´ı být uvedeny promˇenné name a index, jelikoˇz jsou po celou dobu bˇehu programu spolu spjaty. Ostatn´ı metody v této tˇr´ıdˇe jsou pouze gettery a settery pouˇzitých promˇenných.

4.2.4 Zprostˇ redkov´ an´ı informac´ı

Jádrem celé aplikace je tˇr´ıda Data, která provád´ı veˇskerou komunikace s grafickým rozhran´ım, poskytuje k dispozici nejen výsledné implikace, ale uˇz od zaˇcátku programu pˇredává d˚uleˇzitá data potˇrebná k zobrazen´ı uˇzivateli tak, aby mohl uˇzivatel nastavovat filtry a atributy, které budou ovlivˇnovat výsledek. Uchovává v sobˇe potˇrebné informace o vˇsech atributech, jejichˇz informace jsou uloˇzeny v poli He- adItem. Toto pole je naplnˇeno hned v konstruktoru, který také pˇrij´ımá cestu k vy- branému souboru, po nastaven´ı cesty jsou vygenerovány informace o atributech ze souboru. Vˇetˇsina metod zajiˇst’uje r˚uznou komunikaci, takˇze jenom pˇrij´ımaj´ı nebo odes´ılaj´ı informace, nˇekteré metody zpracovávaj´ı pˇrijatá data do potˇrebné podoby.

Pro samotné generován´ı frekventovaných mnoˇzin slouˇz´ı metoda run, která pˇrij´ımá vybrané atributy, support, confidenci a maximáln´ı n-poloˇzkovou mnoˇzinu kandidát˚u.

(38)

Obr´azek 4.3: Zisk dat ze souboru

Vstupem do metody jsou parametry ovlivˇnuj´ıc´ı generován´ı frekventovaných mnoˇzin v kaˇzdém kroku cyklu se vygeneruje nová frekventovaná mnoˇzina, pokud je vˇsak mnoˇzina prázdná nebo pˇrekroˇc´ı maximáln´ı úroveˇn (Ln), je posledn´ı mnoˇzina smazána ze seznamu.

4.2.5 Frekventovan´ e mnoˇ ziny

V programu jsou reprezentovány instanc´ı tˇr´ıdy FrequentItemsetsL, která se stará o vygenerován´ı mnoˇziny kandidát˚u. Po vygenerován´ı kandidát˚u jsou odstranˇeny mnoˇziny, jeˇz nesplˇnuj´ı pravidlo o frekventovaných mnoˇzinách (kaˇzdá podmnoˇzina mus´ı být zároveˇn frekventovanou mnoˇzinou ). Pr˚uchodem souboru jsou zjiˇstˇeny sup- porty mnoˇzin a odstranˇeny ty, jeˇz nesplˇnuj´ı minimáln´ı support. Pro výpoˇcet pravidel jsou zde vygenerovány vˇsechny podmnoˇziny z tˇechto mnoˇzin.

(39)

Obrázek 4.4: Generován´ı frekventované mnoˇziny

Vstupem jsou poloˇzky z minulé frekventované mnoˇziny, ty jsou pomoc´ı dvou for cykl˚u spojeny, tak se vytvoˇr´ı mnoˇzina kandidát˚u pro tvorbu je d˚uleˇzitá metoda compTwo, která rozhodne zda, jsou obˇe poloˇzky vhodné ke spojen´ı, pokud ano je vy- tvoˇrena nová poloˇzka. Poté prob´ıhá odstranˇen´ı nefrekventovaných mnoˇzin a vzniká nová frekventovaná mnoˇzina.

4.2.6 Nalezen´ı implikac´ı

Poloˇzky ve frekventovaných mnoˇzinách reprezentuj´ı instance tˇr´ıdy ItemSet, ve kterých docház´ı k nalezen´ı implikac´ı. V metodˇe getImplication se posuzuje, jaká pravidla splˇnuj´ı zadané vstupn´ı podm´ınky a pro ty vypoˇc´ıtává statistické údaje.

Vˇsechny nalezené implikace jsou volány do frekventované mnoˇziny, tam se odstraˇnuj´ı duplicitn´ı záznamy, po odstranˇen´ı jsou nalezené implikace pˇredány grafickému rozhran´ı.

(40)

4.2.7 Ovˇ eˇ ren´ı nalezen´ ych implikac´ı

Nalezené implikace lze lehce otestovat pˇr´ımo v aplikaci pomoc´ı tlaˇc´ıtka nákup, to otevˇre nové okno, kde je moˇzné zadat, co má zákazn´ık v nákupn´ım koˇs´ıku a na základˇe obsahu jeho koˇs´ıku jsou vypsány druhy zboˇz´ı, které maj´ı být nab´ıdnuty.

Obr´azek 4.5: Ovˇeˇren´ı nalezen´ych implikac´ı

(41)

5. Z´ avˇ er

C´ılem bakaláˇrské práce je provést analýzu nákupn´ıho koˇs´ıku, nalézt d˚uleˇzité faktory v datech, zjistit vztahy mezi daty a nalézt v nich implikace pomoc´ı asociaˇcn´ıho algoritmu Apriori. Naprogramovat aplikaci urˇcenou pro generován´ı asociaˇcn´ıch pravidel a vysvˇetlen´ı algoritmu. Dále pak program a analýzu zpracovat jako e-learningovou podporu pro pˇredmˇet data mining. V teoretické ˇcásti je rozeb´ırána problematika spjatá s t´ımto projektem, pˇredevˇs´ım metodologie CRISP-DM, podle které prob´ıhala celá analýza nákupn´ıho koˇs´ıku.

Pro zpracován´ı bakaláˇrské práce byla pouˇzita data z internetového obchodu.

Analýza dat byla provedena data miningovým nástrojem IBM SPSS Modeler.

Na základˇe analýzy se odstranily nepotˇrebné nebo zkresluj´ıc´ı záznamy a byly zjiˇstˇeny nˇekteré faktory d˚uleˇzité pro vyuˇzit´ı v marketingu. Data bylo nutné pˇretransformovat do podoby vhodné pro algoritmus Apriori slouˇcen´ım záznam˚u, které obsahuj´ı jednu objednávku. Na závˇer probˇehlo modelován´ı, nalezen´ı a ovˇeˇren´ı implikac´ı.

Aplikace byla naprogramována v jazyce java tak, aby byla nezávislá na operaˇcn´ım systému. V aplikaci je moˇzné prohlédnout si, jak algoritmus Apriori funguje.

Z pˇredzpracovaných dat z analýzy lze vygenerovat implikace, které se zobraz´ı v tabulce. Pokud jsou dostupná data o zákazn´ıc´ıch, je moˇzné generovat pravidla pouze pro urˇcitou skupinu lid´ı. Z´ıskané implikace pomoc´ı programu se shoduj´ı s nalezenými implikacemi d´ıky IBM SPSS Modeleru, pˇri stejném nastaven´ı vstupn´ıch podm´ınek.

Tyto implikace je moˇzn´e vyzkouˇset v aplikaci, nebo je uloˇzit do souboru a pouˇz´ıt v praxi.

K nalezen´ı implikac´ı by bylo moˇzné do aplikace pˇridat dalˇs´ı algoritmy, výsledky by se porovnávaly a vybrány by byly jen ty nejlepˇs´ı. Také je moˇzné program rozˇs´ıˇrit o moˇznost z´ıskán´ı implikac´ı v ˇcasovém rozmez´ı.

(42)

Poˇ zit´ a literatura

[1] DOUG, Alexander. Data Mining. www.laits.utexas.edu [online]. [cit. 2014-05-10].

Dostupn´e z: http://www.laits.utexas.edu/ anorman/BUS.FOR/course.mat/A- lex/

[2] BERKA, Petr. Dobýván´ı znalost´ı z databáz´ı. Praha: Academia, 2003. 366s. ISBN 80-200-1062-9

[3] IBM SPSS Modeler. [online]. [cit. 2014-05-16].

Dostupn´e z: http://www-01.ibm.com/software/analytics/spss/products/modeler/

[4] What is the CRISP-DM methodology?[online]. [cit. 2014-05-10].

Dostupn´e z: http://www.sv-europe.com/crisp-dm-methodology/

[5] Knowledge Discovery in Databases (KDD). [online]. [cit. 2014-05-10].

Dostupn´e z: http://www.usc.edu/dept/ancntr/Paris-in-LA/Analysis/discovery.html

[6] SAS Enterprise Miner. [online]. [cit. 2014-05-16].

Dostupn´e z: http://www.sas.com/offices/europe/uk/technologies/analytics/datamining/miner/semma.html

[7] PROCH ÁZKA, Michal. Data mining: jiný pohled na problém. [online]. [cit. 2014- 05-16].

Dostupn´e z: http://vtm.e15.cz/aktuality/data-mining-jiny-pohled-na-problem [8] Shafranovich, Y. Common Format and MIME Type for Comma-Separated Va-

lues (CSV) Files RFC 4180, IETF, October 2005.

Dostupn´e z: http://www.ietf.org/rfc/rfc4180.txt

[9] MCCONNELL, Steve. Dokonalý kód: Umˇen´ı programován´ı a techniky tvorby software. Computer press, 2006. ISBN 978-80-251-0849-9.

(43)

Seznam pˇ r´ıloh

Pˇr´ıloha A: Diagram tˇr´ıd

(44)

ASOCIAˇCNÍ ALGORITMY V DATAMININGOVÝCH ÚLOHÁCH