Př í loha A Zací lení mařketingove kampane , PEP nový přodukt banký

(1)

1

Př í loha A

Zací lení mařketingove kampane , PEP nový přodukt banký

Dnešní doba je plná reklamy. Je poměrně snadné pomocí reklamy zasáhnout širokou vrstvu obyvatelstva, což může být velice nehospodárné a může mít i opačný efekt. Cílem dataminingové úlohy je nalézt takovou množinu adresátů, u které bude dosaženo vyšší míry odpovědi, než by odpovídala náhodně oslovená skupina adresátů.

Tato změna strategie by měla vést ke snížení nákladů na kampaň a zvýšení zisku společnosti.

A Zadání

Banka zavádí nový produkt PEP (Personal equity plan) a hodlá provést marketingovou kampaň pro tento produkt. V prvním kroku zaslala banka nabídku 600 náhodně vybraných klientů a získala od nich údaje o zájmu o produkt. Tato data spolu s informacemi o zákaznících z databáze tvoří historická data, na kterých se vybuduje model. Model bude sloužit pro předpověď, komu zasílat nabídku produktu.

A.1 Vstupní data

V souboru data_model.txt se nacházejí údaje o 600 klientech. Každý řádek odpovídá jednomu klientovi. Proměnná pep je cílová proměnná, která se bude modelovat.

Tab. A.1.1: Proměnné v data_model.txt

Proměnná Popis

id Identifikační číslo zákazníka

vek Věk zákazníka

pohlavi Pohlaví zákazníka

region Typ regionu zákazníka

prijem Příjem zákazníka za poslední rok

stav Rodinný stav zákazníka

deti Počet dětí zákazníka

uver_auto Indikátor, zda má zákazník úvěr na automobil

(2)

2

ucet_sporici Indikátor, zda má zákazník spořicí účet ucet_bezny Indikátor, zda má zákazník běžný účet

hypoteka Indikátor, zda má zákazník hypotéku

pep Indikátor, zda má zákazník zájem o produkt PEP

A.2 Příprava datové matice

Pro úlohu máme „syrová“ data, která jsou virtuální, ale kopírují skutečná data, které banky obvykle o svých klientech sbírají.

Úloha se bude řešit pomocí softwaru IBM SPSS Modeler 14.2, kde se ihned po zapnutí programu vytvoří nový stream, a proto se může ihned začít. Nejprve se vloží uzel Var.File ze záložky Sources, pomocí něhož se vloží vstupní data do modelu.

Po rozkliknuti uzlu Var.File se přidá cesta k souboru data_model.txt (viz. Obr. A.2.1).

Pro zobrazení náhledu prvních deseti řádků dat se stiskne tlačítko Preview nahoře v uzlu Var.file.

Obr. A.2.1: Vložení souboru data_model.txt

Pro změnu definovaných vstupních proměnných se vloží za uzel Var.File ze záložky Field Ops uzel Type. Oba uzly se musí spojit, buď kliknutím na první uzel kolečkem myši a přetažením přímky na druhý uzel nebo pomocí klávesy F2.

Po rozkliknuti nově vloženého uzlu, se zobrazí tabulka vstupních proměnných, kde se data načtou pomocí tlačítka Read Values. Upraví se cílová proměnná pep (Personal equity plan) u níž se ve sloupci Values zvolí možnost Specify a definuje se jako

(3)

3

hodnota True “ano“ a jako hodnotu False “ne“ (viz. Obr. A.2.2). To sice nemá vliv na kvalitu modelu, ale je to přirozenější definice a ovlivní to způsob vynášení křivek v evaluačních grafech. Typ proměnné deti se nastaví jako ordinální (Ordinal) a opět pomocí tlačítka Read Values se načtou data.

Obr. A.2.2: Specifikace vstupních proměnných

Předpokládá se, že počet dětí by mohl mít vliv na cílovou proměnnou.

Pro prohlédnutí rozložení cílové proměnné k proměnné deti je vhodné použít uzel Distribution ze záložky Graphs. Obdobně (pomocí kolečka myši) se připojí za uzel Type. Po rozkliknuti uzlu Distibution se zvolí do pole Field proměnná deti a graf se obarví pomocí pole Color cílovou proměnnou pep. Pro lepší zobrazení dat se zaškrtne Normalize by color (viz. Obr. A.2.3). Pro zobrazení grafu se stiskne tlačítko Run.

Obr. A.2.3: Rozložení zájmu o produkt podle počtu dětí

(4)

4

Graf ukazuje, že pro různý počet dětí dostáváme odlišný zájem o nabízený produkt v závislosti na počtu dětí.

Úkolem je pomocí modelu odhadnout výstupní proměnnou, proto se data musí rozdělit na testovací a trénovací část pomocí uzlu Partition (záložka Field Ops), který stačí připojit za uzel Type (viz. Obr. A.2.4). Nemusí se nic nastavovat, rozdělení se automaticky provede rovným dílem.

Obr. A.2.4: Proud přípravy dat

Proměnná pep se pomocí modelu bude odhadovat, a proto se v dalším uzlu Type nastaví jako cílová role Target (viz. Obr. A.2.5). Ostatní proměnné vstupují do modelu jako prediktory. Výjimku tvoří proměnná id, která v modelu nemá smysl, systém jí již intuitivně přidělil prázdnou roli None.

Obr. A.2.5: Nastavení Type

Jako první se vyzkouší model rozhodovacího stromu C5.0, který se nachází v záložce Modeling. Připojí se k modelu za druhý Type (viz. Obr. A.2.6), opět pomocí

(5)

5

kolečka myši. Nastavení se ponechá defaultní. Uzel C5.0 se rozklikne a dole se spustí pomocí tlačítka Run. Po spuštění se připojí za vložený uzel zlatý diamant, který se pojmenuje pep.

Obr. A.2.6: Proud přípravy dat

Poklepáním se otevře a v záložce Viewer se zobrazí dendrogram (druh diagramu viz. Obr. A.2.7) odhadnutého modelu. Z něhož vyplývá, že dle rozhodovací stromu C5.0 mají nejsilnější vztah k cílové proměnné pep proměnné deti a prijem.

Obr. A.2.7: Dendrogram rozhodovací stromu C5.0

Je vhodné pro další algoritmy proměnné deti a prijem zkombinovat do jedné proměnné. Logickým ukazatelem může tedy být příjem na dítě. Pokud klient nemá žádné dítě, bude se brát v potaz jen jeho příjem. Nová proměnná se vytvoří pomocí uzlu Derive nacházejícího se v záložce Field Ops. Připojí se za druhý uzel Type.

Poklepáním se otevře a v záložce Settings se přenastaví Derive field: na prijem_dite, což je název nové proměnné, dále Derive as: na Conditional pomocí něhož se může vložit podmínka. If: deti = 0, Then: prijem, Else: prijem/deti.

(6)

6

Obr. A.2.8: Nová proměnná prijem_deti

Nyní je příhodné zobrazit novou proměnnou, avšak pouze na případy s dětmi, kde má proměnná nové hodnoty. Proto se musí vrátit k prvnímu grafu, který se jmenuje deti (viz. Obr. A.2.3), který se poklepáním otevře a pomocí tlačítka Run opět spustí.

Dále se označí prostřednictvím klávesy CTRL řádky s počtem dětí 1, 2 a 3 (viz. Obr.

A.2.9). Pod nabídkou Generate se zvolí Select Node for Table.

Obr. A.2.9: Vybrání dat z grafu deti

Vytvoří se nový uzel, který se připojí za uzel prijem_dite a napojí uzel Histogram, který se nachází v záložce Graphs. V nastavení grafu se vybere z pole Field: prijem_dite a obarví se podle proměnné Color: pep a v záložce Options se zaškrtne možnost Normalize by color. Nyní stačí dát spustit přes tlačítko Run.

(7)

7

Takto získaný graf ukazuje vztah nové a cílové proměnné (viz. Obr. A.2.10). Z grafu je čitelné, že je odlišný zájem o produkt PEP dle příjmu na počet dětí klienta.

Nově vzniklá proměnná tedy bude vhodným prediktorem.

Obr. A.2.10: Histogram závislosti příjmu na dítě a PEP

Jelikož se přidala do modelu nová proměnná prijem_dite, se kterou se bude v modelu dále pracovat, je nutné vložit právě za takto vytvořenou proměnou v uzlu prijem_dite uzel Type. Pokud není nadefinovaná proměnná prijem_deti jako vstupní, je nutné tak udělat.

Obr. A.2.11 Proud přípravy dat

A.3 Odvození modelu

V této úloze se vyzkouší tři typy modelů, které se používají v případě, že cílová proměnná je kategorizovaná: klasifikační strom, neuronová síť a logistická regrese.

(8)

8

Za poslední uzel Type se zapojí uzly C5.0, Neural net a Logistic, které se nacházejí v záložce Modeling (viz. Obr. A.3.1). V uzlu neuronové sítě Neural net a pro strom C5.0 se nechá počáteční nastavení. V uzlu logistické regrese Logistic se nastaví v poli Method: metodu Stepwise. Modely je vhodné přejmenovat, aby se posléze dokázali lehce rozlišit, což lze učinit po otevření daného uzlu a v záložce annotations v poli Name: změnit ukazatel na Custom a vyplnit jméno. Uzel se spustí po označení a stisku dvou kláves CTRL a E. Tak se učiní u všech tří uzlů. Za okamžik se vytvoří tři nové zlaté diamanty, které se automaticky spojí se svými předchůdci, které stačí jen přesunout tak, aby byl proud dat přehledný.

Obr. A.3.1 Proud přípravy dat

Pro tuto úlohu je důležitá předpověď a její přesnost, proto se zde nebude zabývat logickou interpretací odhadnutých modelů. Podrobnější popis nově vzniklých modelů (zlatých diamantů) se získá po otevření uzlu s odhadnutým modelem.

Výstup z modelu C5.0 se získá připojením uzlu Table, který se nachází v záložce Output, za daný uzel. Uzel Table se spustí po označení a stisku kláves CTRL+E. Po otevření je vidět, že do datové matice přibyly dvě nové proměnné $C-pep a $CC-pep (viz. Obr. A.3.2). První z nich je předpověděná hodnota a druhé je spolehlivost předpovědi.

(9)

9

Obr. A.3.2: Nové proměnné v modelu C5.0

Podobné proměnné tvoří i ostatní modely. Neuronová síť vytváří nové proměnné s předponou $N a logistická regrese $L.

A.4 Evaluace modelů

Při vyhodnocování výsledků modelů se zkontroluje celková přesnost modelu a vytvoří se evaluační graf.

Modely C5.0, Neural Net a logistic se spojí pomocí kolečka myši a za ně se vloží uzel Analysis ze záložky Output. Nic se v něm nenastavuje, jen se spustí obdobně jako předchozí uzly. Zobrazí se výsledky analýzy, kde je uvedena přesnost všech modelů (viz. Obr. A.4.1). Pro použití modelu v praxi, je důležitější testovací množina, protože obsahuje nezávislá data, na kterých se model nepočítal. To simuluje situaci, kdy se aplikuje model na nových datech, které se mají odhadnout.

Model C5.0 správně zařadil 90,38 % testovaných dat, což je velmi kvalitní výsledek. Neural Net správně určil 79,04 % a logistic 74,91 % případů.

(10)

10

Obr. A.4.1: Výsledky analýzy modelů

Další vyhodnocení modelů se provede pomocí uzlu Evaluation v záložce Output, který se se připojí obdobně jako uzel Analysis. Po rozkliknutí se zaškrtne možnost Include best line (viz. Obr. A.4.2) pro zobrazení křivky pro teoreticky optimální model.

Obr. A.4.2: Nastavení uzlu Evaluation

Po nastavení evaluačního grafu se stiskne tlačítko Run a graf se vykreslí. Je rozdělen na dvě části a to pro testovací a trénovací množinu. I zde je zajímavá především testovací množina.

(11)

11

Obr. A.4.3: Evaluační graf

Graf ukazuje procentuálně zájem klientů o výrobek PEP v závislosti na oslovených klientech. Na ose X jsou seřazeni vzestupně zákazníci dle zájmu o daný produkt. Tento zájem je vypočítán podle modelů. Na ose Y jsou klienti, kteří mají skutečný zájem o produkt PEP. Tučná červená čára odpovídá číslům, která by byla aktuální, pokud by se žádná analýza dat neprováděla. Což znamená, že pokud by například banka oslovila 40 % svých klientů, našla by pouze 40 % takových, kteří by o nabízený produkt měli zájem.

Pokud se použije jeden z odhadnutých modelů, bude podíl opravdových zájemců podstatně větší. Například osloví-li se 60 % klientů, tak u modelu klasifikačního stromu ($C-pep) bude zájem o produkt přes 90 %. U modelů neuronové sítě ($N-pep) a logistické regrese ($L-pep) to bude přes 80 % na testovaných datech. Optimální model je takový, který by přesně dokázal separovat zájemce o produkt od ostatních.

Klasifikační strom C5.0 opět dosáhl dobrého výsledku, který se jeví lépe než u logistické regrese a neuronové sítě. Jako finální model se tudíž zvolí klasifikační strom, protože dává dobré výsledky a navíc je dobře interpretovatelný.

(12)

12

A.5 Nasazení modelu

Nyní se už zvolil nejvýhodnější model, a proto se může přestoupit k aplikaci jeho výsledků na data o klientech, u kterých chce banka získat předpověď.

Data klientů jsou uložena v relační databázi Microsoft Access Database a mají stejnou strukturu jako modelovací data data_model.txt. Pro připojení databáze do softwaru IBM SPSS Modeler 14.2 se použije Správce zdrojů dat ODBC, který obsahuje informace o připojení k dané databázi (viz. Obr. A.5.1). Program se nalezne v Nástroje pro správu (Ovládací panely). Pokračuje se na záložku Uživatelské DSN a tlačítko Přidat.

Obr. A.5.1: Připojení databáze

V následujícím okně se vybere možnost Driver do Microsoft Access (*.mdb) a nastaví se Název zdroje dat například na data_pep (viz. Obr. A.5.2). Dále cesta k databázi data_pep.mdb pomocí tlačítka Vybrat.

Pokud se po otevření aplikace Správce zdrojů dat ODBC a stisku tlačítka Přidat nezobrazí možnost Driver do Microsoft Access (*.mdb), musí se tento program spustit jinou cestou. Například: C:\Windows\SysWOW64\odbcad32.exe. Nyní se již nastavuje vše jako v předchozím případě.

(13)

13

Obr. A.5.2: Nastavení připojení databáze

Vstupní data jsou z právě propojené databáze data_pep, která se otevře v uzlu Database. Následuje uzel prijem_dite, který lze zkopírovat z předchozího stromu (CTRL+C), kde se nastavovala nová proměnná. Následovat bude uzel klasifikačního stromu s odhadnutým modelem, jenž dosáhl nejlepších výsledků. Pro kontrolu dat se připojí za uzel pep uzel Table, ve kterém jsou vidět již známá data z návrhu modelu.

Pro export se připojí za uzel pep uzel Database, ve kterém se nastaví jméno tabulky a zaškrtne Drop existing table (viz. Obr. A.5.3).

Obr. A.5.3: Změna nastavení exportu

(14)

14

Díky modelu se zjistilo jasné doporučení pro banku, která zavádí nový projekt PEP.

Obr. A.5.4: Nasazení modelu