Typy promˇenn´ ych - Regresn´ı analýza v data miningových úlohách

2.1.2 Z´ akladn´ı n´ astroje pro anal´ yzu dat

Tato kapitola se vˇenuje základn´ım nástroj˚um pro analýzu dat, pomoc´ı kterých m˚uˇzeme reprezentovat daný výbˇerový soubor.

Rozdˇelen´ı ˇcetnost´ı

Cetnost je veliˇcina, která udává kolikrát se daná hodnota statistického znaku vysky-ˇ tuje ve statistické souboru. Uvaˇzujeme-li statistický znak ve tvaru x1, x2, ..., xn, kde nje rozsah statistického souboru a celkový poˇcet r˚uzných hodnot znaku x je k ≤ n[10].

Absolutn´ı ˇcetnost hodnoty znaku xj je poˇcet statistick´ych jednotek, kter´e maj´ı stejnou hodnotu znaku xj pro j = 1, 2..., k.

Xk i=1

nj = n (2.2)

Relativn´ı ˇcetnost hodnoty znaku xj je pod´ıl absolutn´ı ˇcetnosti a rozsahu souboru, nejˇcastˇeji se vyjadˇruje v procentech, oznaˇcuje se jako vj a jejich souˇcet je jedna (v pˇr´ıpadˇe procent 100)(viz rovnice 2.3). V´yhodu relativn´ı ˇcetnosti je, ˇze pomoc´ı n´ı

m˚uˇzeme porovnávat dva výbˇerového soubory s rozd´ılnými rozsahy[10].

Xk i=1

vj = 1. (2.3)

Kumulativn´ı absolutn´ı ˇcetnost vyjadˇruje souˇcet vˇsech pˇredch´azej´ıc´ıch absolutn´ıch ˇcetnost´ı. Umoˇzˇnuje zjistit kolik hodnot je menˇs´ıch neˇz zadan´e ˇc´ıslo.

Kumulativn´ı relativn´ı ˇcetnost umoˇzˇnuje zjistit procento hodnot menˇs´ıch neˇz zadané ˇc´ıslo. Vypoˇcteme jej vydˇelen´ım pˇr´ısluˇsné absolutn´ı kumulativn´ı ˇcetnosti s rozsahem souboru, nebo seˇcten´ım relativn´ıch ˇcetnost´ı v intervalech, jejichˇz horn´ı hranice je menˇs´ı neˇz zadané ˇc´ıslo.

Intervalov´e rozdˇelen´ı ˇcetnost´ı - kategorizace

Toto rozdˇelen´ı rozdˇeluje statistický soubor na intervaly, kterým ˇr´ıkáme tˇr´ıdy. Pouˇz´ıvá se zejména v pˇr´ıpadech, kdy máme pˇr´ıliˇs mnoho variant znak˚u, napˇr´ıklad u spojitých hodnot, jako je výˇska osob nebo pˇr´ıjem. Pouˇzit´ım tohoto rozdˇelen´ı zvýˇs´ıme pˇrehlednost statistického souboru. Pˇri vytváˇren´ı interval˚u je tˇreba dodrˇzovat urˇcité pravidla[10].

Poˇcet tˇr´ıd rozdˇelen´ı – k odpov´ıd´a:

• Odmocninov´emu pravidlu k =√ n,

• Sturgesovu pravidlu k = 1 + 3, 3 log n.

Pro urˇcen´ı ˇs´ıˇrky (poˇctu prvk˚u) intervalu existuje nˇekolik metod. Jednou z nich je pod´ıl rozd´ılu maximáln´ı a minimáln´ı hodnoty výbˇerové souboru a poˇctu tˇr´ıd.

i= M AX− MIN

k (2.4)

Mezi dalˇs´ı metody ˇrad´ıme urˇcen´ı ˇs´ıˇrky intervalu pomoc´ı Kvantil˚u. Rozdˇeluj´ı statistický soubor na ˇcásti, v závislosti na tom, kolika procentn´ı kvantil je pouˇzit.

Znaˇc´ı se xp, kde p jsou procenta v intervalu < 0, 100 >.

Nejpouˇz´ıvanˇejˇs´ı kvantily jsou:

• Medi´an - x⁵⁰,

• Kvartily - x²⁵, x₅₀, x₇₅ ,

• Decily - x¹⁰, x₂₀. . . , x₉₀,

• Percentily - x¹, x2, . . . , x99.

Kategorizaci ˇc´ıselné promˇenné zejména v data miningových ˇreˇsen´ıch lze provést mnoha dalˇs´ımi postupy. Napˇr´ıklad algoritmy pro kategorizaci s respektem k c´ılové predikované hodnotˇe.

Charakteristiky statistick´eho souboru

Pˇri statistické analýze je ˇcasto tˇreba porovnávat nˇekolik statistických soubor˚u. Z to-hoto d˚uvodu se pouˇz´ıvaj´ı charakteristiky. Charakterizuj´ı základn´ı rysy zkoumaného statistického souboru[10].

Existuje nˇekolik z´akladn´ıch charakteristik:

• Polohy

• Variability

• Tvaru

• Kovariance

Charakteristika polohy

Pˇredstavuje r˚uzné druhy stˇredn´ıch hodnot výbˇerového souboru. Obecnˇe oznaˇcujeme stˇredn´ı hodnotu jako E[X] = x = µ.

Základn´ı m´ırou polohy je Aritmetický pr˚umˇer. Rozliˇsujeme pr˚umˇer pro základn´ı a výbˇerový soubor[10].

• Aritmetick´y pr˚umˇer pro z´akladn´ı soubor:

µ= PN

i=1xi

N . (2.5)

• Aritmetický pr˚umˇer pro výbˇerový soubor:

x= Pn

i=1xi

n . (2.6)

• Váˇzený aritmetický pr˚umˇer - je zvláˇstn´ım pˇr´ıpadem výˇse zm´ınˇeného, kde ni jsou váhy (ˇcetnosti) jednotlivých hodnot xi. Nejˇcastˇeji to jsou poˇcty výskyt˚u hodnoty xi ve výbˇerovém souboru.

x= K aritmetick´emu pr˚umˇeru se v´aˇze nˇekolik vlastnost´ı:

• Aritmetick´y pr˚umˇer konstanty je konstanta.

• Pˇriˇcten´ım, odeˇcten´ım, vynásoben´ım nebo vydˇelen´ım vˇsech hodnot znaku nenu-lovou konstantou se odpov´ıdaj´ıc´ım zp˚usobem zmˇen´ı také aritmetický pr˚umˇer.

• Vyn´asob´ım-li vˇsechny v´ahy nenulovou konstantou, tak se pr˚umˇer nezmˇen´ı.

Kromˇe aritmetického pr˚umˇeru existuj´ı dalˇs´ı, které se pouˇz´ıvaj´ı ve speciáln´ıch pˇr´ıpadech (viz tabulka 2.1).

K v´ypoˇctu koeficient˚u r˚ustu nebo ˇretˇezov´ych index˚u.

Je pouˇzit v pˇr´ıpadˇe, ˇze jsou udaje zatˇr´ıdˇeny dle ˇcetnost´ı, nebo maj´ı r˚uzn´e hodnoty r˚uznou v´ahu.

Harmonick´y pr˚umˇer

pro mˇeˇren´ı úrovnˇe pomˇerných ˇc´ısel (rychlost, výkon, produktivita

Je pouˇzit v pˇr´ıpadˇe, ˇze jsou udaje zatˇr´ıdˇeny dle ˇcetnost´ı, nebo maj´ı r˚uzn´e hodnoty r˚uznou v´ahu.

Kvadratick´y pr˚umˇer

xK= r Pn

i=1x²_i n

Pˇri v´ypoˇctu stˇredn´ı kvadratick´e od-chylky.

Je pouˇzit v pˇr´ıpadˇe, ˇze jsou udaje zatˇr´ıdˇeny dle ˇcetnost´ı, nebo maj´ı r˚uzn´e hodnoty r˚uznou v´ahu.

Tabulka 2.1: Seznam typ˚u pr˚umˇer˚u

Plat´ı, ˇze x ≤ x^G ≤ x^H ≤ x^K

. Mezi dalˇs´ı stˇredn´ı hodnoty se ˇrad´ı tak´e:

• Medián – hodnota, která je ve stˇredu statistického souboru za pˇredpokladu, ˇze je seˇrazený.

• Modus – hodnota z nejvyˇsˇs´ı ˇcetnost´ı znaku.

Charakteristika variability

Charakteristika variability udává, jak se liˇs´ı hodnoty znak˚u prvk˚u od zvolené charak-teristiky polohy (pr˚umˇeru). ˇRad´ıme mezi nˇe variaˇcn´ı rozpˇet´ı, pr˚umˇernou absolutn´ı odchylky, rozptyl, smˇerodatnou odchylku a variaˇcn´ı koeficient. Plat´ı, ˇze ˇc´ım vyˇsˇs´ı je variabilita hodnot znaku, t´ım niˇzˇs´ı je vypov´ıdac´ı schopnost charakteristiky polohy (pr˚umˇeru atd.)[10].

Nejpouˇz´ıvanˇejˇs´ı charakteristikou variability je rozptyl. Znaˇc´ı se tak´e jako var(X)

= D(X) = E(X − E(X))² = σ². Je definován jako pr˚umˇer kvadrát˚u odchylek jednotlivých znak˚u xi od jejich aritmetického pr˚umˇeru x [10].

Stejnˇe jako u pr˚umˇeru rozliˇsujeme rozptyl základn´ıho souboru a výbˇerového souboru.

Rozptyl z´akladn´ı souboru:

σ² = var(X) = PN

i=1(xi− µ)²

N . (2.8)

Rozptyl v´ybˇerov´eho souboru:

S_x² = var(X) = Pn

i=1(xi− x)²

n− 1 , (2.9)

kde ve jmenovateli výraz n − 1, oznaˇcuje poˇcet stupˇn˚u volnosti výbˇerového souboru.

Pouˇzit´ım výrazu n−1 m´ısto velikosti souboru n doc´ıl´ıme pˇresnˇejˇs´ıho odhadu skuteˇcné hodnoty populaˇcn´ıho rozptylu, zejména pˇri výpoˇctu na základˇe malých výbˇerových soubor˚u[10].

K rozptylu se v´aˇze nˇekolik vlastnost´ı:

• Rozptyl konstanty je nula.

• Pˇriˇcteme-li ke vˇsem hodnot´am znaku stejnou konstantu =⇒ rozptyl se nezmˇen´ı.

• Vyn´asob´ıme-li kaˇzdou hodnotu znaku stejnou konstantou =⇒ rozptyl bude jej´ı n´asobek .

• Rozptyl souˇctu nebo rozd´ılu dvou znak˚u je roven souˇctu rozptyl˚u obou znak˚u zvˇetˇseném/zmenˇseném o dvojnásobek kovariance: S_z² = S_x²+ S_y²± S^xy.

Vzhledem k uˇzit´ı kvadrát zavád´ıme smˇerodatnou odchylku, která je definována jako:

Sx =p

S_x². (2.10)

Casto je tˇreba porovnávat statistické soubory a m˚ˇ uˇze se stát, ˇze znaky nejsou ve stejných jednotkách nebo maj´ı nestejnou velikost. V takových pˇr´ıpadech vyuˇz´ıváme charakteristiku relativn´ı variability. Mezi ni ˇrad´ıme variaˇcn´ı koeficient. Oznaˇcujeme ho Vx. A vypoˇc´ıtá se jako pod´ıl smˇerodatné odchylky a pr˚umˇeru výbˇerového souboru[10]:

Vx = Sx

x . (2.11)

Charakteristika tvaru

Mˇeˇr´ı odchylku v rozloˇzen´ıˇcetnost´ı hodnot znak˚u oproti danému referenˇcn´ımu rozdˇelen´ı ˇcetnost´ı (obvykle normáln´ımu)[10]. Skládá se ze dvou sloˇzek:

• Asymetrie (ˇSikmosti) – udává symetrické/asymetrické rozloˇzen´ı hodnot kolem pr˚umˇer.

A= Pn

i=1(xi− x)³

nS³ (2.12)

Obr´azek 2.2: Charakteristiky asymetrie

• ˇSpiˇcatosti – porovn´av´a ˇcetnost hodnoty znak˚u kolem pr˚umˇeru.

E = Pn

i=1(xi− x)⁴

nS⁴ (2.13)

Obr´azek 2.3: Charakteristiky ˇspiˇcatosti

Kovariance

Charakterizuje, jak se dva znaky x a y statistick´eho souboru vz´ajemnˇe ovlivˇnuj´ı.

Znaˇc´ı se jako cov(X; Y ), nebo Sxy[10] a vypoˇc´ıt´ame ji jako:.

Sxy = 1 n

Xn i=1

(xi− x)(yⁱ− y) = xy − x y.

Pokud Sxy > 0 znak x roste (klesá), tak roste (klesá) y, napˇr. vztah mezi výˇskou a váhou ˇclovˇeka.

Pokud Sxy <0 znak x roste (klesá), tak y klesá (roste), napˇr. vztah mezi hloubkou dezénu pneumatiky a brzdnou dráhou automobilu.

Plat´ı, ˇze ˇc´ım vyˇsˇs´ı je kovariance, t´ım v´ıce se znaky navzájem mˇen´ı. Naopak ale nulová kovariance Sxy = 0 nemus´ı nutnˇe znamenat, ˇze mezi znaky neexistuje závislost. Jen se nemus´ı jednat o lineárn´ı závislost, ale napˇr´ıklad o kvadratickou.

Korelace

Korelace oznaˇcuje m´ıru závislosti dvou znak˚u x a y. ˇRekneme, ˇze dvˇe promˇenné jsou korelované jestliˇze hodnoty jedné promˇenné maj´ı tendenci vyskytovat se spoleˇcnˇe s hodnotami druhé promˇenné[10]. Pro zmˇeˇren´ı m´ıry korelace je navrˇzena ˇrada koeficient˚u, které se liˇs´ı podle typ˚u promˇenných a vlastnostmi. Pˇri zkoumán´ı vztah˚u korelace je d˚uleˇzitý kvalitativn´ı rozbor dat. Jinak ˇreˇceno, nemá smysl hledat závislost tam, kde na základˇe logické úvahy nem˚uˇze existovat.

Jedn´ım z nejpouˇz´ıvanˇejˇs´ıch koeficient˚u je Pearson˚uv korelaˇcn´ı koeficient. Oznaˇcuje se jako rxy a spoˇc´ıtá se jako pod´ıl kovariance Sxy a násobku smˇerodatných odchylek Sx

a Sy.

rxy = Sxy

SxSy

. (2.14)

2.2 Jednoduch´ y line´ arn´ı regresn´ı model

Tato kapitola se bude zabývat jednoduchým lineárn´ım regresn´ım modelem. Tedy, kdy závislá (vysvˇetlovaná) promˇenná Y je lineárn´ım vztahem pouze jedné nezávislé (vysvˇetluj´ıc´ı) promˇenné X. Pomoc´ı regresn´ıho modelu hledáme lineárn´ı vztah mezi

promˇennou Y a X[9].

Prvn´ı dva pojmy, kterými se budeme zabývat jsou deterministická a stochastická populaˇcn´ı regresn´ı funkce, dále jen PRF. Deterministická PRF spojuje oˇcekávané hodnoty vysvˇetlované promˇenné Yi pro daná Xi a je dána vztahem:

E(Yi|Xⁱ) = β1+ β2Xi, i= 1, 2, . . . , n, (2.15) kde parametry β₁ je absolutn´ı ˇclen a β₂ definuje sklon regresn´ı kˇrivky.

Tyto modely nejsou pˇr´ıliˇs ˇcasté, protoˇze existuj´ı dalˇs´ı vlivy na vysvˇetlovanou promˇennou Yi resp. náhodné sloˇzky, které do regresn´ıho modelu vnáˇs´ı urˇcitou chybu.

Zanesen´ım t´eto chyby do modelu zadefinujeme stochastickou PRF. Je definovan´a jako:

E(Yi|Xⁱ) = β1+ β2Xi+ ui, i= 1, 2, . . . , n, (2.16) kde ui je náhodná sloˇzka, tj. chyba, zanesená zanedbán´ım nˇekterých vliv˚u a dalˇs´ıch chyb, napˇr´ıklad z mˇeˇren´ı.

Jak jiˇz bylo výˇse zm´ınˇeno, obvykle se nestává, ˇze bychom mˇeli k dispozici data za celou populaci (základn´ı soubor), tud´ıˇz jej nahrazujeme výbˇerovými soubory.

Nazýváme ji výbˇerová regresn´ı funkce, dále VRF. Je snaha o to, aby VRF konvergo-vala k PRF. Následuj´ıc´ı tabulka 2.3 shrnuje zmiˇnované funkce.

Deterministick´a forma Stochastick´a forma Populaˇcn´ı

regresn´ı

funkce E(Yi|Xⁱ) = Yi= β1+ β2Xi E(Yi|Xⁱ) = Yi= β1+ β2Xi+ ui

V´ybˇerov´a regresn´ı funkce

Yi= cβ1+ cβ2Xi Ybi = cβ1+ cβ2Xi+ubi

Tabulka 2.3: Forma zápisu populaˇcn´ı a výbˇerové regresn´ı funkce Symboly

”b“ nad promˇennými a parametry vyjadˇruj´ı odhad pro výbˇerový soubor.

To znamená, ˇze bYi je odhad pro Yi, bβ₁ a bβ₂ jsou odhady regresn´ıch parametr˚u, aubi pˇredstavuje reziduáln´ı sloˇzku, coˇz je odhad stochastické náhodné sloˇzky ui[9].

Existuje nˇekolik metod pro odhad parametr˚u regresn´ıho modelu:

• metoda nejmenˇs´ıch ˇctverc˚u (MN ˇC),

• metodu maxim´aln´ı vˇerohodnosti (ML),

• metoda moment˚u,

• zobecnˇen´a metoda moment˚u.

Tato práce se zamˇeˇruje na prvn´ı z uvedených metod, o druhé metodˇe se zmiˇnuje v souvislosti s logistickou regresn´ı analýzou.

2.2.1 Metoda nejmenˇ s´ıch ˇ ctverc˚ u

Tato metoda byla zavedena, nˇemeck´ym matematike, Carlem Friedrichem Gaussem.

Jedná se metodu zjiˇstˇen´ı parametr˚u bβ₁ a bβ₂ výbˇerové regresn´ı funkce:

Yi = bβ₁+ bβ₂Xi+ubi = bYi+ubi, i= 1, 2, . . . , n, (2.17) kde vývoj promˇenné Yi je determinován zmˇenami Xi a tvar kˇrivky je urˇcen regresn´ımi parametry β1 aβ2[9]. Metoda proloˇz´ı pˇr´ımku jednotlivými hodnotami znak˚u, jak zobrazuje obrázek 2.4.

Obr´azek 2.4: Princip metody nejmenˇs´ıch ˇctverc˚u

Dále vyjádˇr´ıme z rovnice 2.17 reziduáln´ı sloˇzkuubi: b

ui = Yi− bYi = Yi− bβ₁+ bβ₂Xi = f ( bβ₁, bβ₂). (2.18) Z rovnice 2.18 je zˇrejmé, ˇze reziduáln´ı sloˇzka je funkc´ı regresn´ıch parametr˚u. Obrázek 2.4 ukazuje, ˇze reziduáln´ı sloˇzka ubi m˚uˇze být kladná i záporná. Z tˇechto d˚uvod˚u je tˇreba pouˇz´ıt souˇcet ˇctverc˚u reziduáln´ıch odchylek. A tedy základem metody nejmenˇs´ıch ˇctverc˚u je minimalizace tohoto souˇctu[9]:

Xn i=1

b ui2

= f ( bβ₁, bβ₂). (2.19)

Pro nalezen´ı minima funkce se pouˇzije metoda z matematické analýzy – hledán´ı extrému funkce. Funkce 2.19 se parciálnˇe zderivuje podle parametr˚u β1 a β2 a jed-notlivé derivace poloˇz´ıme rovny nule:

δ(P b ui2) δ bβ1

= 2X

(−1)(Yⁱ− bβ₁− bβ₂Xi) = 0, δ(P

b ui2

)

δ bβ₂ = 2X

(−Xⁱ)(Yi− bβ₁− bβ₂Xi) = 0. (2.20) Upravou obou tˇechto rovnic z´ısk´ame 2 rovnice o dvou nezn´am´´ ych parametrech:

XYi = n bβ1 + bβ2

XXi, XYiXi = bβ₁X

Xi+ bβ₂X

X_i². (2.21)

Jej´ım vyˇreˇsen´ım obdrˇz´ıme odhady obou regresn´ıch parametr˚u:

2.2.2 Vlastnosti odhadov´ e funkce nejmenˇ s´ıch ˇ ctverc˚ u

Pomoc´ı metody nejmenˇs´ıch ˇctverc˚u byl proveden bodov´y odhad ¹ parametr˚u bβ1

a bβ₂ daného výbˇerového souboru. Za pˇredpokladu dalˇs´ıch nezávislých výbˇerových soubor˚u se z´ıská výbˇerové rozdˇelen´ı hodnot odhad˚u parametr˚u, a poté na jej´ım základˇe docház´ı k odhadu parametr˚u β1 a β2 základn´ıho souboru[9].

Odhadov´a funkce m´a tyto vlastnosti:

• nestrannost,

• vydatnost (eficience),

• konzistence.

Nestrannost je vlastnost odhadové funkce bβk, která ˇr´ıká, ˇze stˇredn´ı hodnota bodového regresn´ıho parametru je rovna populaˇcn´ımu regresn´ımu parametru:

E( bβk) = βk. (2.23)

Tuto vlastnost zobrazuje obrázku 2.5, kde odhadová funkce cβ_k^∗ (zelená) je vychýlená v˚uˇci odhadu bβk.

Dalˇs´ı z vlastnost´ı je vydatnost (eficience). Naˇse odhadová funkce bβk je efici-entn´ı v˚uˇci jiné téhoˇz cβ_k^∗∗ (modrá), jestliˇze nemá vˇetˇs´ı rozptyl. Vlastnost zobrazuje obrázek 2.5. Z nˇeho vyplývá, ˇze odhadová funkce bβk je z dané tˇr´ıdy odhadových funkc´ı s nejmenˇs´ım rozptylem. Obˇe tyto vlastnosti zkoumáme zejména na menˇs´ıch výbˇerových souborech[9].

1neznámý parametr základn´ıho souboru odhadujeme pomoc´ı jediného ˇc´ısla

Obrázek 2.5: Nevychýlené a eficientn´ı rozdˇelen´ı parametr˚u bβk

Pro rozsáhlé soubory testujeme vlastnosti konzistence. Odhadová funkce bβk je konzistentn´ı s odhadovou funkc´ı βk pro n limitnˇe rostouc´ı do nekoneˇcna, kde se n rovná rozsahu výbˇerového souboru, jestliˇze je:

• asymptoticky nestrann´a:

n→∞lim E( bβk) = βk, (2.24)

• s rostouc´ı hodnotou n parametr bβkkonverguje ke skuteˇcn´e hodnotˇe odhadnut´eho parametru βk:

n→∞lim βbk = βk. (2.25)

Obrázek 2.6 zobrazuje tˇri odhadové funkce βk, β_k^∗, β_k^∗∗, kde s rostouc´ım rozsahem výbˇerového souboru n roste konzistence.

Obr´azek 2.6: Konzistentn´ı rozdˇelen´ı parametr˚u bβk

2.2.3 Pˇredpoklady pro pouˇ zit´ı metody nejmenˇ s´ıch ˇ ctverc˚ u

Vlastnosti odhadové funkce zmiˇnované v kapitole 2.2.2 jsou splnˇeny za nˇekolika pˇredpoklad˚u. Tato kapitola zkoumá tyto pˇredpoklady a v tomto pˇr´ıpadˇe se zamˇeˇruje pouze na jednoduchý lineárn´ı regresn´ı model[9]. Tyto pˇredpoklady jsou dále zobecnˇeny pro v´ıcerozmˇerný lineárn´ı regresn´ı model v kapitole 2.4.2.

• P1: Line´arn´ı regresn´ı model Yⁱ = β1+ β2Xi+ ui je line´arn´ı v parametrech.

• P2: Hodnoty Xⁱ jsou fixn´ı.

• P3: Stˇredn´ı hodnota náhodné sloˇzky je nulová E(uⁱ|Xⁱ) = 0

• P4: Pro kaˇzdou i-tou skupinu bude platit, ˇze variabilita náhodné sloˇzky bude rovna σ². Tento pˇredpoklad se také nazývá homoskedasticita =⇒ nemˇen´ı se rozptyl náhodné sloˇzky v jednotlivých skupinách. Opakem je heteroskedasticita

=⇒ rozptyl se mˇen´ı, napˇr. zvyˇsuje se s rostouc´ımi hodnotami Xⁱ.

var(ui|Xⁱ) = D(ui|Xⁱ) = E(ui− E(uⁱ|Xⁱ))² = E(u²_i|Xⁱ) = σ² (2.26)

• P5: Náhodná sloˇzka z r˚uzných skupin nen´ı sériovˇe závislá (korelovaná). V pˇr´ıpadˇe opaku mluv´ıme o sériové korelaci (autokorelaci) náhodné sloˇzky, která pak je pozitivn´ı nebo negativn´ı.

cov(ui; uj|Xⁱ; Xj) = E{[uⁱ− E(uⁱ)]|Xⁱ}{[u^j − E(u^j)]|X^j} =

= E{uⁱ|Xⁱ}{u^j|X^j} = 0 pro i 6= j (2.27)

• P6: Dalˇs´ım pˇredpokladem je nulová kovariance mezi náhodnou sloˇzkou uⁱ a Xi. Tento pˇredpoklad zároveˇn vyjadˇruje, ˇze PRF m˚uˇzeme rozdˇelit na dvˇe aditivn´ı ˇcásti tzn. na ˇcást deterministické regrese a stochastické regrese s náhodnou sloˇzkou.

cov(ui; Xi) = E[ui− E(uⁱ)(Xi− E(Xⁱ))] =E[ui(Xi− E(Xⁱ))] =

= E(uiXi) − E(Xⁱ)E(ui) = E(ui, Xi) = 0 (2.28)

• P7: Poˇcet pozorován´ı |X| = n mus´ı být vˇetˇs´ı, jak poˇcet parametr˚u regresn´ıho modelu. U jednoduchého regresn´ıho modelu plat´ı n > 2.

• P8: Náhodná sloˇzka má normáln´ı rozdˇelen´ı uⁱ ∼ N(0; σ²).

2.2.4 Koeficient determinace

Koeficient determinace je jedna z veliˇcin pro hodnocen´ı regresn´ı analýzy[9]. Pro jeho vymezen´ı je tˇreba definovat nˇekteré základn´ı pojmy. Úplný souˇcet ˇctverc˚u (TSS) je souˇcet kvadrát˚u rozd´ıl˚u pozorované hodnoty vysvˇetlované promˇenné a pr˚umˇerné hodnoty:

T SS = Xn

i=1

(Yi− Y )². (2.29)

Upln´´ y souˇcet ˇctverc˚u je moˇzn´e rozloˇzit na dvˇe sloˇzky:

• rezidu´aln´ı souˇcet ˇctverc˚u (RSS):

RSS = Xn

i=1

(Yi− bYi)², (2.30)

• vysvˇetlen´y (regresn´ı) souˇcet ˇctverc˚u (ESS):

ESS = Xn

i=1

( bYi− Y )². (2.31)

Pouˇzit´ım Pythagorovy vˇety plat´ı (viz obr´azek 2.7):

T SS = Xn

i=1

(Yi− Y )² = Xn

i=1

(Yi− bYi)²+ Xn

i=1

( bYi− Y )² = RSS + ESS. (2.32)

Obr´azek 2.7: Rozklad souˇctu ˇctverc˚u TSS

Koeficient determinace R² je poté definován, jako pod´ıl vysvˇetlovaného souˇctu ˇctverc˚u a celkové souˇctu ˇctverc˚u:

R² = ESS

T SS = T SS − RSS

T SS = 1 − RSS

T SS. (2.33)

Udává stupeˇn vysvˇetlen´ı závislé promˇenné Y naˇseho regresn´ıho modelu[9].

Hodnota R² m´a nˇekolik vlastnost´ı:

• Nab´yv´a hodnoty v intervalu < 0, 1 >.

• Pokud R² = 1, vˇsechna výbˇerová pozorován´ı leˇz´ı pˇr´ımo na vyrovnané regresn´ı pˇr´ımce. Nejlepˇs´ı moˇzná moˇznost.

• Pokud R² = 0, tak ani jedno pozorován´ı neleˇz´ı na regresn´ı pˇr´ımce a nepodaˇrilo se nám vysvˇetlit ˇzádnou ˇcást vysvˇetlované promˇenné. Regresn´ı model nemá smysl.

Z koeficientu determinace lze odvodit koeficient korelace R vztahem 2.34:

R= ±√

R². (2.34)

Vzhledem k tomu, ˇze s koeficientem determinace je spojeno nˇekolik problém˚u, které spoˇc´ıvaj´ı v tom, ˇze adekvátnˇe nereaguje na zmˇeny v poˇctu pozorován´ı a nezohledˇnuje rozˇs´ıˇren´ı poˇctu vysvˇetluj´ıc´ıch promˇenných, tak se z tˇechto d˚uvodu pouˇz´ıvá korigovaný koeficient determinace[9].

2.2.5 Testov´ an´ı hypot´ ez o odhadnut´ ych regresn´ıch parametrech

Po vytvoˇren´ı jednoduchého regresn´ıho modelu metodou nejmenˇs´ıch ˇctverc˚u zaˇc´ıná fáze statistické verifikace a dalˇs´ıho testován´ı hypotéz o odhadnutých parametrech i celého modelu. Základn´ı principy testován´ı hypotéz lze shrnout do tˇr´ı základn´ıch fáz´ı[9]:

• formulace nulov´e a alternativn´ı hypot´ezy(H0, HA),

• v´ypoˇcet testovac´ı statistiky,

• aplikace nebo pouˇzit´ı rozhodovac´ıho pravidla o pˇrijet´ı, nebo zam´ıtnut´ı nulové hypotézy pro stanovenou hladinu významnosti.

Toto testován´ı m˚uˇze prob´ıhat prostˇrednictv´ım oboustranného resp. jednostranného testu. Vzhledem k rozsahu práce se touto problematikou dále nezabývám a podrobnˇejˇs´ı informace ke statistické teorii testován´ı hypotéz lze naj´ıt v publikac´ıch [10] a [14].

2.3 Logistick´ y regresn´ı model

Dále se budeme vˇenovat logistickému regresn´ımu modelu. Základn´ım rozd´ılem mezi lineárn´ım a logistickým regresn´ım modelem spoˇc´ıvá typech promˇenných. Logis-tický, na rozd´ıl od lineárn´ıho pracuje s kategoriáln´ı závislou promˇennou. Napˇr´ıklad pˇr´ıtomnost/nepˇr´ıtomnost choroby, existence atd.. Odhaduje m´ıru pravdˇepodobnosti, ˇze dané nezávislé promˇenné x1, . . . , xn budou zaˇrazené do urˇcité kategorie. Z hlediska data miningu patˇr´ı logistická regrese ke klasifikaˇcn´ım metodám[6].

Podle závislé promˇenné se rozliˇsuje logistická regrese na:

• binárn´ı (dichotomická) - nebývá pouze dvou hodnot, napˇr. ano/ne, 1/0,

• ordináln´ı - závislá promˇenná nabývá v´ıce hodnot, mezi kterými existuje pˇrirozené uspoˇrádan´ı,

• (multi) nomináln´ı - závislá promˇenná nabývá v´ıce neˇz dvou hodnot, mezi kterými existuje pouze odliˇsnost, to znamená, ˇze je nelze ˇradit, napˇr. rasy, náboˇzenstv´ı atd..

V logistickém regresn´ım modelu je tˇreba urˇcit, z jakou pravdˇepodobnost´ı nastane jev Y, jestliˇze nabývá hodnot 0 =⇒ jev nenastal a 1 =⇒ jev nastal. Lineárn´ı regresn´ı model nelze pouˇz´ıt z d˚uvodu, ˇze c´ılová promˇenná je kategoriáln´ıho typu.

Z rovnice (2.35) je patrné, ˇze na levé stranˇe jsou pouze dvˇe hodnoty 0 a 1 (m˚uˇze být i v´ıce kategori´ı), zat´ımco pravá strana rovnice nabývá libovolných hodnot.

Ybi = bβ1+ bβ2Xi (2.35)

Z tˇechto d˚uvod˚u vyuˇzijme logistickou funkci:

f(x) = 1

1 + e⁻^x. (2.36)

Obr´azek 2.8: Logistick´a funkce

Obrázek funkce (viz obr. 2.8) zobrazuje, ˇze nabývá hodnot pouze v intervalu (0, 1).

Nyn´ı tedy definujeme logistickou regresn´ı funkci jako:

P( bYi = 1|Xⁱ = xi) = 1

1 + e⁻^(c^β¹^+c^β²^xⁱ⁾. (2.37) Pro odhady koeficient˚u bβ₁ a bβ₂ pouˇzijeme metodu maxim´aln´ı vˇerohodnosti.

2.3.1 Metoda maxim´ aln´ı vˇ erohodnosti

Tato metoda patˇr´ı ke skupinˇe základn´ıch metod bodových odhad˚u. Jedn´ım z prvn´ıch pojm˚u, které je tˇreba definovat je tzv. vˇerohodnostn´ı funkce.

Necht’ X = (X1, . . . , Xn) je náhodný výbˇer a x = (xi, . . . , xn) je jeho realizace.

Dále necht’ je populace (náhodný výbˇer) popsána pomoc´ı urˇcitého rozdˇelen´ı f (x, Θ), kde θ je neznámý parametr. Potom funkci 2.38 nazveme vˇerohodnostn´ı funkc´ı[15].

L(x, θ) = L(x1, . . . , xn, θ) = f (x1, θ)f (x2, θ), . . . f (xn, θ) = Yn

f(xi,Θ). (2.38)

Metoda maximáln´ı vˇerohodnosti spoˇc´ıvá v tom, ˇze za odhad neznámého pa-rametru (neznámých parametr˚u) zvol´ı hodnota bθ, která pˇri daných hodnotách maximalizuje funkci vˇerohodnosti. Za pˇredpokladu, ˇze existuje bod bθ z paramet-rického prostoru, takový, ˇze pro vˇsechny hodnoty parametru bθ z parametrického prostoru plat´ı: L(X, θ) ≤ L(X, bθ), potom nazveme tento bod maximálnˇe vˇerohodným odhadem neznámého parametru bθ[6]. Dále pro jednoduchost budeme psát pouze tvar L(θ). ˇCasto je výhodnˇejˇs´ı pouˇz´ıt m´ısto vˇerohodnostn´ı funkce jej´ı logaritmický tvar:

l(θ) = lnL(θ). (2.39)

Tuto úpravu m˚uˇzeme pouˇz´ıt z d˚uvodu, ˇze logaritmická funkce je monotónn´ı, tj. má-li funkce L(θ) maximum v bodˇe bθM L má v tomtéˇz bodˇe maximum i funkce lnL(θ)[6].

Pro nalezen´ı maxima bθM L pouˇzijeme metodu z matematické analýzy a to hledán´ı extrém˚u funkce l(θ). Provedeme parciáln´ı derivaci podle parametru θ. T´ım z´ıskáme systém vˇerohodnostn´ıch rovnic:

tedy, ˇze Hessova matice H(bθ) je negativnˇe definitn´ı[6].

2.3.2 Odhad koeficient˚ u u logistick´ eho regresn´ıho modelu

Pro urˇcen´ı koeficient˚u budeme postupovat podle výˇse uvedené metody maximáln´ı vˇerohodnosti. Mˇejme náhodný výbˇer Y1, . . . , Yn alternativn´ıho rozdˇelen´ı A(ϑ), 0 <

Vˇerohodnostn´ı funkce je poté ve tvaru: Pouˇzijeme logaritmickou vˇerohodnostn´ı funkci (2.40), pomoc´ı které z násoben´ı dostaneme sˇc´ıtán´ı: Jedná se o soustavu nelineárn´ıch rovnic o dvou neznámých. ˇReˇsen´ım tˇechto rovnic jsou koeficienty β1 a β2. Toto ˇreˇsen´ı nelze nalézt v algebraickém tvaru, proto se hledá numericky napˇr´ıklad pomoc´ı Newtonovy-Raphsonovy metody. V´ıce k numerickým metodám viz publikace[12].

2.4 V´ıcerozmˇ ern´ y line´ arn´ı regresn´ı model

V této kapitole se budeme vˇenovat rozˇs´ıˇren´ı lineárn´ıho regresn´ıho modelu pro n vysvˇetluj´ıc promˇenných, tedy X1. . . , Xn. V praxi se budeme s t´ımto typem regresn´ıho modelu setkávat mnohem ˇcastˇeji, neˇz s jednoduchou lineárn´ı regres´ı,

In document Regresn´ı analýza v data miningových úlohách (Page 16-0)