• No results found

2.1.2 Z´ akladn´ı n´ astroje pro anal´ yzu dat

Tato kapitola se vˇenuje z´akladn´ım n´astroj˚um pro anal´yzu dat, pomoc´ı kter´ych m˚uˇzeme reprezentovat dan´y v´ybˇerov´y soubor.

Rozdˇelen´ı ˇcetnost´ı

Cetnost je veliˇcina, kter´a ud´av´a kolikr´at se dan´a hodnota statistick´eho znaku vysky-ˇ tuje ve statistick´e souboru. Uvaˇzujeme-li statistick´y znak ve tvaru x1, x2, ..., xn, kde nje rozsah statistick´eho souboru a celkov´y poˇcet r˚uzn´ych hodnot znaku x je k ≤ n[10].

Absolutn´ı ˇcetnost hodnoty znaku xj je poˇcet statistick´ych jednotek, kter´e maj´ı stejnou hodnotu znaku xj pro j = 1, 2..., k.

Xk i=1

nj = n (2.2)

Relativn´ı ˇcetnost hodnoty znaku xj je pod´ıl absolutn´ı ˇcetnosti a rozsahu souboru, nejˇcastˇeji se vyjadˇruje v procentech, oznaˇcuje se jako vj a jejich souˇcet je jedna (v pˇr´ıpadˇe procent 100)(viz rovnice 2.3). V´yhodu relativn´ı ˇcetnosti je, ˇze pomoc´ı n´ı

m˚uˇzeme porovn´avat dva v´ybˇerov´eho soubory s rozd´ıln´ymi rozsahy[10].

Xk i=1

vj = 1. (2.3)

Kumulativn´ı absolutn´ı ˇcetnost vyjadˇruje souˇcet vˇsech pˇredch´azej´ıc´ıch absolutn´ıch ˇcetnost´ı. Umoˇzˇnuje zjistit kolik hodnot je menˇs´ıch neˇz zadan´e ˇc´ıslo.

Kumulativn´ı relativn´ı ˇcetnost umoˇzˇnuje zjistit procento hodnot menˇs´ıch neˇz zadan´e ˇc´ıslo. Vypoˇcteme jej vydˇelen´ım pˇr´ısluˇsn´e absolutn´ı kumulativn´ı ˇcetnosti s rozsahem souboru, nebo seˇcten´ım relativn´ıch ˇcetnost´ı v intervalech, jejichˇz horn´ı hranice je menˇs´ı neˇz zadan´e ˇc´ıslo.

Intervalov´e rozdˇelen´ı ˇcetnost´ı - kategorizace

Toto rozdˇelen´ı rozdˇeluje statistick´y soubor na intervaly, kter´ym ˇr´ık´ame tˇr´ıdy. Pouˇz´ıv´a se zejm´ena v pˇr´ıpadech, kdy m´ame pˇr´ıliˇs mnoho variant znak˚u, napˇr´ıklad u spojit´ych hodnot, jako je v´yˇska osob nebo pˇr´ıjem. Pouˇzit´ım tohoto rozdˇelen´ı zv´yˇs´ıme pˇrehlednost statistick´eho souboru. Pˇri vytv´aˇren´ı interval˚u je tˇreba dodrˇzovat urˇcit´e pravidla[10].

Poˇcet tˇr´ıd rozdˇelen´ı – k odpov´ıd´a:

• Odmocninov´emu pravidlu k =√ n,

• Sturgesovu pravidlu k = 1 + 3, 3 log n.

Pro urˇcen´ı ˇs´ıˇrky (poˇctu prvk˚u) intervalu existuje nˇekolik metod. Jednou z nich je pod´ıl rozd´ılu maxim´aln´ı a minim´aln´ı hodnoty v´ybˇerov´e souboru a poˇctu tˇr´ıd.

i= M AX− MIN

k (2.4)

Mezi dalˇs´ı metody ˇrad´ıme urˇcen´ı ˇs´ıˇrky intervalu pomoc´ı Kvantil˚u. Rozdˇeluj´ı statistick´y soubor na ˇc´asti, v z´avislosti na tom, kolika procentn´ı kvantil je pouˇzit.

Znaˇc´ı se xp, kde p jsou procenta v intervalu < 0, 100 >.

Nejpouˇz´ıvanˇejˇs´ı kvantily jsou:

• Medi´an - x50,

• Kvartily - x25, x50, x75 ,

• Decily - x10, x20. . . , x90,

• Percentily - x1, x2, . . . , x99.

Kategorizaci ˇc´ıseln´e promˇenn´e zejm´ena v data miningov´ych ˇreˇsen´ıch lze prov´est mnoha dalˇs´ımi postupy. Napˇr´ıklad algoritmy pro kategorizaci s respektem k c´ılov´e predikovan´e hodnotˇe.

Charakteristiky statistick´eho souboru

Pˇri statistick´e anal´yze je ˇcasto tˇreba porovn´avat nˇekolik statistick´ych soubor˚u. Z to-hoto d˚uvodu se pouˇz´ıvaj´ı charakteristiky. Charakterizuj´ı z´akladn´ı rysy zkouman´eho statistick´eho souboru[10].

Existuje nˇekolik z´akladn´ıch charakteristik:

• Polohy

• Variability

• Tvaru

• Kovariance

Charakteristika polohy

Pˇredstavuje r˚uzn´e druhy stˇredn´ıch hodnot v´ybˇerov´eho souboru. Obecnˇe oznaˇcujeme stˇredn´ı hodnotu jako E[X] = x = µ.

Z´akladn´ı m´ırou polohy je Aritmetick´y pr˚umˇer. Rozliˇsujeme pr˚umˇer pro z´akladn´ı a v´ybˇerov´y soubor[10].

• Aritmetick´y pr˚umˇer pro z´akladn´ı soubor:

µ= PN

i=1xi

N . (2.5)

• Aritmetick´y pr˚umˇer pro v´ybˇerov´y soubor:

x= Pn

i=1xi

n . (2.6)

• V´aˇzen´y aritmetick´y pr˚umˇer - je zvl´aˇstn´ım pˇr´ıpadem v´yˇse zm´ınˇen´eho, kde ni jsou v´ahy (ˇcetnosti) jednotliv´ych hodnot xi. Nejˇcastˇeji to jsou poˇcty v´yskyt˚u hodnoty xi ve v´ybˇerov´em souboru.

x= K aritmetick´emu pr˚umˇeru se v´aˇze nˇekolik vlastnost´ı:

• Aritmetick´y pr˚umˇer konstanty je konstanta.

• Pˇriˇcten´ım, odeˇcten´ım, vyn´asoben´ım nebo vydˇelen´ım vˇsech hodnot znaku nenu-lovou konstantou se odpov´ıdaj´ıc´ım zp˚usobem zmˇen´ı tak´e aritmetick´y pr˚umˇer.

• Vyn´asob´ım-li vˇsechny v´ahy nenulovou konstantou, tak se pr˚umˇer nezmˇen´ı.

Kromˇe aritmetick´eho pr˚umˇeru existuj´ı dalˇs´ı, kter´e se pouˇz´ıvaj´ı ve speci´aln´ıch pˇr´ıpadech (viz tabulka 2.1).

K v´ypoˇctu koeficient˚u r˚ustu nebo ˇretˇezov´ych index˚u.

Je pouˇzit v pˇr´ıpadˇe, ˇze jsou udaje zatˇr´ıdˇeny dle ˇcetnost´ı, nebo maj´ı uzn´e hodnoty r˚uznou v´ahu.

Harmonick´y pr˚umˇer

pro mˇeˇren´ı ´urovnˇe pomˇern´ych ˇc´ısel (rychlost, v´ykon, produktivita

Je pouˇzit v pˇr´ıpadˇe, ˇze jsou udaje zatˇr´ıdˇeny dle ˇcetnost´ı, nebo maj´ı uzn´e hodnoty r˚uznou v´ahu.

Kvadratick´y pr˚umˇer

xK= r Pn

i=1x2i n

Pˇri v´ypoˇctu stˇredn´ı kvadratick´e od-chylky.

Je pouˇzit v pˇr´ıpadˇe, ˇze jsou udaje zatˇr´ıdˇeny dle ˇcetnost´ı, nebo maj´ı uzn´e hodnoty r˚uznou v´ahu.

Tabulka 2.1: Seznam typ˚u pr˚umˇer˚u

Plat´ı, ˇze x ≤ xG ≤ xH ≤ xK

. Mezi dalˇs´ı stˇredn´ı hodnoty se ˇrad´ı tak´e:

• Medi´an – hodnota, kter´a je ve stˇredu statistick´eho souboru za pˇredpokladu, ˇze je seˇrazen´y.

• Modus – hodnota z nejvyˇsˇs´ı ˇcetnost´ı znaku.

Charakteristika variability

Charakteristika variability ud´av´a, jak se liˇs´ı hodnoty znak˚u prvk˚u od zvolen´e charak-teristiky polohy (pr˚umˇeru). ˇRad´ıme mezi nˇe variaˇcn´ı rozpˇet´ı, pr˚umˇernou absolutn´ı odchylky, rozptyl, smˇerodatnou odchylku a variaˇcn´ı koeficient. Plat´ı, ˇze ˇc´ım vyˇsˇs´ı je variabilita hodnot znaku, t´ım niˇzˇs´ı je vypov´ıdac´ı schopnost charakteristiky polohy (pr˚umˇeru atd.)[10].

Nejpouˇz´ıvanˇejˇs´ı charakteristikou variability je rozptyl. Znaˇc´ı se tak´e jako var(X)

= D(X) = E(X − E(X))2 = σ2. Je definov´an jako pr˚umˇer kvadr´at˚u odchylek jednotliv´ych znak˚u xi od jejich aritmetick´eho pr˚umˇeru x [10].

Stejnˇe jako u pr˚umˇeru rozliˇsujeme rozptyl z´akladn´ıho souboru a v´ybˇerov´eho souboru.

Rozptyl z´akladn´ı souboru:

σ2 = var(X) = PN

i=1(xi− µ)2

N . (2.8)

Rozptyl v´ybˇerov´eho souboru:

Sx2 = var(X) = Pn

i=1(xi− x)2

n− 1 , (2.9)

kde ve jmenovateli v´yraz n − 1, oznaˇcuje poˇcet stupˇn˚u volnosti v´ybˇerov´eho souboru.

Pouˇzit´ım v´yrazu n−1 m´ısto velikosti souboru n doc´ıl´ıme pˇresnˇejˇs´ıho odhadu skuteˇcn´e hodnoty populaˇcn´ıho rozptylu, zejm´ena pˇri v´ypoˇctu na z´akladˇe mal´ych v´ybˇerov´ych soubor˚u[10].

K rozptylu se v´aˇze nˇekolik vlastnost´ı:

• Rozptyl konstanty je nula.

• Pˇriˇcteme-li ke vˇsem hodnot´am znaku stejnou konstantu =⇒ rozptyl se nezmˇen´ı.

• Vyn´asob´ıme-li kaˇzdou hodnotu znaku stejnou konstantou =⇒ rozptyl bude jej´ı n´asobek .

• Rozptyl souˇctu nebo rozd´ılu dvou znak˚u je roven souˇctu rozptyl˚u obou znak˚u zvˇetˇsen´em/zmenˇsen´em o dvojn´asobek kovariance: Sz2 = Sx2+ Sy2± Sxy.

Vzhledem k uˇzit´ı kvadr´at zav´ad´ıme smˇerodatnou odchylku, kter´a je definov´ana jako:

Sx =p

Sx2. (2.10)

Casto je tˇreba porovn´avat statistick´e soubory a m˚ˇ uˇze se st´at, ˇze znaky nejsou ve stejn´ych jednotk´ach nebo maj´ı nestejnou velikost. V takov´ych pˇr´ıpadech vyuˇz´ıv´ame charakteristiku relativn´ı variability. Mezi ni ˇrad´ıme variaˇcn´ı koeficient. Oznaˇcujeme ho Vx. A vypoˇc´ıt´a se jako pod´ıl smˇerodatn´e odchylky a pr˚umˇeru v´ybˇerov´eho souboru[10]:

Vx = Sx

x . (2.11)

Charakteristika tvaru

Mˇeˇr´ı odchylku v rozloˇzen´ıˇcetnost´ı hodnot znak˚u oproti dan´emu referenˇcn´ımu rozdˇelen´ı ˇcetnost´ı (obvykle norm´aln´ımu)[10]. Skl´ad´a se ze dvou sloˇzek:

• Asymetrie (ˇSikmosti) – ud´av´a symetrick´e/asymetrick´e rozloˇzen´ı hodnot kolem pr˚umˇer.

A= Pn

i=1(xi− x)3

nS3 (2.12)

Obr´azek 2.2: Charakteristiky asymetrie

• ˇSpiˇcatosti – porovn´av´a ˇcetnost hodnoty znak˚u kolem pr˚umˇeru.

E = Pn

i=1(xi− x)4

nS4 (2.13)

Obr´azek 2.3: Charakteristiky ˇspiˇcatosti

Kovariance

Charakterizuje, jak se dva znaky x a y statistick´eho souboru vz´ajemnˇe ovlivˇnuj´ı.

Znaˇc´ı se jako cov(X; Y ), nebo Sxy[10] a vypoˇc´ıt´ame ji jako:.

Sxy = 1 n

Xn i=1

(xi− x)(yi− y) = xy − x y.

Pokud Sxy > 0 znak x roste (kles´a), tak roste (kles´a) y, napˇr. vztah mezi v´yˇskou a v´ahou ˇclovˇeka.

Pokud Sxy <0 znak x roste (kles´a), tak y kles´a (roste), napˇr. vztah mezi hloubkou dez´enu pneumatiky a brzdnou dr´ahou automobilu.

Plat´ı, ˇze ˇc´ım vyˇsˇs´ı je kovariance, t´ım v´ıce se znaky navz´ajem mˇen´ı. Naopak ale nulov´a kovariance Sxy = 0 nemus´ı nutnˇe znamenat, ˇze mezi znaky neexistuje z´avislost. Jen se nemus´ı jednat o line´arn´ı z´avislost, ale napˇr´ıklad o kvadratickou.

Korelace

Korelace oznaˇcuje m´ıru z´avislosti dvou znak˚u x a y. ˇRekneme, ˇze dvˇe promˇenn´e jsou korelovan´e jestliˇze hodnoty jedn´e promˇenn´e maj´ı tendenci vyskytovat se spoleˇcnˇe s hodnotami druh´e promˇenn´e[10]. Pro zmˇeˇren´ı m´ıry korelace je navrˇzena ˇrada koeficient˚u, kter´e se liˇs´ı podle typ˚u promˇenn´ych a vlastnostmi. Pˇri zkoum´an´ı vztah˚u korelace je d˚uleˇzit´y kvalitativn´ı rozbor dat. Jinak ˇreˇceno, nem´a smysl hledat z´avislost tam, kde na z´akladˇe logick´e ´uvahy nem˚uˇze existovat.

Jedn´ım z nejpouˇz´ıvanˇejˇs´ıch koeficient˚u je Pearson˚uv korelaˇcn´ı koeficient. Oznaˇcuje se jako rxy a spoˇc´ıt´a se jako pod´ıl kovariance Sxy a n´asobku smˇerodatn´ych odchylek Sx

a Sy.

rxy = Sxy

SxSy

. (2.14)

2.2 Jednoduch´ y line´ arn´ı regresn´ı model

Tato kapitola se bude zab´yvat jednoduch´ym line´arn´ım regresn´ım modelem. Tedy, kdy z´avisl´a (vysvˇetlovan´a) promˇenn´a Y je line´arn´ım vztahem pouze jedn´e nez´avisl´e (vysvˇetluj´ıc´ı) promˇenn´e X. Pomoc´ı regresn´ıho modelu hled´ame line´arn´ı vztah mezi

promˇennou Y a X[9].

Prvn´ı dva pojmy, kter´ymi se budeme zab´yvat jsou deterministick´a a stochastick´a populaˇcn´ı regresn´ı funkce, d´ale jen PRF. Deterministick´a PRF spojuje oˇcek´avan´e hodnoty vysvˇetlovan´e promˇenn´e Yi pro dan´a Xi a je d´ana vztahem:

E(Yi|Xi) = β1+ β2Xi, i= 1, 2, . . . , n, (2.15) kde parametry β1 je absolutn´ı ˇclen a β2 definuje sklon regresn´ı kˇrivky.

Tyto modely nejsou pˇr´ıliˇs ˇcast´e, protoˇze existuj´ı dalˇs´ı vlivy na vysvˇetlovanou promˇennou Yi resp. n´ahodn´e sloˇzky, kter´e do regresn´ıho modelu vn´aˇs´ı urˇcitou chybu.

Zanesen´ım t´eto chyby do modelu zadefinujeme stochastickou PRF. Je definovan´a jako:

E(Yi|Xi) = β1+ β2Xi+ ui, i= 1, 2, . . . , n, (2.16) kde ui je n´ahodn´a sloˇzka, tj. chyba, zanesen´a zanedb´an´ım nˇekter´ych vliv˚u a dalˇs´ıch chyb, napˇr´ıklad z mˇeˇren´ı.

Jak jiˇz bylo v´yˇse zm´ınˇeno, obvykle se nest´av´a, ˇze bychom mˇeli k dispozici data za celou populaci (z´akladn´ı soubor), tud´ıˇz jej nahrazujeme v´ybˇerov´ymi soubory.

Naz´yv´ame ji v´ybˇerov´a regresn´ı funkce, d´ale VRF. Je snaha o to, aby VRF konvergo-vala k PRF. N´asleduj´ıc´ı tabulka 2.3 shrnuje zmiˇnovan´e funkce.

Deterministick´a forma Stochastick´a forma Populaˇcn´ı

regresn´ı

funkce E(Yi|Xi) = Yi= β1+ β2Xi E(Yi|Xi) = Yi= β1+ β2Xi+ ui

ybˇerov´a regresn´ı funkce

b

Yi= cβ1+ cβ2Xi Ybi = cβ1+ cβ2Xi+ubi

Tabulka 2.3: Forma z´apisu populaˇcn´ı a v´ybˇerov´e regresn´ı funkce Symboly

”b“ nad promˇenn´ymi a parametry vyjadˇruj´ı odhad pro v´ybˇerov´y soubor.

To znamen´a, ˇze bYi je odhad pro Yi, bβ1 a bβ2 jsou odhady regresn´ıch parametr˚u, aubi pˇredstavuje rezidu´aln´ı sloˇzku, coˇz je odhad stochastick´e n´ahodn´e sloˇzky ui[9].

Existuje nˇekolik metod pro odhad parametr˚u regresn´ıho modelu:

• metoda nejmenˇs´ıch ˇctverc˚u (MN ˇC),

• metodu maxim´aln´ı vˇerohodnosti (ML),

• metoda moment˚u,

• zobecnˇen´a metoda moment˚u.

Tato pr´ace se zamˇeˇruje na prvn´ı z uveden´ych metod, o druh´e metodˇe se zmiˇnuje v souvislosti s logistickou regresn´ı anal´yzou.

2.2.1 Metoda nejmenˇ s´ıch ˇ ctverc˚ u

Tato metoda byla zavedena, nˇemeck´ym matematike, Carlem Friedrichem Gaussem.

Jedn´a se metodu zjiˇstˇen´ı parametr˚u bβ1 a bβ2 v´ybˇerov´e regresn´ı funkce:

Yi = bβ1+ bβ2Xi+ubi = bYi+ubi, i= 1, 2, . . . , n, (2.17) kde v´yvoj promˇenn´e Yi je determinov´an zmˇenami Xi a tvar kˇrivky je urˇcen regresn´ımi parametry β12[9]. Metoda proloˇz´ı pˇr´ımku jednotliv´ymi hodnotami znak˚u, jak zobrazuje obr´azek 2.4.

Obr´azek 2.4: Princip metody nejmenˇs´ıch ˇctverc˚u

D´ale vyj´adˇr´ıme z rovnice 2.17 rezidu´aln´ı sloˇzkuubi: b

ui = Yi− bYi = Yi− bβ1+ bβ2Xi = f ( bβ1, bβ2). (2.18) Z rovnice 2.18 je zˇrejm´e, ˇze rezidu´aln´ı sloˇzka je funkc´ı regresn´ıch parametr˚u. Obr´azek 2.4 ukazuje, ˇze rezidu´aln´ı sloˇzka ubi m˚uˇze b´yt kladn´a i z´aporn´a. Z tˇechto d˚uvod˚u je tˇreba pouˇz´ıt souˇcet ˇctverc˚u rezidu´aln´ıch odchylek. A tedy z´akladem metody nejmenˇs´ıch ˇctverc˚u je minimalizace tohoto souˇctu[9]:

Xn i=1

b ui2

= f ( bβ1, bβ2). (2.19)

Pro nalezen´ı minima funkce se pouˇzije metoda z matematick´e anal´yzy – hled´an´ı extr´emu funkce. Funkce 2.19 se parci´alnˇe zderivuje podle parametr˚u β1 a β2 a jed-notliv´e derivace poloˇz´ıme rovny nule:

δ(P b ui2) δ bβ1

= 2X

(−1)(Yi− bβ1− bβ2Xi) = 0, δ(P

b ui2

)

δ bβ2 = 2X

(−Xi)(Yi− bβ1− bβ2Xi) = 0. (2.20) Upravou obou tˇechto rovnic z´ısk´ame 2 rovnice o dvou nezn´am´´ ych parametrech:

XYi = n bβ1 + bβ2

XXi, XYiXi = bβ1X

Xi+ bβ2X

Xi2. (2.21)

Jej´ım vyˇreˇsen´ım obdrˇz´ıme odhady obou regresn´ıch parametr˚u:

2.2.2 Vlastnosti odhadov´ e funkce nejmenˇ s´ıch ˇ ctverc˚ u

Pomoc´ı metody nejmenˇs´ıch ˇctverc˚u byl proveden bodov´y odhad 1 parametr˚u bβ1

a bβ2 dan´eho v´ybˇerov´eho souboru. Za pˇredpokladu dalˇs´ıch nez´avisl´ych v´ybˇerov´ych soubor˚u se z´ısk´a v´ybˇerov´e rozdˇelen´ı hodnot odhad˚u parametr˚u, a pot´e na jej´ım z´akladˇe doch´az´ı k odhadu parametr˚u β1 a β2 z´akladn´ıho souboru[9].

Odhadov´a funkce m´a tyto vlastnosti:

• nestrannost,

• vydatnost (eficience),

• konzistence.

Nestrannost je vlastnost odhadov´e funkce bβk, kter´a ˇr´ık´a, ˇze stˇredn´ı hodnota bodov´eho regresn´ıho parametru je rovna populaˇcn´ımu regresn´ımu parametru:

E( bβk) = βk. (2.23)

Tuto vlastnost zobrazuje obr´azku 2.5, kde odhadov´a funkce cβk (zelen´a) je vych´ylen´a v˚uˇci odhadu bβk.

Dalˇs´ı z vlastnost´ı je vydatnost (eficience). Naˇse odhadov´a funkce bβk je efici-entn´ı v˚uˇci jin´e t´ehoˇz cβk∗∗ (modr´a), jestliˇze nem´a vˇetˇs´ı rozptyl. Vlastnost zobrazuje obr´azek 2.5. Z nˇeho vypl´yv´a, ˇze odhadov´a funkce bβk je z dan´e tˇr´ıdy odhadov´ych funkc´ı s nejmenˇs´ım rozptylem. Obˇe tyto vlastnosti zkoum´ame zejm´ena na menˇs´ıch v´ybˇerov´ych souborech[9].

1nezn´am´y parametr z´akladn´ıho souboru odhadujeme pomoc´ı jedin´eho ˇc´ısla

Obr´azek 2.5: Nevych´ylen´e a eficientn´ı rozdˇelen´ı parametr˚u bβk

Pro rozs´ahl´e soubory testujeme vlastnosti konzistence. Odhadov´a funkce bβk je konzistentn´ı s odhadovou funkc´ı βk pro n limitnˇe rostouc´ı do nekoneˇcna, kde se n rovn´a rozsahu v´ybˇerov´eho souboru, jestliˇze je:

• asymptoticky nestrann´a:

n→∞lim E( bβk) = βk, (2.24)

• s rostouc´ı hodnotou n parametr bβkkonverguje ke skuteˇcn´e hodnotˇe odhadnut´eho parametru βk:

n→∞lim βbk = βk. (2.25)

Obr´azek 2.6 zobrazuje tˇri odhadov´e funkce βk, βk, βk∗∗, kde s rostouc´ım rozsahem v´ybˇerov´eho souboru n roste konzistence.

Obr´azek 2.6: Konzistentn´ı rozdˇelen´ı parametr˚u bβk

2.2.3 Pˇredpoklady pro pouˇ zit´ı metody nejmenˇ s´ıch ˇ ctverc˚ u

Vlastnosti odhadov´e funkce zmiˇnovan´e v kapitole 2.2.2 jsou splnˇeny za nˇekolika pˇredpoklad˚u. Tato kapitola zkoum´a tyto pˇredpoklady a v tomto pˇr´ıpadˇe se zamˇeˇruje pouze na jednoduch´y line´arn´ı regresn´ı model[9]. Tyto pˇredpoklady jsou d´ale zobecnˇeny pro v´ıcerozmˇern´y line´arn´ı regresn´ı model v kapitole 2.4.2.

• P1: Line´arn´ı regresn´ı model Yi = β1+ β2Xi+ ui je line´arn´ı v parametrech.

• P2: Hodnoty Xi jsou fixn´ı.

• P3: Stˇredn´ı hodnota n´ahodn´e sloˇzky je nulov´a E(ui|Xi) = 0

• P4: Pro kaˇzdou i-tou skupinu bude platit, ˇze variabilita n´ahodn´e sloˇzky bude rovna σ2. Tento pˇredpoklad se tak´e naz´yv´a homoskedasticita =⇒ nemˇen´ı se rozptyl n´ahodn´e sloˇzky v jednotliv´ych skupin´ach. Opakem je heteroskedasticita

=⇒ rozptyl se mˇen´ı, napˇr. zvyˇsuje se s rostouc´ımi hodnotami Xi.

var(ui|Xi) = D(ui|Xi) = E(ui− E(ui|Xi))2 = E(u2i|Xi) = σ2 (2.26)

• P5: N´ahodn´a sloˇzka z r˚uzn´ych skupin nen´ı s´eriovˇe z´avisl´a (korelovan´a). V pˇr´ıpadˇe opaku mluv´ıme o s´eriov´e korelaci (autokorelaci) n´ahodn´e sloˇzky, kter´a pak je pozitivn´ı nebo negativn´ı.

cov(ui; uj|Xi; Xj) = E{[ui− E(ui)]|Xi}{[uj − E(uj)]|Xj} =

= E{ui|Xi}{uj|Xj} = 0 pro i 6= j (2.27)

• P6: Dalˇs´ım pˇredpokladem je nulov´a kovariance mezi n´ahodnou sloˇzkou ui a Xi. Tento pˇredpoklad z´aroveˇn vyjadˇruje, ˇze PRF m˚uˇzeme rozdˇelit na dvˇe aditivn´ı ˇc´asti tzn. na ˇc´ast deterministick´e regrese a stochastick´e regrese s n´ahodnou sloˇzkou.

cov(ui; Xi) = E[ui− E(ui)(Xi− E(Xi))] =E[ui(Xi− E(Xi))] =

= E(uiXi) − E(Xi)E(ui) = E(ui, Xi) = 0 (2.28)

• P7: Poˇcet pozorov´an´ı |X| = n mus´ı b´yt vˇetˇs´ı, jak poˇcet parametr˚u regresn´ıho modelu. U jednoduch´eho regresn´ıho modelu plat´ı n > 2.

• P8: N´ahodn´a sloˇzka m´a norm´aln´ı rozdˇelen´ı ui ∼ N(0; σ2).

2.2.4 Koeficient determinace

Koeficient determinace je jedna z veliˇcin pro hodnocen´ı regresn´ı anal´yzy[9]. Pro jeho vymezen´ı je tˇreba definovat nˇekter´e z´akladn´ı pojmy. ´Upln´y souˇcet ˇctverc˚u (TSS) je souˇcet kvadr´at˚u rozd´ıl˚u pozorovan´e hodnoty vysvˇetlovan´e promˇenn´e a pr˚umˇern´e hodnoty:

T SS = Xn

i=1

(Yi− Y )2. (2.29)

Upln´´ y souˇcet ˇctverc˚u je moˇzn´e rozloˇzit na dvˇe sloˇzky:

• rezidu´aln´ı souˇcet ˇctverc˚u (RSS):

RSS = Xn

i=1

(Yi− bYi)2, (2.30)

• vysvˇetlen´y (regresn´ı) souˇcet ˇctverc˚u (ESS):

ESS = Xn

i=1

( bYi− Y )2. (2.31)

Pouˇzit´ım Pythagorovy vˇety plat´ı (viz obr´azek 2.7):

T SS = Xn

i=1

(Yi− Y )2 = Xn

i=1

(Yi− bYi)2+ Xn

i=1

( bYi− Y )2 = RSS + ESS. (2.32)

Obr´azek 2.7: Rozklad souˇctu ˇctverc˚u TSS

Koeficient determinace R2 je pot´e definov´an, jako pod´ıl vysvˇetlovan´eho souˇctu ˇctverc˚u a celkov´e souˇctu ˇctverc˚u:

R2 = ESS

T SS = T SS − RSS

T SS = 1 − RSS

T SS. (2.33)

Ud´av´a stupeˇn vysvˇetlen´ı z´avisl´e promˇenn´e Y naˇseho regresn´ıho modelu[9].

Hodnota R2 m´a nˇekolik vlastnost´ı:

• Nab´yv´a hodnoty v intervalu < 0, 1 >.

• Pokud R2 = 1, vˇsechna v´ybˇerov´a pozorov´an´ı leˇz´ı pˇr´ımo na vyrovnan´e regresn´ı pˇr´ımce. Nejlepˇs´ı moˇzn´a moˇznost.

• Pokud R2 = 0, tak ani jedno pozorov´an´ı neleˇz´ı na regresn´ı pˇr´ımce a nepodaˇrilo se n´am vysvˇetlit ˇz´adnou ˇc´ast vysvˇetlovan´e promˇenn´e. Regresn´ı model nem´a smysl.

Z koeficientu determinace lze odvodit koeficient korelace R vztahem 2.34:

R= ±√

R2. (2.34)

Vzhledem k tomu, ˇze s koeficientem determinace je spojeno nˇekolik probl´em˚u, kter´e spoˇc´ıvaj´ı v tom, ˇze adekv´atnˇe nereaguje na zmˇeny v poˇctu pozorov´an´ı a nezohledˇnuje rozˇs´ıˇren´ı poˇctu vysvˇetluj´ıc´ıch promˇenn´ych, tak se z tˇechto d˚uvodu pouˇz´ıv´a korigovan´y koeficient determinace[9].

2.2.5 Testov´ an´ı hypot´ ez o odhadnut´ ych regresn´ıch parametrech

Po vytvoˇren´ı jednoduch´eho regresn´ıho modelu metodou nejmenˇs´ıch ˇctverc˚u zaˇc´ın´a f´aze statistick´e verifikace a dalˇs´ıho testov´an´ı hypot´ez o odhadnut´ych parametrech i cel´eho modelu. Z´akladn´ı principy testov´an´ı hypot´ez lze shrnout do tˇr´ı z´akladn´ıch f´az´ı[9]:

• formulace nulov´e a alternativn´ı hypot´ezy(H0, HA),

• v´ypoˇcet testovac´ı statistiky,

• aplikace nebo pouˇzit´ı rozhodovac´ıho pravidla o pˇrijet´ı, nebo zam´ıtnut´ı nulov´e hypot´ezy pro stanovenou hladinu v´yznamnosti.

Toto testov´an´ı m˚uˇze prob´ıhat prostˇrednictv´ım oboustrann´eho resp. jednostrann´eho testu. Vzhledem k rozsahu pr´ace se touto problematikou d´ale nezab´yv´am a podrobnˇejˇs´ı informace ke statistick´e teorii testov´an´ı hypot´ez lze naj´ıt v publikac´ıch [10] a [14].

2.3 Logistick´ y regresn´ı model

D´ale se budeme vˇenovat logistick´emu regresn´ımu modelu. Z´akladn´ım rozd´ılem mezi line´arn´ım a logistick´ym regresn´ım modelem spoˇc´ıv´a typech promˇenn´ych. Logis-tick´y, na rozd´ıl od line´arn´ıho pracuje s kategori´aln´ı z´avislou promˇennou. Napˇr´ıklad pˇr´ıtomnost/nepˇr´ıtomnost choroby, existence atd.. Odhaduje m´ıru pravdˇepodobnosti, ˇze dan´e nez´avisl´e promˇenn´e x1, . . . , xn budou zaˇrazen´e do urˇcit´e kategorie. Z hlediska data miningu patˇr´ı logistick´a regrese ke klasifikaˇcn´ım metod´am[6].

Podle z´avisl´e promˇenn´e se rozliˇsuje logistick´a regrese na:

• bin´arn´ı (dichotomick´a) - neb´yv´a pouze dvou hodnot, napˇr. ano/ne, 1/0,

• ordin´aln´ı - z´avisl´a promˇenn´a nab´yv´a v´ıce hodnot, mezi kter´ymi existuje pˇrirozen´e uspoˇr´adan´ı,

• (multi) nomin´aln´ı - z´avisl´a promˇenn´a nab´yv´a v´ıce neˇz dvou hodnot, mezi kter´ymi existuje pouze odliˇsnost, to znamen´a, ˇze je nelze ˇradit, napˇr. rasy, n´aboˇzenstv´ı atd..

V logistick´em regresn´ım modelu je tˇreba urˇcit, z jakou pravdˇepodobnost´ı nastane jev Y, jestliˇze nab´yv´a hodnot 0 =⇒ jev nenastal a 1 =⇒ jev nastal. Line´arn´ı regresn´ı model nelze pouˇz´ıt z d˚uvodu, ˇze c´ılov´a promˇenn´a je kategori´aln´ıho typu.

Z rovnice (2.35) je patrn´e, ˇze na lev´e stranˇe jsou pouze dvˇe hodnoty 0 a 1 (m˚uˇze b´yt i v´ıce kategori´ı), zat´ımco prav´a strana rovnice nab´yv´a libovoln´ych hodnot.

Ybi = bβ1+ bβ2Xi (2.35)

Z tˇechto d˚uvod˚u vyuˇzijme logistickou funkci:

f(x) = 1

1 + ex. (2.36)

Obr´azek 2.8: Logistick´a funkce

Obr´azek funkce (viz obr. 2.8) zobrazuje, ˇze nab´yv´a hodnot pouze v intervalu (0, 1).

Nyn´ı tedy definujeme logistickou regresn´ı funkci jako:

P( bYi = 1|Xi = xi) = 1

1 + e(cβ1+cβ2xi). (2.37) Pro odhady koeficient˚u bβ1 a bβ2 pouˇzijeme metodu maxim´aln´ı vˇerohodnosti.

2.3.1 Metoda maxim´ aln´ı vˇ erohodnosti

Tato metoda patˇr´ı ke skupinˇe z´akladn´ıch metod bodov´ych odhad˚u. Jedn´ım z prvn´ıch pojm˚u, kter´e je tˇreba definovat je tzv. vˇerohodnostn´ı funkce.

Necht’ X = (X1, . . . , Xn) je n´ahodn´y v´ybˇer a x = (xi, . . . , xn) je jeho realizace.

D´ale necht’ je populace (n´ahodn´y v´ybˇer) pops´ana pomoc´ı urˇcit´eho rozdˇelen´ı f (x, Θ), kde θ je nezn´am´y parametr. Potom funkci 2.38 nazveme vˇerohodnostn´ı funkc´ı[15].

L(x, θ) = L(x1, . . . , xn, θ) = f (x1, θ)f (x2, θ), . . . f (xn, θ) = Yn

f(xi,Θ). (2.38)

Metoda maxim´aln´ı vˇerohodnosti spoˇc´ıv´a v tom, ˇze za odhad nezn´am´eho pa-rametru (nezn´am´ych parametr˚u) zvol´ı hodnota bθ, kter´a pˇri dan´ych hodnot´ach maximalizuje funkci vˇerohodnosti. Za pˇredpokladu, ˇze existuje bod bθ z paramet-rick´eho prostoru, takov´y, ˇze pro vˇsechny hodnoty parametru bθ z parametrick´eho prostoru plat´ı: L(X, θ) ≤ L(X, bθ), potom nazveme tento bod maxim´alnˇe vˇerohodn´ym odhadem nezn´am´eho parametru bθ[6]. D´ale pro jednoduchost budeme ps´at pouze tvar L(θ). ˇCasto je v´yhodnˇejˇs´ı pouˇz´ıt m´ısto vˇerohodnostn´ı funkce jej´ı logaritmick´y tvar:

l(θ) = lnL(θ). (2.39)

Tuto ´upravu m˚uˇzeme pouˇz´ıt z d˚uvodu, ˇze logaritmick´a funkce je monot´onn´ı, tj. m´a-li funkce L(θ) maximum v bodˇe bθM L m´a v tomt´eˇz bodˇe maximum i funkce lnL(θ)[6].

Pro nalezen´ı maxima bθM L pouˇzijeme metodu z matematick´e anal´yzy a to hled´an´ı extr´em˚u funkce l(θ). Provedeme parci´aln´ı derivaci podle parametru θ. T´ım z´ısk´ame syst´em vˇerohodnostn´ıch rovnic:

tedy, ˇze Hessova matice H(bθ) je negativnˇe definitn´ı[6].

2.3.2 Odhad koeficient˚ u u logistick´ eho regresn´ıho modelu

Pro urˇcen´ı koeficient˚u budeme postupovat podle v´yˇse uveden´e metody maxim´aln´ı vˇerohodnosti. Mˇejme n´ahodn´y v´ybˇer Y1, . . . , Yn alternativn´ıho rozdˇelen´ı A(ϑ), 0 <

Vˇerohodnostn´ı funkce je pot´e ve tvaru: Pouˇzijeme logaritmickou vˇerohodnostn´ı funkci (2.40), pomoc´ı kter´e z n´asoben´ı dostaneme sˇc´ıt´an´ı: Jedn´a se o soustavu neline´arn´ıch rovnic o dvou nezn´am´ych. ˇReˇsen´ım tˇechto rovnic jsou koeficienty β1 a β2. Toto ˇreˇsen´ı nelze nal´ezt v algebraick´em tvaru, proto se hled´a numericky napˇr´ıklad pomoc´ı Newtonovy-Raphsonovy metody. V´ıce k numerick´ym metod´am viz publikace[12].

2.4 V´ıcerozmˇ ern´ y line´ arn´ı regresn´ı model

V t´eto kapitole se budeme vˇenovat rozˇs´ıˇren´ı line´arn´ıho regresn´ıho modelu pro n vysvˇetluj´ıc promˇenn´ych, tedy X1. . . , Xn. V praxi se budeme s t´ımto typem regresn´ıho modelu setk´avat mnohem ˇcastˇeji, neˇz s jednoduchou line´arn´ı regres´ı,

V t´eto kapitole se budeme vˇenovat rozˇs´ıˇren´ı line´arn´ıho regresn´ıho modelu pro n vysvˇetluj´ıc promˇenn´ych, tedy X1. . . , Xn. V praxi se budeme s t´ımto typem regresn´ıho modelu setk´avat mnohem ˇcastˇeji, neˇz s jednoduchou line´arn´ı regres´ı,

Related documents