2.1.2 Z´ akladn´ı n´ astroje pro anal´ yzu dat
Tato kapitola se vˇenuje z´akladn´ım n´astroj˚um pro anal´yzu dat, pomoc´ı kter´ych m˚uˇzeme reprezentovat dan´y v´ybˇerov´y soubor.
Rozdˇelen´ı ˇcetnost´ı
Cetnost je veliˇcina, kter´a ud´av´a kolikr´at se dan´a hodnota statistick´eho znaku vysky-ˇ tuje ve statistick´e souboru. Uvaˇzujeme-li statistick´y znak ve tvaru x1, x2, ..., xn, kde nje rozsah statistick´eho souboru a celkov´y poˇcet r˚uzn´ych hodnot znaku x je k ≤ n[10].
Absolutn´ı ˇcetnost hodnoty znaku xj je poˇcet statistick´ych jednotek, kter´e maj´ı stejnou hodnotu znaku xj pro j = 1, 2..., k.
Xk i=1
nj = n (2.2)
Relativn´ı ˇcetnost hodnoty znaku xj je pod´ıl absolutn´ı ˇcetnosti a rozsahu souboru, nejˇcastˇeji se vyjadˇruje v procentech, oznaˇcuje se jako vj a jejich souˇcet je jedna (v pˇr´ıpadˇe procent 100)(viz rovnice 2.3). V´yhodu relativn´ı ˇcetnosti je, ˇze pomoc´ı n´ı
m˚uˇzeme porovn´avat dva v´ybˇerov´eho soubory s rozd´ıln´ymi rozsahy[10].
Xk i=1
vj = 1. (2.3)
Kumulativn´ı absolutn´ı ˇcetnost vyjadˇruje souˇcet vˇsech pˇredch´azej´ıc´ıch absolutn´ıch ˇcetnost´ı. Umoˇzˇnuje zjistit kolik hodnot je menˇs´ıch neˇz zadan´e ˇc´ıslo.
Kumulativn´ı relativn´ı ˇcetnost umoˇzˇnuje zjistit procento hodnot menˇs´ıch neˇz zadan´e ˇc´ıslo. Vypoˇcteme jej vydˇelen´ım pˇr´ısluˇsn´e absolutn´ı kumulativn´ı ˇcetnosti s rozsahem souboru, nebo seˇcten´ım relativn´ıch ˇcetnost´ı v intervalech, jejichˇz horn´ı hranice je menˇs´ı neˇz zadan´e ˇc´ıslo.
Intervalov´e rozdˇelen´ı ˇcetnost´ı - kategorizace
Toto rozdˇelen´ı rozdˇeluje statistick´y soubor na intervaly, kter´ym ˇr´ık´ame tˇr´ıdy. Pouˇz´ıv´a se zejm´ena v pˇr´ıpadech, kdy m´ame pˇr´ıliˇs mnoho variant znak˚u, napˇr´ıklad u spojit´ych hodnot, jako je v´yˇska osob nebo pˇr´ıjem. Pouˇzit´ım tohoto rozdˇelen´ı zv´yˇs´ıme pˇrehlednost statistick´eho souboru. Pˇri vytv´aˇren´ı interval˚u je tˇreba dodrˇzovat urˇcit´e pravidla[10].
Poˇcet tˇr´ıd rozdˇelen´ı – k odpov´ıd´a:
• Odmocninov´emu pravidlu k =√ n,
• Sturgesovu pravidlu k = 1 + 3, 3 log n.
Pro urˇcen´ı ˇs´ıˇrky (poˇctu prvk˚u) intervalu existuje nˇekolik metod. Jednou z nich je pod´ıl rozd´ılu maxim´aln´ı a minim´aln´ı hodnoty v´ybˇerov´e souboru a poˇctu tˇr´ıd.
i= M AX− MIN
k (2.4)
Mezi dalˇs´ı metody ˇrad´ıme urˇcen´ı ˇs´ıˇrky intervalu pomoc´ı Kvantil˚u. Rozdˇeluj´ı statistick´y soubor na ˇc´asti, v z´avislosti na tom, kolika procentn´ı kvantil je pouˇzit.
Znaˇc´ı se xp, kde p jsou procenta v intervalu < 0, 100 >.
Nejpouˇz´ıvanˇejˇs´ı kvantily jsou:
• Medi´an - x50,
• Kvartily - x25, x50, x75 ,
• Decily - x10, x20. . . , x90,
• Percentily - x1, x2, . . . , x99.
Kategorizaci ˇc´ıseln´e promˇenn´e zejm´ena v data miningov´ych ˇreˇsen´ıch lze prov´est mnoha dalˇs´ımi postupy. Napˇr´ıklad algoritmy pro kategorizaci s respektem k c´ılov´e predikovan´e hodnotˇe.
Charakteristiky statistick´eho souboru
Pˇri statistick´e anal´yze je ˇcasto tˇreba porovn´avat nˇekolik statistick´ych soubor˚u. Z to-hoto d˚uvodu se pouˇz´ıvaj´ı charakteristiky. Charakterizuj´ı z´akladn´ı rysy zkouman´eho statistick´eho souboru[10].
Existuje nˇekolik z´akladn´ıch charakteristik:
• Polohy
• Variability
• Tvaru
• Kovariance
Charakteristika polohy
Pˇredstavuje r˚uzn´e druhy stˇredn´ıch hodnot v´ybˇerov´eho souboru. Obecnˇe oznaˇcujeme stˇredn´ı hodnotu jako E[X] = x = µ.
Z´akladn´ı m´ırou polohy je Aritmetick´y pr˚umˇer. Rozliˇsujeme pr˚umˇer pro z´akladn´ı a v´ybˇerov´y soubor[10].
• Aritmetick´y pr˚umˇer pro z´akladn´ı soubor:
µ= PN
i=1xi
N . (2.5)
• Aritmetick´y pr˚umˇer pro v´ybˇerov´y soubor:
x= Pn
i=1xi
n . (2.6)
• V´aˇzen´y aritmetick´y pr˚umˇer - je zvl´aˇstn´ım pˇr´ıpadem v´yˇse zm´ınˇen´eho, kde ni jsou v´ahy (ˇcetnosti) jednotliv´ych hodnot xi. Nejˇcastˇeji to jsou poˇcty v´yskyt˚u hodnoty xi ve v´ybˇerov´em souboru.
x= K aritmetick´emu pr˚umˇeru se v´aˇze nˇekolik vlastnost´ı:
• Aritmetick´y pr˚umˇer konstanty je konstanta.
• Pˇriˇcten´ım, odeˇcten´ım, vyn´asoben´ım nebo vydˇelen´ım vˇsech hodnot znaku nenu-lovou konstantou se odpov´ıdaj´ıc´ım zp˚usobem zmˇen´ı tak´e aritmetick´y pr˚umˇer.
• Vyn´asob´ım-li vˇsechny v´ahy nenulovou konstantou, tak se pr˚umˇer nezmˇen´ı.
Kromˇe aritmetick´eho pr˚umˇeru existuj´ı dalˇs´ı, kter´e se pouˇz´ıvaj´ı ve speci´aln´ıch pˇr´ıpadech (viz tabulka 2.1).
K v´ypoˇctu koeficient˚u r˚ustu nebo ˇretˇezov´ych index˚u.
Je pouˇzit v pˇr´ıpadˇe, ˇze jsou udaje zatˇr´ıdˇeny dle ˇcetnost´ı, nebo maj´ı r˚uzn´e hodnoty r˚uznou v´ahu.
Harmonick´y pr˚umˇer
pro mˇeˇren´ı ´urovnˇe pomˇern´ych ˇc´ısel (rychlost, v´ykon, produktivita
Je pouˇzit v pˇr´ıpadˇe, ˇze jsou udaje zatˇr´ıdˇeny dle ˇcetnost´ı, nebo maj´ı r˚uzn´e hodnoty r˚uznou v´ahu.
Kvadratick´y pr˚umˇer
xK= r Pn
i=1x2i n
Pˇri v´ypoˇctu stˇredn´ı kvadratick´e od-chylky.
Je pouˇzit v pˇr´ıpadˇe, ˇze jsou udaje zatˇr´ıdˇeny dle ˇcetnost´ı, nebo maj´ı r˚uzn´e hodnoty r˚uznou v´ahu.
Tabulka 2.1: Seznam typ˚u pr˚umˇer˚u
Plat´ı, ˇze x ≤ xG ≤ xH ≤ xK
. Mezi dalˇs´ı stˇredn´ı hodnoty se ˇrad´ı tak´e:
• Medi´an – hodnota, kter´a je ve stˇredu statistick´eho souboru za pˇredpokladu, ˇze je seˇrazen´y.
• Modus – hodnota z nejvyˇsˇs´ı ˇcetnost´ı znaku.
Charakteristika variability
Charakteristika variability ud´av´a, jak se liˇs´ı hodnoty znak˚u prvk˚u od zvolen´e charak-teristiky polohy (pr˚umˇeru). ˇRad´ıme mezi nˇe variaˇcn´ı rozpˇet´ı, pr˚umˇernou absolutn´ı odchylky, rozptyl, smˇerodatnou odchylku a variaˇcn´ı koeficient. Plat´ı, ˇze ˇc´ım vyˇsˇs´ı je variabilita hodnot znaku, t´ım niˇzˇs´ı je vypov´ıdac´ı schopnost charakteristiky polohy (pr˚umˇeru atd.)[10].
Nejpouˇz´ıvanˇejˇs´ı charakteristikou variability je rozptyl. Znaˇc´ı se tak´e jako var(X)
= D(X) = E(X − E(X))2 = σ2. Je definov´an jako pr˚umˇer kvadr´at˚u odchylek jednotliv´ych znak˚u xi od jejich aritmetick´eho pr˚umˇeru x [10].
Stejnˇe jako u pr˚umˇeru rozliˇsujeme rozptyl z´akladn´ıho souboru a v´ybˇerov´eho souboru.
Rozptyl z´akladn´ı souboru:
σ2 = var(X) = PN
i=1(xi− µ)2
N . (2.8)
Rozptyl v´ybˇerov´eho souboru:
Sx2 = var(X) = Pn
i=1(xi− x)2
n− 1 , (2.9)
kde ve jmenovateli v´yraz n − 1, oznaˇcuje poˇcet stupˇn˚u volnosti v´ybˇerov´eho souboru.
Pouˇzit´ım v´yrazu n−1 m´ısto velikosti souboru n doc´ıl´ıme pˇresnˇejˇs´ıho odhadu skuteˇcn´e hodnoty populaˇcn´ıho rozptylu, zejm´ena pˇri v´ypoˇctu na z´akladˇe mal´ych v´ybˇerov´ych soubor˚u[10].
K rozptylu se v´aˇze nˇekolik vlastnost´ı:
• Rozptyl konstanty je nula.
• Pˇriˇcteme-li ke vˇsem hodnot´am znaku stejnou konstantu =⇒ rozptyl se nezmˇen´ı.
• Vyn´asob´ıme-li kaˇzdou hodnotu znaku stejnou konstantou =⇒ rozptyl bude jej´ı n´asobek .
• Rozptyl souˇctu nebo rozd´ılu dvou znak˚u je roven souˇctu rozptyl˚u obou znak˚u zvˇetˇsen´em/zmenˇsen´em o dvojn´asobek kovariance: Sz2 = Sx2+ Sy2± Sxy.
Vzhledem k uˇzit´ı kvadr´at zav´ad´ıme smˇerodatnou odchylku, kter´a je definov´ana jako:
Sx =p
Sx2. (2.10)
Casto je tˇreba porovn´avat statistick´e soubory a m˚ˇ uˇze se st´at, ˇze znaky nejsou ve stejn´ych jednotk´ach nebo maj´ı nestejnou velikost. V takov´ych pˇr´ıpadech vyuˇz´ıv´ame charakteristiku relativn´ı variability. Mezi ni ˇrad´ıme variaˇcn´ı koeficient. Oznaˇcujeme ho Vx. A vypoˇc´ıt´a se jako pod´ıl smˇerodatn´e odchylky a pr˚umˇeru v´ybˇerov´eho souboru[10]:
Vx = Sx
x . (2.11)
Charakteristika tvaru
Mˇeˇr´ı odchylku v rozloˇzen´ıˇcetnost´ı hodnot znak˚u oproti dan´emu referenˇcn´ımu rozdˇelen´ı ˇcetnost´ı (obvykle norm´aln´ımu)[10]. Skl´ad´a se ze dvou sloˇzek:
• Asymetrie (ˇSikmosti) – ud´av´a symetrick´e/asymetrick´e rozloˇzen´ı hodnot kolem pr˚umˇer.
A= Pn
i=1(xi− x)3
nS3 (2.12)
Obr´azek 2.2: Charakteristiky asymetrie
• ˇSpiˇcatosti – porovn´av´a ˇcetnost hodnoty znak˚u kolem pr˚umˇeru.
E = Pn
i=1(xi− x)4
nS4 (2.13)
Obr´azek 2.3: Charakteristiky ˇspiˇcatosti
Kovariance
Charakterizuje, jak se dva znaky x a y statistick´eho souboru vz´ajemnˇe ovlivˇnuj´ı.
Znaˇc´ı se jako cov(X; Y ), nebo Sxy[10] a vypoˇc´ıt´ame ji jako:.
Sxy = 1 n
Xn i=1
(xi− x)(yi− y) = xy − x y.
Pokud Sxy > 0 znak x roste (kles´a), tak roste (kles´a) y, napˇr. vztah mezi v´yˇskou a v´ahou ˇclovˇeka.
Pokud Sxy <0 znak x roste (kles´a), tak y kles´a (roste), napˇr. vztah mezi hloubkou dez´enu pneumatiky a brzdnou dr´ahou automobilu.
Plat´ı, ˇze ˇc´ım vyˇsˇs´ı je kovariance, t´ım v´ıce se znaky navz´ajem mˇen´ı. Naopak ale nulov´a kovariance Sxy = 0 nemus´ı nutnˇe znamenat, ˇze mezi znaky neexistuje z´avislost. Jen se nemus´ı jednat o line´arn´ı z´avislost, ale napˇr´ıklad o kvadratickou.
Korelace
Korelace oznaˇcuje m´ıru z´avislosti dvou znak˚u x a y. ˇRekneme, ˇze dvˇe promˇenn´e jsou korelovan´e jestliˇze hodnoty jedn´e promˇenn´e maj´ı tendenci vyskytovat se spoleˇcnˇe s hodnotami druh´e promˇenn´e[10]. Pro zmˇeˇren´ı m´ıry korelace je navrˇzena ˇrada koeficient˚u, kter´e se liˇs´ı podle typ˚u promˇenn´ych a vlastnostmi. Pˇri zkoum´an´ı vztah˚u korelace je d˚uleˇzit´y kvalitativn´ı rozbor dat. Jinak ˇreˇceno, nem´a smysl hledat z´avislost tam, kde na z´akladˇe logick´e ´uvahy nem˚uˇze existovat.
Jedn´ım z nejpouˇz´ıvanˇejˇs´ıch koeficient˚u je Pearson˚uv korelaˇcn´ı koeficient. Oznaˇcuje se jako rxy a spoˇc´ıt´a se jako pod´ıl kovariance Sxy a n´asobku smˇerodatn´ych odchylek Sx
a Sy.
rxy = Sxy
SxSy
. (2.14)
2.2 Jednoduch´ y line´ arn´ı regresn´ı model
Tato kapitola se bude zab´yvat jednoduch´ym line´arn´ım regresn´ım modelem. Tedy, kdy z´avisl´a (vysvˇetlovan´a) promˇenn´a Y je line´arn´ım vztahem pouze jedn´e nez´avisl´e (vysvˇetluj´ıc´ı) promˇenn´e X. Pomoc´ı regresn´ıho modelu hled´ame line´arn´ı vztah mezi
promˇennou Y a X[9].
Prvn´ı dva pojmy, kter´ymi se budeme zab´yvat jsou deterministick´a a stochastick´a populaˇcn´ı regresn´ı funkce, d´ale jen PRF. Deterministick´a PRF spojuje oˇcek´avan´e hodnoty vysvˇetlovan´e promˇenn´e Yi pro dan´a Xi a je d´ana vztahem:
E(Yi|Xi) = β1+ β2Xi, i= 1, 2, . . . , n, (2.15) kde parametry β1 je absolutn´ı ˇclen a β2 definuje sklon regresn´ı kˇrivky.
Tyto modely nejsou pˇr´ıliˇs ˇcast´e, protoˇze existuj´ı dalˇs´ı vlivy na vysvˇetlovanou promˇennou Yi resp. n´ahodn´e sloˇzky, kter´e do regresn´ıho modelu vn´aˇs´ı urˇcitou chybu.
Zanesen´ım t´eto chyby do modelu zadefinujeme stochastickou PRF. Je definovan´a jako:
E(Yi|Xi) = β1+ β2Xi+ ui, i= 1, 2, . . . , n, (2.16) kde ui je n´ahodn´a sloˇzka, tj. chyba, zanesen´a zanedb´an´ım nˇekter´ych vliv˚u a dalˇs´ıch chyb, napˇr´ıklad z mˇeˇren´ı.
Jak jiˇz bylo v´yˇse zm´ınˇeno, obvykle se nest´av´a, ˇze bychom mˇeli k dispozici data za celou populaci (z´akladn´ı soubor), tud´ıˇz jej nahrazujeme v´ybˇerov´ymi soubory.
Naz´yv´ame ji v´ybˇerov´a regresn´ı funkce, d´ale VRF. Je snaha o to, aby VRF konvergo-vala k PRF. N´asleduj´ıc´ı tabulka 2.3 shrnuje zmiˇnovan´e funkce.
Deterministick´a forma Stochastick´a forma Populaˇcn´ı
regresn´ı
funkce E(Yi|Xi) = Yi= β1+ β2Xi E(Yi|Xi) = Yi= β1+ β2Xi+ ui
V´ybˇerov´a regresn´ı funkce
b
Yi= cβ1+ cβ2Xi Ybi = cβ1+ cβ2Xi+ubi
Tabulka 2.3: Forma z´apisu populaˇcn´ı a v´ybˇerov´e regresn´ı funkce Symboly
”b“ nad promˇenn´ymi a parametry vyjadˇruj´ı odhad pro v´ybˇerov´y soubor.
To znamen´a, ˇze bYi je odhad pro Yi, bβ1 a bβ2 jsou odhady regresn´ıch parametr˚u, aubi pˇredstavuje rezidu´aln´ı sloˇzku, coˇz je odhad stochastick´e n´ahodn´e sloˇzky ui[9].
Existuje nˇekolik metod pro odhad parametr˚u regresn´ıho modelu:
• metoda nejmenˇs´ıch ˇctverc˚u (MN ˇC),
• metodu maxim´aln´ı vˇerohodnosti (ML),
• metoda moment˚u,
• zobecnˇen´a metoda moment˚u.
Tato pr´ace se zamˇeˇruje na prvn´ı z uveden´ych metod, o druh´e metodˇe se zmiˇnuje v souvislosti s logistickou regresn´ı anal´yzou.
2.2.1 Metoda nejmenˇ s´ıch ˇ ctverc˚ u
Tato metoda byla zavedena, nˇemeck´ym matematike, Carlem Friedrichem Gaussem.
Jedn´a se metodu zjiˇstˇen´ı parametr˚u bβ1 a bβ2 v´ybˇerov´e regresn´ı funkce:
Yi = bβ1+ bβ2Xi+ubi = bYi+ubi, i= 1, 2, . . . , n, (2.17) kde v´yvoj promˇenn´e Yi je determinov´an zmˇenami Xi a tvar kˇrivky je urˇcen regresn´ımi parametry β1 aβ2[9]. Metoda proloˇz´ı pˇr´ımku jednotliv´ymi hodnotami znak˚u, jak zobrazuje obr´azek 2.4.
Obr´azek 2.4: Princip metody nejmenˇs´ıch ˇctverc˚u
D´ale vyj´adˇr´ıme z rovnice 2.17 rezidu´aln´ı sloˇzkuubi: b
ui = Yi− bYi = Yi− bβ1+ bβ2Xi = f ( bβ1, bβ2). (2.18) Z rovnice 2.18 je zˇrejm´e, ˇze rezidu´aln´ı sloˇzka je funkc´ı regresn´ıch parametr˚u. Obr´azek 2.4 ukazuje, ˇze rezidu´aln´ı sloˇzka ubi m˚uˇze b´yt kladn´a i z´aporn´a. Z tˇechto d˚uvod˚u je tˇreba pouˇz´ıt souˇcet ˇctverc˚u rezidu´aln´ıch odchylek. A tedy z´akladem metody nejmenˇs´ıch ˇctverc˚u je minimalizace tohoto souˇctu[9]:
Xn i=1
b ui2
= f ( bβ1, bβ2). (2.19)
Pro nalezen´ı minima funkce se pouˇzije metoda z matematick´e anal´yzy – hled´an´ı extr´emu funkce. Funkce 2.19 se parci´alnˇe zderivuje podle parametr˚u β1 a β2 a jed-notliv´e derivace poloˇz´ıme rovny nule:
δ(P b ui2) δ bβ1
= 2X
(−1)(Yi− bβ1− bβ2Xi) = 0, δ(P
b ui2
)
δ bβ2 = 2X
(−Xi)(Yi− bβ1− bβ2Xi) = 0. (2.20) Upravou obou tˇechto rovnic z´ısk´ame 2 rovnice o dvou nezn´am´´ ych parametrech:
XYi = n bβ1 + bβ2
XXi, XYiXi = bβ1X
Xi+ bβ2X
Xi2. (2.21)
Jej´ım vyˇreˇsen´ım obdrˇz´ıme odhady obou regresn´ıch parametr˚u:
2.2.2 Vlastnosti odhadov´ e funkce nejmenˇ s´ıch ˇ ctverc˚ u
Pomoc´ı metody nejmenˇs´ıch ˇctverc˚u byl proveden bodov´y odhad 1 parametr˚u bβ1
a bβ2 dan´eho v´ybˇerov´eho souboru. Za pˇredpokladu dalˇs´ıch nez´avisl´ych v´ybˇerov´ych soubor˚u se z´ısk´a v´ybˇerov´e rozdˇelen´ı hodnot odhad˚u parametr˚u, a pot´e na jej´ım z´akladˇe doch´az´ı k odhadu parametr˚u β1 a β2 z´akladn´ıho souboru[9].
Odhadov´a funkce m´a tyto vlastnosti:
• nestrannost,
• vydatnost (eficience),
• konzistence.
Nestrannost je vlastnost odhadov´e funkce bβk, kter´a ˇr´ık´a, ˇze stˇredn´ı hodnota bodov´eho regresn´ıho parametru je rovna populaˇcn´ımu regresn´ımu parametru:
E( bβk) = βk. (2.23)
Tuto vlastnost zobrazuje obr´azku 2.5, kde odhadov´a funkce cβk∗ (zelen´a) je vych´ylen´a v˚uˇci odhadu bβk.
Dalˇs´ı z vlastnost´ı je vydatnost (eficience). Naˇse odhadov´a funkce bβk je efici-entn´ı v˚uˇci jin´e t´ehoˇz cβk∗∗ (modr´a), jestliˇze nem´a vˇetˇs´ı rozptyl. Vlastnost zobrazuje obr´azek 2.5. Z nˇeho vypl´yv´a, ˇze odhadov´a funkce bβk je z dan´e tˇr´ıdy odhadov´ych funkc´ı s nejmenˇs´ım rozptylem. Obˇe tyto vlastnosti zkoum´ame zejm´ena na menˇs´ıch v´ybˇerov´ych souborech[9].
1nezn´am´y parametr z´akladn´ıho souboru odhadujeme pomoc´ı jedin´eho ˇc´ısla
Obr´azek 2.5: Nevych´ylen´e a eficientn´ı rozdˇelen´ı parametr˚u bβk
Pro rozs´ahl´e soubory testujeme vlastnosti konzistence. Odhadov´a funkce bβk je konzistentn´ı s odhadovou funkc´ı βk pro n limitnˇe rostouc´ı do nekoneˇcna, kde se n rovn´a rozsahu v´ybˇerov´eho souboru, jestliˇze je:
• asymptoticky nestrann´a:
n→∞lim E( bβk) = βk, (2.24)
• s rostouc´ı hodnotou n parametr bβkkonverguje ke skuteˇcn´e hodnotˇe odhadnut´eho parametru βk:
n→∞lim βbk = βk. (2.25)
Obr´azek 2.6 zobrazuje tˇri odhadov´e funkce βk, βk∗, βk∗∗, kde s rostouc´ım rozsahem v´ybˇerov´eho souboru n roste konzistence.
Obr´azek 2.6: Konzistentn´ı rozdˇelen´ı parametr˚u bβk
2.2.3 Pˇredpoklady pro pouˇ zit´ı metody nejmenˇ s´ıch ˇ ctverc˚ u
Vlastnosti odhadov´e funkce zmiˇnovan´e v kapitole 2.2.2 jsou splnˇeny za nˇekolika pˇredpoklad˚u. Tato kapitola zkoum´a tyto pˇredpoklady a v tomto pˇr´ıpadˇe se zamˇeˇruje pouze na jednoduch´y line´arn´ı regresn´ı model[9]. Tyto pˇredpoklady jsou d´ale zobecnˇeny pro v´ıcerozmˇern´y line´arn´ı regresn´ı model v kapitole 2.4.2.
• P1: Line´arn´ı regresn´ı model Yi = β1+ β2Xi+ ui je line´arn´ı v parametrech.
• P2: Hodnoty Xi jsou fixn´ı.
• P3: Stˇredn´ı hodnota n´ahodn´e sloˇzky je nulov´a E(ui|Xi) = 0
• P4: Pro kaˇzdou i-tou skupinu bude platit, ˇze variabilita n´ahodn´e sloˇzky bude rovna σ2. Tento pˇredpoklad se tak´e naz´yv´a homoskedasticita =⇒ nemˇen´ı se rozptyl n´ahodn´e sloˇzky v jednotliv´ych skupin´ach. Opakem je heteroskedasticita
=⇒ rozptyl se mˇen´ı, napˇr. zvyˇsuje se s rostouc´ımi hodnotami Xi.
var(ui|Xi) = D(ui|Xi) = E(ui− E(ui|Xi))2 = E(u2i|Xi) = σ2 (2.26)
• P5: N´ahodn´a sloˇzka z r˚uzn´ych skupin nen´ı s´eriovˇe z´avisl´a (korelovan´a). V pˇr´ıpadˇe opaku mluv´ıme o s´eriov´e korelaci (autokorelaci) n´ahodn´e sloˇzky, kter´a pak je pozitivn´ı nebo negativn´ı.
cov(ui; uj|Xi; Xj) = E{[ui− E(ui)]|Xi}{[uj − E(uj)]|Xj} =
= E{ui|Xi}{uj|Xj} = 0 pro i 6= j (2.27)
• P6: Dalˇs´ım pˇredpokladem je nulov´a kovariance mezi n´ahodnou sloˇzkou ui a Xi. Tento pˇredpoklad z´aroveˇn vyjadˇruje, ˇze PRF m˚uˇzeme rozdˇelit na dvˇe aditivn´ı ˇc´asti tzn. na ˇc´ast deterministick´e regrese a stochastick´e regrese s n´ahodnou sloˇzkou.
cov(ui; Xi) = E[ui− E(ui)(Xi− E(Xi))] =E[ui(Xi− E(Xi))] =
= E(uiXi) − E(Xi)E(ui) = E(ui, Xi) = 0 (2.28)
• P7: Poˇcet pozorov´an´ı |X| = n mus´ı b´yt vˇetˇs´ı, jak poˇcet parametr˚u regresn´ıho modelu. U jednoduch´eho regresn´ıho modelu plat´ı n > 2.
• P8: N´ahodn´a sloˇzka m´a norm´aln´ı rozdˇelen´ı ui ∼ N(0; σ2).
2.2.4 Koeficient determinace
Koeficient determinace je jedna z veliˇcin pro hodnocen´ı regresn´ı anal´yzy[9]. Pro jeho vymezen´ı je tˇreba definovat nˇekter´e z´akladn´ı pojmy. ´Upln´y souˇcet ˇctverc˚u (TSS) je souˇcet kvadr´at˚u rozd´ıl˚u pozorovan´e hodnoty vysvˇetlovan´e promˇenn´e a pr˚umˇern´e hodnoty:
T SS = Xn
i=1
(Yi− Y )2. (2.29)
Upln´´ y souˇcet ˇctverc˚u je moˇzn´e rozloˇzit na dvˇe sloˇzky:
• rezidu´aln´ı souˇcet ˇctverc˚u (RSS):
RSS = Xn
i=1
(Yi− bYi)2, (2.30)
• vysvˇetlen´y (regresn´ı) souˇcet ˇctverc˚u (ESS):
ESS = Xn
i=1
( bYi− Y )2. (2.31)
Pouˇzit´ım Pythagorovy vˇety plat´ı (viz obr´azek 2.7):
T SS = Xn
i=1
(Yi− Y )2 = Xn
i=1
(Yi− bYi)2+ Xn
i=1
( bYi− Y )2 = RSS + ESS. (2.32)
Obr´azek 2.7: Rozklad souˇctu ˇctverc˚u TSS
Koeficient determinace R2 je pot´e definov´an, jako pod´ıl vysvˇetlovan´eho souˇctu ˇctverc˚u a celkov´e souˇctu ˇctverc˚u:
R2 = ESS
T SS = T SS − RSS
T SS = 1 − RSS
T SS. (2.33)
Ud´av´a stupeˇn vysvˇetlen´ı z´avisl´e promˇenn´e Y naˇseho regresn´ıho modelu[9].
Hodnota R2 m´a nˇekolik vlastnost´ı:
• Nab´yv´a hodnoty v intervalu < 0, 1 >.
• Pokud R2 = 1, vˇsechna v´ybˇerov´a pozorov´an´ı leˇz´ı pˇr´ımo na vyrovnan´e regresn´ı pˇr´ımce. Nejlepˇs´ı moˇzn´a moˇznost.
• Pokud R2 = 0, tak ani jedno pozorov´an´ı neleˇz´ı na regresn´ı pˇr´ımce a nepodaˇrilo se n´am vysvˇetlit ˇz´adnou ˇc´ast vysvˇetlovan´e promˇenn´e. Regresn´ı model nem´a smysl.
Z koeficientu determinace lze odvodit koeficient korelace R vztahem 2.34:
R= ±√
R2. (2.34)
Vzhledem k tomu, ˇze s koeficientem determinace je spojeno nˇekolik probl´em˚u, kter´e spoˇc´ıvaj´ı v tom, ˇze adekv´atnˇe nereaguje na zmˇeny v poˇctu pozorov´an´ı a nezohledˇnuje rozˇs´ıˇren´ı poˇctu vysvˇetluj´ıc´ıch promˇenn´ych, tak se z tˇechto d˚uvodu pouˇz´ıv´a korigovan´y koeficient determinace[9].
2.2.5 Testov´ an´ı hypot´ ez o odhadnut´ ych regresn´ıch parametrech
Po vytvoˇren´ı jednoduch´eho regresn´ıho modelu metodou nejmenˇs´ıch ˇctverc˚u zaˇc´ın´a f´aze statistick´e verifikace a dalˇs´ıho testov´an´ı hypot´ez o odhadnut´ych parametrech i cel´eho modelu. Z´akladn´ı principy testov´an´ı hypot´ez lze shrnout do tˇr´ı z´akladn´ıch f´az´ı[9]:
• formulace nulov´e a alternativn´ı hypot´ezy(H0, HA),
• v´ypoˇcet testovac´ı statistiky,
• aplikace nebo pouˇzit´ı rozhodovac´ıho pravidla o pˇrijet´ı, nebo zam´ıtnut´ı nulov´e hypot´ezy pro stanovenou hladinu v´yznamnosti.
Toto testov´an´ı m˚uˇze prob´ıhat prostˇrednictv´ım oboustrann´eho resp. jednostrann´eho testu. Vzhledem k rozsahu pr´ace se touto problematikou d´ale nezab´yv´am a podrobnˇejˇs´ı informace ke statistick´e teorii testov´an´ı hypot´ez lze naj´ıt v publikac´ıch [10] a [14].
2.3 Logistick´ y regresn´ı model
D´ale se budeme vˇenovat logistick´emu regresn´ımu modelu. Z´akladn´ım rozd´ılem mezi line´arn´ım a logistick´ym regresn´ım modelem spoˇc´ıv´a typech promˇenn´ych. Logis-tick´y, na rozd´ıl od line´arn´ıho pracuje s kategori´aln´ı z´avislou promˇennou. Napˇr´ıklad pˇr´ıtomnost/nepˇr´ıtomnost choroby, existence atd.. Odhaduje m´ıru pravdˇepodobnosti, ˇze dan´e nez´avisl´e promˇenn´e x1, . . . , xn budou zaˇrazen´e do urˇcit´e kategorie. Z hlediska data miningu patˇr´ı logistick´a regrese ke klasifikaˇcn´ım metod´am[6].
Podle z´avisl´e promˇenn´e se rozliˇsuje logistick´a regrese na:
• bin´arn´ı (dichotomick´a) - neb´yv´a pouze dvou hodnot, napˇr. ano/ne, 1/0,
• ordin´aln´ı - z´avisl´a promˇenn´a nab´yv´a v´ıce hodnot, mezi kter´ymi existuje pˇrirozen´e uspoˇr´adan´ı,
• (multi) nomin´aln´ı - z´avisl´a promˇenn´a nab´yv´a v´ıce neˇz dvou hodnot, mezi kter´ymi existuje pouze odliˇsnost, to znamen´a, ˇze je nelze ˇradit, napˇr. rasy, n´aboˇzenstv´ı atd..
V logistick´em regresn´ım modelu je tˇreba urˇcit, z jakou pravdˇepodobnost´ı nastane jev Y, jestliˇze nab´yv´a hodnot 0 =⇒ jev nenastal a 1 =⇒ jev nastal. Line´arn´ı regresn´ı model nelze pouˇz´ıt z d˚uvodu, ˇze c´ılov´a promˇenn´a je kategori´aln´ıho typu.
Z rovnice (2.35) je patrn´e, ˇze na lev´e stranˇe jsou pouze dvˇe hodnoty 0 a 1 (m˚uˇze b´yt i v´ıce kategori´ı), zat´ımco prav´a strana rovnice nab´yv´a libovoln´ych hodnot.
Ybi = bβ1+ bβ2Xi (2.35)
Z tˇechto d˚uvod˚u vyuˇzijme logistickou funkci:
f(x) = 1
1 + e−x. (2.36)
Obr´azek 2.8: Logistick´a funkce
Obr´azek funkce (viz obr. 2.8) zobrazuje, ˇze nab´yv´a hodnot pouze v intervalu (0, 1).
Nyn´ı tedy definujeme logistickou regresn´ı funkci jako:
P( bYi = 1|Xi = xi) = 1
1 + e−(cβ1+cβ2xi). (2.37) Pro odhady koeficient˚u bβ1 a bβ2 pouˇzijeme metodu maxim´aln´ı vˇerohodnosti.
2.3.1 Metoda maxim´ aln´ı vˇ erohodnosti
Tato metoda patˇr´ı ke skupinˇe z´akladn´ıch metod bodov´ych odhad˚u. Jedn´ım z prvn´ıch pojm˚u, kter´e je tˇreba definovat je tzv. vˇerohodnostn´ı funkce.
Necht’ X = (X1, . . . , Xn) je n´ahodn´y v´ybˇer a x = (xi, . . . , xn) je jeho realizace.
D´ale necht’ je populace (n´ahodn´y v´ybˇer) pops´ana pomoc´ı urˇcit´eho rozdˇelen´ı f (x, Θ), kde θ je nezn´am´y parametr. Potom funkci 2.38 nazveme vˇerohodnostn´ı funkc´ı[15].
L(x, θ) = L(x1, . . . , xn, θ) = f (x1, θ)f (x2, θ), . . . f (xn, θ) = Yn
f(xi,Θ). (2.38)
Metoda maxim´aln´ı vˇerohodnosti spoˇc´ıv´a v tom, ˇze za odhad nezn´am´eho pa-rametru (nezn´am´ych parametr˚u) zvol´ı hodnota bθ, kter´a pˇri dan´ych hodnot´ach maximalizuje funkci vˇerohodnosti. Za pˇredpokladu, ˇze existuje bod bθ z paramet-rick´eho prostoru, takov´y, ˇze pro vˇsechny hodnoty parametru bθ z parametrick´eho prostoru plat´ı: L(X, θ) ≤ L(X, bθ), potom nazveme tento bod maxim´alnˇe vˇerohodn´ym odhadem nezn´am´eho parametru bθ[6]. D´ale pro jednoduchost budeme ps´at pouze tvar L(θ). ˇCasto je v´yhodnˇejˇs´ı pouˇz´ıt m´ısto vˇerohodnostn´ı funkce jej´ı logaritmick´y tvar:
l(θ) = lnL(θ). (2.39)
Tuto ´upravu m˚uˇzeme pouˇz´ıt z d˚uvodu, ˇze logaritmick´a funkce je monot´onn´ı, tj. m´a-li funkce L(θ) maximum v bodˇe bθM L m´a v tomt´eˇz bodˇe maximum i funkce lnL(θ)[6].
Pro nalezen´ı maxima bθM L pouˇzijeme metodu z matematick´e anal´yzy a to hled´an´ı extr´em˚u funkce l(θ). Provedeme parci´aln´ı derivaci podle parametru θ. T´ım z´ısk´ame syst´em vˇerohodnostn´ıch rovnic:
tedy, ˇze Hessova matice H(bθ) je negativnˇe definitn´ı[6].
2.3.2 Odhad koeficient˚ u u logistick´ eho regresn´ıho modelu
Pro urˇcen´ı koeficient˚u budeme postupovat podle v´yˇse uveden´e metody maxim´aln´ı vˇerohodnosti. Mˇejme n´ahodn´y v´ybˇer Y1, . . . , Yn alternativn´ıho rozdˇelen´ı A(ϑ), 0 <
Vˇerohodnostn´ı funkce je pot´e ve tvaru: Pouˇzijeme logaritmickou vˇerohodnostn´ı funkci (2.40), pomoc´ı kter´e z n´asoben´ı dostaneme sˇc´ıt´an´ı: Jedn´a se o soustavu neline´arn´ıch rovnic o dvou nezn´am´ych. ˇReˇsen´ım tˇechto rovnic jsou koeficienty β1 a β2. Toto ˇreˇsen´ı nelze nal´ezt v algebraick´em tvaru, proto se hled´a numericky napˇr´ıklad pomoc´ı Newtonovy-Raphsonovy metody. V´ıce k numerick´ym metod´am viz publikace[12].
2.4 V´ıcerozmˇ ern´ y line´ arn´ı regresn´ı model
V t´eto kapitole se budeme vˇenovat rozˇs´ıˇren´ı line´arn´ıho regresn´ıho modelu pro n vysvˇetluj´ıc promˇenn´ych, tedy X1. . . , Xn. V praxi se budeme s t´ımto typem regresn´ıho modelu setk´avat mnohem ˇcastˇeji, neˇz s jednoduchou line´arn´ı regres´ı,
V t´eto kapitole se budeme vˇenovat rozˇs´ıˇren´ı line´arn´ıho regresn´ıho modelu pro n vysvˇetluj´ıc promˇenn´ych, tedy X1. . . , Xn. V praxi se budeme s t´ımto typem regresn´ıho modelu setk´avat mnohem ˇcastˇeji, neˇz s jednoduchou line´arn´ı regres´ı,