• No results found

Regresn´ı anal´yza v data miningov´ych ´uloh´ach

N/A
N/A
Protected

Academic year: 2022

Share "Regresn´ı anal´yza v data miningov´ych ´uloh´ach"

Copied!
73
0
0

Loading.... (view fulltext now)

Full text

(1)

Regresn´ı anal´ yza v data miningov´ ych ´ uloh´ ach

Diplomov´ a pr´ ace

Studijn´ı program: N2612 – Elektrotechnika a informatika Studijn´ı obor: 1802T007 – Informaˇcn´ı technologie Autor pr´ace: Bc. Tom´aˇs Kadleˇcek

Vedouc´ı pr´ace: RNDr. Kl´ara C´ısaˇrov´a, Ph.D.

(2)

Regression analysis in data mining tasks

Master thesis

Study programme: N2612 – Electrotechnology and informatics Study branch: 1802T007 – Information technology

Author: Bc. Tom´aˇs Kadleˇcek Supervisor: RNDr. Kl´ara C´ısaˇrov´a, Ph.D.

(3)
(4)
(5)
(6)

Abstrakt

Tato diplomov´a pr´ace se zab´yv´a problematikou regresn´ı anal´yzy v data miningov´ych ´uloh´ach a ekonometrick´ym modelov´an´ım. Jej´ım c´ılem je sezn´amit se z problematikou regresn´ı anal´yzy a jej´ı apli- kac´ı v pˇr´ıpadov´e studii. N´aslednˇe vysvˇetlit pojem ekonometrick´e modelov´an´ı a uv´est pˇr´ıklady jej´ı aplikace. V diplomov´e pr´aci byla vy- pracov´ana pˇr´ıpadov´a studie v programu IBM SPSS Modeler. Zab´yv´a se odhadem ceny nemovitosti. V´ysledkem m´e pr´ace je vypracovan´a pˇr´ıpadov´a studie s nasazen´ım line´arn´ıho regresn´ıho modelu. D´ale byla naprogramovan´a aplikace v prostˇred´ı Octave, kter´a umoˇzˇnuje vytvoˇrit vlastn´ı line´arn´ı regresn´ı model. V z´avˇeru pr´ace porovn´av´am v´ysledky regresn´ı statistiky proveden´e pomoc´ı programu Modeler a m´e aplikace v prostˇred´ı Octave. Porovn´an´ı je provedeno na nˇekolika r˚uzn´ych v´ybˇerov´ych souborech.

Kl´ıˇcov´a slova: regresn´ı anal´yza, line´arn´ı regresn´ı model, ekonome- trie, ekonometrick´e modelov´an´ı, pˇr´ıpadov´a studie, Octave

Abstract

This diploma thesis deals with problems of regression analysis in data mining tasks and econometric modeling. Its aim is to get acquainted with problems of regression analysis and its application in the case study. Further explain the concept of econometric modeling and give examples of its application. A case study in IBM SPSS Modeler was developed in the thesis. It deals with an estimate of the property price. The result of my work is a case study with the implementation of a linear regression model. In addition, an Octave application was programmed to create a custom linear regression model. At the end I compare the results of regression statistics made using Modeler and my application in Octave. The comparison is made on several different sample files.

Keywords: regression analysis, linear regression model, economet- rics, econometric modeling, data analysis, case study, Octave

(7)

Podˇ ekov´ an´ı

Chtˇel bych podˇekovat vedouc´ı m´e pr´ace RNDr. Kl´aˇre C´ısaˇrov´e, Ph.D. za jej´ı trpˇelivost a rady, kter´e mi poskytla pˇri zpracov´av´an´ı diplomov´e pr´ace. D´ale pak m´e pˇr´ıtelkyni, kter´a mi byla velkou oporou a m´e rodinˇe za jejich podporu pˇri studiu a pˇri zpracov´av´an´ı diplomov´e pr´ace.

(8)

Obsah

Seznam zkratek . . . 12

1 Uvod´ 13 2 Regresn´ı modely 14 2.1 Z´akladn´ı pojmy . . . 14

2.1.1 Data . . . 14

2.1.2 Z´akladn´ı n´astroje pro anal´yzu dat . . . 16

2.2 Jednoduch´y line´arn´ı regresn´ı model . . . 22

2.2.1 Metoda nejmenˇs´ıch ˇctverc˚u . . . 23

2.2.2 Vlastnosti odhadov´e funkce nejmenˇs´ıch ˇctverc˚u . . . 25

2.2.3 Pˇredpoklady pro pouˇzit´ı metody nejmenˇs´ıch ˇctverc˚u . . . 27

2.2.4 Koeficient determinace . . . 27

2.2.5 Testov´an´ı hypot´ez o odhadnut´ych regresn´ıch parametrech . . . 29

2.3 Logistick´y regresn´ı model . . . 29

2.3.1 Metoda maxim´aln´ı vˇerohodnosti . . . 30

2.3.2 Odhad koeficient˚u u logistick´eho regresn´ıho modelu . . . 31

2.4 V´ıcerozmˇern´y line´arn´ı regresn´ı model . . . 32

2.4.1 Metoda nejmenˇs´ıch ˇctverc˚u pro v´ıcerozmˇern´y line´arn´ı regresn´ı model . . . 34

2.4.2 Rozˇs´ıˇren´e pˇredpoklady pro metodu nejmenˇs´ıch ˇctverc˚u . . . . 34

3 Ekonometrick´e modelov´an´ı 36 3.1 Proces ekonometrick´eho modelov´an´ı . . . 36

3.2 Formulace modelu . . . 37

3.3 Z´ısk´an´ı a anal´yza dat . . . 38

3.4 Odhady parametr˚u modelu . . . 38

3.5 Ovˇeˇren´ı platnosti modelu . . . 38

3.6 Aplikace odhadnut´eho modelu . . . 39

3.7 Pˇr´ıklady aplikac´ı ekonometrick´eho modelov´an´ı . . . 39

4 Praktick´a ˇc´ast 40 4.1 Zkuˇsenosti s MOOC kurzem na port´ale Coursera . . . 40

4.2 Kurz na ALS port´ale . . . 41

4.3 Pˇr´ıpadov´a studie - Odhad ceny nemovitosti . . . 42

4.3.1 Popis dat . . . 42

(9)

4.3.2 Naˇcten´ı dat do Modeleru . . . 43

4.3.3 Anal´yza dat . . . 43

4.3.4 Tvorba modelu . . . 46

4.3.5 Testov´an´ı modelu . . . 46

4.3.6 Zhodnocen´ı pˇr´ıpadov´e studie . . . 48

5 Vytvoˇren´ı nez´avisl´eho modelu 49 5.1 Struktura programu . . . 49

5.2 Cten´ı dat . . . 49ˇ 5.3 Normalizace . . . 50

5.4 Odhad parametr˚u regresn´ıho modelu . . . 51

5.4.1 Standardn´ı rovnice . . . 51

5.4.2 Gradientn´ı metoda . . . 52

5.5 Testov´an´ı modelu . . . 54

5.5.1 Koeficient determinace . . . 55

5.5.2 Anal´yza rozptylu - ANOVA . . . 56

5.5.3 T-testy atribut˚u . . . 56

5.6 Ovl´ad´an´ı programu . . . 57

5.7 Zhodnocen´ı . . . 58

6 Srovn´an´ı 59 6.1 Srovn´an´ı v´ysledk˚u model˚u . . . 59

6.1.1 V´ybˇerov´y soubor - Nemovitosti . . . 59

6.1.2 V´ybˇerov´y soubor - V´ykon CPU . . . 60 6.2 Casov´e srovn´an´ı . . . 62ˇ

7 Z´avˇer 63

A Obsah pˇriloˇzen´eho CD I

B Certifik´at o absolvov´an´ı kurzu Machine learning II

C Nemovitosti III

D Vypoˇcten´e koeficienty a jejich statistiky V

E Popis atribut˚u testu ˇc. 2 VI

(10)

Seznam obr´ azk˚ u

2.1 Typy promˇenn´ych . . . 15

2.2 Rozdˇelen´ı ˇsikmost´ı . . . 21

2.3 Rozdˇelen´ı ˇspiˇcatost´ı . . . 21

2.4 Princip metody nejmenˇs´ıch ˇctverc˚u . . . 24

2.5 Nevych´ylen´e a eficientn´ı rozdˇelen´ı parametr˚u bβk . . . 26

2.6 Konzistentn´ı rozdˇelen´ı parametr˚u bβk . . . 26

2.7 Rozklad souˇctu ˇctverc˚u TSS . . . 28

2.8 Logistick´a funkce . . . 30

3.1 Ekonometrie . . . 36

3.2 Proces tvorby ekonometrick´eho modelu . . . 37

4.1 Sn´ımek z vytvoˇren´eho kurzu Datamining . . . 41

4.2 Korelaˇcn´ı mapa atribut˚u . . . 44

4.3 Histogram promˇenn´e SalePrice . . . 44

4.4 Bodov´y graf z´avislost´ı . . . 45

4.5 Krabicov´e grafy . . . 45

4.6 Proud v aplikace Modeler . . . 46

5.1 Diagram funkc´ı . . . 49

5.2 Gradientn´ı metoda . . . 53

5.3 Nastaven´ı stupnˇe uˇcen´ı (d´elky kroku) . . . 53

5.4 Kˇrivky uˇcen´ı . . . 54

5.5 Divergov´an´ı gradientn´ı metody . . . 54

5.6 V´ybˇer atribut˚u . . . 57

5.7 Grafick´y popis ovl´ad´an´ı programu . . . 58 B.1 Certifik´at o absolvov´an´ı kurzu Machine Learning . . . II

(11)

Seznam tabulek

2.1 Seznam typ˚u pr˚umˇer˚u . . . 18

2.2 Charakteristiky variability . . . 19

2.3 Forma z´apisu populaˇcn´ı a v´ybˇerov´e regresn´ı funkce . . . 23

4.1 Vybran´e kvalitativn´ı atributy nemovitost´ı . . . 42

4.2 Vybran´e kvantitativn´ı atributy nemovitost´ı . . . 43

4.3 Statistick´e ´udaje SalePrice . . . 44

4.4 Regresn´ı statistika . . . 46

4.5 V´ysledky anal´yzy ANOVA . . . 47

4.6 Odhady regresn´ıch parametr˚u . . . 48

5.1 Porovn´an´ı ˇcasu v´ypoˇctu funkc´ı pro ˇcten´ı . . . 50

5.2 Z´avislost poˇctu krok˚u na dobˇe pr˚ubˇehu a pˇresnosti modelu . . . 53

5.3 Regresn´ı statistiky pro odhad ceny nemovitosti . . . 56

5.4 Anal´yza rozptylu . . . 56

6.1 Regresn´ı statistika test ˇc. 1 . . . 59

6.2 V´ysledky anal´yzy ANOVA test ˇc. 1 . . . 60

6.3 Odhady regresn´ıch parametr˚u test ˇc. 1 . . . 60

6.4 Regresn´ı statistika test ˇc. 2 . . . 61

6.5 V´ysledky anal´yzy ANOVA test ˇc. 2 . . . 61

6.6 Odhady regresn´ıch parametr˚u test ˇc. 2 . . . 61

6.7 Cas v´ˇ ypoˇctu . . . 62 C.1 Popis vˇsech atribut˚u 1 . . . III C.2 Popis vˇsech atribut˚u 2 . . . IV D.1 Odhady regresn´ıch parametr˚u . . . V

(12)

Seznam zdrojov´ ych k´ od˚ u

5.1 Vzorek dat . . . 50

5.2 Funkce pˇro ˇcten´ı . . . 50

5.3 Normalizace hodnot . . . 51

5.4 Standartn´ı rovnice . . . 51

5.5 Gradientn´ı metoda . . . 52

5.6 Koeficient determinace . . . 55

5.7 T-test a p-hodnota . . . 56

(13)

Seznam zkratek

MOOC Hromadn´y otevˇren´y online kurz TUL Technick´a univerzita v Liberci MN ˇC Metoda nejmenˇs´ıch ˇctverc˚u PRF Populaˇcn´ı regresn´ı funkce VRF V´ybˇerov´a regresn´ı funkce

ML Metoda maxim´aln´ı vˇerohodnosti TSS Celkov´y souˇcet ˇctverc˚u

RSS Rezidu´aln´ı souˇcet ˇctverc˚u

ESS Regresn´ı (vysvˇetlen´y) souˇcet ˇctverc˚u GPL General Public License

ANOVA Anylysis of variance

CPU Centr´aln´ı procesorov´a jednotka

(14)

1 Uvod ´

S n´astupem internetu a sbˇeru enormn´ıho mnoˇzstv´ı elektronick´ych dat se velice rozv´ıjej´ı technologie, pomoc´ı kter´ych je m´ame moˇznost studovat a hledat v nich z´avislosti, vztahy a dalˇs´ı informace. A pr´avˇe Data mining je obor, kter´y se touto problematikou zab´yv´a.

Ve sv´e diplomov´e pr´aci se budu zab´yvat regresn´ı anal´yzou a jej´ım uplatnˇen´ım v data miningov´ych modelech. V teoretick´e ˇc´asti budu rozeb´ırat metody line´arn´ı a logistick´e regrese. Jako jeden z materi´al˚u, ze kter´ych ˇcerp´am, jsem pouˇzil data minigov´y online kurz, konkr´etnˇe MOOC kurz Machine Learning poˇr´adan´y Univerzitou ve Stanfordu. T´ımto kurzem jsem proˇsel v letn´ım semestru roku 2015 v r´amci pˇr´ıpravy na diplomovou pr´aci a ´uspˇeˇsnˇe jsem ho dokonˇcil. V pˇr´ıloze B pˇrikl´ad´am diplom udˇelen´y za absolvov´an´ı kurzu. V n´asleduj´ıc´ı ˇc´asti m´e diplomov´e pr´ace se budu zab´yvat ekonometrick´ym modelov´an´ım, kter´e s regresn´ı anal´yzou ´uzce souvis´ı. Ekonometrick´e modelov´an´ı spoˇc´ıv´a v anal´yze urˇcit´eho ekonomick´eho probl´emu a snaˇz´ı se nal´ezt souvislosti mezi ekonomickou teori´ı a re´aln´ymi daty. Tyto z´avislosti mohou b´yt pot´e pouˇzity k predikci ekonomick´ych promˇenn´ych. T´ema ekonometrick´e modelov´an´ı zpracuji jako v´ykladovou studii na ALS port´ale.

V praktick´e ˇc´asti budu uplatˇnovat teoretick´e poznatky z prvn´ıch dvou kapitol vytvoˇren´ım pˇr´ıpadov´e studie. Studii budu vytv´aˇret ve statistick´em programu IBM SPSS Modeler. D´ale naprogramuji line´arn´ı regresn´ı model tak, aby nebylo tˇreba pouˇz´ıvat podp˚urn´e n´astroje, jako Modeler, Knime ˇci jin´e. K tomuto ´uˇcelu pouˇziji prostˇred´ı Octave. Tento program jsem zvolil z d˚uvod˚u jeho nez´avislosti a svobodn´e licence. Bude schopen naˇc´ıst libovoln´a data v textov´em form´atu odpov´ıdaj´ıc´ı struktury a na nich vytvoˇrit vlastn´ı line´arn´ı regresn´ı model vˇcetnˇe jeho celkov´eho otestov´an´ı a testu jednotliv´ych atribut˚u. V z´avˇeru pr´ace porovn´am oba uplatnˇen´e pˇr´ıstupy z hlediska jejich pˇresnosti a ˇcasu v´ypoˇctu.

(15)

2 Regresn´ı modely

Tato kapitola se zab´yv´a regresn´ımi modely a jejich modifikacemi. Tato anal´yza patˇr´ı k jednomu z n´astroj˚u ekonometrick´eho modelov´an´ı.

2.1 Z´ akladn´ı pojmy

Pˇred pouˇzit´ım samotn´ych regresn´ıch model˚u, je tˇreba vysvˇetlit, nˇekter´e ze z´akladn´ıch pojm˚u v oboru statistky a pˇredstavit z´akladn´ı n´astroje pro anal´yzu dat.

2.1.1 Data

Data se rozdˇeluj´ı do nˇekolika skupin podle rozsahu, obsahu a typu. Ve statistice rozliˇsujeme statistick´y soubor, jednotku a znak.

• Statistick´y soubor je koneˇcn´a nepr´azdn´a mnoˇzina prvk˚u M , kter´e maj´ı spoleˇcn´e vlastnosti.

• Statistick´a jednotka je jeden prvek ze statistick´eho souboru (jeden prvek mnoˇziny).

• Statistick´e znaky jsou vlastnosti statistick´ych jednotek.

Pojmem rozsah souboru n pˇredstavuje mohutnost mnoˇziny M (viz vztah 2.1).

n= |M| (2.1)

Rozliˇsuj´ı se dva pˇr´ıstupy ke statistick´emu souboru:

1. Z´akladn´ı soubor

Mnoˇzina vˇsech teoreticky moˇzn´ych prvk˚u zkouman´eho probl´emu. Probl´emem u takov´e mnoˇziny dat je jej´ı pˇr´ıliˇsn´a obs´ahlost, a proto ji obvykle v praxi nen´ı moˇzn´e pouˇz´ıt. Z tohoto d˚uvodu se pouˇz´ıv´a v´ybˇerov´y soubor.

2. V´ybˇerov´y soubor

Vzorek dat ze z´akladn´ıho souboru. N´aslednˇe se podle tohoto v´ybˇeru prov´ad´ı

´

usudek o z´akladn´ım souboru. Vlivem proveden´ı v´ybˇeru ze z´akladn´ıho souboru doch´az´ı k urˇcit´e v´ybˇerov´e chybˇe.

(16)

Kaˇzd´a statistick´a jednotka vykazuje vlastnosti, kter´e se naz´yvaj´ı tak´e atributy, nebo promˇenn´e. Dˇel´ı se kvantitativn´ı a kvalitativn´ı. Z´akladn´ı rozd´ıl mezi tˇemito typy je, ˇze kvantitativn´ı jsou ˇc´ıseln´e charakteristiky, pomoc´ı kter´ych definujeme nebo mˇeˇr´ıme r˚uzn´e jevy. Bˇeˇznˇe to jsou ˇc´ıseln´e promˇenn´e, kter´e charakterizuj´ı urˇcitou vlastnost objektu napˇr´ıklad v´yˇsku osob, namˇeˇren´a data z pˇr´ıstroje atd. Obyˇcejnˇe d´av´a smysl prov´adˇet nad tˇemito hodnotami aritmetick´e operace.

Kvantitativn´ı typy se d´ale dˇel´ı na:

1. Nespojit´e (Diskr´etn´ı) promˇenn´e nab´yvaj´ı vˇzdy urˇcit´ych hodnot (napˇr ˇcetnosti).

2. Spojit´e promˇenn´e mohou nab´yvat teoreticky nekoneˇcn´eho poˇctu hodnot mezi urˇcit´ym intervalem (napˇr. v´yˇska osob).

Naproti tomu kvalitativn´ı jsou jak´akoli data v´yˇctov´eho typu, pomoc´ı kter´eho popisujeme urˇcit´e vlastnosti objektu. Ne vˇzdy m˚uˇzeme tyto hodnoty porovn´avat (nomin´aln´ı). Podle uspoˇr´ad´an´ı kategori´ı promˇenn´ych m˚uˇzeme rozdˇelit kvalitativn´ı

data na:

• Nomin´aln´ı – lze ˇr´ıci, ˇze se dvˇe hodnoty liˇs´ı, ale nelze je porovn´avat (napˇr.

v´yrobce, typ, n´arodnost),

• Ordin´aln´ı – stejn´e jako nomin´aln´ı, ale nav´ıc lze hodnoty mezi sebou porovn´avat (napˇr. hodnocen´ı, typ vzdˇel´an´ı).

D´ale se dˇel´ı podle poˇctu kategori´ı na alternativn´ı (dichotomick´e) a v´ıce-kategori´aln´ı promˇenn´e. Shrnut´ı typ˚u promˇenn´ych zobrazuje obr´azek 2.1.

Obr´azek 2.1: Typy promˇenn´ych

(17)

2.1.2 Z´ akladn´ı n´ astroje pro anal´ yzu dat

Tato kapitola se vˇenuje z´akladn´ım n´astroj˚um pro anal´yzu dat, pomoc´ı kter´ych m˚uˇzeme reprezentovat dan´y v´ybˇerov´y soubor.

Rozdˇelen´ı ˇcetnost´ı

Cetnost je veliˇcina, kter´a ud´av´a kolikr´at se dan´a hodnota statistick´eho znaku vysky-ˇ tuje ve statistick´e souboru. Uvaˇzujeme-li statistick´y znak ve tvaru x1, x2, ..., xn, kde nje rozsah statistick´eho souboru a celkov´y poˇcet r˚uzn´ych hodnot znaku x je k ≤ n[10].

Absolutn´ı ˇcetnost hodnoty znaku xj je poˇcet statistick´ych jednotek, kter´e maj´ı stejnou hodnotu znaku xj pro j = 1, 2..., k.

Xk i=1

nj = n (2.2)

Relativn´ı ˇcetnost hodnoty znaku xj je pod´ıl absolutn´ı ˇcetnosti a rozsahu souboru, nejˇcastˇeji se vyjadˇruje v procentech, oznaˇcuje se jako vj a jejich souˇcet je jedna (v pˇr´ıpadˇe procent 100)(viz rovnice 2.3). V´yhodu relativn´ı ˇcetnosti je, ˇze pomoc´ı n´ı

m˚uˇzeme porovn´avat dva v´ybˇerov´eho soubory s rozd´ıln´ymi rozsahy[10].

Xk i=1

vj = 1. (2.3)

Kumulativn´ı absolutn´ı ˇcetnost vyjadˇruje souˇcet vˇsech pˇredch´azej´ıc´ıch absolutn´ıch ˇcetnost´ı. Umoˇzˇnuje zjistit kolik hodnot je menˇs´ıch neˇz zadan´e ˇc´ıslo.

Kumulativn´ı relativn´ı ˇcetnost umoˇzˇnuje zjistit procento hodnot menˇs´ıch neˇz zadan´e ˇc´ıslo. Vypoˇcteme jej vydˇelen´ım pˇr´ısluˇsn´e absolutn´ı kumulativn´ı ˇcetnosti s rozsahem souboru, nebo seˇcten´ım relativn´ıch ˇcetnost´ı v intervalech, jejichˇz horn´ı hranice je menˇs´ı neˇz zadan´e ˇc´ıslo.

Intervalov´e rozdˇelen´ı ˇcetnost´ı - kategorizace

Toto rozdˇelen´ı rozdˇeluje statistick´y soubor na intervaly, kter´ym ˇr´ık´ame tˇr´ıdy. Pouˇz´ıv´a se zejm´ena v pˇr´ıpadech, kdy m´ame pˇr´ıliˇs mnoho variant znak˚u, napˇr´ıklad u spojit´ych hodnot, jako je v´yˇska osob nebo pˇr´ıjem. Pouˇzit´ım tohoto rozdˇelen´ı zv´yˇs´ıme pˇrehlednost statistick´eho souboru. Pˇri vytv´aˇren´ı interval˚u je tˇreba dodrˇzovat urˇcit´e pravidla[10].

Poˇcet tˇr´ıd rozdˇelen´ı – k odpov´ıd´a:

• Odmocninov´emu pravidlu k =√ n,

• Sturgesovu pravidlu k = 1 + 3, 3 log n.

(18)

Pro urˇcen´ı ˇs´ıˇrky (poˇctu prvk˚u) intervalu existuje nˇekolik metod. Jednou z nich je pod´ıl rozd´ılu maxim´aln´ı a minim´aln´ı hodnoty v´ybˇerov´e souboru a poˇctu tˇr´ıd.

i= M AX− MIN

k (2.4)

Mezi dalˇs´ı metody ˇrad´ıme urˇcen´ı ˇs´ıˇrky intervalu pomoc´ı Kvantil˚u. Rozdˇeluj´ı statistick´y soubor na ˇc´asti, v z´avislosti na tom, kolika procentn´ı kvantil je pouˇzit.

Znaˇc´ı se xp, kde p jsou procenta v intervalu < 0, 100 >.

Nejpouˇz´ıvanˇejˇs´ı kvantily jsou:

• Medi´an - x50,

• Kvartily - x25, x50, x75 ,

• Decily - x10, x20. . . , x90,

• Percentily - x1, x2, . . . , x99.

Kategorizaci ˇc´ıseln´e promˇenn´e zejm´ena v data miningov´ych ˇreˇsen´ıch lze prov´est mnoha dalˇs´ımi postupy. Napˇr´ıklad algoritmy pro kategorizaci s respektem k c´ılov´e predikovan´e hodnotˇe.

Charakteristiky statistick´eho souboru

Pˇri statistick´e anal´yze je ˇcasto tˇreba porovn´avat nˇekolik statistick´ych soubor˚u. Z to- hoto d˚uvodu se pouˇz´ıvaj´ı charakteristiky. Charakterizuj´ı z´akladn´ı rysy zkouman´eho statistick´eho souboru[10].

Existuje nˇekolik z´akladn´ıch charakteristik:

• Polohy

• Variability

• Tvaru

• Kovariance

Charakteristika polohy

Pˇredstavuje r˚uzn´e druhy stˇredn´ıch hodnot v´ybˇerov´eho souboru. Obecnˇe oznaˇcujeme stˇredn´ı hodnotu jako E[X] = x = µ.

Z´akladn´ı m´ırou polohy je Aritmetick´y pr˚umˇer. Rozliˇsujeme pr˚umˇer pro z´akladn´ı a v´ybˇerov´y soubor[10].

• Aritmetick´y pr˚umˇer pro z´akladn´ı soubor:

µ= PN

i=1xi

N . (2.5)

(19)

• Aritmetick´y pr˚umˇer pro v´ybˇerov´y soubor:

x= Pn

i=1xi

n . (2.6)

• V´aˇzen´y aritmetick´y pr˚umˇer - je zvl´aˇstn´ım pˇr´ıpadem v´yˇse zm´ınˇen´eho, kde ni jsou v´ahy (ˇcetnosti) jednotliv´ych hodnot xi. Nejˇcastˇeji to jsou poˇcty v´yskyt˚u hodnoty xi ve v´ybˇerov´em souboru.

x= Pn

i=1xini

Pn i=1ni

(2.7) K aritmetick´emu pr˚umˇeru se v´aˇze nˇekolik vlastnost´ı:

• Aritmetick´y pr˚umˇer konstanty je konstanta.

• Pˇriˇcten´ım, odeˇcten´ım, vyn´asoben´ım nebo vydˇelen´ım vˇsech hodnot znaku nenu- lovou konstantou se odpov´ıdaj´ıc´ım zp˚usobem zmˇen´ı tak´e aritmetick´y pr˚umˇer.

• Vyn´asob´ım-li vˇsechny v´ahy nenulovou konstantou, tak se pr˚umˇer nezmˇen´ı.

Kromˇe aritmetick´eho pr˚umˇeru existuj´ı dalˇs´ı, kter´e se pouˇz´ıvaj´ı ve speci´aln´ıch pˇr´ıpadech (viz tabulka 2.1).

azev Vzorec Pouˇzit´ı

Geometrick´y pr˚umˇer

xG= n vu ut

Yn i=1

xi

K v´ypoˇctu koeficient˚u r˚ustu nebo ˇretˇezov´ych index˚u.

V´aˇzen´y geometrick´y pr˚umˇer

xG= n vu ut

Yn i=1

xnii

Je pouˇzit v pˇr´ıpadˇe, ˇze jsou udaje zatˇr´ıdˇeny dle ˇcetnost´ı, nebo maj´ı uzn´e hodnoty r˚uznou v´ahu.

Harmonick´y pr˚umˇer

xH = n Pn

i=1 1 xi

pro mˇeˇren´ı ´urovnˇe pomˇern´ych ˇc´ısel (rychlost, v´ykon, produktivita pr´ace).

aˇzen´y harmonick´y

pr˚umˇer xH=

Pn i=1ni Pn

i=1 ni

xi

Je pouˇzit v pˇr´ıpadˇe, ˇze jsou udaje zatˇr´ıdˇeny dle ˇcetnost´ı, nebo maj´ı uzn´e hodnoty r˚uznou v´ahu.

Kvadratick´y pr˚umˇer

xK= r Pn

i=1x2i n

Pˇri v´ypoˇctu stˇredn´ı kvadratick´e od- chylky.

aˇzen´y kvadratick´y pr˚umˇer

xGK= s Pn

i=1x2ini Pn

i=1ni

Je pouˇzit v pˇr´ıpadˇe, ˇze jsou udaje zatˇr´ıdˇeny dle ˇcetnost´ı, nebo maj´ı uzn´e hodnoty r˚uznou v´ahu.

Tabulka 2.1: Seznam typ˚u pr˚umˇer˚u

(20)

Plat´ı, ˇze x ≤ xG ≤ xH ≤ xK

. Mezi dalˇs´ı stˇredn´ı hodnoty se ˇrad´ı tak´e:

• Medi´an – hodnota, kter´a je ve stˇredu statistick´eho souboru za pˇredpokladu, ˇze je seˇrazen´y.

• Modus – hodnota z nejvyˇsˇs´ı ˇcetnost´ı znaku.

Charakteristika variability

Charakteristika variability ud´av´a, jak se liˇs´ı hodnoty znak˚u prvk˚u od zvolen´e charak- teristiky polohy (pr˚umˇeru). ˇRad´ıme mezi nˇe variaˇcn´ı rozpˇet´ı, pr˚umˇernou absolutn´ı odchylky, rozptyl, smˇerodatnou odchylku a variaˇcn´ı koeficient. Plat´ı, ˇze ˇc´ım vyˇsˇs´ı je variabilita hodnot znaku, t´ım niˇzˇs´ı je vypov´ıdac´ı schopnost charakteristiky polohy (pr˚umˇeru atd.)[10].

azev Vzorec

Variaˇcn´ı rozpˇet´ı

R= xmax− xmin

Kvartilov´e rozpˇet´ı

KR=xf75− fx25

Kvartilov´a odchylka

Q= (xf75− x) + (x − fx25) 2

Pr˚umˇern´a odchylka

dx= Pn

i=1|xi− x|

n Relativn´ı pr˚umˇern´a

odchylka D=dx

x Stˇredn´ı diference

∆ = Pn

i=1

Pn

j=1|xi− xj| n(n − 1)

Tabulka 2.2: Charakteristiky variability

Nejpouˇz´ıvanˇejˇs´ı charakteristikou variability je rozptyl. Znaˇc´ı se tak´e jako var(X)

= D(X) = E(X − E(X))2 = σ2. Je definov´an jako pr˚umˇer kvadr´at˚u odchylek jednotliv´ych znak˚u xi od jejich aritmetick´eho pr˚umˇeru x [10].

Stejnˇe jako u pr˚umˇeru rozliˇsujeme rozptyl z´akladn´ıho souboru a v´ybˇerov´eho souboru.

Rozptyl z´akladn´ı souboru:

σ2 = var(X) = PN

i=1(xi− µ)2

N . (2.8)

(21)

Rozptyl v´ybˇerov´eho souboru:

Sx2 = var(X) = Pn

i=1(xi− x)2

n− 1 , (2.9)

kde ve jmenovateli v´yraz n − 1, oznaˇcuje poˇcet stupˇn˚u volnosti v´ybˇerov´eho souboru.

Pouˇzit´ım v´yrazu n−1 m´ısto velikosti souboru n doc´ıl´ıme pˇresnˇejˇs´ıho odhadu skuteˇcn´e hodnoty populaˇcn´ıho rozptylu, zejm´ena pˇri v´ypoˇctu na z´akladˇe mal´ych v´ybˇerov´ych soubor˚u[10].

K rozptylu se v´aˇze nˇekolik vlastnost´ı:

• Rozptyl konstanty je nula.

• Pˇriˇcteme-li ke vˇsem hodnot´am znaku stejnou konstantu =⇒ rozptyl se nezmˇen´ı.

• Vyn´asob´ıme-li kaˇzdou hodnotu znaku stejnou konstantou =⇒ rozptyl bude jej´ı n´asobek .

• Rozptyl souˇctu nebo rozd´ılu dvou znak˚u je roven souˇctu rozptyl˚u obou znak˚u zvˇetˇsen´em/zmenˇsen´em o dvojn´asobek kovariance: Sz2 = Sx2+ Sy2± Sxy.

Vzhledem k uˇzit´ı kvadr´at zav´ad´ıme smˇerodatnou odchylku, kter´a je definov´ana jako:

Sx =p

Sx2. (2.10)

Casto je tˇreba porovn´avat statistick´e soubory a m˚ˇ uˇze se st´at, ˇze znaky nejsou ve stejn´ych jednotk´ach nebo maj´ı nestejnou velikost. V takov´ych pˇr´ıpadech vyuˇz´ıv´ame charakteristiku relativn´ı variability. Mezi ni ˇrad´ıme variaˇcn´ı koeficient. Oznaˇcujeme ho Vx. A vypoˇc´ıt´a se jako pod´ıl smˇerodatn´e odchylky a pr˚umˇeru v´ybˇerov´eho souboru[10]:

Vx = Sx

x . (2.11)

Charakteristika tvaru

Mˇeˇr´ı odchylku v rozloˇzen´ıˇcetnost´ı hodnot znak˚u oproti dan´emu referenˇcn´ımu rozdˇelen´ı ˇcetnost´ı (obvykle norm´aln´ımu)[10]. Skl´ad´a se ze dvou sloˇzek:

• Asymetrie (ˇSikmosti) – ud´av´a symetrick´e/asymetrick´e rozloˇzen´ı hodnot kolem pr˚umˇer.

A= Pn

i=1(xi− x)3

nS3 (2.12)

(22)

Obr´azek 2.2: Charakteristiky asymetrie

• ˇSpiˇcatosti – porovn´av´a ˇcetnost hodnoty znak˚u kolem pr˚umˇeru.

E = Pn

i=1(xi− x)4

nS4 (2.13)

Obr´azek 2.3: Charakteristiky ˇspiˇcatosti

Kovariance

Charakterizuje, jak se dva znaky x a y statistick´eho souboru vz´ajemnˇe ovlivˇnuj´ı.

Znaˇc´ı se jako cov(X; Y ), nebo Sxy[10] a vypoˇc´ıt´ame ji jako:.

Sxy = 1 n

Xn i=1

(xi− x)(yi− y) = xy − x y.

Pokud Sxy > 0 znak x roste (kles´a), tak roste (kles´a) y, napˇr. vztah mezi v´yˇskou a v´ahou ˇclovˇeka.

Pokud Sxy <0 znak x roste (kles´a), tak y kles´a (roste), napˇr. vztah mezi hloubkou dez´enu pneumatiky a brzdnou dr´ahou automobilu.

(23)

Plat´ı, ˇze ˇc´ım vyˇsˇs´ı je kovariance, t´ım v´ıce se znaky navz´ajem mˇen´ı. Naopak ale nulov´a kovariance Sxy = 0 nemus´ı nutnˇe znamenat, ˇze mezi znaky neexistuje z´avislost. Jen se nemus´ı jednat o line´arn´ı z´avislost, ale napˇr´ıklad o kvadratickou.

Korelace

Korelace oznaˇcuje m´ıru z´avislosti dvou znak˚u x a y. ˇRekneme, ˇze dvˇe promˇenn´e jsou korelovan´e jestliˇze hodnoty jedn´e promˇenn´e maj´ı tendenci vyskytovat se spoleˇcnˇe s hodnotami druh´e promˇenn´e[10]. Pro zmˇeˇren´ı m´ıry korelace je navrˇzena ˇrada koeficient˚u, kter´e se liˇs´ı podle typ˚u promˇenn´ych a vlastnostmi. Pˇri zkoum´an´ı vztah˚u korelace je d˚uleˇzit´y kvalitativn´ı rozbor dat. Jinak ˇreˇceno, nem´a smysl hledat z´avislost tam, kde na z´akladˇe logick´e ´uvahy nem˚uˇze existovat.

Jedn´ım z nejpouˇz´ıvanˇejˇs´ıch koeficient˚u je Pearson˚uv korelaˇcn´ı koeficient. Oznaˇcuje se jako rxy a spoˇc´ıt´a se jako pod´ıl kovariance Sxy a n´asobku smˇerodatn´ych odchylek Sx

a Sy.

rxy = Sxy

SxSy

. (2.14)

2.2 Jednoduch´ y line´ arn´ı regresn´ı model

Tato kapitola se bude zab´yvat jednoduch´ym line´arn´ım regresn´ım modelem. Tedy, kdy z´avisl´a (vysvˇetlovan´a) promˇenn´a Y je line´arn´ım vztahem pouze jedn´e nez´avisl´e (vysvˇetluj´ıc´ı) promˇenn´e X. Pomoc´ı regresn´ıho modelu hled´ame line´arn´ı vztah mezi

promˇennou Y a X[9].

Prvn´ı dva pojmy, kter´ymi se budeme zab´yvat jsou deterministick´a a stochastick´a populaˇcn´ı regresn´ı funkce, d´ale jen PRF. Deterministick´a PRF spojuje oˇcek´avan´e hodnoty vysvˇetlovan´e promˇenn´e Yi pro dan´a Xi a je d´ana vztahem:

E(Yi|Xi) = β1+ β2Xi, i= 1, 2, . . . , n, (2.15) kde parametry β1 je absolutn´ı ˇclen a β2 definuje sklon regresn´ı kˇrivky.

Tyto modely nejsou pˇr´ıliˇs ˇcast´e, protoˇze existuj´ı dalˇs´ı vlivy na vysvˇetlovanou promˇennou Yi resp. n´ahodn´e sloˇzky, kter´e do regresn´ıho modelu vn´aˇs´ı urˇcitou chybu.

Zanesen´ım t´eto chyby do modelu zadefinujeme stochastickou PRF. Je definovan´a jako:

E(Yi|Xi) = β1+ β2Xi+ ui, i= 1, 2, . . . , n, (2.16) kde ui je n´ahodn´a sloˇzka, tj. chyba, zanesen´a zanedb´an´ım nˇekter´ych vliv˚u a dalˇs´ıch chyb, napˇr´ıklad z mˇeˇren´ı.

Jak jiˇz bylo v´yˇse zm´ınˇeno, obvykle se nest´av´a, ˇze bychom mˇeli k dispozici data za celou populaci (z´akladn´ı soubor), tud´ıˇz jej nahrazujeme v´ybˇerov´ymi soubory.

Naz´yv´ame ji v´ybˇerov´a regresn´ı funkce, d´ale VRF. Je snaha o to, aby VRF konvergo- vala k PRF. N´asleduj´ıc´ı tabulka 2.3 shrnuje zmiˇnovan´e funkce.

(24)

Deterministick´a forma Stochastick´a forma Populaˇcn´ı

regresn´ı

funkce E(Yi|Xi) = Yi= β1+ β2Xi E(Yi|Xi) = Yi= β1+ β2Xi+ ui

ybˇerov´a regresn´ı funkce

b

Yi= cβ1+ cβ2Xi Ybi = cβ1+ cβ2Xi+ubi

Tabulka 2.3: Forma z´apisu populaˇcn´ı a v´ybˇerov´e regresn´ı funkce Symboly

”b“ nad promˇenn´ymi a parametry vyjadˇruj´ı odhad pro v´ybˇerov´y soubor.

To znamen´a, ˇze bYi je odhad pro Yi, bβ1 a bβ2 jsou odhady regresn´ıch parametr˚u, aubi pˇredstavuje rezidu´aln´ı sloˇzku, coˇz je odhad stochastick´e n´ahodn´e sloˇzky ui[9].

Existuje nˇekolik metod pro odhad parametr˚u regresn´ıho modelu:

• metoda nejmenˇs´ıch ˇctverc˚u (MN ˇC),

• metodu maxim´aln´ı vˇerohodnosti (ML),

• metoda moment˚u,

• zobecnˇen´a metoda moment˚u.

Tato pr´ace se zamˇeˇruje na prvn´ı z uveden´ych metod, o druh´e metodˇe se zmiˇnuje v souvislosti s logistickou regresn´ı anal´yzou.

2.2.1 Metoda nejmenˇ s´ıch ˇ ctverc˚ u

Tato metoda byla zavedena, nˇemeck´ym matematike, Carlem Friedrichem Gaussem.

Jedn´a se metodu zjiˇstˇen´ı parametr˚u bβ1 a bβ2 v´ybˇerov´e regresn´ı funkce:

Yi = bβ1+ bβ2Xi+ubi = bYi+ubi, i= 1, 2, . . . , n, (2.17) kde v´yvoj promˇenn´e Yi je determinov´an zmˇenami Xi a tvar kˇrivky je urˇcen regresn´ımi parametry β12[9]. Metoda proloˇz´ı pˇr´ımku jednotliv´ymi hodnotami znak˚u, jak zobrazuje obr´azek 2.4.

(25)

Obr´azek 2.4: Princip metody nejmenˇs´ıch ˇctverc˚u

D´ale vyj´adˇr´ıme z rovnice 2.17 rezidu´aln´ı sloˇzkuubi: b

ui = Yi− bYi = Yi− bβ1+ bβ2Xi = f ( bβ1, bβ2). (2.18) Z rovnice 2.18 je zˇrejm´e, ˇze rezidu´aln´ı sloˇzka je funkc´ı regresn´ıch parametr˚u. Obr´azek 2.4 ukazuje, ˇze rezidu´aln´ı sloˇzka ubi m˚uˇze b´yt kladn´a i z´aporn´a. Z tˇechto d˚uvod˚u je tˇreba pouˇz´ıt souˇcet ˇctverc˚u rezidu´aln´ıch odchylek. A tedy z´akladem metody nejmenˇs´ıch ˇctverc˚u je minimalizace tohoto souˇctu[9]:

Xn i=1

b ui2

= f ( bβ1, bβ2). (2.19)

Pro nalezen´ı minima funkce se pouˇzije metoda z matematick´e anal´yzy – hled´an´ı extr´emu funkce. Funkce 2.19 se parci´alnˇe zderivuje podle parametr˚u β1 a β2 a jed- notliv´e derivace poloˇz´ıme rovny nule:

δ(P b ui2) δ bβ1

= 2X

(−1)(Yi− bβ1− bβ2Xi) = 0, δ(P

b ui2

)

δ bβ2 = 2X

(−Xi)(Yi− bβ1− bβ2Xi) = 0. (2.20) Upravou obou tˇechto rovnic z´ısk´ame 2 rovnice o dvou nezn´am´´ ych parametrech:

XYi = n bβ1 + bβ2

XXi, XYiXi = bβ1X

Xi+ bβ2X

Xi2. (2.21)

(26)

Jej´ım vyˇreˇsen´ım obdrˇz´ıme odhady obou regresn´ıch parametr˚u:

βb2 = nP

XiYi−P Xi

PYi

nP

Xi2− (P

Xi)2 =

P(Xi− X)(Yi − Y ) P(Xi− X)2 , βb1 =

PXi2P

Yi−P Xi

PXiYi

nP

Xi2− (P

Xi)2 = Y − bβ2X, (2.22) kde X a Y jsou v´ybˇerov´e pr˚umˇery pro X a Y .

2.2.2 Vlastnosti odhadov´ e funkce nejmenˇ s´ıch ˇ ctverc˚ u

Pomoc´ı metody nejmenˇs´ıch ˇctverc˚u byl proveden bodov´y odhad 1 parametr˚u bβ1

a bβ2 dan´eho v´ybˇerov´eho souboru. Za pˇredpokladu dalˇs´ıch nez´avisl´ych v´ybˇerov´ych soubor˚u se z´ısk´a v´ybˇerov´e rozdˇelen´ı hodnot odhad˚u parametr˚u, a pot´e na jej´ım z´akladˇe doch´az´ı k odhadu parametr˚u β1 a β2 z´akladn´ıho souboru[9].

Odhadov´a funkce m´a tyto vlastnosti:

• nestrannost,

• vydatnost (eficience),

• konzistence.

Nestrannost je vlastnost odhadov´e funkce bβk, kter´a ˇr´ık´a, ˇze stˇredn´ı hodnota bodov´eho regresn´ıho parametru je rovna populaˇcn´ımu regresn´ımu parametru:

E( bβk) = βk. (2.23)

Tuto vlastnost zobrazuje obr´azku 2.5, kde odhadov´a funkce cβk (zelen´a) je vych´ylen´a v˚uˇci odhadu bβk.

Dalˇs´ı z vlastnost´ı je vydatnost (eficience). Naˇse odhadov´a funkce bβk je efici- entn´ı v˚uˇci jin´e t´ehoˇz cβk∗∗ (modr´a), jestliˇze nem´a vˇetˇs´ı rozptyl. Vlastnost zobrazuje obr´azek 2.5. Z nˇeho vypl´yv´a, ˇze odhadov´a funkce bβk je z dan´e tˇr´ıdy odhadov´ych funkc´ı s nejmenˇs´ım rozptylem. Obˇe tyto vlastnosti zkoum´ame zejm´ena na menˇs´ıch v´ybˇerov´ych souborech[9].

1nezn´am´y parametr z´akladn´ıho souboru odhadujeme pomoc´ı jedin´eho ˇc´ısla

(27)

Obr´azek 2.5: Nevych´ylen´e a eficientn´ı rozdˇelen´ı parametr˚u bβk

Pro rozs´ahl´e soubory testujeme vlastnosti konzistence. Odhadov´a funkce bβk je konzistentn´ı s odhadovou funkc´ı βk pro n limitnˇe rostouc´ı do nekoneˇcna, kde se n rovn´a rozsahu v´ybˇerov´eho souboru, jestliˇze je:

• asymptoticky nestrann´a:

n→∞lim E( bβk) = βk, (2.24)

• s rostouc´ı hodnotou n parametr bβkkonverguje ke skuteˇcn´e hodnotˇe odhadnut´eho parametru βk:

n→∞lim βbk = βk. (2.25)

Obr´azek 2.6 zobrazuje tˇri odhadov´e funkce βk, βk, βk∗∗, kde s rostouc´ım rozsahem v´ybˇerov´eho souboru n roste konzistence.

Obr´azek 2.6: Konzistentn´ı rozdˇelen´ı parametr˚u bβk

(28)

2.2.3 Pˇredpoklady pro pouˇ zit´ı metody nejmenˇ s´ıch ˇ ctverc˚ u

Vlastnosti odhadov´e funkce zmiˇnovan´e v kapitole 2.2.2 jsou splnˇeny za nˇekolika pˇredpoklad˚u. Tato kapitola zkoum´a tyto pˇredpoklady a v tomto pˇr´ıpadˇe se zamˇeˇruje pouze na jednoduch´y line´arn´ı regresn´ı model[9]. Tyto pˇredpoklady jsou d´ale zobecnˇeny pro v´ıcerozmˇern´y line´arn´ı regresn´ı model v kapitole 2.4.2.

• P1: Line´arn´ı regresn´ı model Yi = β1+ β2Xi+ ui je line´arn´ı v parametrech.

• P2: Hodnoty Xi jsou fixn´ı.

• P3: Stˇredn´ı hodnota n´ahodn´e sloˇzky je nulov´a E(ui|Xi) = 0

• P4: Pro kaˇzdou i-tou skupinu bude platit, ˇze variabilita n´ahodn´e sloˇzky bude rovna σ2. Tento pˇredpoklad se tak´e naz´yv´a homoskedasticita =⇒ nemˇen´ı se rozptyl n´ahodn´e sloˇzky v jednotliv´ych skupin´ach. Opakem je heteroskedasticita

=⇒ rozptyl se mˇen´ı, napˇr. zvyˇsuje se s rostouc´ımi hodnotami Xi.

var(ui|Xi) = D(ui|Xi) = E(ui− E(ui|Xi))2 = E(u2i|Xi) = σ2 (2.26)

• P5: N´ahodn´a sloˇzka z r˚uzn´ych skupin nen´ı s´eriovˇe z´avisl´a (korelovan´a). V pˇr´ıpadˇe opaku mluv´ıme o s´eriov´e korelaci (autokorelaci) n´ahodn´e sloˇzky, kter´a pak je pozitivn´ı nebo negativn´ı.

cov(ui; uj|Xi; Xj) = E{[ui− E(ui)]|Xi}{[uj − E(uj)]|Xj} =

= E{ui|Xi}{uj|Xj} = 0 pro i 6= j (2.27)

• P6: Dalˇs´ım pˇredpokladem je nulov´a kovariance mezi n´ahodnou sloˇzkou ui a Xi. Tento pˇredpoklad z´aroveˇn vyjadˇruje, ˇze PRF m˚uˇzeme rozdˇelit na dvˇe aditivn´ı ˇc´asti tzn. na ˇc´ast deterministick´e regrese a stochastick´e regrese s n´ahodnou sloˇzkou.

cov(ui; Xi) = E[ui− E(ui)(Xi− E(Xi))] =E[ui(Xi− E(Xi))] =

= E(uiXi) − E(Xi)E(ui) = E(ui, Xi) = 0 (2.28)

• P7: Poˇcet pozorov´an´ı |X| = n mus´ı b´yt vˇetˇs´ı, jak poˇcet parametr˚u regresn´ıho modelu. U jednoduch´eho regresn´ıho modelu plat´ı n > 2.

• P8: N´ahodn´a sloˇzka m´a norm´aln´ı rozdˇelen´ı ui ∼ N(0; σ2).

2.2.4 Koeficient determinace

Koeficient determinace je jedna z veliˇcin pro hodnocen´ı regresn´ı anal´yzy[9]. Pro jeho vymezen´ı je tˇreba definovat nˇekter´e z´akladn´ı pojmy. ´Upln´y souˇcet ˇctverc˚u (TSS) je souˇcet kvadr´at˚u rozd´ıl˚u pozorovan´e hodnoty vysvˇetlovan´e promˇenn´e a pr˚umˇern´e hodnoty:

T SS = Xn

i=1

(Yi− Y )2. (2.29)

Upln´´ y souˇcet ˇctverc˚u je moˇzn´e rozloˇzit na dvˇe sloˇzky:

(29)

• rezidu´aln´ı souˇcet ˇctverc˚u (RSS):

RSS = Xn

i=1

(Yi− bYi)2, (2.30)

• vysvˇetlen´y (regresn´ı) souˇcet ˇctverc˚u (ESS):

ESS = Xn

i=1

( bYi− Y )2. (2.31)

Pouˇzit´ım Pythagorovy vˇety plat´ı (viz obr´azek 2.7):

T SS = Xn

i=1

(Yi− Y )2 = Xn

i=1

(Yi− bYi)2+ Xn

i=1

( bYi− Y )2 = RSS + ESS. (2.32)

Obr´azek 2.7: Rozklad souˇctu ˇctverc˚u TSS

Koeficient determinace R2 je pot´e definov´an, jako pod´ıl vysvˇetlovan´eho souˇctu ˇctverc˚u a celkov´e souˇctu ˇctverc˚u:

R2 = ESS

T SS = T SS − RSS

T SS = 1 − RSS

T SS. (2.33)

Ud´av´a stupeˇn vysvˇetlen´ı z´avisl´e promˇenn´e Y naˇseho regresn´ıho modelu[9].

Hodnota R2 m´a nˇekolik vlastnost´ı:

• Nab´yv´a hodnoty v intervalu < 0, 1 >.

• Pokud R2 = 1, vˇsechna v´ybˇerov´a pozorov´an´ı leˇz´ı pˇr´ımo na vyrovnan´e regresn´ı pˇr´ımce. Nejlepˇs´ı moˇzn´a moˇznost.

(30)

• Pokud R2 = 0, tak ani jedno pozorov´an´ı neleˇz´ı na regresn´ı pˇr´ımce a nepodaˇrilo se n´am vysvˇetlit ˇz´adnou ˇc´ast vysvˇetlovan´e promˇenn´e. Regresn´ı model nem´a smysl.

Z koeficientu determinace lze odvodit koeficient korelace R vztahem 2.34:

R= ±√

R2. (2.34)

Vzhledem k tomu, ˇze s koeficientem determinace je spojeno nˇekolik probl´em˚u, kter´e spoˇc´ıvaj´ı v tom, ˇze adekv´atnˇe nereaguje na zmˇeny v poˇctu pozorov´an´ı a nezohledˇnuje rozˇs´ıˇren´ı poˇctu vysvˇetluj´ıc´ıch promˇenn´ych, tak se z tˇechto d˚uvodu pouˇz´ıv´a korigovan´y koeficient determinace[9].

2.2.5 Testov´ an´ı hypot´ ez o odhadnut´ ych regresn´ıch parametrech

Po vytvoˇren´ı jednoduch´eho regresn´ıho modelu metodou nejmenˇs´ıch ˇctverc˚u zaˇc´ın´a f´aze statistick´e verifikace a dalˇs´ıho testov´an´ı hypot´ez o odhadnut´ych parametrech i cel´eho modelu. Z´akladn´ı principy testov´an´ı hypot´ez lze shrnout do tˇr´ı z´akladn´ıch f´az´ı[9]:

• formulace nulov´e a alternativn´ı hypot´ezy(H0, HA),

• v´ypoˇcet testovac´ı statistiky,

• aplikace nebo pouˇzit´ı rozhodovac´ıho pravidla o pˇrijet´ı, nebo zam´ıtnut´ı nulov´e hypot´ezy pro stanovenou hladinu v´yznamnosti.

Toto testov´an´ı m˚uˇze prob´ıhat prostˇrednictv´ım oboustrann´eho resp. jednostrann´eho testu. Vzhledem k rozsahu pr´ace se touto problematikou d´ale nezab´yv´am a podrobnˇejˇs´ı informace ke statistick´e teorii testov´an´ı hypot´ez lze naj´ıt v publikac´ıch [10] a [14].

2.3 Logistick´ y regresn´ı model

D´ale se budeme vˇenovat logistick´emu regresn´ımu modelu. Z´akladn´ım rozd´ılem mezi line´arn´ım a logistick´ym regresn´ım modelem spoˇc´ıv´a typech promˇenn´ych. Logis- tick´y, na rozd´ıl od line´arn´ıho pracuje s kategori´aln´ı z´avislou promˇennou. Napˇr´ıklad pˇr´ıtomnost/nepˇr´ıtomnost choroby, existence atd.. Odhaduje m´ıru pravdˇepodobnosti, ˇze dan´e nez´avisl´e promˇenn´e x1, . . . , xn budou zaˇrazen´e do urˇcit´e kategorie. Z hlediska data miningu patˇr´ı logistick´a regrese ke klasifikaˇcn´ım metod´am[6].

Podle z´avisl´e promˇenn´e se rozliˇsuje logistick´a regrese na:

• bin´arn´ı (dichotomick´a) - neb´yv´a pouze dvou hodnot, napˇr. ano/ne, 1/0,

• ordin´aln´ı - z´avisl´a promˇenn´a nab´yv´a v´ıce hodnot, mezi kter´ymi existuje pˇrirozen´e uspoˇr´adan´ı,

• (multi) nomin´aln´ı - z´avisl´a promˇenn´a nab´yv´a v´ıce neˇz dvou hodnot, mezi kter´ymi existuje pouze odliˇsnost, to znamen´a, ˇze je nelze ˇradit, napˇr. rasy, n´aboˇzenstv´ı atd..

(31)

V logistick´em regresn´ım modelu je tˇreba urˇcit, z jakou pravdˇepodobnost´ı nastane jev Y, jestliˇze nab´yv´a hodnot 0 =⇒ jev nenastal a 1 =⇒ jev nastal. Line´arn´ı regresn´ı model nelze pouˇz´ıt z d˚uvodu, ˇze c´ılov´a promˇenn´a je kategori´aln´ıho typu.

Z rovnice (2.35) je patrn´e, ˇze na lev´e stranˇe jsou pouze dvˇe hodnoty 0 a 1 (m˚uˇze b´yt i v´ıce kategori´ı), zat´ımco prav´a strana rovnice nab´yv´a libovoln´ych hodnot.

Ybi = bβ1+ bβ2Xi (2.35)

Z tˇechto d˚uvod˚u vyuˇzijme logistickou funkci:

f(x) = 1

1 + ex. (2.36)

Obr´azek 2.8: Logistick´a funkce

Obr´azek funkce (viz obr. 2.8) zobrazuje, ˇze nab´yv´a hodnot pouze v intervalu (0, 1).

Nyn´ı tedy definujeme logistickou regresn´ı funkci jako:

P( bYi = 1|Xi = xi) = 1

1 + e(cβ1+cβ2xi). (2.37) Pro odhady koeficient˚u bβ1 a bβ2 pouˇzijeme metodu maxim´aln´ı vˇerohodnosti.

2.3.1 Metoda maxim´ aln´ı vˇ erohodnosti

Tato metoda patˇr´ı ke skupinˇe z´akladn´ıch metod bodov´ych odhad˚u. Jedn´ım z prvn´ıch pojm˚u, kter´e je tˇreba definovat je tzv. vˇerohodnostn´ı funkce.

Necht’ X = (X1, . . . , Xn) je n´ahodn´y v´ybˇer a x = (xi, . . . , xn) je jeho realizace.

D´ale necht’ je populace (n´ahodn´y v´ybˇer) pops´ana pomoc´ı urˇcit´eho rozdˇelen´ı f (x, Θ), kde θ je nezn´am´y parametr. Potom funkci 2.38 nazveme vˇerohodnostn´ı funkc´ı[15].

L(x, θ) = L(x1, . . . , xn, θ) = f (x1, θ)f (x2, θ), . . . f (xn, θ) = Yn

f(xi,Θ). (2.38)

(32)

Metoda maxim´aln´ı vˇerohodnosti spoˇc´ıv´a v tom, ˇze za odhad nezn´am´eho pa- rametru (nezn´am´ych parametr˚u) zvol´ı hodnota bθ, kter´a pˇri dan´ych hodnot´ach maximalizuje funkci vˇerohodnosti. Za pˇredpokladu, ˇze existuje bod bθ z paramet- rick´eho prostoru, takov´y, ˇze pro vˇsechny hodnoty parametru bθ z parametrick´eho prostoru plat´ı: L(X, θ) ≤ L(X, bθ), potom nazveme tento bod maxim´alnˇe vˇerohodn´ym odhadem nezn´am´eho parametru bθ[6]. D´ale pro jednoduchost budeme ps´at pouze tvar L(θ). ˇCasto je v´yhodnˇejˇs´ı pouˇz´ıt m´ısto vˇerohodnostn´ı funkce jej´ı logaritmick´y tvar:

l(θ) = lnL(θ). (2.39)

Tuto rovnici zap´ıˇseme jako:

l(Θ) = ln(

Yn i=1

f(xi,Θ)) = Xn

i=1

lnf(xi,Θ). (2.40)

Tuto ´upravu m˚uˇzeme pouˇz´ıt z d˚uvodu, ˇze logaritmick´a funkce je monot´onn´ı, tj. m´a-li funkce L(θ) maximum v bodˇe bθM L m´a v tomt´eˇz bodˇe maximum i funkce lnL(θ)[6].

Pro nalezen´ı maxima bθM L pouˇzijeme metodu z matematick´e anal´yzy a to hled´an´ı extr´em˚u funkce l(θ). Provedeme parci´aln´ı derivaci podle parametru θ. T´ım z´ısk´ame syst´em vˇerohodnostn´ıch rovnic:

δL(θ) δθj

= 0, j = 1, . . . , m, (2.41)

s ˇreˇsen´ım θ = bθ. Mus´ıme ovˇeˇrit, zda v bodˇe bθ nab´yv´a funkce L(θ) sv´eho maxima, mus´ı tedy platit:

H(bθ) =

2L(θ) δθiδθj

m i,j=1

θ=bθ

<0 (2.42)

tedy, ˇze Hessova matice H(bθ) je negativnˇe definitn´ı[6].

2.3.2 Odhad koeficient˚ u u logistick´ eho regresn´ıho modelu

Pro urˇcen´ı koeficient˚u budeme postupovat podle v´yˇse uveden´e metody maxim´aln´ı vˇerohodnosti. Mˇejme n´ahodn´y v´ybˇer Y1, . . . , Yn alternativn´ıho rozdˇelen´ı A(ϑ), 0 <

ϑ <1,s realizacemi y1, . . . , yn[6].

P(Yi = yi) = ϑyi(1 − ϑ)1−yi (2.43) Pro stˇredn´ı hodnotu plat´ı E(Yi) = ϑ a pro rozptyl D(Yi) = ϑ(1 − ϑ). Kaˇzd´emu yi pˇr´ısluˇs´ı realizace xi1, . . . , xin veliˇcin Xi1. . . , Xin. Potom podle 2.37 modelujeme pravdˇepodobnost jako[6]:

P(Yi = yi|Xi = xi) =

 1

1 + e12xi)

yi

1 − 1

1 + e12xi)

1−yi

=

= (e12xi))yi1 1 + e12xi)

(2.44)

(33)

Vˇerohodnostn´ı funkce je pot´e ve tvaru:

L(β) = Yn i=1

P(Yi = yi) = Yn i=1

(e12xi))1−yi

1 + e12xi) . (2.45) Pouˇzijeme logaritmickou vˇerohodnostn´ı funkci (2.40), pomoc´ı kter´e z n´asoben´ı dostaneme sˇc´ıt´an´ı:

l(β) = ln(L(β)) = ln

Yn

i=1

(e12xi))1−yi 1 + e12xi)



= Xn

i=1

ln

(e12xi))1−yi 1 + e12xi)



=

= Xn

i=1

[(yi− 1)(β1+ β2xi) − ln(1 + e12xi))].

(2.46) Nyn´ı provedeme parci´aln´ı derivace:

δ(l(β)) δβ1 =

Xn i=1

(yi− 1) + e1+ β2xi)

1 + e1 + β2xi) = 0, δ(l(β))

δβ2 = Xn

i=1

(yi − 1)xi+ e1+ β2xi)

1 + e1 + β2xi)xi = 0. (2.47) Rovnice d´ale uprav´ıme:

Xn i=1

yi− Xn

i=1

1

1 + eβ12xi = 0, Xn

i=1

yixi− Xn

i=1

1

1 + eβ12xixi = 0. (2.48) Jedn´a se o soustavu neline´arn´ıch rovnic o dvou nezn´am´ych. ˇReˇsen´ım tˇechto rovnic jsou koeficienty β1 a β2. Toto ˇreˇsen´ı nelze nal´ezt v algebraick´em tvaru, proto se hled´a numericky napˇr´ıklad pomoc´ı Newtonovy-Raphsonovy metody. V´ıce k numerick´ym metod´am viz publikace[12].

2.4 V´ıcerozmˇ ern´ y line´ arn´ı regresn´ı model

V t´eto kapitole se budeme vˇenovat rozˇs´ıˇren´ı line´arn´ıho regresn´ıho modelu pro n vysvˇetluj´ıc promˇenn´ych, tedy X1. . . , Xn. V praxi se budeme s t´ımto typem regresn´ıho modelu setk´avat mnohem ˇcastˇeji, neˇz s jednoduchou line´arn´ı regres´ı, protoˇze vysvˇetlovan´a promˇenn´a Y je ovlivnˇena celou ˇradou dalˇs´ıch pˇr´ıˇcinn´ych faktor˚u X1, . . . , Xn. Zaˇrazen´ı tˇechto faktor˚u do modelu pˇrispˇeje k vyˇsˇs´ı m´ıˇre vysvˇetlen´ı z´avisl´e promˇenn´e Y [9].

(34)

Stejnˇe jako u jednoduch´eho line´arn´ıho regresn´ıho modelu formulujeme determi- nistickou populaˇcn´ı regresn´ı funkci jako:

E(Yi|Xi2, . . . , Xij) = β1+ β2Xi2+ · · · + βjXij i= 1, 2, . . . , n. (2.49) Zahrnut´ım n´ahodn´e sloˇzky definujeme stochastickou PRF:

E(Yi|Xi2, . . . , Xij) = Yi = β1+ β2Xi2 + · · · + βjXij + ui i= 1, 2, . . . , n. (2.50) Tvar (2.50) m˚uˇzeme pro jednotliv´e hodnoty i = 1, 2 . . . , n rozepsat jako:

Y1 = β1+ β2X12+ β3X13+ · · · + βjX1j + u1

Y2 = β2+ β2X22+ β3X23+ · · · + βjX2j + u2 (2.51) ...

Yn= βn+ β2Xn2+ β3Xn3+ · · · + βjXnj+ un.

Soustavu rovnic 2.51 m˚uˇzeme zapsat pomoc´ı maticov´eho z´apisu ve tvaru:



 Y1

Y2 ...

Yn



=





1 X12 X13 · · · X1j 1 X22 X23 · · · X2j ... ... ... ... ...

1 Xn2 Xn3 · · · Xnj



×



 β1

β2 ...

βj



+



 u1

u2 ...

un



. (2.52)

Tento tvar vyj´adˇr´ıme prostˇrednictv´ım matice a vektor˚u:

~

y = X × ~β + ~u. (2.53)

Kde:

~

y: je vektor (n × 1) vysvˇetlovan´e promˇenn´e Yi,

X: je matice (n × j) vysvˇetluj´ıc´ıch promˇenn´ych Xi, kde prvn´ı sloupec je jednotkov´y vektor, kter´y odpov´ıd´a ´urovˇnov´e konstantˇe,

β~: je vektor (j × 1) regresn´ıch koeficient˚u,

~

u: je vektor (n × 1) n´ahodn´e sloˇzky.

Odhad pro v´ybˇerovou regresn´ı funkci zap´ıˇseme obdobnˇe jako u jednoduch´eho line´arn´ıho regresn´ıho modelu ve tvaru[9]:

~

y = X ×~bβ + ~bu. (2.54)

Pro odhad nezn´am´ych parametr˚u bβ1, . . . , bβj m˚uˇzeme pouˇz´ıt metodu nejmenˇs´ıch ˇctverc˚u, metodu maxim´aln´ı vˇerohodnosti nebo zobecnˇenou metodu moment˚u. N´asleduj´ıc´ı kapitola se zamˇeˇruje na prvn´ı z uveden´ych metod.

(35)

2.4.1 Metoda nejmenˇ s´ıch ˇ ctverc˚ u pro v´ıcerozmˇ ern´ y line´ arn´ı re- gresn´ı model

Princip metody nejmenˇs´ıch ˇctverc˚u pro v´ıcerozmˇern´y line´arn´ı regresn´ı model je stejn´y jako pro jednoduch´y. Hled´ame odhady pro nezn´ame parametry ~bβ = bβ1. . . , cβn

regresn´ı funkce 2.54. Z t´eto funkce vyj´adˇr´ıme rezidu´aln´ı sloˇzku:

~bu = ~y − X ×~bβ. (2.55)

Tedy opˇet hled´ame minimalizace souˇctu kvadr´atu rezidu´aln´ıch sloˇzek ~bu. Kvadr´at zap´ıˇseme jako n´asobek transponovan´eho vektoru ~buT a vektoru ~bu (2.60) [9].

~buT~bu = (~y − X bβ)T(~y − X bβ) = ~yT~y−~bβTXT~y− ~yTX~bβ + ~bβTXTX~bβ (2.56) Rovnici popsanou v´yˇse m˚uˇzeme upravit do tvaru 2.57, protoˇze plat´ı, ˇze (~yTX~bβ)T =

~bβTXT~y, neboli transponovan´y skal´ar je roven skal´aru[11].

~buT~bu = (~y − X bβ)T(~y − X bβ) = ~yT~y− 2~bβTXT~y+~bβTXTX~bβ (2.57) Pro nalezen´ı minima funkce 2.57 pouˇzijeme metodu matematick´e anal´yzy hled´an´ı extr´emu. Funkci parci´alnˇe zderivujeme podle~bβ a poloˇz´ıme rovnu nule:

δ(~buT~bu)

δ bβ = −2XT~y+ 2XTX~bβ = 0. (2.58) Vyj´adˇren´ım ~bβ z´ısk´ame ˇreˇsen´ı ve tvaru:

~bβ = (XTX)1XT~y. (2.59)

Jednou z metod v´ypoˇctu koeficient˚u jsou napˇr´ıklad numerick´e metody. Mezi nˇe patˇr´ı tak´e gradientn´ı metoda, kter´a je d´ale pops´ana v praktick´e ˇc´asti. Ostatn´ımi metodami se pr´ace vzhledem rozsahu d´ale nezab´yv´a a jejich popis je k dispozici v publikaci [12].

2.4.2 Rozˇ s´ıˇren´ e pˇredpoklady pro metodu nejmenˇ s´ıch ˇ ctverc˚ u

N´asleduj´ıc´ı kapitola rozˇsiˇruje pˇredpoklady pro v´ıcerozmˇern´y line´arn´ı regresn´ı model[9].

• P1: Line´arn´ı regresn´ı model ~y = X × ~β + ~u je line´arn´ı v parametrech.

• P2: Matice X nen´ı stochastick´a tzn., ˇze v´ybˇerov´y soubor m´a pevnˇe dan´e promˇenn´e X2, X3, . . . , Xn

• P3: Stˇredn´ı hodnota n´ahodn´e sloˇzky je nulov´a E(~u) = 0

(36)

• P4 a P5: Dalˇs´ıdva pˇredpoklady homoskedasticity a s´eriov´e nez´avislosti n´ahodn´e sloˇzky m˚uˇzeme m˚uˇzeme vyj´adˇrit souˇcasnˇe prostˇrednictv´ım variaˇcnˇe-kovarianˇcn´ı matic´ı n´ahodn´ych sloˇzek. Tak´e na tomto pˇredpokladu objasn´ıme, pˇr´ıˇcinu n´asoben´ı vektor˚u ~uT~u (2.60).

Vyn´asoben´ım tˇechto dvou vektor˚u dostaneme n´asleduj´ıc´ı tvar:

~ uT~u=



 u1 u2 ...

un



× u1 u2 · · · un

=





u1u1 u1u2 · · · u1un

u2u1 u2u2 · · · u2un

... ... . .. ...

unu1 unu2 · · · unun



 (2.60)

Podle pˇredpoklad˚u pro jednoduch´y line´arn´ı regresn´ı model v´ıme, ˇze podle 2.26 a 2.27 plat´ı:

var(ui|Xi) = E(u2i|Xi) = σ2 (2.61) cov(ui; uj|Xi; Xj) = 0 pro i 6= j (2.62) M˚uˇzeme tedy matici 2.60 pˇrepsat do tvaru





u1u1 u1u2 · · · u1un

u2u1 u2u2 · · · u2un

... ... . .. ...

unu1 unu2 · · · unun



=





var(u1) cov(u1; u2) · · · cov(u1; un) cov(u2; u1) var(u2) · · · cov(u2; un)

... ... . .. ...

cov(unu1) cov(unu2) · · · var(un)



=

=





σ2 0 · · · 0 0 σ2 · · · 0 ... ... ... ...

0 0 · · · σ2



= σ2·





1 0 · · · 0 0 1 · · · 0 ... ... ... ...

0 0 · · · 1



= σ2· In.

(2.63) Pˇredpoklad homoskedasticity n´ahodn´e sloˇzky vyjadˇruje, ˇze pro kaˇzd´e xijǫIn, kde i = j bude xij = 1 a druh´y pˇredpoklad s´eriov´e nez´avislosti n´ahodn´e sloˇzky (nepˇr´ıtomnost autokorelace) vyjadˇruj´ı prvky xijǫIn, kde i 6= j takov´e, ˇze xij = 0.

• P6: Tento pˇredpoklad vyjadˇruje nekoleraci sloupc˚u matice X s vektorem n´ahodn´e sloˇzky ~u.

E(XT~u) = 0 (2.64)

• P7: Poˇcet nez´avisl´ych ˇr´adk˚u se rovn´a souˇctu sloupc˚u a ten je menˇs´ı nebo roven poˇctu ˇr´adk˚u t´eto matice (poˇcet pozorov´an´ı).

h(X) = k ≤ n (2.65)

• P8: N´ahodn´a sloˇzka m´a norm´aln´ı rozdˇelen´ı ~u ≈ N(0; σ2· In)

References

Related documents

Zvolil jsem ˇreˇsen´ı GPS/GPRS/GSM Module V3.0 [12] od firmy DFROBOT, kter´ e obsahuje moˇ znost jednoduch´ eho pˇripojen´ı vˇsech moˇ zn´ ych periferi´ı

Provozní teplotu jsem zvolil 35°C odhadem, mazání vazelínou, ložisko nezakrytované v lehce prašném prostředí.. Vazelínu doporučenou výrobcem

Ve většině případů je tolerance 3 dny. Avšak například u všech německých zákazníků je tolerance výrazně rozšířena, a to na 99 dní. K rozšíření tolerance bylo

lze říci, ţe míra nezaměstnanosti je nejen velice důleţitým ekonomickým ukazatelem, ale také se velmi závaţně dotýká obyvatelstva daného státu. Příčinou volby

D´ ale pr´ ace zahrnuje moˇ znosti dekompo- zice a rekonstrukce pomoc´ı wavelet transformace s pouˇ zit´ım r˚ uzn´ ych wavelet funkc´ı, modifikace d´ılˇ c´ıch koeficient˚

Užiji-li bakalářskou práci nebo poskytnu-li licenci k jejímu využití, jsem si vědom povinnosti informovat o této skutečnosti TUL; v tomto případě má TUL

Na z´ akladˇ e anal´ yzy relaˇ cn´ı a nerelaˇ cn´ı datab´ aze a poˇ zadavk˚ u k t´ eto bakal´ aˇrsk´ e pr´ aci lze ˇr´ıct, ˇ ze nerelaˇ cn´ı syst´ emy ˇr´ızen´ı b´

Po vytvoˇ ren´ı jednoduch´ eho regresn´ıho modelu metodou nejmenˇ s´ıch ˇ ctverc˚ u zaˇ c´ın´ a f´ aze statistick´ e verifikace a dalˇ s´ıho testov´ an´ı hypot´ ez