• No results found

Odhady regresn´ıch parametr˚ u test ˇc. 2

6.2 Casov´ ˇ e srovn´ an´ı

V t´eto ˇc´asti provedu ˇcasov´e srovn´an´ı budov´an´ı regresn´ıho modelu mezi Modeler a program v Octave. Porovn´av´am jak ˇcas d´ılˇc´ıch ˇc´ast´ı procesu, tak i celkovou dobu.

V Modeleru lze pˇri spuˇstˇen´ı cel´eho proudu a libovoln´ych jeho ˇc´ast´ı zaznamen´avat ˇcas jejich vykon´an´ı, ale sofistikovanˇejˇs´ı ´udaje o dob´ach v´ykonu jednotliv´ych ˇc´ast´ı pˇr´ıpadˇe spuˇstˇen´ı cel´eho proudu v nˇem nejsou k dispozici. Naproti tomu Octave poskytuje nˇekolik n´astroj˚u pro ˇcasov´an´ı a zjiˇstˇen´ı doby pr˚ubˇehu d´ılˇc´ıch funkc´ı a cel´eho procesu.

Jedn´ım z nich je n´astroj profile, kter´y lze aktivovat a deaktivovat v libovoln´em ´useku programu. Jeho v´ystup lze zobrazit zaps´an´ım pˇr´ıkazu profshow do pˇr´ıkazov´e konzole v prostˇred´ı Octave. Jeho v´ystup zobrazuje tabulka 6.7. Dalˇs´ı moˇznost´ı ˇcasov´an´ı je pouˇzit´ı funkc´ı tic() a toc()[7].

Funkce Celkov´y ˇcas(s) Procesorov´y ˇcas (s) Poˇcet proveden´ı

questdlg 8.18 .002 7

listdlg 3.751 .001 2

input 2.443 1.963 1

normalize 1.15 1.108 2

testing .005 .003 1

normalEqn .003 .002 2

fprintf .003 .003 82

Tabulka 6.7: ˇCas v´ypoˇctu

Prvn´ı dva ˇr´adky tabulky 6.7 s oznaˇcen´ım questdlg a listdlg jsou dialogov´a okna, kter´a ˇcekaj´ı na vstup od uˇzivatele. D´ale funkce input reprezentuje dobu ˇcten´ı. Modeler v tomto pˇr´ıpadˇe dosahoval pˇribliˇznˇe ˇcasu 0.12 sekundy. Tedy podobn´eho ˇcasu jako funkce csvread(), kterou jsem se rozhodl nepouˇz´ıt z d˚uvod˚u, kter´e ud´av´am v kapitole 5.2. Vlastn´ı v´ypoˇcet parametr˚u regresn´ıho modelu a jeho otestov´an´ı dos´ahlo v pro-gramu Octave procesorov´eho ˇcasu 0.008 (souˇcet doby funkc´ı normalEqn() a testing()).

Podle zaznamenan´ych ´udaj˚u z Modeleru byl procesorov´y ˇcas (CPU time) tvorby regresn´ıho modelu 0.008. Tedy oba dos´ahly srovnateln´eho ˇcasu pˇri odhadu regresn´ıch parametr˚u a celkov´eho testov´an´ı modelu.

7 Z´ avˇ er

Zpracov´an´ım diplomov´e pr´ace jsem si prohloubil znalosti regresn´ı anal´yzy a stro-jov´eho uˇcen´ı, ale pˇrimˇeˇrenˇe rozsahu diplomov´e pr´ace, kter´e d´ıky tomu m˚uˇzu aplikovat v data miningov´ych ´uloh´ach. Podrobnˇe jsem rozebral metody line´arn´ı a logistick´e regrese. N´aslednˇe jsem vysvˇetlil proces ekonometrick´eho modelov´an´ı a na praktick´em pˇr´ıkladˇe pˇredvedl jej´ı uplatnˇen´ı spoleˇcnˇe s aplikac´ı line´arn´ıho regresn´ıho modelu.

T´ema ekonometrie a ekonometrick´e modelov´an´ı jsem zpracoval jako v´ykladovou studii do kurzu Datamining na ALS port´ale.

V r´amci pˇr´ıpravy na diplomovou pr´aci a v pˇredmˇetu Datamining jsem se sezn´amil z kurzy typy MOOC a s´am jsem jeden absolvoval. Konkr´etnˇe kurz Machine Lear-ning zamˇeˇren´y na strojov´e uˇcen´ı. ˇSlo o kurz na serveru Coursera, kter´y provozuje univerzita Stanford. Byla to m´a prvn´ı zkuˇsenost s MOOC kurzem takov´eho typu.

Kurz mˇe velice bavil a byl cenn´ym informaˇcn´ım zdrojem nejen pro tuto pr´aci, ale i pro dalˇs´ı aplikace. Nemohu jinak neˇz tuto formu v´yukov´ych kurz˚u doporuˇcit.

V praktick´e ˇc´asti jsem zpracoval pˇr´ıpadovou studii v programu IBM SPSS Mode-ler. Konkr´etnˇe odhad ceny nemovitosti na z´akladˇe zn´am´ych skuteˇcnost´ı a aplikoval na ni line´arn´ı regresn´ı model. Podle podan´ych v´ysledk˚u model dos´ahl dobr´e kvality.

D´ale jsem naprogramoval aplikaci v prostˇred´ı Octave, pomoc´ı kter´e je moˇzno vytvoˇrit vlastn´ı line´arn´ı regresn´ı model na libovoln´ych datech spoleˇcnˇe s jeho otestov´an´ım a tes-tov´an´ım jednotliv´ych atribut˚u. V´ystupy obou tˇechto ˇreˇsen´ı jsem porovnal z hlediska pˇresnosti v´ysledk˚u a ˇcasov´e n´aroˇcnosti. Porovn´an´ı probˇehlo nad nˇekolika v´ybˇerov´ymi soubory a bylo dosaˇzeno srovnateln´e pˇresnosti, jako v pˇr´ıpadˇe regresn´ıho modelu sestaven´eho v programu Modeler. Podle zaznamenan´ych ˇcas˚u stavby regresn´ıho modelu byla tak´e obˇe ˇreˇsen´ı porovnateln´a.

Z celkov´eho hlediska jsou programy diametr´alnˇe odliˇsn´e, a tedy neporovnateln´e.

Program IBM SPSS Modeler je komplexn´ı n´astroj pro proveden´ı celkov´e anal´yzy dat a umoˇzˇnuje pouˇzit´ı mnoho rozliˇcn´ych n´astroj˚u pro pr´aci s nimi. Naproti tomu m˚uj program se zamˇeˇruje na line´arn´ı regresn´ı model a je vhodn´y pro pouˇzit´ı tam, kde nejsou tˇreba tak rozs´ahl´e programy typu Modeler. Dalˇs´ım d˚uvodem m˚uˇze b´yt potˇreba licence, kterou program Modeler vyˇzaduje a s t´ım spojen´e i licenˇcn´ı poplatky.

Vytvoˇren´y program je vhodn´y pro v´yuku line´arn´ı regresn´ı anal´yzy, protoˇze celkov´y proces v´ypoˇctu line´arn´ı regrese vˇcetnˇe jeho testov´an´ı je n´azornˇe pops´an a zdokumentov´an. Program m˚uˇze pracovat s libovolnou datovou sadou, kde bude

sada atribut˚u ˇc´ıseln´eho typu a jeden z nich bude vhodnou c´ılovou promˇennou. Jedin´e omezen´ı je ve form´atu souboru, kter´y je pro analytick´e a data miningov´e zad´an´ı typick´y. Bude pouˇzit pro v´yuku regresn´ı anal´yzy v pˇredmˇetu Datamining. Dalˇs´ı v´yhodou vytvoˇren´eho programu je jeho funkˇcnost ve svobodn´em prostˇred´ı Octave, tud´ıˇz je vhodn´y pro studijn´ı ´uˇcely. V pˇr´ıpadˇe dalˇs´ıch rozˇs´ıˇren´ı vytvoˇren´eho programu bych se zamˇeˇril na logistick´y regresn´ı model a jeho moˇznosti ˇreˇsen´ı a testov´an´ı.

Literatura

[1] Aha, D.; Asuncion, A.; Newman, D.: UCI Machine Learning Repository[online].

Dostupn´e z: http://archive.ics.uci.edu/ml/.

[2] Aha, D. W.; Kibler, D. F.; Albert, M. K.: Instance-based prediction of real-valued attributes. 1989, 51 s.

[3] Berka, P.: Dob´yv´an´ı znalost´ı z datab´az´ı. Praha: Academia, 2003, ISBN 80-200-1062-9, 336 s.

[4] Coursera: Free Online Courses From Top Universities [online]. Dostupn´e z:

https://www.coursera.org/.

[5] CSU: ˇCesk´y statistick´y ´uˇrad [online]. Dostupn´e z: https://www.czso.cz/.

[6] Duda, R. O.; Hart, P. E.; Stork, D. G.: Pattern classification,, 2 nd edition.

2001 [cit. 2017-02-18], ISBN 111858600X, 680 s., dostupn´e z: https://books.

google.cz/books?isbn=111858600X.

[7] Eaton, J. W.: GNU Octave documentation [online]. Dostupn´e z: https://www.

gnu.org/software/octave/doc/v4.0.3.

[8] Goldbloom, A.: Kaggle - Your Home for Data Science[online]. Dostupn´e z:

https://www.kaggle.com/.

[9] Hanˇclov´a, J.: Ekonomerick´e modelov´an´ı. Praha: Professional Publishing, 2012, ISBN 978-80-7431-088-1, 214 s.

[10] Hendl, J.: Pˇrehled statistick´ych metod. Praha: 4 rozˇs. Vyd. Port´al s.r.o., 2012 [cit. 2016-12-25], ISBN 978-80-262-0200-4, 736 s.

[11] Hindls, R.; Hronov´a, S.; Seger, J.: Statistika pro ekonomy. Praha: Professional Publishing, vyd. 7, 2004 [cit. 2017-03-15], ISBN 80-86419-59-2, 417 s.

[12] Horov´a, I.; Zelinka, J.: Numerick´e metody [online]. Brno: Masarykova univer-zity, 2008 [cit. 2017-02-28], dostupn´e z: https://www.math.muni.cz/~zelinka/

dokumenty/numerika.pdf.

[13] Keynes, J. M.: The general theory of employment, interest and money. Kissim-mee,USA: Singnalman Publishing, 2009, ISBN 978-0-9840614-0-2, 264 s.

[14] Kohout, V.: Teorie odhadu Kapitola 10. Z ˇCU Plzeˇn: Skriptum ZCU [online], 22.04.2004 [cit. 2017-02-14], dostupn´e z: http://www.kmt.zcu.cz/person/

Kohout/info_soubory/letnisem/zs/stat10.pdf.

[15] Myung, I. J.: Tutorial on maximum likelihood estimation [online]. 2003-02 [cit.

2017-01-15], dostupn´e z: http://www.sciencedirect.com/science/article/

pii/S0022249602000287.

[16] Rud, O. P.: Datamining. Praha: Computer Press, 2006, ISBN 80-722-6577-6, 416 s.

[17] Yin, Y.; Kaku, I.; Tang, J.: Data Mining,. London Ltd: Springer, 2011.

A Obsah pˇriloˇ zen´ eho CD

• diplomov´a pr´ace 2017 tom´aˇs kadleˇcek.pdf

• Pˇr´ıpadov´a studie

– Pˇr´ıpadov´a studie.pdf – PopisDat.pdf

– PripadovaStudieModeler.str – train.csv

• Program v Octave

• MOOC kurz – Diplom.pdf

• Kurz Datamining

– Jednoduch´y line´arn´ı regresn´ı model.pdf – Logistick´y regresn´ı model.pdf

– V´ıcerozmˇern´y line´arn´ı regresn´ı model.pdf – Ekonometrie.pdf

– Pˇr´ıpadov´a studie.pdf

• Data test ˇc. 2 – data.csv – popis dat.pdf

• Obr´azky pouˇzit´e v pr´aci

B Certifik´ at o absolvov´ an´ı kurzu Machine learning

Obr´azek B.1: Certifik´at o absolvov´an´ı kurzu Machine Learning

C Nemovitosti

Atribut Popis

Id Identifik´ator nemovitosti MSSubClass Identifikuje tˇr´ıdu nemovitosti MSZoning ona nemovitosti

LotFrontage Vzd´alenost vzduˇsnou ˇcarou od cesty k nemovitosti LotArea Celkov´a rozloha nemovitosti ve ˇctvereˇcn´ıch stop´ach Street Ulice ve kter´e se nemovitost nal´ez´a

Alley Alej ve kter´e se nemovitost nal´ez´a LotShape Tvar nemovitosti

Condition1 Vzd´alenost k objekt˚um v okol´ı Condition2 Vzd´alenost k objekt˚um v okol´ı 2 BldgType Typ budovy - rodinn´y, bytovka atd.

HouseStyle Typ budovy - poˇcet pater OverallQual Celkov´e ohodnoceni materi´alu

OverallCond Ohodnoceni celkov´eho stavu nemovitosti YearBuilt Rok v´ystavby

YearRemodAdd Rok rekonstrukce RoofStyle Typ zastˇreˇsen´ı

RoofMatl Materi´al pouˇzit´y pro zastˇreˇsen´ı Exterior1st Extern´ı zastˇreˇsen´ı nemovitosti Exterior2nd Extern´ı zastˇreˇsen´ı nemovitosti 2 MasVnrType Typ pouˇzit´eho zdiva

MasVnrArea Plocha zdi ve ˇctvereˇcn´ıch stop´ach ExterQual Kvalita extern´ıho materi´al˚u

ExterCond Aktu´aln´ı kvalita extern´ıch materi´al˚u Foundation Materi´al pouˇzit´y pro z´aklady BsmtQual Pˇribliˇzn´a v´yˇska sklepa BsmtCond Hodnoceni kvality sklepa BsmtExposure Stav kvality sklepa

BsmtFinType1 Hodnoceni kvality dokonˇcen´eho sklepa 1

Tabulka C.1: Popis vˇsech atribut˚u 1

Atribut Popis

BsmtFinSF1 Plocha dokonˇcen´eho sklepa 1 ve ˇctvereˇcn´ıch stop´ach BsmtFinType2 Hodnoceni kvality dokonˇcen´eho sklepa 2

BsmtFinSF2 Plocha dokonˇcen´eho sklepa 2 ve ˇctvereˇcn´ıch stop´ach BsmtUnfSF Plocha nedokonˇcen´eho sklepa ve ˇctvereˇcn´ıch stop´ach TotalBsmtSF Celkov´a plocha sklepa ve ˇctvereˇcn´ıch stop´ach

Heating Typ zatepleni

HeatingQC Kvalita zatepleni CentralAir Klimatizace Electrical Elektrick´e veden´ı

1stFlrSF Plocha prvn´ıho patra ve ˇctvereˇcn´ıch stop´ach 2ndFlrSF Plocha druh´eho patra ve ˇctvereˇcn´ıch stop´ach

LowQualFinSF Plocha oblasti ˇspatn´eho stavu nemovitosti ve ˇctvereˇcn´ıch stop´ach GrLivArea Plocha pˇr´ızem´ı ve ˇctvereˇcn´ıch stop´ach

BsmtFullBath Poˇcet mal´ych koupelen v suter´enu BsmtHalfBath Poˇcet koupelen v suter´enu

FullBath Celkov´y poˇcet mal´ych koupelen HalfBath Celkov´y poˇcet koupelen

BedroomAbvGr Poˇcet loˇznic KitchenAbvGr Poˇcet kuchyn´ı KitchenQual Kvalita kuchynˇe

TotRmsAbvGrd Celkov´y poˇcet m´ıstnost´ı bez koupelen Functional Funkcionalita nemovitost´ı

Fireplaces Poˇcet ´unikov´ych v´ychod˚u FireplaceQu Kvalita ´unikov´ych v´ychod˚u GarageType Typ gar´aˇze

GarageYrBlt Rok v´ystavby gar´aˇze GarageFinish Dokonˇcenost gar´aˇze

GarageCars Poˇcet automobil˚u, kter´y se vejde do gar´aˇze GarageArea Celkov´a plocha gar´aˇze ve ˇctvereˇcn´ıch stop´ach GarageQual Kvalita gar´aˇze

Tabulka C.2: Popis vˇsech atribut˚u 2

D Vypoˇ cten´ e koeficienty a jejich statistiky

Atribut Koeficient T statistika Sign. t

Konstanta -1245621.9551 -9.3375 .0000

LotFrontage 13.9533 0.2755 .7830

LotArea .5284 4.9670 .0000

OverallQual 19220.5075 16.4099 .0000

YearBuilt 225.0445 3.7908 .0002

YearRemodAdd 357.7320 5.5558 .0000

MasVnrArea 32.4003 5.2588 .0000

TotalBsmtSF 16.3792 3.9140 .0001

1stFlrSF 31.4315 1.4793 .1393

2ndFlrSF 22.9916 1.1001 .2715

GrLivArea 16.4208 .7916 .4287

FullBath -3726.4499 -1.4207 .1556

TotRmsAbvGrd 1084.6726 1.0000 .3175

Fireplaces 8113.5768 4.4984 .0000

GarageArea 38.0152 6.1719 .0000

GarageYrBlt 15.9399 .2225 .8239

WoodDeckSF 32.1318 3.9162 .0001

OpenPorchSF 5.8197 .3698 .7116

Tabulka D.1: Odhady regresn´ıch parametr˚u

E Popis atribut˚ u testu ˇ c. 2

1. N´azev prodejce: 30 (adviser, amdahl,apollo, basf, bti, burroughs, c.r.d, cambex, cdc, dec, dg, formation, four-phase, gould, honeywell, hp, ibm, ipl, magnuson, microdata, nas, ncr, nixdorf, perkin-elmer, prime, siemens, sperry, sratus, wang)

2. N´azev modelu: mnoho jedineˇcn´ych symbol˚u 3. MYCT: takt stroje v nanosekund (cel´e ˇc´ıslo) 4. Mmin: minim´aln´ı hlavn´ı pamˇet’ v kB (cel´e ˇc´ıslo ) 5. Mmax: maxim´aln´ı hlavn´ı pamˇet’ v KB (cel´e ˇc´ıslo) 6. CACH: vyrovn´avac´ı pamˇet’ v kB (cel´e ˇc´ıslo) 7. CHMIN: minim´aln´ı kan´aly (cel´e ˇc´ıslo) 8. CHMAX: maxim´aln´ı kan´aly (cel´e ˇc´ıslo)

9. PRP: publikovan´a relativn´ı v´ykonnost (cel´e ˇc´ıslo)

10. ERP: odhadnut´y relativn´ı v´ykon viz publikace [2] (cel´e ˇc´ıslo)

Related documents