6.2 Casov´ ˇ e srovn´ an´ı
V t´eto ˇc´asti provedu ˇcasov´e srovn´an´ı budov´an´ı regresn´ıho modelu mezi Modeler a program v Octave. Porovn´av´am jak ˇcas d´ılˇc´ıch ˇc´ast´ı procesu, tak i celkovou dobu.
V Modeleru lze pˇri spuˇstˇen´ı cel´eho proudu a libovoln´ych jeho ˇc´ast´ı zaznamen´avat ˇcas jejich vykon´an´ı, ale sofistikovanˇejˇs´ı ´udaje o dob´ach v´ykonu jednotliv´ych ˇc´ast´ı pˇr´ıpadˇe spuˇstˇen´ı cel´eho proudu v nˇem nejsou k dispozici. Naproti tomu Octave poskytuje nˇekolik n´astroj˚u pro ˇcasov´an´ı a zjiˇstˇen´ı doby pr˚ubˇehu d´ılˇc´ıch funkc´ı a cel´eho procesu.
Jedn´ım z nich je n´astroj profile, kter´y lze aktivovat a deaktivovat v libovoln´em ´useku programu. Jeho v´ystup lze zobrazit zaps´an´ım pˇr´ıkazu profshow do pˇr´ıkazov´e konzole v prostˇred´ı Octave. Jeho v´ystup zobrazuje tabulka 6.7. Dalˇs´ı moˇznost´ı ˇcasov´an´ı je pouˇzit´ı funkc´ı tic() a toc()[7].
Funkce Celkov´y ˇcas(s) Procesorov´y ˇcas (s) Poˇcet proveden´ı
questdlg 8.18 .002 7
listdlg 3.751 .001 2
input 2.443 1.963 1
normalize 1.15 1.108 2
testing .005 .003 1
normalEqn .003 .002 2
fprintf .003 .003 82
Tabulka 6.7: ˇCas v´ypoˇctu
Prvn´ı dva ˇr´adky tabulky 6.7 s oznaˇcen´ım questdlg a listdlg jsou dialogov´a okna, kter´a ˇcekaj´ı na vstup od uˇzivatele. D´ale funkce input reprezentuje dobu ˇcten´ı. Modeler v tomto pˇr´ıpadˇe dosahoval pˇribliˇznˇe ˇcasu 0.12 sekundy. Tedy podobn´eho ˇcasu jako funkce csvread(), kterou jsem se rozhodl nepouˇz´ıt z d˚uvod˚u, kter´e ud´av´am v kapitole 5.2. Vlastn´ı v´ypoˇcet parametr˚u regresn´ıho modelu a jeho otestov´an´ı dos´ahlo v pro-gramu Octave procesorov´eho ˇcasu 0.008 (souˇcet doby funkc´ı normalEqn() a testing()).
Podle zaznamenan´ych ´udaj˚u z Modeleru byl procesorov´y ˇcas (CPU time) tvorby regresn´ıho modelu 0.008. Tedy oba dos´ahly srovnateln´eho ˇcasu pˇri odhadu regresn´ıch parametr˚u a celkov´eho testov´an´ı modelu.
7 Z´ avˇ er
Zpracov´an´ım diplomov´e pr´ace jsem si prohloubil znalosti regresn´ı anal´yzy a stro-jov´eho uˇcen´ı, ale pˇrimˇeˇrenˇe rozsahu diplomov´e pr´ace, kter´e d´ıky tomu m˚uˇzu aplikovat v data miningov´ych ´uloh´ach. Podrobnˇe jsem rozebral metody line´arn´ı a logistick´e regrese. N´aslednˇe jsem vysvˇetlil proces ekonometrick´eho modelov´an´ı a na praktick´em pˇr´ıkladˇe pˇredvedl jej´ı uplatnˇen´ı spoleˇcnˇe s aplikac´ı line´arn´ıho regresn´ıho modelu.
T´ema ekonometrie a ekonometrick´e modelov´an´ı jsem zpracoval jako v´ykladovou studii do kurzu Datamining na ALS port´ale.
V r´amci pˇr´ıpravy na diplomovou pr´aci a v pˇredmˇetu Datamining jsem se sezn´amil z kurzy typy MOOC a s´am jsem jeden absolvoval. Konkr´etnˇe kurz Machine Lear-ning zamˇeˇren´y na strojov´e uˇcen´ı. ˇSlo o kurz na serveru Coursera, kter´y provozuje univerzita Stanford. Byla to m´a prvn´ı zkuˇsenost s MOOC kurzem takov´eho typu.
Kurz mˇe velice bavil a byl cenn´ym informaˇcn´ım zdrojem nejen pro tuto pr´aci, ale i pro dalˇs´ı aplikace. Nemohu jinak neˇz tuto formu v´yukov´ych kurz˚u doporuˇcit.
V praktick´e ˇc´asti jsem zpracoval pˇr´ıpadovou studii v programu IBM SPSS Mode-ler. Konkr´etnˇe odhad ceny nemovitosti na z´akladˇe zn´am´ych skuteˇcnost´ı a aplikoval na ni line´arn´ı regresn´ı model. Podle podan´ych v´ysledk˚u model dos´ahl dobr´e kvality.
D´ale jsem naprogramoval aplikaci v prostˇred´ı Octave, pomoc´ı kter´e je moˇzno vytvoˇrit vlastn´ı line´arn´ı regresn´ı model na libovoln´ych datech spoleˇcnˇe s jeho otestov´an´ım a tes-tov´an´ım jednotliv´ych atribut˚u. V´ystupy obou tˇechto ˇreˇsen´ı jsem porovnal z hlediska pˇresnosti v´ysledk˚u a ˇcasov´e n´aroˇcnosti. Porovn´an´ı probˇehlo nad nˇekolika v´ybˇerov´ymi soubory a bylo dosaˇzeno srovnateln´e pˇresnosti, jako v pˇr´ıpadˇe regresn´ıho modelu sestaven´eho v programu Modeler. Podle zaznamenan´ych ˇcas˚u stavby regresn´ıho modelu byla tak´e obˇe ˇreˇsen´ı porovnateln´a.
Z celkov´eho hlediska jsou programy diametr´alnˇe odliˇsn´e, a tedy neporovnateln´e.
Program IBM SPSS Modeler je komplexn´ı n´astroj pro proveden´ı celkov´e anal´yzy dat a umoˇzˇnuje pouˇzit´ı mnoho rozliˇcn´ych n´astroj˚u pro pr´aci s nimi. Naproti tomu m˚uj program se zamˇeˇruje na line´arn´ı regresn´ı model a je vhodn´y pro pouˇzit´ı tam, kde nejsou tˇreba tak rozs´ahl´e programy typu Modeler. Dalˇs´ım d˚uvodem m˚uˇze b´yt potˇreba licence, kterou program Modeler vyˇzaduje a s t´ım spojen´e i licenˇcn´ı poplatky.
Vytvoˇren´y program je vhodn´y pro v´yuku line´arn´ı regresn´ı anal´yzy, protoˇze celkov´y proces v´ypoˇctu line´arn´ı regrese vˇcetnˇe jeho testov´an´ı je n´azornˇe pops´an a zdokumentov´an. Program m˚uˇze pracovat s libovolnou datovou sadou, kde bude
sada atribut˚u ˇc´ıseln´eho typu a jeden z nich bude vhodnou c´ılovou promˇennou. Jedin´e omezen´ı je ve form´atu souboru, kter´y je pro analytick´e a data miningov´e zad´an´ı typick´y. Bude pouˇzit pro v´yuku regresn´ı anal´yzy v pˇredmˇetu Datamining. Dalˇs´ı v´yhodou vytvoˇren´eho programu je jeho funkˇcnost ve svobodn´em prostˇred´ı Octave, tud´ıˇz je vhodn´y pro studijn´ı ´uˇcely. V pˇr´ıpadˇe dalˇs´ıch rozˇs´ıˇren´ı vytvoˇren´eho programu bych se zamˇeˇril na logistick´y regresn´ı model a jeho moˇznosti ˇreˇsen´ı a testov´an´ı.
Literatura
[1] Aha, D.; Asuncion, A.; Newman, D.: UCI Machine Learning Repository[online].
Dostupn´e z: http://archive.ics.uci.edu/ml/.
[2] Aha, D. W.; Kibler, D. F.; Albert, M. K.: Instance-based prediction of real-valued attributes. 1989, 51 s.
[3] Berka, P.: Dob´yv´an´ı znalost´ı z datab´az´ı. Praha: Academia, 2003, ISBN 80-200-1062-9, 336 s.
[4] Coursera: Free Online Courses From Top Universities [online]. Dostupn´e z:
https://www.coursera.org/.
[5] CSU: ˇCesk´y statistick´y ´uˇrad [online]. Dostupn´e z: https://www.czso.cz/.
[6] Duda, R. O.; Hart, P. E.; Stork, D. G.: Pattern classification,, 2 nd edition.
2001 [cit. 2017-02-18], ISBN 111858600X, 680 s., dostupn´e z: https://books.
google.cz/books?isbn=111858600X.
[7] Eaton, J. W.: GNU Octave documentation [online]. Dostupn´e z: https://www.
gnu.org/software/octave/doc/v4.0.3.
[8] Goldbloom, A.: Kaggle - Your Home for Data Science[online]. Dostupn´e z:
https://www.kaggle.com/.
[9] Hanˇclov´a, J.: Ekonomerick´e modelov´an´ı. Praha: Professional Publishing, 2012, ISBN 978-80-7431-088-1, 214 s.
[10] Hendl, J.: Pˇrehled statistick´ych metod. Praha: 4 rozˇs. Vyd. Port´al s.r.o., 2012 [cit. 2016-12-25], ISBN 978-80-262-0200-4, 736 s.
[11] Hindls, R.; Hronov´a, S.; Seger, J.: Statistika pro ekonomy. Praha: Professional Publishing, vyd. 7, 2004 [cit. 2017-03-15], ISBN 80-86419-59-2, 417 s.
[12] Horov´a, I.; Zelinka, J.: Numerick´e metody [online]. Brno: Masarykova univer-zity, 2008 [cit. 2017-02-28], dostupn´e z: https://www.math.muni.cz/~zelinka/
dokumenty/numerika.pdf.
[13] Keynes, J. M.: The general theory of employment, interest and money. Kissim-mee,USA: Singnalman Publishing, 2009, ISBN 978-0-9840614-0-2, 264 s.
[14] Kohout, V.: Teorie odhadu Kapitola 10. Z ˇCU Plzeˇn: Skriptum ZCU [online], 22.04.2004 [cit. 2017-02-14], dostupn´e z: http://www.kmt.zcu.cz/person/
Kohout/info_soubory/letnisem/zs/stat10.pdf.
[15] Myung, I. J.: Tutorial on maximum likelihood estimation [online]. 2003-02 [cit.
2017-01-15], dostupn´e z: http://www.sciencedirect.com/science/article/
pii/S0022249602000287.
[16] Rud, O. P.: Datamining. Praha: Computer Press, 2006, ISBN 80-722-6577-6, 416 s.
[17] Yin, Y.; Kaku, I.; Tang, J.: Data Mining,. London Ltd: Springer, 2011.
A Obsah pˇriloˇ zen´ eho CD
• diplomov´a pr´ace 2017 tom´aˇs kadleˇcek.pdf
• Pˇr´ıpadov´a studie
– Pˇr´ıpadov´a studie.pdf – PopisDat.pdf
– PripadovaStudieModeler.str – train.csv
• Program v Octave
• MOOC kurz – Diplom.pdf
• Kurz Datamining
– Jednoduch´y line´arn´ı regresn´ı model.pdf – Logistick´y regresn´ı model.pdf
– V´ıcerozmˇern´y line´arn´ı regresn´ı model.pdf – Ekonometrie.pdf
– Pˇr´ıpadov´a studie.pdf
• Data test ˇc. 2 – data.csv – popis dat.pdf
• Obr´azky pouˇzit´e v pr´aci
B Certifik´ at o absolvov´ an´ı kurzu Machine learning
Obr´azek B.1: Certifik´at o absolvov´an´ı kurzu Machine Learning
C Nemovitosti
Atribut Popis
Id Identifik´ator nemovitosti MSSubClass Identifikuje tˇr´ıdu nemovitosti MSZoning Z´ona nemovitosti
LotFrontage Vzd´alenost vzduˇsnou ˇcarou od cesty k nemovitosti LotArea Celkov´a rozloha nemovitosti ve ˇctvereˇcn´ıch stop´ach Street Ulice ve kter´e se nemovitost nal´ez´a
Alley Alej ve kter´e se nemovitost nal´ez´a LotShape Tvar nemovitosti
Condition1 Vzd´alenost k objekt˚um v okol´ı Condition2 Vzd´alenost k objekt˚um v okol´ı 2 BldgType Typ budovy - rodinn´y, bytovka atd.
HouseStyle Typ budovy - poˇcet pater OverallQual Celkov´e ohodnoceni materi´alu
OverallCond Ohodnoceni celkov´eho stavu nemovitosti YearBuilt Rok v´ystavby
YearRemodAdd Rok rekonstrukce RoofStyle Typ zastˇreˇsen´ı
RoofMatl Materi´al pouˇzit´y pro zastˇreˇsen´ı Exterior1st Extern´ı zastˇreˇsen´ı nemovitosti Exterior2nd Extern´ı zastˇreˇsen´ı nemovitosti 2 MasVnrType Typ pouˇzit´eho zdiva
MasVnrArea Plocha zdi ve ˇctvereˇcn´ıch stop´ach ExterQual Kvalita extern´ıho materi´al˚u
ExterCond Aktu´aln´ı kvalita extern´ıch materi´al˚u Foundation Materi´al pouˇzit´y pro z´aklady BsmtQual Pˇribliˇzn´a v´yˇska sklepa BsmtCond Hodnoceni kvality sklepa BsmtExposure Stav kvality sklepa
BsmtFinType1 Hodnoceni kvality dokonˇcen´eho sklepa 1
Tabulka C.1: Popis vˇsech atribut˚u 1
Atribut Popis
BsmtFinSF1 Plocha dokonˇcen´eho sklepa 1 ve ˇctvereˇcn´ıch stop´ach BsmtFinType2 Hodnoceni kvality dokonˇcen´eho sklepa 2
BsmtFinSF2 Plocha dokonˇcen´eho sklepa 2 ve ˇctvereˇcn´ıch stop´ach BsmtUnfSF Plocha nedokonˇcen´eho sklepa ve ˇctvereˇcn´ıch stop´ach TotalBsmtSF Celkov´a plocha sklepa ve ˇctvereˇcn´ıch stop´ach
Heating Typ zatepleni
HeatingQC Kvalita zatepleni CentralAir Klimatizace Electrical Elektrick´e veden´ı
1stFlrSF Plocha prvn´ıho patra ve ˇctvereˇcn´ıch stop´ach 2ndFlrSF Plocha druh´eho patra ve ˇctvereˇcn´ıch stop´ach
LowQualFinSF Plocha oblasti ˇspatn´eho stavu nemovitosti ve ˇctvereˇcn´ıch stop´ach GrLivArea Plocha pˇr´ızem´ı ve ˇctvereˇcn´ıch stop´ach
BsmtFullBath Poˇcet mal´ych koupelen v suter´enu BsmtHalfBath Poˇcet koupelen v suter´enu
FullBath Celkov´y poˇcet mal´ych koupelen HalfBath Celkov´y poˇcet koupelen
BedroomAbvGr Poˇcet loˇznic KitchenAbvGr Poˇcet kuchyn´ı KitchenQual Kvalita kuchynˇe
TotRmsAbvGrd Celkov´y poˇcet m´ıstnost´ı bez koupelen Functional Funkcionalita nemovitost´ı
Fireplaces Poˇcet ´unikov´ych v´ychod˚u FireplaceQu Kvalita ´unikov´ych v´ychod˚u GarageType Typ gar´aˇze
GarageYrBlt Rok v´ystavby gar´aˇze GarageFinish Dokonˇcenost gar´aˇze
GarageCars Poˇcet automobil˚u, kter´y se vejde do gar´aˇze GarageArea Celkov´a plocha gar´aˇze ve ˇctvereˇcn´ıch stop´ach GarageQual Kvalita gar´aˇze
Tabulka C.2: Popis vˇsech atribut˚u 2
D Vypoˇ cten´ e koeficienty a jejich statistiky
Atribut Koeficient T statistika Sign. t
Konstanta -1245621.9551 -9.3375 .0000
LotFrontage 13.9533 0.2755 .7830
LotArea .5284 4.9670 .0000
OverallQual 19220.5075 16.4099 .0000
YearBuilt 225.0445 3.7908 .0002
YearRemodAdd 357.7320 5.5558 .0000
MasVnrArea 32.4003 5.2588 .0000
TotalBsmtSF 16.3792 3.9140 .0001
1stFlrSF 31.4315 1.4793 .1393
2ndFlrSF 22.9916 1.1001 .2715
GrLivArea 16.4208 .7916 .4287
FullBath -3726.4499 -1.4207 .1556
TotRmsAbvGrd 1084.6726 1.0000 .3175
Fireplaces 8113.5768 4.4984 .0000
GarageArea 38.0152 6.1719 .0000
GarageYrBlt 15.9399 .2225 .8239
WoodDeckSF 32.1318 3.9162 .0001
OpenPorchSF 5.8197 .3698 .7116
Tabulka D.1: Odhady regresn´ıch parametr˚u
E Popis atribut˚ u testu ˇ c. 2
1. N´azev prodejce: 30 (adviser, amdahl,apollo, basf, bti, burroughs, c.r.d, cambex, cdc, dec, dg, formation, four-phase, gould, honeywell, hp, ibm, ipl, magnuson, microdata, nas, ncr, nixdorf, perkin-elmer, prime, siemens, sperry, sratus, wang)
2. N´azev modelu: mnoho jedineˇcn´ych symbol˚u 3. MYCT: takt stroje v nanosekund (cel´e ˇc´ıslo) 4. Mmin: minim´aln´ı hlavn´ı pamˇet’ v kB (cel´e ˇc´ıslo ) 5. Mmax: maxim´aln´ı hlavn´ı pamˇet’ v KB (cel´e ˇc´ıslo) 6. CACH: vyrovn´avac´ı pamˇet’ v kB (cel´e ˇc´ıslo) 7. CHMIN: minim´aln´ı kan´aly (cel´e ˇc´ıslo) 8. CHMAX: maxim´aln´ı kan´aly (cel´e ˇc´ıslo)
9. PRP: publikovan´a relativn´ı v´ykonnost (cel´e ˇc´ıslo)
10. ERP: odhadnut´y relativn´ı v´ykon viz publikace [2] (cel´e ˇc´ıslo)