• No results found

Jednoduch´y line´arn´ı regresn´ı model

N/A
N/A
Protected

Academic year: 2022

Share "Jednoduch´y line´arn´ı regresn´ı model"

Copied!
9
0
0

Loading.... (view fulltext now)

Full text

(1)

Jednoduch´ y line´ arn´ı regresn´ı model

Tom´ aˇs Kadleˇ cek

10. kvˇ etna 2017

(2)

Kapitola 1

Jednoduch´ y line´ arn´ı regresn´ı model

Tato kapitola se bude zab´yv´a jednoduch´ym line´arn´ım regresn´ım modelem. Tedy, kdy z´avisl´a (vysvˇetlovan´a) promˇenn´a Y je line´arn´ım vztahem pouze jedn´e nez´avisl´e (vysvˇetluj´ıc´ı) promˇenn´e X. Pomoc´ı regresn´ıho modelu hled´ame line´arn´ı vztah mezi promˇennou Y a X.

Prvn´ı dva pojmy, kter´ymi se zab´yv´a jsou deterministick´a a stochastick´a populaˇcn´ı regresn´ı funkce d´ale jen PRF. Deterministick´a PRF spojuje oˇcek´avan´e hodnoty vysvˇetlovan´e promˇenn´e Yi pro dan´a Xi a je d´ana vztahem:

E(Yi|Xi) = β1+ β2Xi, i = 1, 2, . . . , n, (1.1) kde parametry β1je absolutn´ı ˇclen a β2 definuje sklon regresn´ı kˇrivky.

Tyto modely nejsou pˇr´ıliˇs ˇcast´e, protoˇze existuj´ı dalˇs´ı vlivy na vysvˇetlovanou promˇennou Yi resp. n´ahodn´e sloˇzky, kter´e do regresn´ıho modelu vn´aˇs´ı urˇcitou chybu. Zanesen´ım t´eto chyby do modelu zadefinujeme stochastickou PRF. Je definovan´a jako:

E(Yi|Xi) = β1+ β2Xi+ ui, i = 1, 2, . . . , n, (1.2) kde ui je n´ahodn´a sloˇzka, tj. chyba, zanesen´a zanedb´an´ım nˇekter´ych vliv˚u a

(3)

Deterministick´a forma Stochastick´a forma Populaˇcn´ı re-

gresn´ı funkce E(Yi|Xi) = Yi= β1+ β2Xi E(Yi|Xi) = Yi= β1+ β2Xi+ ui

ybˇerov´a re-

gresn´ı funkce Ybi= cβ1+ cβ2Xi Ybi= cβ1+ cβ2Xi+ubi

Tabulka 1.1: Forma z´apisu populaˇcn´ı a v´ybˇerov´e regresn´ı funkce Symboly

”b“ nad promˇenn´ymi a parametry vyjadˇruj´ı odhad pro v´ybˇerov´y soubor. To znamen´a, ˇze bYi je odhad pro Yi, cβ1 a cβ2 jsou odhady regresn´ıch parametr˚u, aubipˇredstavuje rezidu´aln´ı sloˇzku, coˇz je odhad stochastick´e n´ahodn´e sloˇzky ui[?]. Existuje nˇekolik metod pro odhad parametr˚u regresn´ıho modelu:

• metoda nejmenˇs´ıch ˇctverc˚u (MN ˇC)

• metodu maxim´aln´ı vˇerohodnosti (ML)

• metoda moment˚u

• zobecnˇen´a metoda moment˚u

Tato pr´ace se zamˇeˇruje na prvn´ı z uveden´ych metod, o druh´e metodˇe se zmiˇnuje v souvislosti s logistickou regresn´ı anal´yzou.

1.1 Metoda nejmenˇ s´ıch ˇ ctverc˚ u

Tato metoda byla zavedena, nˇemeck´ym matematike, Carlem Friedrichem Gaus- sem. Jedn´a se metodu zjiˇstˇen´ı parametr˚u cβ1a cβ2 v´ybˇerov´e regresn´ı funkce:

Yi= cβ1+ cβ2Xi+ubi= bYi+ubi, i = 1, 2, . . . , n, (1.3) kde v´yvoj promˇenn´e Yi je determinov´an zmˇenami Xi a tvar kˇrivky je urˇcen regresn´ımi parametry β12. Metoda proloˇz´ı pˇr´ımku jednotliv´ymi hodnotami znak˚u, jak zobrazuje obr´azek 1.1.

(4)

Obr´azek 1.1: Princip metody nejmenˇs´ıch ˇctverc˚u

D´ale vyj´adˇr´ıme z rovnice 1.3 rezidu´aln´ı sloˇzkuubi.

ubi= Yi− bYi= Yi− cβ1+ cβ2Xi= f (cβ1, cβ2) (1.4) Z rovnice 1.4 je zˇrejm´e, ˇze rezidu´aln´ı sloˇzka je funkc´ı regresn´ıch parametr˚u.

Obr´azek 1.1 ukazuje, ˇze rezidu´aln´ı sloˇzkaubim˚uˇze b´yt kladn´a i z´aporn´a. Z tˇechto d˚uvod˚u je tˇreba pouˇz´ıt souˇcet ˇctverc˚u rezidu´aln´ıch odchylek. A tedy z´akladem metody nejmenˇs´ıch ˇctverc˚u je minimalizace toho souˇctu[?]:

n

X

i=1

ubi2

= f (cβ1, cβ2). (1.5)

Pro nalezen´ı minima funkce se pouˇzije metoda z matematick´e anal´yzy – hled´an´ı extr´emu funkce. Funkce 1.5 se parci´alnˇe zderivuje podle parametr˚u β1 a β2 a jednotliv´e derivace poloˇz´ıme rovny nule:

δ(P ubi2

) δcβ1

= 2X

(−1)(Yi− cβ1− cβ2Xi) = 0,

(5)

Jej´ım vyˇreˇsen´ım obdrˇz´ıme odhady obou regresn´ıch parametr˚u:

2= nP XiYi−P XiP Yi

nP Xi2− (P Xi)2 =P(Xi− X)(Yi− Y ) P (Xi− X)2 , cβ1= P Xi2P Yi−P XiP XiYi

nP Xi2− (P Xi)2 = Y − cβ2X, (1.8) kde X a Y jsou v´ybˇerov´e pr˚umˇery pro X a Y .

1.2 Vlastnosti odhadov´ e funkce nejmenˇ s´ıch ˇ ctverc˚ u

Pomoc´ı metody nejmenˇs´ıch ˇctverc˚u byl proveden bodov´y odhad parametr˚u cβ1 a cβ2 dan´eho v´ybˇerov´eho souboru. Za pˇredpokladu dalˇs´ıch nez´avisl´ych v´ybˇerov´ych soubor˚u se z´ıskaj´ı v´ybˇerov´e rozdˇelen´ı hodnot odhad˚u parametr˚u, a pot´e na jej´ım z´akladˇe doch´az´ı k odhadu parametr˚u β1 a β2z´akladn´ıho souboru[?].

Odhadov´a funkce m´a tyto vlastnosti:

• Nestrannost

• Vydatnost (eficience)

• Konzistence

Nestrannost je vlastnost odhadov´e funkce cβk, kter´a ˇr´ık´a, ˇze stˇredn´ı hodnota bodov´eho regresn´ıho parametru je rovna populaˇcn´ımu regresn´ımu parametru:

E(cβk) = βk. (1.9)

Tuto vlastnost zobrazuje obr´azku 1.2, kde odhadov´a funkce cβk (zelen´a) je vych´ylen´a v˚uˇci odhadu cβk.

Dalˇs´ı z vlastnost´ı je vydatnost (eficience). Naˇse odhadov´a funkce cβk je eficientn´ı v˚uˇci jin´e t´ehoˇz dβk∗∗ (modr´a), jestliˇze nem´a vˇetˇs´ı rozptyl. Vlastnost zobrazuje obr´azek 1.2. Z nˇeho vypl´yv´a, ˇze odhadov´a funkce cβk je z dan´e tˇr´ıdy odhadov´ych funkc´ı s nejmenˇs´ım rozptylem. Obˇe tyto vlastnosti zkoum´ame zejm´ena na menˇs´ıch v´ybˇerov´ych souborech.

(6)

Obr´azek 1.2: Nevych´ylen´e a eficientn´ı rozdˇelen´ı parametr˚u cβk

Pro rozs´ahl´e soubory testujeme vlastnosti konzistence. Odhadov´a funkce cβk

je konzistentn´ı s odhadovou funkc´ı βk pro n limitnˇe rostouc´ı do nekoneˇcna, kde n je rovno rozsahu v´ybˇerov´eho souboru, jestliˇze je:

• asymptoticky nestrann´a

n→∞lim E(cβk) = βk (1.10)

• s rostouc´ı hodnotou n parametr cβk konverguje ke skuteˇcn´e hodnotˇe odhad- nut´eho parametru βk

n→∞lim βck= βk (1.11) Obr´azek 1.3 zobrazuje tˇri odhadov´e funkce βk, βk, βk∗∗, kde s rostouc´ım rozsahem v´ybˇerov´eho souboru n roste konzistence.

(7)

1.2.1 Pˇ redpoklady pro pouˇ zit´ı metody nejmenˇ s´ıch ˇ ctverc˚ u

Vlastnosti odhadov´e funkce zmiˇnovan´e v kapitole 1.2 jsou splnˇeny za nˇekolika pˇredpoklad˚u. Tato kapitola zkoum´a tyto pˇredpoklady a v tomto pˇr´ıpadˇe se zamˇeˇruje pouze na jednoduch´y line´arn´ı regresn´ı. Tyto pˇredpoklady jsou d´ale zobecnˇeny pro v´ıcerozmˇern´y line´arn´ı regresn´ı model.

• P1: Line´arn´ı regresn´ı model Yi= β1+ β2Xi+ ui je line´arn´ı v parametrech.

• P2: Hodnoty Xi jsou fixn´ı.

• P3: Stˇredn´ı hodnota n´ahodn´e sloˇzky je nulov´a E(ui|Xi) = 0

• P4: Pro kaˇzdou i-tou skupinu bude platit, ˇze variabilita n´ahodn´e sloˇzky bude rovna σ2. Tento pˇredpoklad se tak´e naz´yv´a homoskedasticita =⇒

nemˇen´ı se rozptyl n´ahodn´e sloˇzky v jednotliv´ych skupin´ach. Opakem je heteroskedasticita =⇒ rozptyl se mˇen´ı, napˇr. zvyˇsuje se s rostouc´ımi hodnotami Xi.

var(ui|Xi) = D(ui|Xi) = E(ui− E(ui|Xi))2= E(u2i|Xi) = σ2 (1.12)

• P5: N´ahodn´a sloˇzka z r˚uzn´ych skupin nen´ı s´eriovˇe z´avisl´a (korelovan´a). V pˇr´ıpadˇe opaku mluv´ıme o s´eriov´e korelaci (autokorelaci) n´ahodn´e sloˇzky, kter´a pak je pozitivn´ı nebo negativn´ı.

cov(ui; uj|Xi; Xj) = E{[ui− E(ui)]|Xi}{[uj− E(uj)]|Xj} =

= E{ui|Xi}{uj|Xj} = 0 pro i 6= j (1.13)

• P6: Dalˇs´ım pˇredpokladem je nulov´a kovariance mezi n´ahodnou sloˇzkou ui a Xi. Tento pˇredpoklad z´aroveˇn vyjadˇruje, ˇze PRF m˚uˇzeme rozdˇelit na dvˇe aditivn´ı ˇc´asti tzn. na ˇc´ast deterministick´e regrese a stochastickou ˇc´ast s n´ahodnou sloˇzkou.

cov(ui; Xi) = E[ui− E(ui)(Xi− E(Xi))] =E[ui(Xi− E(Xi))] =

= E(uiXi) − E(Xi)E(ui) = E(ui, Xi) = 0 (1.14)

• P7: Poˇcet pozorov´an´ı |X| = n mus´ı b´yt vˇetˇs´ı, jak poˇcet parametr˚u re- gresn´ıho modelu. U jednoduch´eho regresn´ıho modelu plat´ı n > 2.

• P8: N´ahodn´a sloˇzka m´a norm´aln´ı rozdˇelen´ı ui∼ N (0; σ2).

1.2.2 Koeficient determinace

Koeficient determinace je jedna z veliˇcin pro hodnocen´ı regresn´ı anal´yzy. Pro jeho vymezen´ı je tˇreba definovat nˇekter´e z´akladn´ı pojmy. ´Upln´y souˇcet ˇctverc˚u (TSS) je souˇcet kvadr´at˚u rozd´ıl˚u pozorovan´e hodnoty vysvˇetlovan´e promˇenn´e a

pr˚umˇern´e hodnoty:

T SS =

n

X

i=1

(Yi− Y )2. (1.15)

Upln´´ y souˇcet ˇctverc˚u je moˇzn´e rozloˇzit na dvˇe sloˇzky:

(8)

• Rezidu´aln´ı souˇcet ˇctverc˚u (RSS)

RSS =

n

X

i=1

(Yi− bYi)2. (1.16)

• Vysvˇetlen´y (regresn´ı) souˇcet ˇctverc˚u (ESS)

ESS =

n

X

i=1

( bYi− Y )2. (1.17)

Pouˇzit´ım Pythagorovy vˇety plat´ı (viz obr´azek 1.4):

T SS =

n

X

i=1

(Yi− Y )2=

n

X

i=1

(Yi− bYi)2+

n

X

i=1

( bYi− Y )2= RSS + ESS (1.18)

Obr´azek 1.4: Rozklad souˇctu ˇctverc˚u TSS

Koeficient determinace R2je pot´e definov´an, jako pod´ıl vysvˇetlovan´eho souˇctu ˇctverc˚u a celkov´e souˇctu ˇctverc˚u:

(9)

• Pokud R2 = 0, tak ani jedno pozorov´an´ı neleˇz´ı na regresn´ı pˇr´ımce a nepodaˇrilo se n´am vysvˇetlit ˇz´adnou ˇc´ast vysvˇetlovan´e promˇenn´e. Regresn´ı model nem´a smysl.

Z koeficientu determinace lze odvodit koeficient korelace R:

R = ±√

R2. (1.20)

Vzhledem k tomu, ˇze s koeficientem determinace je spojeno nˇekolik probl´em˚u, kter´e spoˇc´ıvaj´ı v tom, ˇze adekv´atnˇe nereaguje na zmˇeny v poˇctu pozorov´an´ı a nezohledˇnuje rozˇs´ıˇren´ı poˇctu vysvˇetluj´ıc´ıch promˇenn´ych, tak se z tˇechto d˚uvodu pouˇz´ıv´a korigovan´y koeficient determinace.

1.3 Testov´ an´ı hypot´ ez o odhadnut´ ych regresn´ıch parametrech

Po vytvoˇren´ı jednoduch´eho regresn´ıho modelu metodou nejmenˇs´ıch ˇctverc˚u zaˇc´ın´a f´aze statistick´e verifikace a dalˇs´ıho testov´an´ı hypot´ez o odhadnut´ych parametrech i cel´eho modelu. Z´akladn´ı principy testov´an´ı hypot´ez lze shrnout do tˇr´ı z´akladn´ıch f´az´ı:

• formulace nulov´e a alternativn´ı hypot´ezy(H0, HA),

• v´ypoˇcet testovac´ı statistiky,

• aplikace nebo pouˇzit´ı rozhodovac´ıho pravidla o pˇrijet´ı, nebo zam´ıtnut´ı nulov´e hypot´ezy pro stanovenou hladinu v´yznamnosti.

Toto testov´an´ı m˚uˇze prob´ıh´a prostˇrednictv´ım oboustrann´eho resp. jednostrann´eho testu. Vzhledem k rozsahu pr´ace se touto problematikou d´ale nezab´yv´am.

References

Related documents

Pr´ ace navazuj´ıc´ı na tuto by se mohly zab´ yvat vlivem r˚ uzn´ ych pˇredpomiˇ novaˇ c˚ u na ˇ casovou n´ aroˇ cnost ˇreˇsen´ı pˇri pouˇ zit´ı monolitick´

Pˇredloˇ zen´ a disertaˇ cn´ı pr´ ace se zab´ yv´ a adaptac´ı existuj´ıc´ıho syst´ emu automatick´ eho rozpozn´ av´ an´ı ˇreˇ ci (ASR) pro dalˇs´ı jazyky.. Zamˇ eˇruje

Kromˇ e fin´ aln´ı verze, kter´ a komplexnˇ e zpracov´ av´ a veˇsker´ e dan´ e poˇ zadavky, vzni- kala souˇ casnˇ e i verze, kter´ a fungovala bez pouˇ zit´ı detektoru

Ke kaˇ zd´ emu videu pouˇ zit´ emu pˇri testov´ an´ı byly hod- noty poˇ ctu osob, kter´ e proˇsly a poˇ ctu unik´ atn´ıch osob, kter´ e se ve videu objevily tak´ e

Mezi data ukl´ adan´ a do datab´ aze patˇr´ı informace o pool serveru, ke kter´ emu je tˇ eˇ zebn´ı klient aktu´ alnˇ e pˇripojen, informace o dobˇ e tˇ eˇ zby aktu´

Metoda maxim´ aln´ı vˇ erohodnosti spoˇ c´ıv´ a v tom, ˇ ze za odhad nezn´ am´ eho parametru (nezn´ am´ ych parametr˚ u) zvol´ı hodnota b θ, kter´ a pˇ ri dan´ ych

V t´ eto kapitole se budeme vˇ enovat rozˇ s´ıˇ ren´ı line´ arn´ıho regresn´ıho modelu pro n vysvˇ etluj´ıc promˇ enn´ ych, tedy X 1..

Pomoc´ı nˇekolika technik jsem provedl anal´ yzu dat o nemovi- tostech a na jeho z´akladˇe jsem vybral nˇekolik atribut˚ u, kter´e jsem n´aslednˇe pouˇzil pro tvorbu