Jednoduch´ y line´ arn´ı regresn´ı model
Tom´ aˇs Kadleˇ cek
10. kvˇ etna 2017
Kapitola 1
Jednoduch´ y line´ arn´ı regresn´ı model
Tato kapitola se bude zab´yv´a jednoduch´ym line´arn´ım regresn´ım modelem. Tedy, kdy z´avisl´a (vysvˇetlovan´a) promˇenn´a Y je line´arn´ım vztahem pouze jedn´e nez´avisl´e (vysvˇetluj´ıc´ı) promˇenn´e X. Pomoc´ı regresn´ıho modelu hled´ame line´arn´ı vztah mezi promˇennou Y a X.
Prvn´ı dva pojmy, kter´ymi se zab´yv´a jsou deterministick´a a stochastick´a populaˇcn´ı regresn´ı funkce d´ale jen PRF. Deterministick´a PRF spojuje oˇcek´avan´e hodnoty vysvˇetlovan´e promˇenn´e Yi pro dan´a Xi a je d´ana vztahem:
E(Yi|Xi) = β1+ β2Xi, i = 1, 2, . . . , n, (1.1) kde parametry β1je absolutn´ı ˇclen a β2 definuje sklon regresn´ı kˇrivky.
Tyto modely nejsou pˇr´ıliˇs ˇcast´e, protoˇze existuj´ı dalˇs´ı vlivy na vysvˇetlovanou promˇennou Yi resp. n´ahodn´e sloˇzky, kter´e do regresn´ıho modelu vn´aˇs´ı urˇcitou chybu. Zanesen´ım t´eto chyby do modelu zadefinujeme stochastickou PRF. Je definovan´a jako:
E(Yi|Xi) = β1+ β2Xi+ ui, i = 1, 2, . . . , n, (1.2) kde ui je n´ahodn´a sloˇzka, tj. chyba, zanesen´a zanedb´an´ım nˇekter´ych vliv˚u a
Deterministick´a forma Stochastick´a forma Populaˇcn´ı re-
gresn´ı funkce E(Yi|Xi) = Yi= β1+ β2Xi E(Yi|Xi) = Yi= β1+ β2Xi+ ui
V´ybˇerov´a re-
gresn´ı funkce Ybi= cβ1+ cβ2Xi Ybi= cβ1+ cβ2Xi+ubi
Tabulka 1.1: Forma z´apisu populaˇcn´ı a v´ybˇerov´e regresn´ı funkce Symboly
”b“ nad promˇenn´ymi a parametry vyjadˇruj´ı odhad pro v´ybˇerov´y soubor. To znamen´a, ˇze bYi je odhad pro Yi, cβ1 a cβ2 jsou odhady regresn´ıch parametr˚u, aubipˇredstavuje rezidu´aln´ı sloˇzku, coˇz je odhad stochastick´e n´ahodn´e sloˇzky ui[?]. Existuje nˇekolik metod pro odhad parametr˚u regresn´ıho modelu:
• metoda nejmenˇs´ıch ˇctverc˚u (MN ˇC)
• metodu maxim´aln´ı vˇerohodnosti (ML)
• metoda moment˚u
• zobecnˇen´a metoda moment˚u
Tato pr´ace se zamˇeˇruje na prvn´ı z uveden´ych metod, o druh´e metodˇe se zmiˇnuje v souvislosti s logistickou regresn´ı anal´yzou.
1.1 Metoda nejmenˇ s´ıch ˇ ctverc˚ u
Tato metoda byla zavedena, nˇemeck´ym matematike, Carlem Friedrichem Gaus- sem. Jedn´a se metodu zjiˇstˇen´ı parametr˚u cβ1a cβ2 v´ybˇerov´e regresn´ı funkce:
Yi= cβ1+ cβ2Xi+ubi= bYi+ubi, i = 1, 2, . . . , n, (1.3) kde v´yvoj promˇenn´e Yi je determinov´an zmˇenami Xi a tvar kˇrivky je urˇcen regresn´ımi parametry β1 aβ2. Metoda proloˇz´ı pˇr´ımku jednotliv´ymi hodnotami znak˚u, jak zobrazuje obr´azek 1.1.
Obr´azek 1.1: Princip metody nejmenˇs´ıch ˇctverc˚u
D´ale vyj´adˇr´ıme z rovnice 1.3 rezidu´aln´ı sloˇzkuubi.
ubi= Yi− bYi= Yi− cβ1+ cβ2Xi= f (cβ1, cβ2) (1.4) Z rovnice 1.4 je zˇrejm´e, ˇze rezidu´aln´ı sloˇzka je funkc´ı regresn´ıch parametr˚u.
Obr´azek 1.1 ukazuje, ˇze rezidu´aln´ı sloˇzkaubim˚uˇze b´yt kladn´a i z´aporn´a. Z tˇechto d˚uvod˚u je tˇreba pouˇz´ıt souˇcet ˇctverc˚u rezidu´aln´ıch odchylek. A tedy z´akladem metody nejmenˇs´ıch ˇctverc˚u je minimalizace toho souˇctu[?]:
n
X
i=1
ubi2
= f (cβ1, cβ2). (1.5)
Pro nalezen´ı minima funkce se pouˇzije metoda z matematick´e anal´yzy – hled´an´ı extr´emu funkce. Funkce 1.5 se parci´alnˇe zderivuje podle parametr˚u β1 a β2 a jednotliv´e derivace poloˇz´ıme rovny nule:
δ(P ubi2
) δcβ1
= 2X
(−1)(Yi− cβ1− cβ2Xi) = 0,
Jej´ım vyˇreˇsen´ım obdrˇz´ıme odhady obou regresn´ıch parametr˚u:
cβ2= nP XiYi−P XiP Yi
nP Xi2− (P Xi)2 =P(Xi− X)(Yi− Y ) P (Xi− X)2 , cβ1= P Xi2P Yi−P XiP XiYi
nP Xi2− (P Xi)2 = Y − cβ2X, (1.8) kde X a Y jsou v´ybˇerov´e pr˚umˇery pro X a Y .
1.2 Vlastnosti odhadov´ e funkce nejmenˇ s´ıch ˇ ctverc˚ u
Pomoc´ı metody nejmenˇs´ıch ˇctverc˚u byl proveden bodov´y odhad parametr˚u cβ1 a cβ2 dan´eho v´ybˇerov´eho souboru. Za pˇredpokladu dalˇs´ıch nez´avisl´ych v´ybˇerov´ych soubor˚u se z´ıskaj´ı v´ybˇerov´e rozdˇelen´ı hodnot odhad˚u parametr˚u, a pot´e na jej´ım z´akladˇe doch´az´ı k odhadu parametr˚u β1 a β2z´akladn´ıho souboru[?].
Odhadov´a funkce m´a tyto vlastnosti:
• Nestrannost
• Vydatnost (eficience)
• Konzistence
Nestrannost je vlastnost odhadov´e funkce cβk, kter´a ˇr´ık´a, ˇze stˇredn´ı hodnota bodov´eho regresn´ıho parametru je rovna populaˇcn´ımu regresn´ımu parametru:
E(cβk) = βk. (1.9)
Tuto vlastnost zobrazuje obr´azku 1.2, kde odhadov´a funkce cβ∗k (zelen´a) je vych´ylen´a v˚uˇci odhadu cβk.
Dalˇs´ı z vlastnost´ı je vydatnost (eficience). Naˇse odhadov´a funkce cβk je eficientn´ı v˚uˇci jin´e t´ehoˇz dβk∗∗ (modr´a), jestliˇze nem´a vˇetˇs´ı rozptyl. Vlastnost zobrazuje obr´azek 1.2. Z nˇeho vypl´yv´a, ˇze odhadov´a funkce cβk je z dan´e tˇr´ıdy odhadov´ych funkc´ı s nejmenˇs´ım rozptylem. Obˇe tyto vlastnosti zkoum´ame zejm´ena na menˇs´ıch v´ybˇerov´ych souborech.
Obr´azek 1.2: Nevych´ylen´e a eficientn´ı rozdˇelen´ı parametr˚u cβk
Pro rozs´ahl´e soubory testujeme vlastnosti konzistence. Odhadov´a funkce cβk
je konzistentn´ı s odhadovou funkc´ı βk pro n limitnˇe rostouc´ı do nekoneˇcna, kde n je rovno rozsahu v´ybˇerov´eho souboru, jestliˇze je:
• asymptoticky nestrann´a
n→∞lim E(cβk) = βk (1.10)
• s rostouc´ı hodnotou n parametr cβk konverguje ke skuteˇcn´e hodnotˇe odhad- nut´eho parametru βk
n→∞lim βck= βk (1.11) Obr´azek 1.3 zobrazuje tˇri odhadov´e funkce βk, β∗k, βk∗∗, kde s rostouc´ım rozsahem v´ybˇerov´eho souboru n roste konzistence.
1.2.1 Pˇ redpoklady pro pouˇ zit´ı metody nejmenˇ s´ıch ˇ ctverc˚ u
Vlastnosti odhadov´e funkce zmiˇnovan´e v kapitole 1.2 jsou splnˇeny za nˇekolika pˇredpoklad˚u. Tato kapitola zkoum´a tyto pˇredpoklady a v tomto pˇr´ıpadˇe se zamˇeˇruje pouze na jednoduch´y line´arn´ı regresn´ı. Tyto pˇredpoklady jsou d´ale zobecnˇeny pro v´ıcerozmˇern´y line´arn´ı regresn´ı model.
• P1: Line´arn´ı regresn´ı model Yi= β1+ β2Xi+ ui je line´arn´ı v parametrech.
• P2: Hodnoty Xi jsou fixn´ı.
• P3: Stˇredn´ı hodnota n´ahodn´e sloˇzky je nulov´a E(ui|Xi) = 0
• P4: Pro kaˇzdou i-tou skupinu bude platit, ˇze variabilita n´ahodn´e sloˇzky bude rovna σ2. Tento pˇredpoklad se tak´e naz´yv´a homoskedasticita =⇒
nemˇen´ı se rozptyl n´ahodn´e sloˇzky v jednotliv´ych skupin´ach. Opakem je heteroskedasticita =⇒ rozptyl se mˇen´ı, napˇr. zvyˇsuje se s rostouc´ımi hodnotami Xi.
var(ui|Xi) = D(ui|Xi) = E(ui− E(ui|Xi))2= E(u2i|Xi) = σ2 (1.12)
• P5: N´ahodn´a sloˇzka z r˚uzn´ych skupin nen´ı s´eriovˇe z´avisl´a (korelovan´a). V pˇr´ıpadˇe opaku mluv´ıme o s´eriov´e korelaci (autokorelaci) n´ahodn´e sloˇzky, kter´a pak je pozitivn´ı nebo negativn´ı.
cov(ui; uj|Xi; Xj) = E{[ui− E(ui)]|Xi}{[uj− E(uj)]|Xj} =
= E{ui|Xi}{uj|Xj} = 0 pro i 6= j (1.13)
• P6: Dalˇs´ım pˇredpokladem je nulov´a kovariance mezi n´ahodnou sloˇzkou ui a Xi. Tento pˇredpoklad z´aroveˇn vyjadˇruje, ˇze PRF m˚uˇzeme rozdˇelit na dvˇe aditivn´ı ˇc´asti tzn. na ˇc´ast deterministick´e regrese a stochastickou ˇc´ast s n´ahodnou sloˇzkou.
cov(ui; Xi) = E[ui− E(ui)(Xi− E(Xi))] =E[ui(Xi− E(Xi))] =
= E(uiXi) − E(Xi)E(ui) = E(ui, Xi) = 0 (1.14)
• P7: Poˇcet pozorov´an´ı |X| = n mus´ı b´yt vˇetˇs´ı, jak poˇcet parametr˚u re- gresn´ıho modelu. U jednoduch´eho regresn´ıho modelu plat´ı n > 2.
• P8: N´ahodn´a sloˇzka m´a norm´aln´ı rozdˇelen´ı ui∼ N (0; σ2).
1.2.2 Koeficient determinace
Koeficient determinace je jedna z veliˇcin pro hodnocen´ı regresn´ı anal´yzy. Pro jeho vymezen´ı je tˇreba definovat nˇekter´e z´akladn´ı pojmy. ´Upln´y souˇcet ˇctverc˚u (TSS) je souˇcet kvadr´at˚u rozd´ıl˚u pozorovan´e hodnoty vysvˇetlovan´e promˇenn´e a
pr˚umˇern´e hodnoty:
T SS =
n
X
i=1
(Yi− Y )2. (1.15)
Upln´´ y souˇcet ˇctverc˚u je moˇzn´e rozloˇzit na dvˇe sloˇzky:
• Rezidu´aln´ı souˇcet ˇctverc˚u (RSS)
RSS =
n
X
i=1
(Yi− bYi)2. (1.16)
• Vysvˇetlen´y (regresn´ı) souˇcet ˇctverc˚u (ESS)
ESS =
n
X
i=1
( bYi− Y )2. (1.17)
Pouˇzit´ım Pythagorovy vˇety plat´ı (viz obr´azek 1.4):
T SS =
n
X
i=1
(Yi− Y )2=
n
X
i=1
(Yi− bYi)2+
n
X
i=1
( bYi− Y )2= RSS + ESS (1.18)
Obr´azek 1.4: Rozklad souˇctu ˇctverc˚u TSS
Koeficient determinace R2je pot´e definov´an, jako pod´ıl vysvˇetlovan´eho souˇctu ˇctverc˚u a celkov´e souˇctu ˇctverc˚u:
• Pokud R2 = 0, tak ani jedno pozorov´an´ı neleˇz´ı na regresn´ı pˇr´ımce a nepodaˇrilo se n´am vysvˇetlit ˇz´adnou ˇc´ast vysvˇetlovan´e promˇenn´e. Regresn´ı model nem´a smysl.
Z koeficientu determinace lze odvodit koeficient korelace R:
R = ±√
R2. (1.20)
Vzhledem k tomu, ˇze s koeficientem determinace je spojeno nˇekolik probl´em˚u, kter´e spoˇc´ıvaj´ı v tom, ˇze adekv´atnˇe nereaguje na zmˇeny v poˇctu pozorov´an´ı a nezohledˇnuje rozˇs´ıˇren´ı poˇctu vysvˇetluj´ıc´ıch promˇenn´ych, tak se z tˇechto d˚uvodu pouˇz´ıv´a korigovan´y koeficient determinace.
1.3 Testov´ an´ı hypot´ ez o odhadnut´ ych regresn´ıch parametrech
Po vytvoˇren´ı jednoduch´eho regresn´ıho modelu metodou nejmenˇs´ıch ˇctverc˚u zaˇc´ın´a f´aze statistick´e verifikace a dalˇs´ıho testov´an´ı hypot´ez o odhadnut´ych parametrech i cel´eho modelu. Z´akladn´ı principy testov´an´ı hypot´ez lze shrnout do tˇr´ı z´akladn´ıch f´az´ı:
• formulace nulov´e a alternativn´ı hypot´ezy(H0, HA),
• v´ypoˇcet testovac´ı statistiky,
• aplikace nebo pouˇzit´ı rozhodovac´ıho pravidla o pˇrijet´ı, nebo zam´ıtnut´ı nulov´e hypot´ezy pro stanovenou hladinu v´yznamnosti.
Toto testov´an´ı m˚uˇze prob´ıh´a prostˇrednictv´ım oboustrann´eho resp. jednostrann´eho testu. Vzhledem k rozsahu pr´ace se touto problematikou d´ale nezab´yv´am.