Logistick´y regresn´ı model

(1)

Logistick´ y regresn´ı model

Tom´ aˇs Kadleˇ cek

10. kvˇ etna 2017

(2)

Kapitola 1

Logistick´ y regresn´ı model

Dále se budeme vˇenovat logistickému regresn´ımu modelu. Základn´ım rozd´ılem mezi lineárn´ım a logistickým regresn´ım modelem spoˇc´ıvá typech promˇenných.

Logistický, na rozd´ıl od lineárn´ıho pracuje s kategoriáln´ı závislou promˇennou.

Napˇr´ıklad pˇr´ıtomnost/nepˇr´ıtomnost choroby, existence atd.. Odhaduje m´ıru pravdˇepodobnosti, ˇze dané nezávislé promˇenné x1, . . . , xn budou zaˇrazené do urˇcité kategorie. Z hlediska data miningu patˇr´ı ligistická regrese ke klasifikaˇcn´ım metodám.

Podle závislé promˇenné se rozliˇsuje logistická regrese na:

• binárn´ı (dichotomická) - nebývá pouze dvou hodnot, napˇr. ano/ne, 1/0,

• ordináln´ı - závislá promˇenná nabývá v´ıce hodnot, mezi kterými existuje pˇrirozené uspoˇrádan´ı,

• (multi) nomináln´ı - závislá promˇenná nabývá v´ıce neˇz dvou hodnot, mezi kterými existuje pouze odliˇsnost, to znamená, ˇze je nelze ˇradit, napˇr. rasy, náboˇzenstv´ı atd..

V logistickém regresn´ım modelu je tˇreba urˇcit, z jakou pravdˇepodobnost´ı nastane jev Y, jestliˇze nabývá hodnot 0 =⇒ jev nenastal a 1 =⇒ jev nastal. Lineárn´ı regresn´ı model nelze pouˇz´ıt z d˚uvodu, ˇze c´ılová promˇenná je kategoriáln´ıho typu. Z rovnice (1.1) je patrné, ˇze na levé stranˇe jsou pouze dvˇe hodnoty 0 a 1, zat´ımco pravá strana rovnice nabývá libovolných hodnot.

Yb_i= cβ₁+ cβ₂X_i (1.1) Z tˇechto d˚uvod˚u vyuˇzijme logistickou funkci:

f (x) = 1

1 + e^−x. (1.2)

(3)

Obr´azek 1.1: Logistick´a funkce

Obrázek funkce (viz obr. 1.1) zobrazuje, ˇze nabývá hodnot pouze v intervalu (0, 1). Nyn´ı tedy definujeme logistickou regresn´ı funkci jako:

P ( bYi= 1|Xi= xi) = 1

1 + e^−(c^β¹^+c^β²^xⁱ⁾. (1.3) Pro odhady koeficient˚u cβ1 a cβ2 pouˇzijeme metodu maxim´aln´ı vˇerohodnosti.

1.1 Metoda maxim´ aln´ı vˇ erohodnosti

Tato metoda patˇr´ı ke skupinˇe základn´ıch metod bodových odhad˚u. Jedn´ım z prvn´ıch pojm˚u, které je tˇreba definovat je tzv. vˇerohodnostn´ı funkce.

Necht’ X = (X1, . . . , Xn) je náhodný výbˇer a x = (xi, . . . , xn) je jeho realizace.

Dále necht’ je populace (náhodný výbˇer) popsána pomoc´ı regulárn´ı hustoty f (x, Θ), kde θ je neznámý parametr. Potom funkci 1.4 nazveme vˇerohodnostn´ı funkc´ı[?].

L(x, θ) = L(x₁, . . . , x_n, θ) = f (x₁, θ)f (x₂, θ), . . . f (x_n, θ) =

n

Y

i=1

f (x_i, Θ). (1.4)

Metoda maximáln´ı vˇerohodnosti spoˇc´ıvá v tom, ˇze za odhad neznámého parametru (neznámých parametr˚u) zvol´ı hodnota bθ, která pˇri daných hod- notách maximalizuje funkci vˇerohodnosti. Za pˇredpokladu, ˇze existuje bod bθ z parametrického prostoru, takový, ˇze pro vˇsechny hodnoty parametru bθ z parame- trického prostoru plat´ı: L(X, θ) ≤ L(X, bθ), potom nazveme tento bod maximálnˇe vˇerohodným odhadem neznámého parametru bθ[?]. Dále pro jednoduchost budeme psát pouze tvar L(θ). ˇCasto je výhodnˇejˇs´ı pouˇz´ıt m´ısto vˇerohodnostn´ı funkce jej´ı logaritmický tvar:

l(θ) = lnL(θ). (1.5)

(4)

Tuto rovnici zap´ıˇseme jako:

l(Θ) = ln(

n

Y

i=1

f (xi, Θ)) =

n

X

i=1

lnf (xi, Θ). (1.6)

Tuto úpravu m˚uˇzeme pouˇz´ıt z d˚uvodu, ˇze logaritmická funkce je monotónn´ı, tj. má-li funkce L(θ) maximum v bodˇe bθ_{M L}má v tomtéˇz bodˇe maximum i funkce lnL(θ)[?].

Pro nalezen´ı maxima bθM L pouˇzijeme metodu z matematické analýzy a to hledán´ı extrém˚u funkce l(θ). Provedeme parciáln´ı derivaci podle parametru θ.

T´ım z´ısk´ame syst´em vˇerohodnostn´ıch rovnic:

δL(θ) δθj

= 0, j = 1, . . . , m, (1.7)

s ˇreˇsen´ım θ = bθ. Mus´ıme ovˇeˇrit, zda v bodˇe bθ nabývá funkce L(θ) svého maxima, mus´ı tedy platit:

H(bθ) = δ²L(θ) δθiδθj

m i,j=1

_θ=b_θ

< 0 (1.8)

tedy, ˇze Hessova matice H(bθ) je negativnˇe definitn´ı[?].

1.2 Odhad koeficient˚ u u logistick´ eho regresn´ıho modelu

Pro urˇcen´ı koeficient˚u budeme postupovat podle výˇse uvedené metody maximáln´ı vˇerohodnosti. Mˇejme náhodný výbˇer Y1, . . . , Yn regulárn´ı hustoty (alternativn´ı rozdˇelen´ı) A(ϑ), 0 < ϑ < 1, s realizacemi y1, . . . , yn.

P (Yi= yi) = ϑ^yⁱ(1 − ϑ)^1−yⁱ (1.9) Pro stˇredn´ı hodnotu plat´ı E(Y_i) = ϑ a pro rozptyl D(Y_i) = ϑ(1 − ϑ). Kaˇzd´emu y_i pˇr´ısluˇs´ı realizace xi1, . . . , xinveliˇcin Xi1. . . , Xin. Potom podle 1.3 modelujeme pravdˇepodobnost jako:

P (Yi= yi|Xi= xi) =

1

1 + e^−(β¹^+β²^xⁱ⁾

^yi

1 − 1

1 + e^−(β¹^+β²^xⁱ⁾

^1−yi

=

=(e^−(β¹^+β²^xⁱ⁾)^yⁱ⁻¹ 1 + e^−(β¹^+β²^xⁱ⁾

(1.10) Vˇerohodnostn´ı funkce je pot´e ve tvaru:

L(β) =

n

Y

i=1

P (Yi= yi) =

n

Y

i=1

(e^−(β¹^+β²^xⁱ⁾)^1−yⁱ

1 + e^−(β¹^+β²^xⁱ⁾ . (1.11)

(5)

Pouˇzijeme logaritmickou vˇerohodnostn´ı funkci (1.6), pomoc´ı které z násoben´ı dostaneme sˇc´ıtán´ı:

l(β) = ln(L(β)) = ln

ⁿ Y

i=1

(e^−(β¹^+β²^xⁱ⁾)^1−yⁱ 1 + e^−(β¹^+β²^xⁱ⁾

=

n

X

i=1

ln (e^−(β¹^+β²^xⁱ⁾)^1−yⁱ 1 + e^−(β¹^+β²^xⁱ⁾

=

n

X

i=1

[(yi− 1)(β1+ β2xi) − ln(1 + e^−(β¹^+β²^xⁱ⁾)].

(1.12) Nyn´ı provedeme parci´aln´ı derivace:

δ(l(β)) δβ₁ =

n

X

i=1

(yi− 1) + e⁻(β1+ β2xi) 1 + e⁻(β₁+ β₂x_i) = 0, δ(l(β))

δβ2

=

n

X

i=1

(yi− 1)xi+ e⁻(β1+ β2xi)

1 + e⁻(β1+ β2xi)xi= 0. (1.13) Rovnice d´ale uprav´ıme:

n

X

i=1

yi−

n

X

i=1

1

1 + e^β¹^+β²^xⁱ = 0,

n

X

i=1

yixi−

n

X

i=1

1

1 + e^β¹^+β²^xⁱxi= 0. (1.14) Jedná se o soustavu nelineárn´ıch rovnic o dvou neznámých. ˇReˇsen´ım tˇechto rovnic jsou koeficienty β₁ a β₂. Toto ˇreˇsen´ı nelze nalézt v algebraickém tvaru, proto se hledá numericky napˇr´ıklad pomoc´ı Newtonovy-Raphsonovy metody.

V´ıce k numerick´ym metod´am viz publikace[?].