Kritikerledd inlärning

(1)

Inte lärarledd — ingen lärare anger önskad utsignal Inte självorganiserande — viss respons ges

Kritikerledd — en ”kritiker” anger om utsignalerna är ”bra”

eller ”dåliga”

Kritikerledd inlärning

Reglerteknik

Artificiell intelligens Psykologi

Artificiella neuronnät Neurobiologi

Operationsanalys

Uppsala Universitet 3 Institutionen för datorteknik

Exempel: Luffarschack

Hitta bästa sättet att spela mot en motståndare som i bland gör misstag

Minimax-sökning (standardmetod) fungerar ej

En grundläggande modell

Omgivning

Tillstånd, xt

Beslut, a_t

Agent

Belöning, rt

D D xt+ 1

rt+ 1

(2)

Definition av problemet

Kritikerledd inlärning är att lära sig fatta beslut som funktion av omgivningens tillstånd,

på ett sådant sätt att summan av erhållna belöningar över tiden maximeras.

Ackumulerad belöning

Vid inlärning med ”försök”: ändlig tidshorisont

R_t+r_t)1)r_t)2)r_t)3) AAA )r_N+

ȍ

^N

k+t)1

r_k

Vid inlärning med oändlig tidshorisont

R_t+r_t)1)gr_t)2)g²r_t)3) AAA +

ȍ

^R

k+0

g^kr_k)t)1, 0vgt1

Exempel: robot-agent

Ackumulerad belöning i deterministisk omgivning, g + 0.9

M

1.00 1.00 1.00

0.90 0.90 0.81 0.660.73

0.48 0.43

0.43 0.53

0.39 0.48 0.59

–1.0 –1.0 –1.0

–1.9 –1.9 –2.7 –3.4 –4.1

–5.7 –6.1

–6.1 –5.2

–6.5 –5.7 –4.7

M M

Policy Med r 1 Med r0/1

Modellering av omgivningen

Tillståndsövergångssannolikheter P^a_xyP(x_t)1+y | x_t+x, a_t+a)

Förväntad belöning

ò(x, a) +E

^r_t)1^{| x}t+x, a_t+a

(3)

Markovegenskapen

Historien, Ht

H_t+

Ǌ

x₀, a₀, r₁, x₁, a₁, r₂,AAA, x_t_*₁, a_t_*₁, r_t, x_t

ǋ x

är ett tillstånd i Markov-mening om

P

ǒ

x_t₎₁+x, r_t₎₁+r | x_t, a_t

Ǔ

₊

+P

ǒ

^x_t₎₁₊^{x, r}_t₎₁₊^{r | H}t, a_t

Ǔ

Värdefunktioner

Värde = förväntad ackumulerad belöning Värdet av ett tillstånd,

x

, under en policy, p:

V^p(x)E_p{R_t| x_tx}E_p

k0

g^kr_t _k ₁ x_tx

Beslutsvärdefunktioner

Värdet av att fatta beslut a i tillståndet x under p

Q^p(x, a)E_p{R_t| x_tx, a_ta}

E_p

k0

g^kr_t _k ₁ x_tx, a_ta

Bellmans ekvation

Värdet av ett tillstånd är summan av:

1. Den förväntade (omedelbara) belöningen, och 2. Värdena (viktade med sina sannolikheter) av de

nästa tillstånd som kan nås

(4)

Optimalitetsprincipen

En optimal policy maximerar värdefunktionen för alla tillstånd.

Algoritmer för kritikerledd inlärning

• Dynamisk programmering

• Monte Carlo-simulering

• Tidsdifferensmetoder

Dynamisk programmering

Studerad inom operationsanalysen sedan 60-talet

• Kräver modell av övergångssannolikheter och förväntad belöning

• Minnes- och beräkningskrävande

å

Alltför beräkningskrävande i stora tillståndsrymder (} 10⁴ tillstånd). Effektiv för mindre problem.

Policyutvärdering

1. Intiering

V := tabell över godtycklig funktion X Ê9 q := ett litet, positivt tal

2. Policyutvärdering Upprepa

D := 0

För varje x Ů X v := V(x)

V(x) := r(x, p(x)) + gSy Pxyp(x) V(y) D := max (D, |v – V(x)|)

tills D < q

(5)

Policyiterering

1. Intiering

p := godtycklig, deterministisk policy V := tabell över godtycklig funktion X Ê9 q := ett litet, positivt tal

2. Policyutvärdering 3. Policyförbättring

policyn_ändrad := FALSKT För varje x Ů X

a := p(x)

p(x) := arg max_br(x, b) + gS^y PxybV(y) Om a 0 p(x) så policyn_ändrad := SANT Om policyn-ändrad gå till 2, annars klar

Monte Carlo-simulering

Gör försök, observera och ackumulera belöningar, medelvärdesbilda belöningarna som uppskattning av värdefunktionen.

• Kräver observation av ett stort antal tillstånds- övergångar och belöningar för konvergens

1. Intiering

p := godtycklig, deterministisk policy

Q := tabell över godtycklig funktion X Ê9 A För alla x Ů X och a Ů A(x)

R_lista(x, a) = tom lista 2. Värdeförbättring

Generera ett försök med hjälp av p

För varje par (x, a) som observerats i försöket:

R := ackumulerad belöning efter att (x, a) observerats Lägg till R i R_lista(x, a)

Q(x, a) := medelvärdet av elementen i R 3. Policyförbättring

För varje tillstånd x som observerats i försöket:

p(x) := arg maxa Q(x, a) Gå till 2.

Tidsdifferensmetoder (TD)

Har utvecklats under 80- och 90-talet

• Värdefunktionen uppdateras från observationer

• Behöver ingen modell av omgivningen

Policyutvärdering

DV_t(x_t)+h

ƪ

^rt 1 gV_t

^x_t ₁

*V_t(x_t)

ƫ

+hd_t där d_t kallas TD-felet