Kritikerledd inlärning
Inte lärarledd — ingen lärare anger önskad utsignal Inte självorganiserande — viss respons ges
Kritikerledd — en ”kritiker” anger om utsignalerna är ”bra”
eller ”dåliga”
Kritikerledd inlärning
Reglerteknik
Artificiell intelligens Psykologi
Artificiella neuronnät Neurobiologi
Operationsanalys
Uppsala Universitet 3 Institutionen för datorteknik
Exempel: Luffarschack
Hitta bästa sättet att spela mot en motståndare som i bland gör misstag
Minimax-sökning (standardmetod) fungerar ej
Uppsala Universitet 4 Institutionen för datorteknik
En grundläggande modell
Omgivning
Tillstånd, xt
Beslut, at
Agent
Belöning, rt
D D xt+ 1
rt+ 1
Definition av problemet
Kritikerledd inlärning är att lära sig fatta beslut som funktion av omgivningens tillstånd,
på ett sådant sätt att summan av erhållna belöningar över tiden maximeras.
Ackumulerad belöning
Vid inlärning med ”försök”: ändlig tidshorisont
Rt+rt)1)rt)2)rt)3) AAA )rN+
ȍ
Nk+t)1
rk
Vid inlärning med oändlig tidshorisont
Rt+rt)1)grt)2)g2rt)3) AAA +
ȍ
Rk+0
gkrk)t)1, 0vgt1
Uppsala Universitet 7 Institutionen för datorteknik
Exempel: robot-agent
Ackumulerad belöning i deterministisk omgivning, g + 0.9
M
1.00 1.00 1.00
0.90 0.90 0.81 0.660.73
0.48 0.43
0.43 0.53
0.39 0.48 0.59
–1.0 –1.0 –1.0
–1.9 –1.9 –2.7 –3.4 –4.1
–5.7 –6.1
–6.1 –5.2
–6.5 –5.7 –4.7
M M
Policy Med r 1 Med r0/1
Uppsala Universitet 8 Institutionen för datorteknik
Modellering av omgivningen
Tillståndsövergångssannolikheter PaxyP(xt)1+y | xt+x, at+a)
Förväntad belöning
ò(x, a) +E
rt)1| xt+x, at+aMarkovegenskapen
Historien, Ht
Ht+
NJ
x0, a0, r1, x1, a1, r2,AAA, xt*1, at*1, rt, xtNj x
är ett tillstånd i Markov-mening omP
ǒ
xt)1+x, rt)1+r | xt, atǓ
++P
ǒ
xt)1+x, rt)1+r | Ht, atǓ
Värdefunktioner
Värde = förväntad ackumulerad belöning Värdet av ett tillstånd,
x
, under en policy, p:Vp(x)Ep{Rt| xtx}Ep
k0
gkrt k 1 xtx
Uppsala Universitet 11 Institutionen för datorteknik
Beslutsvärdefunktioner
Värdet av att fatta beslut a i tillståndet x under p
Qp(x, a)Ep{Rt| xtx, ata}
Ep
k0
gkrt k 1 xtx, ata
Uppsala Universitet 12 Institutionen för datorteknik
Bellmans ekvation
Värdet av ett tillstånd är summan av:
1. Den förväntade (omedelbara) belöningen, och 2. Värdena (viktade med sina sannolikheter) av de
nästa tillstånd som kan nås
Optimalitetsprincipen
En optimal policy maximerar värdefunktionen för alla tillstånd.
Algoritmer för kritikerledd inlärning
• Dynamisk programmering
• Monte Carlo-simulering
• Tidsdifferensmetoder
Uppsala Universitet 15 Institutionen för datorteknik
Dynamisk programmering
Studerad inom operationsanalysen sedan 60-talet
• Kräver modell av övergångssannolikheter och förväntad belöning
• Minnes- och beräkningskrävande
å
Alltför beräkningskrävande i stora tillståndsrymder (} 104 tillstånd). Effektiv för mindre problem.Uppsala Universitet 16 Institutionen för datorteknik
Policyutvärdering
1. Intiering
V := tabell över godtycklig funktion X Ê9 q := ett litet, positivt tal
2. Policyutvärdering Upprepa
D := 0
För varje x Ů X v := V(x)
V(x) := r(x, p(x)) + gSy Pxyp(x) V(y) D := max (D, |v – V(x)|)
tills D < q
Policyiterering
1. Intiering
p := godtycklig, deterministisk policy V := tabell över godtycklig funktion X Ê9 q := ett litet, positivt tal
2. Policyutvärdering 3. Policyförbättring
policyn_ändrad := FALSKT För varje x Ů X
a := p(x)
p(x) := arg maxb r(x, b) + gSy PxybV(y) Om a 0 p(x) så policyn_ändrad := SANT Om policyn-ändrad gå till 2, annars klar
Monte Carlo-simulering
Gör försök, observera och ackumulera belöningar, medelvärdesbilda belöningarna som uppskattning av värdefunktionen.
• Kräver observation av ett stort antal tillstånds- övergångar och belöningar för konvergens
Uppsala Universitet 19 Institutionen för datorteknik
1. Intiering
p := godtycklig, deterministisk policy
Q := tabell över godtycklig funktion X Ê9 A För alla x Ů X och a Ů A(x)
R_lista(x, a) = tom lista 2. Värdeförbättring
Generera ett försök med hjälp av p
För varje par (x, a) som observerats i försöket:
R := ackumulerad belöning efter att (x, a) observerats Lägg till R i R_lista(x, a)
Q(x, a) := medelvärdet av elementen i R 3. Policyförbättring
För varje tillstånd x som observerats i försöket:
p(x) := arg maxa Q(x, a) Gå till 2.
Uppsala Universitet 20 Institutionen för datorteknik
Tidsdifferensmetoder (TD)
Har utvecklats under 80- och 90-talet
• Värdefunktionen uppdateras från observationer
• Behöver ingen modell av omgivningen
Policyutvärdering
DVt(xt)+h