• No results found

Kritikerledd inlärning - Uppsala universitet

N/A
N/A
Protected

Academic year: 2024

Share "Kritikerledd inlärning - Uppsala universitet"

Copied!
5
0
0

Loading.... (view fulltext now)

Full text

(1)

Kritikerledd inlärning

Inte lärarledd — ingen lärare anger önskad utsignal Inte självorganiserande — viss respons ges

Kritikerledd — en ”kritiker” anger om utsignalerna är ”bra”

eller ”dåliga”

Kritikerledd inlärning

Reglerteknik

Artificiell intelligens Psykologi

Artificiella neuronnät Neurobiologi

Operationsanalys

Uppsala Universitet 3 Institutionen för datorteknik

Exempel: Luffarschack

Hitta bästa sättet att spela mot en motståndare som i bland gör misstag

Minimax-sökning (standardmetod) fungerar ej

Uppsala Universitet 4 Institutionen för datorteknik

En grundläggande modell

Omgivning

Tillstånd, xt

Beslut, at

Agent

Belöning, rt

D D xt+ 1

rt+ 1

(2)

Definition av problemet

Kritikerledd inlärning är att lära sig fatta beslut som funktion av omgivningens tillstånd,

på ett sådant sätt att summan av erhållna belöningar över tiden maximeras.

Ackumulerad belöning

Vid inlärning med ”försök”: ändlig tidshorisont

Rt+rt)1)rt)2)rt)3) AAA )rN+

ȍ

N

k+t)1

rk

Vid inlärning med oändlig tidshorisont

Rt+rt)1)grt)2)g2rt)3) AAA +

ȍ

R

k+0

gkrk)t)1, 0vgt1

Uppsala Universitet 7 Institutionen för datorteknik

Exempel: robot-agent

Ackumulerad belöning i deterministisk omgivning, g + 0.9

M

1.00 1.00 1.00

0.90 0.90 0.81 0.660.73

0.48 0.43

0.43 0.53

0.39 0.48 0.59

–1.0 –1.0 –1.0

–1.9 –1.9 –2.7 –3.4 –4.1

–5.7 –6.1

–6.1 –5.2

–6.5 –5.7 –4.7

M M

Policy Med r 1 Med r0/1

Uppsala Universitet 8 Institutionen för datorteknik

Modellering av omgivningen

Tillståndsövergångssannolikheter PaxyP(xt)1+y | xt+x, at+a)

Förväntad belöning

ò(x, a) +E

rt)1| xt+x, at+a

(3)

Markovegenskapen

Historien, Ht

Ht+

NJ

x0, a0, r1, x1, a1, r2,AAA, xt*1, at*1, rt, xt

Nj x

är ett tillstånd i Markov-mening om

P

ǒ

xt)1+x, rt)1+r | xt, at

Ǔ

+

+P

ǒ

xt)1+x, rt)1+r | Ht, at

Ǔ

Värdefunktioner

Värde = förväntad ackumulerad belöning Värdet av ett tillstånd,

x

, under en policy, p:

Vp(x)Ep{Rt| xtx}Ep

k0

gkrt k 1 xtx

Uppsala Universitet 11 Institutionen för datorteknik

Beslutsvärdefunktioner

Värdet av att fatta beslut a i tillståndet x under p

Qp(x, a)Ep{Rt| xtx, ata}

Ep

k0

gkrt k 1 xtx, ata

Uppsala Universitet 12 Institutionen för datorteknik

Bellmans ekvation

Värdet av ett tillstånd är summan av:

1. Den förväntade (omedelbara) belöningen, och 2. Värdena (viktade med sina sannolikheter) av de

nästa tillstånd som kan nås

(4)

Optimalitetsprincipen

En optimal policy maximerar värdefunktionen för alla tillstånd.

Algoritmer för kritikerledd inlärning

Dynamisk programmering

Monte Carlo-simulering

Tidsdifferensmetoder

Uppsala Universitet 15 Institutionen för datorteknik

Dynamisk programmering

Studerad inom operationsanalysen sedan 60-talet

Kräver modell av övergångssannolikheter och förväntad belöning

Minnes- och beräkningskrävande

å

Alltför beräkningskrävande i stora tillståndsrymder (} 104 tillstånd). Effektiv för mindre problem.

Uppsala Universitet 16 Institutionen för datorteknik

Policyutvärdering

1. Intiering

V := tabell över godtycklig funktion X Ê9 q := ett litet, positivt tal

2. Policyutvärdering Upprepa

D := 0

För varje x Ů X v := V(x)

V(x) := r(x, p(x)) + gSy Pxyp(x) V(y) D := max (D, |v – V(x)|)

tills D < q

(5)

Policyiterering

1. Intiering

p := godtycklig, deterministisk policy V := tabell över godtycklig funktion X Ê9 q := ett litet, positivt tal

2. Policyutvärdering 3. Policyförbättring

policyn_ändrad := FALSKT För varje x Ů X

a := p(x)

p(x) := arg maxb r(x, b) + gSy PxybV(y) Om a 0 p(x) så policyn_ändrad := SANT Om policyn-ändrad gå till 2, annars klar

Monte Carlo-simulering

Gör försök, observera och ackumulera belöningar, medelvärdesbilda belöningarna som uppskattning av värdefunktionen.

Kräver observation av ett stort antal tillstånds- övergångar och belöningar för konvergens

Uppsala Universitet 19 Institutionen för datorteknik

1. Intiering

p := godtycklig, deterministisk policy

Q := tabell över godtycklig funktion X Ê9 A För alla x Ů X och a Ů A(x)

R_lista(x, a) = tom lista 2. Värdeförbättring

Generera ett försök med hjälp av p

För varje par (x, a) som observerats i försöket:

R := ackumulerad belöning efter att (x, a) observerats Lägg till R i R_lista(x, a)

Q(x, a) := medelvärdet av elementen i R 3. Policyförbättring

För varje tillstånd x som observerats i försöket:

p(x) := arg maxa Q(x, a) Gå till 2.

Uppsala Universitet 20 Institutionen för datorteknik

Tidsdifferensmetoder (TD)

Har utvecklats under 80- och 90-talet

Värdefunktionen uppdateras från observationer

Behöver ingen modell av omgivningen

Policyutvärdering

DVt(xt)+h

ƪ

rt 1 gVt

xt 1

*Vt(xt)

ƫ

+hdt där dt kallas TD-felet

References

Related documents

Oavsett om lärare använder digitala verktyg i undervisningen eller inte är det viktigt att lärare använder sig av olika metoder för att se till varje elevs behov för

bättre grund för inlärning där alla elever känner sig trygga med att lärare och elever visar respekt för varandra.. Där är vi

Inlärningens betydelse kan heller inte avgöras från detta försök då ingen systematisk inlärning egentligen skett med de olika barnen även om deras olika cykel-. vanor ger en

En slutsats som inte dras, eller ens kan dras, efter undersökningen är att svenska bör vara det obligatoriska språket för uppsatsskrivande på IT-institutionen då detta riskerar

Hattie (2009) skriver i sin bok att en lärare som verkligen gör skillnad i elevernas lust till inlärning och förmåga är den lärare som inte bara känner passion

Samtidigt kan till exempel lärare eller andra professioner som vill motivera människor inte alltid enbart förlita sig på inre motivation, och det är därför viktigt att

Det är bra och viktigt att lärare ingriper, när de ser konflikter mellan elever, å andra sidan är det likväl viktigt att lärare inte är för snabba med att ingripa eftersom det

Syftet med dessa föreskrifter är att garantera studenternas inflytande när ärenden som har betydelse för utbildningen eller studenternas situation inte hanteras i någon grupp,