Inlärningsteorin: centrala begrepp - Vart tog behaviorismen vägen?: Social responsivitet mellan

Skinners inlärningsteori utgår från att alla organismer ”opererar” i och på sin omgivning och tenderar att upprepa sådant beteende som framkallat ett positivt resultat (till exempel mat, lek eller sällskap). Denna idé har i sin tur sina rötter i Thorndikes effektlagar (1898, 1911, se också fotnot under rubriken ”Skinners inlärningsteori” i kapitel 1). På en viktig punkt motsäger Skinner Thorndike: Han godtar inte uttrycket trial and error eftersom han menar att det inte är genom misstag som organismer lär sig, utan genom att lyckas (se exempelvis Skinner, 2008 [1968], sid 15-16). Det handlar om trial and

success, snarare än trial and error – och den som vill lära någon något bör därför så långt

som möjligt reducera risken för misstag.

Organismers opererande på omgivningen är en form av elementärt beteende, som förklaras med att organismen måste förhålla sig aktiv till sin omvärld för att försäkra sig om sådant som den behöver för sin överlevnad: näring, vätska, gemenskap, skydd, fort- plantning etc (Skinner 1953 sid 62ff). I det klassiska inledningsstycket till boken Verbal

Behavior (Skinner, 1957) uttrycks det så här:

Men act upon the world, and change it, and are changed in turn by the consequences of their action. Certain processes, which the human organism shares with other species, alter behavior so that it achieves a safer and more useful interchange with a particular environment. When appropriate behavior has been established, its consequences work through similar processes to keep it in force. If by chance the environment changes, old forms of behavior disappear, while new consequences build new forms. (Skinner, 1957, sid 1)

De konsekvenser Skinner skriver om i det citerade stycket handlar om beteenden som blir operant betingade eller, när omgivningen förändras, utsläckta och eventuellt ersatta av nya beteenden. Operant betingning uppkommer till följd av det som inom inlär- ningsteorin benämns förstärkning, och anpassning till en förändrad miljö genom att vissa beteenden försvinner eller förändras benämns utsläckning. Vi ska strax fördjupa

oss ytterligare i dessa begrepp. Men allra först en introduktion av respondent betingning (det vill säga den form av betingning som Pavlov och Watson intresserade sig för).

Respondent (klassisk) betingning

Respondent betingning är central för den klassiska behaviorismen och handlar om re- lationen mellan stimuli och respons.

En respons (det vill säga en organisms reaktion på ett stimulus) kan vara obetingad eller betingad. Obetingade responser utlöses utan föregående inlärning, betingade re- sponser utförs till följd av inlärning (se exempelvis Skinner 1953, sid 110-116).

Pavlovs hundar är det mest berömda exemplet på respondent betingning: från början var det smaken av kött på tungan som fick hundarnas salivproduktion att öka (obetingad

respons), men efterhand räckte det med något som de genom erfarenhet lärt sig associera

till smaken av kött (exempelvis personalens vita labbrockar eller ljudet av en klocka) för att de skulle börja salivera. Då hade de vita rockarna respektive klockan blivit ett betin-

gat stimulus – ett stimulus som från början inte överhuvudtaget hade med mat att göra,

hade kommit att associeras just till mat – och saliveringen hade nu blivit en betingad

respons.

The external agent came to be called a stimulus. The behavior controlled by it came to be called a response. Together they comprised what was called a reflex – on the theory that the disturbance caused by the stimulus passed to the central nervous system and was ”reflected” back to the muscles. (Skinner 1953, sid 47)

Mer schematiskt kan den respondenta betingningen beskrivas så här (just det här exemplet handlar om betingad skräck):

Obetingat stimulus (till exempel ett högt, plötsligt ljud) -> Obetingad respons (skräck)

S -> OR

Obetingat stimulus (ljudet) + Neutralt stimu- lus (t ex ett blinkande ljus) -> Obetingad re- spons (skräck)

OS + NS -> OR

Betingat stimulus (det blinkande ljuset) -> Betingad respons (skräck)

BS -> BR

Operant betingning

När det kommer till den operanta betingningen handlar det inte – som i den respon- denta – om att ett stimulus utlöser en viss respons utan om att organismen medan den

”opererar” på sin omgivning gör vissa erfarenheter (som kan fungera förstärkande eller, omvänt, aversivt) (se exempelvis Skinner 1953, sid 62-68). För att synliggöra att beteendet kommer först, föredrar Skinner att kalla de olika beteenden som en organism uppvisar för operanter. Begreppet operant används både som ett adjektiv (operant bete- ende) och som ett substantiv (en operant) (Skinner 1953, sid 65).

The term emphasizes the fact that the behavior operates upon the environment to generate consequenses. (Skinner 1953, sid 65)

Ibland kallas Skinners behaviorism för operant behaviorism, även om benämningen ra- dikal behaviorism är vanligare. Företrädare för den radikala behaviorismen menar, precis som Watson och den klassiska behaviorismen, att människans och alla andra levande organismers beteende formas i mötet med omgivningen. Men till skillnad från Watson ser Skinner inte denna miljöbetingade formning som en konsekvens av det som händer

före beteendet, i form av ett beteendeutlösande stimulus, utan mer som en konsekvens

av det som inträffar efter. Analogt med Darwins evolutionsteori sker, enligt Skinner, ett naturligt urval av beteenden, genom att vissa beteenden (operanter) leder till någon form av gynnsam konsekvens och blir operant betingade (se exempelvis Skinner 1976 sid 223-226 och 246-247, Blackman 1991, Donahoe 1984). Det kan handla om att ett visst beteende leder till att organismen får något den uppskattar (exempelvis något gott att äta eller möjligheten att leka med en kompis) eller till att den undkommer något obehagligt (exempelvis ett skrämmande ljud eller en hotfull lärare). Det är dessa konsekvenser som Skinner kallar för förstärkare.

Ur det här perspektivet följer också att se organismen och omgivningen som en enhet. Lika lite som Skinner vill se dualistiskt på förhållandet kropp och själ, vill han göra det på förhållandet mellan organism och omvärld.

Förstärkare

Inom inlärningsteorin skiljer Skinner (se exempelvis 1953, sid 72-84 och 1976, sid 51- 67) mellan

 positiva förstärkare (sådana som organismen uppfattar som värdefulla) och  negativa förstärkare (sådana som befriar organismen från något obehagligt). Positiv och negativ ska inte uppfattas som bra och dåligt, utan som något som – i ma- tematisk mening – adderas respektive subtraheras. De tillämpningar Skinner gör av inlärningsteorin bygger på positiva förstärkare. Metoder baserade på negativ förstärk- ning och straff omtalar han som ”aversiva metoder” (för att individen ska kunna befrias från något obehagligt, krävs i ledet innan att något obehagligt har introducerats – detta obehagliga har en aversiv, i betydelsen frånstötande, funktion). Även om dessa metoder kan ha snabb och omedelbar effekt (dock långtifrån självklart den avsedda) menar han,

som vi ska se nedan (och i kapitel 6), att de generellt sett bör undvikas eftersom de samtidigt har många negativa bieffekter.

För att något enligt inlärningsteorin överhuvudtaget ska räknas som en förstärkare krävs att det ökar sannolikheten för att ett visst beteende, under likartade betingelser, ska upprepas. Det hungriga barn som serveras mat när det sätter sig vid bordet, kan ha fått beteendet ”sätta sig vid bordet” positivt förstärkt om hen kommit att förknippa sittandet vid bordet med matserveringen. Och den frusna person som undkommer en kall vind genom att sätta på sig en varmare jacka, har fått beteendet sätta på sig en jacka när det är kallt negativt förstärkt. I båda fallen har – om det operanta beteendet sam- mankopplats med konsekvensen – sannolikheten ökat för att barnet respektive den frusna personen ska upprepa samma beteende, nästa gång de är hungriga respektive utsatta för en kall vind. Det som då har inträffat benämner Skinner för inlärning och hans inlärningsteori är ett försök att beskriva de mekanismer som bidrar till att sådan inlärning sker.

Vad som verkligen fungerar som en förstärkare går inte att bestämma utan att det sätts i relation till ett beteende och ett sammanhang. Det som vi till vardags kallar för belöningar är inte automatiskt synonymt med förstärkningar. Först när en belöning associeras till ett visst beteende och leder till en ökning av sannolikheten för att detta beteende ska upprepas under likartade betingelser, kan belöningen, enligt Skinner, de- finieras som en förstärkare.

Förstärkningar kan vidare vara primära eller sekundära. En primär förstärkare är obetingad och fungerar utan föregående inlärning. Det kan vara mat, godis, dryck, tak över huvudet, sällskap, sex, lek. En sekundär förstärkare är något som genom associativ in- lärning kommit att förknippas med en primär förstärkare. Det kan exempelvis vara åsynen av en skål med godis (man vet genom tidigare erfarenhet att godis smakar gott) eller en klickerdosas klickande ljud (klickerdosan är ett vanligt hjälpmedel inom viss djurträning, där klickljudet genom klassisk betingning kommit att associeras med något positivt).

En speciell form av sekundära förstärkare kallas för generaliserade förstärkare (Skinner, 1953, sid 77, 1976, sid 82). Det är en typ av förstärkare som representerar flera olika sorters primära förstärkare och som är vanliga i mellanmänskliga situationer. Det kan vara uppmärksamhet, erkännande och ömhet. Men också – vilket kan vara bra att bära i minnet längre fram i avhandlingen – en annan persons underdånighet. Om vi med tvång har drivit någon att göra något, och vi plötsligt ser något som liknar samtycke i dennas agerande, så kan det enligt Skinner (1953, sid 79) vara mycket förstärkande.

En symbolisk form av generaliserade förstärkare är så kallade tokens. Och den allra vanligaste formen av tokens är enligt Skinner (1953, sid 79-80), pengar. Andra exempel är betyg, examina, stipendier och priser.

Ifråga om generaliserade förstärkare understryker Skinner att det är viktigt att på- minna sig att de är sekundära och inte primära. När vi talar om exempelvis människans behov av uppmärksamhet, kärlek och ömhet, så tenderar vi, enligt Skinner, att bortse

från att alla dessa egentligen – eller ursprungligen – representerar mer primära behov, som värme, näring och sex (1953, sid 81).

I förhållande till generaliserade förstärkare, är det också på sin plats att uppmärk- samma begreppet generalisering. Genom generalisering kan generaliserade förstärkare överföras till situationer som bara delvis liknar de ursprungliga. De blir på så vis mindre situationsbundna (jämför också diskriminativa förstärkare nedan) (Skinner, 1976, sid 82-83).

Intermittent förstärkning

En förstärkare blir enligt Skinner allra mest effektiv om den bara kommer ibland, eller om värdet på förstärkningen växlar (ibland en torr kanelbulle, ibland en prinsesstårta). Skinner benämner detta ”intermittent förstärkning”, och hans laboratorieexperiment visade att det var det allra mest effektiva sättet av alla att förstärka ett beteende (se ex- empelvis Skinner 1953, sid 99-106). Förstärkningen kommer då inte alltid efter ett visst beteende, och inte heller med samma värde, men tillräckligt ofta för att beteendet ska hållas vid liv. Systemet med intermittent förstärkning används bland annat i den mänskliga spelbranschen. För att hålla fast människan vid den enarmade banditen, cho- kladhjulet eller roulettebordet gäller det att det med ojämna mellanrum utfaller någon sorts vinst. Det behöver inte varje gång vara storvinsten, tvärtom räcker det med en liten vinst så länge den motverkar utsläckning (att personen slutar spela eftersom hen ändå aldrig vinner något) och förstärker det beteende som är helt orienterat mot möj- ligheten att vinna mer (Skinner 1976, sid 67).

I barnuppfostran ägnar sig nog många, kanske de flesta, föräldrar – ofta omedvetet och oavsiktligt – åt just intermittent förstärkning. Den förälder som säger nej, nej, ja, nej, nej, nej, ja, nej, nej, nej, nej, nej, ja – gör nämligen precis just detta. Och med tanke på att intermittent förstärkning (åtminstone enligt inlärningsteorin) är så effektiv, så kan det här vara ett verkningsfullt sätt att, till exempel, lära sina barn (och andra) att det är framgångsrikt att tjata. På samma sätt kan det vara för hunden som rycker i kopplet. Om hon var tionde gång lyckas nå hela vägen fram till den doftfläck som hon genom att rycka i kopplet försöker nå, det vill säga förstärks för sitt ryckande, kommer hon sannolikt att de andra nio gångerna också rycka i kopplet.

Förstärkning ökar alltså sannolikheten för att det förstärkta beteendet ska upprepas i en framtida liknande situation. På så vis fungerar förstärkning också – vare sig den är medveten eller omedveten, avsiktlig eller oavsiktlig – ömsesidigt kontrollerande. Mänsklig interaktion är, precis som andra responser i omgivningen, en form av kontroll (Skinner, 1953, sid 189; 2003 [1971], sid 182). Det som är positivt förstärkande för den ena parten kan vara positivt eller negativt förstärkande (eller för den delen ett straff) för den andra. Den förälder som gav efter inför sitt barns tjatande och ändrade ett nej till ett ja förstärkte intermittent barnets tjat. Tjat = beteende. Förälderns ja efter nej =

intermittent förstärkning. Samtidigt kan nejet som blev ett ja för föräldern fungera negativt förstärkande. Genom att säga ja, slapp föräldern höra på barnets tjat. Säga ja (efter nej) = beteende. Tjatet upphörde = negativ förstärkning.

Formning/shejping

Ytterligare en variant av förstärkning är successiva approximationer, eller form-

ning/shejping (på engelska ”shaping”) (se exempelvis Skinner, 1953 sid 91-98). Här for-

mas ett visst beteende stegvis i en på förhand planerad inlärningsprocess (jämför krite- rieplanen för nos-target i förra kapitlet eller, för den delen, kunskapskriterierna för olika betyg i läroplanerna från 2011). Inledningsvis räcker det med att den som ska lära sig, uppvisar något som bara vagt påminner om eller leder till det på förhand definierade beteendet, för att det ska förstärkas. Kraven höjs därefter successivt, och till sist förstärks enbart sådant beteende som helt överensstämmer med målet.

Förstärkningskontingens och diskriminativa stimuli

Ett viktigt begrepp hos Skinner är förstärkningskontingens. Istället för att beskriva inlär- ning som en kausal kedja, talar han om ett kontingent förhållande mellan beteende och omgivning. Ramnerö och Törneke (2013) definierar kontingens som ett ”sammanhang där en händelse, med viss sannolikhet, är beroende av en annan för att inträffa”. Beteendet utlöses alltså inte – som i den klassiska, respondenta betingningen – av ett visst stimulus, utan uppträder i relation till något i omgivningen (se exempelvis Skinner 1953, sid 107 och 1976, sid 58 och 163).

Det som kan se ut som uttryck för fri vilja eller ett fritt val är, understryker Skinner, i själva verket beroende av organismens förstärkningshistoria. Eftersom historien inte finns närvarande i situationen är det lätt att förbise detta.

Operant behavior is called voluntary, but it is not really uncaused; the cause is simply harder to spot. (Skinner, 1976, sid 60)

I en förstärkningskontingens finns det enligt Skinner tre variabler, som görs beroende av varandra:

A. Den situation i vilken ett beteende uppträder (ibland beskrivs det som Ante- cedenter, ungefär motiverande omständigheter),

B. själva Beteendet och

C. följderna av beteendet (Consequenses). (Skinner, 2008 [1968], sid 13). Förstärkningskontingenser uppstår hela tiden, spontant. Men det är också förstärk- ningskontingenser som kan användas för att analysera uppkomsten av ett beteende

och/eller för att lära någon annan något. Att, exempelvis, lära en hund ligga på kom- mando, går inte, enligt inlärningsteorin, från att hunden lär sig ordet ”ligg” till att den lägger sig och får godis. Det sker inte heller via mutor, genom att matte eller husse säger ligg och förmår (”mutar”) hunden att lägga sig med en lockande godis och när hunden lägger sig ger den godbiten.44_{Inlärningen går tvärtom – som vi såg ovan – i motsatt}

riktning och innebär ett arrangerande av förstärkningsbetingelser (Skinner, 2008 [1968], sid 13). Det börjar, i synnerhet sett ur hundens perspektiv, med att den i en viss situation, till exempel när matte eller husse står helt still på trottoaren, spontant (eller prövande) lägger sig och att den sedan den lagt sig förstärks med godis. När detta upprepats ett antal gånger och hunden verkar på det klara med att den får godis om den under de givna betingelserna lägger sig, och att den därför också börjat göra så, så kan människan ”lägga på signal”, det vill säga få hunden att börja associera signalen ”ligg” med att lägga sig. Och få godis.

Då skulle man kunna lockas att säga att signalen ”ligg” blivit ett betingat stimulus och liggandet en betingad respons. Men det gör inte Skinner, eftersom hundens reakt- ion på ”ligg”, inte är ett reflexmässigt beteende utan tvärtom har föregåtts av inlärning. Liggandet är relaterat till en viss situation. Och för att särskilt synliggöra att det inte handlar om ett reflexutlöst beteende, skiljer Skinner mellan klassiskt betingade stimuli, som exempelvis Pavlovs klocka, och diskriminativa stimuli (se exempelvis Skinner 1953, sid 107). Ett diskriminativt stimulus har en helt annan ”tillkomsthistoria” än det klassiskt betingade; det har tillagts sist i en inlärningsprocess, som – om vi håller oss till exemplet en människa som vill lära sin hund att lägga sig ner när den hör ordet ligg – schematiskt kan beskrivas så här:45

1) Hunden rör sig och undersöker (opererar på) sin omgivning

2) När hunden lägger sig (kanske för att den är uttråkad, behöver tänka eller blivit trött), förstärker människan detta beteende (genom att ge en godis, säga något uppmuntrande, klappa hunden eller erbjuda den en stunds lek)

3) Genom de förstärkningsbetingelser som människan skapar, ”shejpas” ett öns- kat beteende fram. Om vi håller på att lära vår hund att lägga sig ner när vi säger ligg är det inte så många moment inblandade, det som förstärks är helt enkelt att hunden lägger sig (möjligen, om den är mycket ovillig, kan vi i och för sig på vägen dit förstärka hundens väg ner, exempelvis att den tittar mot golvet, sänker någon del av kroppen etc), men det är också fullt möjligt att

44_{Det är dock fullt möjligt att lära en hund ligg på detta vis, men det handlar då om en form av klassisk}

betingning, eller det som på Lissies valpkurs kallades för ”locka och lura”, snarare än om operant betingning.

45_{Jag exemplifierar med människa som tränar hund, men egentligen menar Skinner att de mekanismer}

som styr beteende är de samma för alla levande organismer. Det människan gör, när hon tränar ett annat djur att bete sig på ett visst sätt, är att hon – med Skinners terminologi – medvetet använder sig av dessa mekanismer för att utöva kontroll över djurets beteende.

tänka sig att liggandet bara är ett första steg i en längre beteendekedja som då steg för steg shejpas fram, exempelvis att hunden lägger sig och sedan lyfter ena tassen och lägger den över den andra tassen och därefter nosen på tassen ... etc. 4) Slutligen förknippar hunden beteendet att lägga sig under de givna omständig-

heterna, med den positiva förstärkaren, till exempel en godisbit.

5) Nu – och först nu – lägger människan till signalen, det vill säga ordet ”ligg”. Det tränas följaktligen inte in som vid klassisk betingning genom att kombineras med ett tidigare obetingat stimulus (något sådant finns överhuvudtaget inte i den här processen), utan genom att kombineras med det önskade beteendet. Samtidigt eller i direkt anslutning till att hunden lagt sig, har människan börjat säga ”ligg”, och, så fort hunden lagt sig, förstärkt beteendet.

6) Till sist har ”ligg” blivit ett diskriminativt stimulus: hunden vet att ”ligg” under de givna betingelserna, till skillnad från exempelvis ”sitt” eller ”hit”, är ett löfte om att godis kan följa på att den lägger sig.

Skillnaden mellan klassiskt betingade och diskriminativa stimuli är att de förra fram-

kallar en viss respons, medan det senare bygger på att oganismen erbjudit en viss respons

(se exempelvis Skinner, 1976, sid 58-59). I det senare fallet finns ingen enkelt urskiljbar och alltid likadan orsak-verkan-relation, som i den klassiska betingningens stimulus- respons-kedjor. Ett diskriminativt stimulus ändrar sannolikheten för att ett visst beteende ska uppträda, men eftersom beteendet är situationellt och baserat på tidigare erfarenheter så kan förändringar i situationen, exempelvis att hunden är mätt, upptagen av något annat eller på grund av höga bakgrundsljud har svårt att urskilja signalen (ordet), påverka sannolikheten för att hunden lägger sig när den hör signalen ”ligg”. Liggandet är inte klassiskt betingat (det utlöses inte av signalen), utan kontingent (det erbjuds när de samlade omständigheterna är de rätta).

Skinner antar att denna diskriminativa förmåga är av biologisk betydelse – och av evolutionärt ursprung. Utan diskriminativa stimuli skulle det lätt bli kaos i relationen mellan organism och omgivning, eftersom den skulle sakna möjlighet att navigera i fråga om när ett visst beteende men inte ett annat är adekvat (Skinner 1953, sid 108).

Regelstyrt eller kontingent betingat beteende

Den stora utmaningen för Skinners inlärningsteori (och överföringen av erfarenheterna från djurförsök till mänskligt handlande) är det verbala språket. Jag kommer inte här, eller någon annanstans i avhandlingen, gå på djupet i den språkteori som Skinner lägger fram i boken Verbal behavior (men jag återkommer kort till den i kapitel 6 i anslutning till Chomskys beryktade recension av boken). Det som däremot kan vara relevant att påtala inom ramen för en presentation av inlärningsteorin, är att Skinner såg språket

In document Vart tog behaviorismen vägen?: Social responsivitet mellan barn och vuxen, hund och människa. (Page 90-99)