Audiovisuell talperception hos sensorineuralt horselskadade : en forskningsoversikt

(1)

Örebro universitet Hälsoakademin

Examensarbete i Hörselvetenskap Vt 2008

Audiovisuell talperception hos sensorineuralt

hörselskadade

– En forskningsöversikt

Författare: Nina Svärd Marty Handledare: Peter Czigler

(2)

Örebro universitet Hälsoakademin

Audionomprogrammet

Arbetets art: Examensarbete omfattande 15 högskolepoäng, C-nivå, inom ramen för Audionomprogrammet, 180 högskolepoäng

Svensk titel: Audiovisuell talperception hos sensorineuralt hörselskadade

– en forskningsöversikt

Engelsk titel: Audiovisual speech perception in sensorineurally hearing impaired – a research review

Författare: Nina Svärd Marty Handledare: Peter Czigler

Datum: 2008-05-08

Antal sidor: 21

Sökord: Auditiv perception, talperception, synperception, talavläsning, hörselnedsättning, kommunikation Sammanfattning:

Att tal uppfattas audiovisuellt, både med hörseln och med synen, tas fasta på i de kommunikationsråd som ges till personer med hörselnedsättningar och deras anhöriga. Syftet med denna uppsats är att utröna om det finns vetenskapliga belägg för att visuell information bidrar till att öka taluppfattningsförmågan hos vuxna, sensorineuralt hörselskadade. Metoden har innefattat en litteratursökning i databaser tillgängliga via Örebro Universitetsbibliotek och en urvalsprocess baserad på vissa inkluderings- respektive exkluderingskriterier samt kvalitetsgranskning av litteratur. Resultatet visar att det finns vetenskapliga belägg för att visuell information bidrar till en ökad taluppfattningsförmåga. Resultatet diskuteras bland annat utifrån dess generaliserbarhet till verkliga kommunikationssituationer.

(3)

Innehållsförteckning

Inledning ... 2

Syfte ... 3

Metod ... 4

Litteratursökning... 4

Urval och kvalitetsgranskning ... 5

Bearbetningsmetod ... 6

Etiska aspekter ... 6

Resultat och diskussion... 6

Audiovisuell igenkänning av konsonantljud, ord och meningar ... 9

Audiovisuell igenkänning av konsonantljud med och utan hörapparat ... 12

Audiovisuell lexikal och semantisk beslutsfattning... 13

Audiovisuell ordigenkänning hos gravt hörselskadade personer... 15

Audiovisuell igenkänning av konsonantljud hos gravt hörselskadade personer... 17 Diskussion... 18 Metoddiskussion ... 18 Resultatdiskussion... 19 Slutsats ... 20 Referenser ... 21

(4)

Inledning

Tal uppfattas inte bara auditivt utan också med hjälp av synen. Synintryck kan till och med påverka vår hörsel på så sätt att vi tycker oss höra någonting som inte finns i den auditiva talsignalen. Detta är den så kallade McGurk-effekten. Många experiment kring audiovisuell talperception (d.v.s. talperception via hörseln och synen) utgår från denna effekt. I experimentet där detta observerades för första gången fick försökspersonerna se videosekvenser av en person som uttalade ljudsekvensen gaga, men ljudet i videoinspelningen hade manipulerats till att bestå av baba (McGurk & MacDonald, 1976). Försökspersonerna var omedvetna om att den auditiva och visuella informationen inte stämde överens. De flesta rapporterade att de tyckte sig höra ljudsekvensen dada. På detta sätt har det visats att auditiv och visuell information kan interagera och bilda helt nya perceptionskoncept. Forskare är överens om att synen och hörseln påverkar varandra, men i vilken utsträckning och precis hur, är ännu oklart (t.ex. Massaro, 1988; Moore, 1997; Tye-Murray, 1998;).

Samtidigt som den auditiva och visuella informationen i talsignalen kan ge upphov till inte alltid önskvärda McGurk-effekter, så menar många att den visuella informationen som finns tillgänglig parallellt med talsignalen är mycket betydelsefull för många hörselskadade och att dessa visuella ledtrådar bidrar till en ökad taluppfattningsförmåga hos hörselskadade (Campbell, 1998; Dillon, 2001; Gelfand, 1997; Tye-Murray, 1998). I en ofta citerad studie av Sumby och Pollack (1954) genomfördes experiment med försökspersoner som fick lyssna på tal i vitt brus i enbart auditivt (A) testförhållande, se talet produceras i enbart visuellt (V) testförhållande eller både lyssna och se i ett så kallat audiovisuellt testförhållande (AV). Försökspersonernas taluppfattningsförmåga ökade signifikant då de även fick tillgång till den visuella informationen genom att se talarens ansikte. Sumby och Pollacks försökspersoner var normalhörande.

I en annan ofta citerad studie av Erber (1972) testades både normalhörande och hörselskadade försökspersoners taluppfattningsförmåga i A, V och AV testförhållande. Även i denna studie rapporterades att försökspersonerna kunde dra nytta av den audiovisuella informationen, både de normalhörande och de hörselskadade försökspersonerna. I Erbers studie lystes talarens ansikte upp av en stark lampa som gjorde att talarens munhåla blev synlig för försökspersonerna på ett helt annat sätt jämfört med vanlig belysning. Försökspersonernas uppmärksamhet fokuserades på detta vis till talarens läppar.

(5)

Att tillgodogöra sig visuell information i talsignalen genom så kallad talavläsning1 är inte heller lätt utan kan försvåras av många saker. Tye-Murray (1998) redogör för flertalet sådana försvårande faktorer, t.ex.: Att talaren inte är familjär för talavläsaren, talavläsarens syn- och hörselförmåga och bakgrundsbuller. Långa meningar förefaller också vara svårare att avläsa än korta meningar, enstaviga ord svårare än tvåstaviga, och lösryckta ord svårare än ord som uttalas i en meningsfull kontext.

Trots att det inte är helt klarlagt hur auditiv och visuell information samverkar (t.ex. Campbell, 1998; Massaro, 1988; Moore, 1997; Tye-Murray, 1998) och trots alla de svårigheter som kan kopplas till förmågan att framgångsrikt kunna avläsa tal (t.ex. Tye-Murray, 1998) läggs en förhållandevis stor vikt på betydelsen av visuell information för hörselskadades förmåga att tillgodogöra sig tal. Det är denna påstådda audiovisuella nytta som tas fasta på i de kommunikationsråd som ges till personer med hörselnedsättningar och deras anhöriga. Råd ges om exempelvis vikten av att tala ansikte mot ansikte, artikulera tydligt, inte hålla händerna för munnen då man talar och att se till att belysningen är god (Danermark, 2005). Liknande råd ges också till blivande audionomer och förväntas implementeras i kommunikationen med hörselskadade i den kliniska verksamheten av den yrkesverksamma audionomen. En av hörselvårdens viktigaste arbetsuppgifter är just att optimera kommunikationsmöjligheterna för hörselskadade. Det finns idag minst en miljon människor i Sverige som har en hörselnedsättning som påverkar deras samtalsförmåga (Danemark, 2005). Kunskap om huruvida visuell information kan öka hörselskadades taluppfattningsförmåga får därför sägas vara mycket viktig.

Visuell information ökar normalhörandes taluppfattningsförmåga i brus (t.ex. Ross et al., 2007; Sumby & Pollack, 1954). Hur hörselskadades taluppfattningsförmåga påverkas av visuell information förefaller däremot inte vara lika väl etablerat. I denna uppsats kommer det därför att redogöras för sensorineuralt hörselskadades audiovisuella taluppfattningsförmåga. Anledningen till att endast sensorineuralt hörselskadades taluppfattningsförmåga kommer att behandlas i denna uppsats är att ingen forskning har identifierats där försökspersonerna har haft en konduktiv hörselnedsättning.

Syfte

Syftet med uppsatsen är att med hjälp av vetenskaplig litteratur från de senaste 10 åren utröna om det finns vetenskapliga belägg för att visuell information bidrar till att öka hörselskadades taluppfattningsförmåga och att redogöra för dessa belägg.

1

Med begreppet talavläsning avses i denna uppsats taligenkänning då både auditiv och visuell information finns tillgänglig och inte så kallad tyst avläsning då ingen auditiv information finns tillgänglig.

(6)

Metod

För att uppnå syftet valdes att göras en litteraturstudie. I detta avsnitt redogörs för hur litteratursökningen har utförts och hur artiklarna har valts ut, kvalitetsgranskats samt behandlats.

Litteratursökning

En litteratursökning gjordes i databaserna Elin@örebro, PubMed och CSA Linguistics & Language Behavior Abstracts. Begrepp som söktes efter var: audiovisual, auditory-visual, bimodal, hearing, lipreading, speech, speechreading, visual, visual cues och visual information (Se tabell 1 för sökresultat). Dessa begrepp kombinerades på olika sätt med varandra. Begreppen lipreading och speechreading gav upphov till få sökträffar när de kombinerades med andra sökord. De söktes därför även var och en för sig.

I databasen Elin@örebro begränsades sökningarna så att endast artiklar publicerade mellan åren 1998-2009 och tillgängliga i så kallad fulltext inkluderades i sökresultat. I databasen PubMed begränsades sökningarna till att endast inkludera artiklar publicerade de senaste tio åren som handlade om människor och som var skrivna på engelska. Ytterligare en begränsning gjordes då endast artiklar med länkar till fulltext inkluderades i sökresultatet. I databasen CSA Lingusitics & Language Behavior Abstracts begränsades sökningarna till att endast inkludera tidskriftsartiklar skrivna på engelska och publicerade mellan åren 1998-2008. Då sökningen gav upphov till mer än 150 sökträffar gicks dessa inte igenom med tanke på uppsatsens begränsade omfattning och tidsram.

Tabell 1 Antal sökträffar för respektive sökord i de besökta databaserna

Sökord Elin@örebro PubMed Linguistics and

Language Behavior Abstracts

Audiovisual AND hearing 1 200 28

Audiovisual AND speech 33 167 96

Auditory-visual AND hearing 1 113 27

Auditory-visual AND speech 14 61 85

Bimodal AND hearing 4 106 8

Bimodal AND speech 4 62 32

Lipreading 24 159 100

Lipreading AND hearing 1 130 52

Lipreading AND speech 8 134 91

Lipreading AND visual cues 0 8 6

Lipreading AND visual information 0 15 11

Speechreading 15 152 39

Speechreading AND hearing 1 123 24

Speechreading AND speech 10 129 34

Speechreading AND visual cues 0 8 1

Speechreading AND visual information 0 14 0

Visual AND hearing 25 2389 212

Visual AND speech 71 1536 663

Visual cues AND hearing 0 46 11

Visual cues AND speech 0 32 23

Visual information AND hearing 0 103 13

(7)

Urval och kvalitetsgranskning

Urvalsprocessen genomfördes i fyra steg. Ett första urval gjordes genom att läsa artikeltitlarna för alla sökträffar (förutsatt att dessa inte översteg 150) för att sålla bort de artiklar vars titlar ansågs vara irrelevanta i förhållande till uppsatsens syfte. Ett andra urval gjordes genom att på motsvarande sätt läsa de kvarvarande artiklarnas abstrakt (de artiklar som saknade abstrakt kontrollerades inte). I ett tredje steg lästes de artiklar vars abstrakt bedömdes vara relevanta i sin helhet. I det fjärde och sista steget kvalitetsgranskades de kvarvarande artiklarna. De artiklar som efter genomläsning och kvalitetsgranskning bedömdes vara av antingen låg kvalitet eller av låg relevans exkluderades.

Artiklarnas relevans i förhållande till uppsatsens syfte bedömdes i första hand utifrån följande kriterier:

Inklusionskriterier

• I artiklarna redogörs för experimentella studier med vuxna sensorineuralt hörselskadade försökspersoner.

• I artiklarna görs vetenskapliga jämförelser mellan försökspersonernas taluppfattningsförmåga i enbart auditivt testförhållande respektive audiovisuellt testförhållande.

Exklusionskriterier

• Artiklarna handlar främst om automatisk audiovisuell taligenkänning och/eller syntetiskt tal.

• Artiklarna handlar främst om så kallat tecken till stöd och/eller teckenspråk.

• Artiklarna handlar främst om hjärnan och/eller nervsystemet. • Studiens försökspersoner är färre än 10 st.

• Studiens försökspersoner är synskadade och/eller blinda. • Studiens försökspersoner är spädbarn och/eller barn.

• Studiens försökspersoner har specifika sjukdomstillstånd och/eller syndrom.

Totalt bedömdes åtta artiklar vara relevanta för uppsatsens syfte enligt ovan kriterier och valdes ut för att i urvalsprocessens sista steg läsas i sin helhet och kvalitetsgranskas. Artiklarnas kvalitet bedömdes som hög, medel eller låg utifrån i förväg uppställda kriterier:

Granskningskriterier

• Syfte och/eller frågeställning ska tydligt framgå. • Designen ska vara passande för att uppnå syftet.

• Urval och eventuellt bortfall av försökspersoner ska beskrivas. • Resultatet ska kunna bedömas som trovärdigt och generaliserbart. • Diskussion finns kring studiens validitet och reliabilitet.

(8)

• Studien är etiskt godkänd eller bedöms vara etiskt försvarbar.

Artiklar som uppfyllde alla ovan kriterier eller brast på enbart ett till två kriterier bedömdes vara av hög kvalitet. Artiklar som endast uppfyllde hälften eller färre kriterium bedömdes vara av låg kvalitet. En av de åtta artiklarna bedömdes vara av låg kvalitet och exkluderades från uppsatsen: Lip reading role in the hearing aid fitting process (Dell'Aringa, A.H., Adachi, E.S. & Dell'Aringa, A.R., 2007). Resterande artiklar bedömdes vara av hög kvalitet. Ingen artikel bedömdes vara av medelkvalitet.

Bearbetningsmetod

Totalt ligger sju artiklar till grund för uppsatsens resultat. Deras innehåll granskades utifrån uppsatsens syfte och relevanta fakta i förhållande till uppsatsens syfte plockades ut och beskrevs i löpande text. Kortfattad information om artiklarnas syfte, design, stimuli, försökspersoner, resultat samt etiska aspekter sammanställdes i en tabell (tabell 2) i uppsatsens resultatdel.

Etiska aspekter

I enlighet med Forsberg och Wengström (2003) har det i urvalsprocessen eftersträvats att välja studier som fått tillstånd av en etisk kommitté. När etiskt godkännande inte omnämnts i artikeln har artikeln granskats i syfte att inte inkludera studier där det finns uppenbara etiska konflikter eller betänkligheter. Forsbergs och Wengströms (2003) inrådan att presentera alla resultat oavsett vilken hypotes de stödjer, att redovisa alla artiklar som ingår i uppsatsen samt att arkivera de artiklar som ingår på ett säkert sätt i tio år har efterföljts.

Resultat och diskussion

I detta avsnitt redogörs för de delar av de inkluderade artiklarna som bedömts vara mest relevanta för uppsatsens syfte. Efter varje redovisad artikel följer en kortfattad diskussion. Avsnittet inleds med en sammanfattande tabell (tabell 2) över de inkluderade studierna. Alla inkluderade artiklar bedömdes vara av hög kvalitet. En av artiklarna beskriver en studie med en longitudinell, retrospektiv design; detta

(9)

7

Tabell 2 Sammanfattande resultatredovisning av de inkluderade studierna, angivet i alfabetisk ordning

Studie Syfte Stimuli Försökspersoner Resultat Etik

Grant et al., 1998.

Att undersöka hörselskadades förmåga att känna igen konsonantljud samt ord i meningar A och V och deras förmåga att integrera A och V ledtrådar.

18 konsonantljud omgivna av vokalen /a/; Fonetiskt balanserade meningar innehållande fem nyckelord. Stimuli presenterades A, V samt AV i talliknande brus (S/N ratio 0 dB).

29 SN

(medelålder 65.0 år).

Alla FP uppnådde bättre resultat både för konsonantljud och

meningar då V information fanns att tillgå; De individuella skillnaderna i förmågan att integrera A och V ledtrådar var störst för

meningsigenkänningen.

Etiskt godkännande nämns ej; Alla FP gav sitt skriftliga godkännande till att deltaga i studien.

Kaiser et al., 2003.

Att undersöka hur CI-användare kombinerar V information med A

information; Att utvärdera ev. effekter av lexikal svårighets-grad och talarvarians hos CI-användare.

Ordlistor med lexikalt lätta och svåra ord upplästa av en och samma talare och av sex olika talare presenterades A, V samt AV.

20 CI-användare (medelålder 50.0 år). 21 NH

(medelålder 42.0 år).

Alla FP uppnådde bäst resultat med AV-stimuli, då en och samma talare uttalade lexikalt lätta ord.

Etiskt godkännande nämns ej.

Larsby et al., 2005.

Att undersöka hur kognitiva processer, viktiga för tal- avläsning påverkas av olika typer av talliknande

bakgrundsbrus hos yngre och äldre NH och SN.

Ord, nonsensord och bokstavskombinationer. Stimuli presenterades i s.k. ICRA-brus, Hagermans brus, Tal och Utan brus (S/N ratio +10 dB). Stimuli presenterades A, som Text samt AV.

12 yngre SN (medelålder 30.3 år) 12 äldre SN (medelålder 70.7 år) 12 yngre NH (medelålder 29.5 år) 12 äldre NH (medelålder 69.0 år)

Brus hade störst negativ påverkan i A testförhållande och minst i Text testförhållande; FP rankade testen i A som svårast och Text som lättast; FP uppvisade längre reaktionstider i AV testförhållande jämfört med A.

Rouger et al., 2007. (Longitudinell retrospektiv studie).

Att undersöka hur SN:s visuella förmågor utvecklas efter CI-implantat och hur dessa förmågor kan relateras till en auditiv förbättring.

Tvåstaviga ord presenterades utan brus och i olika S/N-förhållanden A, V och AV.

97 CI-användare (medelålder 56 år). 163 NH

CI-användare identifierade orden betydligt bättre i AV jämfört med A; CI-användare identifierade orden i V betydligt bättre än NH.

(10)

8

Rouger et al., 2008.

Att ta reda på om McGurk-effekten uppträder hos CI-användare och hur V information påverkar den AV perceptionen.

16 konsonantljud omgivna av vokalen /a/ presenterades kongruent och inkongruent med V informationen; Stimuli presenterades A, V samt AV.

33 CI-användare (medelålder 52.0 år) 39 NH (medelålder 32.0 år) FP kunde identifiera konsonantljuden bäst i AV testförhållande; CI-användare förlitade sig i större utsträckning än NH på den V informationen då stimuli presenterades inkongruent.

Undersökningen har godkänts av en etisk kommitté; Alla FP gav sitt skriftliga godkännande till att deltaga i studien.

Tye-Murray et al., 2007.

Att undersöka hur åldersrelaterad

hörselnedsättning påverkar läppavläsning och AV- integration.

13 konsonantljud omgivna av vokalen /i/; En-till trestaviga ord presenterade i bärfrasen ”Say the word...”; Meningar med 5-7 målord; Stimuli presenterades i bakgrundssorl A, V samt AV. 24 SN (medelålder 74.1 år) 53 NH (medelålder 73.3 år)

För både SN och NH gav AV testförhållande bäst resultat för igenkänning av alla stimulityper; SN presterade bättre än NH på

ordigenkänningstest som presenterades V; NH och SN integrerade A och V ledtrådar med likartad framgång.

Walden et al., 2001.

Att undersöka vilken

information om konsonantljud förstärkning respektive talavläsning kan ge; Att beskriva i vilken utsträckning de olika typerna av

information komplimenterar varandra då

hörapparatanvändaren inte kan se talarens ansikte.

14 konsonantljud omgivna av vokalen /a/; Stimuli

presenterades (1) A utan hörapparat, (2) A med hörapparat, (3) AV utan hörapparat, (4) AV med hörapparat. 25 SN (medelålder 66.2 år)

Förstärkning (2) och talavläsning (3) resulterade i en förbättring av kon-sonantigenkänning jämfört med (1). Bäst resultat uppnåddes i (4); Tal-avläsning gav främst information om artikulationsplats. Förstärkning gav information om artikulations-plats, artikulationssätt och information om huruvida kon-sonanten var tonande eller tonlös.

Undersökningen har godkänts av en etisk kommitté; Alla FP gav sitt skriftliga godkännande till att deltaga i studien.

FP = Försöksperson, NH = Normalhörande, SN = Sensorineuralt hörselskadad, CI = Cochleärt implantat AV = Audiovisuellt, A = Auditiv, V = Visuell

(11)

Audiovisuell igenkänning av konsonantljud, ord och meningar

I en studie av Grant, Walden och Seitz (1998) undersöktes bl. a. hur väl 29 hörselskadade försökspersoner kunde identifiera konsonantljud och målord i meningar med hjälp av enbart auditiv information, enbart visuell information och audiovisuellt: med hjälp av både synen och hörseln. Alla försökspersonerna hade bullerrelaterade sensorineurala hörselnedsättningar av olika grader och konfigurationer.

Den auditiva informationen presenterades binauralt via hörlurar och den visuella informationen fick försökspersonerna genom att de kunde se talaren på video. De totalt 18 olika konsonantljuden uttalades av en kvinnlig talare, i en och samma kontext, omgivna av vokalen /a/: /apa/, /aba/, /ama/ o.s.v. För igenkänning av målord presenterades fonetiskt balanserade meningar i låg kontext med fem målord i varje mening. I det auditiva testet kunde försökspersonerna inte se talaren. På motsvarande sätt hade de enbart tillgång till bilden av talaren och ingen auditiv information i det visuella testet. I det audiovisuella och auditiva testet presenterades stimuli i ett talliknande brus med S/N-förhållande motsvarande 0 dB. Stimuli presenterades på ca 85 dB SPL. För att identifiera konsonantljuden hade försökspersonerna tillgång till 18 bilder på en dataskärm: en bild för varje konsonantljud. Försökspersonerna identifierade konsonantljuden genom att trycka på den bild som de tyckte bäst motsvarade ljudsekvensen. För att bekanta sig med vilka bilder som motsvarade vilka ljud fick försökspersonerna först genomgå ett övningstillfälle. Försökspersonerna identifierade det stimuli som bestod av ord genom att skriva ned vilka ord de tyckte sig uppfatta. De uppmanades gissa då de var osäkra.

Resultatet visade att försökspersonerna kunde identifiera både flest konsonantljud och ord korrekt i det audiovisuella testet. I figur 1 presenteras medelvärde för korrekt andel igenkända konsonantljud och ord för försökspersonerna. Staplarna representerar de olika testförhållandena: auditivt (A), visuellt (V) och audiovisuellt (AV). 0 20 40 60 80 100 Konsonanter Ord pro c en t (% ) V A AV

Figur 1 Medelvärde för korrekt procentandel igenkända konsonantljud och ord för de 29 försökspersonerna.

(12)

Den individuella variationen i hur stor nytta försökspersonerna hade av den visuella informationen i det audiovisuella testet jämfört med det auditiva varierade mycket mer för igenkänning av ord i meningar än för igenkänning av konsonantljud. Det fanns ändå en stark korrelation mellan hur väl försökspersonerna kände igen konsonantljuden och hur väl de kände igen orden, 50 % av den individuella variansen i meningsigenkänningen kunde tillskrivas resultaten i konsonantigenkänningstestet. Detta samband menar Grant et al. (1998) är anmärkningsvärt eftersom igenkänning av konsonantljud troligen går till på ett helt annat sätt än igenkänning av ord i meningar. Författarna menar att audiovisuell konsonantigenkänning främst sker med hjälp av en kombination av visuella ledtrådar om artikulationsställe (var konsonanten produceras, t.ex. med läpparna som i bilabiala /b/) och auditiva ledtrådar om artikulationssätt (hur konsonanten produceras, t. ex. nasalt som i /n/) och ledtrådar om huruvida konsonanten är tonande (som i /z/) eller tonlös (som i /s/). Denna slutsats drar författarna efter att ha gjort en särdragsanalys av konsonantljuden och en analys av försökspersonernas rätta och felaktiga svar. Resultatet från denna analys visade att det framför allt var konsonanternas artikulationssätt och huruvida de var tonande eller tonlösa som kändes igen i det auditiva testet medan det framför allt var artikulationsställe som kändes igen i det visuella testet.

Grant et al. (1998) argumenterar att igenkänning av konsonantljud framför allt är beroende av så kallade bottom-up processer medan igenkänning av ord i meningar även involverar så kallade top-down processer. Att kunna tillgodogöra sig den auditiva informationen i talsignalen och den visuella informationen som finns parallellt med talsignalen för att sedan integrera denna information är bottom-up processer, menar författarna. Att använda sig av lingvistisk kunskap om t.ex. språkets syntax och semantik är exempel på top-down processer som författarna anser att man använder sig av i mer eller mindre utsträckning för igenkänning av meningar.

Detta resonemang låter troligt. Man kan tycka att relevansen för att studera audiovisuell konsonantigenkänning som i Grant et al.:s studie (1998) är förhållandevis låg. Den hörselskadade individen ställs antagligen sällan inför situationen att behöva känna igen ett enstaka konsonantljud i ett nonsensord i en verklig kommunikationssituation. Grant et al. (1998) påpekar att det är värdefullt att studera konsonantigenkänning eftersom konsonanter ofta förekommer i språket som betydelseskiljande enheter och för att hörselskadade ofta har svårt att uppfatta den akustiska skillnaden mellan olika konsonantljud. I jämförelse med undersökningen av konsonantigenkänning tycks författarnas studie av hur meningsfulla ord känns igen audiovisuellt som mer relevant. Men även om orden till skillnad från konsonantljuden har en lexikal betydelse så presenterades orden i meningar av låg kontext. Att meningarna hade låg kontext innebär att de var konstruerade så att det skulle vara svårt för försökspersonerna att gissa sig till de ord de inte uppfattade med hjälp av de andra orden i meningen. I realistiska kommunikationssituationer har vi ofta tillgång till mer kontextuell information än i Grant et al.:s (1998) undersökning. Försökspersonerna hade ändå alltid nytta av den visuella informationen eftersom de presterade bättre i de audiovisuella testerna för både konsonant- och ordigenkänning.

En studie med liknande design som i studien av Grant et al. (1998) beskrivs av Tye-Murray, Sommers och Spehar (2007). De undersökte också hur väl konsonantljud, ord och meningar kunde kännas igen auditivt, visuellt och audiovisuellt. Stimuli

(13)

presenterades via hörlurar och dataskärm. Försökspersonerna var i Tye-Murrays et al.:s (2007) undersökning 24 äldre hörselskadade (>65 år, <85 år) och 54 normalhörande äldre försökspersoner. Författarnas hypotes var att de äldre försökspersonerna som hade presbyacusis skulle vara bättre på talavläsning än de normalhörande eftersom de borde vara mer beroende av visuell information.

Tye-Murrays et al.:s (2007) inkluderings- och exkluderingskriterier för försökspersoner var omfattande. De hörselskadade försökspersonerna var alla tvungna att ha flacka, symmetriska, milda-till-måttliga sensorineurala hörselnedsättningar. Försökspersoner som haft störningar relaterade till centrala nervsystemet (t.ex. stroke), som behandlades för någon sådan rubbning eller som tog mediciner som kunde påverka det centrala nervsystemet exkluderades från studien. Likaså screenades försökspersonerna med hjälp av ett test för att exkludera de som kunde misstänkas ha någon form av demens. Försökspersoner med nedsatt synskärpa och nedsatt förmåga att se kontraster (baserat på olika testresultat) exkluderades också.

Totalt presenterades 13 konsonantljud uttalade av en manlig talare, i en och samma kontext, omgivna av vokalen /i/: /ipi/, /ibi/, /imi/ o.s.v. Orden som presenterades bestod av en- till trestaviga ord, de presenterades av en kvinnlig talare i bärfrasen ”Say the word [---]”. För igenkänning av meningar presenterades meningar som innehöll fem till sju målord. Meningarna presenterades av tio olika manliga talare och tio olika kvinnliga talare. Igenkänning av meningarna baserades på korrekt igenkänning av målorden. Alla stimulityper presenterades i brus som bestod av prat från sex olika talare. S/N-förhållandet justerades så att andel korrekt identifierade konsonantljud i det auditiva testet uppgick till ca 50 %. Detta gjordes för att möjliggöra jämförelser mellan de hörselskadade försökspersonerna och den normalhörande kontrollgruppen.

Även i denna studie visade resultatet att försökspersonerna kunde identifiera flest konsonantljud, ord och meningar korrekt i de audiovisuella testerna jämfört med de auditiva. De hörselskadade försökspersonerna identifierade ca 80 % av stimuli korrekt i de audiovisuella testerna jämfört med ca 45-50 % i de auditiva testerna. För flera av de enskilda försökspersonerna uppnåddes endast ca 30 % korrekta svar i det auditiva ordigenkänningstestet medan samma försökspersoner i det audiovisuella testet uppnådde över 80 % korrekt andel svar.

Tye-Murray et al. (2007) fann vissa signifikanta skillnader mellan de olika försökspersonsgrupperna. De hörselskadade försökspersonerna var bättre på visuell ordigenkänning (så kallad tyst talavläsning) än de normalhörande.De hörselskadade var också bättre på audiovisuell meningsigenkänning jämfört med de normalhörande. För att ta reda på om detta berodde på att den hörselskadade gruppen presterade bättre i det enbart auditiva testet eller om de var bättre på att integrera den auditiva och visuella information gjordes analyser av de enskilda försökspersonernas prestationer i de auditiva och visuella testerna och jämfördes med deras prestationer i de audiovisuella testerna. Författarna drog slutsatserna av dessa resultat att grupperna integrerade auditiv och visuell information på ett likartat sätt och att gruppernas nytta av att kombinera auditiv och visuell information var lika stor. Författarna framför en viktig poäng ur klinisk synpunkt. De påpekar att för vissa försökspersoner som uppnådde höga audiovisuella resultat jämfört med de enbart auditiva resultaten

(14)

berodde detta på att de var skickliga talavläsare, d.v.s. skickliga på att tillgodogöra sig den visuella informationen. För andra berodde det på att de var skickliga på att integrera den auditiva och visuella informationen. De drar slutsatsen att för att kunna erbjuda hörselskadade patienter den bästa möjliga rehabiliteringen är det viktigt att ta reda på patientens förmåga att uppfatta tal både auditivt, visuellt och audiovisuellt.

Tye-Murray et al. (2007) för en diskussion kring metodologin de valt att använda sig av. De påpekar att S/N-förhållandet antagligen är betydligt högre i deras undersökning än det S/N-förhållande försökspersonerna är vana vid att möta i verkliga lyssningssituationer (S/N-förhållandet justerades till den nivå där försökspersonerna uppfattade ca 50 % korrekt i de auditiva testerna). De anser att detta kan göra det svårt att generalisera deras resultat till andra lyssningssituationer. Ytterligare en faktor som gör det svårt att generalisera författarnas resultat till verkliga situationer och verkliga hörselskadade patienter är deras inklusions- och exklusionskriterier. Hur skulle nedsatt synskärpa och synkontrast samt brantare och svårare hörselnedsättningar påverka den audiovisuella talperceptionen? Hur skulle rubbningar på centrala nervsystemet eller demensliknande tillstånd påverka talperceptionen? När allt kommer omkring hör det inte till ovanligheterna att hörselvårdens äldre patienter uppfyller just de kriterier som Tye-Murray et al. (2007) använt som exklusionskriterier i sin studie.

Audiovisuell igenkänning av konsonantljud med och utan hörapparat Walden, Grant och Cords (2001) undersökte 25 hörselskadade försökspersoners förmåga att korrekt identifiera konsonantljud enbart auditivt och utan hörapparat, enbart auditivt med hörapparat, audiovisuellt utan hörapparat och audiovisuellt med hörapparat. I det auditiva testet utan hörapparat var presentationsnivån ca 50 dB SPL. Författarna eftersträvade att försökspersonerna i detta testförhållande skulle uppnå mellan 30-50 % korrekt andel svar, nivån justerades därför något för vissa försökspersoner. Försökspersonerna var mellan 49-73 år gamla. De hade alla bullerorsakade, bilaterala, symmetriska hörselnedsättningar med tröskelvärden mellan 20 och 85 dB HL för frekvenserna från 500 Hz-2 kHz och mellan 40-85 dB HL för frekvenserna från 3 k-6 kHz. Alla försökspersoner var hörapparatanvändare. I denna studie presenterades totalt 14 olika konsonantljud uttalades av en kvinnlig talare, i samma kontext som i studien av Grant et al. (1998): /apa/, /aba/, /ama/ o.s.v.

Resultatet visade att försökspersonerna uppnådde allra bäst resultat i det audiovisuella testet då de även fick använda hörapparat. Medelvärdet för korrekt andel identifierade konsonantljud var > 90 % i detta test, ca 90 % i det audiovisuella testet utan hörapparat, strax under 80 % i det auditiva testet med hörapparat och ca 50 % i det auditiva testet utan hörapparat. I jämförelse med det auditiva testet utan hörapparat var förbättringen i försökspersonernas konsonantuppfattning i det visuella testet utan hörapparat mycket större än i det audiovisuella testet utan hörapparat. Denna skillnad i den ökade konsonantigenkänningen i det visuella testet menar författarna beror på att konsonanterna /v/, /f/, /b/ och /p/ är mycket tydligt synliga på läpparna och därför kändes igen mycket väl i de visuella testerna.

Walden et al. (2001) genomförde även analyser av försökspersonernas rätta och felaktiga svar för att närmare undersöka vilka typer av information som överfördes

(15)

bäst i de olika testförhållandena. Liknande analyser gjordes av Grant et al. (1998). Resultaten från Walden et al. (2001) visade på liknande resultat som i studien av Grant et al. (1998): Att försökspersonerna främst hade nytta av information om artikulationsställe i det visuella testet. Walden et al.:s (2001) resultat visade att förstärkningen som försökspersonerna kunde dra nytta av i det auditiva testet med hörapparat främst gav information om konsonanternas artikulationsställe, men även om artikulationssätt och om huruvida konsonanten var tonande eller tonlös. Försökspersonernas förbättrade konsonantuppfattning i det audiovisuella testet med hörapparat menar författarna främst beror på att informationen om artikulationsställe blir mycket tydlig i detta test eftersom information om artikulationsställe kommer från både den auditiva förstärkningen och de visuella ledtrådarna. Däremot förbättras inte försökspersonernas förmåga att avgöra om konsonanterna är tonande eller tonlösa genom att de även får tillgång till visuella ledtrådar. Detta är inte heller att förvänta eftersom denna informationstyp inte är visuellt synbar påpekar författarna.

Walden et al. (2001) diskuterar sina resultat utifrån data och resultat från en tidigare studie av Grant och Walden (1996). I Grant och Waldens (1996) studie fann man att information om konsonanternas artikulationsställe och om huruvida de var tonande eller tonlösa var mest koncentrerad i låg-till-mellanfrekvensområdet. Information om artikulationsställe var mest koncentrerad i mellan-till-högfrekvensområdet. Walden et al. (2001) drar slutsatsen utifrån sina och Grant och Waldens (1996) resultat att konsonantuppfattning kan förbättras om förstärkningen från hörapparaten kan ge lyssnaren komplementär information som är svår att tillägna sig visuellt, d.v.s. information om artikulationssätt och huruvida konsonanten är tonande eller tonlös. Walden et al. (2001) föreslår att hörapparater ämnade för personer med sensorineurala milda-till-måttliga hörselnedsättningar med fördel kan programmeras med ett program där förstärkning främst ges i det låga-till mellanfrekventa området. Detta program, menar de, kan användas i de lyssningssituationer där lyssnaren har goda möjligheter att se talarens ansikte för att läsa av talet.

Walden et al. (2007) redogör för audiovisuella studier av hög klinisk relevans. Att praktiskt implementera deras programmeringsråd kräver dock mera forskning, vilket författarna även själva skriver. De nämner att det även finns andra faktorer än just en eventuellt ökad taluppfattningsförmåga att ta hänsyn till, t.ex. risken för att ljud kan komma att upplevas som obehagligt starka.En annan viktig aspekt de nämner är att de uppnådda resultaten är en produkt av mer idealiska syn- och lyssningssituationer än vad man möter i verkligheten. Hur ett lyssningsprogram liknande det som författarna förespråkar skulle fungera i verkliga ljudmiljöer med bakgrundsbuller av olika slag återstår att se. Det återstår också att se hur audiovisuell talperception går till i de olika testförhållandena med andra stimuli än konsonantljud.

Audiovisuell lexikal och semantisk beslutsfattning

I en studie av Larsby, Hällgren, Lyxell och Arlinger (2005) redogörs för en annan aspekt av audiovisuell talperception. De undersökte hur olika typer av kognitiva processer som kan vara viktiga för talavläsning påverkas av brus i enbart auditiva testförhållande och i audiovisuella testförhållanden (Ett testförhållande då stimuli presenterades som text ingick också i deras studie men detta redogörs inte för i denna uppsats). Variablerna i deras studie var ”uppskattad ansträngning” (benämns som percieved effort i artikeln), procent korrekta svar (accuracy) och processhastighet

(16)

(processing speed). De totalt 48 försökspersonerna indelades i fyra grupper med 12 personer i varje grupp enligt hörselstatus (normalhörande respektive sensorineuralt hörselskadade personer) och ålder (yngre respektive äldre). Den äldre gruppen hörselskadade hade alla sensorineurala gradvist sluttande milda-till-måttliga hörselnedsättningar. Den yngre gruppen hörselskadade hade även de sensorineurala milda-till-måttliga hörselnedsättningar med audiogramkonfigurationer som matchade den äldre gruppens audiogram så mycket som möjligt.

Stimuli presenterades i tre olika typer av brus: Två varianter brus framtagna på konstgjord väg och en variant bestående av en kvinnlig talare som läser ur en roman. Stimuli presenterades även utan brus. Författarna testade försökspersonernas förmåga att fatta semantiska och lexikala beslut samt deras förmåga att matcha namn. Semantisk beslutsförmåga testades genom att försökspersonerna fick avgöra huruvida ord som presenterades för dem tillhörde en viss förutbestämd semantisk kategori eller ej (kategorierna var färg, yrken, sjukdomar eller kroppsdelar). Lexikal beslutsförmåga testades genom att försökspersonerna fick avgöra huruvida bokstavskombinationer som presenterades för dem var ord eller ej. Försökspersonernas förmåga att matcha namn testades genom att bokstavspar som presenterades för dem skulle bedömas som samma eller olika (t.ex. a-a, a-b). I de auditiva testerna presenterades stimuli via högtalare. I de audiovisuella testerna presenterades även en bild av talarens ansikte på en dataskärm. Försökspersonerna fick ange sina svar genom att trycka på ja eller nej-knappar. För att ange hur ansträngande de uppskattade att testen var fick de ange sina svar på en tiogradig skala. Reaktionstid mättes automatiskt med hjälp av dator.

Resultaten visade att försökspersonernas förmåga att svara korrekt i alla olika testförhållande sjönk då stimuli presenterades tillsammans med brus. De äldre försökspersonerna samt de hörselskadade försökspersonerna påverkades negativt i större utsträckning än de yngre och normalhörande försökspersonerna av bruset. Alla grupper av försökspersoner uppvisade fler korrekta svar i de audiovisuella testerna jämfört med de auditiva. Resultaten för registrerad reaktionstid visade att de äldre och de hörselskadade försökspersonerna hade längre reaktionstider jämfört med de yngre och normalhörande försökspersonerna. Reaktionstiderna var längre i de audiovisuella testerna jämfört med de auditiva. Resultaten för hur ansträngande försökspersonerna upplevde testen visade att de test som presenterades audiovisuellt upplevdes som mindre ansträngande än de som presenterades enbart auditivt. Skillnaden mellan hur pass ansträngande de tyckte att testen var i auditivt respektive audiovisuellt läge var störst för de hörselskadade försökspersonerna.

Att dra någon slutsats från Larsby et al.:s (2005) resultat för upplevd ansträngning är svårt. Författarna nämner själva att en bidragande faktor till varför de hörselskadade upplevde testen som svårare än de normalhörande kan vara att de testades utan hörapparat fastän de alla var hörapparatanvändare. Den större skillnaden mellan de hörselskadades upplevelse av ansträngning i de auditiva jämfört med de audiovisuella testerna behöver därför inte vara en följd av att de har större nytta av de visuella ledtrådarna utan skulle kunna vara en effekt av att de testats under mycket svårare auditiva förhållande än de normalhörande. Att reaktionstiden var längre i de audiovisuella testerna kan tyckas märkligt: försökspersonerna hade flest andel korrekta svar i de audiovisuella testerna. Författarna argumenterar att det kan vara kognitivt mer arbetsamt – och därmed mer tidskrävande – att processa den visuella informationen utöver den auditiva.

(17)

Audiovisuell ordigenkänning hos gravt hörselskadade personer

Kaiser, Kirk, Lachs och Pisoni (2003) undersökte hur auditiv och audiovisuell taluppfattning påverkas av ordens lexikala svårighetsgrad och av att flera olika talare uttalar stimuli vs. en och samma talare. I deras studie var 21 försökspersoner normalhörande och fungerade som kontrollgrupp, resterande 20 försökspersoner var gravt sensorineuralt hörselskadade och alla var användare av cochleära implantat (CI-implantat). Alla hade haft CI-implantat i minst sex månader. Variationen i hur länge de haft implantat var stor. Fyra av försökspersonerna hade haft sina CI-implantat i sex månader, mer än hälften av försökspersonerna hade haft sina implantat längre än 24 månader.

Stimuli bestod av listor med enstaviga ord där hälften av orden bedömts vara lexikalt lätta, hälften lexikalt svåra. Dessa ord lästes upp av en och samma talare i en version av testet, i en annan version lästes orden upp av sex olika talare. Totalt fick försökspersonerna lyssna till sex olika listor med 36 ord/lista. Tre listor med en och samma talare presenterades auditivt, visuellt och audiovisuellt. Tre listor där orden lästes upp av sex olika talare presenterades auditivt, visuellt och audiovisuellt. Audiovisuellt presenterades orden via högtalare och videoskärm. Försökspersonerna uppmanades att muntligen repetera det ord de hört och/eller sett. De normalhörande försökspersonerna testades i vitt brus med ett S/N-förhållande på -5 dB. De hörselskadade försökspersonerna testades inte i brus. Direkta jämförelser går därför inte att göra mellan grupperna annat än för de enbart visuella testen.

Resultaten visade att alla försökspersoner uppnådde bäst resultat då stimuli bestod av lexikalt lätta ord som lästes upp av en och samma talare audiovisuellt. De hörselskadade försökspersonerna hade också störst nytta av att stimuli presenterades audiovisuellt jämfört med auditivt då lätta ord lästes upp av en talare jämfört med de normalhörande. Resultaten för de hörselskadade försökspersonerna i Kaiser et al.:s (2003) studie redovisas i tabellform i tabell 3.

Tabell 3 Medelvärde korrekt igenkända ord i procent för de 20 hörselskadade personerna

Visuellt Auditivt Audiovisuellt En talare Lätta ord 23.9 34.4 75.8 Svåra ord 8.9 29.4 64.2 Flera talare Lätta ord 21.7 38.6 70.0 Svåra ord 9.4 23.9 52.7

I figur 2 visas medelvärde i procent för de hörselskadade försökspersonernas korrekta andel igenkända ord för både svåra och lätta ord och alla typer av talare. Staplarna representerar de olika testförhållandena: auditivt (A), visuellt (V) och audiovisuellt (AV).

(18)

0 10 20 30 40 50 60 70 Ord proc en t ( % ) V A AV

Figur 2 Medelvärde för korrekt procentandel igenkända ord för de 20 hörselskadade försökspersonerna.

Kaiser et al. (2003) fann signifikanta skillnader mellan de båda grupperna med försökspersoner: De normalhörande presterade bättre än de hörselskadade då stimuli presenterades auditivt och de hörselskadade presterade bättre än de normalhörande då stimuli presenterades visuellt. Svarsspridningen var större bland de hörselskadades svar jämfört med de normalhörande. Författarna menar att de hörselskadade försökspersonerna antagligen haft en större vana av att tillgodogöra sig visuell information än de normalhörande och att detta kan förklara skillnaderna mellan grupperna i de visuella testerna. Det vore rimligt att anta att de hörselskadades förmåga att tillgodogöra sig visuell information också kan förklara varför denna grupp hade större nytta av att stimuli presenterades audiovisuellt. Eftersom direkta jämförelser inte kan göras mellan grupperna blir det svårt att dra slutsatser mellan dem. Att variationen var stor bland den hörselskadade gruppen kanske kan förklaras av att de haft sina implantat olika länge och varit hörselskadade olika länge. Författarna föreslår att audiovisuell träning med många olika typer av stimuli (t.ex. flera olika talare) så snart som möjligt efter en CI-operation kanske kan leda till bättre taluppfattningsförmåga. Det vore intressant att se resultatet av ett sådant kliniskt träningsprogram redovisat i en studie.

Även i en studie av Rouger, Lagleyre, Fraysse, Deneve, Deguine och Barone (2007) undersöktes CI-användares ordigenkänningsförmåga auditivt, visuellt och audiovisuellt. Normalhörande försökspersoner ingick som kontrollgrupp. Totalt ingick 97 CI-användare i undersökningen; deras ålder sträckte sig från 19-82 år och deras hörselnedsättningar hade olika etiologier. Hur länge de haft sin hörselnedsättning varierade från 1-57 år. Studien sträckte sig över åtta år efter implantationerna gjordes. Författarna analyserade data taget från tolv olika tillfällen då ordigenkänningsförmåga testades. Första tillfället var ca sex månader före implantationen. Ytterliga elva tillfällen sträcker sig sedan från tiden då implantatet kopplades in till ca 8 år efter implantatet gjordes. Inte alla försökspersoner testades vid alla tillfällen.

Stimuli uttalades av en kvinnlig talare och bestod av tvåstaviga ord som

presenterades enbart auditivt, enbart visuellt och audiovisuellt. Talaren filmades med ljus riktat mot ansiktet för att undvika skuggeffekter. Försökspersonerna angav sina svar muntligen.

(19)

Rouger et al.:s (2007) resultat visade att de hörselskadade försökspersonerna före implantationen uppfattade orden nästan dubbelt så bra audiovisuellt jämfört med auditivt (ca 20 % vs. ca 10 %). Direkt efter implantationen, då implantatet kopplas in, är skillnaden fortfarande stor mellan audiovisuell och auditiv ordigenkänningsresultaten. Författarna fann att redan efter ca två – tre månader efter inkopplingen minskade skillnaden mellan resultat som presenterades audiovisuellt respektive auditiv. De fann också att CI-användarna hade en större relativ nytta av den visuella informationen jämfört med de normalhörande som testades i olika S/N-förhållanden. CI-användarna uppvisade denna större audiovisuella nytta jämfört med de normalhörande även under testtillfällena flera år efter att implantatet kopplats in. CI-användarna presterade bättre än de normalhörande i det visuella testet. Vissa av de hörselskadade försökspersonerna (13 st) hade ingen fungerande auditiv ordigenkänningsförmåga innan implantatet opererades in (0 % rätt) men kunde i det audiovisuella testet ändå uppfatta ca 60 % (medelvärde) av orden korrekt.

Författarnas sammantagna resultat pekar på att gravt hörselskadade personer har mycket stor nytta av visuell information för att känna igen ord. I verkligheten hör det troligen till ovanligheterna att talarens ansikte är belyst på det vis som i denna studie.

Audiovisuell igenkänning av konsonantljud hos gravt hörselskadade personer

I en senare studie av Rouger, Fraysse, Deguine och Barone (2008) undersöktes gravt hörselskadades försökspersoners konsonantigenkänningsförmåga. Totalt deltog 33 CI-användare och 39 normalhörande i studien. Den auditiva informationen presenterades via högtalare och den visuella informationen fick försökspersonerna genom att de kunde se talaren på dataskärm. De totalt 16 olika konsonantljuden uttalades av en kvinnlig talare, i en och samma kontext, omgivna av vokalen /a/: /apa/, /aba/, /ama/ o.s.v. Stimuli presenterades auditivt, visuellt och audiovisuellt. Stimuli presenterades även audiovisuellt med inkongruent visuell och auditiv information: försökspersonerna hörde ljudsekvenserna ata/, /ada/ och /ana/ men samtidigt presenterades den visuella bilden av när talaren uttalade ljudsekvensen /ama/.

Resultaten visade att de hörselskadade och de normalhörande försökspersonerna identifierade ungefär lika stor andel konsonantljud korrekt i det visuella testet. Resultatet visade även att de hörselskadade försökspersonerna avsevärt förbättrade sin igenkänning av konsonantljud då de presenterades audiovisuellt jämfört med auditivt. I figur 3 presenteras korrekt andel igenkända konsonantljud för de båda försökspersonsgrupperna (NH = normalhörande, CI = CI-användare) fördelat på de olika sätten som stimuli presenterades (V = visuellt, A = auditivt, AV = audiovisuellt).

(20)

0 20 40 60 80 100 NH CI p rocen t ( % ) V A AV

Figur 3 Medelvärde för korrekt procentandel igenkända konsonantljud för normalhörande samt CI-användare.

När stimuli presenterades audiovisuellt med auditiva och visuella ledtrådarna som inte stämde överens fäste de hörselskadade försökspersonerna större vikt vid de visuella ledtrådarna än vad de normalhörande gjorde.

Rouger et al. (2008) genomförde också analyser för att se vad i konsonantljuden som överfördes bäst auditivt, visuellt respektive audiovisuellt. Liknande analyser gjordes av Grant et al. (1998) och Walden et al. (2001). I likhet med dessa tidigare analyser visade även Rouger et al.:s (2008) resultat att information om konsonanternas artikulationssätt identifieras lättast auditivt medan artikulationsställe är lätt att se visuellt.

I en tidigare studie (Rouger et al., 2007) var CI-användarna betydligt bättre på att känna igen ord visuellt än de normalhörande. Detta mönster kan inte ses i undersökningen av Rouger et al. (2008). Författarna resonerar att detta kan bero på att olika typer av stimuli användes i de två studierna. Rouger et al. (2007) använde sig av tvåstaviga ord som hade en semantisk betydelse medan Rouger et al. (2008) använde sig av konsonantljud som bildade nonsensstavelser. De föreslår att CI-användarnas bättre visuella resultat i Rouger et al.:s (2007) studie kan bero på att de är bättre än normalhörande på att använda sig av top-down processer. Ett liknande resonemang fördes även av Grant et al. (1998).

Diskussion

I detta avsnitt diskuteras först vissa metodologiska aspekter, detta följs av en diskussion kring resultaten och avslutas med en slutsats.

Metoddiskussion

Att objektivt göra ett urval från den stora mängd sökträffar som hittats med hjälp av sökorden har varit svårt. Det finns en risk att i det första urvalssteget felaktigt bedöma relevanta studier som irrelevanta p.g.a. att artiklarnas titlar inte alltid avspeglar innehållet på ett tydligt sätt. Detta gäller framför allt i början av sök- och urvalsprocessen då man ännu inte har en fullständig förståelse för vilka ord och

(21)

begrepp som används inom det valda ämnesområdet. Om alla abstrakt för alla sökträffar gåtts igenom på ett mer noggrant sätt hade risken för felkällor minskat. Detta hade varit tidskrävande; en möjlig kompromiss hade kunnat vara att begränsa sökningen för att på så sätt få färre sökträffar och noggrant kontrollera alla av dem. Eftersom ett inkluderingskriterium i denna uppsats var att försökspersonerna skulle ha någon form av sensorineural hörselnedsättning hade sökord som t.ex. hearing loss, hearing disorder eller sensorineural varit passande att inkludera i sökordskombinationerna. I ett första steg av sökningen gjordes också detta, men då det gav upphov till mycket få träffar valdes andra sökordskombinationer. Det finns även risker associerade med en alltför snäv sökning: Att relevanta studier inte hittas är en uppenbar sådan risk. Att det har upplevts som svårt att välja ut relevanta studier speglas i viss mån i de många exkluderingskriterierna. Ämnet ”audiovisuell talperception” har många infallsvinklar och förgreningar.

Flera av de studier som exkluderats har handlat om artificiell audiovisuell talperception och i vissa studier har stimuli varit syntetiskt. Detta har många gånger inte upptäckts förrän halva artikeln lästs och granskats. Kanske hade sådana studier med fördel inkluderats i uppsatsen eftersom det även i många av dessa studier dras slutsatser kring hörselskadades audiovisuella taluppfattningsförmåga. Var i hjärnan audiovisuell information bearbetas och hur de neurala korrelaten till audiovisuell taluppfattning ser ut är också stora forskningsområden. Det hade varit mycket intressant att inkludera även dessa studier i uppsatsen men uppsatsens omfattning och tidsram gör att detta inte är möjligt.

Två av författarna förekommer vardera i två olika studier. Det hade varit önskvärt att inkludera flera olika forskares resultat i uppsatsen för att undvika att introducera felkällor i form av en enskild forskares bias och för att undvika att ge en alltför homogen bild av ämnesområdet. Å andra sidan hade en sådan styrning av vilka forskares resultat som skulle få förekomma x antal gånger varit en felkälla. Sökningen och urvalet enligt de uppställda inkluderings- och exkluderingskriterierna gav upphov till just detta resultat.

I endast två av de inkluderade studierna framgår det i artiklarna att de har ett etiskt godkännande från granskningskommittéer. Inga klara etiska konflikter eller betänkligheter har identifierats i de övriga artiklarna, de har därför inkluderats ändå.

Resultatdiskussion

I alla inkluderade studier framgår det att de hörselskadade försökspersonerna presterade bättre då stimuli presenterades audiovisuellt jämfört med auditivt. Det fanns ett undantag som bestod av att det tog längre tid för försökspersonerna att fatta beslut om olika ljuds semantiska och lexikala tillhörighet när stimuli presenterades audiovisuellt (Larsby et al., 2005). Resultaten från studierna visar att den individuella variationen för hur pass viktig den visuella informationen är för individen kan variera. Störst nytta av den visuella informationen verkar de gravt hörselskadade CI-användarna haft (Kaiser et al., 2003; Rouger et al., 2007; Rouger et al., 2008). Störst nytta av den visuella informationen hade dessa personer innan implantatet kopplades på, Rouger et al. (2007) drog slutsatsen att det troligtvis berodde på att de då hade tillgång till mindre auditiv information. I de studier där även normalhörande försökspersoner ingick framgick det att även normalhörande presterade bättre då

(22)

stimuli presenterats audiovisuellt jämfört med auditivt (Kaiser et al., 2003; Larsby et al., 2005; Rouger et al., 2007; Rouger et al., 2008; Tye-Murray et al., 2007). Detta stämmer väl överens med Sumby och Pollacks resultat (1954). Resultaten har visat att det framför allt är information om artikulationsställe som framgår på ett tydligt sätt visuellt och som man kan dra nytta av i konsonant- och ordigenkänning (Grant et al., 1998; Rouger et al., 2008; Walden et al., 2001).

I de redovisade studierna påpekas att audiovisuell talperception involverar mer än enbart synen och hörseln. Hur den auditiva och visuella informationen integreras är också av stor betydelse (Grant et al., 1998; Rouger et al., 2007; Rouger et al., 2008; Tye-Murray et al., 2007). Likaså är lingvistiska kunskaper om språket som exempelvis semantiska och lexikala kunskaper (Grant et al., 1998; Kaiser et al., 2003; Larsby et al., 2005) viktiga för den audiovisuella talperceptionen.

Det är svårt att generalisera alla studiers resultat eftersom studierna skiljer sig åt på flera olika sätt. Beroende på studiernas syften skiljer sig deras urval av försökspersoner, stimuli och metodologi åt. I vissa studier har man t.ex. eftersträvat att försökspersonerna ska ha samma grad av hörselnedsättning och liknande audiogramkonfigurationer (t. ex. Tye-Murray et al., 2007), medan man i en annan studie eftersträvat att försökspersonerna ska ha olika grader och typer av hörselnedsättningar (Grant et al., 1998). För att kunna generalisera hade det varit önskvärt att de inkluderade studierna varit fler och mer homogena.

Endast i två av studierna framgår det huruvida försökspersonerna med milda-till-måttliga sensorineurala hörselnedsättningar testats med eller utan hörapparat (Walden et al., 2001; Larsby et al., 2005). Detta tycker jag är anmärkningsvärt eftersom jag förväntar mig att det är en parameter som kan påverka resultatet.

Samtliga studiers resultat har kommit till under kontrollerade former med speciellt framtagna talmaterial i olika laboratoriemiljöer eller kliniska miljöer. Det innebär att resultaten inte alltid är överförbara till verkliga kommunikationssituationer. I verkligheten består tal sällan av nonsensstavelser eller lösryckta ord, utan av sammanhängande tal som faktiskt betyder någonting. Kanske har man en större nytta av den visuella informationen i verkliga kommunikationssituationer än vad resultaten visat i denna uppsats. I verkliga kommunikationssituationer borde man nämligen ha större möjligheter att utnyttja kontextuella ledtrådar som t.ex. kunskaper om samtalsämnet. Det kan kanske även vara en fördel att i stället för att se en begränsad bild av talaren på video- eller dataskärm, se hela talaren framför sig. På så sätt borde det vara möjligt att även utnyttja visuell information i form av kroppsspråk och gester.

Slutsats

De sammantagna resultaten visar att det finns vetenskapliga belägg för att visuell information bidrar till att öka hörselskadades taluppfattningsförmåga. Det är därför viktigt att även fortsättningsvis använda sig av de kommunikationsråd som tar fasta på just denna betydelse av visuell information i kommunikationen med hörselskadade.

(23)

Referenser

Campbell, R. (1998). Everyday speechreading: understanding seen speech in action. Scandinavian Journal of Psychology, 39, 163-167.

Danermark, B. (2005). Att (åter)erövra samtalet. Örebro: Läromedia.

Dell'Aringa, A.H., Adachi, E.S. & Dell'Aringa, A.R. (2007). Lip reading role in the hearing aid fitting process. Brazilian Journal of Otorhinolaryngology,73, (1), 95-99.

Dillon, H. (2001). Hearing aids. New York: Thieme.

Erber, N. (1972). Auditory, visual and auditory-visual recognition of consonants by

children with normal and impaired hearing. Journal of Speech and Hearing Research, 15, 413–422.

Forsberg, C., & Wengström, Y. (2003). Att göra systematiska litteraturstudier. Värdering, analys och presentation av omvårdnadsforskning. Stockholm: Natur och Kultur.

Gelfand, S. (1997). Essentials of Audiology. New York: Thieme.

Grant, K.W., & Walden, B.E(1996). Evaluating the articulation index for auditory-visual consonant recognition. Journal of the Acoustical Society of America, 100, 2415–2424.

Grant, K.W., Walden, B.E. & Seitz P.F. (1998). Auditory-visual speech recognition by hearing-impaired subjects: consonant recognition, sentence recognition, and auditory-visual integration. Journal of the Acoustical Society of America, 103, (5 Pt 1), 2677-2690.

Kaiser, A.R., Kirk, K.I., Lachs, L. & Pisoni, D.B. (2003). Talker and lexical effects on audiovisual word recognition by adults with cochlear implants. Journal of Speech Language Hearing Research, 46, (2), 390-404.

Larsby, B., Hällgren, M., Lyxell, B. & Arlinger, S. (2005). Cognitive performance and perceived effort in speech processing tasks: effects of different noise

backgrounds in normal-hearing and hearing-impaired subjects. International Journal of Audiology, 44,(3), 131-143.

Massaro, D.W. (1988). Ambiguity in perception and experimentation. Journal of Experimental Psychology: General, 117, 417-421.

McGurk, H., & McDonald, J. (1976). Hearing lips and seeing voices. Nature, 264, 746-748.

(24)

Rouger, J., Lagleyre, S., Fraysse, B. Deneve, S., Deguine, O. & Barone, P. (2007). Evidence that cochlear-implanted deaf patients are better multisensory integrators. Proceedings of the National Academy of Sciences of the United States of America, 104,(17), 7295–7300.

Rouger, J., Fraysse, B., Deguinea, O. & Barone, P. (2008). McGurk effects in cochlear-implanted deaf subjects. Brain Research, 1188, 87-99.

Sumby, W.H. & Pollack, I. (1954). Visual contribution to speech intelligibility in noise. Journal of the Acoustical Society of America, 26, 212-215.

Tye-Murray, N. (1998). Foundations of Aural Rehabilitation. San Diego: Singular Publishing Group.

Tye-Murray, N., Sommers, M.S. & Spehar, B. (2007). Audiovisual integration and lipreading abilities of older adults with normal and impaired hearing. Ear & Hearing, 28,(5), 656-68.

Walden, B.E., Grant, K.W. & Cord, M.T. (2001). Effects of amplification and speechreading on consonant recognition by persons with impaired hearing. Ear & Hearing, 22,(4), 333-341.