Förstudie om korpusarbete i teckenspråk forskningsanslag 28-36

(1)

Tommy Lyxell, 2009-11-23

Korpusarbete i teckenspråk

Förstudie om hur korpusarbete av teckenspråk ska bedrivas på Språkrådet

1. Inledning

I Språkrådets uppdrag ingår att ta fram korpusar i teckenspråk. Korpusar är en viktig källa för språkliga analyser som kan användas vid språkrådgivning och för att ta fram språklig

referenslitteratur. Målet med förstudien är att undersöka hur Språkrådet kan arbeta med teckenspråkskorpusar.

Denna förstudie ger en kort översikt av korpusarbetet för teckenspråk, i Sverige och

internationellt, och beskriver två datorprogram som används för teckenspråkskorpusar. I punkt 2–4 beskrivs syftet med förstudien, finansiering och arbetsgång. Under punkt 5 ges en

bakgrund till korpusarbete; hur teckenspråk dokumenteras, behovet av korpusar i teckenspråk och på vilket sätt språkvården har nytta av dessa. Punkt 6 tar upp hur man fäster teckenspråk i skrift. Under punkt 7 finns en beskrivning av de två datorprogram jag valt att titta närmare på: Elan och Ilex. Beskrivningen kan ibland te sig teknisk, men det är viktigt att känna till tekniken eftersom det påverkar hur man kan använda korpusarna. Under punkt 8 listas en del

frågeställningar som legat utanför förstudiens uppdrag men som ändå är intressanta. Slutsatser och föreslagna fortsatta åtgärder listas under punkt 9.

2. Syfte

Syftet med denna förstudie är att ta reda på hur korpusarbete i teckenspråk bedrivs på olika håll i världen och hur korpusar kan vara till hjälp för språkvården. Jag har tittat närmare på två datorprogram för korpusinsamling av teckenspråk, Elan och Ilex, för att se hur dessa kan vara till hjälp i språkvårdsarbetet. I arbetet ingick att testa programmen och ta del av

teckenspråksforskningens erfarenheter av programmen och av korpusinsamling, samt att formulera en handlingsplan för korpusarbete inom språkvården.

Under förstudien har flera frågeställningar väckts, bland annat:

• Vilka erfarenheter av korpusarbete finns samlade i världen när det gäller teckenspråk? • Vilket är språkvårdens behov av teckenspråkskorpusar?

• Vilken roll ska Språkrådet ha vad gäller korpusarbete i teckenspråk? • Vilka tillgängliga teknologier finns i dag?

• Hur ska äldre videoinspelningar av teckenspråkligt material bevaras för eftervärlden? På grund av projektets begränsade tid (ca 1 månads arbetstid) har jag inte kunnat gå på djupet i alla frågeställningar. Frågor som har dykt upp men inte legat i förstudiens uppdrag redovisas under punkten 8 Ytterligare frågor.

(2)

3. Finansiering och tidplan

Projektet har genomförts med medel från forskningsanslaget inom Institutet för språk och folkminnen (45 000 kr, forskningsanslag 28:36). Jag har med dessa medel kunnat öka min tjänstgöringsgrad med 25 procent utöver min ordinarie halvtidstjänst under fyra månader för att göra denna förstudie. Arbetet utfördes i huvudsak under hösten 2008.

4. Arbetsgång

Huvuduppgiften i denna förstudie har varit att testa och utvärdera två datorprogram som används för teckenspråk, Elan och Ilex. Båda programmen är fria och inga licensavgifter behöver betalas.

Tillsammans med min kollega Tomas Hedberg och Lars Wallin, lektor på avdelningen för teckenspråk vid Stockholms universitet, gjorde jag en studieresa till Hamburgs universitet den 15–17 april 2008 för att lära mig hur Ilex fungerar. Språkrådet bjöd in Thomas Hanke,

datorprogrammerare på Hamburgs universitet, för att informera om lexikografiprogrammet Ilex vid en träff som höll på Stockholms universitet den 21 november 2007 tillsammans med

personal från avdelningen för teckenspråk.

Den 26 maj–1 juni 2008 hölls ett LREC-seminarium i Marrakech. LREC (Language Resources and Evaluation Conference) är en samarbetsorganisation för språkteknologi och vartannat år sedan 1998 har den ordnat ett arbetsseminarium. Under de senaste åren deltar även

teckenspråksforskare och teknologer i dessa seminarier. Jag har tagit del av arbetspapper från arbetsseminariet om teckenspråk som publicerades efter seminariet. Dessa ger en bra bild av korpusarbete i teckenspråk i dag.

För att samla in synpunkter från användare av både Ilex och Elan har jag inhämtat information och synpunkter från olika personer. Johanna Mesch och Lars Wallin är två

teckenspråksforskare vid Stockholms universitet som har testat Elan under en längre tid. Jag har ställt frågor via e-brev till en av utvecklarna bakom Elan, Han Sloetjes, vid Max Planck-institutet i Nijmegen, Nederländerna. Jag har kontaktat teckenspråksforskare i Schweiz, Dr Penny Boyes Braem och Simone Groeber, som har erfarenhet av Ilex.

För att få en bild av hur äldre videoinspelningar omhändertas har jag pratat med Helena Söderlund som är projektledare på Resursbiblioteket för döva i Örebro, Helena Fremnell Stål, informationsansvarig på Sveriges Dövas Riksförbund, Gunilla Wågström Lundqvist, producent på Utbildningsradion och Harriet Kowalski, chef på produktionsenheten vid

Specialpedagogiska skolmyndigheten.

Den 7–8 november 2008 hölls ett nordiskt korpusseminarium för teckenspråksforskare och lexikografer på Stockholms universitet. Språkrådets två språkvårdare deltog och jag höll ett anförande med rubriken ”En jämförelse mellan Ilex och Elan – några tankar om teknikval inför korpusarbete i teckenspråk” (se bilaga 2).

I förstudien har jag annoterat ungefär två minuter teckenspråksmaterial i vart och ett av de två programmen. Det låter kanske inte mycket, men att annotera teckenspråk är tidsödande. Att annotera en minut teckenspråk kräver flera timmars arbete. Jag har bara annoterat på en

(3)

grundläggande nivå. Målet med förstudien har varit att undersöka programmens funktioner, inte att skapa en korpus.

5. Bakgrund

Teckenspråksforskning har bedrivits i Sverige sedan början av 1970-talet på institutionen för lingvistik vid Stockholms universitet. Vi har i dag goda kunskaper om teckenspråkets

grammatik och lexikon, men vi behöver mer kunskaper. Forskningen är fortfarande förhållandevis ung.

Det första teckenspråkslexikonet i Sverige publicerades redan 1916 med namnet ”Teckenspråket – med rikt illustrerad ordbok över det av Sveriges dövstumma använda åtbördspråket” av Oskar Österberg. Under 1900-talet har det tagits fram olika lexikon för svenskt teckenspråk, men Svenskt teckenspråkslexikon från 1997 – som är framtaget av Sveriges Dövas Riksförbund – skiljer sig från de föregående då det är systematiserat utifrån teckenspråkets struktur, inte från svenska ord i alfabetisk ordning. I Svenskt

teckenspråkslexikon kategoriseras tecknet efter hur de utförs med avseende på handform, läge och rörelse. Detta lexikon finns också i en digital version – som avdelningen för teckenspråk vid Stockholms universitet har producerat. I den digitala versionen kan man se tecken och exempelmeningar med rörliga bilder, vilket bokformen av förklarliga skäl inte klarar av att visa.

Avdelningen för teckenspråksavdelning har även producerat flera ämnesbundna lexikon för dvd, som kan köpas men också finns fritt tillgängliga på deras webbplats. Några exempel på ämneslexikon är Kyrkliga tecken, Tecken för matematiska begrepp och Tecken för svenska landskap och orter. Ett nytt allmänt teckenspråkslexikon för webben håller på att byggas upp inom avdelningen för teckenspråk. Den första delen publicerades årsskiftet 2008/2009 och har namnet Svenskt teckenspråkslexikon 2009. Webblexikonet kommer att successivt byggas ut så att det till slut beräknas omfatta omkring 10 000 tecken. Så småningom kommer detta lexikon att ersätta Digital version av Svenskt teckenspråkslexikon.

Men när det gäller annan referenslitteratur för svenskt teckenspråk är det sämre ställt. Något som efterfrågas är en grammatikbok över svenskt teckenspråk. Det kan också finnas ett behov av andra typer av språkliga hjälpmedel, t.ex. frasordbok i teckenspråk.

Betänkandet ”Teckenspråk och teckenspråkiga – Kunskaps- och forskningsöversikt (SOU 2006:29)” ger en god överblick var forskning om svenskt teckenspråk befinner sig i dag.

Korpusar och språkbanker i teckenspråk

Korpusar i teckenspråk behövs, något som uppmärksammades i den statliga utredningen Mål i mun: ”Vi föreslår att Sveriges språkråd ges ansvar även för teckenspråket och att resurser skapas för att inrätta en enhet för bl.a. korpusarbete med teckenspråket vid Språkrådet.” (SOU 2002:27, s. 507).

I utredningen Teckenspråket och teckenspråkiga – Kunskaps- och forskningsöversikt behandlas frågan om teckenspråkskorpusar: ”För svenska språket, i såväl skriven som talad form, finns numera allmänt tillgängliga databaser med stora textmängder. Sådana korpora

(4)

utgör i dag oumbärliga verktyg för många olika typer av studier av svenska språket. Något motsvarande ”arkiv” med löpande text på teckenspråk finns inte och det pågår ingen dokumentation av olika typer av teckenspråksanvändning. Detta uppmärksammas av utredningen ”Mål i mun” som föreslår att resurser skapas för ”korpusarbete med teckenspråket” (SOU 2002:27, s. 507). Ett brett upplagt korpusarbete behövs för såväl lexikonarbetet, som för fördjupad forskning om teckenspråkets struktur, men också för barnspråksforskning och forskning om tolkning mellan teckenspråk och svenska.” (SOU 2006:29, s. 57).

I instruktionen till Institutet för språk och folkminnen (SFS 2009:743) står det i § 2: ”Myndigheten ska särskilt

1. samla in, bevara, vetenskapligt bearbeta samt sprida kunskap och material om det svenska språket, de nationella minoritetsspråken finska, jiddisch, meänkieli och romani chib, det svenska teckenspråket samt dialekter, folkminnen, folkmusik och namn i Sverige,”.

Våren 2007 anställdes två språkvårdare i svenskt teckenspråk som delar på en heltidstjänst. I arbetet ingår att kunna ge språkrådgivning. I språkvårdsarbetet är referenslitteratur som ordböcker, handordböcker, skrivregler och inte minst olika tjänster på internet till stor hjälp. För skrivna språk finns det gott om referenslitteratur att vända sig till. Med svenskt teckenspråk är det sämre ställt. Det beror på att forskning om teckenspråk startade så sent som 1972 i Sverige. Teckenspråket saknar ett skriftspråk vilket innebär att saknas skriftliga källor att forska i. Det är först när videotekniken kom som forskning har varit möjligt. Teckenspråk är ett språk som huvudsakligen används i levande möten mellan teckenspråkiga människor.

För skrivet språk finns det flera korpusar. En del av dem är tillgängliga för allmänheten på internet. Ett exempel är SUC (Stockholm Umeå Corpus). Det är stor skillnad på att arbeta med skriven text och teckenspråk. Med text är det lätt att avgränsa orden och det är lätt att

segmentera i datorer. Orden åtskiljs med mellanslag före och efter orden. Meningar startar med stor bokstav och slutar med punkt. Det är möjligt att automatiskt ordklasstagga korpusar med korpusprogram, vilket är tidsbesparande. Men man får ändå karaktärisera korpusinsamling som ett långvarigt och tålmodigt arbete. Eftersom teckenspråk saknar ett skriftspråk har man inte kunnat föra över den språkliga information till datorer på ett enkelt sätt. För att skapa korpusar för teckenspråk måste man koda om innehållet i videofilmerna till textsträngar som sedan kan bearbetas i datorprogram.

På senare tid har det skapats flera korpusprogram för datorer som är avpassade för teckenspråk. Denna förstudie har tittat närmare på två av dem: Elan och Ilex. I datorprogrammen

transkriberar man på samma sätt som man gjort tidigare med papper och penna. Det underlättar arbetet eftersom arbetssättet är välbekant. Datorprogrammen länkar videofilmer automatiskt till en tidslinje och flera annotationsrader kan länkas ihop. Datorprogrammen gör det också möjligt att söka i ett större material som omfattar flera olika inspelningar.

Avdelningen för teckenspråk vid Stockholms universitet påbörjade i januari 2009 ett 2,5-årigt korpusprojekt finansierat av Riksbankens jubileumsfond. Forskarna kommer att göra egna inspelningar och använda annotationsprogrammet Elan. I arbetet ingår också att utveckla konventioner för hur svenskt teckenspråk kan annoteras. Språkrådet följer detta arbete med stort intresse.

(5)

I Nederländerna och Tyskland pågår det korpusarbete i teckenspråk sedan många år. Hamburgs universitet blev nyligen beviljat medel för 15 års korpusarbete och lexikografisk arbete, vilket skapar arbetsro och långsiktighet.

Stockholms universitet deltar sedan tidigare i ett europeiskt samarbetsprojekt i korpusarbete. År 2003 lyckades teckenspråksforskare i några europeiska länder få medel ur ECHO-projeket (European Cultural Heritage Online), som till stor del är finansierat av EU-kommissionen. I projektet har flera berättelser från Sverige, England, Nederländerna annoterats med hjälp av transkriberingsprogrammet Elan. I detta samarbete utvecklas tankar om hur tekniken ska användas och hur korpusarbete kan bedrivas.

Språkvårdens behov av korpusar och språkbanker

Språkrådgivning i teckenspråk är fortfarande en liten del av verksamheten om man jämför med andra språk inom Språkrådet. Det är en ny företeelse inom teckenspråksvärlden. Men man kan anta att efterfrågan på språkrådgivning kommer att öka när arbetet på Språkrådet blivit mera känt. För att kunna ge en bra språkrådgivning är det av stor betydelse med tillgång till referenslitteratur och autentiskt språkmaterial som man kan analysera. Här följer några

tänkbara situationer där språkvården i teckenspråk har nytta av korpusar. Man kan till exempel behöva:

• bestämma tecknens betydelseomfång genom att titta på de kontexter där tecknen används

• göra frekvensstudier, d.v.s. avgöra hur vanligt ett tecken är jämfört med andra tecken • studera teckenvariationer

• göra jämförelser av språkbruk hos t.ex. unga–äldre, kvinnor–män, modersmålstalare– andraspråksinlärare

• göra grammatiska analyser, t.ex. studera tecknens böjningsmönster

• studera förändringar i språkanvändning över tid, tidsbestämma användning av olika tecken

• identifiera kodväxling och översättningslån • studera nyordsbildning.

Språkvården i teckenspråk har ett behov av sökbara språkbanker, som kan användas vid

språkrådgivning och för produktion av olika språkhjälpmedel för teckenspråk. För språkvården torde det vara viktigare att studera stora och balanserade korpusdata än att göra djupanalyser.

6. Hur teckenspråksmaterial annoteras

Eftersom teckenspråket saknar ett skriftspråk är videoupptagningar det enda sättet att dokumentera teckenspråk. Det har man gjort ända sedan videotekniken för

konsumentmarknaden slog igenom på 1970-talet. För forskare är det dock otympligt att hänvisa till videomaterial när man vill referera till en teckenspråkig text i forskningsrapporter. Det är också svårt att göra analyser om man inte kan göra anteckningar. Man har därför på olika sätt försökt överförda det teckenspråkliga materialet till skrift. Det är också praktiskt att kunna använda skrift i undervisningssammanhang.

(6)

Att överföra teckenspråk till skrift kallar man för att annotera eller transkribera och den text som skrivs för annotationer eller transkriptioner. Vilket ord man väljer beror på vad man avser. Med transkriptioner avses beskrivning av tecknens fonologi medan annotationer även innefattar anteckningar, som kommentarer och översättningar. I praktiken används orden annotera och transkribera ofta för samma verksamhet. Annotationer ska inte ses som

teckenspråklig betydelse i skrift. Annotationer är ett verktyg som används för att beskriva olika aspekter av teckenspråklig användning – ett slags partitur om man så vill.

När analoga videoapparater användes, annoterade man teckenspråksmaterial för hand på skrivet papper. Videofilmerna var tidskodade och tiden noterades på det annoterade

pappersarket. I dag används datorprogram, vilket har många fördelar. Datorprogrammet har inbyggda tidskoder vilket medger noggrann mätning av utförandet av tecknen. Filmerna finns i datorerna och är länkade till annotationerna, så man kan direkt se hur tecknet ser ut genom att klicka på annotationen. Med datorprogram är det enklare att göra sökningar i språkmaterialet.

På flera håll i världen har man börjat göra inspelningar med fyra kameror, två riktade i halvprofil mot samtalsdeltagarna och två placerade rakt ovanför dem med fågelvy. Med

kameror ovanför teckenspråksaktören kan man fånga händernas position i förhållande till bålen och huvudet. Eftersom videobilden är tvådimensionell är det svårt att bedöma handens position i en bild framifrån. Därför görs inspelningar från olika vinklar och filmerna sammanlänkas i ett datorprogram. Vi står nu inför ett skifte till HD-kvalitet, d.v.s. videokvalitet med upplösningen 1 920 x 1 080 bildpunkter, vilket ger en bättre detaljskärpa. Detta är speciellt välkommet när man ska identifiera små rörelser i ansiktet.

För att praktiskt arbeta med teckenspråksmaterialet i datorer måste innehållet översättas till textsträngar som kan bearbetas i datorprogram. I den bästa av världar kan datorprogrammen tolka rörliga bilder på teckenspråk till teckensträngar. Men så långt har den tekniska

utvecklingen ännu inte nått. I Frankrike pågår vissa experiment med att visuellt avkoda teckenspråk med hjälp av datorprogram. Datorprogrammet utför en avancerad bildanalys och bestämmer vilka tecken som används. Det kan jämföras med diktamensprogram som översätter tal till skrift. Även Finland har planer på att utveckla ett program för att översätta teckenspråk till text utifrån videoupptagningar. Denna teknik är fortfarande i sin linda och det dröjer många år innan det är verklighet. Tills vidare är man tvungen att annotera för hand.

Att annotera korpusar är tidkrävande

När man annoterar teckenspråk kan man välja hur detaljerad analysen ska vara. Man kan nöja sig med att nedteckna de manuella tecknen, de s.k. glossorna. En glossa är ett sätt att namnge tecken med ett skrivet ord; en utbredd konvention bland teckenspråksforskare är att skriva med versaler och använda infinitivformen ifall det är ett verb. Man väljer ofta en glossa utifrån tecknets betydelse. För att referera till tecknet äta skriver man ÄTA. Man väljer oftast ett svenskt ord som ligger nära betydelsen. Tecknet kan ibland ha en annan form och ibland kan ett tecken ha en annan betydelse i ett annat sammanhang. Det är viktigt att inte byta glossor för samma tecken beroende på sammanhanget, eftersom det kan göra korpusar oanvändbara. Teckenspråk består också av teckenböjningar och syntaktiska signaler. Oftast väljer man att beskriva dessa på separata rader. I detaljerade analyser kan det bli många annotationsrader.

(7)

Att annotera tar tid. Lexikografer vid Hamburgs universitet beräknar att en minut teckenspråk på video kan ta 2–3 timmar att annotera. Väljer man att göra en djupare analys tar det ännu mer tid. Räknar man med tiden för planering, inspelning och digitalisering av

teckenspråksmaterialet får man räkna med ännu mer tid.

Det saknas idag konventioner för hur annotationer ska göras, vilket leder till att varje annotatör väljer sitt eget beskrivningssätt. Så länge anteckningar används i en snäv krets människor fungerar det. Men om utomstående ska förstå anteckningarna är det nödvändigt att samtidigt ha tillgång till det filmade teckenspråkliga materialet. Det pågår arbete med att skapa

annotationskonventioner både i Sverige och i andra länder.

Metadata för korpusmaterial i teckenspråk, IMDI

I annotationerna är också viktigt att få med metadata, som till exempel aktörernas språkliga bakgrund (första- eller andraspråk, språklig hemmiljö, skolgång etc.), inspelningstillfälle (plats, hur många kameror som har använts, videoupplösning etc.), ålder och kön.

För korpusarbete i talade språk har det utvecklats en standard för metadata inom

EAGLES/ISLE Meta Data Initiative (IMDI). ISLE står för International Standard for Language Engineering. Denna standard används vid dokumentation av multimodala språkupptagningar, bl.a. har det använts vid Språk- och litteraturcentrum vid Lunds universitet. Som en del av ett europeiskt samarbetsprojekt ECHO-projektet, som påbörjades 2003, togs det fram ett förslag till standard för metadata för teckenspråkligt material

(8)

7. Två program som används vid korpusinsamling av teckenspråksmaterial

Jag har tittat närmare på två datorprogram som kan användas till korpusinsamling på

teckenspråk. Det ena heter Elan och är utvecklat vid Max Planck Institute for Psycholinguistics i Nijmegen i Nederländerna. Den andra heter Ilex och är framtaget av

Teckenspråksavdelningen vid Hamburgs universitet. Dessa är varken de första eller de enda programmen i sitt slag. Exempel på andra program som funnits och fortfarande används i teckenspråksvärlden är Signstream, Syncwriter, Esign och Anvil.

Nedan följer en kort beskrivning av Elan och Ilex med en kort beskrivning av några för- och nackdelar med respektive program, som jag noterat under förstudien. Bedömningen ska inte ses som uttömmande. Båda programmen har funnit i några år – de första versionerna lanserades i början av 2000-talet – och nya versioner utkommer med jämna mellanrum. Programmen har nått en viss mognad vilket betyder att de inte dras med några allvarliga barnsjukdomar. Elan befann sig i version 3.6 när denna studie gjordes och Ilex i version 5.0. Utvecklarna av båda programmen är lyhörda för synpunkter på hur programmen kan utvecklas. För att kunna hantera rörliga bilder förlitar sig både Elan och Ilex på att man har programmet Quicktime installerat i datorn.

Två saker som jag tycker är viktigt med ett korpusprogram är att:

1) det bygger på en öppen standard, vilket borgar för att programmen kommer att underhållas under lång tid framöver.

2) språkmaterialet kan användas flexibelt. Det ska i framtiden vara möjligt att studera språkmaterialet på ett sätt som inte förutsågs när informations samlades in och lagrades.

Elan

Elan (Eudico Linguistic Annotator) utvecklades från början för att användas vid gestforskning inom psykolingvistik. Teckenspråksforskare på olika ställen i världen har funnit programmet användbart då arbetssättet att göra teckenspråkstranskriptioner är densamma som

teckenspråksforskare är vana vid. De som har transkriberat manuellt på pappersark finner sig snart till rätta. Arbetssättet är detsamma i Elan. Det finns ett nära samarbete med utvecklarna av Elan, och dessa har varit lyhörda för synpunkter från teckenspråksforskarna och lagt till nya funktioner som passar teckenspråksforskningen. Elan används i dag av teckenspråksforskare i flera länder i Europa. Det är speciellt användbart i undervisning, eftersom det är lätt att dela med sig av annoteringsfiler via e-post. All information finns samlat i ett dokument. Det är relativt lätt att komma igång med programmet.

Programmet förlitar sig på att man har en s.k. javamotor installerat i datorn. Program som är skrivna för programmeringsspråket Java kan med lätthet föras över till olika datormiljöer.

(9)

Nedan följer några för- och nackdelar med Elan.

Fördelar med Elan är att:

• programmet har ett överskådligt gränssnitt

• man kan se fyra synkroniserade filmer från olika vinklar samtidigt • det är lätt att dela med sig av annotationer (eaf-filer)

• annoteringsfilerna är Unicode-formatterade och sparas i XML-format vilket är en öppen standard

• det går att söka i flera dokument

• det går att lämna tomrum mellan tecken, tiden för rörelseförflyttningar mellan tecknen syns

• det går att göra konkordanssökningar (om än begränsade) • programmet är översatt till svenska

• programmet finns i versioner för MacOS X, Windows och Linux

Nackdelar med Elan är att:

• glossor för tecken skrivs manuellt, vilket ökar risken för felstavning och olika beteckningar

• sökmöjligheterna är begränsade.

Länka Elan med ett lexikon

Max Planck Institute i Nijmegen har även utveckla ett lexikonprogram som heter Lexus. Man har nu tittat på hur man kan sammanlänka Lexus med Elan och börjat utveckla ett nytt

program. När detta program är klart – en första version beräknas vara klart under 2009 – förbättras Elans funktionalitet avsevärt. Det innebär att man undanröjer problemet att skapa olika glossor för samma tecken.

(10)

Ilex

Ilex (Integrated Lexicon) har utvecklas och underhålls av Institutet för tyskt teckenspråk vid Hamburgs universitet. Programmet bygger på det standardiserade databaspråket sql (structured query language), vilket tillåter kraftfulla sökmöjligheter. De flesta relationsdatabaser som finns i dag bygger på detta språk. Ilex består av två delar, en server- och en klientprogramvara. Serverprogrammet (databasmotorn) PostgreSQL är en fri programvara. Klientprogrammet Ilex är programmet som finns i användarens dator och som användaren använder för att komma åt informationen i databasen.

Programmet Ilex har inte fått samma spridning som Elan. En anledning till detta kan bero på att det är komplicerat att komma igång med Ilex. Det har krävts mycket kontakt via e-brev med utvecklaren Thomas Hanke för att få programmet att fungera under denna förstudie. En annan anledning till den begränsade spridningen är att Ilex tidigare bara funnits i en MacOS X-version. I dag finns Ilex även för Windows.

Vid Hamburgs universitet används Ilex i lexikografiskt arbete. Utifrån korpusmaterial sammanställs olika ämnesbundna lexikon som psykologi, snickeri, hälso- och sjukvård, socialarbete, landskaps- och trädgårdsarkitektur. Programmet har utvecklats med avsikt att ha en stark koppling mellan lexikon och korpusmaterial. Detta är programmets främsta styrka. Utvecklaren kallar detta för ”token-type matching”. En risk med manuell annotering är annars att varje annotatör skapar egna konventioner för att nedteckna tecken. Om ett tecken beskrivs med olika glossor blir korpusmaterialet oanvändbart vid till exempel frekvensstudier. Länkas däremot varje förekomst av tecken i korpusen till ett lexikon så undviker man variationer av glossor. Behöver man ändra glossan för ett visst tecken i lexikonet kommer alla förekomster i korpusarna att ändras, vilket är tidsbesparande.

(11)

Nedan följer några för- och nackdelar med Ilex.

Fördelar med Ilex är att:

• det är en kraftfull databashanterare

• flera användare på olika platser kan hämta och lägga till information i samma korpusdatabas

• det finns en stark koppling till lexikon, vilket minskar risken o för felaktiga annoteringar

o att flera tecken att få samma glossa

• programspråket sql ger möjligheter till att utforma egna sökvillkor • programmet har export-/importmöjligheter till Filemaker, Elan • Ilex finns i versioner för MacOS X och Windows

• Ilex kan använda avatarer (animerade datorfigurer) till transkriptionssystemet HamnNoSys.

Nackdelar med Ilex är att:

• det ännu inte finns i svensk version utan bara på tyska, engelska och nederländska. • man är beroende av datorprogrammerare

• plottrigt gränssnitt

• segmentering måste göras när filmen spelas upp, vilket leder till att klippunkterna ofta hamnar fel och måste korrigeras i efterhand

• man bara kan visa en film åt gången i programfönstret

(12)

Sökningar i korpusprogrammet

Att annotera är en del av korpusarbetet, men det verkligt intressanta är hur man kan göra sökningar i materialet. Kan man inte söka i språkmaterialet är nyttan av annoteringsarbetet begränsad. Jag har inte hunnit utforska programmens sökfunktioner på djupet eftersom jag inte haft mycket material att utgå från. Sökfunktionerna är något som behöver utvärderas mer.

I Elan kan man göra konkordanssökningar. Genom menyvalet ”Sök->Sök i flera eaf-filer” kan man hitta alla förekomster av en valfri söksträng och se annotationsceller närmast före och efter det sökta tecknet. Det är också möjligt att göra frekvensökningar. Det är möjligt att söka i flera dokument, men däremot har jag inte lyckats göra konkordanssökningar i ett enskilt dokument.

Ilex har också sökmöjligheter där man kan få fram tecknens kontexter och förekomster. Olika sökvillkor kan skapas med det inbyggda skriptspråket sql. Jag har inte kunnat testa detta eftersom jag inte är kunnig i programmering.

Det kan vara värt att påpeka att det är tecknet man oftast vill studera när man gör sökningar, inte annotationen av tecknet. Därför är det viktigt att bevara länken mellan transkription och videofilm. Annotationen finns för att datorerna ska kunna göra sökningar. Ibland kan det dock räcka med att studera sökningar av transkriptioner, t.ex. vid frekvenssökningar.

Olika sätt att lagra och bearbeta data

Elan och Ilex bygger på två olika principer för hur datan organiseras.

Elan är dokumentcentrerat. Annotationer sparas i dokumentfiler, som har länkar till

videofilmer. Dokumentens filformat följer xml-standarden (eXtensible Markup Language), vilket betyder att både data och taggning finns i samma dokument. Xml är en öppen standard och får sägas vara framtidsäkert. Eftersom all information finns i samma dokument är det lätt att flytta filerna, och skicka dem via e-post. Det är en fördel i undervisningssammanhang. Fast vill man se filmerna måste dessa finnas i datorn. Det är viktigt att mappstrukturen ligger fast; flyttar man på dokumenten eller videofilmerna så förloras länkarna.

Ilex bygger på sql (Structured Query Language) och innebär att all information finns i en databas. Med hjälp av sql-anrop hämtar man de data man är intresserad av. Ilex är programmet man arbetar i, men alla data som filmer, annotationer finns på en server som Ilex är uppkopplad till. Flera personer kan jobba med samma korpusmaterial. Se principskissen nedan.

(13)

Vilket program är bäst?

Frågan man ställer sig är vilket program som är bäst för generellt korpusarbete. I denna förstudie har jag bara hunnit börja studera programmen och inga slutsatser kan dras i detta skede. Av de första intryck jag fått av programmen tilltalas jag av Ilex kraftfulla databasmotor och flexibiliteten att utforma sökvillkor. Det kräver dock mycket tekniska kunskaper av sina användare. Elan är ett smidigt program att göra annotationer med. Det har ett överskådligt gränssnitt och möjlighet att arbeta med många bildvinklar. Det är speciellt användbart i undervisningssammanhang. Däremot är jag osäker på om Elan kan klara av att hantera stora korpusar. Stockholms universitets korpusprojekt får ge en fingervisning om detta. Språkrådet behöver fortsätta att utvärdera olika korpusprogram. Framför allt är det viktigt att ta fram en kravspecifikation för ett korpusprogram för teckenspråk. Tekniken ska inte styra arbetssättet utan ska istället utformas efter de behov man har.

Utveckla ett nytt korpusprogram?

Datorprogram utvecklas för de behov som verksamheten har. Ilex är i grunden ett lexikografiskt program och Elan är ett annotationssprogram. Man kan fundera på om det behöver utvecklas ett mer generellt korpusprogram för teckenspråk. Fördelen med ett generellt korpusprogram för teckenspråk är att man kan organisera informationen på det sätt man önskar. Nackdelen är att det är väldigt kostsamt att utveckla ett program. Dessutom måste avsätta resurser för att underhålla programmet. Eftersom korpusarbete pågår på flera håll i Europa kan man tänka sig söka EU-pengar för att utveckla ett generellt korpusprogram för teckenspråk. Eller så kan man till en början utveckla ett nordiskt samarbete. Fortsatt testning av Ilex och Elan får utvisa om behovet av att utveckla ett nytt korpusprogram är nödvändigt.

(14)

8. Ytterligare frågor

I arbetet med korpusinsamling för teckenspråk finns det några frågor som måste lösas. Här nedan listas några av de frågor jag stött på under förstudien och som man behöver gå vidare med.

Konventioner för taggning

En glossa är en etikett som man ger ett tecken. En vanlig konvention är att med versaler skriva tecknet med ett svenskt ord som ligger nära tecknets betydelse. Men det saknas ett

standardiserat annotationssystem för teckenspråk i Sverige och i världen. Om man beskriver varje tecken på olika sätt leder det till att sökningar i korpusmaterialet blir otillförlitliga. Det är därför viktigt att arbetet samordnas så att annoteringarna blir samstämmiga.

Teckenspråksforskare vid avdelningen för teckenspråk vid Stockholms universitet fick medel från Erik Wellanders fond och gjorde en liten studie hösten 2008 om hur man kan standardisera annotering i svenskt teckenspråk. Detta arbete presenterades vid nordiskt korpusseminarium för teckenspråk på Stockholms universitet den 7-8 november 2008. Arbetet med att skapa konventioner för svenskt teckenspråk fortsätter i det korpusprojekt som startade i januari 2009 vid avdelningen för teckenspråk. Det återstår en hel del arbete på detta område.

Aktör eller avatar

När man gör inspelningar av teckenspråk är identiteten på den filmade personen uppenbar. Det går inte att anonymisera berättelser på samma sätt som i skrivna texter. Detta kan skapa

problem om personen inte vill att materialet ska bli offentligt. Ett sätt att komma runt

problematiken är att låta en teckenspråksaktör återberätta texten, men risken är att texten blir förändrad i återberättandet. En annan lösning är att låta avatarer presentera teckenspråkstexter. Ilex har möjlighet att koppla Hamnosys – som är ett transkriptionssystem utvecklat för tyskt teckenspråk men också används i andra länder – till avatarer som kan visa tecknet. En nackdel är att teckenspråket kan uppfattas som stelt och verklighetsfrämmande när det framförs av en datoranimerad figur.

(15)

QuickTime och en TIFF (LZW)-dekomprimerare krävs för att kunna se bilden.

Det mest framkomliga är nog att försäkra de inspelade att materialet bara kommer användas av forskare. Man kan vid inspelningstillfället upprätta ett kontrakt om hur materialet får användas; om bara forskare får använda det eller om det även ska vara tillgängligt för allmänheten.

Fånga naturligt språkbruk

Studiosamtal eller fältinspelningar, vilket är bäst? Av inspelningstekniska skäl görs de flesta korpusinspelningar i studiomiljö. Det är lättare att kontrollera ljusförhållanden och aktörernas placeringar. Idealet vore att kunna fånga naturliga samtal i offentliga miljöer. Men det kräver att de som fångas på video är informerade, och att ger sitt medgivande till inspelningar. Samtal i studio utan fasta ramar brukar kallas semispontana. I bästa fall glömmer aktörerna att det finns en kamera i rummet och producerar ett teckenspråk som de skulle ha gjort i en otvungen samtalsmiljö.

Segmentering av tecken

Var börjar och slutar ett tecken? Precis som i talade språk finns det en ström av språklig information som hjärnan avkodar. Detta är normalt sett inget problem för infödda

teckenspråkstalare, men nybörjare i teckenspråk har ofta svårt att avgöra var ett tecken börjar och var det slutar. Start och slutpositioner för tecken varierar beroende på de omgivande tecknens placering. Ska tiden mellan tecknen betraktas som transportsträckor eller är de en del av tecknet? När man annoterar korpusar är det viktigt att fundera på dessa frågor.

(16)

Automatiserad segmentering

Det forskas i dag kring hur man kan göra automatisk segmentering och taggning av

teckenspråksmaterial. En del försök görs i Frankrike. Forskningscentralen för inhemska språk i Finland har under 2008 lämnat in en projektansökan för ett projekt som ska ta fram verktyg för automatisk segmentering av finskt teckenspråk.

Balanserade korpusar

För att kunna skapa balanserade korpusar krävs olika typer av språkmaterial. Stockholms universitet har gjort en del inspelningar av monologer, men det saknas inspelningar av dialoger. Andra texttyper man kan undersöka är formella och informella sammanhang, teckenspråk som används i medier, informationsvideor etc.

Språkarkiv för teckenspråk

För att kunna göra korpusar behövs språkmaterial att studera. I dag produceras

teckenspråksmaterial hos olika tv- och videoproducenter, t.ex. Sveriges Dövas Riksförbund, SVT, UR och Specialskolemyndigheten. När hemmavideotekniken slog igenom i mitten av 1970-talet började det göras inspelningar på teckenspråk. Dessa inspelningar är viktiga

historiska dokument. I språkvårdsarbetet studerar vi hur bruket av teckenspråket förändras över tiden. Analoga inspelningar på VHS, U-matic och gamla videoformat slits och blir gamla. Det är bråttom att överföra materialet till digital teknik så att materialet inte förgås och blir

oanvändbart. Ansvaret för att bevara och digitalisera analogt videomaterial ligger för

närvarande hos varje videoproducent. Det behövs ett samordnat arbete. Institutet för språk och folkminnen bör ta på sig rollen att skapa ett teckenspråkligt riksarkiv, dit videoproducenter och privatpersoner kan överlämna material som är värt att bevara för eftervärlden. Även nyinspelat material bör samlas in fortlöpande. Men detta material behöver inte digitaliseras eftersom dagens videokameror är digitala. Språkrådet kommer i framtiden troligen att genomföra egna inspelningar. En del av detta material kan överlämnas till språkarkivet.

Riksarkivet bör vara öppet för språkvården, forskare och studenter. Ett teckenspråkligt riksarkiv kan ha en positiv effekt på teckenspråkforskning vid olika lärosäten – inte bara vid Stockholms universitet – och det underlättar arbetet med att ta fram referenslitteratur och läromedel för svenskt teckenspråk. Inspelningarna kan också vara till nytta för

(17)

9. Slutsatser och förslagna åtgärder

Språkrådet behöver följa den tekniska utvecklingen och utvärdera olika korpusverktyg. Det är för tidigt att säga att något av de korpuverktyg som jag tittat närmare på möter språkvårdens behov. Fortsatt testning behöver göras. Genom att använda korpusprogram lär man sig vilka specifika behov det finns för korpusarbete i teckenspråk. Kunskaperna kan sedan användas för att ta fram tydliga kravspecifikationer för hur korpusprogram ska utvecklas. Det är viktigt att språkvården är med och styr programutvecklingen i önskad riktning. Språkvetare behöver samarbeta med datorexperter och datorlingvister. Korpusarbete i teckenspråk är ett långsiktigt arbete som måste utvärderas kontinuerligt. Språkrådet bör:

• köpa in en speciellt avsedd dator för fortsatt utvärdering av korpusprogram

• samarbeta med teckenspråksforskare i Sverige och i andra länder om korpusarbete • samarbeta med datorexperter och datorlingvister

• hålla kontakt med programutvecklare av datorprogram för att påverka utformning och design av programmen

• utforma en kravspecifikation på hur ett korpusprogram ska se ut

• arbeta för att inrätta ett teckenspråksarkiv som är tillgängligt för språkvården, teckenspråkforskare och studenter

• söka pengar till större korpusprojekt i teckenspråk, antingen på egen hand eller i samarbete med andra nationella och internationella institutioner.

För att utföra detta arbete behöver Språkrådet också anställa flera personer. Två halvtidstjänster för språkvård i teckenspråk räcker inte.

Stockholm den 23 november 2009

Tommy Lyxell

Språkvårdare i teckenspråk Språkrådet

Bilagor:

• Projektansökan

• Artikel vid nordiskt korpusseminarium 7 november 2008, En jämförelse mellan Ilex och Elan – några tankar om teknikval inför korpusarbete i teckenspråk.

(18)

Referenser:

König, L., König, Konrad, R., Langer, G. (2008). Corpus-bases Sign Dictionaries of Tecknical Terms – Dictionary Projects at the IDGS in Hamburg. Paper URL:

http://www.lrec-conf.org/proceedings/lrec2008/workshops/W25_Proceedings.pdf

Drew & Hermann (2008), Towards Automatic Sign Language Annotation for the Elan Tool. Paper URL: http://www.lrec-conf.org/proceedings/lrec2008/workshops/W25_Proceedings.pdf

Johnston, T (2008), Corpus linguistics and signed languages: no lemmata, no corpus. Paper URL: http://www.lrec-conf.org/proceedings/lrec2008/workshops/W25_Proceedings.pdf

Crashborn, O (2008), The Corpus NGT: an online corpus for professionals and laymen. Paper URL: http://www.lrec-conf.org/proceedings/lrec2008/workshops/W25_Proceedings.pdf

Crashborn, O., Sloetjes, H. (2008), Enhanced Elan functionality for sign language corpora. Paper URL: http://www.lrec-conf.org/proceedings/lrec2008/workshops/W25_Proceedings.pdf

Lefebvre-Albaret, F., Gianni, F., Dalle, P. (2008), Toward an computer-aided sign segmentation.

Paper URL: http://www.lrec-conf.org/proceedings/lrec2008/workshops/W25_Proceedings.pdf

Mesch, J., Wallin. L (2008), Use of sign language materials in teaching. Paper URL: http://www.lrec-conf.org/proceedings/lrec2008/workshops/W25_Proceedings.pdf

Hanke. T, Storz. J (2008), Ilex – A Database Tool for Integrating Sign Language Corpus Linguvistics and Sign Language Lexicography. Paper URL:

Herrman. A (2008), Sign language corpora and the problems with Elan and the ECHO annotation conventions.

Paper URL: http://www.lrec-conf.org/proceedings/lrec2008/workshops/W25_Proceedings.pdf

Prillwitz. S, Hanke. T, König. S, Konrad. R, Langer. G, Schwarz. A (2008), DGS Corpus Project – Development of a Corpus Based Electronic Dictionary German Sign Language / German. Paper URL:

ECHO project, Case study 4: sign languages, Radboud University Nijmegen. URL: http://www.let.kun.nl/sign-lang/echo/index.html

ISLE Meta Data Initiative (IMDI). URL: http://www.mpi.nl/IMDI/

IMDI Browser, URL: http://corpus1.mpi.nl/ds/imdi_browser/

Crasborn, O., Hanke, T. (2003), Additions to the IMDI metadata set for sign language corpora, Nijmegen University. URL: http://www.let.ru.nl/sign-lang/echo/docs/SignMetadata_Oct2003.pdf

(19)

Mål i mun – Förslag till handlingsprogram för svenska språket (SOU 2002:27)

Teckenspråk och teckenspråkiga – Kunskaps- och forskningsöversikt (SOU 2006:29)

Konsekvensanalys av lokalisering av SVT Teckenspråk (Ku 2008/358/MFI)

Datorprogrammet Elan, URL: http://www.lat-mpi.eu/tools/elan/

Datorprogrammet Ilex, URL: http://www.sign-lang.uni-hamburg.de/ilex/

PostgreSQL Global Development Group, URL: http://www.postgresql.org/

World Wide Web Consortium, Svenska W3C-kontoret, XML i tio punkter. URL: http://www.w3c.se/resources/office/translations/XML-in-10-points_sw.html

Institutionen för lingvistik, Avdelningen för teckenspråk, Stockholms universitet, Svenskt teckenspråkslexikon 2009, URL: http://www.ling.su.se/pub/jsp/polopoly.jsp?d=10567 Språkbanken: http://spraakbanken.gu.se/

Stockholm Umeå Corpus: http://www.ling.su.se/pub/jsp/polopoly.jsp?d=4664

Korpus för det svenska teckenspråket: http://www.ling.su.se/pub/jsp/polopoly.jsp?d=12405

Förslag till annotation av teckenspråkstexter:

http://www.ling.su.se/content/1/c6/05/76/60/KorpusSemin8nov2008.pdf

Ordlista

Annotation anteckningar som rör tecken, grammatiska markörer i teckenspråket, översättningar och andra kommentarer.

Annotatör en person som gör annotationer.

Avatar en elektronisk representation av en person, en datoranimerad figur. Glossa ett sätt att återge tecken med ett skrivet svenskt ord. Konventionen är

att använda versaler och ordens grundform (infintivform eller obestämd singular), t.ex. SPRINGA, HUS. När man behöver beskriva tecknets böjningsform görs det efter glossan med ett inledande bindestreck och med gemener, t.ex. GE-m-v. Glossan ska betraktas som en etikett och inte som en översättning av tecknet. Tecknets betydelseomfång kan skilja sig från det svenska ordet.

Teckenspråksaktör en person som framför tecken eller teckenspråksmeningar i videoupptagningar

Transkription ett sätt att återge teckenspråket fonologi i skrift med hjälp av speciella teckensymboler. I Sverige används ett teckensystem som är utvecklat av avdelningen för teckenspråk vid Stockholms universitet. Man har också tagit fram ett teckensnitt, Brita, för användning i datorer.