Korpusar i forskning och undervisning - Corpora in research and teaching: Papers from the ASLA symposium, Växjö 11-12 November 1999

(1)

ASSOCIATION SUEDOISE DE LINGUISTIOUE APPLIQUEE (ASLA)

Svenska föreningen för tillämpad språkvetenskap

Korpusar i forskning och undervisning Corpora in Research and Teaching

Rapport från ASLA:s höstsymposium Växjö, 11-12 november 1999 Papers from the ASLA symposium Corpora in Research and Teaching

Växjö, 11-12 November 1999

<a~

yäxj~

un1vers1tet

Utgiven av

Gunilla Byrman Hans Lindquist

Magnus Levin

I ASLA I

(2)

ASLA:s skriftserie 13

(3)

(4)

ASSOCIATION SUEDOISE DE LINGUISTIQUE APPLIQUEE (ASLA) Svenska föreningen för tillämpad språkvetenskap

Korpusar i forskning och undervisning Corpora in Research and Teaching

Utgiven av Gunilla Byrman Hans Lindquist Magnus Levin

Rapport från ASLA: s höstsymposium Växjö, 11-12 november 1999

Papers from the ASLA symposium Corpora in Research and Teaching

Växjö, 11-12 November 1999

(5)

ASSOCIATION SUEDOISE DE LINGUISTIQUE APPLIQUEE (ASLA) Svenska föreningen för tillämpad språkvetenskap

ASLA ingår i den internationella huvudorganisationen AILA som har medlemmar i drygt trettio länder världen över. Föreningen har som huvudsyfte att på olika vägar främja och sprida information om språkvetenskaplig forslming med anknytning till praktiska språkproblem i samhället. Detta syfte ska ASLA söka uppnå genom att:

- anordna konferenser, symposier och seminarier, - publicera ett medlemsblad,

- ge ut symposierapporter och andra skrifter, - distribuera meddelanden och skrifter från AILA,

- delta i AILA:s vetenskapliga kommissioner, arbetsgrupper och kongresser.

Medlemsbladet ASLA-Information utkommer med två nummer per år. Där infonneras om litteratur, konferenser etc. Ett nummer per år innehåller dessutom en avdelning med utförligare presentationer av pågående forskning och utvecklingsarbete inom den tillämpade språkvetenskapen.

Årligen anordnas ett symposium omlcring ett tema som har intresse för såväl forskare som praktiker. Rapporterna från dessa höstsymposier publiceras i ASLA:s skriftserie. Böckerna i skriftserien är årsböcker och distribueras gratis till ASLA:s medlemmar.

Medlem i ASLA blir man genom att betala avgiften (200:- för budgetåret 00/01) till Svenska föreningen för tillämpad språkvetenskap, postgiro 40 32 86-8.

Medlemmar får årsboken i ASLA:s slcriftserie, ASLA-Information, AILA Review och AILA News. Bland övriga medlemsförmåner kan nämnas att till rabatterat pris delta i föreningens symposier samt att - också till nedsatt pris - köpa tidigare nummer i ASLA:s slcriftserie. Beställning av ASLA:s skrifter sänds till följande adress: ASLA, c/o FUMS, Box 527, 751 20 Uppsala.

Korpusar i forskning och undervisning. Rapport från ASLA:s höstsymposium Växjö, 11-12 november 1999. Corpora in Research and Teaching. Papers from the ASLA symposium Corpora in Research and TeachingVäxjö, 11-12 November 1999. G. Byrman, H. Lindquist & M. Levin (utg/eds.). ASLA, Svenska föreningen för tillämpad språkvetenskap. Uppsala 2000.

ISBN 91-87884-13-5 ISSN 1100-5629 ISSN 1404-0441

Universitetstryckeriet

(6)

Innehåll/ Contents

Förord ... 1 Mot et maksimalt brukervennlig korpus ... 4

Janne Bondi Johannessen, Anders Nr;,klestad Universitetet i Oslo

Enhancing tagging performance by combining knowledge sources ... 19 Lars Borin

Uppsala University

The use of extraposition in writing produced by

Swedish advanced learners of English ... 32 Mia Boström Aronsson

Göteborg zmiversity

Gula sidornas branschregister. En studie i frisörnamn ... 43 Gunilla Byrman

Växjö universitet

Transkriberad högläsning i databas. En metod att undersöka

olika läsargruppers känslighet för högre språkliga nivåer ... 52 Kristina Danielsson

Stockholms universitet

Korpusar, prepositioner och regional variation i modern engelska ... 67 Maria Estling

A Contrastive Study of English and Swedish

Passives in a Textual Perspective ... 81 Anna-Lena Fredriksson

Göteborg University

ASU - En korpus för studium av svensk andraspråksutveckling

och infödda svenskars språkbruk .. . . .. . . .. . . .. . . .. . . .. . . .. . ... . . .. . . .. . . ... . . ... . . .. . . . .. ... . . ... . . .. . . .. . . .. . . . 93 Björn Hammarberg

Carpe corpus. Om att bygga upp en talspråkskorpus ... 109 Kristina Hansson, Gisela Håkansson, Ulrika Nettelbladt

Lunds universitet

Arbete med korpusar i språkundervisning på gymnasienivå ... 120 Christian Hecht

Ljusdals Kzmskapscenter

Korpus, intuition, teori. Med illustrationer ur

Svenska Akademiens grammatik ... 131 Staffan Hel/berg

(7)

What's in a name? Definiteness in names of nations ... 150 Staffan Klintborg

A linguistic framework for web-based experiments with corpora ... 168 Dimitrios Kokkinakis

Om konsten att spela in naturligt förekommande social interaktion.

Erfarenheter från inspelningar i hemtjänsten ... 182 Anna Lindström

Uppsala universitet

Korpusar i ordboksarbete och grammatikforskning ... 192 Sven-Göran Malmgren

Göteborgs universitet

Svenska dramer från tre sekler. Presentation av en korpus ... 209 Ulla Melander Marttala, Carin Östman

Uppsala universitet

Getting the Corpus into the Classroom ... 221 David C. Minugh

University of Stockholm

Existential indefinites in spoken Swedish ... 242 Joakim Nivre

Användarstrategier i OSA-databasen ~ ... 255 Lena Rogström

Göteborgs universitet

Användning av Språkdatas konkordanser i det

redaktionella arbetet med SAOB ... 266 Per Stil/e & Bo-A. Wendt

Svenska Akademiens ordbok, Lund

Korpusforskning i undervisningen ... 273 Gunnel Tottie

Universität Ziirich

!he ~se o~ a corp1;1s of stu?ents' written production

m umvers1ty Enghsh teachmg ... 293 Margareta Westergren Axelsson

Uppsala University

Prefabricated phrases in learner language. A corpus-based study

comparing advanced EFL writing with native English writing ... 304 Maria Wiktorsson

Lund University

(8)

Förord

De senaste decennierna har användning av datoriserade korpusar med skrivet eller talat språk blivit allt vanligare inom forskningen.

Från att ha varit en angelägenhet för ett begränsat antal entusiaster har korpusanvändning blivit en etablerad metod i många språkveten- skapliga sammanhang. Exempelvis finner vi korpusbaserade tal- och skriftspråksstudier, studier av översättning med hjälp av flerspråkiga korpusar och datorstödd lexikologi och lexikografi. Korpusarna nytt- jas även som hjälpmedel i undervisningen. Genom att själva arbeta med korpusar kan elever och studenter förvärva värdefulla insikter i grammatik, lexikonkunskap och stilistik.

Flera internationella konferenser under 1990-talet har haft korpus och språkinlärning som tema, och vi ansåg tiden vara mogen för att i ASLA:s regi inbjuda till ett symposium om korpusanvändning i forskning och undervisning. Till vår glädje fick vi ett stort antal in- tressanta föredrag till symposiet, som hölls den 11-12 november 1999. Av praktiska skäl har vi valt att ordna texterna alfabetiskt efter författarnas namn, men det går att urskilja olika teman bland bidragen.

Konstruktion av korpusar, analysprogram och användargränssnitt Pionjärerna inom korpusforskningen var själva tvungna att göra det mödosamma sammanställningarbetet av sina korpusar. Även om det redan finns en lång rad korpusar av både generell och specialiserad karaktär som är allmänt tillgängliga, så är det i många forskningspro- jekt fortfarande nödvändigt att skapa nya. Många lingvister arbetar också aktivt med att utveckla hjälpmedel för hel- eller halvautomatisk analys av korpusmaterialet, så kallad taggning och parsning.

I denna volym redogör Kristina Hansson, Gisela Håkansson och Ulrika Nettelbladt för praktiska och teoretiska överväganden i sam- band med uppbyggnaden av en korpus med tal hos barn med språk- störningar, medan Björn Hammarberg gör detsamma med en korpus för longitudinella studier av invandrares och svenskars språkbruk.

Anna Lindström beskriver inspelningen av konversationer i hem- tjänsten; materialet ska ligga till grund för forskning om språklig interaktion. Ulla Melander Marttala och Carin Östman visar i sin uppsats hur en planerad korpus med svenska dramer från 1725 till

(9)

2000 ska kunna användas som underlag för både litterära och språk- vetenskapliga studier.

Lars Borins uppsats behandlar centrala frågor kring hur korrekt- heten i taggning ska kunna ökas genom en kombination av informa- tionskällor och olika taggningsprogram. Även Dimitrios Kokkinakis berör taggning i en uppsats. Dessutom beskriver han en rad andra datorverktyg som kan användas i arbetet med att analysera innehållet i en korpus. Janne Bondi Johannessens och Anders Nl}klestads bi- drag handlar om hur man kan göra en korpus användarvänlig för språkforskare som inte är dataloger. Vidare har Lena Rogström undersökt hur användare beter sig när de söker information i SAOB via Internet, och hur en sådan undersökning kan leda till förbättringar av användargränssnittet.

Språkvetenskapliga studier

Ett grundläggande syfte med korpuslingvistiken är att få fram ny kunskap om språket, och de flesta bidragen presenterade sådan kunskap.

Vissa undersökningar är huvudsakligen teoretiska, som Joakim Nivres studie av existentiella obestämda pronomen i svenskan. Men ofta har dessa undersökningar ett praktiskt syfte, till exempel att för- bättra befintliga handböcker, underlätta språkundervisningen eller åstadkomma bättre översättningar. Staffan Hellberg visar i sin artikel hur man i arbetet med Svenska Akademiens grammatik vägde kor- pusdata mot den egna intuitionen för att få fram en god beskrivning av modern svenska. Sven-Göran Malmgren redogör för korpusan- vändning i flera olika ordboksprojekt, och Per Stille och Bo-A.

Wendt ger en inblick i det datorstödda arbetet på Svenska Akade- miens ordboksredaktion.

Andra forskare kombinerar empiriska undersökningar med en ön- skan att ge bättre information till språkinlärare. Så gör Maria Estling i en undersökning av prepositionsbruket i olika varianter av engelska och Staffan Klintborg i en studie av bruket av bestämd artikel i ort- namn som (the) Bahamas och (the) Ukraine. Två uppsatser använder språkinlärarspråk som material: Mia Bosiröm Aronsson skriver om användningen av extraposition hos svenska studenter, och Maria Wiktorsson jämför bruket av prefabricerade fraser hos avancerade in- lärare och infödda talare. Jämförelse mellan svenska och engelska görs också av Anna-Lena Fredriksson, som kontrasterar passiv- bruket i svenska originaltexter och deras översättningar till engelska respektive engelska originaltexter och deras översättningar till sven- ska. Margareta Westergren Axelsson beskriver ett projekt som

(10)

undersöker svenska studenters skrivna texter, med syftet att effektivi- sera undervisningen på områden där studenterna har inlärningspro- blem.

Ytterligare ett forskningsfält illustreras genom Kristina Daniels- sons studie av olika läsargruppers strategier vid högläsning. Slutligen ser vi att datoriserade undersökningar inte nödvändigtvis behöver göras på särskilt sammanställda datorkorpusar, vilket framgår av Gunilla Byrmans forskning om kommersiella namn där hon använ- der webben, närmare bestämt Gula sidorna.

Pedagogik

Några bidrag inriktar sig också specifikt på undervisningen, där man kan tillämpa ett forskningsliknande arbetssätt. David Minugh gör en översikt över området och ger en rad exempel och förslag på arbets- uppgifter, och Christian Hecht beskriver ett projekt i gymnasie- skolan där webben används vid inlärning av. tyska ord. Gunnel Tottie demonstrerar en metod där studenter på universitetsnivå har fått be- driva korpusforskning i liten skala och därigenom skaffat sig för- djupade kunskaper om engelska.

I arbetet med denna volym har Gunilla Byrman och Hans Lind- quist svarat för huvuddelen av det vetenskapliga redaktionsarbetet, medan Levin framför allt bidragit med korrekturläsning och många värdefulla synpunkter under arbetets gång. Det är vår förhoppning att texterna ska öka och fördjupa kunskapen om korpusars användbar- het och stimulera till ny forskning på detta spännande område.

Mycket nöje!

Växjö i oktober 2000

Gunilla Byrman och Hans Lindquist

(11)

Mot et maksimalt brukervennlig korpus

Janne Bondi Johannessen, Anders Ny;klestad Universitetet i Oslo

Innledning

Et tekstkorpus skal vanligvis brukes av lingvister og filologer. De fleste i denne gruppen har ikke spesielle kunnskaper i informatikk eller formaliserte systemer. Det er vår erfaring at de kvier seg for å benytte korpus, fordi det ofte kreves en hy;y terskel bare for å skrive inn syjke- uttrykkene, eller for å finne ut hva slags grammatisk merking som finnes, og hvordan taggene spesifikt ser ut, eller hvordan de ulike tekstene forkortes, dersom man bare yjnsker et mindre tekstutvalg. Ut fra denne erfaringen var vårt sty;rste yjnske at når vi endelig hadde et tagget korpus ferdig, så burde brukergrensesnittet vrere enkelt.

1 Selvforklarende sfjkegrensesnitt

1.1 Enkle ord

Det aller viktigste må vrere at de aller enkleste syjkene, for den totale amatyjr, er totalt selvforklarende. Man skal ikke behyjve å skrive inn anfyjrselstegn, punktumer, stjerner eller lignende bare for å syjke på et enkelt ord - eller for to ord etter hverandre. Betrakt fy;lgende utsnitt fra hovedsy;kesiden:

(1) ⁱFllrsteord

I ^DBegynnelse av ord D Endelse av ord D Grunnform

Maks ant. ord imellom

ro

D lgnorer bokstavswrrelse

Tekstutwlg Viifg w.r.t 1iman /P.f.<tljpem A visar, Sakwosa, Skj0nnlittaratur

Type resultat: Sorter I

{ KWIC·l<onl<o!doruo I ..-I I ^Kildo

~

~;:.!":!~g~~10kstuien,aggor ^{j ..-}f ;!~el~

Kontekst· Venstre: [3o H0yre: [4o Tilfeldi

□ /?~11!/.?/Bllhlmvist JA:,t"f/-1-,,dB ('tllP.J1 ».?.rd-B □ TBII

<pBSNVIPg,1).

.. _J ^TuP.P.][.!:,;:=~k=_l [ ^~P.US0t ^-hovedside] [ ~mlli

(12)

0verst til venstre kan brukeren skrive inn et helt ord. 0verst til h!i'iyre (ikke synlig på dette utsnittet) kan brukeren skrive inn et ord til, slik at det kan sji'ikes på to ord i sekvens. Mellom disse to er det en rute hvor man kan angi opptil hvor mange ord som kan komme mellom de to ordene. Under hvert ord kan man krysse av for om det man har skrevet inn, er begynnelse eller endelse av ordet (kan f.eks. brukes for prefikser og suffikser), eventuelt om det er ordets oppslagsform.

Det er altså lekende lett å sji'ike etter for eksempel sekvensen glad ... lingvist (hvor man ji'insker både entall og flertall av disse ordene, og opptil fem ord mellom), man skriver simpelthen inn ordene i vinduene, fyller inn 5 i ruten mellom, og krysser av for grunnform. Alternativet ville vrert å komponere et regulrert uttrykk - i dette tilfellet som nedenfor (med systemet til CQP fra IMS Stuttgart):

(2) [tagg=".*\"glad\".*"] []{0,5} [tagg=".*\"lingvist\".*"]

Det sier seg selv at man trenger mer enn fem minutter for å lrere seg å skrive inn et slikt uttrykk. Man må jo lrere seg syntaksen til regulrere uttrykk, og med de spesifikke deler som finnes i akkurat den versjonen man bruker.

1.2 Grammatiske tagger

Ofte er det også viktig å sji'ike bare etter ord av en bestemt ordklasse. I vår nåvrerende versjon er det en liste av alle ordklassene, samt et par andre kategorier, på hovedsji'ikesiden:

(3) [ S0k i koxpWlet J

[ T0m dette skjemaet I

[ T0m alle skjemaene J

Adjektiv Adverb Determinativ Infirutivsmerke lnterjeksjon Konjunksjon Preoosision

Pronomen

Subjunksjon . Substantiv Verb

(13)

Ved å klikke på en av ordklassene kommer man inn i et vindu hvor man kan krysse av mer spesifikt for akkurat de trekkene man er interessert i. Er man bare interessert i ord som er adjektiver i positiv form, og bare bestemt form, klikker man bare i de l,'5nskede bokser:

(4) ^r·. ^{·•- ..} •-·•'"' ,... ... ~,.

. F,zirst.e ord

; [81 Adjektiv 1i1d;) l Grad:

[&I Positiv (p.,s)

D Komparativ (J:t,mp)

D Superlativ 1:i;up) Tall:

□ Ental! (e.nt) D Flertal! {JJ) Bestemthet:

D Ubestemt (t1b) [81 Bestemt (!18) Genus:

D Femininum {]ti.m)

D Maskulinum (m.'iS.k)

□ N0ytrum (bllyl) Form:

□ Ub0yelig (11&,y)

D Perfektum Partisipp ('-"f'E'..l'l:p.,irt>)

D Presens Partisipp (<:f11"BS-p.'ll't.>)

D Orden ('.,_wrfe..mt.'ilb-)

Er man bare interessert i disse adjektivformene av et bestemt adjektiv, som f.eks. h~y, skriver man bare inn ordet, krysser av for grunnform, og så sender man syjket av gårde:

(5) F,zirste ord 1110y

□ Begynnelse av ord

D Endelse av ord [81 Grunnform

(14)

Skulle man selv komponere et regulrert uttrykk for dette, ville det bli slik:

(6) [tagg=".*\"h0y\".*" & tagg=".* adj.*" & tagg=".*

pos.*" & tagg=".* be.*"]

Ikke bare er det n0dvendig å lrere hvordan det regulrere uttrykket skulle skrives. Man må også lrere hvordan de forskjellige grammatiske klassene og trekkene forkortes. Når man isteden anvender klikk-og-skriv-grensesnittet, beh0ver man ingen forkunnskaper. Her er et utsnitt av resultatet av s0ket:

(7) A V/Ad96/01: fyller 95 år mandag, men den hjjye alderen til tross er han

A V/Ad96/01: om går rundt med angst. - De hjjye tallene kan i neste

AV/Ad96/0l: merkbart ned som folge av de hjjye kraftprisene. I oktober

AV/Ad96/0l: r, Terje Borgos mener at den hjjye fellingsprosenten er et

AV/Ad96/01: 2. Rut Tellefsen er blant de hjjytstående fruene som

Man kan også s0ke på grammatiske tagger uten å angi et bestemt ord. Denne muligheten ser vi på som viktig, og den gj0r faktisk Oslo- korpuset mer fleksibelt å bruke enn British National Corpus, hvor man bare kan s0ke på grammatisk tagg knyttet til et bestemt ord (Reference to the SARA Windows Client, ch.3.5). Med de samme kriterier for s0k som ovenfor, men uten at s0ket er knyttet til adjektivet hr;Jy, får vi et slikt resultat:

(8) S0kestreng: [tagg=".* adj.*" & tagg=".* pos.*" &

tagg=".* be.*"]

SK/AlGu/01: ham der han står - bare dette frcdfullc suset av trrer som

SK/AlGu/01: kestemmer - han stirrer inn i brustne

(15)

SK/AlGu/01: . Hans egne hender brenner i blodige flammer - og det

SK/AlGu/01: ikke vann som kan tvette dem rene. Han ser sig selv vandre

SK/AlGu/01: er i ham - den har hugget sig fast og vil ikke slippe byttet

SK/AlGu/01: ham - det blev svidd inn den forferdelige natten da han

SK/AlGu/01: fulgt, men siden - efter det forferdelige pieblikket ved

SK/AlGu/01: den dpde, så pinene som var brustne og blodet som var

1.3 Tekstutvalg

Det er velkjent at enkelte korpus er satt sammen etter svrert fastlagte kriterier, hvor man skal ha en bestemt prosentsats av hver genre, for å lage et såkalt representativt korpus (Brown). Det finnes også andre korpus, hvor målet tvert imot ikke er å dekke en rekke genrer, men å oppnå f.eks. maksimal stprrelse (Bank of English). Vi mener at det er en fördel at brukerne kan bruke et korpus til å sammenligne genrer.

Dessuten vet vi jo alle at det er stor forskjell på språkbruken i ulike typer tekster. Dersom man er på jakt etter eksempler på en bestemt grammatisk konstruksjon, bpr derfor korpuset ha en viss genrevaria- sjon. Samtidig ser vi ikke noe stort poeng i at det skal vrere like mye tekst fra hver genre. Ut fra disse premissene har vi konstruert Oslo- korpuset, som dermed består av flere genrer. Vi har valgt ut tre ho- vedtyper: avis (aviser og ukeblader), sakprosa (srerlig offentlige rap- porter og lovtekster) og skjpnnlitteratur (romaner). Det er nrermere 19 millioner ord i bokmålsdelen, men fordelingen er ikke slik at det er en tredjedel av hver genre. Vi har forspkt å ha en viss mengde av hver type, men fordi vi i stor grad brukte hva vi hadde, er den ende- lige mengden slik: aviser: ca. 10 mill. ord; sakprosa: ca. 7 mill. ord;

skjpnnlitteratur: ca. 2 mill. ord.

I visse tilfeller pnsker brukeren bare å benytte en liten del av tekstene. F.eks. kan det vrere interessant å studere bare en avis, en forfatter, eller bare skjpnnlitteratur. Igjen skal det ikke vrere npdvendig for

(16)

brukeren å lrere seg alle forkortelser for alle teksttyper. Det er bare å klikke seg inn på Tekstutvalgssiden, og velge eller velge bort tekster.

Standardutvalget er rett og slett alle tekstene. Nedenfor har vi valgt Adresseavisa, en NOD-rapport og romanen Gaia av Karsten Alnres.

(9) Tekstutwlg

Vivg l'l'J'Ä' 1'nhen de 1;,rstfal/Jje /E>.k.<ttypene 1mde.l' Aviser:

Alle

Aften osten 1994 AV/Af94/0l

D Ingen (lw=llerer ll'IIJf'/JI' 1;,r .m.<e.l' i /P.Ä'.<fme.JJftlJ1 ,,PW11;,r) . Satprosa:

NOU 11995 (SA/NO95/0l) NOU 2 1995 SA/NO95/02

□ Ingen (J:,wse.1/erer >WJf'IJI' 1,,r .<,fKJJr<'-'·• i tel:.<lm<mflll1 <'rnnf,,r) . Stj.,nnlitteratur:

[Alle]

Allb 'art Gunnar 'Flukten til livet' SK/A!Gu/01)

T,

D · Ingen (J:,W.<8/lerer ll'IIJf'/JI' 1,,r -~famtlitter.,tur i /P.Ä'.<fme.nftlJ1 ,,1'!'.nhr) .

Uten et klikk-og-skriv-grensesnitt måtte vi funnet ut hva slags koder disse tekstene var representert som, og skrevet inn en spkestreng av typen nedenfor (hvor spkeordet rett og slett er "ord"):

(10) [word="ord" & (src="AV/Ad96/01" I src="SA/NO95/03"

I src="SK/AlKa/01" )]

2 Visning av sf}keresultatet 2. 1 Visning med og uten tagger

Når et korpus er tagget, kan man bruke det til å spke på bestemte tagger. Det er en måte, og den er vist ovenfor i (8). Har man spkt på en bestemt tagg, er det som regel un0dvendig å se taggene også i spkeresultatet. Likeledes er det unpdvendig å se taggene hvis man bare er ute etter eksempler på et gitt ord. Det er nok denne tanke- gangen som ligger bak det faktum at de fleste spkbare korpus ikke lar en få se taggene overhodet (et par eksempler er LDC Online og det svenske Parole-korpuset).

Men vi mener at det godt kan vrere tilfeller der det er viktig for brukeren å få se taggene. Det kan f.eks. dreie seg om en underspkelse

(17)

av når et bestemt ord förekommer som den ene eller andre ordklas- sen. I Oslo-korpusets grensesnitt har vi lagt inn en meny for hvordan s0keresultatet skal vises. Ovenfor, i (1), så vi standardsettingen, hvor ingen tagger vises. Nedenfor ser vi et valg hvor selve s0keordet vises med tagger, mens konteksten er uten tagger:

(11) Vis resultat:

[ S0keord med Wgger og kontekilt uten Wgger

S0keresultatet ser da slik ut (ved siden av s0keordet er ordets grunnform, ordklasse og morfosyntaktiske trekk, og til slutt syntaktisk funksjon angitt etter en kr0llalfa):

(12) S0kestreng: [word="stemme" & (src="AV/Ad96/01" )]

A V/Ad96/01: re hele det norske folk ved å stemme

"stemme" verb inf @IV mot, eller utfordre NATO- kolleger ved

A V/Ad96/0l: utfordre NATO-kolleger ved å stemme

"stemme" verb inf ,@IV for. I slike saker gjelder diplomatiet

A V/Ad96/01: lte Dusan Tadic. Med usikker stemme

"stemme" subst mask appell ent ub @<P-UTFYLL forteller hun om drap, tortur og

AV/ Ad96/01: nt lreresveinene og sa med h0y stemme

"stemme" subst mask appell ent ub @<P-UTFYLL :

" Kong Inge er d0d. Håkon

På samme måte kan man be om at både s0keord og kontekst vises med tagger. Selvsagt blir s0keresultatet da litt mer rotete å se på, men for noen typer s0k er slik informasjon svrert verdifull. F.eks. kan man 0nske å finne ut hva slags grammatiske omgivelser et bestemt verb har. Da er ,det uvurderlig med muligheten til å få vist tagger.

2.2 Type s~keresultat

S0kesystemet vi bruker i Oslo-korpuset er bygget over CQP-systemet fra IMS Stuttgart, som vi f0rst overf0rte til web i vårt bosniske korpus.

I dette systemet gis det mulighet til å få vist s0keresultatene på flere måter. Vi har valgt å presentere mulighetene i et menysystem. Oven-

(18)

for, i (1), kan man se at det er KWIC-konkordanse som er standardsettingen. Men det er også mulig å få vist resultatet i form av fordeling av former, eller fordeling i forhold til kilde, eller en kombinasjon av flere muligheter. Nedenfor kan man se at fordeling i forhold til former er valgt:

(13) Type resultat:

[ Fordeling 6!1 former

Resultatet (med spking på be- som förledd) ser slik ut:

(14) Spkestreng: [ word="be. *" ] Spk etter: Fordeling av former Fordeling

beste 59

bedre 43

betyr 34

begge 25

begynte 24

behov 24

bedrifter 19

bespk 19

best 18

bedriften 17 betydelig 17

betale 16

beskjed 13

bestemt 13

ber 12

2.3 Sortering av spkeresultatet

.,. I

I visse tilfeller kan man pnske seg å se spkeresultatet sortert etter bestemte kriterier. Det vanlige standardkriteriet er sortering etter kilde:

(15) Sorter konkordanse etter

[ Kilde

(19)

Spkeresultatet blir vist slik at alle resultater fra en kilde vises fpr resultatene fra neste osv.:

(16) Spkestreng: [word="svensk" & (src="A V/Ad96/01"

I src="SA/Lo81/01" )]

Sortert etter kilde

AV/ Ad96/01: gene i sin debutsesong og ble svensk toppscorer med klar

AV/Ad96/01: aland har vrert en sensasjon i svensk seriefotball etter

AV/Ad96/01: a Ullevi og skrpt uhemmet til svensk presse. En nytent

AV/Ad96/01: spiller som ble solgt til en svensk klubb.

Bent

A V/Ad96/01: tland i vinter. Av en antatt svensk be- stand på 1100 gauper

SA/Lo81/01: ansk, finsk, islandsk eller svensk domstol gjelder også i

SA/Lo81/0l: ansk, finsk, islandsk eller svensk dom eller fastsetting fra

SA/Lo81/01: s gjennom dansk, finsk eller svensk apotek eller av enkelte

Det er også mulig å sortere spkeresultatene etter spkeordet selv. Det kan vrere nyttig når man spker på et variabelt spkeord, f.eks. alle ord som begynner med svensk-:

(17) Sorter konkordanse etter

[ S0keord ... l

(18) S~kestreng: [ word="svensk. *" & (src="A ViAd96i01"

I src="SA/Lo81/0l" )]

Sortert etter spkeord

AV/Ad96/0l: gene i sin debutsesong og ble svensk toppscorer med klar

(20)

A V/Ad96/0l: aland har vrert en sensasjon i svensk seriefotball etter

AV/Ad96/0l: dsstillende. PALME-FILM ^J En svensk film om mordet på

A V/Ad96/0l: sjef : Tore Gullen trener det svenske landslaget, for andre

A V/Ad96/01: r tiden har treningssamling i svenske Bruksvallarna, åtte

A V/Ad96/01: rningsmannen, slik en gruppe svenske eksperter mener

A V/Ad96/01: med at det nå er to år siden svenskene sa ja til EU, brakte

A V/Ad96/01: treken av Hellas. Så selv om svenskene produserer Volvo

AV/Ad96/0l: fpr i tiden, mener de fleste svensker.

Men mens « fpr i

A V/Ad96/01: oregått i samarbeid med flere svensker, har ifplge

A V/Ad96/01: i Norge var lite tilfreds med svenskpro- duserte dyner

A V/Ad96/01: Verdal er på utkikk etter en svensk- registrert blå Audi

Videre kan man sortere spkeresultatene etter ord foran eller etter spkeordet. Det kan for eksempel vrere nyttig når man er på jakt etter betydningen til forskjellige preposisjoner som folger etter et gitt verb.

Da kan det vrere kjekt å få alle eksempler på samme preposisjon sammen:

(19) Sorter konkordanse etter [ Orde1 etter

(21)

Resultatet blir da slik:

(20) Ss?lkestreng: [ word="skriver"]

Sortert etter ordet etter

A V/Ad96/01: e vinskj0nnerne i avisene som skriver for medlemmer av

AV/Ad96/01: en i motsetning til andre som skriver for ulike

A V/Ad96/0l: feller i Oslo, så selv om vi skriver fra bygdemiljs?l,

AV/Ad96/01: isten lavere. EU-kommisjonen skriver i en rapport at

AV/Ad96/0l: rand, 0ya Eiendoms advokat, skriver i et brev til

A V/Ad96/01: oreningsleder Bjs?lrn Andersson skriver i et brev til

AV/Ad96/0l: til NTB. Bioteknologinemnda skriver i sin uttalelse at

A V/Ad96/01: erk kontrast til det Huntford skriver om

«Fram»-ferden.

A V/Ad96/01: språkformen. Ola Svein Stugu skriver om strukturell

AV/Ad96/0l: usikkskolene, og Aftenposten skriver om lrererflukt fra

AV/Ad96/0l: en. Forfatteren Leo Oterhals skriver om forliset i sin siste

AV/Ad96/0l: rårets bok «Utror». Oterhals skriver om

hrivf't<: hPltPr rig

Vi har også lagt inn mange andre muligheter som gjs?lr ss?lkingen flek- sibel. For eksempel kan man velge hvor mye kontekst som skal vises (opptil noen hundre tegn på hver side) for hvert s0keord. For å be-

(22)

grense syjketiden har vi også lagt inn en standard på at de fyjrste 1 000 förekomster av syjkeordet vises. Men dette tallet kan man endre både opp og ned ved å skrive noe annet i ruten. Vi har også lagt inn muligheten for å herite ut et tilfeldig utvalg av förekomster - tilfeldig i forhold til kilder. Det gir muligheten til f.eks. å begrense syjket til 500 förekomster, men likevel få förekomster fra forskjellige deler av korpuset.

3 Uortodokse s('Jkemuligheter med interessante resultater 3.1 Sammensetninger

Taggeren som er brukt, har selvsagt en sammensetningsanalysator som analyserer og bestemmer grammatisk tagg til produktivt dannede sammensetninger. Alle slike ord gis også en tagg, slik at man kan se at de er nyanalysert. Dette gir også muligheten til å syjke på alle produktivt dannede sammensetninger i korpuset:

(21) Annet:

[gJ Sammensetning ('.'r,'WJS8t.)

En morsom bieffekt av dette er at slike sammensetninger viser mye om forfatteren og/eller verket. Det er for eksempel lett å se at fyjlgende utdrag er fra en mannlig forfatter, som skriver om politikk og krig (nrermere bestemt Nordahl Grieg).

(22)Syjkestreng: [tagg=".* samset. *" &

(src="SK/GrNo/01 ")]

SK/GrNo/01: ilkjempet sig viktige goder, firti- timers-dagen. Tirret

SK/GrNo/01: vilde bli opfattet som en ny klasse- aksjon, en

SK/GrNo/01: t som en ny klasseaksjon, en makt- utvidelse. Det vilde bli

SK/GrNo/01: en. Blodige og åndelyjse blev kommu- nardflokkene

(23)

SK/GrNo/01: terkere enn en ide. Idag kom pariser- arbeiderne rolige, i

SK/GrNo/01: rolig omtanke for alle. I et granathull ved Brunete fikk

SK/GrNo/01: er over trekkene. Krumrygget b!ilide han sig over bordet,

SK/GrNo/01: r sommer, og deltok selv som kamp- flyver. Noe av

SK/GrNo/01: st. " Brevkortene var merket Madrid- divisjonen, og

SK/GrNo/01: , patronbelter, ammunisjon, uniforms- plagg og m

Slik kan man sammenligne forskjellige tekster med tanke på ordför- rådet. Man kan også sammenligne antallet sammensetninger i flere tekster, og slik si noe om forfatterens kreativitet.

3.2 Unormerte ord

I arbeidet med taggeren oppdaget vi at svrert mange tekster har ord og b!ilying som ikke er i samsvar med normen fra Norsk Språkråd. Vi valgte å legge inn en god del slike ord i ordlistene våre, men med en ekstra tagg om at de er unormerte. Dette kan man så sjijke på, og slik se hva slags tekster og hva slags ord som avviker, og på hvilken måte:

(23) Annet:

D Sammensetning 1:~'lll:1S8t)

D · Forkortelser (J,?rk)

□ Dato {~d.'i/,.?,--)

0 Klokke (<fhkke.:-) [81 Unormert (1m,.?rm)

De fleste av ordene nedenfor tilhjijrer gruppen av konservative ord, altså ord som ligner svrert på dansk.

(24)

(24)Spkestreng: [tagg=".* unorm.*" & (src="SK/GrNo/01" )]

SK/GrNo/01: elge. Det var papirflagg med billedet av kommunardene

SK/GrNo/01: m förtrolig aktelse, når han bragte glassene med

SK/GrNo/01: m gatene, endelpst. De gikk seks-syv i bredden, menn,

SK/GrNo/01: egi var sterkere enn en ide. Idag kom pariserarbeiderne

SK/GrNo/01: lgedagsklrer, en halv million mann, med innflytelse i

SK/GrNo/01: sitt. Kirkegården var som en kolonihave av små stenhus;

SK/GrNo/01: n den var sperret av soldater efter flere attentatforspk. Det

Avslutning

Det har vist seg at denne typen brukergrensesnitt slår an hos folk. For pyeblikket har vi ca. 200 registrerte brukere fra 17 land, og jevnlige tilbakemeldinger viser at folk bruker korpuset. Selv om vi har lagt vekt på at grensesnittet skal vrere brukervennlig og fleksibelt, har vi fått noen tilbakemeldinger som gjpr at vi er i ferd med å endre det.

Blant annet skal vi legge inn muligheten for å spke etter tre ord, vi skal ha muligheten til å spke negativt, og til å gi kollokasjoner som spkeresultat. Allerede nå er det mulig å gjpre en god del slike ting, fordi vi også har en spkeside hvor man kan skrive inn regulrere uttrykk. Men som ventet er det bare ekspertbrukere som benytter seg av den; og det er faktisk tilbakemeldingene fra noen av disse som gjpr at vi pnsker å utvide spkemulighetene i det enkle klikk-og- skriv-grensesnittet.

(25)

Web-ref erans er

Brown-korpuset:

http://www.ldc.upenn.edu/lol/docs/BROWN.html Bank of English:

http://titania.cobuild.collins.eo.uk/boe_info.html CQPIMS:

http://www.ims.unistuttgart.de/projekte/Corpus W orkbench/CQP userManual/HTML/

LDCOnline:

http://www.ldc.upenn.edu/

Oslo-korpuset av taggede norske tekster:

http://www.tekstlab.uio.no/norsk/bokmaal/

http://www.tekstlab.uio.no/norsk/nynorsk/

Svenske korpus:

http://spraakbanken.gu.se/

The Oslo Corpus of Bosnian Texts

http://www.tekstlab.uio.no/Bosnian/Corpus.html The SARA Windows Client:

http://info.ox.ac. uk/bnc/getting/chap4.htm

(26)

Enhancing tagging performance by combining knowledge sources'

Lars Borin

Uppsala University

1 Jntroduction

The topic of this paper is an ongoing effort to exploit combinations of existing natura! language processing (NLP) resources in order to reach part-of-speech (POS) tagging performance in excess of that which any single resource is able to provide.

The context of the effort is the ETAP project, a parallel translation corpus project funded by the Bank of Sweden Tercentenary Foun- dation. The aim of the project is to create an annotated and aligned multilingual translation corpus which will be used as the basis for the development of methods and tools for the automatic extraction of translation equivalents for applications such as machine translation systems.

To this end, we are investigating to which extent it is possible to reuse existing - meaning either developed in our department in some other context, or freely available on the WWW - NLP resources for the task of tagging the languages of the project. As a general rnle, we may say that the number of such resources is growing quite fast at the present time. On the other hand, their availability is highly dependent on the language, from almost unlimited numbers for English,

The research reporred in this paper was carried out within the ETAP (Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter; in English:

"Creating and annotating a parallel corpus for the recognition of translation equivalents") project, supported by the Bank of Sweden Tercentenary Foundation as part of the research prograrnme Translation and Interpreting - a Meeting between Languages and Cultures. See http://www.translation.su.se/

(27)

over a few different POS taggers for German or Swedish², to practi- cally nothing fora language like Polish³•

Even in the cases where more than one tagger is available, their performance on our corpus may be fairly uneven, since they represent different tagger technologies, come with lexicons and tagsets of different size, and have been trained on different types and amounts of text. However, this can be used to advantage, since it seems that systematic differences between taggers can be exploited to enhance tagging performance.

Another thread of investigation in the project deals with the rela- tionship between POS tagging and word alignment. Since we are working with parallel translation corpora, we are investigating the possiblity of using word alignment to complement tagging. This is achieved by taking advantage of systematic part-of-speech corre- spondences between languages, so that a higher-precision tagger for language A - e.g. Swedish - may correct and complement the lower- precision (or nonexistent) tagging of a parallel text in language B - e.g. Polish - with which it has been aligned at the word level.

Both these efforts represent a recycling of the knowledge embodied in existing resources, rather than merely the straightforward reuse of those resources, in a narrower sense of the word, and we now tum to the - admittedly not completely sharp - distinction between the two kinds of reuse.

2 Reusing knowledge in computational linguistics

In language engineering, just as in software development in general, reusability is often equated with modularity. Modularity in tum pre- supposes standardisation, since the modules cannot communicate other than through a mutually agreed-upon - i.e. standardised - inter-

2

3

In addition, the tagged corpora which are used to train POS taggers are still very few in number, so that e.g. Swedish taggers, regardless of their provenance or the tagging technology used, tend to be trained on the SUC corpus (Ejerhed and Källgren 1997).

In recent NLP terminology, this is the difference between high-density and low-density languages.

(28)

face. However, the internal workings of the modules still need not be subject to standardisation in this way ⁴.

The development of a general linguistic resource for NLP is a major undertaking, and it is thus natural that there are various ongoing standardisation efforts in the language engineering community, e.g. the Text Encoding Initiative (TEI) for the markup of linguistic resources, EAGLES for content models for different kinds of such re- sources (Godfrey and Zampolli 1997), and GATE (Cunningham et al.

1995) fora standardised environment in which NLP modules can be combined in various ways.

2.1 Combining knowledge

Standardisation, or, rather, commensurability, is a prerequisite for the more specific kind of reuse discussed here, namely the reuse of the knowledge embodied in existing linguistic resources, in ways which were not foreseen when the resources were created.

Another prerequisite is that the knowledge sources be (at least in part) complementary, i.e. there is no point in combining, e.g., part-of- speech taggers which make the same errors, or where the errors of one tagger is a proper subset of those of the other one.

In our view, it is worthwhile to attempt such a combination of knowledge sources, since each of them is incomplete, i.e. there are no perfect taggers, all-encompassing lexicons, etc., at least not for general language.

Here, we will look at two kinds of knowledge combination rele- vant for the larger endeavour of annotating a multilingual parallel corpus for enabling the extraction of translation equivalents from it:

4 Although it would seem that a standardised interface will impose some !imitations on the kinds of representations that can be internally manipulated, in practice this is not a great problem. In the physical world, the dimensions of a conduit will inevitably limit the size of objects which are meaningful to handle in activities linked up by this conduit. This is because, in the physical world, for all practical purposes, the whole often cannot be re- stored from the parts; you cannot cut up a person, send the pieces through e.g. a tube mail system, and expect to be able lo put the person together again at the other end. With information, however, this is fully possible, so interna! representations can be arbitrarily larger than the pieces that can pass through the interface ( although !hese pieces them- selves - putting it in a somewhat simplified way - cannot both be arbitrarily small and arbitrarily ordered).

(29)

(1) The combination of several off-the-shelf part-of-speech taggers;

(2) The combination of a part-of-speech tagger with word alignment.

The first endeavour has precedents, both in computational linguistics and outside it. In the machine learning community, the idea of combining classifiers - e.g. neural networks trained on the same classifi- cation task - for enhancing accuracy, is an old one, going back at least to the mid-sixties (Tumer and Ghosh 1999). Several regimes for classifier combination have been proposed, from simple averaging, .over majority voting and more complicated non-linear models, to training a new classifier on the basis of the combination. All these methods have in common that they are knowledge-poor, i.e. they re- quire no domain knowledge for their implementation. With other such methods, they share the need for relatively large amounts of training data, and the feature of being supervised methods, i.e. the 'right' answer must be part of the training data.

POS taggers are classifiers in this sense, and it is natural to see how the methods developed for general machine learning could be applied for this specific machine learning task as well. The experiments with POS tagger combination which have been reported in the literature (Marquez et al. 1998; Brill and Wu 1998; van Halteren et al.

1998) have all adhered faithfully to this kind of knowledge-poor, supervised training regime. To my knowledge, the work reported here represents the first attempt to apply a knowledge-rich method to the problem of combining POS taggers, by formulating linguistically motivated rules for how tagger differences should be utilised in the combination of taggers.

2.2 Combining part of speech taggers

2.2.1 Step 1: Finding taggers

The first step in the tagger comparison procedure was the procure- ment of taggers to campare. Here, I will discuss the comparison of German taggers, but the procedure described is quite independent of

(30)

language5. For German, we found three publicly available part-of- speech (POS) taggers, Morphy (Lezius et al. 1998), QTAG (Mason 1997), and TreeTagger (Schiller et al. 1995).

2.2.2 Step 2: Evaluating the taggers

The evaluation of the taggers was carried out according to the follow- ing procedure. One or two short texts from the various subcorpora of the ETAP project were tagged with each of the taggers. Ten senten- ces were then picked out and the number of correct and incorrect tags in them counted.

Of the three German taggers evaluated, one, QTAG, turned out to have unacceptably low accurac/ This was probably due to it having been trained on nineteenth century fiction (Oliver Mason, p.c.), while the ETAP texts are contemporary non-fiction.

The tagsets of the two remaining taggers differ considerably in size. TreeTagger tags encode mainly part of speech, but no inflectional information (or at the most very coarse-grained inflectional di- stinctions, e.g. finite vs. infinite verb forms), while Morphy tags represent richer morphosyntactic desriptions.

In Table 1, the performance of the two German taggers is shown for two text types, technical manuals from the Scania subcorpus, and political prose from the German translation of the Swedish Statement of Government Policy (SGP) of 1988 and 1996. Accuracy percentages are calculated as: CORRECTLY TAGGED TOKENS/ALL TOKENS.

Table 1: Tagger accuracies

5

6

Tag ger/tag set TreeTagger Morphy/full Morphy/reduced

Scania 96.3%

90.4%

94.7%

SGP 96.2%

93.8%

95.4%

Apart from such obvious considerations as the availability of computational resources fora particular language, of course. Thus, for English, our search for freely available resources tumed up three taggers with altogether 10 different tag sets to choose among, whiie we have not been abie so far to find even a singie tagger for Poiish.

We set the accuracy threshold for inclusion in the comparison experiment at 90%, since this seems to be the commonly acknowledged chance baseline for POS tagging - i.e. the accuracy that would result if the most probable tag would be assigned to each word, regardless of context - at least for English (see, e.g. Voutilainen 1999).

(31)

The 'full' and 'reduced' tagsets used with Morphy refer to the way tagging errors were counted; with the 'full' tagset, the whole morphosyntactic description had to be correct, i.e. if any part of it was incorrect - e.g. if the case was given as 'dative' instead of 'nominative' (a fairly common error in our texts) - the error count would be in- creased b~ 1. In the case of the 'reduced' set, however, a correct part of speech , together with an error or errors in gender, case, and number for nominal parts of speech, and person/number for finite verbs, only would count as 0.25 errors.

The results seem to show that tagger performance is dependent to some extent on text type, but at the present time we can only note this as a topic which merits further investigation.

2.2.3 Step 3: Finding tagger differences

Next, a correspondence table was constructed for the tagsets of the taggers, and a tagger comparison program ( described by Borin et al.

Forthcoming) was used on their output. The hypotheses to be tested were:

(1) there would be differences between the two taggers in the errors made

(2) these differences would show some systematicity, which could be utilised to improve tagging accuracy by combining the two taggers.

Both hypotheses were supported by the results of the experiment.

There were differences between the taggers (see Table 2), and some of the differences turned out to be systematic.

Table 2: Tagger differences: Which tagger was right how often?

7

Corpus Morphy TreeTagger Neither SGP 101 / 35.5% 176 / 62.0% 7 / 2.5%

Scania 86 / 36.1 % 139 / 58.4% 13 / 5.5%

Total 187 / 35.8% 315 / 60.4% 20 / 3.8%

Total 284 / 100%

238 / 100%

522 I 100%

Here we used, roughly, the prut-of-speech inventory of TreeTagger, so that, e.g. finite verbs, infinitives, and participles were counted as different parts of speech, even though they have the common major part of speech "VER" in Morphy's tag set.