Utveckling av ett verktyg för länkning och bedömning av översättningar

(1)

Institutionen för datavetenskap

Department of Computer and Information Science

Examensarbete

Utveckling av ett verktyg för länkning och

bedömning av översättningar

av

Joel Eriksson

LIUIDA/LITHEXG15/006SE

20150327

(2)

Linköpings universitet Institutionen för datavetenskap

Examensarbete

Utveckling av ett verktyg för länkning och

bedömning av översättningar

av

Joel Eriksson

LIU-IDA/LITH-EX-G--15/006--SE

2015-03-27

Handledare: Lars Ahrenberg

Examinator: Lars Ahrenberg

(3)

Sammanfattning

Idag finns det m˚anga system f¨or att bed¨oma och tolka ¨

oversättningar av texter. Det finns system som länkar delar av en källtext och en översättning, det finns en även tekniker för att bedöma översättningar för ge ett m˚att p˚a hur bra de är. Ett exempel p˚a en s˚adan teknik är Token Equivalence Method(TEM). Det finns dock f˚a program, om n˚agra, som utnyttjar b˚ade länkning och bedömning p˚a ett s˚adant sätt att de skulle kunna vara användbara vid till exempel spr˚akutbildningar. I detta arbete utvecklas just ett s˚adant program. Programmet som skapats kan segmentera och länka parallella texter mot varandra helt automatiskt via inkopplade system. För att öka användarvänligheten s˚a visualiserar programmet ¨

aven länkningen och till˚ater redigering av b˚ade segmentering och länkning. Länkningen utnyttjas sedan för att räkna ut och visa delar av TEM för att ge ett m˚att p˚a översättningens kvalité.

(4)

Inneh˚

all

1 Inledning 1

1.1 Motivering . . . 1

1.2 Syfte . . . 1

1.3 Fr˚agest¨allning och systemkrav . . . 2

1.4 Avgr¨ansningar . . . 2 2 Bakgrund 3 2.1 Token-Equivalence Method . . . 3 2.2 L¨ankningssystem . . . 4 2.2.1 Anymalign . . . 4 2.2.2 GIZA++ . . . 5 2.2.3 Hunalign . . . 5 2.2.4 GMA . . . 5

2.3 System f¨or visualisering och redigering . . . 5

2.3.1 Cairo . . . 5

2.3.2 I*Link . . . 6

2.3.3 Yawat . . . 7

3 Metod 8 3.1 Verktyg och programmeringsspr˚ak . . . 8

3.1.1 Programmeringsspr˚ak . . . 8

3.1.2 L¨ankningssystem . . . 9

3.2 Systemutvecklingsmetodik . . . 9

4 Design och Implementation 10 4.1 Datahantering . . . 10

4.2 Anv¨andargr¨anssnitt . . . 13

4.2.1 Uppl¨agg . . . 13

4.2.2 Menyfunktioner . . . 14

4.2.3 Spara- och ¨oppna-funktioner . . . 15

4.2.4 Vy f¨or meningsuppdelning . . . 16

4.2.5 Vy f¨or meningsl¨ankning . . . 18

4.2.6 Vy f¨or visualisering . . . 19

4.2.7 Visualisering av ordl¨ankning . . . 20

4.2.8 Redigering av ordl¨ankning . . . 22

5 Diskussion och Resultat 23 5.1 Resultat . . . 23

5.2 Diskussion . . . 25

5.2.1 Metod . . . 25

5.2.2 Resultat . . . 26

(5)

(6)

1 Inledning

1.1 Motivering

Idag finns det m˚anga olika sätt att bedöma och tolka översättningar av texter. Man kan till exempel koppla ihop meningar och ord i en

¨

oversättning med motsvarande i källtexten. Detta brukar kallas för att länka tv˚a texter och idag finns det även system som gör detta automatiskt. Det finns även tekniker som använder sig av denna länkning för att

bedöma och ge ett m˚att p˚a hur bra en översättning är. ¨

Aven om dessa system och tekniker funnits under en viss tid finns det f˚a system som tar tillvara p˚a deras potential. Mer specifikt s˚a finns det inga system som ¨ar utvecklade f¨or den okunnige inom omr˚adet. I spr˚ak- och ¨

oversättarutbildningar skulle dessa tekniker kunna tänkas vara till stor användning. Eftersom översättningar är en stor del av dessa utbildningar s˚a skulle system som hjälper, till exempel en lärare, att studera en elevs ¨

oversättning b˚ade öka först˚aelse av översättningarna samt spara tid.

1.2 Syfte

Syftet med detta arbete ¨ar att skapa ett program som anv¨ander

existerande system för att länka parallella texter med varandra och sedan visualisera detta p˚a ett översk˚adligt sätt. Med tanke p˚a systemens möjliga felmarginal är det viktigt att l˚ata användaren av programvaran redigera länkningen p˚a ett lätthanterligt sätt. För att öka användarvänligheten ska programmet till˚ata användaren att spara en skapad länkning, för att sedan kunna öppna den vid ett senare tillfälle.

Programmet ska även kunna beräkna och presentera vissa delar av en teknik som kallas Token-Equivalence Method(TEM). Detta för att ge ett m˚att av kvalitén p˚a översättningen. TEM hanterar ordlänkning och segmentering lite annorlunda än vanliga länkningsmetoder, det är därför viktigt att systemet anpassas för att stödja detta.

En viktig del är att programmet inneh˚aller ett grafiskt användargränssnitt som är anpassat för den okunnige inom omr˚adet. En användare bör allts˚a kunna använda programmet utan att först˚a hur bakomliggande tekniker fungerar.

(7)

1.3 Fr˚agest¨allning och systemkrav

F¨or att f˚a en klarare bild av programmet togs en lista av krav p˚a funktionalitet i programmet fram:

• En källtext ska kunna läggas in i systemet • En översättning ska kunna läggas in i systemet

• Automatisk strukturering av texterna i stycken eller meningar med editeringsm¨ojligheter

• Automatisk tokenisering av texterna med editeringsm¨ojligheter • Taggning av ord

• Automatisk länkning av meningar med editeringsmöjligheter • Automatisk ordlänkning med editeringsmöjligheter

• Visualisering av ordl¨ankning och meningsl¨ankning • Visning av TEM-m˚att

Programmet bör stödja s˚a m˚anga spr˚ak som möjligt och bör fungera p˚a Linux i första hand men även Windows och Mac.

Ett par viktiga fr˚agor som beh¨ovs besvaras ¨ar:

• Vilka externa system behövs och passar bäst för ändam˚alet? • Hur g˚ar man tillväga för att utveckla ett s˚adant system?

1.4 Avgr¨ansningar

Ett system av denna typ kan t¨ankas inneh˚alla m˚anga olika delar. Bland annat kan n˚agon typ av versionshantering som ger m¨ojlighet att se hur en ¨

oversättning ändrats i olika versioner behövas. ¨

Aven ett större system där flera översättningar kan kopplas till samma källtext är ett alternativ. Detta skulle kunna ge, till exempel en lärare, möjligheten att se hur en viss del i text översatts av olika

¨

overs¨attare.

Genom att skapa en server-klient del med möjlighet för inloggning av användare skulle dessa problem kunna implementeras utan att klienten behöver ha tillg˚ang till länkningssystemen lokalt.

P˚a grund av tidsbrist kommer detta arbete fokusera p˚a att välja och koppla samman olika länkningssystem. Sedan skapa ett användargränssnitt för redigering och visualisering av länkningen som skapas. Dock kan det

(8)

vara en bra id´e att ha dessa m¨ojligheter i ˚atanke vid utveckling av programmet.

2 Bakgrund

2.1 Token-Equivalence Method

Token-Equivalence Method (TEM) är en metod som togs fram för att försöka betygsätta en översättning av en text. Den togs fram av Dr. Ljuba Tarvis i hennes avhandling ”Comparative Translation Assessment:

Quantifying Quality”[1]. Metoden visar b˚ade vilken stil en översättare har och hur stor del av originalet som är översatt. För att beräkna TEM används ett antal ramar som alla räknar olika saker i en översatt mening[2].

TEM delar upp ord i content(inneh˚all) och formal(formella). Formella ord ¨

ar grammatiska ord och ett ord räknas som inneh˚all om det inte är grammatiskt. P˚a grund av vad TEM beräknar kan ordlänkningen som TEM använder sig av vara lite annorlunda. Ordlänkning sker oftast över samtliga ord, oavsett vilken typ ett ord är. Under TEM behövs inte ¨

overflödiga grammatiska ord länkas, d˚a länkningen av dessa är irrelevant för vad TEM beräknar. Denna typ av länkning är dock inte nödvändig s˚a länge dessa grammatiska ord inte räknas. TEM kräver även att skiljetecken ignoreras vid segmentering, det vill säga att de till˚ats vara kvar.

Basic Content Frame (BCF): Räknar antalet ord i originaltexten som har en direkt översättning. Det vill säga ord som inte är grammatiska och som ¨

ar länkade. Denna ram visar hur stor del av originalet som är översatt. Antalet ges i procent.

Optional Content Frame (OCF): Räknar antalet av ord i översättningen som inte har en direkt motsvarighet i originalet. Även här ska inte grammatiska ord räknas, d˚a dessa ofta föresl˚as eller krävs av ¨

overs¨attningsspr˚aket. Denna ram visar vad som har lagts till i ¨

overs¨attningen. Antalet ges som ett heltal.

Basic Formal Frame (BFF): R¨aknar antalet grammatiska ord i ¨

oversättningen. Detta kan säga mycket om en översättares stil. Antalet ges som ett heltal.

Optional Formal Frame 1 (OFF1): R¨aknar hur m˚anga inneh˚alls-ord i ¨

overs¨attningen som ¨ar tolkade i samma ordklass som originalet. Ges i procent.

(9)

samma ordning som i originalet och samtidigt beh˚aller samma syntaktiska funktion. Antalet ges i procent.

Samtliga av dessa ramar kräver att alla ord i en mening är klassificerade p˚a ett eller annat sätt. För att ˚astadkomma detta automatiskt krävs sofistikerade tolkningssystem med ordböcker för varje spr˚ak.

2.2 L¨ankningssystem

Länkning av parallella texter är ett sätt att koppla ihop en källtext och en ¨

oversättning med varandra. Tanken är att länkningen ska visa vilka delar av texterna som motsvarar varandra inneh˚allsmässigt. Det är vanligt att dela upp länkningen i tv˚a olika niv˚aer: meningsniv˚a och ordniv˚a.

Meningslänkning är, precis som det l˚ater, länkning p˚a meningsniv˚a. Texterna m˚aste här ha delats upp i meningar och varje mening länkas mot motsvarande mening i motsvarande text. Viktigt att komma ih˚ag är att en mening inte behöver motsvara endast en mening utan flera meningar kan länkas till en. Detta skapar även möjligheten att flera meningar är länkade till flera. Dessa typer av länkningar kommer fortfarande att benämnas som meningspar, även om det handlar om tre meningar eller fler.

Ordlänkning är länkning p˚a ordniv˚a. Meningarna m˚aste här ha delats upp i ord, ibland fraser, för att ord sedan ska kunna länkas mot

motsvarande. Om en mening är länkad till fler än en mening s˚a kan dessa hanteras som en enda mening.

2.2.1 Anymalign

Anymalign är ett system för länkning av ord i en text och det är skrivet i Python. Det är baserat p˚a programmet Malign som är till för att länka molekylära sekvenser. Det utvecklades av Adrien Lardilleux och Yves Lepage ˚ar 2009. Anymalign använder sig av statistiska modeller och fungerar därför p˚a i stort sett alla möjliga spr˚ak utan specifika

spr˚akresurser. Det som är lite speciellt med Anymalign jämfört med andra länkningssystem är att programmet körs s˚a länge användaren l˚ater det. Ju längre programmet körs, desto fler resultat genererar det. Programmet är skrivet för att användas i Linux men fungerar p˚a flera operativsystem som Windows och Mac. [3] [4]

(10)

2.2.2 GIZA++

GIZA++ är en tillbyggnad av programmet GIZA som utvecklades av ett team p˚a Johns-Hopkins universitet sommaren 1999. GIZA++ använder statistiska modeller av varierande komplexitet för att länka ord för meningar i tv˚a olika spr˚ak. D˚a dessa modeller är baserade p˚a statistik s˚a kräver därför GIZA++ inga specifika spr˚akresurser. GIZA++ använder sig av ett externt verktyg för att segmentera texten i ord innan anrop till själva länkningssystemet. Denna ordsegmentering följer i stort sett TEMs krav och kan därför användas till just detta ändam˚al. Programmet är skrivet i C++ för Linux, men g˚ar att använda p˚a andra operativsystem.[5]

2.2.3 Hunalign

Hunalign är ett system för länkning av meningar som utvecklades under the Hunglish Project 2005. Hunalign fungerar b˚ade med och utan specifika spr˚akresurser, utan spr˚akresurser använder den sig av menings-längd och annan information för att göra en kvalificerad gissning. Det är skrivet i Portable C++, s˚a det kan i teorin kompileras p˚a nästan vilket

operativsystem som helst.[6] 2.2.4 GMA

GMA(Geometric Mapping and Alignment) är ännu ett system för länkning av meningar. Det är baserat p˚a Smooth Injective Map Recognizer som är en statistisk algoritm framtagen i samband med skapandet av GMA.[7] Systemet är framtaget av Dan Melamed ˚ar 1996 och är skrivet i Java. Det fungerar enligt skaparen bäst med spr˚akresurser som till exempel lexikon, men är inget som krävs. Programmet är skrivet för Linux och Solaris, men eftersom det är skrivet i Java bör det fungera p˚a ett flertal andra

operativsystem. [8]

2.3 System f¨or visualisering och redigering

2.3.1 Cairo

Cairo är ett program för visualisering av ordlänkning utvecklat ˚ar 2000 av Noah A. Smith och Michael E. Jahr. Programmet läser in en fil med tv˚a meningar med dess länkningsdata. Det visualiserar ordlänkning genom att lägga tv˚a meningar längs med varandra, antingen horisontellt eller

vertikalt, och ritar sedan streck mellan l¨ankade ord(se figur 1). Det ger ¨

(11)

Figur 1: Visualisering av l¨ankning i Cairo. 2.3.2 I*Link

I*Link är ett program för hantering av parallella texter utvecklat vid Linköpings universitet ˚ar 2000. Det kräver tv˚a texter där meningarna är länkade sedan innan och länkar själv p˚a ordniv˚a. I*Link till˚ater användaren att verifiera alternativt modifiera ordlänkningen genom att g˚a igenom alla ord i en mening. Programmet gissar p˚a en länkning mellan ord eller fraser och användaren accepterar eller ber om en ny gissning. Programmet visualiserar ordlänkningen genom att matcha färg p˚a ord som är länkade, tv˚a ord som är länkade har med andra ord samma bakgrundsfärg(se figur 2). Detta sätt att visualisera länkning fungerar bra med mindre meningar, men blir lätt sv˚arförst˚add vid större meningar. [10]

(12)

2.3.3 Yawat

Yawat(Yet Another Word Alignment Tool) är ett verktyg för att visualisera och redigera ord- och fras-länkning av parallella texter. Det utvecklades av Ulrich Germann vid University of Toronto. Yawat ger möjlighet att visualisera ordlänkning genom att rita streck mellan länkade ord och även att visualisera som matris. Det som gör det unikt är dess dynamiska visualisering. Denna dynamiska länkning visas genom att byta bakgrundsfärg p˚a alla associerade ord, men bara när muspekaren pekar p˚a ett av orden(se figur 3).

Figur 3: Dynamisk visualisering i Yawat.

Yawat ger även möjlighet att visualisera länkningen som en matris. Här skapas ett rutnät där meningarna ligger horisontellt respektive vertikalt mot varandra och varje ruta representerar en länk mellan varje ord. En kryssad ruta betyder att tv˚a ord är länkade. Denna representation används ¨

aven för att ge möjlighet att redigera länkningen mellan ord, genom att l˚ata användaren kryssa i och ur rutor(se figur 4).[11]

(13)

3 Metod

För att skapa programmet krävs först och främst att ett antal val görs. Sedan bör även en generell plan tas fram för hur arbetet ska fortg˚a. Planen som togs fram s˚ag ut som följer.

1. Val av vilket programmeringsspr˚ak programmet ska utvecklas i. 2. Val av de externa system, l¨ankningssystem, som kr¨avs.

3. Ta fram metoder f¨or att anropa och hantera de externa systemens in-och utdata.

4. Ta fram en datastruktur som kan hantera alla data som kr¨avs f¨or programmet.

5. Utveckla ett grafiskt användargränssnitt som använder framtagen datastruktur.

3.1 Verktyg och programmeringsspr˚ak

3.1.1 Programmeringsspr˚ak

Valet av programmeringsspr˚ak bestäms av flera variabler och viktigast i detta fall är att spr˚aket stöds p˚a operativsystemen som krävs. Det är även viktigt att det finns bibliotek för utveckling av grafiska gränssnitt

tillgängliga d˚a detta avsevärt underlättar utveckling. Det finns m˚anga spr˚ak som stödjer operativsystemen som krävs, men f˚a av dessa har ett bibliotek som fungerar över alla plattformar.

Java är framtaget för att vara s˚a plattformsoberoende som möjligt, detta betyder att ett program i Java kan köras p˚a alla operativsystem utan att behöva kompileras om. Java-kod kompileras till byte-kod och denna byte-kod kan senare köras p˚a vilken Java Virtual Machine(JVM) som helst. En JVM är en emulerad dator som tolkar kompilerad Java-kod. P˚a grund av detta system s˚a kan ett Java-program köras p˚a alla

operativsystem som har en JVM installerad utan att kompileras om. JavaFX är en mjukvaruplattform som är till för att skapa

anv¨andargr¨anssnitt till Java-applikationer. Fr˚an och med Java 8 ing˚ar JavaFX som ett standardbibliotek i Java och med Javas

plattformsoberoende s˚a blir även JavaFx plattformsoberoende, dock inte helt i samma utsträckning d˚a JavaFX kräver grafiska komponenter av operativsystemet.

(14)

P˚a grund av detta s˚a passar Java och JavaFX utm¨arkt till detta syfte.

3.1.2 L¨ankningssystem

Verktygen som behövs är först och främst ett länkningssystem p˚a

meningsniv˚a och ett p˚a ordniv˚a. Utöver dessa kan det även krävas ett sätt att dela upp text i delar s˚a som stycken, meningar och ord. D˚a m˚anga system använder egen tokenisering kan det vara en bra idé att börja med att välja dessa.

Som system p˚a meningsniv˚a finns det tv˚a populära system att välja mellan; Hunalign och GMA. B˚ada dessa system är i stort sett

plattformsoberoende och kräver inga specifika spr˚akresurser. D˚a ingenting avsevärt skiljer systemen, utan n˚agon större utvärdering, kan valet baseras p˚a hur lätt systemen är att använda för detta syfte. Utefter detta blev valet Hunalign.

Anymalign och GIZA++ är tv˚a system för länkning p˚a ordniv˚a. De fyller b˚ada kraven p˚a att stödja s˚a m˚anga spr˚ak som möjligt eftersom de är statistiskt baserade. Eftersom Anymalign stöds p˚a fler operativsystem än GIZA++ talar detta för Anymalign, men p˚a grund av Anymaligns

speciella sätt att exekveras är GIZA++ att föredra. GIZA++ använder sig ¨

aven av ett externt program för att dela upp meningar i ord och skapa en ordbok över texten. Detta kan till fördel användas i programmet.

Eftersom verktygen som valts ut är skrivna i C++ är dessa inte helt plattformsoberoende. För att dessa ska fungera p˚a olika operativsystem m˚aste de kompileras för det specifika operativsystemet och i m˚anga fall m˚aste de även anropas lite annorlunda, till exempel med olika

mapp-avskiljare i Linux och Windows.

3.2 Systemutvecklingsmetodik

Vid utveckling av mjukvara finns det flera olika metoder som man kan arbeta efter. Gemensamt för nästan alla dessa metoder är en mängd faser som arbetet g˚ar igenom. I stort sett är dessa faser som följande:

kravspecificering, design, implementation och felsökning. Dessa faser är oftast inte helt separerade utan p˚ag˚ar till stor del överlappande med varandra. Kravspecificering involverar bland annat att ta fram en

kravspecifiktion, men även framtagande av prototyper och dylikt är vanligt för att ge en klarare bild av det blivande programmet. När

kravspecifikationen ¨ar klar m˚aste programmet delas upp och en plan f¨or hur kravspecifikationen ska realiseras m˚aste tas fram. Detta brukar kallas

(15)

för design och involverar till stor del att dela upp programmet i mindre och mindre delar. När designen är klar s˚a bör det egentligen bara finnas en sak kvar att göra, att programmera alla delar och koppla ihop dem. Detta ¨

ar vad som kallas för att implementera programmet. När varje del av programmet är implementerad s˚a m˚aste de även felsökas för att försäkra att de fungerar som de ska. Felsökning är n˚agot som görs b˚ade för enskilda delar av programmet, och när flera delar kopplas ihop.

Exempel p˚a programutvecklingsmetoder ¨ar den traditionella

vattenfalls-modellen, V-modellen samt agila metoder som Scrum och Extreme Programming. Under vattenfalls-modellen sker alla faser efter varandra utan n˚agon större överlappning, metoden anser p˚a s˚a vis att framtiden är förutsägbar. Denna metod kritiseras därför ofta, eftersom man vid början ett projekt ofta inte vet tillräckligt mycket om ett projekt för att göra en felfri planering. Svaret p˚a denna kritik är agila

utvecklingsmetoder där den grundläggande filosofin är att just framtiden ¨

ar oförutsägbar. De agila metoderna gör sitt yttersta att till˚ata att den kunskap man samlar p˚a sig under arbetets g˚ang tas tillvara p˚a genom att l˚ata all planering ändras.[12]

P˚a grund av storleken p˚a detta arbete s˚a kommer det inte följa n˚agon av dem nämnda metoderna bestämt utan kommer istället ta inspiration av dem. Kravspecifikationen är fr˚an början i stort sett klar och kommer därför inte specificeras ytterligare. Design, implementation och felsökning kan ske i stort sett parallellt p˚a grund av storleken p˚a programmet. Ett försök till ˚aterkoppling genom hela arbetet kommer att ske för att lyfta fram eventuella brister i programmet.

4 Design och Implementation

4.1 Datahantering

När val av programmeringsspr˚ak och länkningssystem är gjorda s˚a krävs en plan för att koppla ihop och hantera datan. Eftersom tanken är att användaren ska ge tv˚a filer i olika spr˚ak som indata m˚aste programmet hantera data först och främst i denna form. Fr˚an ren text m˚aste datan konverteras till Hunaligns indata-format. Hunalign kräver tv˚a filer, en för varje spr˚ak, som inneh˚aller en mening p˚a varje rad. För att ˚astadkomma detta automatiskt utan att kräva att användaren behöver göra det manuellt krävs ännu ett verktyg. Ett skript utvecklat av Philipp Koehn och Josh Schroeder under Europarl som heter Sentence-splitter

˚astadkommer just detta. Sentence-splitter kr¨aver specifika spr˚akresurser, men dessa finns tillg¨angliga i ett 20-tal spr˚ak. [13]

(16)

När texterna är indelade i meningar kan de länkas i Hunalign. Utdata fr˚an Hunalign best˚ar av en fil med tv˚a eller fler länkade meningar p˚a samma rad. Hunalign matchar en eller flera meningar i ett spr˚ak emot en mening i motsvarande spr˚ak. Om Hunalign länkar flera meningar i ett av spr˚aken separeras dessa med en speciell avskiljare. Denna data m˚aste därför konverteras till hanterlig indata för GIZA++, d˚a GIZA++ kräver likadan indata som Hunalign med undantaget att meningarna nu ska vara

l¨ankade.

GIZA++ använder sig av ett eget dataformat SNT, som kan konverteras till med verktyget Plain2snt som tillhör GIZA++. Plain2snt delar upp texterna i tre filer. Tv˚a filer är en typ av ordbok för varje text, där varje ord har givits ett identifikationsnummer. Den tredje filen inneh˚aller de parade meningarna med orden utbytta till sina respektive

identifikationsnummer. Dessa tre filer används sedan vid anrop till GIZA++ och med rätt inställningar produceras en fil med vad GIZA++ rankar som det bästa länkningsalternativet. Denna fil best˚ar av meningar fr˚an källspr˚aket i dess vanliga form och orden fr˚an översättningen har blivit givna en eller flera siffror för vilket/vilka ord i källan som det är länkat till.

Anrop till verktygen kan ske med Java genom att använda de inbyggda processfunktionerna. Sentence-splitter kan b˚ade ta emot och ge sin utdata direkt, som g˚ar att läsa in rad för rad genom Java. Detta är p˚a grund av att det endast kräver en typ av indata och ger en typ av utdata, utan n˚agra extra tecken. För b˚ade Hunalign och GIZA++ krävs dock att filer skapas p˚a h˚arddisken b˚ade för indata och utdata. Utdatan kan lätt läsas in och filerna som skapats kan sedan tas bort.

Det finns nu tillräckliga metoder för att g˚a ifr˚an tv˚a parallella texter till ordlänkad utdata ifr˚an GIZA++ helt automatiskt. Detta är först˚as inte vad som skulle ˚astadkommas. Vad som behövs härifr˚an är ett sätt att hantera denna data, i alla dess former för att kunna ge möjlighet att redigera den i ett gränssnitt. Datan och datatyperna som kommer behöva hanteras är:

1. De fulla texterna i originalformat 2. Texterna uppdelade i meningar 3. Meningarnas länkningsdata 4. Meningarna uppdelade i ord 5. Länkningsdata för varje ord

De tre första punkterna kan hanteras med tv˚a listor, en för varje spr˚ak. I dessa listor är varje objekt en mening som inneh˚aller meningen, ett

(17)

identifikationsnummer och den länkade meningens identifikationsnummer. Det g˚ar även att använda denna lista till att h˚alla texterna innan de delats upp i meningar och l˚ata andra delar av programmet h˚alla reda p˚a vilken form datan har.

De tv˚a sista punkterna ˚astadkoms lättast genom att dela upp varje meningsobjekt i delar, eftersom meningarna vid detta läge är länkade och inte bör ändras. För detta skapas, precis som för meningar, en lista där varje objekt inneh˚aller ett ord, dess identifikationsnummer samt länkning. Man kan här, till fördel, använda GIZA++ uppdelade format med

ordlistor och meningar i sifferformat. Orden i denna del representeras med andra ord enbart i siffror och orden sparas istället i ordlistor som används när orden behöver skrivas ut.

Denna datastruktur visualiseras i figur 5. H¨ar ¨ar Alignment en klass som ¨

ar tänkt att inneh˚alla all information som behövs samt funktioner för att hantera den. Alignment inneh˚aller en lista med Sentence-objekt som inneh˚aller all information om meningarna. Klassen Sentence inneh˚aller i sin tur en lista med Word-objekt som h˚aller reda p˚a information om enstaka ord.

Sentence Word

1 1...* 1 1...*

Figur 5: UML f¨or informationshanteringen.

Eftersom datan kan befinna sig i olika lägen behövs en metod för att h˚alla reda p˚a vilket läge datan befinner sig i. Detta är även hopkopplat med gränssnittet som tas upp senare.

Detta löstes genom en variabel State som kan befinna sig i följande lägen:

Empty

Empty fungerar som start-läge och när inga texter har lästs in. Split

Split är läget Alignment befinner sig i direkt efter inläsning av tv˚a texter. Det vill säga när texterna ska segmenteras i meningar. Datan här best˚ar enbart av Sentence objekt med enbart hela strängar. Align

När Alignment befinner sig i läget Align ska texten vara segmenterad i meningar. I detta läge ska meningarna länkas till varandra. Datan best˚ar nu av korrekt uppdelade meningsobjekt med korrekt eller okorrekt meningslänkning.

(18)

View

I View är segmentering eller meningslänkning klar. Meningarna och deras länkningar ska nu vara fasta. Det som kan ändras i texterna efter detta ligger endast p˚a meningsniv˚a, det vill säga det p˚averkar enbart enstaka meningar.

Egentligen skulle View kunna delas i tv˚a lägen, men p˚a grund av att skillnaden här ligger p˚a meningsniv˚a behöver inte klassen Alignment h˚alla reda p˚a detta. Detta underlättar ocks˚a det faktum att alla meningar inte behöver vara segmenterade och länkade p˚a ordniv˚a.

4.2 Anv¨andargr¨anssnitt

Användargränssnittet ska till˚ata redigering av texterna i alla lägen. Lägena ¨

ar i första hand meningsuppdelning, meningslänkning och ordlänkning. Det krävs med andra ord tre redigerings-vyer. Gränssnittet behöver ocks˚a stödja att se texterna i sin helhet och visualisera länkningarna. Utöver detta tillkommer en meny som inneh˚aller knappar för alla funktioner, till exempel att spara och öppna.

4.2.1 Uppl¨agg

Eftersom vissa funktioner ska finnas tillg¨angliga hela tiden och vyerna enbart ska visas en i taget kan gr¨anssnittet delas i tv˚a delar. En meny i ¨

ovre delen som inneh˚aller funktioner för att till exempel läsa in filer, spara och öppna. Den undre delen blir en vy där texterna visas men som byts ut d˚a datan byter läge, i enlighet med Alignments tillst˚and.

Först krävs en meny som med fördel läggs överst i fönstret, och under detta ett fält som inneh˚aller olika vyer. Dessa delar kan sedan hanteras med tv˚a olika klasser separat, en klass MenuHandler kan hantera menyn och en annan klass ViewHandler kan hantera vyerna.

Dessa klasser kräver b˚ada det aktiva Alignment-objektet som argument, dels för att kunna hantera dess information och dels för att kunna bli informerade när denna ändras. För att ˚astadkomma det senare kan ett designmönster som kallas för Observer användas. Med denna metod utses vissa klasser till lyssnare p˚a det aktiva Alingment-objektet. När

Alignment-objektet ändras kan det tala om det för alla objekt som lyssnar p˚a den att en ändring har skett. P˚a s˚a vis kan en del av programmet modifiera Alignment-objektet och resterande delar uppfattar detta. Detta kan till exempel användas för att byta vy d˚a Alignment-objektet byter läge. Alignment-objektet meddelar sina prenumeranter att en ändring har

(19)

skett. ViewHandler kommer d˚a att kolla om det ¨ar l¨aget som har bytts och ¨

andra vy om s˚a ¨ar fallet. 4.2.2 Menyfunktioner

Menyn bör inneh˚alla alla funktioner som inte är vy-specifika. De självklara funktionerna är; Nytt projekt, spara, spara som, öppna, och avsluta. Utöver dessa tillkommer även funktioner för att exportera till ett vissa format, editera grammatiska tokens och att till˚ata användaren att g˚a tillbaka till tidigare lägen i projektet. Funktionerna för att spara och ¨

oppna förklaras mer utförligt i nästa kapitel.

För att skapa ett nytt projekt m˚aste användaren specificera vilka tv˚a textfiler som ska läsas in och vilken text som är källtexten respektive ¨

oversättningen. För att ˚astadkomma detta behövs en dialog som inneh˚aller tv˚a textfält, en för respektive fil. Filformatet som stöds behöver än s˚a länge inte vara mer än ”.txt”, d˚a konverterare till och fr˚an andra format kan läggas till vid ett senare tillfälle. Här bör även funktioner för att bläddra grafiskt i mappar finnas tillgängligt. Knappar för att öppna b˚ada filerna och för att avbryta dialogen läggs ocks˚a till. När filerna är valda anropas en funktion i Alignment som läser in filerna som om de vore meningar och sätter läget till Split. Detta kan även användas till att uppdatera vyer när Alignment-objektet ändras. Dialogen för att skapa nytt projekt kan ses i figur 6.

Figur 6: Dialog f¨or att skapa nytt projekt.

För att TEM-ramar senare ska kunna räknas ut m˚aste även en funktion för att specificera vilka ord som är grammatiska implementeras. Eftersom ordlistor fr˚an GIZA++ redan används s˚a behövs varje lista enbart

utvidgas med en extra variabel. D˚a det inte finns n˚agra verktyg som skulle kunna hjälpa till med detta krävs en metod för att ge användaren

möjlighet att ange vilka ord som är grammatiska. Detta kan ˚astadkommas enkelt genom att visa alla ord i en lista där användaren kan markera vilka ord som är grammatiska(se figur 7). För att ge användaren ˚atkomst till dialogen läggs knappar till för dessa funktioner till i menyn.

(20)

Figur 7: Dialog f¨or att ange grammatiska ord. 4.2.3 Spara- och ¨oppna-funktioner

För att implementera spara- och öppna-funktioner krävs ett sätt att spara all data externt ifr˚an programmet. Detta ˚astadkoms givetvist lättast genom att skriva data till filer p˚a h˚arddisken. För att ˚astadkomma detta bör funktioner i klassen Alignment läggas till och innan dessa funktioner anropas m˚aste även Alignment uppdateras med rätt data. I Split- och Align-läget är informationen i användargränssnittet inte alltid den samma som i Alignment eftersom den laddas innan den kan redigeras, den är allts˚a inte synkroniserad. Det krävs allts˚a att informationen i gränssnittet först sparas till Alignment.

Knappar för att spara och öppna är tänkta att anropa funktionerna i Alignment. För att visa för användaren att en Alignment är sparad och inte ändrad bör knappen för att spara avaktiveras. När n˚agot redigeras aktiveras knappen igen. För att ˚astadkomma detta läggs en variabel Edited till i Alignment.

För att kunna spara och sedan öppna ett projekt krävs att all information sparas. Detta inkluderar vilket läge projektet är i samt all information som krävs för att kunna läsa in datan korrekt igen, bland annat antalet

meningar och storleken p˚a ordböcker. P˚a grund av att klassen Alignment inneh˚aller olika typer av information i de olika lägena m˚aste informationen sparas och laddas olika beroende p˚a läget. I Split- och Align-läget m˚aste ocks˚a informationen som är aktiv i gränssnittet först sparas.

Gemensamt för alla sparade filer blir endast att läget först sparas, detta kan representeras med ett heltal. Filen börjar allts˚a med ett heltal i som säger vilket format datan har och vilket läge användargränssnittet befinner sig i. För att hantera de olika lägena behövs sedan funktioner för att skriva

(21)

datan i r¨att format.

I Split-läget sparas endast texten i det format det för tillfället befinner sig i. För att ˚astadkomma detta skrivs först information om hur m˚anga meningar som sparats av b˚ada spr˚aken, sedan följer alla meningar i ordning.

I Align-läget sparas, precis som i Split-läget, alla meningar. Det som m˚aste tillkomma är meningslänkningen. Denna kan läggas till efter meningen p˚a samma rad, separerat med en avskiljare.

I View-läget finns det tv˚a scenarier. Om ordlänkning/segmentering inte existerar ska informationen sparas precis som i Align-läget, dock med ett annat heltal för läget eftersom programmet bör ˚atervända till rätt vy vid inläsning. Innan meningarna skrivs bör information om hur m˚anga meningar som finns i varje spr˚ak och hur m˚anga ord det finns i varje ordbok skrivas ut.

Om segmentering och ordlänkning existerar m˚aste även dessa sparas. Eftersom det tillkommer en hel del information jämfört med föreg˚aende läge kan det underlätta att dela upp varje mening p˚a fler rader. För att spara ordlänkningen kan varje Sentence-objekt ifr˚an källtexten delas upp p˚a tre rader. Första raden blir d˚a som i Align-läget, meningen i textform och meningslänkning med avskiljare. Andra raden best˚ar av meningen uppdelad i ord b˚ade med ordens ID i ordboken och ordets position i meningen, med en avskiljare mellan varje ord. P˚a tredje raden skrivs ordens länkningsdata. Sentence-objekten i översättningen skrivs i samma stil som ifr˚an källtexten, men utan sista raden för ordlänkningen. Efter att alla Sentence-objekt har skrivits ut skrivs även ordböcker ner med dess ID, ord och om dessa är grammatiska tokens eller inte.

När en sparad fil senare ska läsas in, läses först heltalet in som bestämmer läget, sedan anropas olika funktioner beroende p˚a detta tal. Funktionerna läser in datan precis som den skrevs ut, med hjälp av bland annat

information om hur m˚anga meningar som skrivits. Sist av allt s¨atts l¨aget som programmet ska befinna sig i.

4.2.4 Vy f¨or meningsuppdelning

En ny vy ’SentenceSplitView’ skapas för läget Split, som ska hantera meningsuppdelningen. För att kunna dela upp meningarna i rätt format krävs att användaren kan redigera texten som just en text. Här g˚ar det att använda ett vanligt textfält för ren text som till˚ater redigering. Eftersom det är tv˚a texter skapas tv˚a fält bredvid varandra, en för varje spr˚ak, som inneh˚aller texterna. Nu kan allts˚a programmet läsa in tv˚a texter och

(22)

texterna visas bredvid varandra, källtext till vänster och översättning till höger.

Innan eller efter texterna läses in är det tänkt att de ska automatiskt delas upp med hjälp av Sentence-splitter skriptet. Eftersom Sentence-splitter kräver att f˚a veta vilket spr˚ak texterna är i m˚aste dessa specificeras vid inläsning av filerna, om det ska ske direkt vid inläsning. Denna funktion behöver dock inte alltid användas och det är därför bättre att ge

valmöjligheten att använda den. Med detta i ˚atanke bör funktionen läggas som alternativ efter inläsningen. Detta kan ˚astadkommas i form av en spr˚akvals-box och en Automatic-knapp under varje textfält. En

continue-knapp läggs till längst ner i vyn, s˚a att användaren kan verifiera att uppdelningen är klar.

Denna vy n˚as direkt när ett nytt projekt skapas. Resultatet är en vy där texterna syns parallellt i varsin editerbar textruta. Användaren blir här instruerad att dela upp texterna i meningar, en mening p˚a varje rad. Under varje textruta finns en box för val av spr˚ak och en knapp Automatic. Väljer användaren spr˚ak och trycker p˚a knappen Automatic försöker programmet automatiskt dela upp texterna. När användaren är klar med uppdelningen trycker denne p˚a Continue-knappen och kommer till en ny vy.

(23)

4.2.5 Vy f¨or meningsl¨ankning

Precis som för föreg˚aende läge m˚aste en vy skapas för läget Align. I detta läge är alla meningar fasta objekt, det vill säga texten i meningarna ska vara fast. Meningarna kan därför i detta läge hanteras som hela objekt utan n˚agon textredigering, det enda som behöver kunna redigeras är själva meningslänkningen. Hur detta kan ˚astadkommas finns det inga bra

exempel p˚a, men p˚a grund av att meningar kan hanteras som objekt kan man tänka sig att man kan p˚a n˚agot sätt dra i meningarna och p˚a s˚a sätt länka dem till varandra. Viktigt här är att visualiseringen av länkningen stämmer överrens med utdata fr˚an Hunalign.

Utdata fr˚an Hunalign ¨ar tv˚a eller flera meningar p˚a en rad, d¨ar en mening ¨

ar länkad till en eller flera meningar i motsvarande spr˚ak. Programmet m˚aste med andra ord kunna visualisera att meningar är olänkade, länkade en mot en eller en mot flera. Med detta i ˚atanke, samt idén att dra och släppa menings-objekt, kan man tänka sig att man har l˚ador som

meningarna kan befinna sig i. Användaren drar och släpper meningarna i l˚adorna för att länka dem. För att h˚alla isär spr˚aken skapas en typ av l˚adpar där meningar som är länkade ligger i respektive l˚ada för varje spr˚ak. Dessa l˚ador kan d˚a inneh˚alla noll, en eller flera meningar.

För att hantera detta krävs en klass som inneh˚aller tv˚a l˚ador i form av ListBoxes. Dessa Listboxes inneh˚aller Sentence-objekt och presenteras grafiskt i listan som en mening. För att göra det mer lättförst˚aeligt för användaren läggs l˚adorna p˚a varsin sida, precis som i föreg˚aende läge. Meningarna kan nu dras mellan l˚adorna i respektive spr˚ak, det vill säga endast upp eller ner och inte ˚at sidan. Precis som i föreg˚aende läge läggs en continue-knapp till längst ner i vyn, s˚a att användaren kan verifiera att länkningen är klar.

Resultatet blir en vy där användaren instrueras att länka meningarna till varandra. Detta gör användaren genom att dra meningarna mellan l˚ador som ligger parallellt i par. Längst ner finns även här en Automatic-knapp som vid användning försöker länka meningarna automatiskt. Skulle användaren behöva ändra i en mening trycker denne p˚a knappen Edit sentences under Edit-menyn eller p˚a Back-knappen längst ner och kommer d˚a tillbaka till föreg˚aende vy. När användaren är klar och accepterar meningslänkningen trycker denne p˚a Continue-knappen och kommer till en ny vy.

(24)

Figur 9: Vy för redigering av meningslänkning. Här har användaren precis dragit en mening till översta l˚adan.

4.2.6 Vy f¨or visualisering ˚

Aterigen krävs en vy för läget View. Denna vy ska kunna ge en överblick ¨

over alla meningar och vilka meningar som ¨ar l¨ankade till vilka. Den ska ¨

aven visa ordlänkning och ge möjlighet att redigera ordlänkning. Meningarna är här statiska som i föreg˚aende vy och dessutom länkade. Meningarna behöver med andra ord bara kunna visas utan att kunna redigeras eller ändras i första hand men användaren ska efter segmentering kunna redigera ordlänkningen för ett specifikt menings-par. För att kunna hantera att meningar är b˚ade segmenterade och enbart meningslänkade krävs även flera sätt att representera meningarna.

Först och främst m˚aste meningarna kunna visas och meningslänkningen bör vara synlig. När meningarna ännu inte är segmenterade kan de visas som ren text. För att tydliggöra vilka meningar som är vilka läggs meningarna bredvid varandra som i föreg˚aende vyer, men till att börja med endast i ren text.

När meningarna är segmenterade och ordlänkade kommer användaren behöva kunna titta närmare p˚a ett specifikt meningspar, bland annat för att kunna redigera ordlänkningen. För att ge möjlighet till detta läggs möjligheten att klicka p˚a ett meningspar för att sätta det i fokus. Huruvida ett meningspar sätts i fokus finns det lite alternativ p˚a. Tv˚a

(25)

rimliga alternativ är att skapa ett nytt fönster separerat fr˚an resten av texten, eller ändra saker som bakgrundsfärg och uppsättning p˚a texten för att p˚a s˚a sätt lyfta fram den. Eftersom m˚alen med att sätta gruppen i fokus är relativt begränsade duger det att att lyfta fram gruppen i vyn. Detta kan ˚astadkommas genom att byta bakgrundsfärgen till en ljusare färg och även lägga meningarna ovanp˚a varandra, istället för bredvid varandra. Under meningarna kan d˚a diverse alternativ, s˚a som knappar för redigering och annan visualisering, läggas till.

För att hantera meningsparen och alla dess representationer behövs ny en klass SentenceViewController(SVC). Eftersom varje SVC kommer hantera ett meningspar och tillhandah˚alla en representation för denna s˚a passar det att SVC utökar klassen som vyn hanterar, i detta fall klassen HBox. SentenceView är här tänkt att inneh˚alla en lista med SVC, som alla hanterar sina egna meningar separat.

SVC inneh˚aller tv˚a listor med meningar, en för varje spr˚ak. SVC är tänkt att representera meningarna utefter det läge meningarna är i.

SentenceView h˚aller reda p˚a vilken SVC som är markerad och ska vara i fokus. SVC f˚ar reda p˚a ifall den blir markerad eller av markerad ifr˚an SentenceView och representerar sitt meningspar olika utefter det. Om meningsparet är segmenterat s˚a representeras det som segmenterat, är det markerat representeras det som s˚a och vice versa. Det finns allts˚a fyra olika sätt meningspar m˚aste kunna representeras som och detta sköts nu automatiskt.

Resultatet blir den tredje och sista vyn(se figur 10). Texterna syns här bredvid varandra, meningspar för meningspar. Klickar användaren p˚a en mening läggs denna mening och dess motsvarande mening ovanp˚a

varandra. Om ordl¨ankning existerar visas ¨aven den och om ett meningspar ¨

ar i fokus ges även möjlighet att redigera ordlänkning genom en knapp. Användaren kan även här välja att g˚a tillbaka till uppdelnings-vyn eller meningslänknings-vyn genom att använda knapparna i

verktygsf¨altet.

4.2.7 Visualisering av ordl¨ankning

Det finns flera olika sätt att visualisera ordlänkning, som visat i kapitel 2.2. De flesta sätt involverar dock n˚agon typ av grafisk representation där mer än bara texten visas. Dessa tekniker är oftast bra för att ge en helhet av länkningen, men för att kunna visualisera ordlänkningen i SentenceView behövs ett minimalt sätt utan grafiska komponenter. Ett simpelt och dugligt sätt för att ˚astadkomma detta är att byta färg p˚a ett ord och dessa länkade motsvarigheter när man för musen över dem, p˚a det viset det görs

(26)

Figur 10: Huvudvyn med ett markerat meningspar utan ordl¨ankning. i Yawat.

För att implementera detta skapas en Label för varje ord i varje mening och p˚a varje label läggs sedan en lyssnare som känner av när muspekaren dras över den. När händelsen som lyssnaren utlöser väl sker byts först färg p˚a den Label som musen är över. Sedan m˚aste ordets länkade

motsvarigheter tas fram i motsvarande mening och alla Labels för dessa ord m˚aste även de byta färg. För att ge en bättre bild av länkningen bör ¨

aven alla de länkade ordens länkningar g˚as igenom. Därför m˚aste detta ske i en kedja, tills alla ord som ska ändras har ändrats. När musen senare tas bort fr˚an ett ord behöver detta inte ske omvänt, istället nollställs hela meningen till ursprungsfärgen.

För att automatiskt segmentera meningarna i ord och länka p˚a ordniv˚a trycker användaren p˚a Add word alignment under Edit-menyn. Vyn ser fr˚an början likadan ut, men h˚aller användaren över ett ord kommer ordet och ordets länkade ord i motsvarande mening att byta färg till röd. Trycker användaren p˚a en mening nu kommer meningarna fortfarande läggs ovanp˚a varandra men nu visas även en knapp och ett antal TEM-ramar(se figur 11).

(27)

Figur 11: Markerat meningspar med ordsegmentering och visualisering av ordl¨ankning.

4.2.8 Redigering av ordl¨ankning

Redigeringen av ordlänkningen bör ske separat fr˚an resten av texten för att denna kräver extra plats, i detta fall är det en bra idé med ett nytt fönster. Redigeringen kan ske för hela texten eller för en mening i taget vid behov.

¨

Aven om möjligheten att redigera en hel mening ˚at g˚angen existerar, kan det vara bra att ha möjligheten att snabbt ändra ett specifikt ord. En knapp läggs därför till under meningar som är i fokus, och denna knapp ¨

oppnar ett nytt fönster för redigering av ordlänkning.

Det finns flera sätt att redigera ordlänkning, som tas upp i kapitel 2, men simplast att implementera är att använda tekniken bakom visualiseringen. I och med att ordlänkningen endast finns i källtexten s˚a kan man tänka sig att man för varje ord i källtexten väljer vilka ord i översättningen som detta ord är länkat till. Detta kan ˚astadkommas mycket enkelt genom att ge möjligheten att klicka p˚a det ord man vill redigera och sedan klicka p˚a de ord som ordet ska länkas till. När redigeringsfönstret öppnas ges möjligheten att klicka p˚a ett valfritt ord i källmeningen, när ett ord väljs s˚a markeras de ord i översättningsmeningen som redan är länkade. Användaren ska nu kunna markera och avmarkera de ord i

¨

overs¨attningsmeningen som ordet ska l¨ankas till och sedan spara dessa ¨

andringar.

Detta kan enkelt implementeras genom att använda liknande tekniker som vid visualiseringen. Det g˚ar att använda sig av samma algoritm som när färg p˚a ord byts, och lägga till funktioner för att trycka p˚a ordet. Efter läggs funktioner till som hanterar när ett ord kan klickas p˚a och vad som ska ske vid olika tillfällen.

För att göra detta mer först˚aeligt kan sm˚a ändringar i presentationen läggas till. Innan användaren trycker p˚a ett ord i källmeningen kan alla ord i översättningen vara ljusgr˚a för att visa att dessa inte g˚ar att trycka p˚a. När användaren väl trycker p˚a ett ord kan alla andra ord i källmeningen bli gr˚a, översättningen blir nu svart och alla länkade ord blir markerade med en grön bakgrund.

(28)

fokus, knappen öppnar ett nytt fönster. I detta fönster syns meningarna ovanp˚a varandra och fr˚an början är översättningen i en ljusgr˚a färg. Användaren väljer här ett ord ur källmeningen att redigera(se figur 12).

Figur 12: B¨orjan p˚a editering av ordl¨ankning.

När ett ord är valt markeras det med grön bakgrundsfärg och resten av källmeningen blir ljusgr˚a. Översättningen blir nu i svart färg och alla ord som är länkade f˚ar en grön bakgrundsfärg. Användaren avmarkerar eller markerar nu ord genom att klicka p˚a dem och sparar länkningen genom att trycka p˚a Save(se figur 13).

Figur 13: Val av ord att redigera är valt och ett nytt ord att länka till är valt.

5 Diskussion och Resultat

5.1 Resultat

Programmet som har skapats ger möjlighet att skapa ett projekt med hjälp av tv˚a parallella texter. Vid skapande av ett projekt instrueras användaren att dela upp texterna i meningar och till hjälp finns en knapp som försöker göra detta automatiskt. När texterna är uppdelade instrueras användaren ˚aterigen, denna g˚ang för att länka meningarna emot varandra. Även här

finns det en knapp som försöker ˚astadkomma detta automatiskt. När meningslänkning är klar visas texterna och meningslänkningen i en ny vy.

(29)

Nu finns möjligheten för användaren att lägga till ordsegmentering och ordlänkning för texterna. Om användaren väljer detta kommer vyn se likadan ut, men möjligheten att visualisera ordlänkningen har lagts till. Om användaren klickar p˚a ett meningspar hamnar dessa i fokus och möjlighet att redigera ordlänkning finns, samt att ett par TEM-ramar visas. Programmet till˚ater även att spara ett projekt för att vid ett senare tillfälle öppna det igen.

I kapitel 1.3 presenterades en lista p˚a krav som programmet skulle stödja. De flesta av dessa punkter är uppfyllda p˚a ett eller annat sätt. Punkt för punkt s˚a ser det ut som följande:

• En källtext ska kunna läggas in i systemet • En översättning ska kunna läggas in i systemet

De tv˚a första punkterna har implementerats genom att användaren kan skapa ett nytt projekt där användaren m˚aste välja en källtext och ¨

overs¨attning.

• Automatisk strukturering av texterna i stycken eller meningar med editeringsm¨ojligheter

När ett nytt projekt har skapats m˚aste texterna struktureras upp i meningar innan de kan meningslänkas. Användaren kan välja att göra detta manuellt genom att redigera texterna eller automatiskt genom skriptet Sentence-splitter fr˚an Europarl. För tillfället stöds automatisk uppdelning för upp till 20 spr˚ak.

• Automatisk l¨ankning av meningar med editeringsm¨ojligheter

När texterna delats upp i meningar s˚a kräver programmet att användaren länkar meningarna. Här har användaren möjligheten att automatiskt länka meningarna genom programmet Hunalign. Användaren kan även redigera länkningen manuellt genom att dra och släppa meningar i l˚ador.

• Automatisk tokenisering av texterna med editeringsmöjligheter Programmet stödjer automatisk tokenisering d˚a detta sker vid anrop till GIZA++. Det finns däremot inga möjligheter att editera denna

tokenisering.

• Taggning av ord

Taggning av ord är implementerat enbart p˚a en ytterst enkel niv˚a för att kunna räkna ut vissa delar av TEM. Detta stöds genom att användaren manuellt kan märka ord som grammatiska eller inte.

(30)

När meningar är länkade s˚a finns möjligheten att lägga till ordlänkning i texterna. Detta sker genom anrop till GIZA++ med funktionen Add word alignment i menyn. Användaren har även möjlighet att redigera

ordlänkningen i sista vyn. Denna redigering sker i ett nytt fönster där användaren väljer ett specifikt ord som denne vill redigera.

• Visualisering av ordl¨ankning och meningsl¨ankning

Visualisering av meningslänkning sker i sista vyn genom att meningarna ligger bredvid varandra horisontellt samt att ett meningspar kan sättas i fokus. Visualisering av ordlänkning sker dynamiskt genom att användaren för musen över ett ord.

• Visning av TEM m˚att

I sista vyn finns möjligheten att titta närmre p˚a ett meningspar genom att klicka p˚a det. När användaren klickar p˚a ett par hamnar dessa i fokus och möjlighet att redigera ordlänkning visas. Här visas även ett antal

TEM-ramar. M˚atten som visas ¨ar BCF, OCF och BFF.

Programmet är skrivet i Java och fungerar p˚a alla operativsystem med tillg˚ang till en Java Virtual Machine för Java version 8 och upp˚at. Tyvärr stöds inte alla funktioner i programmet p˚a alla operativsystem d˚a alla verktyg inte är plattformsoberoende. De funktioner som inte alltid stöds är automatisk meningsuppdelning och meningslänkning samt att lägga till ordsegmentering.

5.2 Diskussion

5.2.1 Metod

Utveckling av programmet har inte varit utan dess motg˚angar. Den ¨

oversiktliga planen har följts och fungerat bra. Den kunde dock ha gjorts mer detaljerad, framför allt med avseende p˚a det grafiska gränssnittet. Det som kunde gjorts annorlunda var att söka ˚aterkoppling p˚a bland annat upplägget av gränssnittet. Detta skulle b˚ade underlätta och spara tid d˚a bristerna kunde ha upptäckts innan dom implementerades.

I ¨ovrigt har systemutvecklingsmetodiken fungerat bra. Testning och implementation har kunnat ske parallellt utan att skapa problem. Detta beror p˚a att de flesta delarna av programmet har implementerats en efter en och att dom dessutom inte har n˚agon st¨orre inverkning p˚a

varandra.

En mer utförlig utvärdering av länkningssystem skulle vara att föredra. Framförallt behövs en värdering av hur bra systemen är med eller utan

(31)

spr˚akspecifika resurser, samt hur mycket dessa p˚averkar. 5.2.2 Resultat

Det finns användarvänliga brister i programmet. Framförallt visas eller förklaras egentligen inte att ett projekt existerar i olika lägen. Det behövs b˚ade ett sätt som visualiserar detta i användargränssnittet och n˚agon typ av guide som kan förklara detta vid skapande av ett nytt projekt.

Möjligtvis skulle dessa vyer kunna separeras till en typ av genomg˚ang i olika steg, men detta skulle i s˚a fall göra funktionerna för att spara och ¨

oppna lite problematiska. Det kunde ocks˚a l¨aggas till n˚agon typ av indikation att varje vy ¨ar ett steg i projektets g˚ang.

Visualiseringen av ordlänkning är ett bra och smidigt sätt att se länkningen utan att strukturen av meningarna p˚a n˚agot sätt störs. Det l˚ater användaren se och läsa texten utan vidare att vara störande. Denna typ av visualisering ger dock ingen översiktlig bild av länkningen, utan det kan behövas flera sätt att visualisera ordlänkningen. Eftersom möjligheten att sätta en mening i fokus finns skulle det kunna läggas till flera

alternativ här, framförallt de vanligaste visualiserings-tekniker som tas upp i kapitel tv˚a. Denna visualisering bör dock ske i ett separat fönster eller i en annan del av vyn.

Redigering av ordlänkning är för närvarande anpassad för att redigera ett ord i taget. Detta är en användbar funktion om användaren vill just det, att redigera endast ett ord. Det är dock b˚ade sv˚art att se felaktiga

länkningar i redigeraren p˚a grund av att endast den simpla visualiseringen visas här. Det skulle vara användbart med en mer grafisk visualisering ¨

aven här, möjligtvis genom att dra streck eller använda matris-metoden. Att b˚ade visualisera och till˚ata redigering med matriser kan vara mycket effektivt. Detta har tyvärr en stor nackdel; stora meningar skapar mycket stora rutnät. När rutnäten blir för stora s˚a blir det istället mycket sv˚art att se vilka ord som är länkade och de är dessutom mycket sv˚ara att f˚a plats med p˚a en datorskärm utan att rutorna blir för sm˚a. Även I*Links redigeringsmetod, där användaren f˚ar g˚a igenom hela meningar och verifiera länkningen, är ett bra alternativ som effektivt g˚ar igenom en hel mening.

Redigering av meningslänkning ˚astadkommer det den behöver, vilket är att kunna matcha meningar mot deras motparter. Meningslänkningen p˚averkar dock mer än bara länkningen mellan meningar. Den bestämmer bland annat strukturen p˚a meningarna vilket kan bli ett problem med den nuvarande redigeraren. Att ändra strukturen i en text kan bli ett problem bland annat d˚a en användaren behöver flytta ett meningspar eller separera

(32)

tv˚a meningar. Detta skulle kunna lösas genom att l˚ata användaren lägga in tomma l˚ador där detta önskas, istället för att det automatiskt läggs till längst ner. Det skulle även vara användbart med funktioner för att byta plats p˚a tv˚a meningar fr˚an samma spr˚ak. Dessa funktioner skulle

möjligtvis kunna implementeras som knappar för en markerad mening. P˚a samma ställe skulle även knappar för att flytta meningen upp eller ner ¨

aven kunna läggas till, som ett alternativ till att dra och släppa. Verktygen och ordsegmenteringen är i denna implementation externa. Problemet med detta är att vissa inte fungerar p˚a alla operativsystem, som resten av programmet. Det finns även en risk med externa anrop att problem skulle uppst˚a som inte g˚ar att hantera fr˚an programmet. Det skulle vara till fördel med ett helt integrerat system, helst helt skrivet i Java. Detta skulle underlätta m˚anga delar av systemet och en större del av informationen fr˚an dessa verktyg skulle kunna tas tillvara p˚a.

5.3 M¨ojlig utvidgning av systemet

En teknik som tyvärr inte används i systemet är att GIZA++ kan ge ett flertal länkningsalternativ. Istället till˚ats GIZA++ själv välja det

alternativ som det själv rankar som bäst. Det skulle kunna g˚a att l˚ata användaren istället välja mellan ett par av dessa länkningsalternativ. Detta skulle även kunna kombineras med I*Links redigeringsmetod om man l˚ater användaren först välja mellan ett par alternativ och sedan verifiera eller modifiera varje ord i meningen.

Automatisk ordklasstaggning vore en möjlig utvidgning av programmet. Detta skulle förse användaren med mer information om texterna och samtidigt underlätta framtagning av TEM-ramar, d˚a n˚agra av ramarna kräver detta.

Att separera länkningssystem och användargränssnitt genom en server-och klient-del är ocks˚a en möjlighet. Detta skulle kunna realiseras med en central serverdel som inneh˚aller länkningssystem och där klienten skickar texterna för bearbetning genom en klient. Klienten skulle inte behöva inneh˚alla n˚agra externa verktyg utan skulle enbart användas för att visualisera eller redigering texten. Med en klient skulle till exempel en lärare kunna skapa en uppgift, som eleverna sen kommer ˚at och kan länka sin text emot. Detta skulle ge möjlighet för ett mer sofistikerat system för länkning som kan utnyttja data fr˚an flera översättningar. I ett s˚adant system skulle b˚ade statistik och möjligtvis även maskininlärning vara möjligt.

(33)

6 Slutsats

Syftet med detta arbete var att skapa ett program som utnyttjar

existerande verktyg för att länka tv˚a parallella texter. Programmet skulle kunna länka automatiskt, samt kunna visualisera och ge användaren möjlighet att redigera denna länkning. Det skulle även kunna betygsätta en översättning med hjälp av TEM.

Programmet som skapats till˚ater en användare att länka tv˚a parallella texter med varandra och använder sig av tv˚a system för automatisk länkning, ett p˚a meningsniv˚a och ett p˚a ordniv˚a. Det till˚ater redigering och visualisering av denna länkning p˚a b˚ade menings- och ord-niv˚a. Det är ¨

aven anpassat till att kunna r¨akna ut och visa vissa ramar inom TEM.

Programmet kan användas av n˚agon utan djupare kunskaper om länkning och länkningssystem. Hur användarvänligt och användbart programmet är i sitt nuvarande format är diskuterbart. M˚alet att programmet skulle kunna användas i spr˚akutbildningar har med stor sannolikhet inte n˚atts. För att programmet ska ˚astadkomma detta krävs ett par utvidgningar har programmet och möjligtvis en mer komplett lösning där samtliga externa system istället är helt integrerade.

(34)

Referenser

[1] Ljuba Tarvi (2006). Comparative Translation Assessment: Quantifying Quality.

[2] Lars Ahrenberg, Ljuba Tarvi (2013). Natural Language Processing for the Translation Class. In proc. Of the second workshop on NLP for computer-assisted language learning , Oslo, Norway.

[3] http://anymalign.limsi.fr/ (h¨amtad 2015-01-12)

[4] Adrien Lardilleux, Yves Lepage. (2009) Sampling-based multilingual alignment. International Conference on Recent Advances in Natural Language Processing (RANLP 2009), Borovets, Bulgaria, September 2009.

[5] Franz Josef Och, Hermann Ney.(2003) A Systematic Comparison of Various Statistical Alignment Models, Computational Linguistics, volume 29, number 1, pp. 19-51 March 2003.

[6] Dániel Varga, László Németh, Péter Halácsy, András Kornai, Viktor Trón, Viktor Nagy (2005).Parallel corpora for medium density languages In Proceedings of the RANLP 2005, pages 590-596 [7] I. Dan Melamed (1996). A Geometric Approach to Mapping Bitext

Correspondence, IRCS Technical Report 96-22, a revised version of the paper presented at the First Conference on Empirical Methods in Natural Language Processing (EMNLP’96), Philadelphia, PA, May. [8] http://nlp.cs.nyu.edu/GMA/ (h¨amtad 2015-01-12)

[9] Noah A. Smith, Michael E. Jahr. (2000). Cairo:An alignment

visualization tool. In Second In-ternational Conference on Linguistic Resourcesand Evaluation

[10] http://www.ida.liu.se/labs/nlplab/ILink/readme.htm (h¨amtad 2015-01-12)

[11] Ulrich Germann (2008) Yawat: Yet Another Word Alignment Tool. Proceedings of the ACL-08: HLT Demo Session (Companion Volume), pages 20–23

[12] Shari Lawrence Pfleeger, Joanne M. Atlee (2009) Software Engineering - Theory and Practice, 4th edition, Pearson Education International. [13] Philipp Koehn (2005) Europarl: A Parallel Corpus for Statistical

(35)

Utveckling av ett verktyg för länkning och bedömning av översättningar

Institutionen för datavetenskap

Department of Computer and Information Science

Examensarbete

Utveckling av ett verktyg för länkning och

bedömning av översättningar

av

Joel Eriksson

LIU­IDA/LITH­EX­G­­15/006­­SE

2015­03­27

Examensarbete

Utveckling av ett verktyg för länkning och

bedömning av översättningar

av

Joel Eriksson

LIU-IDA/LITH-EX-G--15/006--SE

2015-03-27

Handledare: Lars Ahrenberg

Examinator: Lars Ahrenberg

Inneh˚

all

1

Inledning

2

Bakgrund

3

Metod

4

Design och Implementation

5

Diskussion och Resultat

6

Slutsats

Referenser

På svenska

Detta dokument hålls tillgängligt på Internet – eller dess framtida ersättare –

under en längre tid från publiceringsdatum under förutsättning att inga

extra-ordinära omständigheter uppstår.

Tillgång till dokumentet innebär tillstånd för var och en att läsa, ladda ner,

skriva ut enstaka kopior för enskilt bruk och att använda det oförändrat för

ickekommersiell forskning och för undervisning. Överföring av upphovsrätten

vid en senare tidpunkt kan inte upphäva detta tillstånd. All annan användning av

dokumentet kräver upphovsmannens medgivande. För att garantera äktheten,

säkerheten och tillgängligheten finns det lösningar av teknisk och administrativ

art.

Upphovsmannens ideella rätt innefattar rätt att bli nämnd som upphovsman i

den omfattning som god sed kräver vid användning av dokumentet på ovan

beskrivna sätt samt skydd mot att dokumentet ändras eller presenteras i sådan

form eller i sådant sammanhang som är kränkande för upphovsmannens litterära

eller konstnärliga anseende eller egenart.

För ytterligare information om Linköping University Electronic Press se

förlagets hemsida

http://www.ep.liu.se/

In English

The publishers will keep this document online on the Internet - or its possible

replacement - for a considerable time from the date of publication barring

exceptional circumstances.

The online availability of the document implies a permanent permission for

anyone to read, to download, to print out single copies for your own use and to

use it unchanged for any non-commercial research and educational purpose.

Subsequent transfers of copyright cannot revoke this permission. All other uses

of the document are conditional on the consent of the copyright owner. The

publisher has taken technical and administrative measures to assure authenticity,

security and accessibility.

According to intellectual property law the author has the right to be

mentioned when his/her work is accessed as described above and to be protected

against infringement.

For additional information about the Linköping University Electronic Press

and its procedures for publication and for assurance of document integrity,

please refer to its WWW home page:

http://www.ep.liu.se/

LIUIDA/LITHEXG15/006SE

20150327