MÖSG· ht 2005
Maskinöversättningssystemet MATS
Per Weijnitz
perweij@stp.ling.uu.se
1
ITZ·MÖSG·HT2005
Om detta kursmoment
• främja förståelse av
– översättningsproblem – MÖ-arbete
– regelbaserade MÖ-system
• godtyckligt valt system?
PERWEIJNITZ·MÖSG·HT2005
Föreläsningens upplägg
• bakgrund och grundläggande egenskaper
• systemets infrastruktur och moduler
• lexikala resurser
• värdig försämring
• vidareutveckling
• föreläsning 7
• laboration 5: en första bekantskap med MATS-systemet
• demonstration
3
ITZ·MÖSG·HT2005
Bakgrund
• MATS: Methodology and Application of a Translation System
• samarbetsprojekt mellan Institutionen för lingvistik och Scania CV AB
• uppskalning av MULTRA med fokus på
– design och implementation av nya systemet MATS – nytt lexikon i form av en lexikal databas
PERWEIJNITZ·MÖSG·HT2005
Grundläggande egenskaper
• regelbaserat
• prologkärna
• uttömmande analys
• hög översättningskvalitet inom begränsad domän
5
ITZ·MÖSG·HT2005
Systemets infrastruktur
• designprinciper
– genomskinlighet och spårbarhet – modularitet
• varje delsteg sköts av en separat modul
• en pipe utgör transportlager och kopplar ihop modulerna – enkelriktad dataström
– multiplex signal
PERWEIJNITZ·MÖSG·HT2005
Exempel på liten tokeniseringsmodul:
! " ! # $
"
"
Exempel på dataström:
% & ' % & ' % ( ) * % + ( , + - % . / % + ( 0 1 / 2
% + 2 & 3 1 / & ( , + - % . / % + (
% + 2 & 3 1 / & ( , + - % . 0 1 / 2
7
ITZ·MÖSG·HT2005
0. Textextraktion
• indata i XML-format
• text att översätta separeras från taggar etc
• initial uppdelning av text: segment
• varje segment har ett id-nummer
, , , / 1 1
/ % + ( 0 1 / 2 /
, , ,
PERWEIJNITZ·MÖSG·HT2005
1. Teckenomkodning
• koda om segmenten så de blir kompatibla med lexikonet
• latin-1
) ( 1 3 ( → (
• Unicode?
9
ITZ·MÖSG·HT2005
2. Tokenisering
• varje segment delas upp i tokens
• grunduppdelning sker på whitespace Segment Tokens
/ % + ( 0 1 / 2 / % + (
0 1 / 2
• hantering av flerordsenheter (MWU): “till och med”
PERWEIJNITZ·MÖSG·HT2005
3. Lexikonuppslagning
• uppslag av
– flerordsenheter (
( - 3 ) )
– enordsenheter (0 1 / 2 )
– mönstermatchning ( )
• okända ord
11
ITZ·MÖSG·HT2005
3. Lexikonuppslagning
• uppslagna ord får förvald översättning
• morfosyntaktisk information
• lingvistisk resurs: ) % / * + & /
0 1 / 2 förvald översättning: 0 1 / , 3 3 ,
kasus: ) / 1 *
genus: - % ( -
...
PERWEIJNITZ·MÖSG·HT2005
4. Parser
• UCP3
• strävan efter komplett syntaktisk analys
• hantering av meningar utan komplett analys
• preferensmetod: rankning av likvärdiga analyser
• lingvistisk resurs: / & , (
13
ITZ·MÖSG·HT2005
5. Transfer
• input: en analys av segmentet
– representerad av en särdragsstruktur – källspråksspecifika attribut
– förvalda översättningar
• output: en analys av segmentet
– representerad av en särdragsstruktur – målspråksspecifika attribut
PERWEIJNITZ·MÖSG·HT2005
5. Transfer
• källsida och målsida
• transfern traverserar indata-strukturen
• i varje nod kan enskilda särdrag – kopieras över till målsidan – läggas till
– strykas (t ex genus i svenska → engelska) – byta värde (t ex förvalda översättningar)
• lingvistisk resurs: & 3 ( ) , % ( )
15
ITZ·MÖSG·HT2005
6. Generering
• grammatik
• baserad på PATR-II
• unifiering och konkatenering
• finna korrekt representation av strukturen i målspråket
• lingvistisk resurs: & 3 ( ) , % (
PERWEIJNITZ·MÖSG·HT2005
6. Generering, forts
• typning
– ett sätt att kontrollera genereringen
– en struktur med typade särdrag måste behandlas av regler som tar hand om dessa.
• lingvistisk resurs: & 3 , %
17
ITZ·MÖSG·HT2005
8. Kodkomposition
• fullformsdatabasen accepterar inte särdragsstrukturer
• särdragsstrukturer mappas mot motsvarande kodrepresentation
• lingvistisk resurs: ) % / * + & / & 3
PERWEIJNITZ·MÖSG·HT2005
9. Lexikonuppslagning
• primär nyckel: kod + lemma
• returnerar färdigböjt ord
( + , → ( + /
19
ITZ·MÖSG·HT2005
10. Fonotaktisk bearbetning
• det översatta segmentets ytform och underliggande struktur granskas
) & 3 1 3 &
→ ) 3 & 3 1 3 &
PERWEIJNITZ·MÖSG·HT2005
11. Finish
• finputsning av översatta segment – första ordets bokstav versal – ta bort överflödiga mellanslag
• (sammanfoga ursprunglig XML-data med den översatta texten)
21
ITZ·MÖSG·HT2005
7. Fallback - värdig försämring
• regelbaserade system känsliga
• hantering av problem
– okända ord: externa lexikon, ordklassgissare ...
– ofullständig analys: gå vidare med bra delanalyser – ofullständig transfergram.: kopiera okända strukturer – ofullständig genereringsgram.: alternativ strategi
– “boundary friction”: välj ut kombination med högst P
PERWEIJNITZ·MÖSG·HT2005
7. Översättning med partiella analyser
• Vissa meningar mindre känsliga för segmentering:
– [avlägsna skruven][,][kåpan och skyddsplasten]
• Problem när beroenden bryts (boundary friction):
– [boken som är borta][är värdefull]
23
ITZ·MÖSG·HT2005
7. Fallbackgenerering - enklaste varianten
• grammatiken täcker inte alltid hela strukturen
• som sista utväg används källspråkets ordföljd
• ofta bristfälligt för satser
• fungerar för vissa sorters fraser
– “den stora gröna boken är borta” -> “the big green book is gone”
PERWEIJNITZ·MÖSG·HT2005
7. Fallbackgenerering med språkmodell
• ordföljd
• “(jag tänker,) därför finns jag”
– 157k: “therefore I exist”
– 528: “I exist therefore”
– 94: “therefore exist I”
– 57: “I therefore exist”
– ...
25
Z·MÖSG·HT2005
7. Fallbackgenerering med språkmodell
• ordval
• “jag är törstig”
– 72k: “I am thirsty”
– 127: “I are thirsty”
– 102: “I is thirsty”
PERWEIJNITZ·MÖSG·HT2005
Ordval och ordföljd med språkmodell
• Basen för statistisk maskinöversättning
• Översättning av mening S till M:
– för varje ord/fras i S, samla in alla dess översättningsalternativ
– sök efter den kombination av översättningsalternativ som både maximerar översättningssannolikheten för varje ord/fras, och ordföljdssannolikheten för för
sekvensen som bildas.
27
ITZ·MÖSG·HT2005
Systemets lexikala resurser
• specificeras på gränssnittets startsida
• transfer (& 3 ( ) , % ( ) ) och generering (engra.ptr):
– laddas i den specificerade / & % - ,
– mer om dessa på måndag 17/10
• lexikala databasen: Evas föreläsning efter lunch idag
PERWEIJNITZ·MÖSG·HT2005
Kodfilerna
• ) % / * + & / (svenska) och ) % / * + & / & 3 (engelska)
• en kod representerar en lista med attribut och värden:
29
ITZ·MÖSG·HT2005
Vidareutveckling
• analys och översättning av sammansättningar
• förbättrad genereringsmodul
• fler fallbackmekanismer
• regressionstester och automatisk utvärdering
• tidsoptimering och buggfixning
• nyutveckling sker i efterföljaren Convertus
PERWEIJNITZ·MÖSG·HT2005
Föreläsning 8 (17/10)
• genomgång av
– transfern och dess regler
– genereringen och dess regler – genereringens typning
31
ITZ·MÖSG·HT2005
Laboration 5: en första bekantskap med MATS-systemet
• mål
• genomgång av grammatikformaten nästa vecka
• starta MATS i terminalfönster lokalt på arbetsstationen
• starta inte MATS som en bakgrundsprocess med &.
Tryck inte heller Ctrl-z.
PER WEIJNITZ· MÖSG· HT 2005
D em ons tr at ion
33