• No results found

MÖSG ht 2005 Maskinöversättningssystemet MATS

N/A
N/A
Protected

Academic year: 2022

Share "MÖSG ht 2005 Maskinöversättningssystemet MATS"

Copied!
33
0
0

Loading.... (view fulltext now)

Full text

(1)

MÖSG· ht 2005

Maskinöversättningssystemet MATS

Per Weijnitz

perweij@stp.ling.uu.se

1

(2)

ITZ·MÖSG·HT2005

Om detta kursmoment

• främja förståelse av

– översättningsproblem – MÖ-arbete

– regelbaserade MÖ-system

• godtyckligt valt system?

(3)

PERWEIJNITZ·MÖSG·HT2005

Föreläsningens upplägg

• bakgrund och grundläggande egenskaper

• systemets infrastruktur och moduler

• lexikala resurser

• värdig försämring

• vidareutveckling

• föreläsning 7

• laboration 5: en första bekantskap med MATS-systemet

• demonstration

3

(4)

ITZ·MÖSG·HT2005

Bakgrund

• MATS: Methodology and Application of a Translation System

• samarbetsprojekt mellan Institutionen för lingvistik och Scania CV AB

• uppskalning av MULTRA med fokus på

– design och implementation av nya systemet MATS – nytt lexikon i form av en lexikal databas

(5)

PERWEIJNITZ·MÖSG·HT2005

Grundläggande egenskaper

• regelbaserat

• prologkärna

• uttömmande analys

• hög översättningskvalitet inom begränsad domän

5

(6)

ITZ·MÖSG·HT2005

Systemets infrastruktur

• designprinciper

– genomskinlighet och spårbarhet – modularitet

• varje delsteg sköts av en separat modul

• en pipe utgör transportlager och kopplar ihop modulerna – enkelriktad dataström

– multiplex signal

(7)

PERWEIJNITZ·MÖSG·HT2005

Exempel på liten tokeniseringsmodul:

       

   

                     

               !   "      !  #  $    

"

"

Exempel på dataström:

% & ' % & ' % ( ) * % + ( , + - % . / % + ( 0 1 / 2

% + 2 & 3 1 / & ( , + - % . / % + (

% + 2 & 3 1 / & ( , + - % . 0 1 / 2

7

(8)

ITZ·MÖSG·HT2005

0. Textextraktion

• indata i XML-format

• text att översätta separeras från taggar etc

• initial uppdelning av text: segment

• varje segment har ett id-nummer

, , ,  / 1   1   

 / % + ( 0 1 / 2  /

   , , ,

(9)

PERWEIJNITZ·MÖSG·HT2005

1. Teckenomkodning

• koda om segmenten så de blir kompatibla med lexikonet

• latin-1

 ) ( 1 3   ( (

• Unicode?

9

(10)

ITZ·MÖSG·HT2005

2. Tokenisering

• varje segment delas upp i tokens

• grunduppdelning sker på whitespace Segment Tokens

/ % + ( 0 1 / 2 / % + (

0 1 / 2

• hantering av flerordsenheter (MWU): “till och med”

(11)

PERWEIJNITZ·MÖSG·HT2005

3. Lexikonuppslagning

• uppslag av

– flerordsenheter (

   ( - 3  ) )

– enordsenheter (0 1 / 2 )

– mönstermatchning (      )

• okända ord

11

(12)

ITZ·MÖSG·HT2005

3. Lexikonuppslagning

• uppslagna ord får förvald översättning

• morfosyntaktisk information

• lingvistisk resurs: ) % / * +  & /

0 1 / 2 förvald översättning: 0 1 /  , 3 3 , 

kasus:  ) / 1 *

genus: - % ( -

...

(13)

PERWEIJNITZ·MÖSG·HT2005

4. Parser

• UCP3

• strävan efter komplett syntaktisk analys

• hantering av meningar utan komplett analys

• preferensmetod: rankning av likvärdiga analyser

• lingvistisk resurs: / & ,  (

13

(14)

ITZ·MÖSG·HT2005

5. Transfer

• input: en analys av segmentet

– representerad av en särdragsstruktur – källspråksspecifika attribut

– förvalda översättningar

• output: en analys av segmentet

– representerad av en särdragsstruktur – målspråksspecifika attribut

(15)

PERWEIJNITZ·MÖSG·HT2005

5. Transfer

• källsida och målsida

• transfern traverserar indata-strukturen

• i varje nod kan enskilda särdrag – kopieras över till målsidan – läggas till

– strykas (t ex genus i svenska → engelska) – byta värde (t ex förvalda översättningar)

• lingvistisk resurs: & 3  ( ) , % ( )

15

(16)

ITZ·MÖSG·HT2005

6. Generering

• grammatik

• baserad på PATR-II

• unifiering och konkatenering

• finna korrekt representation av strukturen i målspråket

• lingvistisk resurs: & 3  ( ) ,  % (

(17)

PERWEIJNITZ·MÖSG·HT2005

6. Generering, forts

• typning

– ett sätt att kontrollera genereringen

– en struktur med typade särdrag måste behandlas av regler som tar hand om dessa.

• lingvistisk resurs: & 3 , % 

17

(18)

ITZ·MÖSG·HT2005

8. Kodkomposition

• fullformsdatabasen accepterar inte särdragsstrukturer

• särdragsstrukturer mappas mot motsvarande kodrepresentation

• lingvistisk resurs: ) % / * +  & / & 3

(19)

PERWEIJNITZ·MÖSG·HT2005

9. Lexikonuppslagning

• primär nyckel: kod + lemma

• returnerar färdigböjt ord

      ( +   , ( +   /

19

(20)

ITZ·MÖSG·HT2005

10. Fonotaktisk bearbetning

• det översatta segmentets ytform och underliggande struktur granskas

) & 3  1 3 & 

) 3 & 3  1 3 & 

(21)

PERWEIJNITZ·MÖSG·HT2005

11. Finish

• finputsning av översatta segment – första ordets bokstav versal – ta bort överflödiga mellanslag

• (sammanfoga ursprunglig XML-data med den översatta texten)

21

(22)

ITZ·MÖSG·HT2005

7. Fallback - värdig försämring

• regelbaserade system känsliga

• hantering av problem

– okända ord: externa lexikon, ordklassgissare ...

– ofullständig analys: gå vidare med bra delanalyser – ofullständig transfergram.: kopiera okända strukturer – ofullständig genereringsgram.: alternativ strategi

– “boundary friction”: välj ut kombination med högst P

(23)

PERWEIJNITZ·MÖSG·HT2005

7. Översättning med partiella analyser

• Vissa meningar mindre känsliga för segmentering:

[avlägsna skruven][,][kåpan och skyddsplasten]

• Problem när beroenden bryts (boundary friction):

[boken som är borta][är värdefull]

23

(24)

ITZ·MÖSG·HT2005

7. Fallbackgenerering - enklaste varianten

• grammatiken täcker inte alltid hela strukturen

• som sista utväg används källspråkets ordföljd

• ofta bristfälligt för satser

• fungerar för vissa sorters fraser

– “den stora gröna boken är borta” -> “the big green book is gone”

(25)

PERWEIJNITZ·MÖSG·HT2005

7. Fallbackgenerering med språkmodell

• ordföljd

• “(jag tänker,) därför finns jag”

– 157k: “therefore I exist”

– 528: “I exist therefore”

– 94: “therefore exist I”

– 57: “I therefore exist”

– ...

25

(26)

Z·MÖSG·HT2005

7. Fallbackgenerering med språkmodell

• ordval

• “jag är törstig”

– 72k: “I am thirsty”

– 127: “I are thirsty”

– 102: “I is thirsty”

(27)

PERWEIJNITZ·MÖSG·HT2005

Ordval och ordföljd med språkmodell

• Basen för statistisk maskinöversättning

• Översättning av mening S till M:

– för varje ord/fras i S, samla in alla dess översättningsalternativ

– sök efter den kombination av översättningsalternativ som både maximerar översättningssannolikheten för varje ord/fras, och ordföljdssannolikheten för för

sekvensen som bildas.

27

(28)

ITZ·MÖSG·HT2005

Systemets lexikala resurser

• specificeras på gränssnittets startsida

• transfer (& 3  ( ) , % ( ) ) och generering (engra.ptr):

– laddas i den specificerade / & % -  ,  

– mer om dessa på måndag 17/10

• lexikala databasen: Evas föreläsning efter lunch idag

(29)

PERWEIJNITZ·MÖSG·HT2005

Kodfilerna

) % / * +  & / (svenska) och ) % / * +  & / & 3 (engelska)

• en kod representerar en lista med attribut och värden:

         

                        

          

      

29

(30)

ITZ·MÖSG·HT2005

Vidareutveckling

• analys och översättning av sammansättningar

• förbättrad genereringsmodul

• fler fallbackmekanismer

• regressionstester och automatisk utvärdering

• tidsoptimering och buggfixning

• nyutveckling sker i efterföljaren Convertus

(31)

PERWEIJNITZ·MÖSG·HT2005

Föreläsning 8 (17/10)

• genomgång av

– transfern och dess regler

– genereringen och dess regler – genereringens typning

31

(32)

ITZ·MÖSG·HT2005

Laboration 5: en första bekantskap med MATS-systemet

• mål

• genomgång av grammatikformaten nästa vecka

• starta MATS i terminalfönster lokalt på arbetsstationen

• starta inte MATS som en bakgrundsprocess med &.

Tryck inte heller Ctrl-z.

(33)

PER WEIJNITZ· MÖSG· HT 2005

D em ons tr at ion

33

References

Related documents

I min undersökning kommer sedan alla svar att göras anonyma, för att dessa i möjligaste mån inte skall kunna härledas till enskilda individer eller platser.. x Markera (x)

Men de flesta makroekonomer inser såväl nu som före krisen att det finns marknadsmisslyckanden, såsom prisstelheter, ofullständig konkurrens, ofullständig och

– I kärlek är människor som två pusselbitar, säger Denise Newman i början på en himlastormande kärlekshistoria mellan två grannar i det nya Sydafrika.. Baxter Theatre

Är informationen från avsändaren ofullständig och behöver kompletteras kan det vara säkerhetsmässigt fördelaktigt att göra rapporteringen en dag sent men korrekt

gymnasiesärskolan genom att ta del av denna studie får inspiration att börja undervisa i strukturerade textsamtal i den egna verksamheten och att de ser aktionsforskningens metoder

låter bli att lämna information till Finansinspektionen eller lämnar ofullständig eller felaktig information om efterlevnaden av skyldigheten att uppfylla

låter bli att lämna information till Finansinspektionen eller lämnar ofullständig eller felaktig information om efterlevnaden av skyldigheten att uppfylla

låter blir att lämna information till Finansinspektionen eller lämnar ofullständig eller felaktig information om efterlevnaden av skyldigheten att uppfylla