• No results found

Sammanfattning och slutsatser

Stora förändringar under de senaste åren inom exempelvis teknik och politik har gjort det hypotetiskt möjligt för en individ som söker information och kunskap att söka den i vilken del av världen som han eller hon än önskar. Helt möjligt och problemfritt är emellertid inte detta, ty en i dagsläget klar förutsättning för att personen i fråga för tillfället skall kunna hitta relevant information är att han eller hon även har betryggande kunskap om det språk på vilket informationen är producerad. Utan denna kunskap är information i andra delar av världen och på andra språk fortfarande synnerligen omöjlig att hitta.

Cross-Language Information Retrieval (CLIR) är en relativt ny forskningsdisciplin som försöker överbrygga problemet med olika språk inom informationsåtervinning och underlätta en högre nivå av internationellt informationsutbyte. Syftet med CLIR är att personer i framtiden skall kunna söka information på sitt eget modersmål – på vilket de allra flesta lättare kan formulera sig – men ändå hitta relevant information på flertalet andra språk. CLIR har även som ett vidare syfte att den återfunna informationen i framtiden skall kunna översättas i sin helhet till ett för informationssökaren önskat språk.

I denna uppsats har det inledningsvis redogjorts för några av de vanligaste lingvistiska problem som uppkommer vid översättningar från ett språk till ett annat inom olika språkvetenskapliga kategorier som morfologi, syntax, semantik och pragmatik. Olikartade stavningsvarianter av ord och flertydliga ord och begrepp har exempelvis uppmärksammats som lingvistiska problem som i hög grad kan försvåra översättningar mellan olika två eller flera språk. I största allmänhet har det i uppsatsen visats och dragits slutsatsen att språk är någonting mycket komplext som synnerligen reflekterar användarnas kultur och sätt att se på samt uppfatta världen. Språks komplexitet och dess relation till dess brukare har vidare ansetts som någonting som CLIR-forskare måste uppmärksamma och ta hänsyn till vid utvecklandet av lämpliga översättningsmetoder för framgångsrik informationsåtervinning över nationella gränser.

Vidare har de fyra vanligaste metoderna för översättning som i dagsläget finns utvecklade och används inom CLIR beskrivits i denna uppsats. Dessa översättningsmetoder har definierats som maskinöversättning, tesaurus- och ordboksöversättning, korpusbaserad översättning samt ingen översättning. Alla metoderna har framställts som i besittning av både för- samt nackdelar. Avslutningsvis har dock slutsatsen dragits att ingen översättningsmetod använd inom CLIR idag har kapaciteten att på egen hand reda ut de många komplexa språkegenskaper och språkproblem som har redogjorts för i uppsatsens första del och

samtidigt vara användarvänlig och tidsenlig – vare sig det handlar om översättning av sökfrågor eller hela dokument. Det har emellertid även uppmärksammats i uppsatsen att CLIR-forskare i hög grad är medvetna om de olika metodernas begränsningar och att en ny trend att kombinera olika enskilda översättningsmetoder har uppkommit inom forskningen under de senaste åren. Att förena flera olika översättningsmetoder i ett enskilt system har vidare beskrivits som något som kan ha många fördelar i och med att man kan välja ut och kombinera ”det bästa” hos varje enskild metod. En uppmärksammad nackdel kan dock vara att system baserade på alltför många olika översättningskällor kan bli alltför klumpiga och i slutändan inte speciellt användarvänliga.

Avslutningsvis har det i denna uppsats kort redogjorts för CLIR-forskarnas förhoppningar och förväntningar inför framtiden. Dessa har visat sig vara att CLIR-system som kan översätta sökfrågor på ett flertal olika språk, och sedan matcha dessa mot information på andra språk, skall finnas tillgängliga för allmänheten inom en relativt snar framtid. De problem som man menar ännu finns kvar att lösa innan detta blir möjligt handlar ”endast” om att göra redan utvecklade metoder och system mer användarvänliga, mottagliga för fler språk, samt kapabla till att hantera multimedia. Att forskarna inte uppmärksammar som en framtidsplan översättning av längre textsekvenser och hela dokument har vidare observerats som något egendomligt. Genom att bara fokusera forskningen på översättning av sökfrågor och ämnesord – vilket idag i hög grad är fallet – har slutsatsen dragits att man synnerligen begränsar tekniken till att endast vara värdefull för en viss typ av användare. För personer som inte har någon kunskap alls om ett språk på vilket potentiellt intressant information är skriven är CLIR i dagsläget ännu en tämligen oanvändbar forskningsdisciplin. Det eventuella svaret på att flertalet forskare inom CLIR endast fokuserar sin energi på översättning av sökfrågor har dock spekulerats kring att vara att man inom området har upptäckt att språk är någonting som är alltför komplext, föränderligt och svårhanterligt för att i form av fullständiga meningar kunna hanteras av CLIR-system, samt av datorer i största allmänhet. I den slutliga analysen kanske det inte är möjligt för CLIR-forskningen att helt tillintetgöra den existerande språkbarriären – endast att skapa något gynnsammare förutsättningar för informationssökare som söker information på främmande språk.

Referenslista

Aitchison, Jean; Gilchrist, Alan & Bawden, David (1997). Thesaurus Construction and Use:

A Practical Manual. London : ASLIB.

Babelfish maskinöversättningsystem. Tillgänglig: http://babel.altavista.com/translate.dyn. 2004-02-18.

Baeza-Yates, Ricardo & Ribeiro-Neto, Berthier (1999). Modern Information Retrieval. New York: ACM Press.

Braschler, Martin & Peters, Carol (2004). ”Cross-Language Evaluation Forum: Objectives, Results, Achievements.” Information Retrieval 7, 7-31.

Brown, Steven & Attardo, Salvatore (2000). Understanding Language Structure, Interaction

and Variation. Ann Arbor: University of Michigan Press.

Buckland, Michael (1997). “What Is a Document?” Journal of the American Society for

Information Science 48 (9), 804-809.

Cancedda, Nicola; Déjean, Hervé; Gaussier, Éric; Renders, Jean-Michel & Vinkourov, Alexei (2004). ”Report on CLEF-2003: Two Ways of Extracting Multilingual

Resources from Corpora.” Tillgänglig: www.clef-campaign.org. 2004-01-20. Cederlund, Petter (2002). Cross-Language Information Retrieval: En granskning av tre

översättningsmetoder använda i experimentell CLIR-forskning. Borås:

Högskolan i Borås. (Magisteruppsats i Biblioteks- och informationsvetenskap). Cross-Language Evaluation Forum (CLEF) www.clef-campaign.org. 2003-11-29.

Davis, Mark W. (1998). “On the Effective Use of Large Parallel Corpora in Cross-Language Text Retrieval.” I: Cross-Language Information Retrieval (ed. Grefenstette, Gregory). Boston: Kluwer Academic Publishers, 11-22.

Eurovoc Thesaurus. http://europa.eu.int/celex/eurovoc. 2003-12-14.

Gachot, Denis A.; Lange, Elke & Yang, Jin (1998). ”The Systran NLP Browser: An

Application of Machine Translation Technology in Cross-Language Information Retrieval.” I: Cross-Language Information Retrieval (ed. Grefenstette,

Gregory). Boston: Kluwer Academic Publishers, 105-119.

Global Internet Statistics. Tillgänglig: www.glreach.com/globstats/ 2004-01-20.

Hedlund, Turid; Pirkola, Ari & Järvelin, Kalervo (2001). ”Aspects of Swedish Morphology and Semantics from the Perspective of Mono- and Cross-Language Information Retrieval.” Information Processing and Management 37, 147-161.

Hedlund, Turid; Airio, Eua; Keskustalo, Heikki; Lehtokangas, Raija; Pirkola, Ari & Järvelin, Kalervo (2004). ”Dictionary-Based Cross-Language Information Retrieval: Learning Experiences from CLEF 2000-2002.” Information Retrieval 7, 99-119. Hollink, Vera; Kamps, Jaap; Monz, Christof & De Ruke, Maarten (2004). ”Monolingual

Document Retrieval for European Languages.” Information Retrieval 7, 33-52. Hudon, Michèle (1997). ”Multilingual Thesaurus Construction: Integrating the Views of

Different Cultures in One Gateway to Knowledge and Concepts.” Knowledge

Organization 24(2), 84-91.

Hudon, Michèle (1999). ”Accessing Documents and Information in a World Without

Frontiers.” The Indexer: Journal of the Society of Indexers and of the Affiliated

American & Australian & Canadian Societies 21(4), 156-159.

Hutchins, John William & Somers, Harold L. (1992). An Introduction to Machine

Translation. London: Academic Press.

ISO 5964 Documentation: Guidelines for the Establishment and Development of Multilingual Thesauri (1985). Geneva: International Organization for Standardization.

Kimbrell, Roy E. (1988). ”Searching for Text? Send an N-Gram!” Byte 13(5), 297-305. Lam-Adesina, Adenike M. & Jones, Gareth J.F. (2002). “Exeter at CLEF 2002: Experiments

with Machine Translation for Monolingual and Bilingual Retrieval.” Tillgänglig: www.clef-campaign.org. 2004-02-23.

Maurais, Jacques & Morris, Michael A. (2003). Languages in a Globalising World. New York: Cambridge University Press.

McNamee, Paul & Mayfield, James (2003). ”JHU/APL Experiments in Tokenization and Non-Word Translation.” Tillgänglig: www.clef-campaign.org. 2004-01-20. McNamee, Paul & Mayfield, James (2004). ”Character N-Gram Tokenization for European

Text Retrieval.” Information Retrieval 7, 73-97.

Melby, Alan K. (1995). The Possibility of Language. Philadelphia: Benjamins. Nationalencyclopedin. “Maskinöversättning”. Tillgänglig: www.ne.se. 2004-01-15.

Nie, Jian-Yun & Simard, Michel (2001). ”Using Statistical Translation Models for Bilingual IR.” Tillgänglig: www.clef-campaign.org. 2004-01-20.

Oard, Douglas W. (1997). ”Serving Users in Many Languages. Cross-Language Information Retrieval for Digital Libraries.” D-Lib Magazine December 1997. Tillgänglig: www.dlib.org/dlib/december97/oard/12oard.html. 2003-11-29.

Oard, Douglas W. & Diekema, Anne R. (1998). ”Cross-Language Information Retrieval.”

Annual Review of Information Science and Technology (ARIST) 1998 33 (cop.

1999), 223-256.

Ogawa, Yasushi & Matsuda, Toru (2002). ”An Efficient Document Retrieval Method Using N-Gram Indexing.” Systems and Computers in Japan 33 (2), 54-63.

Overcoming the Language Barrier: Third European Congress on Information Systems and Networks, Luxembourg, 3-6 May 1977(1977). (2 volymer). München: Verlag Dokumentation.

Peters, Carol & Picchi, Eugenio (1997). ”Across Languages, Across Cultures.” D-Lib

Magazine May 1997. Tillgänglig:

www.dlib.org/dlib/may97/peters/05peters.html. 2003-12-08.

Peters, Carol & Picchi, Eugenio (1998). “Cross- Language Information Retrieval: A System for Comparable Corpus Querying.” I: Cross-Language Information Retrieval (ed. Grefenstette, Gregory). Boston: Kluwer Academic Publishers, 81-92. Peters, Carol & Sheridan, Páraic (2000). ”Multilingual Information Access.” Lectures on

Information Retrieval: Third European Summer-School, ESSIR 2000, Varenna, Italy, September 11-15, 2000, Revised Lectures, 51-80.

Pettersson, Johnny (2003). Flerspråkiga Tesaurer: Att uttrycka ett och samma begrepp

utifrån skilda kulturer och olika språk. Borås: Högskolan i Borås.

(Magisteruppsats i Biblioteks- och informationsvetenskap).

Pirkola, Ari (1999). Studies on Linguistic Problems and Methods in Text Retrieval: The

Effects of Anaphor and Ellipsis Resolution in Proximity Searching, and Translation and Query Structuring Methods in Cross-Language Retrieval.

Tampere: University of Tampere. (Doktorsavhandling i informationsvetenskap). Pirkola, Ari; Hedlund, Turid, Keskustalo, Heikki & Järvelin, Kalervo (2001). ”Dictionary-

Based Cross-Language Information Retrieval: Problems, Methods, and Research Findings.” Information Retrieval 4, 209-230.

Pirkola, Ari (2002). ”CLIR Research at the University of Tampere: Issue Editorial.”

Information Research 7(1). Tillgänglig: http://InformationR.net/ir/7-

2/CLIR.html. 2004-02-02.

Qu, Yan; Grefenstette, Gregory & Evans, David A. (2002). “Resolving Translation

Ambiguity Using Monolingual Corpora: A Report on Clairvoyance CLEF-2002 Experiments.” Tillgänglig: www.clef-campaign.org. 2004-02-23.

Robertson, Alexander M. & Willett, Peter (1998). ”Applications of N-Grams in Textual Information Systems.” Journal of Documentation 54 (1), 48-69.

Sandell, Malin & Turesson, Lina (2003). Praxis och praktik i flerspråkiga tesaurer. Borås: Högskolan i Borås. (Magisteruppsats i Biblioteks- och informationsvetenskap). Savoy, Jaques (2004). ”Report on CLEF-2003 Multilingual Tracks.” Tillgänglig:

www.clef-campaign.org. 2004-01-20.

Systran Information and Translation Technologies. www.systransoft.com. 2004-02-02. Unicode. www.unicode.org. 2004-02-02.

Whitelock, Peter & Kilby, Kieran (1995). Linguistic and Computational Techniques in

Related documents