• No results found

Ny metod för att underlätta extraktion av information ur stora textmassor

N/A
N/A
Protected

Academic year: 2021

Share "Ny metod för att underlätta extraktion av information ur stora textmassor"

Copied!
2
0
0

Loading.... (view fulltext now)

Full text

(1)

Fredrik Olsson, språkvetenskaplig databehandling – disputation 19 december 2008

Ny metod för att underlätta extraktion av information ur stora textmassor

I dagens stora flöde av databaserade texter är det viktigt att få fram system som underlättar sökandet av viss efterfrågad information. Är det möjligt att hitta

information om t.ex. händelser i ett företag ur nyhetstexter; vem som lämnar vilken post, varför så skedde, till vilket företag och position som personen går etc? Fredrik Olsson tar i sin avhandling upp en ny metod för att underlätta uppmärkningen av förekomster av namn i databaserade textdokument.

Informationsextraktion handlar om att analysera text i syfte att identifiera och plocka ut information om fördefinierade typer av entiteter, händelser i vilka entiteterna är engagerade samt relationer mellan entiteter och händelser. Det handlar alltså om att få tillgång till strukturerad information från en till synes ostrukturerad informationskälla.

En av anledningarna till att informationsextraktion inte är tillgänglig för alla är att det krävs mycket arbete och tid för att anpassa ett system till att fungera för nya uppgifter i en ny textdomän. Ett system som hanterar ovanstående exempelscenario skulle förmodligen inte fungera alls om uppgiften ändrades till att identifiera interaktioner mellan proteiner beskrivna i biomedicinsk text.

Ett vedertaget sätt att angripa problemet med domänanpassning av system för

informationsextraktion är att realisera dess komponenter med hjälp av maskininlärning, dvs. lärande datorprogram. Maskininlärning bygger i mångt och mycket på att det finns exempel att lära sig av. En komponent i ett extraktionssystem behöver se exempel på de fenomen det ska lära sig att identifiera, t.ex. entiteter och relationerna mellan dessa. Grunden till den här typen av maskininlärning är alltså

tillgången till stora mängder exempel. Dock finns det stora utmaningar i att ta fram bra exempel: det är mödosamt, tar tid och kräver en människa som känner domänen väl för att märka upp exempel i texter.

Att känna igen namn på t.ex. personer, företag och platser är grundläggande för

informationsextraktion. Genom att känna igen namn kan vi också börja leta efter t.ex. relationerna, uttryckta i texten, mellan bärarna av namnen.

Fredrik Olsson beskriver i sin avhandling arbetet med att utveckla och utvärdera en metod, kallad BootMark, för att märka upp förekomster av namn i textdokument.

BootMark bidrar till att reducera den mängd dokument en mänsklig annoterare behöver märka upp för att träna en namnigenkännare med prestanda som är lika bra eller bättre än en

namnigenkännare som är tränad på ett slumpmässigt urval av dokument från samma korpus.

Avhandlingens titel: Bootstrapping Named Entity Annotation by Means of Active Machine Learning. A method for creating corpora.

Disputationen äger rum fredagen den 19 december 2008 kl. 13.15 Plats: Lilla hörsalen, Humanisten, Renströmsgatan 6

(2)

Avhandlingen kan beställas från Institutionen för svenska språket, erik.falk@svenska.gu.se För ytterligare information kontakta Fredrik Olsson, mobiltel. 0704 -15 54 10,

e-post: fredriko@sics.se

Hemsida: www.sics.se/people/fredriko Avhandlingen finns även tillgänglig digitalt:

References

Related documents

Den kategoriseringsprocess som kommer till uttryck för människor med hög ålder inbegriper således ett ansvar att åldras på ”rätt” eller ”nor- malt” sätt, i handling

Subject D, for example, spends most of the time (54%) reading with both index fingers in parallel, 24% reading with the left index finger only, and 11% with the right

Regeringen uppdrar åt Myndigheten för ungdoms- och civilsamhällesfrågor (MUCF) att förbereda överföringen av uppgiften att handlägga och fatta beslut om statsbidrag

The meeting is a joint meeting announced to the members of the Danish Society of Otolaryngology Head and Neck Surgery (DSOHH), Danish Society of Ophthalmology, Danish Society

Lagförslaget om att en fast omsorgskontakt ska erbjudas till äldre med hemtjänst föreslås att träda i kraft den 1 januari 2022. Förslaget om att den fasta omsorgskontakten ska

1(1) Remissvar 2021-01-22 Kommunledning Nykvarns kommun Christer Ekenstedt Utredare Telefon 08 555 010 97 christer.ekenstedt.lejon@nykvarn.se Justitiedepartementet

Delegationen mot segregation har inga synpunkter på övriga förslag i utredningen, men ser positivt på att utredningens samlade förslag som helhet kan bidra till en ökad jämlikhet

Migrationsverket har beretts möjlighet att yttra sig gällande utredningen Kompletterande åtgärder till EU:s förordning om inrättande av Europeiska arbetsmyndigheten