• No results found

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

N/A
N/A
Protected

Academic year: 2022

Share "Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp"

Copied!
24
0
0

Loading.... (view fulltext now)

Full text

(1)

Corpus methods in linguistics and NLP:

Introduktion till sökverktyget Korp

UNIVERSITY OF GOTHENBURG

Richard Johansson November 11, 2015

(2)

-20pt

UNIVERSITY OF GOTHENBURG

dagens presentation

I sökverktyget Korp

I Språkbankens korpusar: vilka nns och hur är de annoterade

I er uppgift

(3)

sökverktyget Korp: inledning

I Språkbankens korpusar söks med hjälp av verktyget Korp

I Korp nns på http://spraakbanken.gu.se/korp

I användarhandledning http://spraakbanken.gu.se/swe/forskning/

infrastruktur/korp/anvandarhandledning

(4)

-20pt

UNIVERSITY OF GOTHENBURG

Korps uppbyggnad

I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken

I du kan också själv utveckla egna program som använder Korps webtjänst

I http://spraakbanken.gu.se/eng/research/

infrastructure/korp/ws

I Korp bygger på ett underliggande verktyg, Corpus Workbench, utvecklat vid universitetet i Stuttgart:

http://cwb.sourceforge.net/

(5)

Korps uppbyggnad

(6)

-20pt

UNIVERSITY OF GOTHENBURG

sökningar i Korp

I enkel sökning på enskilda ord

I utökad sökning med mer komplexa kriterier (graskt)

I avancerad sökning med sökspråket CQP

(7)

enkla sökningar i Korp

I sökning på enskilt ord

I sökning på grundform

I välj korpusar att söka i

I tips: om det går väldigt långsamt, välj ett mindre antal korpusar

I resultatikar: KWIC, statistik, ordbild

(8)

-20pt

UNIVERSITY OF GOTHENBURG

statistik

I sammanställning och rangordning

I exportera

(9)

korpusar i Språkbanken

http://spraakbanken.gu.se/swe/resurser/corpus I modern dagstidningstext: GP, DN, . . .

I modern romantext: Bonniers, Norstedts, . . .

I populärvetenskap: Läkartidningen, F&F, . . .

I sociala medier: bloggar, twitter

I 1800-talslitteratur: Litteraturbanken, tidnngar

I medeltida text (fornsvenska)

I parallella korpusar

I inlärarkorpusar

I ... och en hel rad andra

Nedladdningsbart: http://spraakbanken.gu.se/eng/node/1587

(10)

-20pt

UNIVERSITY OF GOTHENBURG

exempel: bloggkorpusar

(11)

utökade sökningar i Korp

I sök på ordattribut

I kombination av villkor: och, eller

I sökning på en kombination

I samma resultatikar: KWIC, statistik, ordbild

(12)

-20pt

UNIVERSITY OF GOTHENBURG

exempel

I verb som följs av Göteborg?

I vanligaste substantiv i partiprogrammen inför valet 2002?

(13)

ordattribut

I ordet i sig

I grundform

I ordklass, t.ex. verb

I formbeskrivning (msd), t.ex. verb presens aktiv

I förled och efterled i sammansättning

I . . .

(14)

-20pt

UNIVERSITY OF GOTHENBURG

textattribut

I textattributen beror på vilken korpus vi använder.

I exempel GP 2012:

I avdelning i GP

I författarnamn

I datum

I exempel Strindbergs brev:

I författarnamn

I mottagarnamn

I år

I band i brevsamlingen

I . . .

I exempel bloggkorpusar:

I författarens namn, ålder, hemort, . . .

I bloggens teman

(15)

varifrån kommer annoteringen?

I korpusar och dokument är givna (eller manuellt indelade)

I texterna är antingen elektroniska i ursprungsformen (t.ex. GP) eller digitaliserade (ibland med OCR)

I i de esta fall automatisktindelade i ord och meningar

I i de esta fall automatisktlingvistiskt analyserade

I förutom manuellt annoterade korpusar som SUC och Talbanken

(16)

-20pt

UNIVERSITY OF GOTHENBURG

begränsningar i Korp

I begränsade möjligheter för t.ex. syntaktisk sökning, i jämförelse med TIGERSearch

I t.ex. vilka objekt är vanligast för verbet köpa?

(17)

äldre texter

I vi har korpusar från många olika tidsperioder, från landskapslagar till nutid

I exempel på samlingar från äldre perioder:

I lag och rätt, t.ex. landskapslagar, Tänkeböckerna

I tidningstext från 1700- och 1800-talet

I biblar

I äldre romaner

(18)

-20pt

UNIVERSITY OF GOTHENBURG

exempel: Tänkeböckerna (under Lagrummet)

(19)

exempel: Kubhist

(20)

-20pt

UNIVERSITY OF GOTHENBURG

trenddiagram: exempel på en neologism

I välj visa trenddiagram under statistikiken

(21)

exempel på variation pga historiska omständigheter

(22)

-20pt

UNIVERSITY OF GOTHENBURG

avancerad sökning: sökspråket CQP

I prova att växla mellan utökad och avancerad!

I [(word = "köttbulle") & (pos = "NN")] [(pos = "VB")]

I [((word = "köttbulle" | word = "hamburgare"))] [(pos = "VB")]

http://cwb.sourceforge.net/documentation.php

(23)

uppgiften

(24)

-20pt

UNIVERSITY OF GOTHENBURG

metodologiska förmaningar

I är urvalet representativt?

I hur operationaliserar jag mitt problem  vilka förenklingar var jag tvungen att göra?

I är mina data pålitliga?

References

Related documents

how to store the annotation in les examples of annotation tools the annotation process...

basics about frequencies measuring text complexity measuring association measuring dierences.?.

Naive Bayes denition and generative models estimation in the Naive Bayes model!.

I I type cheese into the Lucene search engine and it returns a number of documents, out of which 1,432 are about cheese. I what's the estimate of the recall of this

analysing numerical data in Python basics of probability theory.. randomness

I the exact binomial test is used when comparing an estimated probability (e.g. the accuracy) to some xed value. I 40 correct guesses out

I to compute the best path ending with saw as a verb, consider the best paths for the previous word and the transition probabilities. I assume the previous word

I Expectation: using our current estimates, compute label probabilities for each document and nd the labels with the maximal probability. I for instance, if a document has