Corpus methods in linguistics and NLP:
Introduktion till sökverktyget Korp
UNIVERSITY OF GOTHENBURG
Richard Johansson November 11, 2015
-20pt
UNIVERSITY OF GOTHENBURG
dagens presentation
I sökverktyget Korp
I Språkbankens korpusar: vilka nns och hur är de annoterade
I er uppgift
sökverktyget Korp: inledning
I Språkbankens korpusar söks med hjälp av verktyget Korp
I Korp nns på http://spraakbanken.gu.se/korp
I användarhandledning http://spraakbanken.gu.se/swe/forskning/
infrastruktur/korp/anvandarhandledning
-20pt
UNIVERSITY OF GOTHENBURG
Korps uppbyggnad
I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken
I du kan också själv utveckla egna program som använder Korps webtjänst
I http://spraakbanken.gu.se/eng/research/
infrastructure/korp/ws
I Korp bygger på ett underliggande verktyg, Corpus Workbench, utvecklat vid universitetet i Stuttgart:
http://cwb.sourceforge.net/
Korps uppbyggnad
-20pt
UNIVERSITY OF GOTHENBURG
sökningar i Korp
I enkel sökning på enskilda ord
I utökad sökning med mer komplexa kriterier (graskt)
I avancerad sökning med sökspråket CQP
enkla sökningar i Korp
I sökning på enskilt ord
I sökning på grundform
I välj korpusar att söka i
I tips: om det går väldigt långsamt, välj ett mindre antal korpusar
I resultatikar: KWIC, statistik, ordbild
-20pt
UNIVERSITY OF GOTHENBURG
statistik
I sammanställning och rangordning
I exportera
korpusar i Språkbanken
http://spraakbanken.gu.se/swe/resurser/corpus I modern dagstidningstext: GP, DN, . . .
I modern romantext: Bonniers, Norstedts, . . .
I populärvetenskap: Läkartidningen, F&F, . . .
I sociala medier: bloggar, twitter
I 1800-talslitteratur: Litteraturbanken, tidnngar
I medeltida text (fornsvenska)
I parallella korpusar
I inlärarkorpusar
I ... och en hel rad andra
Nedladdningsbart: http://spraakbanken.gu.se/eng/node/1587
-20pt
UNIVERSITY OF GOTHENBURG
exempel: bloggkorpusar
utökade sökningar i Korp
I sök på ordattribut
I kombination av villkor: och, eller
I sökning på en kombination
I samma resultatikar: KWIC, statistik, ordbild
-20pt
UNIVERSITY OF GOTHENBURG
exempel
I verb som följs av Göteborg?
I vanligaste substantiv i partiprogrammen inför valet 2002?
ordattribut
I ordet i sig
I grundform
I ordklass, t.ex. verb
I formbeskrivning (msd), t.ex. verb presens aktiv
I förled och efterled i sammansättning
I . . .
-20pt
UNIVERSITY OF GOTHENBURG
textattribut
I textattributen beror på vilken korpus vi använder.
I exempel GP 2012:
I avdelning i GP
I författarnamn
I datum
I exempel Strindbergs brev:
I författarnamn
I mottagarnamn
I år
I band i brevsamlingen
I . . .
I exempel bloggkorpusar:
I författarens namn, ålder, hemort, . . .
I bloggens teman
varifrån kommer annoteringen?
I korpusar och dokument är givna (eller manuellt indelade)
I texterna är antingen elektroniska i ursprungsformen (t.ex. GP) eller digitaliserade (ibland med OCR)
I i de esta fall automatisktindelade i ord och meningar
I i de esta fall automatisktlingvistiskt analyserade
I förutom manuellt annoterade korpusar som SUC och Talbanken
-20pt
UNIVERSITY OF GOTHENBURG
begränsningar i Korp
I begränsade möjligheter för t.ex. syntaktisk sökning, i jämförelse med TIGERSearch
I t.ex. vilka objekt är vanligast för verbet köpa?
äldre texter
I vi har korpusar från många olika tidsperioder, från landskapslagar till nutid
I exempel på samlingar från äldre perioder:
I lag och rätt, t.ex. landskapslagar, Tänkeböckerna
I tidningstext från 1700- och 1800-talet
I biblar
I äldre romaner
-20pt
UNIVERSITY OF GOTHENBURG
exempel: Tänkeböckerna (under Lagrummet)
exempel: Kubhist
-20pt
UNIVERSITY OF GOTHENBURG
trenddiagram: exempel på en neologism
I välj visa trenddiagram under statistikiken
exempel på variation pga historiska omständigheter
-20pt
UNIVERSITY OF GOTHENBURG
avancerad sökning: sökspråket CQP
I prova att växla mellan utökad och avancerad!
I [(word = "köttbulle") & (pos = "NN")] [(pos = "VB")]
I [((word = "köttbulle" | word = "hamburgare"))] [(pos = "VB")]
http://cwb.sourceforge.net/documentation.php
uppgiften
-20pt
UNIVERSITY OF GOTHENBURG
metodologiska förmaningar
I är urvalet representativt?
I hur operationaliserar jag mitt problem vilka förenklingar var jag tvungen att göra?
I är mina data pålitliga?