• No results found

Licensiering genom kända bisatsinledare

2 Identifikation av begränsade primära satsled

2.3 Primärfinitsidentifikation

2.3.2 Licensiering genom kända bisatsinledare

Den första delmetoden för att licensiera finita verb är den mest uppenbara. När en känd bisatsinledare (utgående från SUC:s taggning enligt Tabell 11) påträffas är grundregeln att en bisats därmed inleds. Det betyder att det följande

19 Motsvarighet till NounGroup m.fl. finns alltså inte klargjort för detta arbetes metodik i mot-svarande skede för licensieringen. Noteras kan också att subjektsidentifikation (som i exemp-let snarast motsvarar identifikation av subjektet fram till och med dess huvudord – och inte dess efterställda attribut, relativsatsen) kan göras betydligt enklare och tidigare i engelska p.g.a. den generellt mer fixerade ordföljden jämfört med nordiska språk.

20 En stack-datastruktur är som bekant en behållare där nya element placeras överst (push) och eventuell borttagning (pop) sker av det element som ligger överst.

21 Stackstrukturen kan också implementeras som en räknare (en heltalsvariabel) och håller då inte reda på vad som licensierat precis vad.

de finita verbet licensieras och inte längre kandiderar som primärfinit. I SUC förekommer en tagguppsättning där det finns ett någorlunda klart förhållande mellan ordklasstaggar och sådana klara bisatsinledare. (Termen bisatser används här även om relativsatser, när ingen uttrycklig skillnad nämns.) I fråga om licen-siering hanteras de på samma sätt.

Licensierande ordklasser

(bisatsinledare) Motsvarande SUC-tagg Exempel

Subjunktion SN Eftersom, medan, om

Frågande/relativt adverb HA När, var, hur, som

Frågande relativ determinerare HD Vilken, vilket

Frågande/relativt pronomen HP Som

Frågande/relativ possessiv HS Vars, vems, vilkas

Tabell 11 De ordklasstaggar i SUC 2.0 som i allmänhet direkt svarar mot bisatsinledning

(in-klusive relativbisatsinledning).

Befintliga som har ofta en komplicerande feltaggning då som som konjunktion taggats som bisatsinledare eller vice versa. I SUC 2.0 tillhör som de absolut mest feltaggade orden, denna aspekt blir relevant för alla system som utgår från denna korpus eftersom två av de möjliga taggarna (HA och HP), som i Figur 5, är bi-satsinledare medan den tredje (som i Ex 5) istället är konjunktion.

1 2 3 4 5 6 7 8 9 10 11 12

Som Kalle hade sagt skulle de som åt bygga en båt .

HA PM NOM VB PRT AKT VB SUP AKT VB PRT AKT PN UTR/NEU PLU DEF SUB HP VB PRT AKT VB INF AKT DT UTR SIN IND NN UTR SIN IND NOM MAD

Figur 5 Finita verb licensieras (understrukna) p.g.a. föregående typiska overta bisatsinledare

(kursiverade), här genom två förekomster av som. Skulle kvarstår och tolkas som primärt.

Ex 5 Som (konjunktion) målvakt var han fantastisk.

En licensieringsprocess av en s-enhet innebär alltså en genomlöpning av enheten med följande händelser i sitt enklaste utförande.

 För varje påträffad bisatsinledare: inled en licensieringsprocess. En licensie-ringsmarkör placeras på stacken.

 Om en licensieringsprocess pågår (dvs. om stacken är icke-tom) när ett finit påträffas så licensieras detta och en licensieringsmarkör tas bort från stacken.

En pseudo-programmeringsnotation för det ovan beskrivna tillvägagångssättet ser ut som i Kodexempel 5. Alla bisatsinledare kallas här licensor. Notatio-nen är schematisk, ofullständig och förenklad för överskådlighetens skull. Num-ber_of_candidates innebär i exemplet antalet kandidater för rollen som primärt finit efter licensiering.

number_of_licensors = 0 number_of_candidates = 0

// Kommentar: den enklaste licensieringsprocessen som använder sig av // uttryckliga bisatsinledare

For (each word in sentence) {

if (type(word) = licensor) {

number_of_licensors++ }

else if (type(word) = finite_verb)

{ if (number_of_licensors > 0) number_of_licensors—- } else { add_to_candidates(word) number_of_candidates++ }

else if (type(word) = non_finite_verb)

{

if (number_of_licensors > 0) number_of_licensors—-

} }

Kodexempel 5 Pseudokod för grundläggande licensieringsteknik utgående från uttryckliga

bisatsinledare (licensor) kan implementeras med en stackstruktur (number_of_licensors) för att beteckna bisatsnästlingsdjup.

För att ovanstående procedur ska fungera i svensk text finns en rad undantag att beakta. För det första finns undantag i ord med dessa ordklasstaggar som inte alls inleder bisatser. Detta gäller ord av ovannämnda slag i frågor (I Vad köpte

han? respektive in situ-versionen Han köpte vad? där vad inte är en

relativsats-inledare även om den har samma taggning som en relativsatsrelativsats-inledare i SUC (taggningen är HP: Frågande/relativt pronomen). Ett annat fall är somliga fle-rordskonstituenter som, t.ex. i SUC 2.0, är taggade med flera av dessa licensie-rande taggar innebär inledning av en enda bisats. I Ex 6 visas två konstruktioner, ’snedstrecksalternering’ och ’vilka-som’-konstruktion, där två potentiella bi-satsmarkörer bara bör räknas som en.

Ex 6 a) … det segment vilken/vilket gett… (jc14-107)

Den första licensieringsprocessen kan alltså beskrivas som en enkel genomlöp-ning av textsträngen, från vänster till höger, där bisatsinledare gör att sökgenomlöp-ningen övergår i ’laddat läge’ (har icke-tom stack) och för varje sådan kräver ett finit att licensiera. När ett sådant finit påträffas licensieras finitet – det tas bort från de möjliga kandidaterna och en licensierare tas bort från stacken.

Det skulle kunna vara en rimlig hjälp till identifikation av huvudsatsens finit om det kunde antas att varje s-enhet hade åtminstone ett primärt finit verb. Det är dock, som nämnts, så att många är exempelvis fristående bisatser som är avgrän-sade med punkt eller dylikt. Över en tiondel av s-enheterna i SUC saknar helt finit verb, och bland de som har finit verb är en del fristående bisatser etc., där inget verb är primärt. Bland textmeningarna i SUC finns alltså en stor mängd s-enheter som inte uppfyller satskriteriet p.g.a. att finit saknas. I Tabell 12 visas exempel på några icke satsformade uttryck från SUC. Dessa är alltså s-enheter, enligt SUC, precis som huvudsatserna. Att s-enheter som inte innehåller huvud-sats men väl underordnad huvud-sats, som vissa i Tabell 12, kategoriseras tillsammans med andra icke-huvudsatser är en likhet med indelningen i olika makrosyntagm-typer som görs i Manual för analys och beskrivning av makrosyntagmer av Lo-man och Jörgensen (1971) där dessa kategoriseras som meningsfragment bland ofullbordade meningar (s 34). Eftersom det hör till detta arbetes natur att be-handla huvudsatser, eller enheter med primärt finit, får denna grupp enbart en rudimentär strukturanalys och ingen funktionell syntaktisk beskrivning eftersom de inte behandlas av satsschemat. Frekvensuppskattningar som presenteras in-kluderar dock dessa s-enheter.

Form ID i SUC Exempel

NP hb18-004 Välbevarat fiskekapell.

PP kk51-047 För dessa dagar.

Infinitivfras fb02-080 Att höra ihop

Vokativ kk35-057 Då så!

Bisats kk60-182 Om det provet tas på honom…

VP ac03a-008 Går smärtfritt

Tabell 12 S-enheter i SUC som inte är huvudsatser har strukturellt sett många olika former.

Det sista exemplet ses dock som innehållande ett primärt finit (och adverbial), vilket ändå är en sorts funktionell analys.

Den första frågan som ställs här är: Hur ofta kommer en licensieringsprocedur med de nämnda uttryckliga bisatsinledarna till användning? Det nedanstående är den första av en del grova frekvensuppskattningar här. Frekvensuppskattningar-na är gjorda med hjälp av den sökfunktioFrekvensuppskattningar-nalitet mot SUC 2.0 som beskrivs i ka-pitel 4. Dessa mätningar sker mot träningsmängden eftersom denna generellt har högre korrekthet (det är träningsmängden som använts för att skriva och kontrol-lera reglerna). Den större lämpligheten när det gäller frekvensuppskattningar

beror också på att påträffade s-enheter som innehåller antagen feltaggning märkts upp och tagits bort från korpusen och från detta arbetes undersökningar. De flesta frekvensuppskattningarna visar hur ofta analysen markerar ett visst fenomen, vilket betyder att värdet skulle gälla om inga fall missats och om alla markeringar är riktiga (perfekt precision respektive recall).

Utvärderingarna av begränsade led som förekommer i detta kapitel rör framför allt korrektheten bland de markerade enheterna (precision). För att snabbt säga något om hur stor andel av olika konstituenter som missats att markera krävs för praktiskt arbete ett manuell trädbanksliknande syntaxuppmärkt facit att utgå från, så detta har inte genomförts. Uppskattning av den totala korrektheten har ändå genomförts genom vissa manuella mätningar som redovisas i kapitlet.

15 072 av 40 000, dvs. 37,68 % slumpvis analyserade s-enheter var markerade av

syntaxanalysatorn som innehållande minst en uttrycklig bisatsinledare.

Frekvensuppskattning 1 Förekomst av uttryckliga licensierare enligt beskrivningen ovan

innebär att drygt var tredje s-enhet innehåller sådan uttrycklig bisatsstart.

Delmängd Full korrekthet

G = genomsnitt i s-enheter med ≥ 1 fv S-enheter med 0 fv 188 av 189 99,5 % S-enheter med 1 fv 629 av 631 99,7 % S-enheter med 2 fv 366 av 409 89,5 % S-enheter med 3 fv 127 av 183 69,4 % S-enheter med 4 fv 40 av 57 70,2 % S-enheter med 5 fv 12 av 23 52,2 % S-enheter med ≥ 6 fv 3 av 8 37,5 % S-enheter inkl 0 fv S-enheter med ≥ 1 fv 1365 av 1500 1177 av 1311 91,0 % 89,8 %

Diagram 2 Resultatet av primärfinitsidentifikation för en tidig version av enbart enkel

licen-siering i s-enheter med olika finitantal (fv: finita verb) i en undersökning på 1500 enheter visar tydligt bl.a. att satser med många finit är svåra att tolka helt rätt med avseende på finitlicensie-ring.

Diagram 2 visar resultat från en tidig, oförfinad, undersökning av denna licensi-eringsprocedur med uttryckliga bisatsinledare (enkel licensiering) som relaterar korrektheten till hur många finit de olika s-enheterna har. Observera att som kor-rekt analyserade räknas här s-enheter i testet vars samtliga finit korkor-rekt

marke-0 10 20 30 40 50 60 70 80 90 100 0 1 2 3 4 5 ≥ 6 G

rats som primärt eller licensierat. Som resultatet visar kan ca 90 % av korrekt taggade s-enheter ges korrekt tolkning angående finita verbs satsnivå, dvs. hu-vudsatsnivå eller ej, med denna algoritm.

Det är i implementationen sällsynt med fel i identifikationen av dessa uttryckliga bisatsinledare, förutom i fall av feltaggning. En sökning med en sen version av programmet efter 100 framslumpade s-enheter med minst en markerad uttryck-lig bisatsinledare visade att ingen av enheterna hade syntaxanalysfel som berod-de på markerad bisatsstart av berod-detta slag. I ett fall markeraberod-des en bisatsstart i en-lighet med ord och tagg som egentligen inte borde markerats, men som inte fick några konsekvenser.22