• No results found

Svagheter och svårigheter med rangbaserad chunkning

3 Identifikation av obegränsade primära satsled

19 %Ett primärt finit,

3.2 Rangbaserad chunkning

3.3.2 Svagheter och svårigheter med rangbaserad chunkning

Rangbaserad chunkning har följande positiva och negativa egenskaper som del-vis skiljer ut den jämfört med andra metoder för denna deluppgift i parsningen. De två sista punkterna innebär krav som metoden ställer.

 Metoden kan som här göras ’transparent’, med uppvisande av rangerna, un-der körning (därmed kan fel beroende på taggning spåras).

 Den identifierar minimala NP (med olika undertyper), PP, AP, AdvP samt

som-fras. Chunkens högsta rang (lägsta siffra) markerar generellt dess

hu-vudord och typ, med undantag för PP och som-fras.

 Den kräver inte användning av en ”generativ grammatikformalism” som omskrivningsregler eller reguljära uttryck för att programmeras.

 Som alla svenska system riktar den inte in sig på täckning av efterställda at-tribut direkt, dvs. egentligen inte på full frasidentifikation. Tillsammans med de efterföljande segmenteringsmetoderna har metoden dock detta syfte.

 Syftet är att fungera tillsammans med efterföljande regler där en del samman-fogningar är tänkta att ske för att nå det slutliga syftet att skapa NP och med ’maximal projektion’, dvs. de nominala och adverbiella sjok som utgör kan-didater till obegränsade primära funktionella led (huvudsatsernas subjekt, ob-jekt/predikativ och adverbiella led med deras fulla sträckning).

 Den är i nuvarande version beroende av korrekt ordklasstaggning men den är i många fall okänslig mot fel i ingående särdragsvärden utöver ordklasser och undersöker inte kongruens.

 Den kräver utarbetade listor av ordmängder (egennamn etc.) och, för sam-manhanget här, en föregående licensieringsprocedur. För att avgränsa de fält där chunkningen sker krävs också listning av vissa ordgrupper (fristående adverbial) som licensieras eller är primära och som inte enbart kan kännas igen genom taggningen i SUC 2.0.

Det finns några inneboende svagheter med att använda detta rangsystem för chunkning, det handlar oftast om att den ordklassindelning som finns i SUC (som alltså används) faktiskt inte är tillräckligt specifik. Ett typiskt exempel är

adverb (rang 3) som enligt målsättningen bör behandlas på minst tre olika sätt beroende på olika syntaktiska egenskaper.

 En klass mittfältsadverb, t.ex. inte, ska i allmänhet bli ett eget led (dvs. inte ingå i annan struktur) och de adverb som potentiellt fungerar så måste listas specifikt.

 En annan klass adverb är potentiellt pre-modifierande och kan i vissa fall ses modifiera verb, dvs. fokuserare, t.ex. nästan och kanske. Han nästan sprang.  Ytterligare en annan klass adverb fungerar postmodifierande –

adverbattri-but. Vägen hem, resan dit etc.

Denna uppdelning av adverben finns inte i ordklass- och särdragsinformationen som ingår i SUC 2.0 (eller i ordklasstaggare som bygger på SUC). Istället måste listor i vissa fall sammanställas för att chunkningen enligt den beskrivna meto-den ska blir rätt.

En annan aspekt är att en prepositionsfras som följer på en annan fras generellt inte kan bestämmas (förutom i fundamentposition) som attribut eller fristående utan vidare undersökning. Denna fråga lämnas istället till en senare procedur i analysen, där länkningar från egna tillägg och två valenslexikon används.

Syftet här har varit att hålla metodiken så enkel som möjligt och att inte modifie-ra den ovannämnda samlingen av kmodifie-rav hos indata. Den innebär dock en metod som från början inte är perfekt – en del undantag finns. Dessa undantag demon-streras nedan.

Metoden fungerar i praktiken med bra resultat när det gäller att identifiera fraser fram till huvudordet (i PP/som-fras fram till rektionens huvudord). De felaktiga

identifikationer som görs kan alltså uppdelas i 1) ej helt täckta egentliga chun-kar och 2) markering av längre segment än de egentliga strukturer som borde identifieras (felaktig sammanfogning). Medan ej helt identifierade chunkar kan

sammanfogas till de rätta strukturerna i senare sammanfogningssteg, på samma sätt som t.ex. efterställda attribut, så är felaktiga sammanfogningar av ord i rangchunkningen vanskligare, men dessbättre mycket mer sällsynt.

Ej helt täckta segment

Det vanligaste slaget av ej helt riktigt täckta chunkar är inskott av prepositions-fraser bland räckan av framförställda attribut i nominal- och prepositionsprepositions-fraser som i Figur 13.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Det dokument som sammanfattar resultatet av produktplaneringen är det i kapitel 1 beskrivna "kvalitetshuset" .

DT NEU SIN DEF NN NEU SIN IND NOM HP VB PRS AKT NN NEU SIN DEF NOM PP NN UTR SIN DEF NOM VB PRS AKT DT NEU SIN DEF PP NN NEU SIN IND NOM RG NOM PC PRF UTR/NEU SIN DEF NOM NN NEU SIN DEF NOM MAD

Nom Nom PP Nom PP Nom

5 1 HP VB 1 15 1 5 15 1.5 3 2 1

Figur 13 Inskott av prepositionsfras i räckan av framförställda attribut som här det i kapitel 1

beskrivna ”kvalitetshuset” är ett någorlunda vanligt undantag som innebär att en egentlig fras

missvisande delas upp med hjälp av rangchunkningen (je01-026). Det egentliga ledet

resulta-tet av produktplaneringen ses däremot inte som felaktigt uppdelat: Den rangbaserade

algorit-men identifierar ju inte efterställda attribut utan lämnar dessa sammanfogningar till senare steg. (I detta fall sammanfogas detta segment genom en i programmet beskriven ordlänkning mellan resultatet och av, men dessutom p.g.a. att hela fundamentledet ändå sammanfogas). Att egentliga segment inte alltid täcks som i Figur 13 och i Figur 14 är som nämnts meningen, och det finns i programmet många regler och en funktion i gränssnittet för att skapa sammanfogningsregler på grundval av ord och ordklas-ser i angränsande segment.

1 2 3 4 5 6 7 8 9

Förhandlingar pågick under nästan hela 1992 på Comuneros .

NN UTR PLU IND NOM VB PRT AKT PP AB JJ POS UTR/NEU SIN DEF NOM RG NOM PP PM NOM MAD Nom PP Nom PP 1 15 3 1.5 3 15 1

Figur 14 Årtalet 1992 har en funktion som ett NP-huvudord men får enligt rangtilldelningen

värdet 3. Detta är en typisk konsekvens av rangerna som dock kan rättas till i följande seg-menteringssteg. Sammanlänkningsregler kan skapas direkt i gränssnittet. (ec15d-006)

Felaktigt sammanfogade segment

Det är enkelt att komma på exempel på två angränsande segment som metoden som den utformats felaktigt sammanfogar. I praktiken är alltså dessa fall sällsyn-ta (som i det redan visade i Ex 40) och ofsällsyn-tast möjliga att undvika.

Ex 40 Att smyga sig in på en kronhjort är något av det svåraste jägarlivet har att bjuda på. (ea25-125)

´ 15 5 2 1

Ex 40 exemplifierar ett genuint svåravgränsat PP/NP-par som inte heller kan skiljas isär med hjälp av särdragsinformation, vilket används flitigt i andra sy-stem. Av det svåraste jägarlivet är i sig en giltig PP-struktur med kongruerande ord. Att det är frågan om två segment (och en som-strykning) är sannolikt inte denna metod ensam om att missa. Det kan verka som ett riskabelt projekt att inte arbeta med särdragsvärden och kongruenskontroll. Det ger emellertid förvån-ansvärt sällan upphov till fel. Figur 15 visar ett fall av felsammanslagning där

kalla av misstag sammanfogas med NP (tidsadverbial). Kalla vintertid är i sig en

giltig NP.

1 2 3 4 5 6

'Vi håller rummen kalla vintertid .'

PN UTR PLU DEF SUB VB PRS AKT NN NEU PLU DEF NOM JJ POS UTR/NEU PLU IND/DEF NOM NN UTR SIN IND NOM MAD

Nom Nom Nom

1 1 2 1

Figur 15 Felaktig sammanfogning sker som här förhållandevis sällan p.g.a. rangerna.

(ja12-024)