• No results found

Datorassistans vid lyrikskrivande Går det att tillverka en mjukvara som på ett effektivt sätt assisterar vid tillverkning av lyrik?

N/A
N/A
Protected

Academic year: 2021

Share "Datorassistans vid lyrikskrivande Går det att tillverka en mjukvara som på ett effektivt sätt assisterar vid tillverkning av lyrik?"

Copied!
35
0
0

Loading.... (view fulltext now)

Full text

(1)

Datorassistans vid lyrikskrivande

Går det att tillverka en mjukvara som på ett effektivt sätt assisterar vid tillverkning av lyrik?

FREDRIK BYSTAM 910727-3097 076 65 15 200 BYSTAM@KTH.SE

MÅRDSTIGEN 15 17075 SOLNA JONAS SKÖLD

890316-1951 0707 47 05 27 JONASSKO@KTH.SE VIREBERGSVÄGEN 17

16930 SOLNA

Kandidatexamenrapport vid NADA Handledare: Gabriel Skantze Examinator: Mårten Björkman

DD143X, Degree Project in Computer Science, First Level

(2)
(3)

Referat

Datorer och kultur är två saker som inte beblandas i särskilt stor utsträckning. Det blir dock mer och mer vanligt att musik skapas digitalt med hjälp av en dator. Olika typer av lyrik är dock någonting som fortfarande görs för hand och “från hjärtat”. I denna studie undersöks frågan om det är möjligt att ta hjälp av en dator för att skriva en mjuk konstform så som poesi och låttexter.

I studien utvecklas en mjukvara för att assistera vid ly- rikskrivande. Denna hjälper till med att generera text och försöker känna av sammanhang. Programmet kan föreslå rim på ord utifrån enkla, existerande poetiska former. Det användes i testmiljöer där de olika egenskaperna och verk- tygen sattes på prov. Resultaten visade att idén om mjuk- vara för att skriva lyrik är möjlig, men att de bakomliggan- de algoritmerna som användes i studien eventuellt var för naiva för att ge tillräcklig effekt.

Slutligen diskuteras möjligheterna att bygga vidare för att åtgärda de brister som visade sig finnas i den implemen- tation som gjordes. Mjukvara för att tillverka lyrik verkar inte vara en dum idé, men metodiken för ordförslag kräver i så fall en mer avancerad strategi.

(4)

Abstract

Computer assistance when writing lyrics

Computers and culture are two things often found to be difficult to mix. Today, music is made digitally with help from computers, but lyrics remains an art form created by hand and ‘’from the heart”. This study examines the possibilities of making a computer assist when creating art such as poetry and song lyrics.

A software was developed to assist in poetry writing by generating text based on the already written context.

The program can also suggest words that rhyme with the existing text based on simple, existing poetic forms. It was used in testing environments where the different features and tools of the program were put to the test. The results indicate that the idea of writing poetry using software as- sistance is plausible, but that the underlying algorithms of the implemented tools were too naive to be efficient in this case.

Finally, the possibilities of improving the program in order to minimise the deficiencies comes to discussion. Soft- ware built to automatically complete lyrics does not appear to be a poor idea, but the methodology used for word pre- diction requires a more advanced strategy.

(5)

Innehåll

1 Introduktion 1

1.1 Problemformulering . . . 1

1.2 Rapportens struktur . . . 2

1.3 Fördelning av arbete . . . 2

2 Bakgrund 3 2.1 Rim . . . 3

2.2 Poetiska kriterier . . . 3

2.3 Automatisk komplettering av text . . . 4

3 Metod 5 3.1 Mjukvara . . . 5

3.1.1 Program . . . 5

3.1.2 Tillverkning av sökdata . . . 7

3.2 Undersökning . . . 9

3.2.1 Utförande av tester . . . 9

4 Resultat 11 4.1 Allmänt om programmet . . . 11

4.2 Om julklappsrimmen . . . 11

5 Diskussion 15 5.1 Möjlig vidareutveckling . . . 16

6 Slutsats 19 Litteraturförteckning 21 Bilagor 22 A Testpersonernas texter från undersökningen 23 A.1 Julklappsrim baserade på dikter . . . 23

A.2 Julklappsrim baserade på tidningstexter . . . 25

A.3 Fritt test . . . 27

(6)
(7)

Kapitel 1

Introduktion

Att skriva lyrik anses vara en mjuk konstform. Ofta handlar det om kärleksdikter eller andra laddade texter som är tänkta att komma direkt från hjärtat. Av samma anledning som folk kämpar aggressivt emot digital tillverkning av musik känns idén om att en dator skulle hjälpa oss skriva poesi om möjligt ännu mer främmande. På samma sätt som populärmusik blir alltmer digitaliserad kanske det nu är dags att välkomna den nya tekniken och utnyttja den även i litterära sammanhang. Syftet med den här studien är att utforska möjligheterna kring att låta ett mjukvarupro- gram assistera och tillverka lyrik av olika former. Området kan generaliseras som en kombination av sökning efter rimförslag och automatisk generering av text.

Att komplettera ord och hantera rättstavning är ett av de mest populära om- rådena som utforskas inom språkteknologi idag. Användningsområdena har alla en gemensam nämnare; de assisterar vid formuleringen av ett redan uttänkt sam- manhang. När en användare skriver och utnyttjar rättstavning samt automatisk komplettering så har denne redan en idé som ska förmedlas. Skriver man däremot lyrik söker man ofta rim, och då kan sammanhanget istället komma till att base- ras på vad som passar in lyriskt. Vi söker skriva ett program som kan föreslå ord för en användare just när man skriver poesi, låttexter eller andra enkla rim. Med andra ord handlar det om mjukvara som kan hjälpa en användare att tillverka ett sammanhang utifrån givna poetiska och lyriska strukturer.

1.1 Problemformulering

Syftet med studien är att undersöka hur väl ett datorprogram kan assistera vid skrivande av lyrik. Förhoppningen är att studien ska klargöra vad som krävs för att användaren ska finna verktyget användbart. Studien ämnar besvara huruvida en dator kan tillhandahålla användbar assistans vid lyrikskrivande.

(8)

KAPITEL 1. INTRODUKTION

1.2 Rapportens struktur

Denna rapport inleder med en introducerande text med bland annat rapportens problemformulering, där arbetets frågeställning definieras. Därefter följer en kortare bakgrund om rim, poetiska kriterier samt om andra program som berör liknande områden som vårt program. Metoddelen beskriver vad som har gjorts för att svara på frågeställningen, inklusive hur programmet är uppbyggt samt vilka tester som utförts för att komma fram till rapportens resultat. Resultaten presenteras sedan i en egen sektion varefter dessa analyseras och diskuteras under avsnittet Diskussion.

Här diskuteras också vad som skulle kunna göras för att förbättra ett program av det här slaget. Sist följer rapportens slutsats.

1.3 Fördelning av arbete

Författarna till denna rapport har arbetat med studien nästan uteslutande tillsam- mans. Målsättningen har varit att arbetsbördan ska fördelas jämnt mellan förfat- tarna, vilket till stor del har lyckats.

Arbetet med mjukvaran har skett i nära samarbete mellan gruppmedlemmarna.

Det grafiska gränssnittet har skrivits av Fredrik Bystam, medan Jonas Sköld varit ansvarig för ordförslagssammanställningen. Övriga delar har utvecklats av båda författarna.

Även vad gäller rapporten har författarna skrivit stora delar tillsammans. Det finns dock avsnitt som mestadels skrivits av den ena författaren. Fredrik Bystam har framför allt arbetat med rapportens introduktion, avsnitten om rim och poetiska kriterier i bakgrunden, resultat samt diskussion om möjlig vidareutveckling. Jonas Sköld, å andra sidan, har varit huvudsaklig skribent av avsnittet i bakgrunden om automatisk komplettering av text, utförandet av undersökningen, diskussion samt slutsats.

(9)

Kapitel 2

Bakgrund

2.1 Rim

Att rimma är ett språkfenomen som spelar en väldigt central roll i lyrik. Vad ett rim är sträcker sig till klart fler definitioner än de man vanligtvis bekantats med.

I vardagliga sammanhang brukar man tänka sig att ord rimmar om de uttalas likadant på slutet. En mer systematisk analys av vad det innebär krävs för att en dator ska kunna arbeta med det. Man börjar enklast med att se på de olika typer av rim som faktiskt finns.

I boken Barron’s SAT Subject Test Literature 2009 skriver författaren Christina Myers-Shaffer om rim[1, s. 83]. I boken definieras ett rim (översatt) som när två eller fler ord har ett ljud gemensamt eller ekar i varandra. En bred definition som denna ger upphov till många delkategorier av rim. Till exempel finns alliteration, eller stavrim; ord rimmar om de öppnas av likadana konsonanta fonetiska ljud.

Läser man i Patterns of poetry: an encyclopedia of forms finner man följande definition (översatt); rim är förhållandet mellan ord med olika konsonanter fram- för den sista betonade vokalen, och som är fonetiskt identiska från och med den vokalen[2, s. 13].

Med en bred definition på ett rim finns möjligheten att välja en egen bild av hur vår dator ska tolka dem. Definitionen som används i den här studien ligger nära den senare av de två som beskrivits ovan. Undantaget är att kravet på olika konsonanter innan den sista betoningen tas bort. Definitionen lyder Två ord rimmar om de är fonetiskt identiska från och med den sista betonade vokalen.

Teoretiskt är rimsökning inte speciellt svårt om man har tillgång till ett fonetiskt lexikon. Det handlar enbart om att kunna mappa ett ord till ord med likadan fonetisk ändelse. Sådant kan uppnås med smarta algoritmer, datastrukturer eller en kombination av både och.

2.2 Poetiska kriterier

Rimförslag kan väljas att passa in på så kallade rimscheman. Dessa beskrivs i Bar- ron’s SAT Subject Test Literature 2009[1, s. 84] som hur raderna i en text rimmar

(10)

KAPITEL 2. BAKGRUND

på varandra. Till exempel kan ett schema se ut som ABABC, som betyder att av- sluten på rad ett och tre rimmar, två och fyra rimmar och att rad fem inte rimmar på någon av de föregående.

En poetisk form är någonting som sätter begränsningar på hur en dikt kan se ut.

Det kan handla om allt från antalet stavelser på en rad till rytmiken och betoningen på dess ord[3]. Även rimscheman är en del av det som beskriver en poetisk form. Om ett lyrikprogram kan ta hänsyn till en given form kan det bidra till hur övertygande den genererade texten är.

Rytmen i en dikt baseras på ordens betoning. I en mening kan man välja att vila sitt uttal på vissa stavelser mer än andra, och de blir då betonade[4].

Ett exempel på en poetisk form är limerick. En limerick är en dikt med rimsche- mat AABBA, där alla rader med benämningen A betonas med totalt tre stavelser, och de med benämningen B med två[5]. En limerick har ofta ett väldigt skämtsamt innehåll, och den första raden brukar sluta på en geografisk plats.

2.3 Automatisk komplettering av text

Mjukvara som erbjuder automatisk komplettering av text är någonting som från början utvecklades för att underlätta produktion av text för personer som har nå- gon typ av funktionshinder[6, s. 105-114]. Idag utnyttjas det flitigt i allt från mo- biltelefoner till ordbehandlare i stora datormaskiner. Det effektiviserar framförallt skrivandet av långa ord som börjar tillräckligt unikt för att avgöra vilket ord det är användaren syftar på. Mer moderna och avancerade program som föreslår ord kan även känna av vilket sammanhang ordet skrivs i, och ta hänsyn till det i sina förslag. Ett sätt att avgöra sammanhang är att utnyttja Markovska sannolikhets- modeller så som n-gram[7]. Sådan teknologi används av Tommi A Pirinen, Miikka Silfverberg och Krister Lindén i deras implementation av ett sammanhangskänsligt rättstavningsprogram[8].

För att analysera språk med hjälp av en dator krävs att datorn har tillgång till en språkmodell. Det finns många typer av modeller, men en av de vanligaste kallas för statistisk språkmodell. Den bygger på sannolikheten att en viss ordföljd ska förekomma i en text, där statistiken fås genom att läsa in stora texter och räkna förekomsten av ordföljder[9]. Ordföljderna kan vara olika långa och representeras av så kallade n-gram. Ett n-gram är så enkelt som en uppsättning av n stycken ord i följd. Att mäta förekomsten av n särskilda ord i en viss följd och dess frekvens kan vara ett verktyg för att tolka sammanhang. Genom att ta de n-1 första orden i ett n-gram, går det att hitta sannolikheten för förekomsten av det påföljande (n:te) ordet, genom att jämföra alla n-gram som börjar på de n-1 orden. På det sättet kan en dator veta vilket ord som statistiskt sätt borde komma efter en viss ordföljd.

Sådan statistik har gjorts av Google vid sammanställningen av alla de skrifter som finns samlade i Google Books[10]. Där har man fört statistik på förekomster av ord och ordföljder i böcker från flera olika århundraden.

(11)

Kapitel 3

Metod

3.1 Mjukvara

Mjukvaran består av två delar. Den första delen, installationsprogrammet, är den som tillverkar sökdata, medan den andra delen är den som slutanvändaren kommer använda, dvs. det program som genererar ordförslag utifrån sökdatan. Mjukvaran kommer att skrivas i Java, eftersom gruppmedlemmarna anser sig särskilt bekväma i det språket. All mjukvara skrivs av gruppmedlemmarna själva, dvs. inga färdiga program eller bibliotek utöver Javas standardbibliotek kommer att användas.

3.1.1 Program

Programmet som slutanvändaren kommer att interagera med visas i form av ett en- kelt grafiskt gränssnitt. I sin helhet består gränssnittet av ett textfält, med knappar för att spara text och öppna befintliga filer, samt menyer för att välja poetisk form och träningstexter.

Ordförslag

Programmet behöver kunna ge ordförslag som antingen passar in i sammanhanget eller som rimmar med ett tidigare ord. Därför kommer programmet att kunna utföra två olika sorters sökningar, en som hittar ord som passar in i meningen och en som hittar rim. Anledningen till att två olika sökningstyper finns är att ordförslagen ska passa in så bra som möjligt. Om användaren inte önskar ett rim just för stunden så ska inte förslagslistan kladdas ner med rim som kanske inte passar in så bra i meningen. Om användaren tvärtom verkligen vill ha ett rim så ska alla förslag faktiskt rimma.

Vanliga ordförslagssökningen sker om användaren trycker på TAB, medan rim- förslagssökningen sker om användaren trycker på SHIFT+TAB. Sökresultaten pre- senteras i en popup med 10 ordförslag åt gången, där användaren kan trycka fram fler förslag via en “Visa fler...”-knapp. Trycker användaren på ett förslag så stängs popupen och ordet sätts in där markören står i textfältet.

(12)

KAPITEL 3. METOD

Figur 3.1. En bild på mjukvaran under körning.

Vanligt förekommande ordföljder

Ordförslagen kan baseras på vanligt förekommande ordföljder. Då används en språk- modell med n-gram. Implementationen i denna studie utnyttjar enbart n-gram av längd tre, så kallade trigram. Ett förslag baseras då på de två (2) ord som står före ordet som ska genereras. Orden skickas till en sökalgoritm som använder sig av språkmodellen för att generera förslag. Användaren kan själv välja vilken trä- ningstext som ordförslagen ska baseras på. Förslagen som hittas sorteras efter hur troligt det är att ordet ska förekomma efter de två sökorden. Hur sökningen och sorteringen går till beskrivs mer detaljerat i avsnittet “Tillverkning av sökdata”.

Rim

Programmet utnyttjar ett fonetiskt lexikon för att hitta ordförslag som rimmar med ett tidigare ord. En rimsökning börjar med att hitta det ord som användaren vill rimma på. Vilket ord som rimförslagen bygger på beror på vilken poesiform användaren har valt att skriva i. Standard är att det sista ordet i föregående rad används som bas för rimmet. Ordet skickas sedan till sökningsalgoritmen, som hittar alla ord som rimmar på ordet i fråga. Rimförslagen sorteras också efter hur troliga

(13)

3.1. MJUKVARA

de är att finnas i det nuvarande sammanhanget. Även denna sökning och sortering beskrivs i mer detalj i avsnittet “Tillverkning av sökdata”. De sorterade förslagen presenteras sedan till användaren som får välja vilket ord som ska användas.

3.1.2 Tillverkning av sökdata

Sökdatan består av två delar, en för rimförslag och en för vanliga ordförslag.

Grunden till rimförslagen är ett fonetiskt lexikon som mappar bokstaverade ord till deras fonetiska representation. Det fonetiska lexikonet som utnyttjas har tillhandahållits av språktekniskt centrum vid KTH och består av ca 300 000 ord och deras uttal. På varje rad i filen står ett ord följt av dess fonetiska representation.

Orden är sorterade i bokstavsordning. Denna fil används för att hitta ett ords uttal.

Lexikonet kompletteras med en fil som genereras utifrån lexikonet. I denna fil har den fonetiska representationen av ordet vänts bak och fram, så att det står baklänges. Här har även ordet och dess uttal bytt plats, så att uttalet står först och det riktiga ordet sist på raden. Orden har även sorterats om, så att de är sorterade efter den bakvända fonetiska representationen. Se figur.

Figur 3.2. Spegelvänd fonetisk sökdata för rim.

Sökningen efter ord som rimmar på ett annat ord sker i två steg. Först letas ordets uttal upp i det vanliga fonetiska lexikonet. Därefter vänds dess fonetiska skrift bak och fram, och rimändelsen tas fram ur ordet. Detta sker genom att ta bort allt som står efter ordets sista betoning. Exempelvis har ordet akademisk den fonetiska representationen AKAD’E:MISK. Ordets sista (och enda) betoning finns innan E, vilket gör att den bakvända rimändelsen är KSIM:E. När den bakvända rimändelsen

(14)

KAPITEL 3. METOD

erhållits så söks ord med samma rimändelse. Detta görs i filen med omvänd fonetisk skrift. Algoritmen söker sig till den första förekomsten av ändelsen, och kan sedan returnera alla rimmande ord genom att läsa rad för rad tills rimändelsen inte längre överensstämmer.

Den andra sökningen som görs är efter n-gram. Tillverkningen av sökdatan be- står i att en fil med n-gramsfrekvenser tillverkas utifrån en textkorpus. Detta görs genom att läsa in varje treordskombination i texten och räkna antal förekomster.

Programmet läser först in n ord och gör detta till ett n-gram och sätter antalet före- komster av det n-grammet till 1. Sedan läser programmet in nästa ord och bildar ett n-gram av det tillsammans med de två sista orden i förra n-grammet. På det sättet fortsätter programmet tills det nått slutet av texten. Om samma ordföljd påträffas flera gånger summeras antalet förekomster. När hela texten har lästs in kommer programmet att sortera n-grammen efter bokstavsordning och skriva ut dem till en fil, se figur.

Figur 3.3. Genererad sökdata i form av trigram.

Sökningen tar in en sträng bestående av två ord. Resultatet av sökningen är en lista på de ord som i träningstexten har använts efter söksträngen samt hur ofta de använts, till exempel {jag 2, du 6, hej 9}. Eftersom n-grammen i sökfilen är sorterade i bokstavsordning så står alla ord som eftersöks under varandra i filen.

Därför letar algoritmen upp den första förekomsten av söksträngen och läser sedan rad för rad tills söksträngen inte längre matchas. För varje rad läses det tredje ordet i n-grammet in tillsammans med dess antal förekomster i träningstexten. Detta sparas i en lista som sedan returneras till användaren.

För att kunna göra snabba och effektiva sökningar används latmanshashning,

(15)

3.2. UNDERSÖKNING

som beskrivs i Viggo Kanns föreläsningsanteckningar[11]. Denna teknik har valts på grund av dess egenskap att uppslagning i filen sker mycket snabbt, samt att det kräver näst intill inget fysiskt minne. Tekniken används för alla sökningar i pro- grammet. Grundtanken är att datafilerna indexeras på ett ords första tre tecken.

En indexfil håller då koll på var i datafilen som första förekomsten av en viss tre- bokstavskombination finns. Detta gör att det går snabbt att hitta till rätt del av en stor fil med sorterade strängar. Efter att rätt område i filen har hittats så används binärsökning för att leta upp precis den rad som eftersöks.

3.2 Undersökning

Målet är att avgöra vad det är som gör ett program för tillverkning av lyrik an- vändbart. Behovet av tester är då stort, och de ska generera så mätbara resultat som möjligt. En möjlighet är att sätta programmet på prov i ett sammanhang som är tillräckligt simpelt för att parametrarna för sökdata ska påverka så mycket som möjligt. Därmed togs beslutet att låta försökspersoner skriva julklappsrim.

3.2.1 Utförande av tester

Tanken är att presentera en uppsättning föremål för försökspersonen som denne ska skriva varsitt julklappsrim till. För varje rim ska personen få besvara frågor relaterat till hur mycket hjälp programmet visade sig vara i sammanhanget. Frågorna kan gälla saker så som vilken träningsdata som används för att analysera sammanhang, eller hur ordförslagen sorteras när personen ber om sådana

Varje försöksperson får skriva tre texter var. Till de första två texterna får personen strikta förhållningsregler. Texterna ska i stort sett bara byggas på ord som föreslagits av programmet. Det innebär att personen inte ska skriva texten själv, utan enbart påverka den genom att välja ordförslag. Undantaget är att personen får starta varje mening med två ord, för att programmet ska kunna generera förslag.

De första två texterna ska vara julklappsrim. Den ena julklappen är en bok och den andra är en kniv. Vilken av de två rimmen som skrivs först slumpas så att inte ordningen ska spela någon roll för resultaten.

Två olika träningstexter används vid de olika rimmen. Till det ena rimmet ska ordförslagen baseras på en stor text (ca 10 miljoner ord) bestående av tidningsar- tiklar. Artiklarna är hämtade från tre stora dagstidningar och de skrevs under 1998.

Till det andra rimmet ska förslagen istället baseras på en mindre text (ca 100 000 ord) bestående av dikter av kända svenska poeter. Både samtida och gamla dikter har använts. Tidningsartiklarna har hämtats från språkbanken [12] och dikterna från Svenska dikter [13]. Vilken ordning och för vilket rim de två träningstexterna används i kommer att slumpas för att inte ordningen ska påverka resultatet.

Den tredje texten som skrivs av försökspersonen är friare. Då får personen själv välja vilken träningstext som ska användas (ett tiotal olika texter av varierande storlek finns att tillgå). Personen får också välja vad han eller hon ska skriva om.

Till den här texten finns heller inget krav på att ordförslag ska väljas. Personen

(16)

KAPITEL 3. METOD

väljer själv att ta hjälp av programmet när så önskas, både för rim och för vanliga förslag. Detta scenario är mer likt ett verkligt användande av programmet.

Efter varje deltest får försökspersonen svara på frågor. Personen får betygsätta sitt alster på en skala mellan 1 och 10. Dessutom får personen beskriva hur skrivan- det upplevdes, om programmet var till nytta, och hur bra ordförslagen bedömdes vara. Efter alla tre deltester får personen beskriva hur de upplevde programmet som helhet. Fokus läggs på hur väl personen tyckte att programmet underlättade skrivandet, och hur bra förslagen ansågs vara. Rimmen som försökspersonerna skri- ver betygssätts också av rapportskrivarna med avseende på hur väl de håller sig till ämnet, hur språkligt korrekta de är och hur sammanhängande texterna är.

(17)

Kapitel 4

Resultat

4.1 Allmänt om programmet

Utvärderingen av mjukvaran i sin helhet gav övervägande positiv respons. Sju av tio testpersoner skriver direkt hur de kände att rimförslagen var hjälpsamma och användbara när de försökte avsluta rader i dikterna. En delmängd av dessa som gav mer utarbetade svar beskriver hur en stor ordlista var till fördel när de försökte rimma på ovanliga ord.

Tre personer beskriver programmet som roligt att använda, varav en föreslog att det borde släppas kommersiellt.

Två testpersoner skriver att de upplevde programmet som väldigt snabbt, och att det var behagligt när man begär förslag så pass ofta. Det var inte någon som uttrycker sig om att de upplevde programmet som långsamt.

Möjligheten till allmänna ordförslag var något som inte beskrevs som speciellt välfungerande. Hälften av personerna kände att det var svårt att finna ordförslag som byggde grammatiskt och semantiskt korrekta meningar. Att få meningarna att handla om rätt sak var ännu svårare. Nämnvärt är dock att en person skriver hur dennes upplevelse om samma sak är rakt motsatt, det vill säga att det var lätt att bygga korrekta meningar.

4.2 Om julklappsrimmen

Att skriva rim med dikter som träningsdata upplevdes som svårt. Sju av tio skri- ver att de hade problem antingen med att hitta ordförslag som kändes vettiga i sammanhanget, eller att över huvud taget få julklappsrimmet att handla om den angivna presenten. Samtliga testpersoner verkar vara mer eller mindre missnöjda med hur deras texter hängde samman. Däremot uttrycker endast en person direkt missnöje med rimförslagen.

Resultatet av att skriva med tidningsartiklar som träningsdata var annorlunda.

Åtta av tio upplevde att de kunde få trovärdiga ordförslag av programmet, varav fem av dessa också blev nöjda med sina sammanhang i slutändan. Två personer ut-

(18)

KAPITEL 4. RESULTAT

tryckte specifikt hur de uppskattade att hitta fler ovanliga ord att sätta in. Däremot fanns det en person som tyckte att ordförslagen baserade på tidningsartiklar var för intetsägande för att användas i rim, och därför föredrog dikter som träningsdata.

Testpersonerna hade delade åsikter efter att ha använt programmet fritt. Två av testdeltagarna ansåg att det var svårt att skriva något när de inte fick något speciellt ämne att skriva om och inte behövde autokomplettera hela texten. En person tyckte att det var lätt att hitta rim, medan en inte var nöjd med rimförslagen. En person använde inte alls funktionen för att hitta vanliga ordförslag, utan vill enbart ha rimförslag. Denne resonerade att han redan visste vad han vill skriva och att han ville skriva texten själv.

Den genomsnittliga betygsättningen av varje dikt är sammanställt i följande tabell:

Träningsdata \Betyg- sättare

Testpersonen Författarna

Dikter 4,8 3,7

Tidningsartiklar 6,5 4,3

Fritt test 6,8 5,1

Nedan presenteras en text från varje del av undersökningen, dvs. ett julklappsrim baserat på dikter, ett rim baserat på tidningsartiklar, samt en text som är baserad på olika träningstexter. Gemensamt för dessa tre är att de bedömdes något högre än genomsnittet. Samtliga alster presenteras i bilaga A.

Följande rim är baserat på tidningstexter och handlar om en bok.

Fy fan vad illa

Att du inte kan vara blickstilla Och läsa om en sådan situation Som sker på en pendeltågsstation Bara ta det lugnt och skönt Med en massa grönt Te. Som är så gott Till boken som är så hott

Detta rim bedömdes som tio av testpersonen och åtta av författarna på en tiogradig skala.

Följande rim är baserat på dikter och handlar också om en bok.

Jag är lycklig när jag sover

Vad önskar jag mer än faderns pullover Du är röd

Som det doftande studiestöd Kan du tänka och handla Se in i förvandla

(19)

4.2. OM JULKLAPPSRIMMEN

Läs och njut

Den svenske björnen har sexdebut

Detta rim bedömdes som en sjua av testpersonen och en sexa av författarna på en tiogradig skala.

Nedan presenteras en text som skrivits genom att författaren fått använda pro- grammet på det sätt han själv vill.

I julklapp önskar jag mig en gåta

En grogg på hotellrummet och en ny toyota Om jag får det skulle jag kunna tacka Dig för att han inte har någon läderjacka

Den bedömdes vara en fyra av testpersonen och en sjua av författarna på en tiogradig skala.

Alla de ovanstående rimmen betraktas av rapportförfattarna som lyckade i nå- gon mening. Följande är däremot ett exempel på där resultatet är allt annat än önskat:

I år efter år göteborg har vuxit Och frodats som andra vuxit Att säga något är viktigt Är en gammal drömbok riktigt När jag är lycklig

Min vän du endast kan mig godtycklig Av mig tar du på ditt blad

Ingen oren vågar kinden lärstad

Den bedömdes med en fyra av testpersonen och en etta av författarna på en tiogradig skala.

(20)
(21)

Kapitel 5

Diskussion

Något som både testpersonerna och övervakarna noterade var att det var svårt att få rimmet att handla om rätt sak. Texterna gled ofta iväg åt något håll vilket gjorde att resultatet inte blev särskilt tillfredsställande. Detta skedde främst då användarna inte fick skriva själva, utan enbart fick välja hur meningarna skulle fortsätta med de givna ordförslagen. Detta problem är förväntat, då programmet inte har något som helst mål med ordförslagen, utan enbart baserar det på existerande texter. Detta är dock ett problem som delvis uppstår på grund av testets utformning. När en användare själv får skriva egna ord kan den på ett bättre sätt forma meningarna så att de får den tilltänkta betydelsen.

Den funktion som användarna tyckte sig ha mest nytta av var rimförslagen.

Detta kan bero på att testpersonerna inte är duktiga på att själva komma på rim på ett ord. Eftersom det finns ett krav på hur ordet måste vara blir det svårare än att komma på ett godtyckligt ord som endast behöver passa in i meningen. Dessutom ansågs rimförslagen i allmänhet vara bättre än de vanliga ordförslagen. Det kan också vara en orsak till att rimförslagen bedömdes som mer användbara.

Överlag betygsattes testpersonernas texter relativt lågt. Något som drog ner betygen på många av texterna var att meningarna inte hade någon betydelse, utan enbart var en följd av ord. Detta beror troligtvis på att programmet inte tar hänsyn till ett större sammanhang, utan bara de två senaste orden. Hade programmet haft en algoritm för att känna igen vad texten handlar om, skulle ordförslagen kunna sorteras på ett bättre sätt, och meningarna skulle kunna bli mer enhetliga.

Något som fungerade relativt bra är hur grammatiskt korrekta texterna blev.

Det var sällan meningarna var grammatiskt felaktiga. Detta är ett resultat av sättet programmet genererar förslag på. Ordförslagen bygger på ordföljder som har använts i en riktig text. Dessa ordföljder är grammatiskt korrekta, eller i alla fall en del av en grammatiskt korrekt mening. Därmed är sannolikheten stor att förslagen som ges också blir grammatiskt korrekta givet de redan skrivna orden i meningen. Det i kombination med att användarens förmåga att välja ord som passar tillsammans gör att meningarna oftast blir språkligt korrekta. Det största undantaget från detta är då orden som sätts in baseras på rimförslag. Programmet föreslår alla rim den

(22)

KAPITEL 5. DISKUSSION

hittar, och sorterar dem endast efter hur väl de passar in i meningen. Detta gör att vissa förslag inte passar in i meningen, och att grammatiken blir fel.

5.1 Möjlig vidareutveckling

Konceptet bakom mjukvaran är till synes någonting som fungerar. Det som upp- levdes som den största nackdelen i den testade implementation var att ordförslagen sällan stämde bra överens med sammanhanget. I implementationen fanns enbart en hantering av sammanhang, och det var en frekvensanalys av trigram (n-gram med n = 3). Den typen av prioritering är väldigt naiv, och hade den ersatts av en mer sofistikerad strategi hade eventuellt ordförslagen blivit mycket bättre, utan att behöva så mycket större mängder träningsdata. Här följer en lista på förslag, som i en viktad kombination hade kunnat utgöra en effektivare strategi.

Exempelvis hade fler sökningar kunnat utföras bland olika typer av n-gram. Med tre storlekar på n (2, 3 och 4) hade många fler ordförslag erhållits i de situationer där den inmatade ordföljden sällan förekommer i träningstexten. Att söka efter trigram som börjar på exempelvis “liten gråzon” kanske inte genererar så många resultat. Om programmet däremot kan falla tillbaka på att leta efter bigram som börjar på “gråzon” ökas chanserna att hitta resultat. Med mer generiska ordföljer så som “det var då” hade programmet kunnat förlita sig på ett 4-gram som har en säkrare känsla för sammanhang.

I fallet då användaren skriver om ett särskilt ting, så som julklappsrim, så hade resultatet kanske kunnat förbättras om samtliga förslag baserades på det ordet.

Programmet hade exempelvis kunnat göra en indexerad sökning på ordet i den ursprungliga textfilen och ladda in alla sammanhang (t ex en mening innan och en efter) som orden förekommer i. Orden i de sammanhangen hade kunnat utgöra en annan grund för ordförslag.

Om det hade funnits tillgång till någon typ av data för att hantera synonymer så hade sådana tagits med i sökningen. Det hade varit komplicerat att hitta synonymer till samtliga övriga förslag, men en tanke är att leta bland de tio högst rankade i övrigt. Det hade eventuellt kunnat rendera fler, målande förslag som passar i sammanhanget. Det skulle också öka chansen att hitta rim som passar in i meningen, eftersom det kan finnas passande ord som har en synonym som rimmar.

Med en mer avancerad behandling av poetisk form hade mycket mer kunnat tas i beräkningen av huruvida ord passar in i sammanhang eller inte. Hade mjukvaran klarat av att analysera hur väl ett ord passar in i den poetiska formen så hade det kunnat tas med i viktningen av förslagen. Exempelvis hade det gått att avgöra om den fonetiska betoningen hos ett ordförslag passar in i rytmen, eller om antalet sta- velser stämmer överens med den poetiska formens specifikation. Även dessa attribut går att vikta in i sorteringen av ordförslag.

Ytterligare en möjlighet som rör rimmen är att få programmet att avgöra om två ord ungefär matchar varandra fonetiskt. Det finns ofta ett visst lyriskt tillfreds- ställande att låta ord nästan rimma på varandra. På så sätt hade fler ord kunnat

(23)

5.1. MÖJLIG VIDAREUTVECKLING

tas i beräkningarna som kanske enligt alla andra kriterier stämmer in bättre än de ord som rimmar exakt.

I en väldigt smart typ av sökning hade flera eller alla av ovanstående förslag kunnat göras som sökningar samtidigt. Sökresultaten hade då kunnat ges en vikt (ett mått på hur stor roll de spelar) som utgör grunden för sorteringen. Att ord passar in rytmiskt kan till exempel tänkas väga tyngre än hur ofta ordet förekommer i den ordföljden enligt sammanställda bigram (2-gram). Med en väldigt sofistikerad uppsättning sökalgoritmer och väl valda kriterier för viktningen så behövs troligtvis mycket mindre träningsdata än med något så naivt som enbart trigram.

(24)
(25)

Kapitel 6

Slutsats

Vår studie visar att datorassistans vid skrivande av lyrik kan vara användbart.

Resultaten från undersökningen visar att rimförslag går att utnyttja väl trots en väldigt simpel strategi vid sortering av förslagen. Användbarheten hade dock ökat om det hade varit lättare att hitta rim och andra ord som passar in i sammanhang- et, dvs. om sorteringen av förslagen förbättrades. Att föreslå övriga ord i en mening är något som kräver mer avancerade algoritmer för att funktionen verkligen ska un- derlätta för användaren. Att enbart basera ordförslagen på trigram ger någorlunda bra resultat, men för att få verkligt tillfredsställande resultat krävs kompletterande tekniker för ordförslagsgenerering. Storleken på texten som språkmodellen bygger på är av betydelse där en större text ger fler och bättre ordförslag, samt vid färre tillfällen misslyckas med att föreslå ord.

(26)
(27)

Litteraturförteckning

[1] Christina Myers-Shaffer. Barron’s SAT Subject Test Literature 2009, 4th edi- tion. Barron’s Educational Series, Hauppauge, New York, 2008.

[2] Miller Williams. Patterns of poetry: an encyclopedia of forms. Louisiana State University Press, 1986.

[3] The Poetry Archive. Definition of poetic form. http://www.poetryarchive.

org/poetryarchive/glossaryItem.do?id=8094, April 2013.

[4] The Poetry Archive. Definition of stress. http://www.poetryarchive.org/

poetryarchive/glossaryItem.do?id=8075, April 2013.

[5] The Poetry Archive. Definition of limerick. http://www.poetryarchive.org/

poetryarchive/glossaryItem.do?id=8082, April 2013.

[6] Cynthia Tam BScOT MSc and David Wells PhD. Evaluating the benefits of displaying word prediction lists on a personal digital assistant at the keyboard level. Assistive Technology: The Official Journal of RESNA, 2009.

[7] Dave Raggett Michael K. Brown, Andreas Kellner. Stochastic language models (n-gram) specification. http://www.w3.org/TR/ngram-spec/, Januari 2001.

Hämtad 8 april 2013.

[8] Tommi A Pirinen, Miikka Silfverberg, and Krister Lindén. Improving finite- state spellchecker suggestions with part of speech n-grams. Technical report.

[9] Fei Song W. Bruce Croft. A general language model for information retri- eval. Proceedings of the eighth international conference on Information and knowledge management, pages 316–321, 1999.

[10] Google Inc. Google n-gram viewer. http://books.google.com/ngrams/, April 2013.

[11] Viggo Kann. Föreläsningsanteckningar om datastrukturer och sök- ning. http://www.csc.kth.se/utbildning/kth/kurser/DD1352/adk12/

schema/ADK12-F3.pdf, April 2013.

(28)

LITTERATURFÖRTECKNING

[12] Språkbanken. Press98. http://spraakbanken.gu.se/swe/resurs/press98, April 2013.

[13] Svenska dikter. Press98. http://sv.dikt.org/Kategori:Alla_dikter_

alfabetisk, April 2013.

(29)

Bilaga A

Testpersonernas texter från undersökningen

A.1 Julklappsrim baserade på dikter

Här presenteras samtliga julklappsrim som testpersonerna skrev där träningstexten var dikter.

Jag är lycklig när jag sover

Vad önskar jag mer än faderns pullover Du är röd

Som det doftande studiestöd Kan du tänka och handla Se in i förvandla

Läs och njut

Den svenske björnen har sexdebut Den är värd att röra klaveret

Annars kommer försvarshögkvarteret.

I denna amulett det är sant att uti purpurns glans.

Men nu stod leda där skrifven den zigenerskans.

Dikten låter fin och fyndig en note ur hans hjärta.

Läs den väl och förtära tills man tumlar trycksvärta.

Att rimma på dikter är inte mitt skinn över det yttre.

Sammanhängande är den kärlek jag gav yttre.

Jag tror att jag föll i gråt

När jag sist satt vid din första atomubåt Jag vill ledas av mjuka armar

Som att se en spetälsk kastar tarmar Att läsa i den gröna sängen

Är som om en man med tiden blir huvudpoängen

(30)

BILAGA A. TESTPERSONERNAS TEXTER FRÅN UNDERSÖKNINGEN

Att läsa i den djupa bikten

Är att dö i toner och i kuwaitkonflikten I år efter år göteborg har vuxit

och frodats som andra vuxit Att säga något är viktigt är en gammal drömbok riktigt När jag är lycklig

min vän du endast kan mig godtycklig Av mig tar du på ditt blad

ingen oren vågar kinden lärstad här har du i grytan

du tar bort bildytan du har hjälpt att segra jag är lycklig när jag stegra åt dig ämnas men min fogel här har du att vogl

jag kan ej av tomma ord få lugn

du är en moltke strategiskt lärd och kakelugn Jag ville följa dig på juleqvällen som en skugga För jag vet att du har makten över att hugga In i hjärtegropen hvar letare fick hvad var väl Men sedan vill jag ej mer skriva ihjäl

Mig. Och låt oss gå under naken himmel Jag vill sova vid din sänghimmel

En sådan dyrbar vän är den Som du skär allt med. Kniven.

Här är glädjens timme kommen må mig gud så visst förlåta som eskimå Men hur än lustans bölja vaggar oförfärad

i sin hundsommarglöd över hedar trosa-vagnhärad Så kan du dock en vålnad stigande ur

graven och när hon slöt sin distributionsstruktur En fin épitre åt tjuserskanliberté men

hon stod mig när solen sakta tittar igen han kom allena förbi min bana

skum och dyster syntes skogen marjaana han som heter både kraft och heder

finns här inga hjonelag att stifta stockholmsleder om han kände sig främmande på gamla ting och delade jordens klassrumsundervisning

(31)

A.2. JULKLAPPSRIM BASERADE PÅ TIDNINGSTEXTER

jag har fått min själ du har talat med underbefäl du får ej en enda önskan du får ju den blomma önskan kanske en gång och går jag ensam men utan tvekan utan häpnad ensam och utan fruktan stiger anden som en suck när jag får se din oskuld lika klart lasttruck

Här får jag spara om än med lyxvara den är kall och blek använd för låtsaslek om du vill veta borde du samarbeta jag vill leva

låt mig skreva

A.2 Julklappsrim baserade på tidningstexter

Här presenteras samtliga julklappsrim som testpersonerna skrev där träningstexten var tidningstexter.

i köket är det svårt att göra support

denna kan förklaras med mindre bra i livet och sindre

behöver du köpa det rätta kan du få mätta

din man hamnade i bilköer förhållandet mellan könen fröer

Sommaren är hemsk ibland.

Men under ytan finns skjöldebrand.

Om du inte vet vad som utlovats.

Kommer hästar för greken begåvats.

Läsa är en del av förklaringen.

Kom och lämna över förvaringen.

Om du skulle rangordna bland floran.

Så finns det inget att skylla på bondmoran.

jag är övertygad om att det är en mycket uppskattad kräftskiva här får du en jude som låter som en diva

en fin revansch för nederlaget mot italien

(32)

BILAGA A. TESTPERSONERNAS TEXTER FRÅN UNDERSÖKNINGEN

för den svenska regeringens större framgångar i australien en man som inte är särskilt intressant i sammanhanget med en annan värld under kampen mot etablissemanget en cool tjej som nu är den enda möjligheten

den enda vägen till puberteten Manlighet är föremål för intensiva

sammandrabbningar taymor som förvandlar korporativa Något du kanske inte har

en mycket bra som en kvinnokarl lätt vunnet men också för grovt olaga hot är nu inte räknas grovt

I den här säsongen har det funnits brister

nu får du naturligtvis förklara dessa personlighetsbrister Fredrik har spelat golf

han sticker till och sedan rudolph åker till landet och inte en chans

att han inte kan komma till rätta med finans

jag hatar att handla med kunskap om barnkonventionen men du har en annan och yngre optionen

fan hur ska man göra för att få en ny bok ät den som vill ha bort henne från dookh

Fy fan vad illa

Att du inte kan vara blickstilla Och läsa om en sådan situation Som sker på en pendeltågsstation Bara ta det lugnt och skönt Med en massa grönt Te. Som är så gott Till boken som är så hott

Det här är en mycket bra bok men efter ett tag blir man klok

Kanske handlar det om en ung kvinna som är på många sätt är en älskarinna det lärde jag mig själv när jag läste den som en slags behovsventil och jäste jag kom som reaktion

på den här sexpartimotion du har redan fått miljarder med kaffe och kaka på leoparder kan han tänka sig en knäck

(33)

A.3. FRITT TEST

om han inte längre har någon matsäck blir du efter några timmar av dödsångest inte besviken på den här panikångest

pest och pina trots att jag är en märklig och udda konst

kommer den här sortens soulmakare starka i språk och ordkonst du har tidigare gjort

en stor grupp människor förgjort jag gillar inte att man måste gå för jag är inte så mycket på

mamma kommer från den svenska marknaden

pappa kommer med stor sannolikhet exportmarknaden i säcken löser sig politikerna utom

bil utan att vara med i rygg dessutom har du läst damtidningar nu?

du behöver utforska mer ju fler ord här finns mycket

många gamla komiker och kvinnoförtrycket kan du få information om europas judar historia är spännande gudar

öppna och undersöka dags att försöka

A.3 Fritt test

Följande texter skrevs av testpersonerna när de fick använda programmet fritt.

Anna är ledsen över Skottland Hon har blivit slåttland

Om hon bedrog sig härnäst Fanns inte heller bingolottohäst Idag är sökarens lekande gillbrand

Den här kvinnan skulle knäcka.

Alla män i min lägenhet släcka.

Kom in dit trodde du verkligen att mitt gäng var myndigt.

Den övre raden var inte alls speciellt syndigt.

Hästar har alla fötter mellan benen jag tog körsträcka.

I julklapp önskar jag mig en gåta

En grogg på hotellrummet och en ny toyota Om jag får det skulle jag kunna tacka Dig för att han inte har någon läderjacka

(34)

BILAGA A. TESTPERSONERNAS TEXTER FRÅN UNDERSÖKNINGEN

Hästkött är det bästa som finns fråga bara findus och phil collins Idag ska vi äta det som drek lagar men skulden är inte bara onsdagar

Att drek inte kan jämföras med dkm är synd men tekniken är inte bara pengafynd

Det är häst som fixar det bra med mat drek har lärt sig att det är ger bra resultat

Det var en gång en valross som förirrat han hade en chans att få vara zirath men jag hade hoppats

att få komma till stoppats den här gången är det som irrat

Min vän Jonas är från Falun Och han är helt jävla galun Men det finns ingen anledning Att inte ha någon vägledning För att syssla med förtal. Un.

Vad gör du med hästen som

hade premiär på dramaten och omkom på stockholms läns landsting där han bodde.

Här gäller det att man icke skodde sig på mjuka människor från tjikkom

allt som inte kan köpas för pengar för pengar

krossa alla fönster slå in hans dörr låt honom veta att inget är som förr

säg som det är nu finns ingen väg tillbaks för nån som är en looser ett riktigt jävla as

ett riktigt jävla as

han har missat din mammas begravning check han har bränt alla tänkbara pansarglas

blommor är röda sköld är en kvinna flöda bystam kan suga föda hur sin mammas infraröda

maskinen är ett original därför vill humankapital spyr i ditt öra

(35)

A.3. FRITT TEST

det ska du omöjliggöra bystam är kul

han vet något matskjul där han äter sopor och vill hitta grävskopor

References

Related documents

Du ska känna till skillnaderna mellan ryggradslösa och ryggradsdjur Kunna några abiotiska (icke-levande) faktorer som påverkar livet i ett ekosystem.. Kunna namnge några

Detta ville personal- chefen ha till att vi var intermittent anställda (när man jobbar utan fast schema och blir inringd med rätt att tacka nej till jobb) och alltså varken skulle

[r]

Då två (lika) system med olika inre energier sätts i kontakt, fås ett mycket skarpt maximum för jämvikt då entropin är maximal, inre energin är samma i systemen och

 att kommunens inköpsavtal för animaliska produkter ska innehålla en explicit garanti från leverantören att det levererade köttet inte kommer från rituellt slaktade

Detta stämmer överens med Thedin Jakobssons (2004) studie där hon diskuterar att lärare verkar sätta detta som en hög prioritet. Eleverna ser inte idrotten som ett tillfälle där

Vi vill därför genom denna studie och med hänsyn till de förutsättningar som framkom i tidigare systematisk litteraturstudie, utforma en undervisningssituation för att synliggöra

Som tidigare nämnt lyfter Mars (2016, s. 82) behovet av lärarens förmågor att använda gester och musik samt ett ämnesadekvat språk för att kommunicera om musik i