Parafrasidentifiering med maskinklassificerad data : utvärdering av olika metoder

(1)

Linköpings universitet SE–581 83 Linköping

Linköpings universitet | Institutionen för datavetenskap

Kandidatuppsats, 18hp | Kognitionsvetenskap

202020 | LIU-IDA/KOGVET-G--2020/016--SE

Parafrasidentiﬁering med

maskin-klassiﬁcerad data, utvärdering av

olika metoder

Paraphrase identiﬁcation with computer classiﬁed paraphrases

–

An evaluation of diﬀerent methods

Oskar Johansson

Handledare : Arne Jönsson Examinator : Mattias Arvola

(2)

Upphovsrätt

Detta dokument hålls tillgängligt på Internet - eller dess framtida ersättare - under 25 år från publice-ringsdatum under förutsättning att inga extraordinära omständigheter uppstår.

Tillgång till dokumentet innebär tillstånd för var och en att läsa, ladda ner, skriva ut enstaka kopi-or för enskilt bruk och att använda det oförändrat för ickekommersiell fkopi-orskning och för undervisning. Överföring av upphovsrätten vid en senare tidpunkt kan inte upphäva detta tillstånd. All annan använd-ning av dokumentet kräver upphovsmannens medgivande. För att garantera äktheten, säkerheten och tillgängligheten ﬁnns lösningar av teknisk och administrativ art.

Upphovsmannens ideella rätt innefattar rätt att bli nämnd som upphovsman i den omfattning som god sed kräver vid användning av dokumentet på ovan beskrivna sätt samt skydd mot att dokumentet ändras eller presenteras i sådan form eller i sådant sammanhang som är kränkande för upphovsman-nens litterära eller konstnärliga anseende eller egenart.

För ytterligare information om Linköping University Electronic Press se förlagets hemsida http://www.ep.liu.se/.

Copyright

The publishers will keep this document online on the Internet - or its possible replacement - for a period of 25 years starting from the date of publication barring exceptional circumstances.

The online availability of the document implies permanent permission for anyone to read, to down-load, or to print out single copies for his/hers own use and to use it unchanged for non-commercial research and educational purpose. Subsequent transfers of copyright cannot revoke this permission. All other uses of the document are conditional upon the consent of the copyright owner. The publisher has taken technical and administrative measures to assure authenticity, security and accessibility.

According to intellectual property law the author has the right to be mentioned when his/her work is accessed as described above and to be protected against infringement.

For additional information about the Linköping University Electronic Press and its procedu-res for publication and for assurance of document integrity, please refer to its www home page: http://www.ep.liu.se/.

(3)

(4)

Sammanfattning

Detta arbete undersöker hur språkmodellen BERT och en MaLSTM-arkitektur funge-rar att för att identifiera parafraser ur ’Microsoft Paraphrase Research Corpus’ (MPRC) om dessa tränats på automatiskt identifierade parafraser ur ’Paraphrase Database’ (PPDB). Metoderna ställs mot varandra för att undersöka vilken som presterar bäst och metoden att träna på maskinklassificerad data för att användas på mänskligt klassificerad data utvär-deras i förhållande till annan klassificering av samma dataset. Meningsparen som används för att träna modellerna hämtas från de högst rankade parafraserna ur PPDB och genom en genereringsmetod som skapar icke-parafraser ur samma dataset. I resultatet visar sig BERT vara kapabel till att identifiera en del parafraser ur MPRC, medan MaLSTM-arkitekturen inte klarade av detta trots förmåga att särskilja på parafraser och icke-parafraser under träning. Både BERT och MaLSTM presterade sämre på att identifiera parafraser ur MPRC än modeller som till exempel StructBERT, som tränat och utvärderats på samma dataset, presterar. Anledningar till att MaLSTM inte klarar av uppgiften diskuteras och främst lyfts att meningarna från icke-parafraserna ur träningsdatan är för olika varandra i förhållande till hur de ser ut i MPRC. Slutligen diskuteras vikten av att forska vidare på hur man kan använda sig av maskinframtagna parafraser inom parafraseringsrelaterad forskning.

(5)

Innehåll

Sammanfattning iv Innehåll v Figurer vii Tabeller viii 1 Introduktion 1 1.1 Syfte . . . 2 1.2 Mål . . . 2 1.3 Forskningsfrågor . . . 2 1.4 Avgränsningar . . . 3 2 Bakgrund 4 2.1 Parafraser . . . 4 2.2 Textklassificering . . . 5 2.3 Tidigare parafrasidentifierare . . . 6 2.4 BERT . . . 6 2.5 Manhattans LSTM-nät . . . 7 2.6 Korpusar . . . 8 3 Metod 10 3.1 Implementation av parafrasidentifierare . . . 10 3.2 Formatering av Korpusar . . . 12 3.3 Utvärdering . . . 14 4 Resultat 16 4.1 Resultat från ZeroR-utvärdering . . . 16 4.2 Resultat från BERT . . . 16 4.3 Resultat från MaLSTM . . . 17

(6)

5 Diskussion 18 5.1 Resultat . . . 18 5.2 Metod . . . 20 5.3 Etik . . . 21 5.4 Framtida forskning . . . 22 6 Slutsats 24 Litteratur 25

(7)

Figurer

3.1 Visualisering av hur meningspar klassificeras av MaLST-arkitekturen . . . 12 3.2 Exempel på hur träningsdatan genereras ifrån PPDB med 10000 meningspar . . . . 13

(8)

Tabeller

3.1 Exempel på en icke-parafras . . . 11

3.2 Exempel på en parafras . . . 11

3.3 Översikt över de olika dataset som används i arbetet. Max sekvenslängd syftar högsta antal token som kan förekomma i ett meningspar från datasetet. . . 13

3.4 Formlerna för de olika utvärderingsmått som används i arbetet. TP, TN, FP och FN står för True positives, True Negatives, False Positives och False Negatives . . . 15

4.1 Resultat från ZeroR-utvärdering på tre olika kombinationer av dataset. . . 16

4.2 Resultat från BERT med PPDB-träningsdata . . . 17

4.3 Resultat från MaLSTM-utvärderingen med PPDB-träningsdata . . . 17

(9)

1 Introduktion

Språkteknologi är ett relativt brett fält inom datavetenskapen som bland annat omfattar att genom datorer förstå sig på och återskapa mänskligt språk. Detta är i sin grund ett stort åta-gande då mänskligt språk inkluderar allt från kroppsspråk till muntliga konversationer som alla har egna aspekter. Många av dessa aspekter hanterar människor utan att vara medvetna om vilka, om några, regler som styr dess format. Dessa aspekter kan därför vara mycket svåra att fånga i datorer då vi inte har explicit tillgång till reglerna som styr formatet. En av dessa språkliga aspekter som dyker upp i mänskliga konversationer är att behärska användning och förståelse av parafraser.

En parafras kan definieras som en omformulering av en mening som behåller samma semantiska information som originalmeningen (Bhagat & Hovy, 2013). Parafraser kan till ex-empel vara mera lättlästa, detaljerade eller tydligare än sina originalmeningar och kan vara parafraser i vissa kontexter och helt skilda meningar i andra. Inom språk finns det en nästin-till oändlig möjlighet att uttrycka samma sak på olika sätt och då datorer vill kunna tolka alla dessa olika uttryck krävs det någon form av metod för att avgöra vad uttrycket egent-ligen betyder, alltså kunna identifiera när uttrycket är en parafras av en redan känd mening för datorn. Detta problem visar sig konkret i flera aktuella tillämpningar av språkteknologi som till exempel textsimplifiering, sammanfattning, översättning eller informationssökning (Ganitkevitch & Callison-Burch, 2013).

(10)

1.1. Syfte

1.1 Syfte

Det finns en mängd metoder för att skapa parafraser och för att dessa ska kunna fortsätta ut-vecklas och utvärderas krävs det parallelställda korpusar som kan användas för att träna och utvärdera metoderna (Madnani & Dorr, 2010). Dessa korpusar är för nuvarande tidskrävande och dyra att skapa, då det krävs att människor identifierar meningspar som parafraser eller inte. Det finns metoder för att automatiskt ta fram potentiella parafraser från textmängder, men dessa maskinellt framtagna parafraser används inte i stor utsträckning då det inte finns några garantier att de framtagna parafraserna faktiskt är parafraser, utan att en människa se-dan för hand bedömer alla parafraser. Grunden för denna studie är att undersöka om dessa maskinellt framtagna parafraser kan användas för att träna datadrivna parafrasidentifierare på ett sätt som tillåter parafrasidentifierarna att kunna identifiera mänskligt klassificerade parafraser. Visar det sig att automatiskt framtagna parafraser fungerar som träningsdata kan det leda till att datamängden olika parafrasidentifierare har tillgång till ökar markant och analys av vilka sorters maskinframtagna parafraser som fungerar bäst kan ge kunskap kring vad som i gör att två meningar är eller inte är parafraser av varandra (Bhagat & Hovy, 2013).

1.2 Mål

Målet med detta projekt är att träna redan utvecklade datadrivna modeller för parafrasidenti-fiering på maskinklassificerade parafraser och jämföra resultaten från utvärdering på mänsk-ligt klassificerade parafraser med varandra. Förhoppningsvis kan detta arbete ligga till grund för fortsatt forskning datainsamling och hantering för parafrasidentifiering och generering.

1.3 Forskningsfrågor

1. Hur presterar en BERT-modell och en MaLSTM-arkitektur som parafrasidentifierare med maskinklassificerad träningsdata vid utvärdering på mänskligt klassificerad test-data i måtten:

• Precision • Recall • F_score

• MCC (Matthews Correlation Coefficient)

2. Hur lämpar sig maskinklassificerade parafraser som träningsdata till datadrivna para-frasidentifierare i förhållande till tidigare implementationer som tränas och testas på samma data?

(11)

1.4. Avgränsningar

1.4 Avgränsningar

Målet med detta arbete är endast att jämföra hur olika sorters parafrasklassificerare lämpar sig till att hantera maskinklassificerad träningsdata.Att maximera resultaten från MaLSTM och BERT ansågs därför sekundärt till att utvärdera om kombinationen av dataset fungerade. På grund av detta kan mer Fine-Tuning av BERT och modifiering av MaLSTM-arkitekturen ge högre resultat på framtida studier.

Arbetet jobbar med två engelskspråkiga korpusar utvalda på grund av sin storlek och kvalité. Fler korpusar skulle kunna användas i framtida studier för att utesluta att resultat från detta arbete endast härstammar ifrån valet av data.

Arbetet utförs med begränsade processorkraft, detta påverkar mängden parafraser som bearbetas och storleken av modellerna.

(12)

2 Bakgrund

I detta kapitel kommer tidigare forskning tas upp, de nyckelbegrepp som används i arbetet definieras och bakgrunden till de olika metoderna som används för att identifiera parafraser kommer ges.

2.1 Parafraser

Parafraser är lingvistiska konstrukt som rent logiskt definieras som två fraser eller meningar som förmedlar samma innehåll. Däremot används begreppet inte lika strikt i verkligheten och en parafras av en fras kan innehålla mer, mindre eller exakt samma information som sin originalfras (Bhagat & Hovy, 2013). Ett exempel på detta är följande meningar (a) och (b):

(a) Det sägs att detta är en parafras. (b) Oskar sa att detta är en parafras.

Här är (b) en parafras av (a) på det sättet att (a) innefattas helt och hållet av (b), men (b) innehåller mer information än (a). Enkla metoder för parafrasidentifiering hade nog uppfattat dessa meningar som parafraser av varandra trots den skillnaden, då en stor mängd av orden överlappar i båda meningarna och meningarna förmedlar till stor del samma information, men för andra meningspar kan det bli svårare.

Följande meningar innehåller samma information men kan vara mycket svårare att kor-rekt klassificera som parafraser.

(13)

2.2. Textklassificering

(B) Kirunabon Frida föddes juni 1993.

Dessa meningar är svåra att korrekt klassificera som parafras då det krävs kontextuell in-formation som finns utanför meningen för att koppla Fridas födelseår till hennes nuvarande ålder och väldigt få ord överlappar i meningarna.

Bhagat och Hovy (2013) väljer att särskilja parafraser och det dem kallar kvasi-parafraser för att undvika dessa otydligheter kring hur olika innebörd fraserna som konstituerar pa-rafraser får inneha. Enligt Bhagat och Hovy (2013) är en parafras två fraser med identisk semantisk mening. Det Bhagat och Hovy (2013) kallar kvasi-parafraser är det som vardagligt kallas för parafras och dessa kan skilja sig åt mer i semantisk mening än vad ’äkta’ parafraser kan och ändå anses av språkteknologer att vara parafraser. I detta arbete kommer den breda-re definitionen av parafras (kvasi-parafras) att används för alla parafraser och de parafraser behandlas i arbetet kommer att innefattas av Bhagat och Hovys lista över kvasi-parafraser (2013).

2.2 Textklassificering

Textklassificering, även kallat textkategorisering eller textidentifiering är en språkteknologisk uppgift där ett system tar emot text i form av meningar, dokument, webbsidor eller liknande och sedan sätter tilldelar systemet texten en eller flera klasser beroende på vilken sorts klassi-ficeringsuppgift det är. (Sebastiani, 2002). Det finns fyra olika sorters klassiklassi-ficeringsuppgifter som system kan utföra (Sokolova & Lapalme, 2009):

• Binär (Binary), detta innebär att texten som systemet klassificerar ska placeras i en av två olika kategorier. Exempel på detta kan vara att klassificera en text som lätt el-ler svårläst, elel-ler att identifiera meningspar som parafraser bland meningspar av icke-parafraser.

• Multi-klass (Multi-class), detta innebär att texten som systemet klassificerar ska place-ras i en av flera olika kategorier. Exempel på detta kan vara att klassificera genre hos en text eller att klassificera en text efter politisk tillhörighet.

• Multi-stämpel (Multi-label), detta innebär att texten som systemet klassificerar ska pla-ceras in i en eller flera kategorier. Exempel på detta kan vara att automatiskt tilldela en text nyckelord, eller tilldela teman till en låttext.

• Hierarki-baserat (Hierarchical), detta innebär att texten som systemet klassificerar ska placeras in i en klass som sedan kan ingå i en större klass eller delas upp i mindre klasser. Exempel på detta kan vara att klassificera en text till ett vetenskapligt fält, eller att klassificera en text efter språk/dialekt.

(14)

2.3. Tidigare parafrasidentifierare

Dessa olika sorters klassificeringsuppgifter innefattar sina egna svårigheter, men generellt för alla klassificeringsuppgifter är att det behövs någon form av data för att utvärdera systemet och om klassificeraren är datadriven krävs det data för att träna den. Datan som utvärderas och tränas på behöver innan utvärdering och träning vara klassificerad med korrekt klas-ser och att hitta denna färdigklassificerade datan är en stor del av konstruerandet av själva textklassificeraren.

2.3 Tidigare parafrasidentifierare

Att generera parafraser har forskats på sedan 70 talet och det har utvecklats ett stort antal oli-ka metoder för att generera parafraser (Riesbeck m. fl., 1975; Goldman, 1975; Madnani & Dorr, 2010). Identifieringen av parafraser forskas om i dagsläget främst via två utav uppgifterna i GLUEs riktmärkena för språkförståelse (A. Wang m. fl., 2018). GLUE är en sammanställning av olika riktmärken som används för att utvärdera hur kapabla olika språkmodeller är att hantera engelska. De två relevanta uppgifterna i GLUE är att korrekt identifiera parafraser i Microsofts ’Paraphrase Research Corpsus’, MPRC, och i Quoras ’Question pairs’, QQP, från kaggle-tävlingen med samma uppgift1(Dolan & Brockett, 2005). Att korrekt kunna identifie-ra paidentifie-rafidentifie-raser anses vaidentifie-ra en bidentifie-ra indikator på att en generell språkmodell har bidentifie-ra förståelse av språket den hanterar.

Den parafrasidentifieraren som har bäst generella resultat är ’PING-AN OMNI-sinitic’ och den uppnår ett F-score/accuracy på 94.0/92.0 på MPRC och 76.1/91.0 på QQP2. PING-AN OMNI-sinitic är utvecklad av kinesiska företaget ’Ping An Insurance Company of China’. Tyvärr är arkitekturen bakom modellen inte tillgänglig då det inte finns någon publicerad litteratur kring modellen.. Den modell som uppnår bäst resultat på parafrasidentifiering och som det finns publicerat material kring är StructBERT (W. Wang m. fl., 2019). StructBERT är en utvecklad variant av BERT där BERT-modellen explicit förtränas på språkstruktur för att bätt-re utföra språkuppgifters som involverar någon form av språkstruktur. StructBERT uppnår F-score/accuracy på 93.9/91.9 på MPRC och 74.8/91.0 på QQP. Att StructBERT uppnår des-sa höga resultat tyder på att förtränade språkrepresentationsmodeller lämpar sig väl för att identifierar parafraser.

2.4 BERT

BERT är en språkrepresentationsmodell utvecklad av Google och står för ’Bidirectional En-coder Representations from Transformers’ (Devlin m. fl., 2018). En BERT-Model innehåller information från stora textmängder i dess kontext och hur texten passar ihop med annan

1_{https://www.kaggle.com/c/quora-question-pairs} 2_{https://gluebenchmark.com/leaderboard}

(15)

2.5. Manhattans LSTM-nät

text. Denna modell är det som kallas en ’förtränad modell’ och i detta arbete används den engelskspråkiga modellen ’BERT-Base’3. BERTs förträning består av två uppgifter, att iden-tifiera dolda ord i en mening och förutsäga nästkommande mening i en text. BERT-modellen kan sedan anpassas till en mängd olika språkteknologiska uppgifter via en process som kal-las finjustering och det är via finjusteringen som modellen kan utformas till att identifiera parafraser. BERT har visat sig prestera väl på en mängd olika språkteknologiska uppgifter och det har utvecklats och publicerats utförligt om dess förmåga som meningsklassificerare (Sun m. fl., 2019). Original-BERT har valts som modell till detta arbete, till skillnad från exem-pelvis StructBERT (W. Wang m. fl., 2019), på grund av tillgängligheten av information kring hur modellen kan implementeras som meningsklassificerare4.

Finjustering

Finjusteringen av en BERT-modell är det som anpassar själva modellen till att utföra en viss uppgift. Den grundläggande BERT-modellens output är inget mer än representationer av se-mantisk och syntaktiskt information hos inputen modellen fick, och det är genom att föra den informationen genom en annan sorts arkitektur (’huvudet’) som vi får fram en klassificering av inputen. Det är vid valet av vilken sorts arkitektur som BERTs output ska gå till, träningen av den arkitekturen och grundmodellen och eventuellt förträning av BERT som finjustering-en går till. Det finns finjustering-en mängd olika metoder för att finjustera BERT. Enklast är att bara träna BERT och det eventuellt nya huvudet på ny data, men att finjustera kan även innebära att för-träna metoden på fler eller andra uppgifter än dem två som ursprungligen BERT-modellen tränats på för att bättre utföra specifika uppgifter (Sun m. fl., 2019).

Beroende på vilken slutgiltig uppgift BERT-modellen är tänkt att utföra har det skapats en mängd olika BERT-modeller i projektet ’HugginFace Transformer’ med olika huvuden base-rat på vilken uppgift som är tänkt att utföras (Wolf m. fl., 2019). Dessa modeller består i regel av grundläggande BERT-BASE eller BERT-LARGE med ett linjärt lager ovanpå, tillsammans med en funktion för att tolka det lagrets output om så behövs. För sekvensklassificeringspro-jekt som detta lämpar sig modellen BertForSequenceClassification. BertForSequenceClassifi-cation är en modell byggd på open-source ramverket PyTorch designad för att låta använda-ren enkelt finjustera BERT-modellen efter användaanvända-rens klassificeringsbehov.

2.5 Manhattans LSTM-nät

Den andra metoden som används för att identifiera parafraser i detta arbete kallas Manhat-tans LSMT (MaLSTM) och är en arkitektur bestående av två LSTM-nät ihopkopplade till

sam-3_{https://github.com/google-research/bert}

(16)

2.6. Korpusar

ma output i vad som kallas ett siamesiskt nät (Mueller & Thyagarajan, 2016). LSTM står för ’Long Short Term Memory’ och är neurala nät som använder sig av information från tidigare bearbetad data till bearbetning av senare data. Den användningen av lagrad information är det som ger LSTM-näten deras ’Minne’. Dessa nät är effektiva inom språkteknologi då språk är fullt av kontextberoende information och för att kunna förstå innebörden av ett ord/stycke behövs information om vad som kom bearbetats tidigare i processen.

Outputen av de två LSTM-näten är oftast satt till skillnaden mellan de två nätens out-put som uträknat av en outout-putfunktion, i denna sortens arkitektur är skillnaden lika med Manhattan-avståndet mellan outputen. Dessa siamesiska nät har visat sig vara passande till att avgöra textlikhet (Dalmet m. fl., 2020) och funkar då bra för att identifiera parafraser. Den-na metod skiljer sig från BERT i att ingen förträning har gjorts inDen-nan parafraserDen-na börjar användas för träning. MaLSTM är alltså tränad helt från grunden att identifiera parafraser, vilket gör att den innehåller mindre kontextuell information än vad BERT gör, men innehål-ler efter träning i teorin inte någon icke-relevant data på samma sätt som BERT. MaLSTM-arkitekturer har visat sig vara kapabla till att identifiera parafraser vid tidigare forskning (Aziz m. fl., 2019) och det finns vägledning kring hur man skulle kunna implementera arki-tekturen för just parafrasidentifiering5och är varför denna metod har valts ut till arbetet.

2.6 Korpusar

Detta arbete använder sig av två olika korpusar, en för träning och en annan för utvärdering. Korpusen som används för träning kallas PPDB och är en stor samling (över 100 miljoner parafraser) maskinklassificerade parafraser där de högst rankade parafraserna används. Pa-rafraserna kommer sorterade i datasättet efter skaparnas egna mått på hur bra parafrasen är (Pavlick m. fl., 2015). Den andra korpusen som används är MRPC (Microsoft Research Parahrase Corpus) och den består av parafraser och icke-parafraser klassificerade av män-niskor (Dolan & Brockett, 2005). Parafraserna som mänmän-niskorna bedömde togs fram av ett regelbaserat system baserat på internetartiklar från 2004-2005. Det finns förutom PPDB och MRPC en till parafraskorpus som används ofta inom parafras-bearbetning, Quoras ’Question Pairs’-korpus, QQP, som består av olika frågor som Quoras användare har bedömt om de har samma betydelse. QQP lanserades i samband med en kaggle-tävling att automatiskt identi-fiera dessa frågepar6. Detta dataset valdes bort från att användas i detta projekt då det bara innehåller fråge-parafraser och ingen av dem andra korpusarna innehåller frågor över huvud taget. Bedömningen gjordes att detta dataset var för olikt dem andra för att meningsfull infor-mation skulle kunna överföras från det ena dataset till det andra, men framtida studier kan

5

https://medium.com/mlreview/implementing-malstm-on-kaggles-quora-question-pairs-competition-8b31b0b16a07

(17)

2.6. Korpusar

göras om lämpligheten kring detta och om det finns metoder för att undvika detta eventuella problem.

(18)

3 Metod

I detta kapitel beskrivs implementationen av de olika parafrasidentifierarna, formatering av datan som används av modellerna och hur modellerna utvärderas. Alla modeller tränades och utvärderades fem gånger vardera på de tre olika mängder träningsdata, 10000 parafraser, 15000 parafraser och 300000 parafraser. De tre olika mängderna träningsdata valdes som en avvägning mellan målet att utforska påverkan av datamängd samt resurstillgång.

3.1 Implementation av parafrasidentifierare

I denna sektionen förklaras hur implementationerna av BERT och Manhattans LSTM-nät ser ut i detta projekt.

Implementationen av BERT

Implementationen av BERT i detta arbete är baserat på en guide skriven Jay Alammar1för att klassificera filmrecensioner som i detta projekt har skrivits om för att identifiera parafraser. Den förtränade Bert-modellen som används är engelskspråkiga ’BERT-Base’. BERT-modellen är kompletterad av ett ’head’ (kommer kallas huvud från och med nu i arbetet) som kallas ’BERTForSequenceClassification’ taget från Hugginfaces Transformers2som används för att avgöra om meningsparet är en parafras eller inte.

Alla meningar som behandlas av BERT tokeniseras av ’BERTTokenizer’ från Hugginface-projektet3 _{för att sedan behandlas av den huvudsakliga}

BERTForSequenceClassification-1_{http://jalammar.github.io/a-visual-guide-to-using-bert-for-the-first-time/}

2_{https://huggingface.co/transformers/model_doc/bert.html#bertforsequenceclassification} 3_{https://huggingface.co/transformers/model_doc/bert.html#berttokenizer}

(19)

3.1. Implementation av parafrasidentifierare

modellen. Meningspar behandlas av sekvensklassificeraren som ett enstaka input innehål-lande två sekvenser separerade med en [SEP]-tagg för att visa modellen att det är två olika sekvenser tillsammans med nyckeln huru vidare sekvenserna är parafraser av varandra eller inte (’1’ för parafras och ’0’ för icke-parafras). Efter att modellen har tränats, utvärderas den på hela ’Research Paraphrase Corpus’ som har formaterats på samma sätt som träningsdatan (Dolan & Brockett, 2005).

Original is in breach of [SEP] to guarantee

the right to

Tokeniserad [’is’, ’in’, ’breach’, ’of’, ’[SEP]’,_{’to’, ’guarantee’, ’the’, ’right’, ’to’]} Tokiniserad med ID [2003, 1999, 12510, 1997, 102,

2000, 11302, 1996, 2157, 2000]

Tagg 0

Tabell 3.1: Exempel på en icke-parafras

Original you ’re going to be okay [SEP]_{you ’re gonna be okay}

Tokeniserad [’you’, "’", ’re’, ’going’, ’to’, ’be’, ’okay’, ’[SEP]’,

’you’, "’", ’re’, ’gonna’, ’be’, ’okay’]

Tokeniserad med ID [2017, 1005, 2128, 2183, 2000, 2022, 3100, 102,

2017, 1005, 2128, 6069, 2022, 3100]

Tagg 1

Tabell 3.2: Exempel på en parafras

Implementationen av MaLSTM

Implementation av MaLSTM som används i detta arbete är baserat på Elior Cohens imple-mentation för att identifiera frågepar4. MaLSTM-arkiteturen tar emot meningarna i form av två word2vec-embeddings5, en för varje mening. Dessa word2vec-embeddings bearbetas av det vänstra och högra nätet i arkitekturen och likheten mellan de olika meningarna räknas som manhattan-avståndet mellan nätens output. Manhattan-avståndet räknas ut genom föl-jande formel, exp(´

› › ›h

le f t_´_hright››

› 1), där ’h

le f t_{’ och ’h}right_{’ står för de dolda tillstånden} ("hid-den state") från dem olika näten i arkitekturen. Är avståndet mellan meningarna tillräckligt liten anses meningarna vara parafraser och annars bedöms meningarna som icke-parafraser av varandra. En översikt över denna process visas i figur 3.1.

Näten i MalSTM arkitekturen som används i detta arbete är två likadana LSTM-nät be-stående av 50 dolda lager. Näten bearbetar datan i grupper av 64, så kallade batches, och

4

https://medium.com/mlreview/implementing-malstm-on-kaggles-quora-question-pairs-competition-8b31b0b16a07

(20)

3.2. Formatering av Korpusar

Figur 3.1: Visualisering av hur meningspar klassificeras av MaLST-arkitekturen

använder sig av optimeringsmetoden ADADELTA (Zeiler, 2012) för optimering med en gra-dientklippningsnorm på 1.25 för att förhindra att potentiella fel i nätverket ökar exponentiellt. Totalt går nätet igenom 25 epoker innan utvärdering sker.

3.2 Formatering av Korpusar

I denna sektion förklaras det hur korpusarna har formaterats och hanterats för att användas i arbetet. En översikt över korpusarna ges i tabell 3.3, grundligare beskrivning av korpusarna och dess formatering finns under respektive underrubrik.

(21)

3.2. Formatering av Korpusar

Antal meningspar Andel parafraser Andel Icke-parafraser Max sekvenslängd

PPDB 10000 50% 50% 26

30000 50% 50% 26

300000 50% 50% 31

MRPC 4076 67% 33% 100

Tabell 3.3: Översikt över de olika dataset som används i arbetet. Max sekvenslängd syftar högsta antal token som kan förekomma i ett meningspar från datasetet.

Korpusen PPDB innehåller flera miljoner parafraser, men detta arbete använder sig endast av de 10000, 15000 och 150000 bästa parafraserna(enligt PPDBs egna ranking). PPDB är inte optimal för maskininlärning då den bara innehåller parafraser (positiva exempel) och inte några icke-parafraser (negativa exempel) men detta kringgås i arbetet genom generering av icke-parafraser baserat på korpusens parafraser. Lika många icke-parafraser som det finns parafraser genereras genom att slumpmässigt para ihop meningar från nästkommande set av parafraserna ur PPDB. Denna process förklaras i figur 3.2. Här görs antagandet att genom att ta meningar från parafraserna från de (där N är antalet parafraser som ska användas) N till N2 högst rankade parafraserna och slumpmässigt para ihop med meningar från de N2 till N3 högst rankade parafraserna skapas inga eller en försumbar mängd faktiska parafraser.

Research Paraphrase Corpus

Korpusen ’Research Paraphrase Corpus’ innehåller till 67% parafraser och 33% icke-parafraser. De meningspar som utgör icke-parafraser är däremot är relativt lika parafraser, detta eftersom korpusen är uppbyggd genom att en algoritm hittar potentiella parafraser som sedan människor bedömde om de var parafraser eller inte.

(22)

3.3. Utvärdering

3.3 Utvärdering

Resultatet från de olika metoderna rapporterades som medelvärde från fem träningssessioner och utvärderingar i måtten Precision, Recall, F_score och ’Matthews correlation coefficient’ (MCC). Precision, Recall och F_score används på grund av deras status som standard inom språkteknologi och MCC används då den lämpar sig bättre för att utvärdera obalanserade dataset.

Det värde som ges av MCC är helt oberoende av storlek av klasserna. Detta gör att om klassificeraren till exempel är bättre på att identifiera parafraser än icke-parafraser påverkar det inte MCC-värdet om det finns många fler parafraser än icke-parafraser i testmängden. F_score och andra populära mått inom klassificering som ROC och Accuracy tar inte hän-syn till andelen korrekta positiva exempel i förhållande till negativa exempel som MCC gör (Chicco & Jurman, 2020). MCC är en skala mellan -1 till 1 och ett värde på -1 betyder att klas-sificeraren gissar fel på varenda klass, ett icke-problem då man bara kan invertera gissningen från klassificeraren för att få perfekt resultat i detta fall. MCC på 0 betyder att det inte finns något samband mellan hur bra klassificeraren är på en klass i förhållande till den andra, att för varje exempelvis korrekt klassificerad parafras har inte klassificeraren lyckats klassificera en enda icke-parafras. MCC på 1 betyder att klassificeraren perfekt lyckas klassificera alla ex-empel, i detta arbete hade det inneburit att varje parafras och icke-parafras blir identifierade av modellen. Formlerna för de olika måtten står utskrivna i tabell 3.4. Anledningen till att medelvärdet från fem sessioner användes är för att resultaten kan variera beroende på vilka icke-parafraser som bildats av formateringen av PPDD och påverka hur modellerna identifi-erar icke-parafraser. Specifikt fem sessioner av träning och utvärdering valdes av hänsyn till validitet och resursåtgång.

Resultat i form av en baslinje skapad genom metoden räknas även ut. ZeroR-metoden innebär att man räknar ut hur resultatet från utvärdering skulle sett ut om mo-dellen klassificerade alla instanser som den klass som var mest frekvent under träning. Detta gjordes för att sätta resultaten i kontext till hur en enkel men funktionell klassificerare hade fungerat på samma dataset. Då både BERT och MaLSTm tränas på ett annat dataset än det de utvärderas på rapporteras ZeroR i tre varianter:

1. Resultatet från träning och testning på PPDB. 2. Resultatet från träning och testning på MRPC.

(23)

3.3. Utvärdering

Mått Formell Precision _TP+FPTP Recall _TP+FNTP

F_score 2 ˚_{precision+recall}precision˚recall

MCC MCC= ? TP˚TN´FP˚FN

(TP+FP)(TP+FN)(TN+FP)(TN+FN)

Tabell 3.4: Formlerna för de olika utvärderingsmått som används i arbetet. TP, TN, FP och FN står för True positives, True Negatives, False Positives och False Negatives

(24)

4 Resultat

I detta kapitel presenteras först resultat från en ZeroR-utvärdering av arbetets dataset, resul-taten från båda metodernas utvärdering samt resultatet från MaLSTMs träning.

4.1 Resultat från ZeroR-utvärdering

Tabell 4.1 visar resultaten från ZeroR-utvärderingen. I samtliga kombinationer av dataset var parafraser lika eller mer frekventa än icke-parafraser och därför motsvarar precision andel parafraser i utvärderingsdata.

Träningsdata Utvärderingsdata Precision Recall F_score MCC

PPDB PPDB .5 .5 .5 0

MPRC MPRC .6754 1 0.8063 0

PPDB MPRC .6754 1 0.8063 0

Tabell 4.1: Resultat från ZeroR-utvärdering på tre olika kombinationer av dataset.

4.2 Resultat från BERT

Som tabell 4.2 visar uppnår implementationen av BERT genomgående högre recall och F_score vid större datamängder, men precision sjunker och MCC:n visar sig vara högst vid 30000 antal meningspar.

(25)

4.3. Resultat från MaLSTM

Antal meningspar Precision Recall F_score MCC

10000 .7990 .6092 .6913 .272

30000 .7920 .6610 .7206 .283

300000 .7591 .7559 .7570 .254

Tabell 4.2: Resultat från BERT med PPDB-träningsdata

4.3 Resultat från MaLSTM

Tabell 4.3 visar att MaLSTMs uppnår samma resultat som ZeroR-utvärderingen för alla mått med alla antal meningspar i träningsmängden. Det innebär att MaLSTM efter träning bedö-mer alla meningspar ur testmängden som parafraser oavsett antal meningspar i tränings-mängden och vilka icke-parafraser som slumpvis genererats av formateringen av PPDB. Det-ta är inte en strategi som modellen använder sig av i träning däremot då Tabell 4.4 visar att modellen uppnår bra förmåga att skilja på parafraserna och icke-parafraserna i PPDB men med marginellt små skillnader beroende på antal meningspar som tränades på.

10000 .6754 1.0 .8063 0

30000 .6754 1.0 .8063 0

300000 .6754 1.0 .8063 0

Tabell 4.3: Resultat från MaLSTM-utvärderingen med PPDB-träningsdata

10000 .9887 .9493 .9686 .6430

30000 .9872 .9351 .9604 .6440

300000 .9789 .9543 .9308 .6524

(26)

5 Diskussion

I detta kapitel diskuteras resultatens betydelse samt vad som skulle kunna förbättras eller ändras för framtida arbeten inom samma ämne.

5.1 Resultat

I denna sektion tas de skillnader som syns i resultatet och eventuella anledningar till varför skillnaderna uppstår eller inte uppstår lyfts. Sektionen är uppdelad i vad för skillnader som uppstod mellan de olika metoderna och mellan de olika storlekarna på träningsmängden.

Skillnader mellan metoderna

Resultaten visar tydligt att BERT är kapabelt till att lära sig av PPDB-datan för att sedan identifiera parafraser i MPRC medan MaLSTM i denna implementation inte var kapabel till samma sorts kunskapsöverföring. Även om MaLSTM uppnådde ett högre F_score än BERT var dess MCC betydligt mycket lägre och likadan resultat som ZeroR-utvärderingen tyder på att modellen bedömde alla resultat som parafraser och inga som icke-parafraser. MaLSTM uppvisar däremot inte samma tendens under träning, vilket kan tyda på att omformatering av träningsdatan för att bli mer lik test-datan skulle kunna få modellen att korrekt identifiera icke-parafraser.

BERT

Som resultaten från tabell 4.2 visar lyckas BERT till viss del klassificera parafraser och icke-parafraser. Detta resultat är däremot sämre än vad BERT presterar när den tränas och testas

(27)

5.1. Resultat

på samma dataset som visas i originalpappret för BERT då modellen (BERT-BASE) uppnår en F_score på 88.9(Devlin m. fl., 2018). Det är inte oväntat att ett system som tränas och utvär-deras på samma sorts data presterar bättre än ett som använder sig av olika data till träning och testning, men att BERT trots skillnaden mellan träning-och-testdata klarade av att klassi-ficera parafraser visar att modellen är kapabel till någon form av kunskapsöverföring inom denna domän. Till exempel StructBERT uppnår bättre resultat än BERT genom att förträna modellen på mer avancerade uppgifter än vad original-BERT tränats på vilket leder till ökad förmåga att skilja på parafraser och icke-parafraser (W. Wang m. fl., 2019). En grundligare un-dersökning av hur BERT lämpar sig till att hantera olika data för träning och testning skulle kunna använda sig av två eller flera olika korpusar samtidigt för träning och sedan utvärdera en annan korpus. Det skulle även vara intressant att utvärdera BERTs förmåga att identifiera parafraser med icke-domänspecifika parafraser. MPRC består endast av parafraser ifrån ny-hetsartiklar, vilket kan medföra en viss bias i hur meningarna ser ut, samma sak gäller QQP som endast består av frågepar. PPDB har fördelen att den är fri från specifika bias då den bygger på data från en mängd olika sorters källor och kan då troligtvis lättare generaliseras till andra parafras-domäner (Ganitkevitch & Callison-Burch, 2013).

MaLSTM

Tabell 4.3 visar att MaLSTM inte identifiera en enda icke-parafras vid utvärdering på MPRC och bedömer alla meningspar i testmängden som parafraser. Detta tyder som tidigare dis-kuterat på att träningsdatan är för olik testdatan för att MaLSTM ska kunna göra någon meningsfull kunskapsöverföring mellan dataseten. Metoden uppnår däremot relativt höga resultat på träningsdatan och resultaten i tabell 4.4 visar att MaLSTM i över 9 av 10 fall kan identifiera en parafras från icke-parafras bland detta dataset. Detta visar att modellen är gångbar för att identifiera parafraser men att den är känsligare för hur lik träning och testdata är. Överanpassningen till träningsdatan skulle kunna motverkas genom att träna på ännu lägre antal meningspar än som används i detta arbete (<10000) och genom att eventuellt blanda in delar av andra parafraskorpusar i träningsdatan för att motverka att modellen bara lär sig identifiera PPDB-parafraser och icke-parafraser. Tidigare studier har däremot visat att större datamängder ökar MaLSTM-metodens resultat markant och därför kan det vara bättre att fokusera på formatering av träningsdata eller införskaffning av mer varierad träningsdata (Aziz m. fl., 2019).

Skillnader mellan storlekar på träningsmängden

Storleken på träningsmängden hade delvis betydelse för BERT då modellen presterade bättre i måtten recall och F_score desto högre antal meningspar. Däremot visades generellt ingen

(28)

ge-5.2. Metod

nomgående ökning i MCC mellan de olika mängderna då 30000 meningspar visade sig vara bäst och 300000 sämst i detta avseende. Precisionen sjönk ju fler meningspar som användes för träningen.

För MaLSTM visade det sig ingen skillnad i utvärdering baserat på hur stor mängd trä-ningsdata som används, modellen klassificerar alla meningspar som parafraser oavsett antal meningspar den har tränats på. Detta tyder på att de mönster modellen lär sig för att iden-tifiera parafraser behandlar meningsparen i MPRC lika oavsett hur djupt tränad modellen är. MaLSTM uppvisade även bara små skillnader i hur väl den kunde identifiera parafraser från PPDB under träningen beroende på hur många meningspar den tränade på, vilket tyder på att de mönster som modellen lär sig går att upptäcka på relativt små datamängder och förändras inte signifikant med mer data.

För att höja resultatet från både MaLSTM och BERT verkar det som att det främst inte behövs datamängder, utan mer variation på datan så att modellerna kan lära sig regler som funkar på fler typer av parafraskorpusar. MaLSTM hade i teorin kunnat tjäna på att använda sig av lägre rankade meningspar från PPDB då dessa har färre likadana ord i meningarna. Det kan leda till att lika ord spelar mindre roll i klassificerandet, vilket i sin tur kan göra att modellen minskar betydelsen ord har för klassificering. Eftersom att meningarna i MPRC delar relativt stor mängd ord behöver modellen lära sig att andra metoder lämpar sig mer än denna för att avgöra vad som är en parafras eller inte.

5.2 Metod

I denna sektion lyfts hur arbetet skulle kunnat genomföras annorlunda för att uppnå bättre resultat generellt samt hur olika icke-önskade resultat kan undvikas i framtida forskning.

Formatering av data

En av de största förbättringarna som skulle kunna göras på detta arbete är att spendera mer resurser på att formatera träningsdatan på ett sätt som lämpar sig bättre för att sedan ap-pliceras på testdatan. I detta arbete är som nämnt i metoden alla parafraser för träningen framtagna av ett automatiskt system (Pavlick m. fl., 2015) som sedan alla icke-parafraser har genererats från genom att slumpmässigt kombinera meningar från tidigare parafraser. Det-ta får effekten att icke-parafraserna med stor sannolikhet blir väldigt annorlunda varandra språkligt. I detta arbete anses detta som rimligt då majoriteten av alla meningar inte ser ut som varandra i verkligheten. Däremot är meningarna som bygger upp icke-parafraserna i MRPC relativt lika varandra då en enkel algoritm från början har flaggat dessa som parafra-ser för att sedan en människa ska bedöma de som icke-parafraparafra-ser. Alltså är icke-parafraparafra-serna i MRPC mycket mer lika varandra än vad icke-parafraserna genererade från PPDB är. BERT

(29)

5.3. Etik

visade sig kunna hantera detta och kunde ändå använda sig av kunskapen den hämtat ifrån PPDB för att klassificera parafraser i MPRC, men MaLSTM lärde sig troligtvis särskilja para-fraser från icke-parapara-fraser genom mått som längd på mening och/eller andel överlappande ord i meningarna vilket inte fungerade för att särskilja MPRCs icke-parafras-meningar.

Problemet med att försöka automatiskt generera icke-parafraser med meningar som lik-nar varandra är att risken att man råkar sammanställa faktiska parafraser ökar och tränings-datan blir felaktig. MPRC och QQP undkommer detta problemet genom att använda sig av människoklassificering för att avgöra vad som är en parafras eller inte bland potentiella pa-rafraser som deras system har identifierat. Behöver man däremot göra det för att samman-ställa icke-parafraser från PPDB försvinner fördelen att slippa mänsklig arbetskraft genom att använda maskingenererade parafraser. För att få icke-parafraserna att likna varandra mer samtidigt som de inte blir faktiska parafraser behövs någon form av dataset där man kan ga-rantera att meningar inte är parafraser av varandra. Meningar från ett sådant dataset skulle sedan kunna paras ihop efter hur lika meningarna är och sedan användas som icke-parafraser för träning.

5.3 Etik

Detta arbete har inte någon stor påverkan på miljön, människor eller naturens hälsa direkt då arbetet behandlar icke-personlig information utan några specifika kontext till informationen mer än om den existerar i en omformulerad variant (som parafras). Däremot förs det dis-kussioner kring utvecklingen av stora språkmodeller likt BERT och energin so krävs för att träna dessa modeller. Strubell, Ganesh och McCallum (2019) visar i sitt arbete på miljökon-sekvenserna att träningen av exempelvis BERT-base gjorde sig av med energi motsvarande 0,652 ton koldioxid, en siffra som motsvara ungefär 7% av en svensk genomsnittliga årliga utsläpp av koldioxid (Naturvårdsverket, 2020). Modeller som kan hantera flera sorters språk-teknologiska uppgifter som BERT går däremot att företräna och sedan dela med andra. Detta leder till att andra som vill använda BERT-modellen precis som i detta arbete inte behöver spendera den mängd energi på att träna modellen och då eventuellt minska mängden energi de förbrukar jämfört med om de hade använt och från grunden tränat en annan sorts modell. Likt många språkteknologiska arbeten berör denna forskning främst etiska frågor kring automatisering och ökad tillgänglighet till övervakning och censur. Eftersom språk är ett mångfasetterat verktyg människor besitter är det främst människor idag som kan bedöma, övervaka och censurera andra människors tal och text. Exempelvis kan enkla filter med för-bjudna ord kringgås av användare genom att dessa användare formulerar sina intentioner med hjälp av parafraser som inte upptäcks av filtret. Arbeten som detta ökar potentialen och möjligheterna hos automatiska filter att upptäcka parafraser och kan därför användas till

(30)

5.4. Framtida forskning

censur för att eventuellt förtrycka eller skydda individer. Implementerat som ett system för att se till att icke-barnvänligt material inte laddas upp på barnvänliga sidor kan man argu-mentera att avancerad parafrasidentifiering är bra, men impleargu-menterat för att upptäcka och sedan meddela förtryckande regimer om exempel otillåtna diskussioner skulle många mena att implementationen är negativ ur mänskliga rättigheters synpunkt.

5.4 Framtida forskning

Detta arbete har undersökt hur BERT lämpar sig som parafrasklassificerare vid användning av annorlunda träningsdata och testdata i förhållande till MaLSTM. Det finns en mängd mer forskning som skulle kunna göras kring utformning av träningsdatan, valet av testdata, val av finjusteringsmetod och utformning av MaLSTM-modellen. Framförallt behövs det fortsatt forskning kring hur olika typer av korpusar lämpar sig som träningsdata för parafrasidenti-fiering.

Enkla vidareutvecklingar av detta projekt är till exempel att involvera korpusen QQP i antingen träning eller testning och se om dessa människoklassificerade meningspar kan till-föra mer kunskap om vad som konstituerar parafraser till systemet eller om dem i egenskap av att vara frågor istället för generella meningarförvirrar modellerna. QQP visar sig genom-gående vara svårare för olika modeller att korrekt identifiera parafraser ifrån1_{så testning på} QQP hade kunnat leda till att andra projekt kan lära sig vad som skiljer parafraserna därifrån med dem från till exempel MPRC och hur man bygger system som kan användas på båda typerna av parafraser effektivt.

Många varianter av BERT testas som parafrasidentifierare via utförandet av GLUE-testerna och framtida forskning skulle kunna använda sig av dessa varianter för att se om till exempel StructBERT lämpar sig bättre till att överföra metoder från en korpus till en an-nan (W. Wang m. fl., 2019). BERT förtränas på att identifiera dolda ord i meningar och att gissa vad nästkommande mening i en text är, denna förträning skulle kunna förändras eller kom-pletteras med att till exempel generera parafraser till meningar eller bara rent av identifiera parafraser för bättre anpassas till att endast identifiera parafraser om det är målet.

Utveckling av metoder att automatiskt ta fram parafraser från diverse olika källor är vik-tigt för att öka mångfalden av parafraskorpusar som används för parafras-relaterade upp-gifter. I dagsläget används främst QQP och MPRC (inom t.ex GLUE-testerna) vilket leder till att eventuella bias i dessa datamängder får stor påverkan på forskning kring parafraser. Detta är speciellt viktigt då parafrasidentifiering-och-generering används inom bland annat textförenkling och textförenkling i sin tur används för att öka tillgängligheten av skriven text. Om all forskning kring parafraser baseras på ett fåtal korpusar kan bias från dessa

(31)

5.4. Framtida forskning

pusar påverka människors informationstillgång och större antal korpusar kan minska eller åtminstone se till att biasen riktas åt flera håll och att då eventuellt dess inverkan minska.

(32)

6 Slutsats

Syftet med detta arbete var att utvärdera hur parafrasidentifiering med metoderna BERT och MaLSTM fungerade med träning av dessa modeller på maskinklassificerade parafraser. Skill-nader mellan hur metoderna lämpade sig för att identifiera människoklassificerade parafra-ser efter träning skulle jämföras och överlag skulle gångbarheten av träning och testning på denna sorts data utvärderas. Detta undersöktes tillsammans med om mängden träningsdata tillgänglig för modellen hade någon inverkan på modellens förmåga att korrekt klassificera meningspar som parafraser eller icke-parafraser.

Resultat visar att både BERT kunde hantera skillnaden mellan träning och testdata bätt-re än MaLSTM, som inte kunde hantera skillnaden alls. BERT pbätt-resterade däbätt-remot sämbätt-re än vad tidigare BERT-implementationer gjort på testdatan när den även tränats på samma data. Arbetet visade alltså att BERT kan, i sin nuvarande form, lära sig information från maskin-klassificerade parafraser och applicera den informationen på människomaskin-klassificerade para-fraser, medan MaLSTM inte klarade av det i formatet modellen och datan tog i detta arbete. Genereringen av icke-parafraser diskuteras som potentiell anledning till varför MaLSTM-arkitetkuren inte klarade av uppgiften och lösningar som att generera mer parafras-liknande icke-parafraser, blanda in människoklassificerade parafraser föreslås för att lösa det proble-met.

Detta arbete visade att det är möjligt att använda sig av denna sorts kunskapsöverföring från en maskingenererad parafraskorpus för att identifiera mänskligt klassificerade parafra-ser med BERT, men upptäckte flera problematiska aspekter med metoden. Framtida arbeten inom detta område behöver förslagsvis ta större hänsyn till icke-parafraserna som används för träning och utvärdera om metoden fungerar på andra dataset än MPRC.

(33)

Litteratur

Aziz, A. A., Diamal, E. C. & Ilyas, R. (2019). Paraphrase Detection Using Manhattan’s Recur-rent Neural Networks and Long Short-Term Memory. I 2019 6th International Confe-rence on Electrical Engineering, Computer Science and Informatics (EECSI). IEEE.

Bhagat, R. & Hovy, E. (2013). What Is a Paraphrase? Computational Linguistics, 39(3), 463–472. https://doi.org/10.1162/COLI\_a\_00166

Chicco, D. & Jurman, G. (2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC genomics, 21(1), 6.

Dalmet, W., Das, A., Dhuri, V., Khaja, M. & Karamchandani, S. H. (2020). Siamese Manhattan LSTM Implementation for Predicting Text Similarity and Grading of Student Test Papers. I Proceedings of International Conference on Wireless Communication. Springer. https://doi.org/https://doi.org/10.1007/978-981-15-1002-1_60

Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. (2018). Bert: Pre-training of deep bidirectio-nal transformers for language understanding. arXiv preprint arXiv:1810.04805. Dolan, W. B. & Brockett, C. (2005). Automatically constructing a corpus of sentential

paraph-rases. I Proceedings of the Third International Workshop on Paraphrasing (IWP2005), Äsian Federation of Natural Language Processing.

Ganitkevitch, B., Juri andVan Durme & Callison-Burch, C. (2013). PPDB: The Paraphrase Da-tabase. I Proceedings of the 2013 Conference of the North American Chapter of the Associa-tion for ComputaAssocia-tional Linguistics: Human Language Technologies, Atlanta, Georgia, As-sociation for Computational Linguistics. https://www.aclweb.org/anthology/N13-1092

(34)

Litteratur

Goldman, N. M. (1975). Sentence paraphrasing from a conceptual base. Communications of the ACM, 18(2), 96–106.

Madnani, N. & Dorr, B. J. (2010). Generating Phrasal and Sentential Paraphrases: A Survey of Data-Driven Methods. Computational Linguistics, 36(3), 341–387. https://doi.org/10. 1162/coli\_a\_00002

Mueller, J. & Thyagarajan, A. (2016). Siamese Recurrent Architectures for Learning Sentence Similarity. I Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, Phoe-nix, Arizona, AAAI Press.

Naturvårdsverket. (2020). Konsumtionsbaserade växthusgasutsläpp per person och år. Häm-tad 5 juni 2020, från https://www.naturvardsverket.se/Sa-mar-miljon/Statistik-A-O/Vaxthusgaser-konsumtionsbaserade-utslapp-per-person/

Pavlick, E., Rastogi, P., Ganitkevitch, J., Van Durme, B. & Callison-Burch, C. (2015). PPDB 2.0: Better paraphrase ranking, fine-grained entailment relations, word embeddings, and style classification. I Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Langu-age Processing (Volume 2: Short Papers), Beijing, China, Association for Computational Linguistics. https://doi.org/10.3115/v1/P15-2070

Riesbeck, C. K., Schank, R. C., Goldman, N. M. & Rieger, I., C. J. (1975). Inference and Parap-hrase by Computer. Journal of the ACM (JACM), 22(3), 309–328.

Sebastiani, F. (2002). Machine Learning in Automated Text Categorization. ACM Comput. Surv., 34(1), 1–47. https://doi.org/10.1145/505282.505283

Sokolova, M. & Lapalme, G. (2009). A systematic analysis of performance measures for clas-sification tasks. Information processing & management, 45(4), 427–437.

Sun, C., Qiu, X., Xu, Y. & Huang, X. (2019). How to Fine-Tune BERT for Text Classification? Chinese Computational Linguistics, 194–206. https : / / doi . org / 10 . 1007 / 978 3 030 -32381-3_16

Wang, A., Singh, A., Michael, J., Hill, F., Levy, O. & Bowman, S. R. (2018). GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. CoRR, abs/1804.07461arXiv 1804.07461. http://arxiv.org/abs/1804.07461

Wang, W., Bi, B., Yan, M., Wu, C., Bao, Z., Peng, L. & Si, L. (2019). StructBERT: Incorpora-ting Language Structures into Pre-training for Deep Language Understanding. arXiv preprint arXiv:1908.04577.

Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., Cistac, P., Rault, T., Louf, R., Funtowicz, M. & Brew, J. (2019). HuggingFace’s Transformers: State-of-the-art Natu-ral Language Processing. ArXiv, abs/1910.03771.