Metod för skapande av ordlista

3 Metod

3.4 Metod för skapande av ordlista

Generellt finns det två grupper av igenkänningstecken att gå efter när man ska förutsäga något om online-konversationer; användar- eller meddelandespecifika attributer. Ett meddelande kan ha utmärkande biologiska, sociala eller psykologiska drag som på så vis kopplas ihop med en författare eller så kan meddelandet i sig själv ha utmärkande drag.⁵⁴

Då vi är intresserade av att undersöka om meddelandena i sig har kännetecken som kan kopplas till grooming kommer meddelandespecifika attribut undersökas.

Det är utifrån de sparade konversationerna och dess innehåll som ordlistan ska skapas.

För att kunna finna specifika egenskaper i konversationerna kommer ordlistor skapas som Overview och EnCase ska göra sina sökningar mot.

Vid skapande av ordlistor kan man gå tillväga på olika sätt och olika metoder kan tillämpas. Till exempel är det möjligt att göra en ordlista där förekomsten av ord har ett samband med varandra. En annan möjlighet är att undersöka hur ofta vissa ord förekommer i texten och genom frekvensanalys välja ut de ord som är mest representativa för den typen av text.

53 Bilaga I, Utdrag ur ”Fall 104 – Harmlös diskussion”.

54 Tayfun Kucukyilmaz och B. Barla Cambazoglu och Cevdet Aykanat och Fazli Can, Chat mining: Predicting user and message attributes in computer- mediated communication, Bilkent University, 2008

29 I denna studie kommer det användas två olika ordlistor, ordlista 1 och ordlista 2. Ordlista 1 kommer innehålla ord som enligt tidigare studier kan vara kopplade till grooming-förövare. Denna ordlista kommer att följa Wollis⁵⁵ studie och skapas utifrån den modell som Wollis använt sig av, nämligen att det förekommer olika typer av ord i olika stadier i grooming-processen.

Ordlista 2 kommer vara en frekvensordlista och skapas genom att harmfulla chattloggar jämförs med harmlösa chattloggar för att få en statistisk översikt på vilka ord som mest förekommer i de grooming-chattar som vi har att tillgå. Denna frekvensberäkning redovisas nedan i följande avsnitt där förklaring av skapande av ordlistorna ges. Metoden för att räkna ut denna frekvens är ett förslag från Eric Järpe, Universitetslektor i statistisk matematik på Högskolan i Halmstad.

Följande metoder användes för skapande av ordlistor:

Vid skapande av ordlista 1 väljer vi att inkludera de ord som generellt kan uppfattas som sexuella i de dataset vi har tillgängliga, medan ordlista 2 baseras på en frekvensanalys.

Ordlista 1⁵⁶

En ordlista skapas utifrån tidigare nämnd studie som gjorts av Melissa Wollis.

• Efter granskning av studien gjord av Wollis har vissa ord valts ut från varje kategori. Orden representerar alltså vanligen förekommande ord som grooming-förövare kan komma att använda sig av.

• Därefter har ord av sexuell karaktär valts ut från de grooming-konversationer som fanns tillgängliga för att utöka ordlistan ytterligare.

• Orden sparades ner i ett textdokument på en extern hårddisk.

55 Wollis, 2011

56 Bilaga D, Ordlista 1.

Ordlista 2⁵⁷ – Frekvensordlista

Frekvensordlistan skapas genom att göra en statistisk undersökning av chattloggarna för att på så sätt få fram de mest frekventa orden som ska ingå i ordlistan.

• Det första steget genomfördes genom att välja ut och sortera upp fem stycken harmfulla grooming-konversationer och fem stycken harmlösa chattkonversationer. För att beräkna varje ord och förekomsten av orden i konversationerna användes verktyget Wordcounter.⁵⁸ Wordcounter är ett verktyg som automatiskt gör denna beräkning, efter att användaren kopierar in texten som ska beräknas som indata. I denna sortering valdes vanliga förekommande ord såsom “the” och “it” bort från beräkningen.

• Efter att varje konversation angivits till Wordcounter och förekomsten av ord beräknats, valdes de 100 mest förekommande orden ut från varje konversation.

• Dessa ord lades sedan in i Office-programmet Excel, i nedfallande led, med de mest förekommande orden i varje konversation först upp i skalan.

• Varje antal förekomster av ett ord dividerades sedan med antal totala ord i den gällande konversationen.

• Nästa steg var att räkna ut ett K-värde, där K-värdet representerar hur frekvent ett ord förekommer i diskussionerna genom att ta ett visst ords förekomster i harmfull diskussion och dividera det med samma ords förekomster i harmlös diskussion;

K1 = HFi / HLi

där HFi är antal förekomster av ord i harmfull diskussion i, och HLi är antal förekomster av ord i harmlös diskussion i.

Kvoten beräknades enligt:

57 Bilaga E, Ordlista 2.

58 Wordcounter, 2004. http://www.wordcounter.com/ (hämtad 2015-03-26)

I detta steg i processen jämfördes alltså orden i fall 1 med orden i fall 101, fall 1 med fall 102, fall 1 med fall 103 och så vidare fram till fall 105. Detta för att få en frekvens över hur ofta de harmlösa orden förekom i de harmfulla konversationerna. Därefter gjordes samma steg på fall 2, 3, 4 och 5. Fall 2 jämfördes med fall 101, 102, 103, 104 och 105, fall 3 med fall 101, 102, 103, 104, 105 och så vidare fram till sista jämförelsen med fall 5.

• Frekvenserna dividerades därefter med varandra för att få fram en kvot. Förekom inte ordet i den harmlösa konversationen sattes en hög siffra som ett värde på det ordet, och den siffran valdes till 500.

• Sedan summerades dessa så att ett sammanfattande mått på hur harmfullt ordet är totalt kunde påvisas genom:

K(Total) = K(1,101)+K(1,102)+ ... +K(5,105)

• I det sista steget efter att resultaten summerats gjordes en ny lista med de ord som förekom mest i konversationerna. Kvoten för varje ord i varje fall summerades och om denna kvot är hög indikerar det att ordet är en indikator på harmfull diskussion.

• Resultatet blev en lista på 251 ord. De ord som var användarnamn rensades bort och de 69 första med högst kvot fick ingå i ordlista 2.

• Orden sparades ner i ett textdokument på en extern hårddisk.

In document Detektering av misstänkt grooming (Page 39-42)