Detektering av misstänkt grooming

(1)

EXAMENS ARBETE

IT-Forensik och Informationssäkerhet

Detektering av misstänkt grooming

Ewa Gärdström och Devran Öncü

Datateknik 15hp

Halmstad 2015-07-23

(2)

Sektionen för informationsvetenskap, data-‐ och elektroteknik Högskolan i Halmstad

Box 823, 301 18 HALMSTAD

Detektering av misstänkt grooming

Kandidatuppsats 2015 Juni

Författare: Devran Öncü & Ewa Gärdström

Handledare: Eric Järpe Examinator: Mattias Wecksten

(3)

II

Sektionen för informationsvetenskap, data-‐ och elektroteknik Högskolan i Halmstad

(4)

III

Förord

Vi vill här ta tillfället i akt och tacka alla de personer som har bidragit vid examensarbetet.

Först och främst vill vi tacka vår handledare Eric Järpe för ett stort tålamod, hans goda samarbetsvilja och för alla matematiska tips.

Vi vill även tacka Mats Andersson för att han tog sig tiden att träffa oss för en intervju och delade med sig av sina erfarenheter rörande grooming och sitt jobb.

Och slutligen ett tack till Per-Åke Irskog som ställde upp på ett möte där han delade med sig av sina juridiska kunskaper kring brottet grooming och den svenska lagstiftningen kring brottet.

Ewa Gärdström Devran Öncu

(5)

IV

(6)

V

Sammanfattning

Examensarbetets primära innehåll behandlar detektering av grooming via experiment på två olika program. Experimenten utgår från två olika ordlistor och utförs på ett textanalysverktyg -

Overview, och på ett IT-forensiskt verktyg - EnCase.

Då de två verktygen använder sig av olika metoder vid sökningar och är utformade för olika syften så går studien även igenom olika metoder av data mining och forensiska metoder.

Dataset i form av chattkonversationer har samlats in inför studiens experiment, och har därefter kategoriserats efter harmfull och harmlös data. Harmfull data representerar chattkonversationer med innehåll av grooming, och harmlös data är chattkonversationer som innehåller allmänna konversationer om vardagliga ting.

De två ordlistorna som har använts vid sökningarna är av olika innehåll, där den ena baseras på ord av sexuell karaktär och där den andra är skapad utifrån en frekvensordanalys.

Andra delar av uppsatsen tar upp intressanta aspekter kring grooming, hur dess process ser ut och lagstiftningen i Sverige kring brottet.

Resultatet av studien påvisar att båda verktygen till lika hög grad kunde detektera misstänkt grooming i chattkonversationer. Vissa skillnader fanns i resultatet i form av ord som inte detekterades fullt ut av Overview. Andra påfallande skillnader mellan verktygen var deras arbetstid och dokumentationsmöjligheter, där Overview var det verktyg som jobbade snabbt, och EnCase det verktyg som hade bra dokumentationsmöjligheter.

Enligt gjord studie vore en kombination av data mining och IT-forensiska metoder samt en väl genomförd ordlista en metod att föredra vid detektering av grooming.

(7)

VI

(8)

VII

Innehållsförteckning

1 Inledning ... 1

1.1 Bakgrund ... 1

1.2 Syfte och problemformulering ... 3

1.3 Problemställning ... 5

1.4 Problemdiskussion och problematisering av frågeställning ... 5

1.4 Avgränsningar ... 8

2 Teori ... 9

2.1 Data Mining ... 9

2.2 K-‐means clustering ... 11

2.3 Metoden: TF-‐IDF, term frequency–inverse document frequency ... 12

2.3.1 Overview ... 14

2.4 EnCase ... 15

2.5 Indexering/Nyckelordssökning/Outside In ... 16

2.6 Grooming ... 18

2.7 Lagen ... 18

2.7.1 Kritik mot grooming-lagen ... 19

3 Metod ... 21

3.1 Metodval ... 21

3.2 Litteratursökning ... 23

3.3 Metod för datainsamling ... 27

3.4 Metod för skapande av ordlista ... 28

3.5 Val av verktyg ... 31

3.6 Metod-‐kritik ... 33

3.7 Experiment ... 37

3.7.1 Experimenthypotes ... 37

3.7.2 Experimentuppställning ... 39

4 Resultat ... 41

4.2 Experiment 1B – med ordlista 1 ... 44

4.4 Experiment 3A och 3B – med ordlista 2 ... 48

4.5 Jämförelse av programmen Overview och EnCase7. ... 50

5 Analys ... 53

5.1 Identifiering av grooming-‐konversationer ... 53

5.2 Test av beroende ... 54

5.3 Det mest tillämpbara verktyget ... 54

6 Diskussion och Slutsats ... 57

6.1 Diskussion ... 57

6.2 Slutsats ... 64

6.3 Förslag på fortsatt arbete ... 65

(9)

VIII 7 Referenser ... 67

Bilagor

Bilaga A K-means algoritmen

Bilaga B Brottsbalk (1962:700) 6 kap. Om sexualbrott

Bilaga C Diskussion om grooming

Bilaga D Ordlista 1

Bilaga E Ordlista 2

Bilaga F Brottsbalk (1962:700) 4 kap. 9a §. Olovlig avlyssning

Bilaga G Figur 14, 15, 16

Bilaga H Utdrag ur ”Fall 11 – Harmfull diskussion”

Bilaga I Utdrag ur ”Fall 104 – Harmlös diskussion

(10)

IX FIGURFÖRTECKNING OCH TABELLFÖRTECKNING

FIGUR 1. DATAUPPSÄTTNING K-‐MEANS CLUSTERING RESULTAT. 12

FIGUR 2. RESULTAT FRÅN EXPERIMENT 1A, TRÄFF MED ORDLISTA 1 I HARMFULL DISKUSSION. 42 FIGUR 3. RESULTAT FRÅN EXPERIMENT 1A, TRÄFF MED ORDLISTA 1 I HARMLÖS DISKUSSION. 42

FIGUR 4. RESULTAT AV EXPERIMENT 1B, TRÄFF MED ORDLISTA 1 I HARMFULL DISKUSSION. 45 FIGUR 5. RESULTAT AV EXPERIMENT 1B, TRÄFF MED ORDLISTA 1 I HARMLÖS DISKUSSION. 45 FIGUR 6. RESULTAT AV EXPERIMENT 2A OCH 2B, TRÄFF MED ORDLISTA 2 I HARMFULL DISKUSSION. 47 FIGUR 7. RESULTAT AV EXPERIMENT 2A OCH 2B, TRÄFF MED ORDLISTA 2 I HARMLÖS DISKUSSION. 47

FIGUR 8. RESULTAT AV EXPERIMENT 3A OCH 3B MED ORDLISTA 2 I HARMFULL DISKUSSION. 49 FIGUR 9. RESULTAT AV EXPERIMENT 3A OCH 3B, TRÄFF MED ORDLISTA 2 I HARMLÖS DISKUSSION 49

FIGUR 10. STJÄRNDIAGRAM ÖVER RESULTAT PÅ JÄMFÖRELSE AV PROGRAMMEN OVERVIEW OCH ENCASE

51

FIGUR 11. RESULTAT ANTAL TRÄFFAR PÅ ORD I OVERVIEW UTFÖRD I EXPERIMENT 3A. BILAGA G

FIGUR 12. RESULTAT PÅ TRÄFF MED ORDET "GOOD" I FALL 4. BILAGA G

FIGUR 13. RESULTAT AV SÖKNING MED ORDLISTA 1 I PROGRAMMET ENCASE. BILAGA G

TABELL 1. RESULTAT AV EXPERIMENT 1A UTFÖRD MED PROGRAMMET OVERVIEW MED ORDLISTA 1. 42

TABELL 2. RESULTAT AV EXPERIMENT 1B UTFÖRD MED PROGRAMMET ENCASE MED ORDLISTA 1. 44

TABELL 3. RESULTAT AV EXPERIMENT 2A OCH 2B UTFÖRD MED PROGRAMMEN OVERVIEW OCH ENCASE

MED ORDLISTA 2. 46

TABELL 4. RESULTAT AV EXPERIMENTEN 3A OCH 3B UTFÖRD MED PROGRAMMEN OVERVIEW OCH

ENCASE MED ORDLISTA 2. 48

TABELL 5. RESULTAT AV JÄMFÖRELSE GJORD PÅ PROGRAMMEN OVERVIEW OCH ENCASE7. 50

(11)

X

(12)

1

1 Inledning

Inledningen beskriver bakgrunden till problemområdet och definierar begreppen data mining, IT- forensik och grooming. Därefter anges arbetets syfte, problemformulering, problemställningar, problematisering och avgränsningar.

1.1 Bakgrund

Kontakt mellan människor över Internet är numera inget ovanligt, och det är en del av mångas vardag att småprata med sina vänner digitalt. Inte heller är det något konstigt eller svårt att söka nya kontakter och bekantskaper via nätet. Men Internet har tyvärr också blivit ett verktyg för förövare.

Vuxna som vill ta kontakt med barn i sexuellt syfte är troligtvis medvetna om att en stor del av barn och ungdomars sociala värld är Internet.

“Idag kan alla brott vara IT-relaterade. Det gäller allt från ekonomiska brott och dataintrång till bedrägerier, handel och hot på internet”. Enligt polisen är IT-brott per definition dataintrång och datorbedrägeri, där IT-teknik används för att genomföra brott. Metoderna för att utföra dessa brott och lura människor på nätet är olika. Brotten kan vara bland annat av ekonomisk karaktär,

utpressningar, hot och andra trakasserier, eller barnpornografibrott.¹

Ett av de IT-relaterade brotten som är tänkt att belysas i det här arbetet är så kallad grooming (av engelskans grooming, "sköta, ansa, rykta, förbereda").² Grooming på nätet är ett relativt “nytt” brott.

Det var inte förrän 2009-07-01 som det lagstiftades i Sverige som ett brott.³ Internet är en stor del av

1 Polisen. 2015. IT-brott. https://polisen.se/Om-polisen/Olika-typer-av-brott/IT-brott/ (hämtad 2015-01-27)

2 Wikipedia. 2015. Gromning. http://sv.wikipedia.org/wiki/Gromning (hämtad 2015-04-25)

3 Melin, Lena, Grooming online: En kartläggning av vuxnas kontakter med barn i sexuellt syfte under 2009. SamO-Kut Nord. 2010. s. 3. https://www.polisen.se/PageFiles/249099/Rapport_grooming.pdf (hämtad 2015-02-17)

(13)

2 många barns och ungdomars vardag idag, och det är ett högst aktuellt ämne. Vid grooming är det en gärningsman som tar kontakt med unga människor, ofta unga flickor, med syfte att begå övergrepp.

Ofta utger sig förövaren också för att vara någon annan, och ger felaktig information om sig själv, i syfte att knyta en god relation till den unga individen. Relationen byggs upp och förstärks tills ett förtroende har åstadkommits och förövaren bjuder in till en träff där de vill fullborda sitt planerade övergrepp.⁴

Fler goda krafter på Internet efterfrågas och större närvaro på nätet uppmuntras och i en motion som inlämnats till riksdagen “2014/15:2969 av Beatrice Ask m.fl. (M, C, FP, KD)” uppmärksammas att rättsväsendet inte hunnit följa med IT-brottens utveckling.⁵ Detta gör även en social nätverkstjänst, nextgenforensic, som tillhandahåller en plattform för IT-forensiker, forskare och akademiker med syfte att förebygga sexuellt våld. På bloggen distribueras den senaste forskningen, teorier, arbeten, experiment och nya idéer diskuteras inom området. I ett inlägg skrivet av Elliot, I. A (20140718) föreslås en djupare undersökning av textanalysverktyget, Overview, och hur det kan vara till nytta i förebyggandet av sexuell kriminalitet på nätet.⁶

Data mining är en process som används för att upptäcka, extrahera samt analysera information och mönster från stora datamängder, som exempelvis från en databas. Många större företag använder sig av data mining för att samla in information om sina kunder och deras inköp för att på så sätt

4 Polisen. 2015. Grooming. https://polisen.se/Om-polisen/lan/os/op/Polisen-i-Ostergotlands-lan/Projekt-och- samverkan/Projekt-Tindra/Grooming/ (hämtad 2015-01-28)

5 Beatrice Ask m.fl. 2014. Motion 2014/15:2969: Internet som arena för brott. Sveriges Riksdag.

http://www.riksdagen.se/sv/Dokument-Lagar/Forslag/Motioner/Internet-som-en-arena-for-brot_H2022969/?text=true (hämtad 2015-02-04)

6 Ian A Elliott 2014. Can we analyze word associations in online solicitation texts? Nextgenforensic.

https://nextgenforensic.wordpress.com/2014/07/18/can-we-analyze-word-associations-in-online-solicitation-texts/

(hämtad 2015-02-21)

(14)

3 utveckla sin företagsamhet. Själva tekniken grundar sig på statistiska beräkningsmetoder kombinerat med algoritmer för maskininlärning och mönsterigenkänning.⁷

IT-forensik är vetenskapen om att identifiera, utvinna, analysera och presentera digitala bevis som har lagrats i digitala enheter. Med den växande storleken på databaser har brottsbekämpning börjat inkludera data mining som ett verktyg för att förhindra och lösa brott som begås på Internet.⁸

1.2 Syfte och problemformulering

Det huvudsakliga syftet med denna studie är att utifrån en experimentell undersökning försöka identifiera misstänkta grooming-chattkonversationer med hjälp av verktygen Overview och EnCase.

Brottsbekämpande myndigheter handskas med stora mängder information, till exempel

incidentrapporter och tips samt stora datamängder som ingår i en utredning. Därför är det ur en professionell synvinkel intressant att göra en jämförelse mellan de två verktygens metoder och på så sätt finna likheter och/eller olikheter mellan dem. När deras metoder har analyserats och verktygen har använts i experiment kan man på så sätt jämföra dem mot varandra. Ingen tidigare studie har hittats som utfört denna undersökning.

Valet av vilka ord som ska ingå i en ordlista kommer givetvis ha betydelse för det antal träffar som uppnås vid sökningen. I experimentet som utfördes av Elliot, I. A (2014-07-18) sattes en ordlista hastigt ihop som enligt dem kan tyckas vara en godtycklig förteckning av sexuella ord⁹.

I denna studie görs valet att skapa två ordlistor med olika metoder för att undersöka om det blir någon skillnad i detekteringen av grooming-förövaren.

Overview är ett data mining-verktyg och därför ska det i uppsatsen även klargöras om vad data mining är, hur det är uppbyggt, hur processen ser ut samt inom vilka områden det används.

7 Wikipedia. 2015. Datautvinning. http://sv.wikipedia.org/wiki/Datautvinning (hämtad 2015-01-27)

8 K.K och B.B Meshram. Digital Forensics and Cyber Crime Datamining, Mumbai: Scientific Resarch, 2012

9 Ian A. Elliott, 2014

(15)

4 EnCase är ett IT-forensiskt verktyg som används vid IT-forensiska undersökningar. Verktygen Overview och EnCase samt deras ordsökningsmetoder kommer att presenteras. Grooming som brott ska definieras och lagstiftningen för grooming i Sverige överskådas.

(16)

5

1.3 Problemställning

1. Till vilken grad kan misstänkt grooming i chattkonversationer identifieras med hjälp av k- means clustering och data mining-programmet Overview?

2. Till vilken grad kan det IT-forensiska verktyget EnCase och dess inbyggda sökfunktioner identifiera misstänkt grooming i chattkonversationer?

3. Vilket av dessa två verktyg är mest tillämpbar för en framgångsrik detektering av grooming i chattkonversationer, och vilka skillnader finns det i resultatet?

Eftersom traditionella IT-forensiska analysmetoder kanske inte är tillräckliga kommer denna studie, genom att besvara dessa frågeställningar, bidra till att väcka tankar och idéer till nya metoder och verktyg som kan utvecklas för att framgångsrikt identifiera grooming i

chattkonversationer.

1.4 Problemdiskussion och problematisering av frågeställning

Dagens ökade informationsflöde kan ge problem för brottsbekämpande myndigheter eftersom det kan leda till ett ineffektivare arbete. Det är idag allmänt känt att rättsväsendet har svårt att följa med i IT-brottens utveckling och det är därför inte helt irrelevant att det önskas en snabb och fullständig analys av informationen för ett effektivare arbete. Därför är ovanstående frågeställningar av högsta intresse att kunna besvaras.

Som tidigare har nämnts läste vi ett inlägg på en IT-forensisk blogg¹⁰ där frågan ställdes om det går att med hjälp av verktyget Overview analysera och resultatrikt finna ord och mönster i texter med innehåll av sexuell karaktär. Vi ville undersöka saken närmare men även också göra en jämförelse

10 Ian A. Elliott, 2014

(17)

6 av Overview (som är ett textanalys-verktyg) med det IT-forensiska verktyget EnCase. Metoden för att kunna besvara våra frågeställningar blir att först undersöka och testa de båda verktygens metoder var för sig för att sedan göra en jämförelse av de båda verktygen. Om verktygens metoder är olika, kan det då visa sig att en ganska trivial och enkel metod kan vara minst lika bra som en mer

avancerad metod. Om en jämförelse skulle visa detta kan man i så fall se att de i fallet med den mer avancerade metoden helt enkelt tänkt fel. Det kanske inte hjälper att göra det mer avancerat, istället blir det kanske bara mer komplext. Det kan även vara så att även om metoden anses vara komplex, kanske själva verktyget är lätt att hantera och jobba med. Och det andra verktyget som har en enklare metod istället är mer svårförståelig och svår att jobba med.

De två första problemställningarna handlar om att undersöka till vilken grad verktygen kan identifiera misstänkt grooming i chattkonversationer med hjälp av dess egna metoder. Här kan det uppstå flera olika problem då detta ska undersökas. För det första har ingen av oss tidigare använt verktyget Overview och detta kan bli ett eventuellt problem om det visar sig att verktyget är svår att använda. Med vetenskapen om detta kommer test-experiment göras i verktyget innan studien påbörjas. Detta görs för att få praktisk kunskap om verktygets metoder och undvika att viktig tid går förlorad när de riktiga experimenten utförs. Då vi har tidigare erfarenhet av

verktyget EnCase och en jämförelse av de båda verktygen kommer ske är det därför också viktigt att likvärdig erfarenhet av de båda verktygen innehas innan experimenten startar. Ett eventuellt annat problem som kan uppstå är då vi ska redovisa vilka metoder verktyget EnCase använder sig av. Verktyget innefattar många olika typer av tekniker och det kanske kan bli svårt att få fram fakta om hur dess sökfunktion fungerar. Det största problemet tror vi kommer att bli

inhämtningen av data. Eftersom experimenten strävar efter att kunna identifiera misstänkt grooming i chattkonversationer behövs både data som innehåller bevisad grooming-förfarande men även vanlig data. Detta för att kunna validera att verktygen kan identifiera den data som innehåller grooming. Att hämta in stora mängder data kan ta lång tid och i kombination med att hitta rätt data tror vi alltså att detta kan bli ett problem. En fördel är att vi är medvetna om just denna problematik och har därför avsatt extra tid för insamling av data. I avsnitten ”3.3 Metod för datainsamling” och ”3.6 Metod-kritik” finns mer information om just datainsamlingen och bland annat varför vi valde den data som vi valde.

(18)

7 Vår tredje problemställning handlar om att jämföra de två verktygen med varandra och visa på skillnader mellan dem. Vi kommer själva välja de kategorier som vi tror är av intresse men vi är medvetna om att det kan finnas fler intressanta jämförelser att göra mellan dessa två verktyg. Det som kan bli problem är tolkning och presentation av resultatet eftersom delar av experimenten består av visuell undersökning av verktygen och dessa resultat ska omvandlas till något mätbart.

Detta diskuteras mer i avsnitt ”3.6 Metod-kritik”.

Ett flertal vetenskapliga artiklar och fallstudier har lästs inför denna studie. I dessa har data mining undersökts med fokus på om den tekniken kan vara behjälplig i analysen av olika internetbrott och cyberattacker. Dessa studier kommer att diskuteras mer ingående i avsnitten

”3.2 Litteratursökning” och ”3.6 Metod-kritik”. En gemensam nämnare som dessa studier har är att de kommit fram till att IT-forensik och data mining går att kombinera då fall-studierna visat på att data mining går att använda för att bland annat identifiera misstänkta förövare. En del har även tagit fram nya metoder och verktyg för att inhämta, tvätta och analysera data. Data mining handlar om att hitta mönster i stora mängder data och en svaghet i denna studie är att mängden data som ska undersökas kanske är för liten. Detta kan leda till att ett tillförlitligt resultat inte kommer kunna ges. Att studiens experiment inte kommer att utföras på live-data är också en nackdel eftersom grooming-brott sker mestadels via chattkonversationer och önskan är självklart att brottet ska upptäckas vid just det tillfälle det sker. En annan studie, som också kommer nämnas i avsnitt ”3.2 Litteratursökning”, har varit intressant för denna studie eftersom den

analysera chattkonversationer för att avgöra om förövarna uttrycker sig på ett sätt så att det går att identifiera grooming-förövare. Efter vi studerat den uppsatsen slog det oss att ett problem som kan uppstå för vår del är att vi inte har tillräcklig med kunskap om det chattspråk förövarna använder sig av, och att det kan vara till nackdel eftersom denna studie ska försöka identifiera misstänkt grooming i chattkonversationer.

Det som skiljer vår studie från de som tidigare har gjorts är att vi inte kommer själva utveckla en modell. Vi kommer istället lägga fokus på att identifiera brottet grooming med hjälp av ett redan fullt utvecklat data mining-verktyg och ett IT-forensiskt verktyg. Att vi väljer att inte göra någon modifiering av verktygen kan hända bli en svaghet för denna studie eftersom resultatet kanske inte kommer visa på något nytt och revolutionerande inom området. Vår förhoppning är att vi

(19)

8 kommer visa på att detektering av brottet grooming i chattkonversationer kan göras med hjälp av data mining-verktyget Overview minst lika bra som med det IT-forensiska verktyget EnCase.

1.4 Avgränsningar

Det finns flera typer av data mining-metoder och uppmärksamhet kommer att ges till den eller de metoder som passar bäst in på de experiment som kommer göras, och anses vara av relevans och intresse för studien. Denna avgränsning kommer i den här studien innebära att data mining- metoder som undersöks är enbart de metoder som verktyget Overview använder sig av. Data mining bygger på bland annat statistisk matematik, och grundläggande algoritmer kommer att presenteras. Ingen vidare fördjupning i den matematiska delen kommer att utföras. Det finns inget syfte att utveckla en egen metod för att på så sätt påvisa någon sorts modifiering av verktygen. Det är programmens befintliga metoder som ska jämföras mot varandra.

Vid undersökning i verktyget EnCase kommer dess inbyggda sökfunktioner användas. Detta är en funktion som söker på de nyckelord som angetts som indata till programmet. Därför blir en annan avgränsning att utesluta EnScript i experimentdelen av EnCase. EnScript är det

programmeringsspråk som finns tillgänglig för användare att optimera programmet utifrån egna skript¹¹.

Det kommer inte göras undersökning i hur polisen utreder grooming-brott eller hur de aktivt försöker förhindra dessa brott.

11 Guidance Software. 2015. EnCase EnScript Programming.

https://www.guidancesoftware.com/training/Pages/courses/classroom/EnCase%C2%AE-EnScript%C2%AE- Programming.aspx (hämtad 2015-04-14)

(20)

9

2 Teori

Kapitlet behandlar data mining och IT-forensik samt några av dess metoder. Även fakta om

verktygen som kommer användas i experimenten presenteras. Brottet grooming och dess lagstiftning förklaras. För att få en klarare och grundligare bild av grooming som brott kommer en intervju med Mats Andersson och Per-Åke Irskog att göras. Mats driver företaget Netscan¹² och är kunnig inom området. Han anlitas av många myndigheter och organisationer för föreläsning av Internetsäkerhet för barn och unga. Per-Åke Irskog är universitetsadjunkt i juridik på Högskolan i Halmstad. Då arbetets problemställningar inte inriktar sig på själva brottet grooming kommer dessa två möten presenteras i Bilaga C¹³.

2.1 Data Mining

Data mining är ett begrepp för verktyg som söker efter okända mönster och information i data. Med hjälp av data mining går det även att förutsäga framtida mönster.¹⁴

Data mining har rötter i statistik, artificiell intelligens, maskininlärning och databassökning. Data mining är ett steg i “knowledge discovery from databases” (KDD) som är en process för att upptäcka användbar kunskap i data.

Data mining används idag inom flera olika områden, som exempelvis inom marknadsföring och försäljning, diagnostik, industrin samt banker och företag. Olika användare kan vara intresserade av olika typer av information. Därför är det viktigt att data mining täcker ett brett detektionsområde och

12 Netscan. 2015. http://netscan.se/ (hämtad 2015-02-18)

13 Bilaga C, Diskussion om grooming.

14 Ian H. Witten och Eibe Frank och Mark Hall, Data Mining Practical Machine Tools and Techniques. Burlington:

Elsevier Inc. 2011

(21)

10 kan utvinna olika typer av information i databaser. Processen ska vara interaktiv på flera nivåer eftersom resultatet då enklare kan baseras på efterfrågan. Det är viktigt att brus och ofullständig data hanteras under processen då mönsterigenkänningen annars kan försämras.

Vid utvärderingen av mönstren kan allmänt förekommande information vara intressant men även saknaden av viss information kan vara nyttig kunskap.

I samband med presentationen av resultaten är det bra om det visas visuellt på ett lättförståeligt sätt, till exempel i form av diagram eller bilder.¹⁵

Momenten i data mining består av - val av data

- tvättning av data - berikning av uppgifter - kodning av data - datamining

- rapportering/visualisering.¹⁶

Ett data mining-system omfattar flera olika tekniker som exempelvis dataanalys,

informationssökning, mönsterigenkänning, bildanalys, signalbehandling samt datorgrafik. Dessa tekniker delas in olika klasser;

- Databasteknik - Statistik

- Maskininlärning - Informationsvetenskap - Visualisering

- Andra områden.¹⁷

15 Data Mining Tutorial, Simply Easy Learning by turtorialspoint

16 S Sumathi och S.N Sivandandam, Introduction to Data Mining and its Applications, New York: Springer, 2006. s.

12.

(22)

11 Data mining-systemet integreras med en databas eller ett informationslager och utvecklas med effektiva algoritmer för att datamängden ska kunna utvinnas efter önskat vis. Data mining-metoder delas generellt upp i två grupper;

Verification-driven (verifiering)

Inkluderar tekniker såsom hypotesfråga och rapportering, flerdimensionell analys och statistisk analys.

Discovery-driven (upptäcka)

Inkluderar prediktiv modellering. Teknikerna är bland annat klassificering, länkanalyser och avvikelsedetektering.¹⁸

2.2 K-means clustering

Klusterananlys innebär att datamängder grupperas i delmängder i form av kluster. Detta är ett samlingsnamn för själva analysmetoden.¹⁹

K-means clustering är en metod för att systematiskt dela in oorganiserad data i olika kluster. I en sådan klusteranalys ska man kunna urskilja olikheter inom objekt (n) och inom kluster (k).

Dessa olikheter visas i form av att avstånden mellan objekt i ett kluster är så små som möjligt då de slås ihop i samma kluster, och skillnaden mellan kluster så stor som möjligt. Objekt (indexerade i = 1,2,3…,n) Klustrena (indexerade j = 1,2,3…,k). Se Figur 1.

17 Data Mining Tutorial, Simply Easy Learning by turtorialspoint

18 Sumathi och Sivandandam. s. 197.

19 Wikipedia. 2015. Klusteranalys. http://sv.wikipedia.org/wiki/Klusteranalys_%28datavetenskap%29 (hämtad 2015- 04-10)

(23)

12

Figur 1. Datauppsättning K-‐means Clustering resultat.²⁰ Bilden kommer från Wikipedia och ingår i public domain.

K-means metoden är till fördel vid hantering av stora datamängder och metoden kräver mindre dataresurser än de hierarkiska klusteralgoritmerna som finns. Algoritmen är lätt att implementera, men en nackdel kan vara att startindelningen och antalet kluster bli fel och detta kanske leder till en felaktig slutindelning. En annan nackdel kan vara uppdelning av rimliga kluster vid besvärlig data, där kluster korsar varandra flera gånger. Metoden är också känslig för brus och detta kan således påverka skattningarna av centrum för varje kluster.²¹ För mer ingående matematisk förklaring av K- means clustering, se Bilaga A²².

2.3 Metoden: TF-IDF, term frequency–inverse document frequency

TF, termfrekvens är ett mått på hur många gånger ett ord förekommer i en text. Det finns många ord i texter som inte har någon viktig betydelse för ämnet, och dessa ord kallas stoppord. Exempel på

20 Wikipedia. 2015. K-means clustering

http://commons.wikimedia.org/wiki/File:Iris_Flowers_Clustering_kMeans.svg#filelinks (hämtad 2015-04-23)

21 Li-Fang Xu, Klusteranalys, Umeå universitet, 2008.

22 Bilaga A, K-means algoritmen.

(24)

13 stoppord är; ”och”, “att”, “som”. Dessa ord filtreras bort för att få en mer specificerad

frekvensordlista.

IDF, inverse document frequency är ett sätt att automatiskt ordna ord efter sin särskiljningsförmåga genom att räkna hur många dokument ordet förekommer i. Ord som förekommer i många dokument är mindre speciella än de som bara förekommer i ett par få. Genom att invertera mängden dokument ett ord förekommer i baserat på den observationen som har gjorts, får ord som exempelvis “och” och

“är” låg betydelse.

Kombinationen av dessa två metoder kallas tf-idf, term frequency-inverse document frequency. I en samling dokument, N, sker beräkningen genom att definiera fi j som frekvens av en term (ord) i i dokument j.

Sedan definieras termfrekvensen TFi j genom att dividera fi j med högst antal förekomster av varje term i samma dokument, 𝑚𝑎𝑥_!𝑓_!":

TFi j = _!"#^!^{! !}

! !_!"

IDF för en term definieras genom;

Antag att termen i förekommer ni gånger i dokumenten N IDFi = log2(N/ni)

TF.IDF för ordet i i dokument j blir då TFi j x IDFi (där x står för multiplikation).

Ord med högst TF.IDF blir kännetecken för ämnet i dokumentet.²³

23 Jure Leskovec och Anand Rajaraman och Jeffrey D. Ullman. Mining of Massive Datasets, California: Stanford Education, 2014, Kap. 1.

(25)

14 2.3.1 Overview

Overview är ett program som delar upp flera olika dokument i olika kategorier beroende på vilket ämne dokumenten innehåller. De uppdelade dokumenten delas sedan upp i ännu mer specifika kategorier och resultatet blir ett träd av mappar. Varje mapp märks med nyckelord som inkluderas i dokumentet och visar på vilka ord som förekommer mest.

Overviews tillvägagångssätt för att kategorisera dokumenten bygger på algoritmer som jämför sekvenser av ord i varje dokument för att urskilja hur lika de är. Programmet genererar ett nummer som är litet om dokumenten är mycket olika och ett stort nummer om dokumenten rör samma ämne.

En grupp av dokument som är väldigt lika varandra hamnar i samma mapp. Overview bortser från vissa grammatiska ord, så kallade stoppord, då dessa inte är viktiga för att bestämma ämnet i texten.

Med den numeriska statistiska metoden TF-IDF, räknas varje ord för att avgöra hur många gånger de förekommer och en frekvenstabell skapas. Varje par av dokument jämförs med varandra för att kontrollera hur lika de är genom att räkna antalet ord som förekommer i båda dokumenten. Om ett ord förekommer två gånger i ett dokument, räknas det två gånger och på så sätt multipliceras frekvenserna av motsvarande ord och sedan summeras resultaten. Sedan använder programmet sig av k-means kluster för att dela upp de dokument som har likheter, de hamnar i samma mapp och märks med orden som särskiljer dem från andra dokument.²⁴

Vid sökning på ett eller flera ord tillhandahåller programmet även avancerade sökmetoder så som citerade fraser, boolean uttryck, felstavningsmatchning, uteslutning och kombination av ord samt sökning på delar av ord med mera.²⁵

24 Overview, 2013. How Overview can organize thousands of documents for a reporter.

https://blog.overviewdocs.com/2013/04/30/how-overview-can-organize-thousands-of-documents-for-a-reporter/

(hämtad 2015-03-21)

25 Overview, 2013. Advanced search quoted phrases, boolean operators, fuzzy matching and more.

http://overview.ap.org/blog/2013/12/advanced-search-quoted-phrases-boolean-operators-fuzzy-matching-and-more/

(hämtad 2015-04-15)

(26)

15

2.4 EnCase

IT-forensik är en del av datavetenskapen som berör Internetrelaterade brott med anknytning till digital media. Vid IT-forensiska undersökningar utförs brottsutredningar genom att leta bevis på digitala medier för att hitta spår efter misstänkt brott.²⁶

EnCase är ett IT-forensiskt verktyg och anses som en allsidig plattform för kriminaltekniska undersökningar. Rapport kan skapas direkt i verktyget. EnCase består inte

av öppen källkod och dess licens kostar att inneha, och beroende på vilket certifikat som ska köpas är priserna varierande.²⁷

EnCase7 är ett verktyg som ingår i denna experimentella studie och tanken var att redovisa dess metoder för sökning mer ingående.

Vid kontakt med Guidance Software som tillhandahåller verktyget ges informationen att sökfunktionens metod i EnCase är konfidentiell information²⁸. Med tanke på den

sekretessbelagda informationen var det med andra ord svårt att finna information om hur programmet går tillväga för att utföra sökningar. Litteratursökning gjordes trots detta, för att försöka finna så mycket information som möjligt om verktyget. Den informationen som fanns att tillgå beskriver att EnCase använder sig av bland annat tekniken Outside In. Nedan följer allmän information om indexering och nyckelordssökning samt tekniken Outside In.

EnCase7 använder tekniken Outside In vid sökningar för att extrahera text från filer, där texten sedan används i en indexering. Att EnCase använder sig av indexering vid textsökningar beror på att den tekniken är ett bättre val vid stora datamängder. Dagens filtyper är nästan alltid

komprimerade, exempelvis PDF-filer, .docx, .xlsx, .pptx, och EnCase anser att det är praktiskt taget värdelöst att göra så kallade råa textsökningar på sådana filer. För att kunna göra sökningar

26 Wikipedia. 2015. Computer forensics. http://en.wikipedia.org/wiki/Computer_forensics (hämtad 2015-01-27)

27 Infosec Institute, 21 Popular Computer Forensics Tools. 2015. http://resources.infosecinstitute.com/computer- forensics-tools (hämtad 2015-04-13)

28 Technical Support, Guidance Software, Joshua. E-postkorrespondens med Ewa Gärdström, 31 mars, 2015.

(27)

16 på filtyper som är av nyare modell så måste innehållet i filen först utvinnas sen återges och

därefter indexeras annars fås inga träffar vid sökningarna.²⁹

2.5 Indexering/Nyckelordssökning/Outside In

Avsikten med att indexera med hjälp av sökmotorer är för att utföra snabb och korrekt

informationssökning. Dess design består av olika tekniker som exempelvis lingvistik, matematik, informations- och datavetenskap. Konstruktionen av en sökmotor varierar beroende på syftet, men några vanliga strukturer är;

- Suffixträd - Inverterad index - Citation index - N gram index

- Dokument-term matris.³⁰

Nyckelordssökning är en teknik där ord eftersöks i dokument. Ett eller flera ord skrivs in i en sökruta och tillbaka fås ett sökresultat som består av de dokument som innehåller de eftersökta orden. Nyckelord används också vid mer komplexa sökningar, så kallade sammansatta sökningar.

Vid sådana sökningar används exempelvis metoden boolean.

Olika väljbara variabler vid sökningar är bland annat;

- antingen sökning på gemener och versaler, eller både och.

- sökning på hela ord eller delar av ord.

- sökning på fraser.

- “fuzzy” (otydlig) sökning, försäkring om att felstavningar kommer med.

29 Steve Bunting, EnCE EnCase Computer Forensics: The Official EnCase Certified Examiner, Indianapolis: John Wiley & Sons, 2012, s. 353.

30 Wikipedia. 2015. Search engine indexing. http://en.wikipedia.org/wiki/Search_engine_indexing (hämtad 2015-04-13)

(28)

17 - sökning på ursprung av ord. Sökning på sjunga ger även utslag på sång, sjunger,

sjungit.

- användning av “wildcards”, exempelvis tillsättning av frågetecken efter ord.

- boolean sökningar, används för att kombinera eller utesluta vissa sökord samt att visa på starka eller svaga samband mellan orden.

- vid eftersökning av specifik mängd data kan det sökas på exempelvis “email”

eller mellan två datum.

Andra viktiga variabler för sökordet kan vara dess språk, särskiljande egenskaper och specialtecken.

Teckenkoder med olika teckenuppsättningar är oftast valbara vid sökningar. Exempel på sådana är;

• UTF-8

• UTF-16

• CP1252

• Unicode / WideChart³¹

Outside In tekniken används för att extrahera, normalisera, konvertera samt visa innehållet i en stor mängd olika ostrukturerade filformat och innefattar flera olika mjukvaruprogram. När det gäller sökning i textdokument är bland annat “Content Access” och “Search Export” särskilt intressanta. Content Access, innehållsåtkomst, extraherar text och metadata från filer. Under tiden som filerna bearbetas läggs den extraherade datan till i programmets minne. Denna teknik är vanlig vid IT-forensiska undersökningar och i säkerhetsapplikationer. Funktionen “Search

31 EDRM, Search Methodologies. http://www.edrm.net/resources/guides/edrm-search-guide/search-methodologies (hämtad 2015-04-14)

(29)

18 Export” är ofta inkluderad i IT-forensiska applikationer och konverterar filer till en av fyra olika format. Dessa format är HTML, XML, PDF och Image.³²

2.6 Grooming

Internet är en stor del av många barns och ungdomars vardag idag, och det är ett högst aktuellt ämne. När en vuxen ger sig ut för att vara någon annan och söker kontakt med barn på Internet för att förmå dem att träffas med syfte att kunna förgripa sig sexuellt på dem kallas det grooming. När ett tilltänkt offer accepterar förövaren som vän på den aktuella webbsidan blir det enkelt för förövaren att få information om offret. Genom att till exempel kolla offrets statusuppdateringar, bilder som denne lagt upp och andra bilder på offret som dennes vänner lagt upp utför groomaren en egen sorts data mining. Om offret dessutom har en öppen profil blir det ännu enklare för förövaren att kartlägga offret och samla in så mycket information som möjligt för att hitta ett “lätt mål”. Barn med känslomässiga problem ses som “lättast att fånga”. Groomingen påbörjas med sympatiska och motiverande chattkonversationer, där syftet är att försöka uppvisa en sida hos sig själv som är snarlik offrets. Kommunikationen kan ske periodvis, från timme till timme, dag till dag eller veckovis, för att så småningom smått leda offret till konversationer av mer sexuell karaktär. Om offret är i yngre tonåren frågas det oftast om vad för sorts underkläder hon/han har på sig, för att därefter leda konversationen till att få offret att ta av sig underkläderna och berätta om sina privata kroppsdelar. Om offret är i äldre tonåren kan groomaren direkt be om att få se privata kroppsdelar genom till exempel en webbkamera.³³

2.7 Lagen

År 2006 fick den dåvarande riksåklagaren, Fredrik Wersäll, i uppgift av regeringen och den dåvarande justitieministern, Thomas Bodström, att genomföra en analys som skulle undersöka om

32 Oracle, Oracle Outside In Technology. http://www.oracle.com/us/technologies/embedded/025613.htm (hämtad 2015-04-15)

33 Georg E. Higgins och Catherine D, Social Networking as a Criminal Enterprise, New York: CRC Press Taylor &

Francis Group, 2014. s. 130.

(30)

19 den gällande lagstiftningen kunde tillämpas på grooming, och om den var tillräcklig för att skydda barn mot företeelsen.³⁴ Detta resulterade i utredningen “Ds 2007:13, Vuxnas kontakter med barn i sexuella syften”.³⁵ Samtidigt fick Brottsförebyggande Rådet (Brå) i uppdrag att skriva en rapport om företeelsen och dess omfattning, och uppdraget redovisades i “Brå-rapport 2007:11, Vuxnas

sexuella kontakter med barn via internet”.

Den här utredningen och rapporten ledde så småningom till att det 2009-07-01 tillkom en paragraf i Brottsbalken, som kriminaliserar vuxnas kontakter med barn i sexuellt syfte.³⁶ Enligt Brottsbalken 6 kap 10a§ är detta straffbart med böter eller fängelse i högst ett år.³⁷

För att en person ska kunna dömas för grooming-brott krävs det att fyra förutsättningar ska vara uppfyllda.

- Brottsoffret ska vara ett barn under 15 år.

- Den vuxna kontaktar barnet i ett uttalat sexuellt syfte.

- Tid och plats ska ha bestämts för ett verkligt möte.

- Den vuxna ska ha vidtagit någon praktiskt åtgärd för att mötet ska ske.

2.7.1 Kritik mot grooming-lagen

Brottsförebyggande rådet gick ut med ett pressmeddelande, 2013-06-13, där de dömer ut grooming- lagen då de anser att få anmälda fall leder till åtal.³⁸ Anledningen till det är (enligt polisen) att de inte kan ingripa i ett tidigt stadie. Först måste bland annat tid och plats för ett verkligt möte ha bestämts och därefter måste den vuxna vidta någon åtgärd för att ett möte ska ske. Först efter detta

34 Åklagarmyndigheten, 2007. Vuxnas kontakter med barn i sexuella syften föreslås bli straffbara.

http://www.aklagare.se/Media/Nyhetsarkiv/Vuxnas-kontakter-med-barn-i-sexuella-syften-foreslas-bli-straffbara/

(hämtad 2015-02-15

35 Regeringskansliet, 2015. Vuxnas kontakter med barn i sexuella syften.

http://www.regeringen.se/sb/d/8588/a/80667 (hämtad 2015-02-15)

36 David Shannon, Vuxnas sexuella kontakter med barn via Internet, Stockholm: Brottsförebyggandet rådet, 2007.

37 Bilaga B, Brottsbalk (1962:700) 6 kap. Om sexualbrott.

38 Brottsförebyggande rådet, Få anmälda fall av grooming leder till åtal, 2013. http://www.bra.se/bra/nytt-fran- bra/arkiv/press/2013-06-19-fa-anmalda-fall-av-grooming-leder-till-atal.html (hämtad 2015-01-27)

(31)

20 kan polisen ingripa. Med andra ord så måste de vänta tills ett övergrepp redan skett och då blir brottsrubriceringen en annan.³⁹

Sedan bestämmelsen “kontakt med barn i sexuellt syfte” (sexuell grooming) trädde i kraft, och till slutet av 2012 har cirka 600 sådana brott anmälts, men bara ett fåtal har blivit lagförda. De sexuella förövarna tog kontakt med barnen via Internet i cirka 70 procent av fallen, resten av kontakterna gjordes via mobil/hemtelefoni eller i direkt möte med barnet.⁴⁰

Problemen med den nuvarande lagen är väl kända och en motion som heter ”Internet som arena för brott” lämnades in 2014-11-10 till riksdagen av Beatrice Ask med flera. I motionen efterfrågas en skärpning av lagstiftningen.⁴¹

39 Melin, Lena. 2010

40 David Shannon. Bestämmelsen om kontakt med barn i sexuellt syfte, Vällingby, Brottsförebyggande rådet, 2013.

41 Ask, Beatrice m.fl. 2014

(32)

21

3 Metod

Kapitlet redogör för examensarbetets strategi och genomförande. Val av metod, insamling av data och det tilltänkta experimentet beskrivs. Även kritik till metodvalen kommer tas upp.

Vid metodval skiljer man på kvantitativ och kvalitativ metod.

Vid kvantitativa metoder utförs systematisk insamling av mätbar data, statistiska sammanfattningar och analys av utfall som har sin utgångspunkt i testbara hypoteser. En kvantitativ metod lämpar sig bäst när man strävar efter objektivitet. Vid kvalitativa metoder utförs exempelvis enkäter och intervjuer som sedan analyseras. En kvalitativ metod lämpar sig bäst när man önskar en öppen subjektiv metod.⁴²

3.1 Metodval

Till detta examensarbete har det valts två huvuduppgifter. Det första är att avgöra om grooming kan upptäckas med hjälp av data mining-programmet Overview.

På NextGenForensic efterlyses en djupare undersökning av Overview, och hur det kan vara till nytta i förebyggandet av sexuell kriminalitet på nätet.⁴³

I de delar av experimenten som berör Overview i den här studien är det tänkt att detta förslag ska genomföras. Alltså en djupare undersökning med en annorlunda ordlista än vad de använde sig av.

För att ordlistan inte ska anses vara godtycklig kommer den att utvecklas med hjälp av en egen utförd frekvensordanalys. Den kommer att baseras på innehållet i de chattkonversationer som har samlats in, och resultatet blir en lista på de mest förekommande orden i dessa.

42 Idar Magne Holme och Bernt Krohn Solvang, Forskningsmetodik: Om kvalitativa och kvantitativa metoder, Lund, Studentlitteratur AB, 1997

43 Ian A. Elliot. 2014.

(33)

22 Experimenten genomförs inte på samma dataset som de använde sig av på Nextgenforensic.

Den andra uppgiften blir att använda samma chattloggar och ordlista i det IT-forensiska verktyget EnCase för att identifiera misstänkt grooming.

Det sista steget i arbetet blir att evaluera verktyget EnCase mot Overview för att hitta för- och nackdelar hos respektive verktyg. I detta skede ska det jämföras hur snabbt programmen arbetar, hur implementationen av ordlistan sker och dess träffsäkerhet, dokumentationsmöjligheter inom

programmet, samt hur lättöverskådligt resultaten presenteras i programmen.

Metoden för att besvara problemställningarna kommer att vara av kvantitativ karaktär.

Den kvantitativa metoden har valts på grund av de experiment som ska genomföras och den ordlista som ska skapas. En kvantitativ metod är att föredra här då vi önskar att studien är upprepningsbar för framtida arbete och forskning.

De delar av studien som innefattar intervjuer för att få en bredare bild av grooming och

lagstiftningen i Sverige kommer inte att ingå i metodvalet. Om syftet med dessa intervjuer hade varit att de skulle besvara problemställningarna hade de också ingått i metodvalet. Men detta tillhör en kvalitativ undersökning där man via enkäter och intervjuer vill samla ihop olika uppfattningar och resonemang⁴⁴, medan det i en kvantitativ undersökning samlas ihop

representativ data som undersöks med olika mätinstrument som ska fånga samband, fördelning och variation i det som studeras.⁴⁵

44 Anna Hedin, En liten lathund om kvalitativ metod med tonvikt på intervju, Uppsala Universitet, 2011.

45 Bengt Erik Eriksson, kvantitativ metod, 2015 http://www.ne.se/uppslagsverk/encyklopedi/l%C3%A5ng/kvantitativ- metod (hämtad 2015-04-14)

(34)

23

3.2 Litteratursökning

För att få inblick i data mining, IT-forensik och grooming har sökning i databaser gjorts för att få fram relevant litteratur. Sökord som använts har bland annat varit “data mining”, “EnCase”,

“Overview” “detektering i EnCase”, “k-means clustering”, “grooming”, “dataanalys”, “data mining inom IT-brott”, “sexual predators” och så vidare. Resultatet av sökningarna som berörde data mining, IT-forensik och grooming var fler till antalet än de som gällde enbart verktyget Overview i den öppna litteraturen.

Uppsatser, artiklar och böcker finns gott att tillgå kring data mining, om dess metoder och tekniker.

Ett fåtal av dessa har även behandlat just data mining som metod vid detektering av IT-brott. Men just grooming som IT-brott i kombinationen med data mining, har det endast hittats ett fåtal utländska uppsatser. Speciellt svensk litteratur har varit svår att finna kring ämnet. Den litteratur som har hittats angående grooming berör ämnet främst kring juridiska och psykosociala aspekter.

K.K Sindhu och B.B Meshram har i studien “Digital Forensics and Cyber Crime Datamining”

(2012) föreslagit ett nytt verktyg som är en kombination av IT-forensik och data mining. Syftet med verktyget är att det bland annat ska hitta mönster av cyberattacker och ska användas av systemadministratörer. Studien är intressant då den förklarar det grundläggande inom IT-forensik samt data mining för IT-forensik. Studien visar på att med växande databaser och

informationsflöde föreligger en utmaning att analysera de stora datavolymer som är involverad i diverse kriminella handlingar. Slutsatsen i studien frambringar att dagens IT-forensiska verktyg har ett behov av ett nytt system som inkluderar data mining-metoder.⁴⁶

I studien Suspicious data mining from chat and email gjord av S. Gowri, G.S Anandha Mala och G.

Divya tar de fram en modell som kan vara behjälplig vid brottsundersökningar där stor mängd data ska granskas. De utvinner data från mejl- och chattkonversationer och sedan rensas informationen från onödiga ord och symboler. Konversationerna sparas sedan ner i textdokument. De skapar en

46 Sindhu och Meshram, 2012

(35)

24 ordlista som ska användas vid eftersökning av de misstänkta meddelandena. Vid analys av data de har inhämtat tillämpar de olika data mining-tekniker och algoritmer⁴⁷.

Melissa Wollis försöker i sin studie, “Online Predation: A Linguistic Analysis of Online Predator Grooming” identifiera språket som förövare använder sig av i chattrum för att på så sätt avgöra om grooming försiggår. Två kommunikationsteorier som ligger till grund i detta arbete är att förövare använder sig av Luring (locka) och Grooming (förbereda). Dessa två moment innehåller i sin tur olika delmoment. Wollis analyserar chattkonversationer tagna from Perverted-Justice.com⁴⁸ för att avgöra om förövarna uttrycker sig på ett sätt som går att identifiera. Detta utförs med hjälp av datoriserad textanalys på förövarnas språk som har delats in i tre delar. Resultatet visar på att grooming-förövares språk skiljer sig åt under tre stadier av processen och därför kan ett frekvent språkmönster förutses. De tre stadierna är

• Vänskap och relationssteget

Exempel på ord är; “friend”, “boyfriend, “phone”

• Riskbedömning och exklusivitet

Exempel på ord är; “single”, “could”, “need”, “penis”

• Sexuellt stadium

Exempel på ord är; “feel”, “sex”, “date”, “evening”

Trots att dessa stadier är definierade är det fortfarande oklart om exakt hur förövarna förflyttar sig i dem. Hur processen fortskrider beror på hur relationen byggs upp och hur konversationen

fortskrider. Vissa förövare spenderar mer tid på vissa stadier än vad andra förövare gör. I många fall beror de här skillnaderna främst på förövarens syfte.

Vänskap- och relationssteget handlar om att förövaren ska lära känna offret. Tiden som spenderas på detta varierar från olika förövare beroende på hur lång tid det tar för dem att etablera

47 S. Gowri, G.S Anandha Mala och G. Divya, Suspicious data mining from chat and email data, Sathyabama University, Chennai, 2014

48 Perverted Justice. Frequently Asked Questions, 2008. http://www.pjfi.org/?pg=faq (hämtad 2015-02-24)