• No results found

Litteratursökning

In document Detektering av misstänkt grooming (Page 18-38)

3   Metod

3.2   Litteratursökning

på att data mining går att använda för att bland annat identifiera misstänkta förövare. En del har även tagit fram nya metoder och verktyg för att inhämta, tvätta och analysera data. Data mining handlar om att hitta mönster i stora mängder data och en svaghet i denna studie är att mängden data som ska undersökas kanske är för liten. Detta kan leda till att ett tillförlitligt resultat inte kommer kunna ges. Att studiens experiment inte kommer att utföras på live-data är också en nackdel eftersom grooming-brott sker mestadels via chattkonversationer och önskan är självklart att brottet ska upptäckas vid just det tillfälle det sker. En annan studie, som också kommer nämnas i avsnitt ”3.2 Litteratursökning”, har varit intressant för denna studie eftersom den

analysera chattkonversationer för att avgöra om förövarna uttrycker sig på ett sätt så att det går att identifiera grooming-förövare. Efter vi studerat den uppsatsen slog det oss att ett problem som kan uppstå för vår del är att vi inte har tillräcklig med kunskap om det chattspråk förövarna använder sig av, och att det kan vara till nackdel eftersom denna studie ska försöka identifiera misstänkt grooming i chattkonversationer.

Det som skiljer vår studie från de som tidigare har gjorts är att vi inte kommer själva utveckla en modell. Vi kommer istället lägga fokus på att identifiera brottet grooming med hjälp av ett redan fullt utvecklat data mining-verktyg och ett IT-forensiskt verktyg. Att vi väljer att inte göra någon modifiering av verktygen kan hända bli en svaghet för denna studie eftersom resultatet kanske inte kommer visa på något nytt och revolutionerande inom området. Vår förhoppning är att vi

        8   kommer visa på att detektering av brottet grooming i chattkonversationer kan göras med hjälp av data mining-verktyget Overview minst lika bra som med det IT-forensiska verktyget EnCase.

1.4 Avgränsningar

Det finns flera typer av data mining-metoder och uppmärksamhet kommer att ges till den eller de metoder som passar bäst in på de experiment som kommer göras, och anses vara av relevans och intresse för studien. Denna avgränsning kommer i den här studien innebära att data mining-metoder som undersöks är enbart de mining-metoder som verktyget Overview använder sig av. Data mining bygger på bland annat statistisk matematik, och grundläggande algoritmer kommer att presenteras. Ingen vidare fördjupning i den matematiska delen kommer att utföras. Det finns inget syfte att utveckla en egen metod för att på så sätt påvisa någon sorts modifiering av verktygen. Det är programmens befintliga metoder som ska jämföras mot varandra.

Vid undersökning i verktyget EnCase kommer dess inbyggda sökfunktioner användas. Detta är en funktion som söker på de nyckelord som angetts som indata till programmet. Därför blir en annan avgränsning att utesluta EnScript i experimentdelen av EnCase. EnScript är det

programmeringsspråk som finns tillgänglig för användare att optimera programmet utifrån egna skript11.

Det kommer inte göras undersökning i hur polisen utreder grooming-brott eller hur de aktivt försöker förhindra dessa brott.

                                                                                                                         

11 Guidance Software. 2015. EnCase EnScript Programming.

https://www.guidancesoftware.com/training/Pages/courses/classroom/EnCase%C2%AE-EnScript%C2%AE-Programming.aspx (hämtad 2015-04-14)

        9  

2 Teori

 

Kapitlet behandlar data mining och IT-forensik samt några av dess metoder. Även fakta om

verktygen som kommer användas i experimenten presenteras. Brottet grooming och dess lagstiftning förklaras. För att få en klarare och grundligare bild av grooming som brott kommer en intervju med Mats Andersson och Per-Åke Irskog att göras. Mats driver företaget Netscan12 och är kunnig inom området. Han anlitas av många myndigheter och organisationer för föreläsning av Internetsäkerhet för barn och unga. Per-Åke Irskog är universitetsadjunkt i juridik på Högskolan i Halmstad. Då arbetets problemställningar inte inriktar sig på själva brottet grooming kommer dessa två möten presenteras i Bilaga C13.

2.1 Data Mining

Data mining är ett begrepp för verktyg som söker efter okända mönster och information i data. Med hjälp av data mining går det även att förutsäga framtida mönster.14

Data mining har rötter i statistik, artificiell intelligens, maskininlärning och databassökning. Data mining är ett steg i “knowledge discovery from databases” (KDD) som är en process för att upptäcka användbar kunskap i data.

Data mining används idag inom flera olika områden, som exempelvis inom marknadsföring och försäljning, diagnostik, industrin samt banker och företag. Olika användare kan vara intresserade av olika typer av information. Därför är det viktigt att data mining täcker ett brett detektionsområde och                                                                                                                          

12 Netscan. 2015. http://netscan.se/ (hämtad 2015-02-18)

13 Bilaga C, Diskussion om grooming.

14 Ian H. Witten och Eibe Frank och Mark Hall, Data Mining Practical Machine Tools and Techniques. Burlington:

Elsevier Inc. 2011

        10   kan utvinna olika typer av information i databaser. Processen ska vara interaktiv på flera nivåer eftersom resultatet då enklare kan baseras på efterfrågan. Det är viktigt att brus och ofullständig data hanteras under processen då mönsterigenkänningen annars kan försämras.

Vid utvärderingen av mönstren kan allmänt förekommande information vara intressant men även saknaden av viss information kan vara nyttig kunskap.

I samband med presentationen av resultaten är det bra om det visas visuellt på ett lättförståeligt sätt, till exempel i form av diagram eller bilder.15

Momenten i data mining består av - val av data

- tvättning av data - berikning av uppgifter - kodning av data - datamining

- rapportering/visualisering.16

Ett data mining-system omfattar flera olika tekniker som exempelvis dataanalys,

informationssökning, mönsterigenkänning, bildanalys, signalbehandling samt datorgrafik. Dessa tekniker delas in olika klasser;

- Databasteknik

15 Data Mining Tutorial, Simply Easy Learning by turtorialspoint

16 S Sumathi och S.N Sivandandam, Introduction to Data Mining and its Applications, New York: Springer, 2006. s.

12.

        11   Data mining-systemet integreras med en databas eller ett informationslager och utvecklas med effektiva algoritmer för att datamängden ska kunna utvinnas efter önskat vis. Data mining-metoder delas generellt upp i två grupper;

Verification-driven (verifiering)

Inkluderar tekniker såsom hypotesfråga och rapportering, flerdimensionell analys och statistisk analys.

Discovery-driven (upptäcka)

Inkluderar prediktiv modellering. Teknikerna är bland annat klassificering, länkanalyser och avvikelsedetektering.18

2.2 K-means clustering

Klusterananlys innebär att datamängder grupperas i delmängder i form av kluster. Detta är ett samlingsnamn för själva analysmetoden.19

K-means clustering är en metod för att systematiskt dela in oorganiserad data i olika kluster. I en sådan klusteranalys ska man kunna urskilja olikheter inom objekt (n) och inom kluster (k).

Dessa olikheter visas i form av att avstånden mellan objekt i ett kluster är så små som möjligt då de slås ihop i samma kluster, och skillnaden mellan kluster så stor som möjligt. Objekt (indexerade i = 1,2,3…,n) Klustrena (indexerade j = 1,2,3…,k). Se Figur 1.

                                                                                                                                                                                                                                                                                                                                                                                                         

17 Data Mining Tutorial, Simply Easy Learning by turtorialspoint

18 Sumathi och Sivandandam. s. 197.

19 Wikipedia. 2015. Klusteranalys. http://sv.wikipedia.org/wiki/Klusteranalys_%28datavetenskap%29 (hämtad 2015-04-10)

        12    

Figur  1.  Datauppsättning  K-­‐means  Clustering  resultat.20  Bilden  kommer  från  Wikipedia  och  ingår  i  public  domain.    

K-means metoden är till fördel vid hantering av stora datamängder och metoden kräver mindre dataresurser än de hierarkiska klusteralgoritmerna som finns. Algoritmen är lätt att implementera, men en nackdel kan vara att startindelningen och antalet kluster bli fel och detta kanske leder till en felaktig slutindelning. En annan nackdel kan vara uppdelning av rimliga kluster vid besvärlig data, där kluster korsar varandra flera gånger. Metoden är också känslig för brus och detta kan således påverka skattningarna av centrum för varje kluster.21 För mer ingående matematisk förklaring av K-means clustering, se Bilaga A22.

2.3 Metoden: TF-IDF, term frequency–inverse document frequency

TF, termfrekvens är ett mått på hur många gånger ett ord förekommer i en text. Det finns många ord i texter som inte har någon viktig betydelse för ämnet, och dessa ord kallas stoppord. Exempel på                                                                                                                          

20 Wikipedia. 2015. K-means clustering

http://commons.wikimedia.org/wiki/File:Iris_Flowers_Clustering_kMeans.svg#filelinks (hämtad 2015-04-23)

21 Li-Fang Xu, Klusteranalys, Umeå universitet, 2008.

22 Bilaga A, K-means algoritmen.

        13   stoppord är; ”och”, “att”, “som”. Dessa ord filtreras bort för att få en mer specificerad

frekvensordlista.

IDF, inverse document frequency är ett sätt att automatiskt ordna ord efter sin särskiljningsförmåga genom att räkna hur många dokument ordet förekommer i. Ord som förekommer i många dokument är mindre speciella än de som bara förekommer i ett par få. Genom att invertera mängden dokument ett ord förekommer i baserat på den observationen som har gjorts, får ord som exempelvis “och” och

“är” låg betydelse.

Kombinationen av dessa två metoder kallas tf-idf, term frequency-inverse document frequency. I en samling dokument, N, sker beräkningen genom att definiera fi j som frekvens av en term (ord) i i dokument j.

Sedan definieras termfrekvensen TFi j genom att dividera fi j med högst antal förekomster av varje term i samma dokument, 𝑚𝑎𝑥!  𝑓!":

TFi j = !"#!!  !

!  !!"

IDF för en term definieras genom;

Antag att termen i förekommer ni gånger i dokumenten N IDFi = log2(N/ni)

TF.IDF för ordet i i dokument j blir då TFi j x IDFi (där x står för multiplikation).

Ord med högst TF.IDF blir kännetecken för ämnet i dokumentet.23

                                                                                                                         

23 Jure Leskovec och Anand Rajaraman och Jeffrey D. Ullman. Mining of Massive Datasets, California: Stanford Education, 2014, Kap. 1.

        14   2.3.1 Overview

Overview är ett program som delar upp flera olika dokument i olika kategorier beroende på vilket ämne dokumenten innehåller. De uppdelade dokumenten delas sedan upp i ännu mer specifika kategorier och resultatet blir ett träd av mappar. Varje mapp märks med nyckelord som inkluderas i dokumentet och visar på vilka ord som förekommer mest.

Overviews tillvägagångssätt för att kategorisera dokumenten bygger på algoritmer som jämför sekvenser av ord i varje dokument för att urskilja hur lika de är. Programmet genererar ett nummer som är litet om dokumenten är mycket olika och ett stort nummer om dokumenten rör samma ämne.

En grupp av dokument som är väldigt lika varandra hamnar i samma mapp. Overview bortser från vissa grammatiska ord, så kallade stoppord, då dessa inte är viktiga för att bestämma ämnet i texten.

Med den numeriska statistiska metoden TF-IDF, räknas varje ord för att avgöra hur många gånger de förekommer och en frekvenstabell skapas. Varje par av dokument jämförs med varandra för att kontrollera hur lika de är genom att räkna antalet ord som förekommer i båda dokumenten. Om ett ord förekommer två gånger i ett dokument, räknas det två gånger och på så sätt multipliceras frekvenserna av motsvarande ord och sedan summeras resultaten. Sedan använder programmet sig av k-means kluster för att dela upp de dokument som har likheter, de hamnar i samma mapp och märks med orden som särskiljer dem från andra dokument.24

Vid sökning på ett eller flera ord tillhandahåller programmet även avancerade sökmetoder så som citerade fraser, boolean uttryck, felstavningsmatchning, uteslutning och kombination av ord samt sökning på delar av ord med mera.25

                                                                                                                         

24 Overview, 2013. How Overview can organize thousands of documents for a reporter.

https://blog.overviewdocs.com/2013/04/30/how-overview-can-organize-thousands-of-documents-for-a-reporter/

(hämtad 2015-03-21)

25 Overview, 2013. Advanced search quoted phrases, boolean operators, fuzzy matching and more.

http://overview.ap.org/blog/2013/12/advanced-search-quoted-phrases-boolean-operators-fuzzy-matching-and-more/

(hämtad 2015-04-15)

        15  

2.4 EnCase

IT-forensik är en del av datavetenskapen som berör Internetrelaterade brott med anknytning till digital media. Vid IT-forensiska undersökningar utförs brottsutredningar genom att leta bevis på digitala medier för att hitta spår efter misstänkt brott.26

EnCase är ett IT-forensiskt verktyg och anses som en allsidig plattform för kriminaltekniska undersökningar. Rapport kan skapas direkt i verktyget. EnCase består inte

av öppen källkod och dess licens kostar att inneha, och beroende på vilket certifikat som ska köpas är priserna varierande.27

EnCase7 är ett verktyg som ingår i denna experimentella studie och tanken var att redovisa dess metoder för sökning mer ingående.

Vid kontakt med Guidance Software som tillhandahåller verktyget ges informationen att sökfunktionens metod i EnCase är konfidentiell information28. Med tanke på den

sekretessbelagda informationen var det med andra ord svårt att finna information om hur programmet går tillväga för att utföra sökningar. Litteratursökning gjordes trots detta, för att försöka finna så mycket information som möjligt om verktyget. Den informationen som fanns att tillgå beskriver att EnCase använder sig av bland annat tekniken Outside In. Nedan följer allmän information om indexering och nyckelordssökning samt tekniken Outside In.

EnCase7 använder tekniken Outside In vid sökningar för att extrahera text från filer, där texten sedan används i en indexering. Att EnCase använder sig av indexering vid textsökningar beror på att den tekniken är ett bättre val vid stora datamängder. Dagens filtyper är nästan alltid

komprimerade, exempelvis PDF-filer, .docx, .xlsx, .pptx, och EnCase anser att det är praktiskt taget värdelöst att göra så kallade råa textsökningar på sådana filer. För att kunna göra sökningar

                                                                                                                         

26 Wikipedia. 2015. Computer forensics. http://en.wikipedia.org/wiki/Computer_forensics (hämtad 2015-01-27)

27 Infosec Institute, 21 Popular Computer Forensics Tools. 2015. http://resources.infosecinstitute.com/computer-forensics-tools (hämtad 2015-04-13)

28 Technical Support, Guidance Software, Joshua. E-postkorrespondens med Ewa Gärdström, 31 mars, 2015.

        16   på filtyper som är av nyare modell så måste innehållet i filen först utvinnas sen återges och

därefter indexeras annars fås inga träffar vid sökningarna.29

2.5 Indexering/Nyckelordssökning/Outside In

Avsikten med att indexera med hjälp av sökmotorer är för att utföra snabb och korrekt

informationssökning. Dess design består av olika tekniker som exempelvis lingvistik, matematik, informations- och datavetenskap. Konstruktionen av en sökmotor varierar beroende på syftet, men några vanliga strukturer är;

- Suffixträd - Inverterad index - Citation index - N gram index

- Dokument-term matris.30

Nyckelordssökning är en teknik där ord eftersöks i dokument. Ett eller flera ord skrivs in i en sökruta och tillbaka fås ett sökresultat som består av de dokument som innehåller de eftersökta orden. Nyckelord används också vid mer komplexa sökningar, så kallade sammansatta sökningar.

Vid sådana sökningar används exempelvis metoden boolean.

Olika väljbara variabler vid sökningar är bland annat;

- antingen sökning på gemener och versaler, eller både och.

- sökning på hela ord eller delar av ord.

- sökning på fraser.

- “fuzzy” (otydlig) sökning, försäkring om att felstavningar kommer med.

                                                                                                                         

29 Steve Bunting, EnCE EnCase Computer Forensics: The Official EnCase Certified Examiner, Indianapolis: John Wiley & Sons, 2012, s. 353.

30 Wikipedia. 2015. Search engine indexing. http://en.wikipedia.org/wiki/Search_engine_indexing (hämtad 2015-04-13)

        17   - sökning på ursprung av ord. Sökning på sjunga ger även utslag på sång, sjunger,

sjungit.

- användning av “wildcards”, exempelvis tillsättning av frågetecken efter ord.

- boolean sökningar, används för att kombinera eller utesluta vissa sökord samt att visa på starka eller svaga samband mellan orden.

- vid eftersökning av specifik mängd data kan det sökas på exempelvis “email”

eller mellan två datum.

Andra viktiga variabler för sökordet kan vara dess språk, särskiljande egenskaper och specialtecken.

Teckenkoder med olika teckenuppsättningar är oftast valbara vid sökningar. Exempel på sådana är;

UTF-8

UTF-16

CP1252

Unicode / WideChart31

Outside In tekniken används för att extrahera, normalisera, konvertera samt visa innehållet i en stor mängd olika ostrukturerade filformat och innefattar flera olika mjukvaruprogram. När det gäller sökning i textdokument är bland annat “Content Access” och “Search Export” särskilt intressanta. Content Access, innehållsåtkomst, extraherar text och metadata från filer. Under tiden som filerna bearbetas läggs den extraherade datan till i programmets minne. Denna teknik är vanlig vid IT-forensiska undersökningar och i säkerhetsapplikationer. Funktionen “Search

                                                                                                                         

31 EDRM, Search Methodologies. http://www.edrm.net/resources/guides/edrm-search-guide/search-methodologies (hämtad 2015-04-14)

        18   Export” är ofta inkluderad i IT-forensiska applikationer och konverterar filer till en av fyra olika format. Dessa format är HTML, XML, PDF och Image.32

2.6 Grooming

Internet är en stor del av många barns och ungdomars vardag idag, och det är ett högst aktuellt ämne. När en vuxen ger sig ut för att vara någon annan och söker kontakt med barn på Internet för att förmå dem att träffas med syfte att kunna förgripa sig sexuellt på dem kallas det grooming. När ett tilltänkt offer accepterar förövaren som vän på den aktuella webbsidan blir det enkelt för förövaren att få information om offret. Genom att till exempel kolla offrets statusuppdateringar, bilder som denne lagt upp och andra bilder på offret som dennes vänner lagt upp utför groomaren en egen sorts data mining. Om offret dessutom har en öppen profil blir det ännu enklare för förövaren att kartlägga offret och samla in så mycket information som möjligt för att hitta ett “lätt mål”. Barn med känslomässiga problem ses som “lättast att fånga”. Groomingen påbörjas med sympatiska och motiverande chattkonversationer, där syftet är att försöka uppvisa en sida hos sig själv som är snarlik offrets. Kommunikationen kan ske periodvis, från timme till timme, dag till dag eller veckovis, för att så småningom smått leda offret till konversationer av mer sexuell karaktär. Om offret är i yngre tonåren frågas det oftast om vad för sorts underkläder hon/han har på sig, för att därefter leda konversationen till att få offret att ta av sig underkläderna och berätta om sina privata kroppsdelar. Om offret är i äldre tonåren kan groomaren direkt be om att få se privata kroppsdelar genom till exempel en webbkamera.33

2.7 Lagen

År 2006 fick den dåvarande riksåklagaren, Fredrik Wersäll, i uppgift av regeringen och den dåvarande justitieministern, Thomas Bodström, att genomföra en analys som skulle undersöka om                                                                                                                          

32 Oracle, Oracle Outside In Technology. http://www.oracle.com/us/technologies/embedded/025613.htm (hämtad 2015-04-15)

33 Georg E. Higgins och Catherine D, Social Networking as a Criminal Enterprise, New York: CRC Press Taylor &

Francis Group, 2014. s. 130.

        19   den gällande lagstiftningen kunde tillämpas på grooming, och om den var tillräcklig för att skydda barn mot företeelsen.34 Detta resulterade i utredningen “Ds 2007:13, Vuxnas kontakter med barn i sexuella syften”.35 Samtidigt fick Brottsförebyggande Rådet (Brå) i uppdrag att skriva en rapport om företeelsen och dess omfattning, och uppdraget redovisades i “Brå-rapport 2007:11, Vuxnas

sexuella kontakter med barn via internet”.

Den här utredningen och rapporten ledde så småningom till att det 2009-07-01 tillkom en paragraf i Brottsbalken, som kriminaliserar vuxnas kontakter med barn i sexuellt syfte.36 Enligt Brottsbalken 6 kap 10a§ är detta straffbart med böter eller fängelse i högst ett år.37

För att en person ska kunna dömas för grooming-brott krävs det att fyra förutsättningar ska vara uppfyllda.

- Brottsoffret ska vara ett barn under 15 år.

- Den vuxna kontaktar barnet i ett uttalat sexuellt syfte.

- Tid och plats ska ha bestämts för ett verkligt möte.

- Den vuxna ska ha vidtagit någon praktiskt åtgärd för att mötet ska ske.

2.7.1 Kritik mot grooming-lagen

Brottsförebyggande rådet gick ut med ett pressmeddelande, 2013-06-13, där de dömer ut grooming-lagen då de anser att få anmälda fall leder till åtal.38 Anledningen till det är (enligt polisen) att de inte kan ingripa i ett tidigt stadie. Först måste bland annat tid och plats för ett verkligt möte ha bestämts och därefter måste den vuxna vidta någon åtgärd för att ett möte ska ske. Först efter detta                                                                                                                          

34 Åklagarmyndigheten, 2007. Vuxnas kontakter med barn i sexuella syften föreslås bli straffbara.

http://www.aklagare.se/Media/Nyhetsarkiv/Vuxnas-kontakter-med-barn-i-sexuella-syften-foreslas-bli-straffbara/

(hämtad 2015-02-15

35 Regeringskansliet, 2015. Vuxnas kontakter med barn i sexuella syften.

http://www.regeringen.se/sb/d/8588/a/80667 (hämtad 2015-02-15)

36 David Shannon, Vuxnas sexuella kontakter med barn via Internet, Stockholm: Brottsförebyggandet rådet, 2007.

37 Bilaga B, Brottsbalk (1962:700) 6 kap. Om sexualbrott.

38 Brottsförebyggande rådet, Få anmälda fall av grooming leder till åtal, 2013. http://www.bra.se/bra/nytt-fran-bra/arkiv/press/2013-06-19-fa-anmalda-fall-av-grooming-leder-till-atal.html (hämtad 2015-01-27)

        20   kan polisen ingripa. Med andra ord så måste de vänta tills ett övergrepp redan skett och då blir brottsrubriceringen en annan.39

Sedan bestämmelsen “kontakt med barn i sexuellt syfte” (sexuell grooming) trädde i kraft, och till slutet av 2012 har cirka 600 sådana brott anmälts, men bara ett fåtal har blivit lagförda. De sexuella förövarna tog kontakt med barnen via Internet i cirka 70 procent av fallen, resten av kontakterna gjordes via mobil/hemtelefoni eller i direkt möte med barnet.40

Problemen med den nuvarande lagen är väl kända och en motion som heter ”Internet som arena för brott” lämnades in 2014-11-10 till riksdagen av Beatrice Ask med flera. I motionen efterfrågas en

Problemen med den nuvarande lagen är väl kända och en motion som heter ”Internet som arena för brott” lämnades in 2014-11-10 till riksdagen av Beatrice Ask med flera. I motionen efterfrågas en

In document Detektering av misstänkt grooming (Page 18-38)

Related documents