En utredning av NoSQL för iipax

(1)

Department of Computer and Information Science

Examensarbete

En utredning av NoSQL för iipax

av

Jonas Hesselryd

LIUIDA/LITHEXG—11/012SE

20110608

(2)

Institutionen för datavetenskap

Examensarbete

En utredning av NoSQL för iipax

av

Jonas Hesselryd

LIUIDA/LITHEXG—11/012SE

20110607

Handledare: Lena Strömbäck

Examinator: Lena Strömbäck

(3)

Sammanfattning

NoSQL är ett omtalat ämne just nu. Det finns mycket som talar för att det ska lösa de problem relationsdatabaser lider av. Exempelvis onödigt resurskrävande system eller sv˚art att konvertera mellan olika format p˚a data. Att lösa dessa problem är n˚agot Ida Infront är intresserade av för lagringen i deras ärendehanteringsplattform iipax. Uppgiften är att ta reda p˚a vad NoSQL-begreppet faktiskt innebär och utvärdera utvalda databaser mot Ida Infront och iipax krav. Problemet har angripits genom en litteraturstudie av NoSQL för att sedan undersöka tre databaser: Neo4J, CouchDB och Cassandra. Implementationerna har undersökts för att ge en bättre bild av vad NoSQL innebär i praktiken. Resultatet av arbetet är att NoSQL är ett väldigt diffust begrepp där m˚anga är oense om vad som gäller. Det är n˚agra olika typer av databaser som räknas till NoSQL men de i sig är ingen definition av begreppet. Olika typer som ofta nämns är dokument, graf och kolumndatabaser. När det kommer till de specifika databaserna ser de ut att ha spännande egenskaper som kan passa iipax, till exempel bra datamodell eller stöd för fulltextindexering. Slutligen kan det sägas att Neo4J i dagsläget ser ut som den bästa kandidaten för lagringen i iipax.

(4)

(5)

Inneh˚

all

1 Inledning 1 1.1 Bakgrund . . . 1 1.2 Syfte . . . 2 1.3 Fr˚agest¨allning . . . 2 1.4 Kravbild . . . 2 1.5 Metod . . . 2 1.6 M˚algrupp . . . 3 2 Teori 4 2.1 Begrepp . . . 4 2.1.1 CAP-satsen . . . 4 2.1.2 ACID . . . 5 2.1.3 BASE . . . 5

2.1.4 Vertikal och Horisontell Skalning . . . 5

2.2 RDBMS . . . 6

2.3 NoSQL . . . 7

2.3.1 Allm¨ant . . . 8

2.3.2 Typer av NoSQL . . . 10

3 iipax 14 3.1 Arende och iipax . . . .¨ 14

3.2 ACID i iipax . . . 15

3.3 Arendemodell . . . .¨ 16

3.4 ObjectBase . . . 16

3.4.1 Modell f¨or ett ¨arende . . . 16

3.4.2 Funktionalitet . . . 17 4 Neo4J 18 4.1 Modelleringsm¨ojligheter . . . 18 4.2 Index . . . 19 4.3 ACID . . . 19 4.4 Skalbarhet . . . 19 4.5 Neo4J APIer . . . 20 4.5.1 L˚agniv˚a API . . . 21

(6)

INNEH˚ALL INNEH˚ALL

4.5.2 H¨ogniv˚a API: jo4neo . . . 22

4.5.3 Externa verktyg . . . 24

4.5.4 Utv¨ardering av API . . . 24

5 CouchDB 25 5.1 Modelleringsm¨ojligheter . . . 25 5.2 ACID . . . 26 5.3 Skalbarhet . . . 26 5.4 Index . . . 27 5.5 CouchDB API . . . 28

5.5.1 L˚agniv˚a JSON/javascript API . . . 28

5.5.2 H¨ogniv˚a: Ektorp API . . . 29

5.5.3 Externa verktyg . . . 31

5.5.4 Utv¨ardering av CouchDB . . . 31

6 Cassandra 33 6.1 Modelleringsmöjligheter . . . 33 6.2 ACID . . . 36 6.3 Skalbarhet . . . 36 6.4 Index . . . 37 6.5 API . . . 37 6.5.1 Cassandra-cli . . . 37 6.5.2 Thrift . . . 37 6.5.3 Kundera . . . 38 6.5.4 Kommentarer p˚a API . . . 39 7 Exempel 40 7.1 Hierarkisk grafmodellering . . . 40 7.2 Map/Reduce för join . . . 42 7.2.1 Denormalisering . . . 42 7.2.2 Flera hämtningar . . . 43 7.2.3 Komplexa nycklar . . . 44 8 Analys 46 8.1 Diskussion . . . 46 8.1.1 NoSQL . . . 46 8.1.2 Neo4J . . . 47 8.1.3 CouchDB . . . 48 8.1.4 Cassandra . . . 49 8.1.5 Sammanfattning av diskussion . . . 50 9 Slutsats 52 9.1 Sammanfattning . . . 52 9.2 Framtida arbeten . . . 53

(7)

Kapitel 1

Inledning

“Choose your hammer wisely”

- Emil Eifrem, CEO of Neo Technology

1.1 Bakgrund

Behovet av att lagra data ökar hela tiden. Förutom att mängden data ökar blir data mer och mer komplex. De senaste 30 ˚aren har relationsdatabaser dominerat, men de passar inte för all typ av lagring. Data som produceras ¨

ar inte alltid anpassad efter att sparas ner enligt relationsmodellen. För un-gefär tio ˚ar sedan visade sig relationsdatabaser inte alls räcka till för vissa företag, de började utveckla sin egen datalagring som fr˚angick relationsmo-dellen. Exempel p˚a företag som gjorde just detta är Google, Facebook och Amazon. Databaser som inte använder sig av den klassiska relationsmodellen g˚ar under den gemensamma benämningen NoSQL (Not Only SQL). NoSQL myntades 1998 av Erik Evans, en av utvecklarna av NoSQL databasen Cas-sandra. Begreppet kastas runt väldigt flitigt och innebörden är diffus. Ida Infront vill ha en bild av vad NoSQL innebär idag och om det kan vara n˚agot för deras egenutvecklade plattform iipax.

Ida Infronts iipax är en plattform för ärende- och arkivhanteringssystem. ¨

Arende- och arkivhanteringssystem lagrar ofta komplex data som inte alltid passar att lagra i relationsdatabaser. Det är därför intressant att undersöka om det finns bättre alternativ att lagra data. Mer och mer ärendehantering sker idag elektroniskt och det är därför även intressant att undersöka skal-barhet hos NoSQL databaserna.

Idag lagras data med hjälp av en egenutvecklad modul för mappning mel-lan objekt och relationsdatabas. NoSQL databaserna kommer att jämföras direkt med iipax egna system som idag best˚ar av modulen ObjectBase och en relationsdatabas.

(8)

1.2. SYFTE KAPITEL 1. INLEDNING

1.2 Syfte

Syftet med rapporten är att utreda om NoSQL är ett bättre alternativ än relationsdatabaser för n˚agon del av iipax-plattformens datalagring. Proble-men som NoSQL är tänkt att lösa är modellering av komplicerade relationer och hantering av större datamängder. Utvärderingen av NoSQL ska först utvärderas teoretiskt p˚a en abstrakt niv˚a för att successivt g˚a mot specifika implementationer som praktiskt ska utvärderas mot Ida Infronts intressen.

1.3 Fr˚

agest¨

allning

Vad inneb¨ar NoSQL?

Vilka egenskaper har NoSQL i f¨orh˚allande till relationsdatabaser? ¨

Ar NoSQL n˚agot som passar iipax bättre än nuvarande lagring? - löser den problemen med objekt till relationell mappning? - är det effektivare?

1.4 Kravbild

Kravbilden fr˚an Ida Infront är att de vill veta hur NoSQL databaser beter sig i jämförelse med nuvarande lagring. Jämförelsen ska ge sammanställning ¨

over vilka vinster och f¨orluster som en alternativ lagring skulle ge. Egenska-per som ska unders¨okas:

• Modelleringsm¨ojligheter • API/Fr˚agespr˚ak

• ACID-st¨od • Fritextindexering

1.5 Metod

Informationen samlades in genom sökning i bibliotekets artikelsök och p˚a Google. Det var videoklipp fr˚an föreläsningar, bloggar, tidnings- och veten-skapliga artiklar. De valdes med hänsyn till objektivitet.

Utifr˚an den information som samlats in valdes tre databaser ut för att studeras närmare och utvärderas mot Ida Infronts krav. Information om databaserna samlades in genom litteraturstudie mot kravspecifikationen. Därefter testades databaserna praktiskt för att f˚a en djupare insikt. Den praktiska biten innebar att pröva att modellera saker som skulle kunna vara intressanta för iipax.

(9)

1.6 M˚

algrupp

Rapporten riktar sig till de som har kunskap om datorer och programmering. Speciellt antas l¨asaren ha kunskap om relationsdatabaser och distribuerade system.

(10)

Kapitel 2

Teori

Kapitlet tar upp teori som är relevant för rapporten. Inledande tas be-grepp som är kopplade till hela rapporten upp. Efter det diskuteras teo-ri om relationsdatabasers svagheter upp. Det är endast svagheterna som tas upp eftersom endast de som är relevanta för rapporten. Efter det kom-mer ett avsnitt om begrepp som ofta tas upp i samband med NoSQL. Av-slutningsvis ges en översiktlig bild av fyra typer av datalagring: key/value, kolumn-orienterade, graf och dokument. De typerna är bra representanter för NoSQL.

2.1 Begrepp

2.1.1 CAP-satsen

˚

Ar 2000 presenterade Eric Brewer CAP-satsen, den bevisades 2002 for-mellt av Gilbert och Lynch [1]. CAP st˚ar för Consistency, Availability och Partition-tolerans. Consistency innebär att databasen ska visa samma da-ta vid alla tillfällen. Availability innebär att resursen ska finnas tillgänglig vid alla tillfällen. Partition-tolerant syftar p˚a att resursen kan delas upp p˚a flera olika maskiner. CAP-satsen säger att endast tv˚a av dessa tre krav kan fullständigt uppfyllas av ett distribuerat system. Satsen syftar p˚a ett allmänt distribuerat system men tillämpas p˚a databaser eftersom vissa NoSQL da-tabaser är distribuerade system.

Beviset i [1] är att visa med motsägelse att ett partitionerat nätverk kan inte uppfylla b˚ade konsistent data och tillgänglighet fullt ut p˚a samma g˚ang. En sammanfattning av beviset är att det i ett asynkront nät finns minst tv˚a noder. Noderna har kopior av samma data. Antag att alla meddelanden som skickas i nätverket mellan noderna inte kommer fram. Om det d˚a utförs en skrivoperation i en av noderna, kan omöjligt data bli konsistent i de olika noderna. Ska istället skrivoperationen försäkra sig om att alla kopior av data ¨

(11)

Tillgängligheten kommer att försvinna i det givna scenariot eftersom noder-na vill försäkra sig om att all data är lika innan n˚agon f˚ar läsa igen. Det kommer inte p˚a n˚agot sätt att fungera enligt det givna scenariot.

2.1.2 ACID

ACID är krav som m˚aste uppfyllas av databastransaktioner. De fyra egen-skaperna som ing˚ar i ACID är Atomicity, Consistency, Isolation och Dura-bility. Med Atomicity menas att en transaktion ska genomföras i sin helhet eller inte alls. Consistency kravet innehar att allas syn p˚a data ska vara den-samma vid alla tillfällen. Isolation betyder att en transaktion ska utföras isolerat fr˚an yttre p˚averkan. Durability syftar p˚a att om en transaktion är utförd ska den best˚a.

2.1.3 BASE

BASE st˚ar för Basically Available Soft-state Eventually consistent som är ett alternativ till ACID. Kraven innebär att det alltid g˚ar att komma ˚at data men den behöver inte vara konsistent. Data blir dock eventuellt konsi-stent efter att uppdateringen n˚att alla noder i systemet. Uppdateringar sker oftast via s˚a kallade Gossip-protokoll. Med det menas, som namnet anty-der, att det skickas meddelanden mellan noderna för att sprida de senaste uppdateringarna.

2.1.4 Vertikal och Horisontell Skalning

Skalning innebär att en resurs kan användas i ett större sammanhang. Med andra ord att köra systemet i en större skala, därav ordet. Ett systems mjuk-vara kan i sig mjuk-vara mer eller mindre skalbart beroende p˚a hur det hanterar en större trafik av data eller operationer. Det vill säga mjukvarans komplexitet. Oavsett mjukvarans komplexitet kommer ett växande system att behöva mer beräkningskraft fr˚an h˚ardvaran. Där talas det om vertikal eller horison-tell skalning. I ett system som skalar vertikalt m˚aste mjukvaran köras p˚a en maskin och för att skala upp h˚ardvaran m˚aste en starkare dator ersätta den föreg˚aende.

G˚ar systemet istället att skala horisontellt g˚ar det att dela upp p˚a flera maskiner. Det kan lösas genom att systemet är decentraliserat och noderna klarar sig själva eller genom att det finns en överordnad nod som sköter kommunikationen. I detta fall g˚ar det att komplettera ett system med en extra dator, och beh˚alla de äldre, för att skala systemet. Det anses vara ett mer kostnadseffektivt system d˚a mycket billig h˚ardvara kan bli bättre än ett dyrt system som endast best˚ar av en dator. Till skillnad fr˚an att det kallas skala upp i det vertikala fallet brukar det i det horisontella fallet talas om att skala ut.

(12)

2.2. RDBMS KAPITEL 2. TEORI

2.2 RDBMS

RDBMS(Relational Database Management System) skapades p˚a 70-talet. Sedan dess har h˚ardvaran ¨andrats enormt mycket medan systemen inte ¨

andrats lika mycket [2] . Relationsdatabaser är l˚angt ifr˚an utdaterade och sämre än NoSQL p˚a alla punkter. Det finns applikationer som passar bäst i relationsdatabaser och kräver allt som de har att erbjuda, de tv˚a komplet-terar varandra. Trots att det finns applikationer där relationsdatabaser är det absolut bästa alternativet, tas här bara nackdelarna med RDBMS upp. De svagheter som NoSQL är skapade för att lösa.

Skalbarhet

RDBMS har designats för att uppfylla C och A, och det leder till att de inte kan uppfylla P fullt ut enligt CAP-satsen. När inte P gäller m˚aste ett RDBMS skala upp vertikalt. Den vertikala skalningen kan bli kostsam h˚ardvarumässigt.

Databasernas fullständiga ACID transaktioner medför en hel del beräkningar. Det kan leda till en ineffektivitet(se nedan) för system som inte kräver all den funktionalitet som RDBMS erbjuder. I storskaliga system kommer den extra overheaden p˚a varje transaktion att göra stor skillnad.

Eﬀektivitet

RDBMS är ineffektiva i sina transaktioner för att de lämnar m˚anga ga-rantier och försäkrar att allt g˚ar rätt till. Att systemen är försiktiga och försäkrar sig om att allt g˚ar rätt till är inget d˚aligt i sig. Det kan dock vara onödigt för m˚anga applikationer. Det resulterar i att onödigt mycket kraft slösas bort. Enligt [2] är det som tar tid i OLTP(Online Transaction Processing) följande fyra saker: bufferthantering, l˚as, underh˚all av delad da-tastruktur(latching) och loggar. Dessa tar mellan 10% och 35% var av den totala processtiden. Dessa olika delar krävs för att RDBMS ska kunna ga-rantera ACID egenskaperna. Om ett system tar bort ACID och därmed de fyra nämnda tidskrävande processer, kommer databasen att snabbas upp betydligt. Det var n˚agot som MySQL gjorde till en början. De hade in-te fullt ACID stöd men utvecklare använde den änd˚a för att det inte var nödvändigt för applikationen och det blev ett snabbare databassystem.

Relationsdatabaser är inte bara ineffektiva p˚a grund av den större overhe-aden som följer av ACID-transaktionerna. I och med att m˚anga av relations-databaserna grundar sig p˚a design fr˚an 70-talet har vissa designbeslut blivit för˚aldrade [2]. Det lägger p˚a ännu mer overhead p˚a processerna. Trots att h˚ardvaran utvecklats explosionsartat de senaste 30 ˚aren har databassyste-men inte ändrats s˚a mycket som de skulle behövt. Det gör att systemen inte kan utnyttja den fulla potentialen hos dagens h˚ardvara. Ett vanligt scena-rio p˚a 70-talet, var ett stort datacenter med extremt l˚angsamma h˚ardiskar och lite RAM-minne. Designbeslut som togs d˚a, som idag är utdaterade,

(13)

¨

ar exempelvis effektiva datastrukturer för f˚a diskaccesser och flitig multi-tr˚adning för att systemet skulle kunna göra annat i väntan p˚a de l˚angsamma h˚arddiskarna. Idag kan m˚anga databaser köras direkt i RAM-minnet och allt g˚ar s˚a snabbt att multitr˚adning kan bli onödigt. Skulle dagens h˚ardvara ut-nyttjas fullt ut skulle RDBMS g˚a fortare än vad de gör idag.

En Modell

RDBMS har i princip bara tabeller där all data lagras. Att lagra all sorts data i samma datamodell är inte alltid en bra idé. Ett exempel är objek-torienterad data som inte passar relationsmodellen. Systemen m˚aste kom-pensera för att fungera tillsammans. Det är ett problem som brukar kallas impendence mismatch problem [3]. Det blir en ineffektiv kombination. [3] beskriver fyra niv˚aer av problem som uppst˚ar. De är paradigm, spr˚ak, sche-ma och instans. Paradigm syftar p˚a problemen som uppst˚ar i kompabiliteten mellan tv˚a olika spr˚ak, exempelvis ett objektorienterat och SQL. De är olika spr˚ak-paradigm. Spr˚ak syftar till direkta implementation av spr˚ak och de skillnader som kan uppkomma där. Exempel där är Java och SQL. Det kan leda till sv˚arigheter i att utnyttja ett spr˚aks fulla potential. Där kan det va-ra sv˚art att matcha datastrukturer hos de olika spr˚aken. Schemarelaterade problem är att underh˚alla tv˚a versioner av samma sak. Instans problemen ¨

ar de problemen som uppst˚ar vid hämtning av ett objekt i ett kontext. En mappning ner till relationsdatabas kan medföra att objektet normaliseras ut p˚a flera tabeller som kommer att kräva en insamlig av det fragmenterade data vid varje hämtning.

RDMBS har ett fast schema som m˚aste bestämmas innan databasen sätts i bruk. Om databasen ska ändras m˚aste systemet tas ur bruk för att göras om. Det gör databasen jobbigare att underh˚alla. Det fasta schemat kommer att vara d˚aligt d˚a data är glest. Det vill säga i ett fall där en data-modell har m˚anga fält men det är inte ofta en stor del av fälten används. Ett exempel kan vara användaruppgifter där inte m˚anga av fälten är ett krav. En relationsdatabas kommer att behöva skapa ett fält i sitt schema för alla fält oavsett om det används eller inte. Minne kommer d˚a att allokeras utan att användas. Det kommer leda till d˚alig användning av lagringsutrymme. Problemen d˚a är inte bara ekonomiska utan p˚averkar även prestandan för att databasen blir tvungen att flytta större mängd data som kanske inte används.

2.3 NoSQL

NoSQL(Not Only SQL) är ett begrepp som används p˚a allt fr˚an distri-buerade filsystem till informationslagrade grafer. NoSQL är enligt m˚anga ett förvirrande begrepp. Det gemensamma är att det är datalagring som fr˚ang˚att relationsmodellen och det finns de som istället kallar det för NRDB (Non Relational DataBase). De har g˚att ifr˚an den modellen för att i de

(14)

ﬂes-2.3. NOSQL KAPITEL 2. TEORI

ta fall försöka lösa dess problem i modern datalagring. Problemen som ska lösas är en representation närmare en applikations data och möjlighet att köras i enorm skala.

2.3.1 Allm¨

ant

NoSQL databaser skiljer sig väldigt mycket och termen används flitigt, det gör det sv˚art att sätta fingret p˚a vad som verkligen är en NoSQL-databas. Det finns n˚agra koncept som ˚aterkommer i m˚anga implementationer av NoSQL.

Ingen SQL

NoSQL har inget gemensamt spr˚ak som relationsdatabaserna har. Ett pro-gram som använder sig av NoSQL som lagring g˚ar genom egna APIer för de olika databaserna. Det finns dock standarder som används. Exempel p˚a s˚adant kan vara att n˚agra databaser använder sig av Apache Thrift, ett ram-verk för att kommunicera mellan olika spr˚ak. Men det finns även exempel p˚a anpassade spr˚ak, exempel p˚a ett s˚adant är Gremlin som är ett spr˚ak för grafdatabaser.

Quorum

Quorum är en metod som databaser utan ACID kan använvda för att förbättra hur konsistent dess data är. Det är n˚agot som bland annat im-plementerats i Amazons Dynamo [4]. Ordet kan översättas p˚a svenska till kvorum och innebär att man i en grupp m˚aste vara ett visst antal för att kunna ta beslut. Ordet är taget fr˚an sammanträdesetik där det ofta m˚aste vara ett visst antal ledamöter p˚a plats för att ett beslut ska kunna tas. När quorum implementeras i ett distribuerat system har de vanligtvis tre para-metrar: N, R och W. Det är de vanliga beteckningarna p˚a parametrarna i litteraturen[4, 6]. N st˚ar för antalet kopior av data; R är hur m˚anga av ko-piorna som m˚aste vara med vid skrivtillfället; W är hur m˚anga av kopiorna som m˚aste vara med vid lästillfället. Dessa parametrar konfigureras för att uppn˚a önskat beteende hos systemet. L˚aga R och W i jämförelse med N kan i större utsträckning leda till inkonsistens. Det leder även till ett snabbare system för att mindre antal resurser m˚aste vara med vid en operation. Att konfigurera i motsatt riktning ger motsatt effekt. En smart konfiguration när quorum används är att följande ekvation ska g¨alla: R + W >N. G¨aller den kan inte en läsning och en skrivning ske samtidigt. Det kommer att leda till konsistent data i större utsträckning.

Elastiskt system

En del av NoSQL databaserna har ett dynamiskt schema och klarar därför av att ändra p˚a sig utan att stänga ner systemet. Detta kallas för ett elastiskt

(15)

system.

Det finns NoSQL databaser som är elastiska i sin skalning. Det betyder att nya maskiner kan läggas till under drift och ta en del av belastning-en. Elastisk skalning fungerar endast i databaser som skalar horisontellt. Ett exempel p˚a en databas som klarar det är Dynamo[4]. Den har elastisk skalning genom att systemet best˚ar av virtuella noder där godtyckligt antal noder kan tillhöra en fysisk nod. Ett elastiskt system är bra ur ekonomi-och miljösynpunkt för att antalet maskiner kan anpassas efter den aktuella belastningen utan att systemet behöver g˚a ner. När systemet bara behöver tillräckligt med maskiner ig˚ang för att möta den aktuella belastningen kan maskiner stängas av och sparar därför energi.

Map/Reduce

Map/Reduce är en teknik som introducerades av Google[5]. Det är en pro-grammeringsteknik för att distribuera beräkningar. Uttrycket kommer fr˚an den funktionella programmeringens funktioner map och reduce. Map/Reduce innebär att en uppgift delas upp och distribueras ut, map. Därefter samlas alla resultat ihop och skickas som ett svar, reduce. I m˚anga implementatio-ner är inte reduce steget nödvändigt utan map-funktionernas resultat blir resultat. Map/Reduce används i centralstyrda distribuerade system som ex-empelvis filsystemen HDFS[11] och GFS[7].

Versionshantering

Versionshantering används i n˚agra NoSQL databaser, [4, 7], för att dels förbättra responstiden men även för att lösa problemet med en förlorad uppdatering. Versionshantering sker genom att data tidstämplas.

Responstiden minskar och tillgängligheten ökar i ett system för att sy-stemet aldrig behöver uppdatera data. Det g˚ar fortare att bara skriva dit en ny kopia istället för att ta ut data, behandla det och sen skriva. Systemet kommer även att kunna erbjuda data utan att l˚asa den eftersom systemet kommer att kunna lösa konflikter i data och sl˚a samman olika versioner vid ett senare tillfälle. För att inte allt för m˚anga kopior ska kunna visas använder systemen sig av quorum. D˚a g˚ar det att f˚a systemet att visa flera versioner i väldigt f˚a tillfällen [4]. Med versioner av systemet menas att data ¨

ar inkonsistent och systemet kommer därför att visa olika versioner av data. S˚a en användare kan se ouppdaterad data medan en annan ser uppdaterad. Det kan även uppst˚a vid flera läsningar av data samtidigt. Skillnaden mellan de tv˚a är att de läser fr˚an olika kopior i systemet. Systemet kommer inte att spara hur m˚anga kopior som helst utan kommer vid ett senare tillfälle att rensa bland versionerna. Rensning av data sker antingen när en inaktuell version blivit för gammal eller när en kvot av olika versioner passerats.

(16)

2.3. NOSQL KAPITEL 2. TEORI

2.3.2 Typer av NoSQL

NoSQL är en benämning p˚a alla typer av databaser som inte använder den klassiska relationsmodellen. Det är därför ett väldigt brett begrepp som används för att benämna databaser som sinsemellan skiljer sig mycket. I litteraturen beskrivs m˚anga olika klassningar. De fyra vanligaste klasserna av NoSQL som beskrivs är kolumnorienterade, key/value, graf och dokument.

Key/Value

Key/Value är en typ av databas som associerar en datamängd med ett unikt nyckelvärde. Datamängden lagras som en BLOB det vill säga ett Binary Large OBject där det inte finns n˚agon struktur som systemet kan använda sig av. M˚anga av systemen är baserade p˚a distribuerade hashtabeller(DHT). Exempel p˚a den här typen av databas är Amazons Dynamo [4]. Det är idéerna bakom Dynamo som de allra flesta key/value databaser bygger p˚a. Databaserna erbjuder ofta en avskalad funktionalitet. Det kommer ge en snabbare databas med mycket flexibilitet. Nackdelarna som uppst˚ar i och med avsaknaden av funktionalitet är att mycket komplexitet lämnas upp till applikationslagret av ett system. Det ger högre kostnad i utvecklingen av ett system.

Funktionalitet som ofta finns i dessa system är att de är distribuerade, balanserar belastning, decentraliserade, saknat statiskt schema och eventu-ellt blir konsistenta i data. Funktionaliteten hos ett system varierar givetvis. Detta är dock de vanligaste funktionerna som finns. Egenskaper i ett system ¨

ar oftast en övervägning mellan de bra och de sämre som följer.

När ett NoSQL-system är distribuerat är det viktigt att beh˚alla CAP-satsens P. Det gör att systemets designer m˚aste välja mellan C och A. Det finns varianter av key/value databaser som stödjer b˚ada avvägningarna. Dy-namo är en databas som har valt att g˚a i riktningen mot hög tillgänglighet, A. Medan exempelvis Scalaris har valt att data ska vara konsistent istället. Förenklat kan implementationen, i de tv˚a nämnda fallen, av de olika varian-terna förklaras med att Quorum-algoritmen är implementerad p˚a olika vis. I fallet med att ha hög tillgänglighet krävs endast ett litet antal av kopi-orna för att utföra en operation. I det andra fallet kräver en operation en majoritet av noderna.

Belastningen balanseras genom att distribueringen av nycklarna ¨ar j¨amn ¨

over de möjliga nyckelvärdena. S˚a istället för att börja p˚a nyckel nummer ett och fortsätta upp˚at väljs nycklar för att f˚a en jämn distribution över de möjliga nycklarna. Om systemet börjar med nummer ett och stegar upp˚at kommer all data hamna p˚a den första servern till att börja med. D˚a kommer de andra servrarna vara oanvända och onödiga tills de andra servrarna är fyllda. Det blir ineffektiv användning av h˚ardvara d˚a en server kommer vara ¨

overbelastad medan de andra ¨ar inaktiva.

Nyttan med att ha ett decentraliserat system som inte har ett statiskt schema ¨ar att det klarar mycket under drift. Att det saknar ett statiskt

(17)

schema g¨or att det g˚ar att ¨andra p˚a strukturen i data under drift. Det ¨

ar flexibelt men det innebär att det är n˚agot som m˚aste tas hänsyn till i applikationslagret. Den extra hänsyn som m˚aste tas av applikationen är kontrollering av data. Applikationer har i de flesta fall begränsningar i vilken data den kan hantera. Den decentraliserade arkitekturen innebär även att systemet klarar av att noder läggs till eller tas bort. Nackdelen med att ha den ovan beskrivna arkitekturen är att data vid vissa tillfällen kommer att vara inkonsistent. Inkonsistensen kommer eventuellt att lösas genom att noder pratar med varandra genom gossip-protokoll. En annan lösning p˚a inkonsistens mellan skriven data kan systemet lösa genom versionshantering. Det som databasen först skapades för var e-handel, m˚anga läsningar och hög tillgänglighet. Data i applikationen ska ha mycket läsning men desto färre skrivningar. Databaserna g˚ar att skala till väldigt stora mängder data och fortfarande ha bra prestanda.

Kolumnorienterade

Kolumnorienterade databaser lagrar data efter rader och kolumner. Rader-na har alla en unik nyckel, precis som key/value databaserRader-na, som identifi-erar data. Utöver rader har den kolumnorienterade modellen kolumner som hjälper till att strukturera data. Kolumnerna grupperas sedan in i kolumn-familjer. Exempel p˚a kolumnorienterade databaser är Googles Bigtable[7] och Cassandra[6].

Implementationen av kolumnorienterade databaser kan p˚a m˚anga sätt likna key/value databaserna. Den direkta skillnaden är att data struktureras med hjälp av kolumnerna. Den här typen av databaser är i regel distribuerad vilket ger systemet ett val mellan CAP-satsens C och A.

Semistruktureringen är bra för eventuell indexering. Eftersom kolumner kan klassificeras hierarkiskt i kolumnfamiljer som passar bra till indexering ¨

ar de ofta strukturerade p˚a ungef¨ar samma vis.

Kritiken kolumnorienterade databaser kan f˚a är att APIerna har en väldigt l˚ag abstraktionsniv˚a. Ett typiskt API har endast ett litet antal funk-tioner. Exempelvis Cassandra har bara tre funktioner insert, get och delete. Det lämnar mycket upp till utvecklaren av applikationen. Eftersom data en-dast är semistrukturerat kommer den inte att hantera komplex data speciellt bra. Vid komplex data m˚aste applikationen ta hand om komplexiteten den medför.

Denna typ av databas är bra att använda för lagring av stora mängder data som ska grupperas. Praktiska exempel är företag som skapat den här typen av databaser, Google och Facebook. Google använder kolumnfamil-jer för att gruppera sidor som har länkar till samma sidor. I Facebooks inkorgsökning där Cassandra används klassas meddelanden med samma användar-id i samma kolumn och meddelanden som best˚ar av samma ord i samma super kolumn. Det ger mer strukturerad data som blir lättare att indexera och söka i, det är viktigt för b˚ada Facebook och Google.

(18)

2.3. NOSQL KAPITEL 2. TEORI

Graf

Grafdatabaser best˚ar i huvudsak av tre komponenter: nod, kant och egen-skaper. Noden är representationen för ett objekt och kanten är en rela-tion till en annan nod. Egenskaperna är den data som lagras i en nod eller kant. Grafrepresentationen har en stabil matematisk grund och har därför välutvecklade algoritmer. Algoritmerna är väldigt snabba och arbetar lokalt. Den stora prestandavinsten jämfört med relationsdatabaser kommer när en sökning i relaterat data görs. Grafdatabasen behöver endast följa en rela-tion medan relarela-tionsdatabasen behöver söka bland olika tabeller eller göra kostsamma joinoperationer med sig själv. En nackdel med grafdatabasernas sökning är att den m˚aste söka genom hela grafen för att ge ett definitivt svar. Sökningen kan d˚a ta onödigt l˚ang tid om svaret endast finns i en liten del av grafen. Detta g˚ar att ˚atgärda med ett index motsvarande som för relationsdatabaser.

Grafdatabaser traverserar data med procedurer. Ett exempel p˚a en fr˚aga ¨

ar att hämta alla som exempelvis uppfyller att vara granne med en annan nod. Sedan m˚aste programmet explicit g˚a igenom alla svar det f˚att. Det är allts˚a en l˚ag abstraktion p˚a fr˚agespr˚aket. Som nämnts ovan är en negativ del av grafdatabaser att de m˚aste söka genom hela grafen för att f˚a svar p˚a nya fr˚agor. Men det g˚ar att snabba upp fr˚agor genom att bygga upp index ¨

over noder och dess egenskaper. Det ger resultatet att databasen klarar semistrukturerad data bra men strukturerad sämre. Relationsdatabaser har ett väldigt mycket krav p˚a struktur och kan använda den p˚a ett bra sätt. Grafdatabaserna är sämre för att de inte har det kravet och kan därmed inte utnyttja strukturen.

Förutom att grafdatabaser är bra p˚a att representera semistrukturerad data är deras starkaste sida att representera relationer[8]. Det i och med att varje kant mellan tv˚a noder är en relation. Det blir därför väldigt lätt att fr˚aga efter noder med hjälp av relationer. Exempel p˚a en fr˚aga som skulle bli komplicerad i andra databastyper men lätt i grafdatabaser är vänners vänner i ett socialt nätverk.

Databaser med grafrepresentation kommer att skala väldigt bra p˚a en maskin. Ett system kan hantera väldigt mycket data. Men skalbarheten be-gränsas av att det är sv˚art att köra ett system i kluster. Men det finns system som stödjer att köras i kluster, exempelvis HypergraphDB. Det po-sitiva med att databaserna bara körs p˚a en nod är att de kan stödja ACID fullt ut. Neo4J är en grafdatabas som stödjer ACID transaktioner fullt ut.

Typiska exempel p˚a användningsomr˚aden där grafdatabaser gör bra ifr˚an sig är där relationer är viktiga. Det kan vara exempelvis sociala nätverk eller kunskapsrepresentation i artificiell intelligens, där data naturligt är nätverk.

Dokument

Dokumentdatabaser är en key/value databas men där värdet är ett doku-ment. Ett dokument är mer strukturerat än värdet i key/value databaser.

(19)

Dokument är schemalösa och kan designas hur som helst och när som helst. Dokumentet är i m˚anga fall lagrat som JSON(JavaScript Object Notation) en standard som strukturerar data[10], det är till skillnad mot key/value databaser som lagrar värdet som en BLOB. Strukturen är fri och väljer ut-vecklaren att lägga in struktur kommer databasen att kunna använda den för hämtning av data.

Den fria strukturen medför att det g˚ar att skapa entiteter i databasen som stämmer väl överens med ett programs datastrukturer. Det kommer att vara bra för m˚anga av de problem som uppst˚ar vid Object-Relational Impendence Mismatch problemet[3].

De lösa kraven p˚a struktur medför även att dokumentdatabaser klarar av data som har ofullständig och gles data. Det är för att schemat i ett dokument är fritt och inte kommer att finnas med om det inte explicit skrivs. Det är bra för att databasen kommer inte att slösa utrymme p˚a tomma utrymmen som kan uppkomma i relationsdatabaser.

Dokumentdatabaser har goda möjligheter att skala, databassystemen skalar horisontellt. Men precis som de andra typerna av databaser kom-mer databasen att behöva välja mellan att ha konsistent data eller att vara tillgänglig.

Bristen p˚a struktur och schema kommer att leda till att det inte g˚ar att standardisera ett fr˚agespr˚ak. Databassystemet kommer att göra d˚aligt ifr˚an sig vid sökning i dokumenten. Att hämta data via nyckeln kommer fortfarande som i key/value databaserna att g˚a bra och snabbt. Men d˚a kommer behandlingen av dokumenten lämnas upp till programmet.

Den typiska applikationen där dokumentdatabaser kan användas är där det finns en struktur som ska användas men där olika delar av strukturen ofta saknas. Det kan vara personuppgifter där m˚anga av uppgifterna är valfria.

Val av databaser

De databaser som i kommande kapitel har valts för att undersökas närmare ¨

ar Neo4J, CouchDB och Cassadra. Anledningen till att databaserna valts ¨

ar till stor del deras popularitet och det är förslag som kommit upp vid dis-kussion med intressenter p˚a Ida Infront. De tre databaserna tillhör typerna graf-, dokument- och key/value databas i respektive ordning. Datbaserna har även valts för att f˚a representanter fr˚an olika typer av NoSQL databaser för att rapporten till stor del ska orientera i NoSQL. I valet av databaser fanns även en tanke p˚a att databasen med fördel kunde vara öppen källkod.

¨

Oppen källkod är bra för att databaserna är lättillgängliga p˚a internet. Inte bara databaserna utan även information och dokumentation. Mer specifik motivering finns i inledningen till varje kapitel av respektive databas.

(20)

Kapitel 3

iipax

iipax är en plattform för ärendehanteringssystem. Den har en generell modell av ett ärende för att kunna tillämpas p˚a m˚anga olika organisationers behov. I dag har iipax en relationsdatabas i grunden. Relationsdatabaser har ACID vilket är ett krav för ärenden men lider av att den komplexa modellen för ¨

arenden inte passar riktigt bra i tabellform. I kapitlet tas det upp varf¨or ¨

arenden behöver ACID och hur modellen för ett ärende ser ut i stora drag.

3.1 Arende och iipax

¨

Ett ärende är en avgränsad fr˚aga som tas upp för behandling. Ärende är ett brett begrepp som kan vara allt fr˚an ansökan om byggnadslov till utredning av mord. Ärende som ord används oftast tillsammans med statliga verk och företag men det finns inget som säger att det m˚aste användas i det samman-hanget. Ett ärende har en typisk livscykel där det först öppnas för behand-ling för att slutligen stängas. Stängning innebär inte ett definitivt slut d˚a ett ¨

arende kan öppnas p˚a nytt. Ärenden är normalt stängda men öppnas ibland för behandling. Anledningen till det är för att ärendehanteringssystem oftast byggs för företag och statliga verk. De har i de allra flesta fall lagkrav p˚a att h˚alla ett arkiv över gamla ärenden. Mellan öppnandet och stängningen av ett ärende ska det behandlas efter bestämda steg som är olika för olika ¨

arenden. Dessa steg kan naturligt representeras som en ändlig automat eller ett flödesdiagram.

Ett exempel kan vara att en person ansöker om byggnadslov. Personen börjar d˚a med att skicka in en ansökan till ett statligt verk. När ansökan d˚a kommer in till verket kommer det att dyka upp i en handläggares inkorg. Säg d˚a att i kontrollen av uppgifterna saknas n˚agot. D˚a m˚aste ärendet mar-keras med att det ska kompletteras och en begäran p˚a komplettering m˚aste skickas till den berörda personen. Inkommer senare en komplettering kan behandlingen av ärendet fortsätta. Antag d˚a att ett byggnadslov m˚aste ha uppgifter fr˚an ett annat statligt verk för att kontrollera att marken inte är

(21)

naturreservat eller liknande. D˚a skickas begäran till ett annat statligt verk om dessa uppgifter. När alla uppgifter inkommit kan handläggaren välja att avsl˚a eller godkänna ärendet och det stängs. Visar det sig bli ett avslag kan personen överklaga och ärendet m˚aste öppnas p˚a nytt. Vilket utfall det än blir m˚aste förmodligen det statliga verket spara ärendet i ett arkiv för ett visst antal ˚ar fram˚at av lagkrav.

M˚anga av stegen kan automatiseras. Exempelvis kontroller och begäran av uppgifter. Kanske är det till och med s˚a att det öppnas ett ärende i ett annat statligt verk. D˚a skulle hämtningen av dessa uppgifter ske helt automatiskt. Alla dessa steg är ett tillst˚and i diagrammet och förverkligas genom en programmerad modul.

P˚a iipax byggs system som kan hantera ärenden. Självaste iipax har generella komponenter som används i m˚anga olika typer av ärenden. ¨ Arende-hanteringssystem som bygger p˚a iipax kan ses som en realisering av tidigare nämnda automaten som representerar ett ärendes livscykel. Realiseringen ¨

ar ett grafiskt gränssnitt för handläggare och programmerade moduler som automatiserar olika steg i livscykeln.

Ett ärende börjar med att komma till inkorgen hos en ansvarig handläggare. Därefter tar sig ärendet genom olika steg i automaten. Ett steg i automaten kan vara n˚agot som m˚aste göras av handledare eller en begäran p˚a ytterligare uppgifter fr˚an den berörda, en annan organisation eller ett arkiv. De senare kan ofta skrivas som en plugin som kommunicerar med de olika parterna och kontrollerar uppgifterna.

3.2 ACID i iipax

ACID egenskaperna är viktiga för ärendehantering. Det kanske inte är ofta det uppst˚ar situationer d˚a de egenskaperna räddar den, men Murphys lag lyder: “Om n˚agot kan g˚a fel s˚a kommer det ocks˚a att göra de”. G˚ar n˚agot fel i ett viktigt ärende kan det innebära stora negativa konsekvenser. Här följer anledningar till varför det är viktigt med de olika egenskaperna. Endast ett f˚atal fall är beskrivna, listan skulle förmodligen kunna göras l˚ang.

A, Atomicity, är viktigt för att en behandling av ett ärende inte f˚ar bli halvgjort. Om exempelvis n˚agra av ett ärendes attribut ändras och behand-lingen sedan avbryts kan det leda till oväntade resultat om ingen ser över ¨

arendet noga och ser att n˚agot inte stämmer. Det kanske inte heller syns om n˚agot har g˚att fel. En uppmärksam människa kan se om n˚agot har blivit tokigt, men fler och fler processer automatiseras av datorer som kanske inte lägger märke till fel i kontexten.

C, Consistency, är viktigt i och med att flera ärenden kan ha samma källa som resurs. Om tv˚a ärenden behandlas men olika data ses i de olika fallen kan det leda till olika beslut där de egentligen skulle bedömts lika. Blir n˚agot av besluten felaktiga har behandlingen av ärendet misslyckats.

I, Isolation, är ett m˚aste för att ett ärendes behandling inte ska p˚averkas av n˚agot yttre. Ändras ett ärendes villkor under behandling kan det leda till

(22)

3.3. ¨ARENDEMODELL KAPITEL 3. IIPAX

ett felaktigt beslut.

D, Durability, en väldigt viktig punkt för att ett ärende som är be-handlat m˚aste förbli s˚a. Det kan uppkomma onödiga tvister om ett ärende om n˚agon tror att ett ärende är behandlat. Behandlingen kan i det fallet ha försvunnit ur databasen av exempelvis en krash. Till exempel, om ett ärende om adressändring behandlas och sen försvinner det kommer personen som flyttat kommer inte att f˚a sin post.

3.3 Arendemodell

¨

Modellen för ett ärende är komplex. Den best˚ar av m˚anga entiteter och de ¨

ar kopplade p˚a m˚anga olika s¨att.

Först och främst finns det en entitet för ett ärende. Ett ärende best˚ar av ett journalnummer som identifierar ärendet unikt. Till det finns en märkning som visar vart ärendet är i sin livscykel, dvs. öppen eller stängd. P˚a kan det finnas en massa attribut av m˚anga olika slag. Dessa attribut orsakar en gles datamodell som är ett av de problemen som relationsdatabaser har. Till varje ärende finns det rättigheter för vem som f˚ar besluta om dem. Där finns nästa stora entitet, handläggare. Handläggaren kan ing˚a i olika arbetsgrupper eller vara n˚agon form av administratör, vilket ger komplexa relationer mellan grupper, handläggare och administratörer.

Varje ärende kan ha flera olika tillhörande dokument. De kan ha egna strukturer som kan bli komplexa. P˚a detta ska de tillhörande dokumenten diarieföras i n˚agon form av logg. Det är inte bara dokumenten som behöver loggas utan allt som görs ska helst loggas för att kunna sp˚ara hur ett ärende har behandlats.

Olika entiteter i hela systemet beskrivs av attribut och meta data. Dessa m˚aste indexeras för att det ska vara möjligt att söka i systemet och göra det användbart. En bra indexering är därför av stor vikt.

Som texten beskriver blir m˚anga av strukturer lätt komplexa. Detta kan vid normalisering leda till väldigt m˚anga tabeller vilket vid hämtning av data ger m˚anga join-operationer, vilket kan leda till ett l˚angsamt system.

3.4 ObjectBase

ObjectBase är Ida Infronts egna modul för att spara ner objekt till databas. Den har förutom lagringen av ärenden etc. en hel del extra funktionalitet som iipax drar nytta av.

3.4.1 Modell f¨

or ett ¨

arende

Datamodellen som ett ärende har i iipax kan liknas vid en mappstruktur. Den är hierarkisk och utökas efter behov. Olika delar av det som är beskrivet i 3.3 blir till grenar i en trädstruktur.

(23)

3.4.2 Funktionalitet

I ObjectBase finns det en hel del extra funktionalitet som iipax använder i samband med lagringen. Funktionaliteten är i m˚anga fall skriven i applika-tionslagret och inte i den underliggande databasen.

Validering är en viktig funktionalitet som ObjectBase erbjuder. Den är viktig av framförallt tv˚a anledningar; att data ska h˚alla en viss standard och att det ska g˚a att kontrollera en användares rättigheter. Eftersom iipax är en väldigt generell plattform för ärendehantering kan de b˚ada nämnda fallen se ut p˚a väldigt olika sätt. Därför blir det även ett krav att valideringen enkelt g˚ar att komplettera med en plugin.

I ett ärende är olika delar ibland starkt kopplade eller beroende av varandra. Det kan därför vara väldigt praktiskt att ha tillg˚ang till att händelser utlöses vid ändring p˚a exempelvis ett attribut. Ett enkelt exempel p˚a det kan vara en summa. Om en term ändras eller läggs till är det praktiskt om programmet räknar om summan automatiskt. Händelserna kan vara att andra, kopplade, delar kan uppdateras. Detta är n˚agot som ObjectBase har stöd för och är viktig funktionalitet för iipax.

ObjectBase har stöd för versionshantering. Versionshantering är viktigt i ¨

arendehantering dels för att kunna följa en historik och dels för att ˚aterställa om n˚agot blir fel.

Fulltextindexeringen i iipax görs med hjälp av projektet Apache Lucene. Det är viktigt för att kunna göra fulltextsökningar i databasen av ärenden.

(24)

Kapitel 4

Neo4J

Neo4J är en grafdatabas som är släppt under fri licens för privat bruk, men för kommersiellt m˚aste licenser köpas. Den fria versionen är öppen källkod och byter vid version 1.3 till GNU GPL v3. Företaget som st˚ar bakom Neo4J heter Neo Technologies och har sitt huvudkontor i Malmö. Databasen är skriven i Java och den är en av de mer kända grafdatabaserna just nu. Neo4J är släppt i en stabil version 1.2 och en utvecklingsversion 1.3 Milestone 5; den släpptes i mars 2011. Beskrivningen av databasen är baserad p˚a dokumentation för 1.3M5[13, 14]. Neo4J klarar av stora mängder data med flera miljarder noder i en databas.

Databasen Neo4J valdes för att modelleringsegenskaperna, ur ett teore-tiskt perspektiv, var väldigt passande. Den stödjer även ACID egenskaperna fullt ut vilket är intressant för iipax. Neo4J valdes ocks˚a för att den ofta nämns i samband med diskussioner om NoSQL, och denna rapport är till stor del en orientering i just det begreppet. Att databasen g˚ar att f˚a tag p˚a gratis och finns under öppen licens underlättar utvärderingen.

4.1 Modelleringsm¨

ojligheter

Datamodellen är alltid en graf. Grafens noder och kanter representerar da-taobjekt och relationer. Det g˚ar att specificera relationers riktning som utg˚aende, inkommande eller b˚ada. Flera relationer kan vara av samma sort, exempelvis om tv˚a noder representerar personer och relationen är ett sam-tal mellan de tv˚a. D˚a g˚ar det att representera att de talat med varandra flera g˚anger genom flera relationer mellan de tv˚a personerna. Neo4Js starka modelleringsegenskaper är därför data med komplexa relationer. Egenska-perna för de tv˚a komponenterna modelleras schemalöst genom dataobjek-ten Node och Relationship. D¨ar associeras en nyckel med ett värde. Nyckeln ¨

ar en sträng och värdet är en Javaprimitiv, sträng eller en array av Java-primitiver. Värdet st˚ar p˚a m˚anga ställen som ett Object men den tar bara de tidigare givna datatyperna. Det tar exempelvis inte null som v¨arde. Värdet

(25)

kan indexeras(se nedan) och användas för att hämta ut data genom fr˚agor.

4.2 Index

Neo4J stödjer indexering genom att köra Apache Lucene som en indexe-ringsmotor. När Lucene används som indexeringsmotor stödjer Neo4J full textindexering. Genom indexeringen g˚ar det att ställa fr˚agor till databasen och slippa traversera genom hela grafen. Databasen kan fr˚agas genom tv˚a metoder, query och get. Funktionen query matchar delstr¨angar och stödjer funktioner för att kunna ställa fr˚agor som matchar en större mängd. Funk-tionalitet som query ¨arvt av Lucene är bland annat: Numeriska intervaller, sortering, sammansättning av fr˚agor med nyckelordet “AND” och cachning av index för att kunna ¨oka prestandan. Metoden get h¨amtar bara ut exakta matchningar. Index g˚ar att skapa p˚a b˚ade noder och relationer. Om data uppdateras m˚aste indexet uppdateras explicit av programmet.

Förutom stöd att indexera text med hjälp av Lucene stödjer Neo4J in-dexering via tidstämplar. Det är bra utifall historiken för data är viktigt för applikationen. Indexeringstjänsten kommer i framtiden att bytas ut i Neo4J. Det finns ännu inte mycket information om den.

4.3 ACID

Neo4J har ett fullt stöd för ACID när databasen kör p˚a en nod. Operationer p˚a databasen börjar med att öppna upp en transaktion för att sedan utför alla operationer i en try-finally konstruktion. Det sista i try-blocket ¨ar att flagga operationerna som f¨ardiga. I finally satsen st¨angs transaktionen och om det inte är flaggat som ok kommer transaktionerna att ˚aterställas. Ope-rationerna flaggas som ok med tx.success() som alltid m˚aste vara den sista raden i f¨orsta blocket. try-finally i Java fungerar p˚a s˚a sätt att första delen prövas att köras och oavsett om f¨orsta blocket lyckas eller ej kommer finally delen att köras. Där mellan g˚ar det att f˚anga upp undantag som kastats. S˚a tx.finish() k¨ors oavsett hur det g˚ar i första blocket. Därmed avslutas transaktionen och om transaktionerna inte är markerade som ok kommer databasen att ˚aterställa dem.

Eftersom Neo4J l˚aser data kommer l˚asningar att uppkomma. Det löser systemet genom att s˚a kallad deadlock detection kommer att avbryta en transaktion och inte markeras som färdigt. D˚a kommer det som transaktio-nen ˚astadkommit ˚aterställas. APIet är i regel tr˚adsäker om n˚agot annat inte specificeras.

4.4 Skalbarhet

Det g˚ar att konfigurera Neo4j för hög tillgänglighet, Neo4j HA(High Availa-bility). Systemet skalar d˚a horisontellt i en s˚a kallad read-mostly arkitektur.

(26)

4.5. NEO4J APIER KAPITEL 4. NEO4J Transaction tx = graphDB.beginTx(); try { ... //operationer ... tx.success(); } finally { tx.finish(); }

Figur 4.1: En kodsnutt som visar hur en typisk transaktion g˚ar till i Neo4Js Java API.

Det kommer d˚a att s¨atta upp en master-slave relation d¨ar slaves är kopior av noden. Systemet klarar av att balansera belastningen och kommer därför att kunna hantera högre trafik. Systemet är feltolerant och klarar h˚ardvarufel. Om noder skulle g˚a ner klarar systemet av att ta bort slavar eller om mas-ternoden g˚ar ner klarar systemet av att välja en ny. Systemet blir stabilt för att det har en ZooKeeper [12] som koordinerar det.

Databasen blir i den här konfigurationen eventuellt konsistent i sin data. Den släpper d˚a sitt fulla stöd för ACID. Det enda kriteriet som inte uppfylls längre är C, konsistent data, resterande kriterier kommer fortfarande att stödjas.

För version tv˚a av Neo4J planeras stöd för distribuerade grafer. Neo4J ska allts˚a bli en fullständigt distribuerad databas.

4.5 Neo4J APIer

Det finns bibliotek till m˚anga olika spr˚ak som kopplar direkt till databasen. Till Neo4J finns det ingen l˚agniv˚a API som biblioteken kopplar igenom utan funktionerna g˚ar direkt till databasen. Innan version 1.2 av databasen kördes den alltid som inbäddad. Den inbäddade varianten kan köras fr˚an spr˚ak som bygger till JVM. Fr˚an version 1.2 kan Neo4J köras som självständig server och kommunikationen sker d˚a via REST. Här beskrivs först den l˚aga niv˚an för Java för att sedan g˚a vidare till en högre niv˚a med jo4neo som ordnar konverteringen mellan Java objekt och databasen automatiskt.

Utvärderingen av Neo4J avser version 1.2 av systemet. Version 1.2 används för att det är den senaste stabila versionen. Med senaste koden avvecklas den nuvarande indexeringstjänsten för att ersättas av en ny. Biblioteket som används stödjer ännu bara den äldre, stabila, versionens indexeringstjänst. Till utvärderingen har biblioteket jo4neo, version 0.4.1, använts. Det är ett bibliotek för att översätta objekt till databasen.

(27)

4.5.1 L˚

agniv˚

a API

Neo4J har en API som ger möjlighet att söka noder p˚a m˚anga olika sätt. Eftersom databasen är en graf g˚ar det självklart att traversera genom grafen. Det görs med en Traverser. Den g˚ar att specificera med m˚anga parametrar för att f˚a den att traversera p˚a det sätt som önskas.

Traverser friends = node.traverse( Order.BREADTH_FIRST, StopEvaluator.END_OF_GRAPH,

ReturnableEvaluator.ALL_BUT_START_NODE,

MyRelationshipTypes.KNOWS, Direction.OUTGOING ); for ( Node friend : friends )

{

// ... }

Figur 4.2: Exempel p˚a traversering i Neo4J API

Koden ovan skapar en Traverser som traverserar genom alla nätverk av vänner i grafen med bredden först sökning. Den skapade traverseringen ste-gas sedan igenom med hj¨alp av Javas for-each konstruktion. D¨ar behandlas varje nod i tur och ordning.

Grafen g˚ar ¨aven att traversera lokalt genom att h¨amta in alla noder som har en viss relation till en nod.

node.getRelationships( RelationshipTypes.KNOWS, Direction.OUTGOING );

Figur 4.3: Exempel p˚a att h¨amta ut de noder som ¨ar kopplade med relation-stypen KNOWS.

I exemplet h¨amtas alla noder som ¨ar kopplade till noden node genom relationen KNOWS. Resultatet av metoden itereras precis som i f¨oreg˚aende kodexempel.

Som tidigare nämnts stödjer Neo4J indexeringen. Indexeringen kan fr˚agas genom metoderna get och query p˚a följande vis:

roles.get( "name", "Persephone" ).getSingle(); movies.query( "title:*Matrix* AND year:1999" );

Figur 4.4: Exempel p˚a de tv˚a varianterna att h¨amta ut data ur indexet.

I ovanst˚aende exempel ¨ar skillnaden mellan de tv˚a olika metoderna att

(28)

4.5. NEO4J APIER KAPITEL 4. NEO4J

som matchar godtycklig str¨ang, och AND som s¨atter samman tv˚a fr˚agor. I likhet med SQL.

APIet är designat som ett vanligt objektorienterat bibliotek som kan anses som intuitiv för en van programmerare. Det är bra dokumenterat med Javadoc. APIet best˚ar inte bara av metoder för att hämta ut noder. Utan det finns även stöd för att använda olika grafalgoritmer för att hitta kortaste vägen och liknande. Förutom metoder för att behandla grafen finns det metoder för att bygga in Neo4J i en applikation.

4.5.2 H¨

ogniv˚

a API: jo4neo

Jo4neo är ett projekt p˚a googlecode som är öppen källkod(GNU GPL v3). Anledningarna till att biblioteket valdes är att den är känd och har öppen källkod.

Biblioteket

Modellen har abstraherat bort grafen helt. Det finns bara klasser och rela-tioner mellan dessa. En klass används som en nod i grafen genom att speci-ficera en nods id-nummer. Detta id är unikt i databasen. Alla fält som ska associeras med en nod noteras med @neo. Om det är en av de inbyggda data-typerna läggs det som ett fält i noden. Är det däremot en klass som ocks˚a är en nod läggs en kant mellan dem och en relation är skapad bakom kulisser-na. Notationen @neo tar emot argument argument. De möjliga argumenten ¨

ar index=true eller fulltext=true, “belongs to” eller inverse=“belongs to”, traverser och recency.

public class Case extends DataNode { @neo(index = true)

public String name; @neo

boolean opened; @neo("belongs_to")

private Collection<Document> diarium =

new LinkedList<Document>(); @neo(recency=true)

private Collection<Event> journal =

new LinkedList<Event>(); @neo("created_by")

private Manager creator; @neo

private Date creationDate;

(29)

Ovan är ett exempel p˚a hur biblioteket kan användas. Exemplet är en modell av ett ärende. Case ärver bara id fr˚an DataNode i exemplet. Med Jo4neo behövs bara vanlig objektorienterad programmering. Det enda extra ¨

ar att variablerna ska noteras. Första variabeln indexeras i sin helhet. Det g˚ar därmed bara att söka p˚a en exakt match. Skulle istället fulltext specifi-ceras skulle delar av texten i variablen kunna matchas. Men i och med att det bara är ett namn väljs den första varianten. Den andra variabeln sparas bara ner i databasen i sin helhet, det blir bara ett attribut i noden. Den tredje variabeln är en relation till flera instanser av dokument. Notationen betyder att relationen mellan de tv˚a noderna d¨ops till belongs to . Fj¨arde variabeln journal ¨ar även den en relation, skillnaden här är att inget namn specificeras p˚a relationen men relationerna kommer att indexeras efter när de lades till. Databasen h˚aller därmed reda p˚a en tidslinje. De tv˚a sista re-peterar bara nämnd funktionalitet. För att söka i indexet används raden i figur 4.6.

Collection<Case> docs = graphDB.find(cas_ins) .where(cas_ins.name)

.is("xfile x4152").results();

Figur 4.6: En s¨okning bland noder i jo4neo.

Ovan s¨oker databasen efter alla noder av typen Case genom variabeln

cas ins som ¨ar en instans av klassen. Därefter specificeras vilken variabel indexet ska matcha mot. Den ska d˚a matcha mot strängen “xfile x4152”. Indexet kommer bara att matcha exakt d˚a bara index specificerades i ??. Jo4neo hanterar mängder med hj¨alp av Collection. name ¨ar public för att den ska g˚a att komma ˚at ifr˚an sökningen. Sökningen ändrar i instansen som används; det kan därför vara bra att ta för vana att skapa en ny instans av klassen vid sökningarna.

Det g˚ar att skapa egna traverserare f¨or att kunna g˚a igenom data som ¨

onskas. Det är inget som visas i n˚agot av exemplen men det specificeras med notationen @traverser som tar en traverserarklass som argument. N¨ar traverserare används släpps programmeraren ner p˚a den lägre niv˚an när traverserarklassen skapas. Därefter är det bara som att g˚a igenom en Col-lection med en for-each sats. Det kan vara bra att namnge relationer n¨ar traverserare ska skapas.

Det finns utöver @neo en notation som heter @embed. Den lägger inte en relation mellan dem utan serialiserar det annoterade objektet och lägger in de i noden. I bakgrunden av @embed jobbar Javas serialisering och gör om objektet till en byte array. APIet döljer uppdateringen av index. I APIet p˚a lägre niv˚a m˚aste det göras explicit.

(30)

4.5. NEO4J APIER KAPITEL 4. NEO4J

Dokumentation

Mindre bra är att det inte finns speciellt mycket om detta bibliotek p˚a internet. Dokumentationen är d˚alig och det finns inte mycket om den p˚a bloggar och liknande. Det kan vara sv˚art att hitta lösningar p˚a sina problem, för att APIet har lite inbyggd funktionalitet. Attribut g˚ar inte att sätta p˚a relationer med APIet. Alla klasser som skapas blir till noder, därav blir alla skapade attribut sparade i noder. Det kan kännas önskvärt att göra speciellt i m˚anga-till-m˚anga relationer. Att attributen ligger i relationerna kan medföra en naturligare representation.

4.5.3 Externa verktyg

Det finns en plugin till utvecklingsmiljön eclipse som visualiserar den skapa-de databasen och skapa-dess data. Pluginen heter neoclipse och utvecklas av Neo Technology. Den kan användas för att se p˚a data visualiserat som en graf som g˚ar att vrida och flytta runt. Det g˚ar även att utföra diverse administ-rativa uppgifter.

¨

Aven ett webbaserat administrationsverktyg sl¨apptes i och med Neo4J 1.3. Det har ut¨over administration av data en visualisering av grafer.

4.5.4 Utv¨

ardering av API

Den l˚aga niv˚an som den inbäddade versionen har känts väldigt naturlig men saknar mycket funktionalitet. Den är helt enkelt p˚a en för l˚ag niv˚a för att kunna bygga större program p˚a. Javadoc h˚aller en hög standard.

Jo4neo har ett väldigt koncist API där det i princip g˚ar att lägga till, hämta ut, söka och ta bort. Detta är det mesta ett program normalt behöver. Den ser ut att vara ett bra alternativ för iipax. Intrycket är att detta system klarar bra av att spara ner objekt i sin naturliga form. Relationer är n˚agot det finns gott om i ärendehantering och det klarar den bra. Ett fall som idag ses som sv˚art i iipax är att söka i delar av strukturer. Med en specialbyggd traversering ska det fallet klaras bra i Neo.

(31)

Kapitel 5

CouchDB

CouchDB är en dokumentdatabas som är släppt under öppen licens och är släppt i version 1.0.1[15]. Databasen är skriven i Erlang. Dokumenten i data-basen är lagrat i JSON(JavaScript Object Notation) format och fr˚agespr˚aket ¨

ar javascript. Det finns möjlighet att skapa fr˚agor i andra spr˚ak men java-script är det vanligaste i den information som finns p˚a internet. Fr˚agor de-signas efter map/reduce och databasen skalar bra. Kommunikationen med CouchDB sker via HTTP och är designad med webben i ˚atanke.

CouchDB har valts för att det är en databas som är släppt under öppen licens och är en databas som ofta nämns i NoSQL sammanhang. Det ser ¨

aven ut att vara en typisk dokumentdatabas och kan ses som en bra repre-sentant för den typen av NoSQL databaser. Den schemalösa designen hos dokumenten ser ut att kunna lösa n˚agra av problemen som ObjectBase har. CouchDB har m˚anga avancerade funktioner som kan vara värda en närmare undersökning för användning i iipax.

5.1 Modelleringsm¨

ojligheter

CouchDB är schemalös vilket leder till att designen av databasen är fri och kan ändras när som helst, även d˚a systemet körs. Det finns inga be-gränsningar p˚a antalet fält i ett dokument eller fältens storlek. I fälten kan det lagras väldigt m˚anga olika typer av data eftersom det lagras i JSON format. Det är JSON som sätter begränsningarna. Det g˚ar därför att nästla objekt och göra arrayer. Om inte JSON skulle räcka till finns möjlighet till att lagra BLOB i CouchDB. Det finns även möjlighet till att bifoga filer till ett dokument(eng attachments). Poängen med dessa är att det g˚ar att ladda in deras metadata utan att ladda in filerna själva.

I CouchDB ﬁnns det s˚a kallade designdokument. Ett designdokument ¨

ar precis som alla andra entiteter i databasen ett dokument. Designdoku-ment har namnkonventionen design/[namn]. Ett designdokuDesigndoku-ment har som de andra entiteterna ett id och revisionsnummer. D¨arefter kan det

(32)

speciﬁce-5.2. ACID KAPITEL 5. COUCHDB

ras en hel del funktioner som kan anropas och annat till exempel metadata för de bifogade filerna, vyer, visnings funktioner och valideringsfunktioner. De bifogade filerna i ett designdokument kan vara alla typer av kod och bilder som ska användas i funktioner. Det är bra för att slippa utveckla allt i JSON dokument.

Vyer specificeras genom ett namn och ett nästlat objekt. Objektet har fälten map och reduce där reduce är valfritt. Alla dessa namn resulterar i adressen till RESTanropet. Exempelvis:

http://localhost:5984/couchbase/_design/Manager/_view/all D¨ar all ¨ar namnet p˚a vyn och design/Manager ¨ar namnet p˚a designdoku-ment.

Shows är en transformation av uthämtad data. Det kan vara väldigt bra för att slippa lagra exempelvis HTML- eller XML-mallar explicit. När databasen kan skicka ut HTML ger det en fördel för sökmotorer som inte exekverar AJAX p˚a hemsidor.

Valideringen som kan specificeras i designdokumenten kan försäkra sig om att data h˚aller en viss standard. Det kan vara som en ˚atgärd mot de fel som kan bli av den schemalösa datamodellen. Till en valideringsfunktion skickas alltid en parameter som inneh˚aller roller och den användare som försöker utföra operationen. Valideringsfunktionerna kan därför hjälpa till att säkra databasen.

5.2 ACID

En transaktion kan uppn˚a fullständigt stöd för ACID. D˚a flera transaktioner ing˚ar i en uppdatering, bulkuppdatering, är stödet för ACID ej p˚aslaget fr˚an början men kan specificeras s˚a att ingen eller alla transaktioner genomförs. Under en transaktion l˚aser aldrig CouchDB data utan använder sig av MVCC(Multi Version Concurency Control). Om tv˚a läsningar av samma data görs med avsikt att uppdatera data kommer bara den ena uppdate-ringen att g˚a igenom. För att en uppdatering ska g˚a igenom m˚aste den ha ett uppdaterat revisionsnummer. I fallet d˚a en uppdatering med utdaterat versionsnummer försöker uppdatera kommer CouchDB att returnera felkod 409 och ändringen sparas inte. Det är d˚a upp till klienten att föröka lösa uppdateringen genom att hämta en ny kopia och försöka med uppdateringen igen. S˚a löser CouchDB problemet med förlorade uppdateringar.

Trots att data inte blir l˚ast ser en läsning samma data under hela tiden eftersom klienten som läser läser en kopia av data.

5.3 Skalbarhet

CouchDB kan replikera data f¨or att kunna best˚a av ﬂera synkroniserade databaser[16]; i ett distribuerat system kommer data att bli inkonsistent.

(33)

Det l¨oser CouchDB genom versionshantering. Versionshanteringen v¨aljer de-terministiskt en vinnare bland de olika versionerna.

Det g˚ar att komma ˚at de andra versionerna utifall applikationen vill sl˚a ihop flera versioner ända tills CouchDB utför en rensning av gammalt data och tar bort versioner som inte längre är aktuella. Det gör systemet under perioder d˚a belastningen inte är hög. För en vy visas endast vinnaren bland versionerna.

Det g˚ar att köra CouchDB i klusterkonfiguration med hjälp av ramverket Lounge. Det görs genom att sprida ut data p˚a flera maskiner. Anrop till databasen sker genom en proxy som dirigerar anropen bland de olika delarna av databasen.

När CouchDB körs i ovanst˚aende konfigurationer gäller inte ACID utan BASE. Uppdateringar kommer att fortplanta sig genom noderna och uppn˚a konsistent data s˚a sm˚aningom. I distribuerat läge uppn˚ar allts˚a CouchDB A och P men inte C.

CouchDBs klusterkonfiguration är väldigt speciell för att den kan kopiera upp databasen p˚a flera olika noder som kan ha sin egen version och de synkroniseras automatiskt. Noderna behöver inte vara uppkopplade hela tiden utan kan g˚a offline och sen uppdateras allt automatiskt vid ett senare tillfälle. Det är n˚agot som idag används av molnlagringstjänsten UbuntuOne. CouchDB drar s˚a pass lite resurser att den kan köras p˚a nya smartphones. Det gör att molntjänsterna g˚ar bra att även köra p˚a mobila enheter.

5.4 Index

Dokumentdatabaser, som CouchDB är, är en variant av key/value databaser och därför har alla dokument en unik nyckel. Dokumenten lagras i en b-trädstruktur och har ett index där med. Det indexet kommer att uppdateras automatiskt.

Vyer indexeras för att bli effektivare. Map/Reduce funktionerna för en vy g˚ar igenom alla dokument första g˚angen för att vid senare anrop ha ett uppbyggt index. Det kan ses som s˚a kallade “thunks”. Det är en konstruktion som bara evalueras första g˚angen och sparar sedan ner resultatet.

I CouchDB g˚ar det att fulltextindexera med Apache Lucene. Fulltextin-dexeringen är ett externt projekt och finns inte fr˚an i grunddatabasen. Ef-tersom APIerna är avancerade finns det utvecklare som skapat egna indexe-ringar med hjälp av det befintliga APIet. Vyer returnerar par av nyckel och ett värde. När CouchDB söker i en vy g˚ar det endast att göra s˚a p˚a nyckeln. Behandling av värdet sker i applikationslagret. Det g˚ar inte att använda sig av tecken för att matcha reguljära uttryck men det g˚ar att fr˚aga efter inter-valler av värden. För att skapa mer komplicerade fr˚agor krävs det en smart design av map och reduce funktionerna. För mer avancerad sökfunktionalitet m˚aste Lucene pluginen användas.

(34)

5.5. COUCHDB API KAPITEL 5. COUCHDB

5.5 CouchDB API

Till utvärderingen av CouchDB har den senaste stabila versionen 1.0.1 använts. Anledningen till versionsnumret är att när version 1.0 släpptes märktes snart en bugg som snabbt ˚atgärdades. APIet som använts är bib-lioteket Ektorp med versionsnummer 1.1.1[18]. Namnet Ektorp är lite av en ordlek fr˚an den svenska utvecklaren. Ektorp är en soffmodell fr˚an IKEA och CouchDB betyder soffa p˚a engelska. Detta bibliotek mappar objekt till databasen men abstraherar även konstruktioner vyer och repositories.

5.5.1 L˚

agniv˚

a JSON/javascript API

CouchDB har ett RESTful HTTP-baserad[16] API. Enda vägen att kommu-nicera är genom GET, PUT, DELETE och POST metoder som inneh˚aller Javascript-funktioner och data är strukturerat i JSON.

{

"Subject": "I like Plankton" "Author": "Rusty"

"PostedDate": "5/23/2006"

"Tags": ["plankton", "baseball", "decisions"]

"Body": "I decided today that I don’t like baseball. I like plankton."

}

Figur 5.1: Exempel p˚a hur en bloggpost skulle kunna struktureras i CouchDB APIet. M˚asvingarna, {}, används för att representera ett objekt och hakpa-renteserna, [], används för att representera en array.

function(doc) {

if(doc.age && doc.name) { emit(doc.age, doc.name); }

}

Figur 5.2: Exempel p˚a en lagrad funktion som anv¨ands vid f¨orfr˚agning.

F¨alten age och name i figur 5.2 kontrolleras och emitteras ut ifall de passerar de specificerade kraven. Detta är map-funktionen i Map/Reduce-modellen. Emitteringen plockas sedan upp av en reduce-funktion, om s˚adan finns, som sätter samman allt till ett slutgiltigt svar.

Som tidigare nämnts klarar CouchDB av att modellera relationer med hjälp av att skapa funktioner enligt map/reduce-modellen. De skapas genom att lagra funktioner som tar in tv˚a dokument och matchar tv˚a värden. Det har stora likheter med ett SQLspr˚aks JOIN funktion.

En utredning av NoSQL för iipax

Department of Computer and Information Science

Examensarbete

En utredning av NoSQL för iipax

av

Jonas Hesselryd

LIU­IDA/LITH­EX­G—11/012­SE

2011­06­08

Examensarbete

En utredning av NoSQL för iipax

av

Jonas Hesselryd

LIU­IDA/LITH­EX­G—11/012­SE

2011­06­07

Handledare: Lena Strömbäck

Examinator: Lena Strömbäck

Sammanfattning

Inneh˚

all

Kapitel 1

Inledning

1.1

Bakgrund

1.2

Syfte

1.3

Fr˚

agest¨

allning

1.4

Kravbild

1.5

Metod

1.6

M˚

algrupp

Kapitel 2

Teori

2.1

Begrepp

2.1.1

CAP-satsen

2.1.2

ACID

2.1.3

BASE

2.1.4

Vertikal och Horisontell Skalning

2.2

RDBMS

2.3

NoSQL

2.3.1

Allm¨

ant

2.3.2

Typer av NoSQL

Kapitel 3

iipax

3.1

Arende och iipax

¨

3.2

ACID i iipax

3.3

Arendemodell

¨

3.4

ObjectBase

3.4.1

Modell f¨

or ett ¨

arende

3.4.2

Funktionalitet

Kapitel 4

Neo4J

4.1

Modelleringsm¨

ojligheter

LIUIDA/LITHEXG—11/012SE

20110608

LIUIDA/LITHEXG—11/012SE

20110607