Replikation: Prestanda med MongoDB

(1)

Fakulteten f¨or teknik och samh¨alle Datavetenskap

Examensarbete 15 h¨ogskolepo¨ang, grundniv˚a

Replikation: Prestanda med MongoDB

Replication: Performance with MongoDB

Sebastian Nirfelt

Examen: Kandidatexamen 180 hp Huvudomr˚ade: Datavetenskap Program: Systemutveckling

Datum f¨or slutseminarium: 2016-05-27

Handledare: Mia Persson

(2)

(3)

Sammanfattning

Förm˚agan att lagra data är en stor bidragande faktor till att vetenskapen ständigt rört sig fram˚at. Under n˚agra tusen ˚ar har människan utvecklats fr˚an att lagra data p˚a grottväggar till h˚arddiskar och kraven p˚a prestanda, tillg˚ang och felsäkerhet ökar i rasande takt. För att hantera data i det moderna samhället utvecklas ständigt nya metoder och en av dessa metoder är replikation. Den här undersökningen testar hur replikation p˚averkar prestandan i en distribuerad MongoDB-lösning. Testerna i undersökningen är automatiserade och körs mot databasen i olika konfigurationer för att se hur prestandan förändras.

(4)

(5)

Abstract

The ability to store data is a contributing factor in making science constantly move for-ward. In a few thousand years man has evolved from storing information on cave walls to hard drives and requirements in performance, availability and fault tolerance are rapidly increasing. To manage information in modern society new methods are constantly evol-ving and one of these methods is replication. This study tests how replication affects the performance in a distributed MongoDB solution. The tests in this survey are automated and run against the database in different configurations to see how performance changes.

(6)

(7)

Inneh˚

all

1 Inledning 1 1.1 Introduktion . . . 1 1.2 Bakgrund . . . 1 1.2.1 Replikation . . . 1 1.2.2 MongoDB . . . 2

1.2.3 Replikation i andra databaser . . . 2

1.2.4 Tidigare forskning . . . 3 1.3 Problemställning . . . 4 1.4 Fr˚ageställning . . . 4 1.5 Syfte . . . 4 2 Metod 5 2.1 Metodbeskrivning . . . 5 2.2 Experiment . . . 5 2.2.1 Inmatningstest . . . 6 2.2.2 Hämtningstest . . . 6 2.2.3 Uppdateringstest . . . 6 2.2.4 Borttagningstest . . . 6 2.2.5 Haveritest . . . 7 2.3 Testplattform . . . 7 2.3.1 H˚ardvara . . . 7 2.3.2 Mjukvara . . . 7 2.4 Metoddiskussion . . . 8 3 Resultat 9 3.1 Inmatningstest . . . 9 3.2 Hämtningstest . . . 10 3.3 Uppdateringstest . . . 11 3.4 Borttagningstest . . . 12 3.5 Haveritest . . . 13 4 Analys 14 5 Diskussion 15

6 Slutsatser och vidare forskning 15

Referenser 16

(8)

(9)

1 Inledning

1.1 Introduktion

Under de senaste trettio ˚aren har olika system för att hantera datalagring utvecklats och successivt förbättrats. Fram till början av 2000-talet dominerades marknaden totalt av relationella databaser för att sedan ta en vändning i och med introduktionen av web 2.0 som öppnade dörren för icke-relationella databaser p˚a stor skala. Flera stora företag som Amazon, Facebook, Google och Yahoo har tvingat utvecklingen av databassystem fram˚at och kraven p˚a prestanda och felsäkerhet har ökat drastiskt. [5]

Ett sätt att ta sig an problemet med högre krav p˚a prestanda och felsäkerhet är att implementera distribuerade databaser genom att koppla ihop flera individuella servrar. När flera enskilda servrar har egna kopior av samma information kallas det replikation (se [11][12][13] och stycke 1.2.1) och det används för att uppn˚a b˚ade prestanda och feltolerans men bidrar till en konflikt mellan konsistens och effektivitet. [7]

1.2 Bakgrund 1.2.1 Replikation

Det har under m˚anga ˚ar forskats inom omr˚adet replikation. Syftet med replikation är i grunden att ha hög tillgänglighet till data samtidigt som systemet är felsäkert. Om en en-skild server (hädanefter kallad nod) havererar är datan fortfarande lagrad p˚a en eller flera andra noder, vilket kräver att systemet är konsistent vid lagring av data. All data m˚aste hela tiden finnas p˚a flera noder och d˚a systemet hela tiden m˚aste kontrollera att datan ¨

ar konsistent kan problem med prestanda uppst˚a. För att h˚alla alla noder uppdaterade används processorkraft fr˚an servrarna vilket gör att färre förfr˚agningar kan hanteras sam-tidigt och behandlingstiden kan bli längre. Detta i sin tur leder till att olika replikerande databaser inriktas mot specifika syften. [2]

Hur en databas hanterar replikation klassificeras enligt tv˚a grundl¨aggande fr˚agor: • Var hanteras ¨andringar av data?

• N¨ar hanteras ¨andringar av data?

Var ändringar hanteras är uppdelat i tv˚a olika sätt. Det ena är att databasen har en primär nod som hanterar alla insättningar, uppdateringar och borttagningar. Den primära noden skickar i sin tur ut uppdateringen till de andra noderna. Det andra sättet är att alla noder kan hantera ändringar i databasen. Fördelen med att endast en nod hanterar ändringar ¨

ar att kontrollsystemet blir mindre avancerat. Om alla noder i systemet kan ändra i datan kommer kontrollsystemets komplexitet öka drastiskt. Fördelen med att alla noder kan uppdatera datan är att systemet blir väldigt flexibelt. När alla ändringar hanteras av en nod kallas det primary copy och när alla noder kan hantera ändringar kallas det update anywhere. [2]

När ändringar hanteras är ocks˚a det uppdelat i tv˚a olika sätt som kallas eager och lazy. Med eager menas att ändringarna skickas ut till alla noder och sparas samtidigt och när ändringen är sparad skickas bekräftelsen tillbaka. Eager replikation garanterar att data är konsistent över alla noder och eftersom eager replikation väntar p˚a alla noder kan svarstiden potentiellt bli l˚ang. I lazy replikation sparas ändringarna lokalt p˚a den nod

(10)

som tagit emot förfr˚agningen och skickar direkt tillbaka svar innan förfr˚agningen skickas vidare till de andra noderna. Eftersom ändringarna inte skickas vidare direkt kan inte heller konsistensen garanteras i alla lägen. Det enda som kan garanteras är att databasen förr eller senare är konsistent. Fördelen med lazy replikation är att svarstiderna ofta blir väldigt snabba. [2][7]

Var och när en databas hanterar ändringar kombineras till fyra olika kategorier. Alla kontrollsystem för replikation tillhör en av dessa kategorier. [2]

1.2.2 MongoDB

MongoDB är i skrivande stund världens fjärde mest populära databas enligt [9]. MongoDB ¨

ar en icke-relationell databastyp och ¨ar av typen document store [4]. All data som sparas i MongoDB l¨aggs i dokument som kan i sin tur samlas i collections. Syftet med MongoDB ¨

ar att ha hög prestanda och garantera att datan förblir intakt. För att garantera hög prestanda är en av MongoDBs kärnfunktioner horisontell skalbarhet. [10]

Vertikal skalbarhet innebär att för att öka prestandan p˚a en databas (eller annat system) uppgraderas serverns h˚ardvara. Horisontell skalbarhet innebär i stället att en eller flera servrar läggs till för att fördela belastningen mellan sig. I takt med att belastningen mot en MongoDB databas ökar kan fler servrar läggas till utan att n˚agot mellansystem krävs. [10]

För att garantera att datan som lagrats i MongoDB är intakt och alltid finns tillgänglig har mjukvara för replikation implementerats. I MongoDB kallas detta ett replica set. [10] Ett replica set i MongoDB byggs upp av flera noder som har samma data. Varje replica set har en primär nod som hanterar alla ändringar och för att h˚alla databasen konsistent används metoden lazy replikation. Efter att en ändring gjorts mot den primära noden skickas den ut till de övriga noderna och hög feltolerans garanteras genom att alla noder har samma data vilket leder till att ingen data g˚ar förlorad om en server skulle haverera. Om den primära noden havererar kommer en omröstning mellan noderna att ske. Den nod som f˚ar flest röster blir den nya primärnoden. I fallet att antalet noder skulle vara jämnt kan antingen en nod ha befogenhet att lägga tv˚a röster eller s˚a kan replica setet ha en arbiter. En arbiter är en nod vars enda syfte är att rösta om en ny primär nod och den har ingen data sparad. Replica set till˚ater även hämtningar fr˚an alla noder. Detta kombinerat med lazy replikation gör att den nod som hanterar hämtningen inte alltid kan garantera att den f˚att datan fr˚an primärnoden. I dessa fall kan ingen eller fel data returneras. [11] 1.2.3 Replikation i andra databaser

Olika databaser hanterar och strukturerar data p˚a olika sätt. Tv˚a av de mest populära databaserna enligt [9] är MySQL och Cassandra. D˚a dessa databaser hanterar data an-norlunda än MongoDB blir deras sätt att hantera replikation ocks˚a annorlunda.

MySQL är en relationell databas som i standardkonfigurationen hanterar replika-tion enligt primary copy och lazy precis som MongoDB. Utöver standardinställningarna kan MySQL konfigureras för flera olika ändam˚al och ett av de sätt som fr˚ang˚ar stan-dardlösningen är att replikationen sker semisynkroniserat som en blandning av eager och lazy. Detta sker genom att den primära noden fortfarande hanterar alla förfr˚agningar som inneh˚aller ändringar men väntar bara p˚a svar fr˚an en sekundär nod i stället för alla. Replikation till de övriga noderna sker sedan enligt metoden lazy. [12]

(11)

Cassandra är en icke-relationell databas som är inriktad p˚a att hantera stora mängder data och mycket trafik. Den är uppbygd av noder som är samlade i data centers. Varje data center kan ha egna inställningar för replikation. Data centers är i sin tur samlade i ett kluster. Databasen h˚alls synkroniserad enligt lazy replikation men använder update any-where i stället för primary copy. Eftersom alla noder kan hantera ändringar blir Cassandra en väldigt flexibel databastyp. Nackdelen med kombinationen update anywhere och lazy ¨

ar att databasen kr¨aver mycket intern kommunikation f¨or att h˚allas synkroniserad.[8] 1.2.4 Tidigare forskning

De senaste tre decennierna har det forskats väldigt mycket inom omr˚adet replikation. Att kunna ha samma data p˚a flera olika geografiska platser kan ge b˚ade fördelar i prestanda och felsäkerhet. För att h˚alla datan synkroniserad ställer replikation höga krav p˚a databasens kontrollsystem och att utveckla snabba och stabila kontrollsystem har varit fokus för m˚anga studier. [2]

Med fokus p˚a prestanda hos databastyperna MongoDB och Cassandra testas databa-serna i olika scenario i [1]. Artikeln börjar med en jämförese av hur de olika databaserna används och vilka funktioner de innefattar för att sedan g˚a vidare till att jämföra prestan-dan under olika belastningar. De olika belastningar som beskrivs i rapporten best˚ar av blandningar av inmatningar, uppdateringar och hämtningar för att symbolisera verkliga scenarion. Slutsatsen blir att Cassandra hanterar stora mängder ändringar av data bättre ¨

an MongoDB vilket kan härledas till att Cassandra använder sig av update anywhere i stället för primary copy. [1]

I [6] jämförs MongoDB med Microsoft SQL Server. I testet ska mallar för användare hanteras av databaserna där varje användare tillhör en avdelning och ett antal projekt. Testerna innefattar inmatningar, uppdateringar och hämtningar som genereras till de olika databaserna. I slutsatsen förmedlar författarna att MongoDB presterade väldigt mycket bättre i en majoritet av fallen och d˚a testerna endast körs mot databaser med en nod föresl˚ar författarna att tester görs mot databasser med flera noder. [6]

Under kapitel fem i [2] utreds olika typer av replikation för att se hur prestanda p˚averkas. N˚agra av testerna inkluderar hur prestanda p˚averkas vid replikation över sto-ra geogsto-rafiska omr˚aden och när en databas ska kunna administreras av flera individuella aktörer. Slutsatsen blir att mer forskning inom decentralicering av databaser behövs för att prestanda ska kunna h˚allas hög i framtiden. [2]

I [3] ges ett förslag p˚a hur konsistens kan delas upp för att öka prestanda. I artikeln implementeras en algoritm för att delvis replikera en distribuerad databas med 64 no-der. Databasen i fokus var av typen PostgreSQL. Författarna fick ett lyckat resultat och tiden för en transaktion var omkring 15% snabbare än mot en fullt replikerad databas. Författarna lägger i slutsatsen stor vikt p˚a hur systemet konfigureras för att körtiden för transaktioner ska g˚a ner. [3]

För att lyfta fram de olika NoSQL databaserna har i [4] en lista sammanställts. Författaren beskriver de olika NoSQL-databaserna och ger exempel p˚a olika databaser inom varje kategori. Varje databas förklaras och grunderna i funktionaliteten förklaras. Till varje typ av NoSQL har författaren skrivit en sammanfattning som lyfter styrkor och svagheter i typen av databas. Författaren förklarar att det ursprungliga syftet med NoSQL-databaser är att snabbt och säkert kunna lagra information i samband med ett

(12)

växande internet vilket gjort att fokus mer varit p˚a prestanda än garanterad konsistens. Ett bevis p˚a detta är bristande stöd för transaktioner i m˚anga NoSQL lösningar. Enligt författaren har NoSQL-databaser ofta andra fördelar som horisontell skalbarhet och snabb replikation. Eftersom NoSQL till viss del fr˚ang˚ar de relationella databaserna kan de ocks˚a specialiceras till specifika ändam˚al. [4]

1.3 Problemst¨allning

Replikation inneb¨ar extra kommunikation mellan noderna i databasen (se 1.2.1) och kan d¨armed p˚averka prestandan. Replikerande databaser best˚ar av flera noder och ska fungera ¨

aven om en nod havererar. Vid haveri behöver databasen hantera förlusten av en nod och detta kan i sin tur ocks˚a p˚averka prestandan. D˚a förändringar i prestanda kan p˚averka ett system positivt eller negativt behövs undersökningar som visar hur prestandan förändras i olika fall. Undersökningen av tidigare forskning visar att det finns undersökningar som testar skillnader i prestanda mellan olika databaser men färre undersökningar som testar prestandan hos en databas i olika konfigurationer.

1.4 Fr˚agest¨allning

Hur p˚averkas prestandan i en distribuerad MongoDB-lösning med hänsyn till replikation? Hur p˚averkas prestandan i en replikerande MongoDB-lösning med hänsyn till haveri? 1.5 Syfte

Den här undersökningen syftar till att testa hur prestandan förändras i en databas med hänsyn till den ökade mängden kommunikation vid replikation. Undersökningen ska ocks˚a visa hur prestandan förändras vid haveri av olika typer av noder i en databas.

Fr˚an den information som testerna genererar ska en tydlig bild av hur replikation kan p˚averka prestandan i MongoDB presenteras. Informationen ska kunna anv¨andas som underlag till vidare forskning och vid val av databaskonfiguration till olika digitala system.

(13)

2 Metod

2.1 Metodbeskrivning

Precis som i [1] och [6] best˚ar testerna i den här artikeln av att utsätta en databas för olika belastningar. Skillnaden är att i stället för att jämföra en databas med en annan jämförs endast en databas med sig själv i olika konfigurationer för att i sin tur avgöra om och i s˚a fall hur prestandan förändras.

För att visa förändringar i prestandan är testerna kvantitativa och genererar mätbar data över hur l˚ang tid det tar för databasen att behandla olika operationer.

Undersökningen har en experimentell ansats som syftar till att undersöka en förändring vid olika i konfigurationer av databasen. Experimentet resulterar i en jämförelse mellan prestandan i de olika konfigurationerna och ger en tydligare bild av eventuella förändringar. För presentationen av resultatet följer den här undersökningen den struktur med stapeldiagram och hela millisekunder som enhet som använts i [1] och [6].

2.2 Experiment

Prestandatesterna körs mot en instans av databasen MongoDB. Testerna är uppdelade i tre faser. I första fasen körs testerna mot en databas med endast en nod där ingen replikation av datan hanteras. I andra fasen körs testerna mot en databas med tv˚a noder och samma information replikeras p˚a b˚ada noderna. Den tredje fasen är lik den andra med skillnaden att testerna körs mot en databas med tre noder och datan replikeras p˚a alla tre noderna.

Faserna är i sin tur uppdelade i fyra delar där första delen best˚ar av ett inmatningstest som fyller databasen med information. Det andra testet är ett hämtningstest där infor-mationen hämtas fr˚an databasen. Det tredje testet är ett uppdateringstest som g˚ar ut p˚a att mäta tiden det tar att ändra den befintliga informationen och det sista testet är ett borttagningstest som i sin tur tömmer databasen p˚a information.

Testerna är automatiserade och körs 100, 500, 1000, 5000, och 10000 g˚anger i snabb följd. De automatiserade testerna körs tre g˚anger mot varje databaskonfiguration och sedan räknas ett medelvärde av tiderna ut.

Databasen är inställd s˚a att alla noder i de distribuerade databaskonfigurationerna kan hantera hämtningar.

Slutligen körs ett haveritest för att undersöka hur prestandan p˚averkas av att en nod havererar under körningen.

(14)

2.2.1 Inmatningstest

För inmatningstestet skapas ett databasobjekt. Objektet är av typen BasicDBObject som finns med i javadrivrutinerna för MongoDB. Objektet kommer att best˚a av grundläggande personuppgifter.

Inmatningen representerad i JSON: { “username”: username, “firstname”: “Test”, “lastname”: “Testsson”, “address”: { “street”: “Teststreet”, “streetnr”: “100”, “city”: “Testville”, “zip”: “12345” } }

Fokus ligger p˚a username och det är unikt för varje inmatning. För att garantera att username är unikt best˚ar det av ett nummer. Första inmatningen har “username”: “0”och sedan inkrementeras värdet med ett för varje inmatning. Efter att hela inmatningstestet ¨

ar kört kontrolleras antalet dokument i databasen s˚a de stämmer överens med anta-let körningar. Inmatningen görs via metoden collection.insert() i javadrivrutinerna för MongoDB.

2.2.2 H¨amtningstest

I hämtningstestet gör förfr˚agningar till databasen för att f˚a ut informationen fr˚an inmat-ningstestet. Förfr˚agningarna kommer att göras utifr˚an username d˚a det är unikt för varje dokument. Vid hämtningstestet kontrolleras även att svaret fr˚an databasen inte har värdet null för att garantera att databasen har returnerat ett korrekt dokument. Hämtningen görs via metoden collection.findOne() i javadrivrutinerna för MongoDB.

2.2.3 Uppdateringstest

I uppdateringstestet ändras värdet i fältet “streetnr”fr˚an “100”till “110”för varje en-skilt dokument i databasen. I testet används “username”för att hitta varje individuellt dokument. Uppdateringen görs via metoden collection.update() i javadrivrutinerna för MongoDB.

2.2.4 Borttagningstest

I borttagningstestet tas varje dokument bort enskilt. D˚a “username”är unikt används det som sökväg även i det här testet. Efter testet har itererat genom alla “username”kontrolleras att databasen inte inneh˚aller n˚agra dokument. Borttagningen görs via metoden collec-tion.findAndRemove() i javadrivrutinerna för MongoDB.

(15)

2.2.5 Haveritest

Under haveritestet är tre noder aktiva: en primär, en sekundär och en arbiter. Haveri-testet testar hämtningar och uppdateringar p˚a samma sätt som under hämtningstestet och uppdateringstestet med skillnaden att en av noderna stängs av under testets g˚ang. Avstängningen av vald nod sker genom att processen för MongoDB avslutas lokalt 10 se-kunder efter testets start. Testet best˚ar av 5000 hämtningar och 5000 uppdateringar och testar b˚ade haveri av den primära noden och den sekundära noden.

2.3 Testplattform 2.3.1 H˚ardvara

D˚a databasen ska vara distribuerad för det test som utförs m˚aste databasen spänna över flera individuella enheter. Valet blev därför att använda tre stycken raspberry pi d˚a dessa ¨

ar identiska. Specifikation:

• Raspberry Pi 2 med ett 8 gb klass 10 SD-kort, Rasbian

För att köra testerna med ett s˚a jämförbart resultat som möjligt körs testerna mot data-basen fr˚an en extern dator. Den externa datorn är kopplad i samma lokala nätverk som de tre raspberry pi som har databasen.

Specifikation:

• PC intel core i7, Windows 7

Det lokala n¨atverket hanteras av en router. Router modell:

• D-link DIR 615 2.3.2 Mjukvara

De automatiserade testerna är kodade i Java. För att testerna ska kunna köras mot en databas av typen MongoDB har ett bibliotek med drivrutiner för MongoDB lagts till. Koden för de automatiserade testerna är presenterad i Bilaga A.

Bibliotek:

• mongo-java-driver-3.2.2 Utvecklingsm¨olj¨o:

• IntelliJ IDEA 14.1.1 Databas:

• MongoDB version 2.4.10 32-bitar

(16)

2.4 Metoddiskussion

För att se hur prestandan i MongoDB förändras om antalet kopior ökar används stan-dardkonfigurationen för replica set. För att f˚a jämförbar data körs först testerna mot en konfiguration med en nod där det inte förekommer n˚agon replikation. Testerna körs sedan mot en databas med tv˚a och tre noder. Anledningen till att b˚ade tv˚a och tre noder testas ¨

ar att kontrollera hur prestandan p˚averkas inom ett aktivt replica set.

De tester som körs i jämförelserna mellan MongoDB och SQL och MongoDB och Cassandra är baserade p˚a olika typer av belastningar (se [1][6]). I det här testet väljs att fokusera testerna mot grundoperationerna i databaserna. De olika belastningar som testas ¨

ar inmatning, hämtning, uppdatering och borttagning och de testas separat för att ge en tydlig bild över eventuella förändringar.

P˚a grund av att MongoDB använder sig av lazy konsistens kan det inte garanteras att noder har den uppdaterade informationen och för att kontrollera detta har en funktion lagts till i testet som vid varje hämtning kontrollerar att svaret fr˚an databasen inte är null. D˚a kontrollen utförs p˚a samtliga hämtningstest räknas dess eventuella p˚averkan p˚a prestandan in i resultatet och p˚averkar inte skillnaden i prestanda.

Efter varje omg˚ang insättningar och borttagningar kontrolleras även det totala antalet dokument som finns i databasen för att se att operationerna har sparats korrekt.

Under haveritestet testas hur prestanda förändras under förutsättningen att tillgängligheten minskar. Testet utg˚ar ifr˚an att det tar lika l˚ang tid för databasen att ˚aterhämta sig varje g˚ang och körs därför bara med 5000 körningar. Till haveritestet har en arbiter lagts till för att säkra att databasen kan rösta fram en ny primärnod när den havererar.

Utformningen av experiementet bortser fr˚an eventuella effekter routern kan ha p˚a resultatet. F¨or att garantera att de effekter som kan uppst˚a ¨ar samma i alla testfallen ¨

andras inga inst¨allningar i routern under experimentets g˚ang.

(17)

3 Resultat

3.1 Inmatningstest

Vid inmatningstestet höll alla databaskonfigurationerna en jämn niv˚a. Skillnaderna mellan de olika konfigurationerna var väldigt sm˚a och visar att det inte tar längre tid för MongoDB att lägga ny information i databasen trots att den ska ha datan sparad p˚a flera noder. Resultatet av inmatningstestet visas i figur 1.

Figur 1: Inmatningstest

(18)

3.2 H¨amtningstest

Vid hämtningstestet ökade tiderna efter hand som databasen hade mer information. Vid testerna med 100, 500 och 1000 hämtningar höll databasen en jämn niv˚a för att sedan ta längre tid vid 5000 och 10000 hämtningar. Mellan de olika konfigurationerna fanns endast sm˚a skillnader och hämtningar tog lika l˚ang tid mot en databas med en, tv˚a och tre noder. Under hämtningstestet fanns alla inmatningar lagrade i databasen vid samtliga körningar. Resultatet av hämtningstestet visas i figur 2.

Figur 2: H¨amtningstest

(19)

3.3 Uppdateringstest

Resultatet vid uppdateringstestet var likt resultatet fr˚an hämtningstestet med skillnaden att varje operation tog n˚agra millisekunder längre tid att utföra. Tiderna höll en jämn niv˚a under 100, 500 och 1000 uppdateringar för att sedan öka vid 5000 och 10000 upp-dateringar. Det var precis som i tidigare tester väldigt sm˚a skillnader mellan de olika databaskonfigurationerna. Resultatet av uppdateringstestet visas i figur 3.

Figur 3: Uppdateringstest

(20)

3.4 Borttagningstest

Vid borttagningstestet tog tiderna för varje operation kortare tid än vid hämtningstestet och uppdateringstestet. Tiderna ökade n˚agot vid 5000 och 10000 borttagningar. Vid bort-tagningstestet mot databas med tv˚a och tre noder tog varje operation n˚agra millisekunder längre tid. I övrigt var tiderna jämna mellan de olika konfigurationerna. Resultatet av borttagningstestet visas i figur 4.

Figur 4: Borttagningstest

(21)

3.5 Haveritest

Under haveritestet bröts processen hos en av noderna i databasen. Under hämtningsdelen av testet var tiden n˚agra millisekunder l˚angsammare än tiden fr˚an hämtningstestet och det var ingen skillnad mellan om primärnoden havererade eller om sekundärnoden havererade. Under uppdateringsdelen av testet var det större skillnad om primärnoden havererade ¨

an om sekund¨arnoden havererade. Vid haveri av prim¨arnoden hamnade snittiden n˚agot ¨

over tiderna fr˚an uppdateringstestet medan vid haveri av sekundärnoden var det ingen skillnad. Vid haveri av primärnoden skedde en omröstning om ny primärnod vilket gjorde att databasen försattes i ett ej responsivt läge i n˚agra sekunder. I resultatet av haveritestet jämförs tiderna vid haveri med tiderna fr˚an hämtningstestet och updateringastestet där ej haveri förekommit. Resultatet av haveritestet visas i figur 5.

Figur 5: Haveritest

(22)

4 Analys

Resultatet av undersökningen som utförs visar att MongoDB h˚aller en jämn niv˚a genom alla tester. Att testerna visar väldigt lika resultat vid tester av standardoperationerna kan bero p˚a att förfr˚agningar endast skickas direkt efter varandra. Om testerna genererats pa-rallellt hade resultatet troligen blivit annorlunda vid hämtningar. Databasen borde kunna hantera fler hämtningar desto fler noder som läggs till men d˚a alla förfr˚agningar skickas efter varandra hanteras bara en förfr˚agning ˚at g˚angen.

Testresultaten visar att databasen inte förlorar n˚agon prestanda p˚a grund av intern kommunikation. Trots att tiderna fr˚an testerna höll jämn niv˚a fanns all information lagrad i databasen vid samtliga hämtningar. Med de inställningar garanterar inte ett MongoDB replica set vilken nod som skickar tillbaka informationen vid hämtningar vilket betyder att en av de sekundära noderna kan hantera de förfr˚agningarna [10]. Inte under n˚agot av hämtningstesterna returnerade databasen ett nullvärde.

Att databasen kunde h˚alla en hög prestanda vid inmatningstestet, uppdateringstestet och borttagningstestet under alla belastningar beror p˚a att lazy konsistens implementerats [2]. Vid inmatningstestet var tiderna helt oberoende av databasens storlek och det kan förklaras med att primärnoden inte behöver gör mer än att lägga till det nya dokumentet och skicka ett svar tillbaka. Replikationen sker efter att svaret skickats vilket gör att själva operationen upplevs som extremt snabb.

Vid uppdateringstestet och hämtningstestet behövde databasen söka upp informatio-nen innan svar kunde skickas tillbaka vilket gjorde att tiderna ökade i takt med belastning-en. Att uppdateringstestet endast tog ett f˚atal millisekunder längre tid än hämtningstestet beror p˚a att uppdateringen av dokumentet görs bara i primärnoden innan svar skickas till-baka. [10]

Vid haveritestet visades hur prestandan p˚averkades i samband med haveri av primärnoden eller sekundärnoden i en databaskonfiguration med tv˚a lagrande noder. Under testet av-bröts en av noderna för att se hur det p˚averkade snittiden för hämtningar och uppda-teringar. När primärnoden bryts kallar de andra noderna till en omröstning [10]. Detta ledde till ett avbrott i exekveringen av de automatiska testerna och ökade snittiden med n˚agra f˚atal millisekunder. Vid avbrott av den sekundära noden ökade tiden mindre vid uppdateringar än vad den gjorde när primärnoden avbröts. Testerna för hämtning och uppdatering är i denna undersökningen utformade s˚a att systemet f˚ar en ny koppling till databasen innan förfr˚agningarna fortsätter efter haveri vilket inte alltid är fallet i verkliga scenario. I ett verkligt scenario hade uppdateringar kunnat g˚a förlorade och hämtningar hade kunnat utebli under de f˚a sekunder databasen ej är responsiv.

(23)

5 Diskussion

Resultatet i den här undersökningen visade väldigt sm˚a skillnader mellan de olika data-baskonfigurationerna. Att resultaten inte visar en försämring i prestanda trots mer intern kommunikation och fler kopior av informationen tyder p˚a att lazy konsistens är ett stark alternativ till eager. Eftersom lazy oftast implementeras p˚a bekostnad av databasens kon-sistens skulle problem kunna uppst˚a vid hämtningar, uppdateringar och borttagningar men inga problem uppvisades under testernas g˚ang vilket tyder p˚a att databasen hanterat synkroniseringen p˚a ett smidigt sätt utan att minska prestandan.

För att uppn˚a ett mer varierat resultat kunde testerna körts parallellt fr˚an flera in-stanser. Med parallella tester borde tiden för hämtningar skiljt sig mer fr˚an uppdateringar ¨

an vad resultatet av den här undersökningen visade. För att ytterligare variera testerna skulle de olika operationerna kunna blandas. Om testerna kört hämtningar, inmatningar och uppdateringar parallellt hade de varit mer lika ett verkligt scenario. Vid mer varierade testerna hade troligen skillnader mellan de olika databaserna ocks˚a kunnat presenteras.

Den mängden data som används i testerna är relativt liten och om mer omfattande eller annorlunda strukturerad data använts vid inmatningstestet hade resultatet kunnat p˚averkas. Den data som använts i testerna är lik den data som krävs för en inloggning p˚a en mindre webbplats och passar därför bra med tanke p˚a vilken h˚ardvara som använts.

För att ˚aterknyta till forskningsfr˚agorna visar resultaten fr˚an testerna av de olika grundoperationerna hur prestanda förändras (eller inte förändras) mellan en distribue-rad MongoDB-lösning med standardinställningar och en med flera noder där replikation används. Resultatet fr˚an haveritestet visar hur ett haveri p˚averkar prestandan i en repli-kerande MongoDB-lösning och redogör för vissa risker som ett haveri medför.

Under experimentet kan routern haft viss effekt p˚a resultatet.

6 Slutsatser och vidare forskning

Den här undersökningen har redogjort för uttrycket replikation och förklarat hur olika databastyper hanterar replikerad data med hänsyn till prestanda. Vid testerna bekräftades att lazy konsistens inte försämrar prestandan trots att flera noder ska h˚alla samma data och att prestandan ej heller förbättras om operationer sker efter varandra.

Vid haveritestet visades att data kan g˚a förlorad om inte mjukvaran utanför MongoDB hanterar det. Haveritestet visade ocks˚a att väldigt lite tid g˚ar förlorad under själva haveriet och att tiden för MongoDB att ˚aterhämta sig är relativt snabb.

Som vidare forskning hade det varit intressant att se större tester av prestanda mot b˚ade MongoDB och andra databastyper som Cassandra och SQL med inriktning p˚a replikation. För att simulera verkliga scenario skulle tester kunna innefatta parallella förfr˚agningar och köras mot databaser med m˚anga noder i mer komplexa konfiguratio-ner.

(24)

Referenser

[1] Abramova V, Bernardino J. NoSQL Databases: MongoDB vs Cassandra. C3S2E ’13 Proceedings of the International C* Conference on Computer Science and Software Engineering, New York, NY, USA 2013

[2] Charron-Bost B, Pedone F, Schiper A. Replication Theory and Practice. Berlin Heidelberg: Springer-Verlag; 2010.

[3] Coulon C, Pacitti E, Valduriez P. Consistency management for partial replication in a high performance database cluster. 11th International Conference on Parallel and Distributed Systems. 20-22 July 2005

[4] Kuznetsova S D, Poskoninb A V. NoSQL data management systems. Programming and Computer Software. November 2014, Volume 40, Issue 6, pp 323-332

[5] Mohan C. History repeats itself: sensible and NonsenSQL aspects of the NoSQL hoopla. EDBT ’13 Proceedings of the 16th International Conference on Extending Database Technology, Pages 11-16, New York, NY, USA 2013

[6] Parker Z, Poe S, Vrbsky S. Comparing NoSQL MongoDB to an SQL DB. C3S2E ’13 ACMSE ‘13 Proceedings of the 51st ACM Southeast Conference, Article No. 5, New York, NY, USA 2013

[7] Wiesmann M, Pedonet F, Schiper A, Kemmet B, Alonso G. Database Replication Techniques: a Three Parameter Classification. Proceedings The 19th IEEE Sympo-sium on Reliable Distributed Systems, Date 16-18 Oct. 2000. Nurnberg

[8] DataStax Apache Cassandra 2.0, DataStax, Inc. [H¨amtad: 2016-03-31]

<http://docs.datastax.com/en/cassandra/2.0/cassandra/architecture/ architectureDataDistributeReplication_c.html>

[9] DB-Engines: Ratings, Solid IT. [H¨amtad: 2016-04-06] <http://db-engines.com/en/ranking>

[10] MongoDB: Manual, Oracle Corporation. [H¨amtad: 2016-04-06] <https://docs.mongodb.org/manual/>

[11] MongoDB: Replication Introduction, MongoDB, Inc [H¨amtad: 2016-03-31] <https://docs.mongodb.org/manual/core/replication-introduction/> [12] MySQL 5.7 Reference Manual, MongoDB, Inc. [H¨amtad: 2016-03-31]

<http://dev.mysql.com/doc/refman/5.7/en/replication.html> [13] Oracle8 Concepts Release 8.0, Oracle Corporation. [H¨amtad: 2016-03-31]

<http://docs.oracle.com/cd/A59447_01/nt_804ee/doc/database.804/ a58227/ch_repli.htm>

(25)

Bilaga A

Testkod

import com.mongodb.*; import com.mongodb.DB; import com.mongodb.MongoClient; import java.util.Arrays; /**

* Created by Sebastian Nirfelt on 2016-03-03. */

public class Tests {

public void run(){

MongoClient mongo = new MongoClient(Arrays.asList(

new ServerAddress("192.168.0.102", 27017),

new ServerAddress("192.168.0.107", 27017)

new ServerAddress("192.168.0.106", 27017)); DB db = mongo.getDB("test");

DBCollection collection = db.getCollection("users");

long start = System.currentTimeMillis(); System.out.println("Test 100 runs:"); testInsert(100, collection); System.out.println(collection.getCount()); testRead(100, collection); testUpdate(100, collection); testDelete(100, collection); System.out.println(collection.getCount()); System.out.println("Test 500 runs:"); testInsert(500, collection); System.out.println(collection.getCount()); testRead(500, collection); testUpdate(500, collection); testDelete(500, collection); System.out.println(collection.getCount()); System.out.println("Test 1000 runs:"); testInsert(1000, collection); System.out.println(collection.getCount()); testRead(1000, collection); testUpdate(1000, collection); testDelete(1000, collection); System.out.println(collection.getCount()); System.out.println("Test 5000 runs:"); testInsert(5000, collection); System.out.println(collection.getCount()); testRead(5000, collection); testUpdate(5000, collection); testDelete(5000, collection); System.out.println(collection.getCount()); System.out.println("Test 10000 runs:"); testInsert(10000, collection);

System.out.println(collection.getCount()); testRead(10000, collection);

testUpdate(10000, collection);

(26)

testDelete(10000, collection);

System.out.println(collection.getCount());

long stop = System.currentTimeMillis(); mongo.close();

System.out.println("Total time: " + (int)((stop-start)/1000)/60 + " minutes");

System.out.println("\nDone!"); }

public void testInsert(int runs, DBCollection collection){

long start = System.currentTimeMillis();

for(int i = runs-1; i >= 0; i--){ collection.insert(build(i + "")); }

long stop = System.currentTimeMillis(); printResults("Insert", (stop-start)/runs); }

public void testRead(int runs, DBCollection collection){

int i = 0;

while(i < runs){

try{

BasicDBObject query = new BasicDBObject(); query.put("username", i+"");

if(collection.findOne(query) == null) System.out.println("Read null");

i++;

}catch(Exception e) {} }

long stop = System.currentTimeMillis(); printResults("Read ", (stop - start)/runs); }

public void testUpdate(int runs, DBCollection collection){

int i = 0;

while(i < runs){

try{

BasicDBObject newDocument = new BasicDBObject(); newDocument.put("streetnr", "100");

BasicDBObject update = new BasicDBObject(); update.put("$set", newDocument);

collection.update(query, update); i++;

}catch(Exception e) {} }

long stop = System.currentTimeMillis(); printResults("Update", (stop-start)/runs);

(27)

}

public void testDelete(int runs, DBCollection collection){

for(int i = 0; i < runs; i++){

collection.findAndRemove(query); }

long stop = System.currentTimeMillis(); printResults("Delete", (stop-start)/runs); }

public BasicDBObject build(String username){ BasicDBObject payload = new BasicDBObject(); BasicDBObject address = new BasicDBObject(); payload.put("username", username);

payload.put("firstname", "Test"); payload.put("lastname", "Testsson"); address.put("street", "Teststreet"); address.put("streetnr", "100"); address.put("city", "Testville"); address.put("zip", "12345"); payload.put("address", address);

return payload; }

public void printResults(String type, long time){

System.out.println(type + ": " + time + " milliseconds"); }

}