Sudokulösare: Jämförelse av körtiderför backtracking och mänskligastrategier

(1)

DEGREE PROJECT, IN COMPUTER SCIENCE , SECOND LEVEL STOCKHOLM, SWEDEN 2015

Sudokulösare: Jämförelse av körtider

för backtracking och mänskliga

strategier

SAMIUL A, MARK W

(2)

Sudokul¨

osare: J¨

amf¨

orelse av k¨

ortider f¨

or

backtracking och m¨

anskliga strategier

SAMIUL ALAM MARK WONG

Degree Project in Computer Science, DD143X Handledare: Jens Lagergren

(3)

Sammanfattning

(4)

Abstract

(5)

Inneh˚

all

1 Terminologi 5 2 Introduktion 6 3 Bakgrund 7 3.1 Tidigare forskning . . . 7 3.1.1 Backtracking . . . 7 3.1.2 Villkorsprogrammering . . . 7 3.1.3 M¨anskliga strategier . . . 8 3.2 Syfte . . . 8 3.3 Problemformulering . . . 9 3.3.1 Avgr¨ansningar . . . 9 4 Metod 10 4.1 Programmeringsspr˚ak . . . 10

4.2 Sudokul¨osare med backtracking . . . 10

4.3 Sudokul¨osare med m¨anskliga strategier och backtracking . . . 11

4.4 Testdata . . . 12

5 Resultat 13 5.1 Backtracking . . . 13

5.2 M¨anskliga strategier . . . 13

5.3 Jämförelse av körtid . . . 14

6 Analys & Diskussion 16 6.1 Metodkritik . . . 17

(6)

1 Terminologi

Nyckelord som anv¨ands i uppsatsen:

rutn¨at - Spelplanen som best˚ar av 9x9 celler.

zon - En kvadratisk enhet som best˚ar av 3x3 celler. Zonerna ¨ar f¨ordelade s˚a att det finns tre zoner p˚a varje rad.

cell - En kvadratisk ruta som kan inneh˚alla inget eller en siffra mellan 1-9. ledtr˚ad - Antalet ifyllda celler i ett rutnät vid en given probleminstans. latinsk kvadrat - En matris där elementen är ordnade s˚a att varje rad och varje kolumn inneh˚aller element av olika typ.

(7)

2 Introduktion

Sudoku är ett pussel som g˚ar ut p˚a att fylla ett rutnät med siffror. Rutnätet för ett standard Sudoku är 9x9 rutor stort och indelat i nio zoner p˚a 3x3 rutor var. Varje probleminstans best˚ar av ett rutnät med ett antal fr˚an början kända siffror s˚adant att det finns en unik lösning. Det är problemlösarens uppgift att fr˚an detta utg˚angsläge färdigställa probleminstansen genom att fylla i resten av cellerna. En giltig lösning har hittats d˚a varje rad, kolumn samt zon inneh˚aller siffrorna 1-9 endast en g˚ang. Detta är allts˚a precis som konstruktionen av en latinsk kvadrat.

(8)

3 Bakgrund

3.1 Tidigare forskning

Sudoku är ett väl undersökt ämne inom forskningsvärlden mycket p˚a grund av dess popularitet och matematiska egenskaper. McGuire et al. (2013) har visat att det finns 16 · 1027_{olika Sudoku. Vidare bevisade McGuire att det inte finns}

n˚agon giltig Sudoku som inneh˚aller färre än 17 ledtr˚adar. Kovacs (2012) har beskrivit olika typer av brute-force algoritmer och skillnaderna mellan dessa. Dessa algoritmer behöver i värsta fall testa alla möjliga lösningar tills en giltig lösning är funnen. Crook (2009) har undersökt en algoritm som är inspirerad av mänskliga strategier. Denna algoritm skiljer sig avsevärt fr˚an brute-force algoritmen eftersom den är kapabel till att göra smartare insättningar genom att utesluta otill˚atna insättningar. Ett exempel är en probleminstans där en zon endast saknar en siffra. Brute-force algoritmen testar i värsta fall alla siffror fr˚an 1-9 medan denna algoritm utesluter de siffror som redan finns i zonen.

3.1.1 Backtracking

En av brute-force algoritmerna som Kovacs har beskrivit g˚ar systematiskt ige-nom alla tomma celler fr˚an vänster till höger och uppifr˚an ned. I den första tomma cellen sätter algoritmen in en etta. Om insättningen inte strider mot spelreglerna g˚ar algoritmen vidare till nästa tomma cell och sätter in en etta. Om detta leder till en konflikt ökar vi siffran för den senaste insättningen. Vid fallet d˚a alla möjliga siffror leder till en konflikt backar algoritmen till den senas-te fungerande insättningen och ökar dess värde med ett. Algoritmen fortsätter tills en lösning är hittad. Denna algoritm kallas för backtracking. Till skillnad fr˚an en totalsökningsalgoritm utvärderar inte denna alla möjliga, inklusive fel-aktiga, lösningsförslag utan letar sig sakta men säkert till den korrekta. Algoritmens värsta-falls-komplexitet är O(nm_{) d¨}_{ar n ¨}_{ar antal alternativ f¨}_or

en cell och m är antalet tomma celler i probleminstansen. Mer specifikt blir tidskomplexiteten för ett standard Sudokupussel i värsta fallet O(9m_{). Detta}

eftersom varje tom cell innebär nio alternativ till lösningsförslag. I och med att en given ledtr˚ad i en probleminstans innebär en tom cell mindre att fylla i växer körtiden för denna algoritm exponentiellt när antalet ledtr˚adar minskar. 3.1.2 Villkorsprogrammering

(9)

3.1.3 M¨anskliga strategier

Davis (2012) har beskrivit strategier som människor använder när de löser Sudo-ku. Dessa strategier är grundade i människans förm˚aga att se mönster och ute-sluta alternativ. Vidare har Davis rangordnat dessa strategier efter hur sv˚ara de ¨

ar att applicera för en människa. Nedan följer de första fyra av Davis mänskliga strategier.

Unik fr˚anvarande kandidat:

I fallet d˚a en rad, kolumn eller zon inneh˚aller ˚atta siffror ˚aterst˚ar endast en m¨ojlig kandidat och placeras d¨armed i den enda tomma cellen.

Naken singel:

I fallet d˚a en specifik kandidat enbart kan placeras i en cell tillh¨orande en rad, kolumn eller zon placeras den i den cellen.

G¨omd singel:

En gömd singel uppst˚ar när en siffra endast finns som kandidat för en cell i en rad, kolumn eller zon. Det som skiljer en gömd singel fr˚an en naken singel är att cellen med den gömda singeln kan inneha flera kandidater.

L˚ast kandidat:

Det kan h¨anda att det finns en zon i vilken en kandidat endast kan placeras i celler som faller inom en av de tre m¨ojliga raderna eller kolumnerna. I och med att kandidaten m˚aste finnas just i denna zon kan den uteslutas som kandidat fr˚an resten av raden eller kolumnen.

I värsta fallet har en probleminstans fr˚an början varken n˚agon unik fr˚anvarande singel, naken singel, gömd singel eller l˚ast kandidat. Om man d˚a väljer att fr˚an detta stadie lösa probleminstansen med backtracking blir värsta-falls-komplexiteten ¨

aven f¨or denna algoritm O(9m_).

3.2 Syfte

Uppsatsen undersöker skillnader mellan tv˚a olika typer av Sudokulösare. Mer specifikt jämför uppsatsen förändringar i körtiden för dessa Sudokulösare med avseende p˚a antalet ledtr˚adar i probleminstansen. Den första algoritmen tillämpar endast backtracking. Den andra algoritmen inleder med mänskliga strategi-er. När algoritmen inte kan g˚a vidare med mänskliga strategier använder den backtracking för att komplettera probleminstansen.

(10)

skapar förutsättningar för att framtida problemlösare ska göra strategiska val när de skapar sin egen Sudokulösare.

3.3 Problemformulering

Hur jämför sig körtiden för backtracking algoritmen mot körtiden för backtrac-king med mänskliga strategier i Sudokuproblemet med avseende p˚a antalet led-tr˚adar?

3.3.1 Avgr¨ansningar

Vi kommer endast implementera tre av de beskrivna m¨anskliga strategierna. 1. Unik fr˚anvarande singel

2. Naken singel 3. G¨omd singel

(11)

4 Metod

4.1 Programmeringsspr˚

ak

Vi har valt att implementera algortimerna i Java som är ett objektoriente-rat högniv˚asspr˚ak. Även om Java inte presterar lika bra som ett kompilerat l˚agniv˚asspr˚ak som C eller C++ med avseende p˚a körtid ger b˚ada spr˚aken sam-ma insikt eftersom det är förh˚allandet mellan körtiderna för de olika algorit-merna vi vill undersöka. Vidare är Java plattformsoberoende vilket underlättar replikation av v˚ar undersökning.

Vidare beräknas den genomsnittliga körtiden för respektive algoritm och resul-taten sammanställs för analys. För att beräkna körtid används Javas inbyggda metod System.nanoTime(). Enligt Java-dokumentationen (2015) ger detta den mest precisa tidsmätningen.

4.2 Sudokul¨

osare med backtracking

1 SudokuSolver(Matrix m): 2 Börja i det övre vänstra hörnet.; 3 foreach tom cell c i M do 4 for i ← 1:9 do

5 if i ¨ar en till˚aten ins¨attning then 6 c ← i

7 if SudokuSolver(M) is true then 8 return true; 9 else 10 c ← 0; 11 end 12 end 13 end 14 return false; 15 end 16 return true;

Figur 2: Pseudokod f¨or backtracking algoritmen

Backtracking algoritmen för Sudokuproblem har gjorts och publicerats ti-digare (Stanford, 2008). Eftersom teorin bakom backtracking är trivial kan vi med fördel ˚ateranvända en befintlig implementation och därmed undvika att ˚ateruppfinna hjulet. Se pseudokoden fr˚an Stanford i figur 2.

(12)

och med nio tills det g˚ar. I en probleminstans kan det finnas flera till˚atna ins¨attningar i en tom cell. Givet en giltig probleminstans kommer ett av dessa tal garanterat vara en korrekt ins¨attning.

I fallet d˚a insättningen i en tom cell är till˚aten g˚ar algoritmen vidare och itererar samma process i nästa tomma cell. Här är det inte garanterat att n˚agon av de nio siffrorna är korrekta eftersom den föreg˚aende insättningen kan vara till˚aten men inte korrekt. I det fallet backar algoritmen till den föreg˚aende insättningen och inkrementerar den. Algoritmen fortsätter tills den har fyllt alla tomma cel-ler med den korrekta insättningen.

Denna algoritm är den som anses vara den mest primitiva algoritmen efter totalsökningsalgoritmen. Det är därför lämpligt att använda backtracking algo-ritmens körtid och komplexitet som referensvärde vid utvärdering av mänskliga strategier.

4.3 Sudokul¨

osare med m¨

anskliga strategier och

backtrac-king

1 HumanWithBacktracking(Matrix m): 2 Skapa en kandidatlista f¨or varje tom cell;

3 while Det finns celler med endast en kandidat i kandidatlistan do 4 Ins¨attning av kandidat i cellen;

5 Borttagning av kandidat fr˚an kandidatlistorna i cellerna p˚a raden; 6 Borttagning av kandidat fr˚an kandidatlistorna i cellerna p˚a kolumnen; 7 Borttagning av kandidat fr˚an kandidatlistorna i cellerna p˚a zonen; 8 end

9 Börja i det övre vänstra hörnet; 10 foreach tom cell c i M do 11 for i in kandidatlista do

12 if i ¨ar en till˚aten ins¨attning then 13 c ← i

(13)

Algoritmen med mänskliga strategier implementerar tre av Davis (2012) strategier: unik fr˚anvarande singel, naken singel och gömd singel. Algoritmen skapar en kandidatlista för varje tom cell i probleminstansen. Sedan söker den efter de tomma celler vars kandidatlistor endast inneh˚aller en kandidat. Den kandidaten sätts in i cellen. Sedan tas detta värde bort fr˚an kandidatlistorna för de tomma cellerna i samma rad, kolumn och zon. Som konsekvens kan detta leda till att fler celler härefter endast har en kandidat. Dessa fylls i p˚a samma sätt. Denna process itereras tills inga fler celler har endast en kandidat. Därefter löses resten av probleminstansen med backtracking.

Dessa strategier är de mest grundläggande ur ett implementationsperspektiv. Att undersöka dessa ger en inblick i hur mänskliga strategier p˚averkar körtiden.

4.4 Testdata

För att besvara fr˚ageställningen körs b˚ada algoritmerna med samma testfall. För att ta hänsyn till anomalier bland probleminstanser behövs en stor mängd testdata för respektive grupp av pussel. Eftersom det inte finns probleminstan-ser med färre än 17 ledtr˚adar inneh˚aller första klassen probleminstanser med 17 ledtr˚adar. För att se hur körtiderna förändras i takt med att antalet ledtr˚adar ¨

okar undersöks även körtider för probleminstanser med 18 till 21 ledtr˚adar. B˚ada algoritmerna kräver en giltig probleminstans för att returnera en unik lösning. Alla testfall genereras därför med hjälp av Ericsons (2015) Sudokuge-nerator som beskriver en probleminstans med hjälp av siffror. Symbolerna - och ! används som avskiljare för radslut och zonslut. Ericsons (2015) problemin-stanser konverteras sedan till 2D vektorer i Java enligt formatet i figur 4.

(14)

5 Resultat

5.1 Backtracking

Figur 5 visar den genomsnittliga körtiden för backtracking i nanosekunder för en probleminstans i respektive probleminstansklass.

Ledtr˚adar K¨ortid (1 · 109_ns)

17 4.004 18 2.828 19 1.824 20 0.276 21 0.129

Figur 5: Genomsnittlig körtid per probleminstans för Sudokulösare med mänskliga strategier.

5.2 M¨

anskliga strategier

Figur 6 visar den genomsnittliga körtiden för mänskliga strategier i nanosekun-der för en probleminstans i respektive probleminstansklass. Figur 7 visar det högsta antalet singlar i en probleminstans och det genomsnittliga antalet sing-lar per probleminstans för varje klass. Figur 8 visar det genomsnittliga antalet kandidater som varje tom cell innehöll efter initialiseringen av probeminstansens kanddiatlistor.

Ledtr˚adar K¨ortid (1 · 109ns) 17 3.444 18 2.420 19 0.930 20 0.158 21 0.088

Figur 6: Genomsnittlig körtid per probleminstans för Sudokulösare med backtrac-king.

Ledtr˚adar H¨ogsta antalet singlar Singlar per probleminstans

17 2 0.101

18 9 0.303

19 13 0.707

20 19 1.384

21 11 1.374

(15)

Ledtr˚adar Kandidater per ruta 17 4.796 18 4.624 19 4.467 20 4.301 21 4.140

Figur 8: Genomsnittligt antal kandidater per tom ruta efter m¨anskliga strategier.

5.3 J¨

amf¨

orelse av k¨

ortid

Figur 9 visar förh˚allandet mellan de genomsnittliga körtiderna för backtracking och mänskliga strategier. De bl˚a staplarna visar körtider för backtracking. De gula staplarna visar körtider för mänskliga strategier. Figur 10 visar den procen-tuella minskningen av körtid för mänskliga strategier jämfört med backtracking.

(16)

(17)

6 Analys & Diskussion

Körtiderna för b˚ada algoritmerna minskar när antalet ledtr˚adar ökar. Detta be-ror p˚a att b˚ada algoritmerna har färre tomma celler att behandla. I figur 9 och 10 ser vi att mänskliga strategier ger en förbättrad körtid för varje proble-minstansklass. Detta innebär att v˚ar implementation av Davis (2012) första tre mänskliga strategier har varit gynnsamma.

I figur 8 ser vi att det genomsnittliga antalet kandidater per ruta minskar när antalet ledtr˚adar ökar. Mer intressant är att antalet kandidater per ruta halveras när mänskliga strategier har eliminerat de alternativ som leder till konflikt. Antalet kandidater per ruta för samtliga probleminstansklasser ligger inom intervallet (4,5). Mänskliga strategier algoritmen g˚ar därefter vidare med backtracking och har d˚a i snitt 4-5 kandidater att prova. Detta ger en genom-snittlig tidskomplexitet p˚a nära O(4m) för probleminstanser med 21 ledtr˚adar och en genomsnittlig tidskomplexitet p˚a närmare O(5m) när antalet ledtr˚adar g˚ar mot 17. Det är en av orsakerna till den förbättring av körtid som uppst˚ar när mänskliga strategier används jämfört med backtracking som alltid har en tidskomplexitet p˚a O(9m_).

Den markanta skillnaden mellan algoritmernas tidskomplexitet översätts dock inte direkt till exponentiellt bättre körtid. Det tar tid för algoritmen med mänskliga strategier att förminska antalet tomma celler i indatat innan den p˚abörjar backtracking. Se hur algoritmen itererar över alla celler i probleminstansen och skapar en kandidatlista i kodavsnittet nedan. Den modifierade backtracking som algoritmen med mänskliga strategier använder är dessutom l˚angsammare än en-bart backtracking. Detta beror p˚a att algoritmen itererar över alla tomma celler i probleminstansen och söker efter celler som endast har en kandidat. När den kandidaten fylls i itererar algoritmen över alla tomma celler i samma rad, ko-lumn och zon som den ifyllda cellen och tar bort den ifyllda siffran ifall den finns i de andra cellenrnas kandidatlista. Se även detta i kodavsnittet nedan. Det är m˚anga operationer som backtracking algoritmen inte gör. Däremot behöver al-goritmen med mänskliga strategier endast iterera över kandidater för varje tom cell jämfört med backtracking algoritmen som itererar över alla tal fr˚an ett till nio. Som konsekvens blir körtiden bättre med mänskliga strategier.

1 /**

2 * Creates a candidatelist for every empty cell in the grid. 3 * Then calls removeCandidates to remove conflicting

4 * candidates.

5 */

6 public void initCandidates(int[][] grid) { 7 for(int j = 0; j<9; j++) {

8 for(int i = 0; i<9; i++) { 9 if(grid[i][j] == 0) {

(18)

12 ... 13 } 14 15 /**

16 * Finds cells with only one candidate and fills them in. 17 * Consequently removes conflicting canidates in other cells.

18 */

19 public void findHiddenSingles(int[][] grid) { 20 for (int row = 0; row < grid.length; row++) { 21 for (int col = 0; col < grid.length; col++) { 22 if (grid[row][col] == 0) {

23 if(cMatrix[row][col].candidateList.size() == 1) { 24 int num = cMatrix[row][col].candidateList.get(0); 25 grid[row][col] = num;

26 removeInsertedCandidate(grid, row, col, num);

27 ...

28 }

I figur 9 och 10 ser vi att körtidstrenden för b˚ada algoritmerna g˚ar mot korta-re körtider. Störst förbättring mellan algoritmerna sker vid problemsinstanser med 19 ledtr˚adar. Mänskliga algoritmer ger där en körtid som är 49% bättre än backtracking. Det kan bero p˚a att v˚ar testdata inneh˚aller olika jämn spridning av ledtr˚adar i de olika testklasserna eller inneh˚aller olika m˚anga probleminstan-ser som g˚ar att lösa snabbt. För att f˚a svar p˚a varför skillnaden är störst vid probleminstanser med 19 ledtr˚adar rekommenderar vi en undersökning av hur spridningen av ledtr˚adar p˚averkar körtiden för b˚ada algoritmerna. Alternativt kan fler testfall användas för att jämna ut skillnaden mellan enskilda proble-minstanser och därmed minska variansen.

6.1 Metodkritik

För att potentiellt förbättra körtiden kan fler av Davis mänskliga strategier im-plementeras. Det är dock viktigt att väga tidskostnaderna för de nya strategierna mot resultatet. En ineffektiv implementation kan leda till högre tidskomplexitet och därmed försämrad körtid. Metoden kan ocks˚a utvidgas till att undersöka probleminstansklasser med fler ledtr˚adar. Det är nödvändigt att undersöka om körtidstrenden fortsätter när antalet ledtr˚adar ökar eller om det finns en punkt d˚a tidsvinsten är försumbar. I det senare fallet vore det till exempel mer ekono-miskt med avseende p˚a minne att använda backtracking algoritmen.

(19)

7 Slutsats

(20)

Referenser

[1] JF Crook. A pencil-and-paper algorithm for solving sudoku puzzles. Notices of the AMS, 56(4):460–468, 2009.

[2] Tom Davis. The mathematics of sudoku, 2006. [3] Kjell Ericson. Generate and solve sudoku. 2015.

[4] Tim Kovacs. Artificial intelligence through search: Solving sudoku puzzles. 2008.

[5] Gary McGuire, Bastian Tugemann, and Gilles Civario. There is no 16-clue sudoku: Solving the sudoku minimum number of 16-clues problem. arXiv preprint arXiv:1201.0749, 2012.

[6] Helmut Simonis. Sudoku as a constraint problem. In CP Workshop on modeling and reformulating Constraint Satisfaction Problems, volume 12, pages 13–27. Citeseer, 2005.

(21)