• No results found

4.3 Parameterstudie av α

4.3.1 Random surfer-modellen

En parameterstudie av α gjordes genom att köra algoritmen för varierande värden på α. Detta gjordes genom att öka parametern med 0.01 för varje steg. För att mäta konvergenshastigheten mättes antalet iterationer det tog för potensmetoden att konvergera till en vektor med alla PageRank-värden, givet en tolerans på 10−6. Detta gjordes ett upprepat antal gånger för att sedan beräkna ett medelvärde av alla mätningar. Mätningarna gjordes upp till 20000 gånger där antalet mätningar berodde på storleken av grafen. Detta gjordes för noggrannare resultat och bättre figurer att analysera.

Grafen i Figur 5 undersöktes först. PageRank-värdena varierade enligt följande figur

Figur 12: PageRank-värden för olika α.

där PR1 är PageRank-värdet för nod 1 osv. Notera att PR4 är täckt av PR5, vilket betyder att de beter sig på samma sätt med ökande α. Detta är tydligare i

Tabell 1. Det som är tydligt i figuren är att nod 3 ökar mest då α ökar. Detta är rimligt då med ökande α så minskar faktorn för random surfer i algoritmen och då dominerar strukturen hos grafen. I detta fall är nod 3 den som har flest länkar och har därför högst PageRank. Det som också är tydligt i figuren är att alla värden inte är känsliga för små störningar i α, dvs. att då α ändras lite sker det ingen drastisk förändring i PageRank-vektorn.

Konvergenshastigheten undersöktes också för grafen i Figur 5 och resultaten visas i Figur 13(a). Konvergenshastigheten undersöktes även för en större slumpgenererad graf av storlek 93 × 93 för att sedan jämföra dessa. Resultaten för den större grafen presenteras i Figur 13(b).

(a) Konvergenshastigheten för en liten graf. (b) Konvergenshastigheten en stor graf.

Figur 13: Konvergenshastigheten för grafen i Figur 5 (a) och för en graf med storlek 93 × 93 (b).

För den mindre grafen ökar konvergenshastigheten linjärt för α < 0.5 och går från ca 3 till 10 iterationer. Efter att α har passerat 0.5, ökar antalet iterationer fortare och går från ca 10 till 27 iterationer. Alltså ökar konvergenshastigheten 4 gånger så fort som för α < 0.5. I jämförelse, beter sig konvergenshastigheten annorlunda för den större grafen. Här är ökningen icke-linjär och homogen överallt. Det underliga med Figur 13(b) är att det tar i genomsnitt färre iterationer än för den mindre grafen. Detta kan bero på att grafen är bättre balanserad med fler länkar som ger en snabbare konvergens.

För att undersöka parametern α och dess påverkan djupare skapades grafen i Figur 14(a) som sedan modifierades till grafen i Figur 14(b).

(a) Den ursprungliga grafen. (b) Den modifierade grafen.

Figur 14: En designad graf.

Resultaten för grafen i Figur 14(a) presenteras i Figurerna 15(a) och 15(b).

(a) PageRank-värden för grafen. (b) Konvergenshastigheten för grafen.

Figur 15: Resultat för grafen i Figur 14(a).

Resultaten för denna graf är annorlunda än tidigare. Alla PageRank-värden blir instabila då α > ≈ 0.9. Instabiliteterna syns i grafen då derivatan för dessa värden

ökar för stora α. Sedan syns det även att nodernas PageRank-värden är uppdelade i två grupper, där ena gruppens värden går mot 0. Detta är noderna i den övre delen av grafen. Den nedre delen av grafen dominerar i popularitet då noderna 4, 5, 6 utgör en sluten graf. Detta betyder om en internetsurfare kommer till nod 4 så kommer surfaren inte ut från loopen. Då α går mot 1 kommer random surfer -modifikationen att försvinna och därför går de övre nodernas PageRank-värden mot 0.

Att grafen är dåligt designad syns även i resultaten för konvergenshastigheten i Figur 15(b). Då α går mot 1 ökar antalet iterationer kraftigt men sjunker sedan precis då α blir 1. Detta kan bero på att det tar längre tid för algoritmen att kon-vergera då de mest populära noderna finns i den nedre loopen. För varje iteration flyttas det mindre och mindre rank till nod 4, 5, 6 och på grund av detta ökar tiden exponentiellt. Detta tyder på att algoritmen för just denna graf är extremt känslig och instabil då α > 0.9.

Resultaten för grafen i Figur 14(b) presenteras i Figurerna 16(a) och 16(b).

(a) PageRank-värden för grafen. (b) Konvergenshastigheten för grafen.

Figur 16: Resultat för grafen i Figur 14(b).

Resultaten för denna graf skiljer sig mot resultaten för den icke-modifierade grafen.

På samma sätt delas grafen upp i två grupper vars PageRank-värden antingen går mot 0 eller delas jämnt. Skillnaden här är att nod 5 och 6 pekar på varandra och

har därför bättre ranking än nod 4. Det märkbara i resultaten är att konvergens-hastigheten inte är instabil längre. Den beter sig som förväntat med både linjär ökning och en snabbare icke-linjär ökning då α blir större. Detta beror förmodligen på att grafen är liten och då antalet noder ökar så övergår ökningen till en ökning av exponentiell karaktär. Däremot är grafen fortfarande uppdelad, vilket betyder att instabiliteterna inte beror på blockuppdelningen.

Liknande grafer skapades för att undersöka om det var dubbellänken som löste problemet med konvergenshastigheten. Det visade sig att för större enkelriktade grafer hade kurvan för konvergenshastigheten samma utseende som i Figur 15(b).

Alltså tar algoritmen väldigt lång tid för enkelriktade grafer då α > 0.9. Vad detta beror på är oklart.

Alltså visar resultaten att konvergenshastigheten beror på om grafen är enkelriktad eller ej. Detta medför att konvergenshastigheten för grafer som är enkelriktade, är extra känslig för variation av parametern α, då parametern är större än 0.9. An-ledningen till detta fenomen är oklart. Det är också tydligt att PageRank-värden blir känsligare för förändring då α > 0.9. Detta syns i figurerna då derivatan av värden ökar och därmed blir linjerna brantare. Från resultaten dras slutsatsen att algoritmens känslighet påverkas markant då parametern α > 0.9.

Från resultaten ovan syns det att α påverkar känsligheten hos algoritmen och även konvergenshastigheten då parametern ökar. Detta förklarar varför Brin och Page valde α = 0.85. Det visar sig vara ett värde som ger en stabil algoritm men som också konvergerar snabbt. I resultaten är det tydligt att då variabeln blir större än ca 0.9 så ökar konvergenshastigheten exponentiellt. Känsligheten hos PageRank-värden ökar också mycket vid denna punkt och därmed är det bäst att ha ett värde på α < 0.9. Samtidigt är det önskat att ha ett stort värde på parametern för att behålla internets naturliga struktur och inte inkludera slumpmässigheten i alltför stor utsträckning.

4.3.2 Intelligent surfer-modellen

På samma sätt som i föregående avsnitt, undersöktes känsligheten hos algoritmen för Intelligent surfer-modellen. För att kunna jämföra de olika modellerna under-söktes en viktad version av grafen i Figur 14(a) och en viktad version av grafen i Figur 14(b). Dessa grafer presenteras i Figurerna 17(a) och 17(b).

(a) Den ursprungliga grafen med viktade länkar.

(b) Den modifierade grafen med viktade län-kar.

Figur 17: En designad viktad graf.

Resultaten för grafen i Figur 17(a) presenteras i Figurerna 18(a) och 18(b). Resul-taten för den modifierade grafen i Figur 17(b) presenteras i Figurerna 19(a) och 19(b).

(a) PageRank-värden för grafen. (b) Konvergenshastigheten för grafen.

Figur 18: Resultat för grafen i Figur 17(a).

(a) PageRank-värden för grafen. (b) Konvergenshastigheten för grafen.

Figur 19: Resultat för grafen i Figur 17(b).

Related documents