Generationsskräpsamling med explicit kontroll av hårdvarucache

(1)

Examensarbete

Generationsskr¨

apsamling med explicit

kontroll av h˚

ardvarucache

av

Karl-Johan Karlsson LITH-IDA-EX--06/044--SE

(2)

(3)

Examensarbete

Generationsskr¨

apsamling med explicit kontroll av

h˚

ardvarucache

av Karl-Johan Karlsson LITH-IDA-EX--06/044--SE

Handledare : Tobias Nurmiranta

Institutionen f¨or datavetenskap vid Link¨opings universitet

Examinator : Erik Sandewall

Institutionen f¨or datavetenskap vid Link¨opings universitet

(4)

(5)

Avdelning, Institution Division, Department Datum Date Spr˚ak Language 4 Svenska/Swedish 2 Engelska/English 2 Rapporttyp Report category 2 Licentiatavhandling 4 Examensarbete 2 C-uppsats 2 D-uppsats 2 Ovrig rapport¨ 2

URL f¨or elektronisk version

ISBN

ISRN

Serietitel och serienummer Title of series, numbering

ISSN Titel Title F¨orfattare Author Sammanfattning Abstract Nyckelord Keywords

This report evaluates whether an interpreted high-level garbage col-lected language has enough information about its memory behaviour to make better cache decisions than modern general CPU hardware.

With a generational garbage collector, depending on promotion al-gorithm and generation size, around 90% of all objects never leave the first generation. This report is based on the hypothesis that, because of the low promotion rate, accesses to higher generations are sufficiently rare not to benefit from caching.

To test this hypothesis, we built an operating system with a Scheme interpreter in kernel mode, where the interpreter controls the cache. Generic x86 PC hardware was used, since it allows fine-grained control of cache decisions.

Measurements of execution time in this interpreter show that dis-abling the cache for generations higher than the first does not give any performance gain, but rather a performance loss of up to 50%.

We conclude that this interpreter design is not an improvement, but cannot conclude that the hypothesis is false in general. We suggest building a better CPU simulator to gather more data from which to make better caching decisions, moving internal interpreter data struc-tures into the garbage collected heap and modifying the hardware to allow control in the currently rigid dimension of where data is cached— for example separate control of instruction and data caches and separate data caches for different areas of memory.

AIICS,

Institutionen f¨or datavetenskap 581 83 LINK ¨OPING 2006-05-30 — LITH-IDA-EX--06/044--SE — http://www.ep.liu.se/exjobb/ida/2006/dd-d/044/

Generational garbage collection with explicit control of CPU cache Generationsskr¨apsamling med explicit kontroll av h˚ardvarucache

Karl-Johan Karlsson

memory management, garbage collection, operating systems, cache con-trol

(6)

(7)

Abstract

This report evaluates whether an interpreted high-level garbage collected language has enough information about its memory behaviour to make better cache decisions than modern general CPU hardware.

With a generational garbage collector, depending on promotion algo-rithm and generation size, around 90% of all objects never leave the first generation. This report is based on the hypothesis that, because of the low promotion rate, accesses to higher generations are sufficiently rare not to benefit from caching.

To test this hypothesis, we built an operating system with a Scheme interpreter in kernel mode, where the interpreter controls the cache. Generic x86 PC hardware was used, since it allows fine-grained control of cache decisions.

Measurements of execution time in this interpreter show that disabling the cache for generations higher than the first does not give any perfor-mance gain, but rather a perforperfor-mance loss of up to 50%.

We conclude that this interpreter design is not an improvement, but cannot conclude that the hypothesis is false in general. We suggest build-ing a better CPU simulator to gather more data from which to make bet-ter caching decisions, moving inbet-ternal inbet-terprebet-ter data structures into the garbage collected heap and modifying the hardware to allow control in the currently rigid dimension of where data is cached—for example separate control of instruction and data caches and separate data caches for differ-ent areas of memory.

Keywords: memory management, garbage collection, operating systems, cache control

(8)

(9)

Inneh˚

all

1 Introduktion 1

1.1 Motivering och bakgrund . . . 1

1.2 Rapportens uppl¨agg . . . 2

1.3 Tillg¨anglighet . . . 2

1.4 F¨orkunskapskrav . . . 2

1.5 Ordlista . . . 2

1.6 Introduktion till systemet . . . 3

1.7 Relaterade arbeten . . . 4 1.7.1 Mushroom _{. . . .} ₄ 2 Systemarkitektur 6 2.1 Processarkitektur . . . 6 2.2 Bootprocess . . . 7 2.3 Sidtabell . . . 7 2.4 Cachekonfiguration . . . 8 2.5 Scheme-interpretator . . . 9 2.6 Skräpsamlare . . . 9 2.6.1 Skräpsamlarens uppgift . . . 9 2.6.2 Generationer . . . 10 2.6.3 Cheney-kopiering . . . 11 2.6.4 Rotmängd . . . 11 2.7 Intern representation . . . 13 vii

(10)

viii INNEH˚ALL 3 Implementationsdetaljer 15 3.1 OSKit . . . 15 3.1.1 C++ . . . 15 3.2 Begr¨ansningar . . . 16 4 Resultat 17 5 Slutsatser 20 5.1 Framtida arbete . . . 20 Litteraturf¨orteckning 23

(11)

Kapitel 1

Introduktion

1.1 Motivering och bakgrund

Examensarbetet är en utvärdering av huruvida interpretatorn för ett hög-niv˚aspr˚ak har tillräckligt mycket information om sitt eget minnesbeteende för att kunna ta bättre beslut om vad som skall och inte skall cachas än modern generell CPU-h˚ardvara.

Moderna minnessystem är uppbyggda av˚atminstone tre niv˚aer av minnen— cache, arbetsminne och h˚arddisk. När man g˚ar ned˚at i denna hierarki blir minnet billigare och större men ocks˚a l˚angsammare. En process kan väl-ja att ignorera dessa niv˚aer, men riskerar d˚a att r˚aka ut för allvarliga prestandaproblem. Detta gäller särskilt skräpsamlande processer, eftersom dessa har ett minnes˚atkomstmönster som radikalt skiljer sig fr˚an de hos icke skräpsamlande processer, som modern datorh˚ardvara är designad för [3; 19; 21].

Eftersom dagens operativsystem är d˚aliga p˚a att b˚ade ge information om och ta emot instruktioner för hur minneshierarkin skall skötas inifr˚an ett program [15] m˚aste en stor del av systemet designas om för att bli optimalt anpassat för skräpsamlande processer. B˚ade ny h˚ardvara [22] och nya operativsystem [13] har föreslagits. Nya sätt att hantera cache har oftast handlat om att antingen bygga helt ny h˚ardvara [22] eller anpassa

(12)

2 1.2. Rapportens uppl¨agg

skräpsamlare för befintlig cachedesign [3; 19; 21]. Intels x86-processorfamilj [7] är dock tillräckligt anpassningsbar för att ett nytt operativsystem skall kunna f˚a tillräcklig kontroll över cacheanvändningen.

Resultaten kan ligga till grund för design av framtida operativsystem för interpreterade högniv˚aspr˚ak med skräpsamlat minne, som t.ex. Renaissance System [13].

1.2 Rapportens uppl¨

agg

Kapitel 2 beskriver systemets arkitektur och struktur. Detaljer i implemen-tationen beskrivs i kapitel 3. Resultat fr˚an testkörningar redovisas i kapitel 4. Till sist ger kapitel 5 en tolkning av resultaten och föresl˚ar framtida utökningar.

1.3 Tillg¨

anglighet

Källkoden till detta projekt finns tillgänglig genom HTTP och Subversion p˚a adressen <https://www.ferretporn.se/subversion/percent-scheme/>. Den f˚ar spridas enligt villkoren i GNU General Public License (se källkoden för detaljer).

1.4 F¨

orkunskapskrav

Läsaren bör vara förtrogen med grunderna inom operativsystemsdesign, ¨

aven om en del kommer att behandlas översiktligt i rapporten. Även allmän kunskap om skräpsamlande programmeringsspr˚ak förutsätts.

1.5 Ordlista

fysisk adress (eng. ”physical address”) Minnesadress s˚asom minnesh˚ ard-varan ser den. Det slutliga steget efter ¨overs¨attning med segmentering och sidindelning.

(13)

Introduktion ₃

linjär adress (eng. ”linear address”) Minnesadress som har översatts med segmentering, men ännu inte med sidindelning. Eftersom segmenter-ing inte används i detta projekt är det samma sak som en virtuell adress.

rotmängd (eng. ”root set”) De objekt i minnet som kan n˚as omedelbart fr˚an programmet, t.ex. värden p˚a stacken och i globala variabler. Alla levande objekt kan n˚as fr˚an rotmängden.

sida (eng. ”page”) ¨Aven ”minnessida”. Den minsta uppdelningen av minne p˚a moderna processorer. P˚a x86 ¨ar de 4 kB stora [7].

sidkatalog (eng. ”page directory”) Första niv˚ans sidindelning. De 10 mest signifikanta bitarna i en linjär adress är ett index i katalogen, vilket ger den fysiska adressen till en sidtabell. Se figur 2.1.

sidtabell (eng. ”page table”) Andra niv˚ans sidindelning. Efter att de 10 mest signifikanta bitarna har använts till sidkatalogen är nästföljande 10 bitar ett index i sidtabellen, vilket ger den fysiska adressen till en minnessida. Sidtabellen inneh˚aller även n˚agra flaggor som ger infor-mation om minnessidan—relevant för detta projekt är flaggan som säger huruvida sidan har skrivits till (”dirty bit”), samt inställningar-na för hur sidan skall cachas. Se figur 2.1.

virtuell adress (eng. ”virtual address”) Minnesadress s˚asom den ses av applikationsprogram, innan n˚agon ¨overs¨attning har gjorts.

1.6 Introduktion till systemet

Examensarbetet är en utvärdering av en cachedesign för en skräpsam-lande interpretator med operativsystemsstöd. Spr˚aket som valts för detta ¨

ar Scheme [1].

Systemet som skapats är för det första en Scheme-interpretator, vilken beskrivs närmare i avsnitt 2.5. Den intressanta delen av systemet ligger dock i skräpsamlaren. För att kunna komma ˚at h˚ardvarunära funktioner körs interpretatorn i ett specialskrivet operativsystem (se avsnitt 2.1).

(14)

4 1.7. Relaterade arbeten

Skräpsamlaren (avsnitt 2.6) bygger p˚a en generationell arkitektur [19] och flyttar objekt med en Cheney-kopiator [4]. Fördelen med en genera-tionell skräpsamlare är att eftersom de flesta objekt dör unga [19] kan man samla större delen av allt skräp (80–99 % beroende p˚a spr˚ak och befor-dringsalgoritm [8]) genom att skräpsamla oftare i bara den första genera-tionen än i högre generationer, vilket tar kort tid eftersom den är mycket mindre än hela minnesrymden.

P˚a grund av detta kommer ocks˚a b˚ade interpretatorn och skräpsam-laren att göra största delen av sina minnesreferenser till objekt i första generationen. Hypotesen som arbetet utg˚ar fr˚an är att man f˚ar ett bättre resultat av att statiskt lagra hela första generationen i cache än om man l˚ater h˚ardvaran välja själv vilka delar av minnet som skall ligga i cache. Man kommer d˚a att f˚a prestandaförluster vid ˚atkomst till annat minne, t.ex. äldre generationer och stacken, men det skulle d˚a mer än uppvägas av att de m˚anga referenserna till första generationen g˚ar snabbare.

Systemet samlar statistik om exekveringstid och minnes˚atg˚ang för varje beräknat uttryck, vilket använts för att producera resultaten i kapitel 4.

1.7 Relaterade arbeten

1.7.1 Mushroom

Mushroom_{-systemet [20] är ett system med egenutvecklad h˚}_{ard- och} mjuk-vara byggd för att köra Smalltalk-80. Även det skräpsamlar första gener-ationen i cache för att öka prestanda [22], men eftersom det till stor del ¨

ar egenutvecklat har det mer kontroll ¨over minnessystemet ¨an vad detta projekt har.

Cachen i Mushroom är helt mjukvarukontrollerad, s˚atillvida att när en cache-miss sker körs en mjukvarurutin som tar beslut om vad som skall ersättas i cachen och kan ändra i b˚ade utg˚aende och inkommande data. Detta gör att relationen mellan cache och minne i Mushroom är mer lik den mellan minne och disk än mellan cache och minne i traditionella operativsystem—till exempel kan hanteraren undvika att skriva cachens inneh˚all till minnet om inneh˚allet änd˚a har skräpsamlats och aldrig kommer att användas mer.

(15)

Introduktion ₅

Mjukvarukontrollen av cachen används ocks˚a för att hantera intergen-erationspekare. En bit i objektets huvud säger om det är ”lokalt” eller inte. Ett objekt är lokalt när det skapas, men om en referens till det skrivs till minnet eller om dess huvud tvingas ur cache är det inte längre lokalt. Ett icke-lokalt objekt kan aldrig bli lokalt igen. När cachen skräpsamlas läggs de icke-lokala objekten till rotmängden. Trots att detta är en överskattning av den egentliga mängd av objekt som refereras till av intergenerationspekare s˚a kan skräpsamlaren bli av med s˚a mycket som 90 % av allt skräp innan det lämnar cachen [22].

¨

Aven nästa minnesniv˚aöverg˚ang, mellan minnet och disken, särbehand-las av Mushroom. Dels körs skräpsamlaren för minnet bara p˚a de objekt som finns i minnet och lägger aldrig tid p˚a att hämta in n˚agra objekt fr˚an disken, dels försöker systemet undvika att skräp hamnar p˚a disken ¨

over huvud taget. För att h˚alla kvar skräp i minnet kan man först lägga märke till att skräp per definition aldrig kommer att användas igen, medan levande objekt antagligen kommer att användas. Mushroom grupperar objekt efter hur l˚ang tid som g˚att sedan de sist användes, och undviker att flytta de äldsta grupperna till disk om de inte markerats som levande av skräpsamlaren.

(16)

Kapitel 2

Systemarkitektur

I detta kapitel beskrivs systemets arkitektur, s˚asom hur operativsystems-grunden och skräpsamlaren är designade. Resultaten kan först˚as utan att läsa detta kapitel, men det är viktigt för att först˚a implementationen.

2.1 Processarkitektur

En x86-processor [7] kan köras i fyra olika privilegielägen, ring 0–3. Ring 0 kallas i allmänhet för kärnläge (för att operativsystemskärnan körs där) och ring 3 för användarläge (för att användarprogram körs där). Kod som körs i en ring med högre nummer kan bara anropa kod i och läsa minne fr˚an ringar med lägre nummer genom vissa väldefinierade anropsställen, specialinstruktioner eller avbrott, vilka alla tar väldigt l˚ang tid jämfört med direkt ˚atkomst. Dessutom kan vissa priviligierade instruktioner, t.ex. rdtsc _{(”read time-stamp counter”) som används för att samla information} om skräpsamlarens prestanda, inte köras alls i ringar över 0.

Skräpsamlaren behöver kommunicera l˚agniv˚ainformation direkt med h˚ardvaran (se avsnitt 2.6.4), s˚a därför behöver den köras i ring 0, och för att minska komplexiteten för hela systemet betydligt körs all kod i ring 0 s˚a att inga privilegieöverg˚angar behöver göras.

Eftersom det endast är cacheminnet som är intressant i det här arbetet

(17)

Systemarkitektur ₇

minimerades komplexiteten i systemet genom att skriva ett nytt opera-tivsystem, helt utan virtuellt minne och anv¨andarl¨age. Scheme-interpretatorn ¨

ar allts˚a en del av operativsystemets k¨arna, och det enda som k¨ors p˚a da-torn.

Ett realistiskt operativsystem skyddar sin kärna genom att köra den i kärnläge och användarprogram i högre ringar, s˚a att användaren inte kan p˚averka operativsystemet. Trots detta är designvalet att bygga hela systemet i kärnläge motiverat, eftersom ett fullt operativsystem av pre-standaskäl behöver ha skräpsamlaren i en l˚ag ring, och prestandaresultat fr˚an detta system är därför relevanta.

2.2 Bootprocess

OSKit [18], som systemet bygger p˚a (se avsnitt 3.1), inneh˚aller ingen egen bootladdare, men den följer multiboot-standarden [14] och kan därmed bootas av alla bootladdare som ocks˚a följer den. Det här projektet använder GNU GRUB [5], ”the GRand Unified Bootloader”.

All assemblerkod som krävs för bootprocessen kommer fr˚an OSKit, s˚a projektets kod börjar direkt med en main()-funktion i C++. Denna an-ropar n˚agra initialiseringsfunktioner fr˚an OSKit, varefter programmiljön ¨

ar redo att anv¨andas.

2.3 Sidtabell

Minnet p˚a x86-arkitekturen ¨ar uppdelat i sidor om 4kB eller 4MB [7], men i detta system anv¨ands endast 4kB-sidor.

Sidtabellen översätter linjära adresser (som programmet ser) till fysiska adresser (som h˚ardvaran vill ha) vid varje minnesaccess. Strukturen, som syns i figur 2.1, är tv˚a niv˚aer djup, där de första 10 bitarna i den linjära adressen indexerar i första niv˚an (sidkatalogen), nästföljande 10 bitar in-dexerar i andra niv˚an (sidtabellen) och de sista 12 bitarna ger adressen p˚a sidan. För att snabba upp denna process finns en separat cache för sidtabellens inneh˚all, kallad TLB (Translation Lookaside Buffer).

(18)

8 2.4. Cachekonfiguration

Figur 2.1: Översättning fr˚an linjär till fysisk adress med sidtabeller p˚a x86.

De allra flesta operativsystem idag använder sidtabellen för att im-plementera virtuellt minne genom att den till˚ater att minnessidor lagras p˚a godtycklig fysisk plats. Detta projekt använder dock en linjär 1-till-1-¨

oversättning mellan virtuell och fysisk adress, s˚a det enda som används är de extra flaggorna i sidtabellen. Dessa flaggor st˚ar för attribut s˚asom om sidan finns i minnet, om den är skrivbar, om endast operativsystemet eller ¨

aven anv¨andarprocesser f˚ar komma ˚at den och hur minne som t¨acks av den skall cachas.

2.4 Cachekonfiguration

x86-arkitekturen har m˚anga olika implementationer med m˚anga olika cache-parametrar [7]. Vanligast idag är att cachen är indelad i tv˚a niv˚aer, varav den snabbaste (”L1”, för ”level 1”) är i storleksordningen 16–128kB och upp-delad i tv˚a lika stora delar för instruktioner och data, medan nästa (”L2”) ¨

ar 128–1024kB stor och inneh˚aller b˚ade instruktioner och data. Det finns ¨

aven system med en ännu större L3-cache, men det är ännu inte särskilt vanligt p˚a arbetsstationer [16].

Det implementerade systemet kan arbeta i tre lägen med avseende p˚a cachen. Referensläget är att cachning till˚ats för allt minne, d.v.s. att h˚

(19)

ard-Systemarkitektur ₉

varan tar alla beslut själv. Nästa läge är att cachning är p˚aslaget för allt minne utom andra generationen. Sista läget sl˚ar av cachning för allt minne utom första generationen, d.v.s. även kod och C++-data är ocachead. Oavsett läge är första generationen precis s˚a stor som den största cachen, d.v.s. L2 eller, om den finns, L3.

Cachepolicyn som används i systemet är write back, d.v.s. att inneh˚allet i cachen inte skrivs tillbaka till minnet förrän n˚agot annat minnesblock skall flyttas upp till cachen och tvingar ut det gamla. När cachning bara är p˚aslaget för första generationen finns det inget nytt minne som kan tvinga ut det gamla, s˚a hela första generationen ligger alltid bara i cache.

Cachekonfigurationen upprättas vid uppstart av systemet, efter att min-nesgenerationerna har definierats, genom att cachekonfigurationsflaggorna i sidtabellen ställs för att antingen till˚ata eller förbjuda cachning beroende p˚a om sidan i fr˚aga hör till första generationen eller inte.

2.5 Scheme-interpretator

Interpretatorn är en enkel översättning fr˚an Scheme till C++ av %Scheme, en Scheme-i-Scheme-interpretator fr˚an kursen TDDA69 Data- och pro-gramstrukturer [6] p˚a Linköpings universitet som i sin tur bygger p˚a den metacirkulära evaluatorn som beskrivs av Abelson och Sussman [2]. Den implementerar större delen av det som är klassificerat som ”syntax” och ”library syntax” i Scheme-standarden [1].

2.6 Skr¨

apsamlare

2.6.1 Skr¨

apsamlarens uppgift

Skräpsamlaren ser till att minne som programmet allokerat men inte längre använder ˚aterlämnas till systemet.

Om programmet inte kan referera till ett objekt i minnet gör det ingen skillnad huruvida det faktiskt finns eller inte, och det objektet är d˚a skräp. Allts˚a kan problemet omformuleras till att hitta vilka objekt programmet kan respektive inte kan n˚a för att referera till.

(20)

10 2.6. Skr¨apsamlare

Det finns vissa objekt—rötter—som alltid är tillgängliga. Beroende p˚a spr˚ak och interpretatorarkitektur kan de vara definierade olika, men typiskt ¨

ar att det gäller objekt som pekas p˚a fr˚an värden i register och objekt p˚a stacken. Dessa objekt har sedan pekare till andra objekt, som har pekare i sin tur, o.s.v.. Att ett objekt är levande definieras som att det kan n˚as genom en s˚adan kedja av pekare fr˚an rötterna, och objekt som inte är n˚abara definieras som skräp.

2.6.2 Generationer

I detta system sker skr¨apsamlingen generationellt [19], med tv˚a genera-tioner.

Objekt skapas i den första generationen. När den är full skräpsamlas den, och de överlevande objekten flyttas upp till den andra generationen. Den andra generationen best˚ar av tv˚a halvrymder varemellan de objekt som överlever varje skräpsamling flyttas. Dessa skräpsamlas om det direkt efter en skräpsamling av första generationen finns mindre än 10% ledigt utrymme i andra generationen.

(21)

Systemarkitektur ₁₁

2.6.3 Cheney-kopiering

Flyttningen av objekt mellan generationer och halvrymder utförs med en Cheney-kopiator [4]. Denna skräpsamlingsalgoritm har fördelen att den an-vänder konstant minnesutrymme, till skillnad fr˚an s˚adana algoritmer som följer objektgrafer rekursivt och därför behöver en stack [8].

Cheneys algoritm använder en kö istället för en stack, vilket gör att objektgrafen traverseras i bredden först-ordning. Dessutom utnyttjar den det faktum att alla objekt som besöks, och därmed hamnar i kön, är levande och skall flyttas till nästa generation. Den flyttar upp alla objekt den träffar p˚a till nästa generation, och använder sedan objekten själva som kö med hjälp av tv˚a pekare som talar om var början och slutet p˚a kön finns. P˚a s˚a sätt används bara konstant minne för traverseringen (de tv˚a pekarna) och objekten kompakteras samtidigt i botten av nästa generation.

2.6.4 Rotm¨

angd

Skräpsamlaren baserar sitt beslut om huruvida ett objekt är skräp eller inte p˚a om det kan n˚as fr˚an programmet eller inte. Rotmängden best˚ar av de objekt som kan n˚as omedelbart fr˚an programmet, utan att behöva följa pekare genom andra objekt.

I detta system best˚ar rotm¨angden av fyra delar—Scheme-stacken, den globala omgivningen, makrolistan och intergenerationspekare.

Scheme-stacken

De C++-funktioner som behandlar Scheme-objekt m˚aste till˚ata att alla objekt flyttas av skräpsamlaren. Detta inkluderar argument, mellanlagrade temporära värden och returvärden. För att skräpsamlaren skall slippa k¨na till hur C++-stacken ser ut och hur den kompilerade C++-koden an-vänder temporärvariabler används en separat Scheme-stack, som hanteras med explicita instruktioner fr˚an C++-kod. Ramarna är av fix storlek—fem argument och tv˚a temporära variabler—för att underlätta hanteringen.

En C++-funktion som behöver behandla Scheme-objekt vilka kan flyt-tas av skräpsamlaren börjar med en standardprolog som skapar en ny ram och lägger in alla sina argument i den. Ramen läggs p˚a Scheme-stacken,

(22)

12 2.6. Skr¨apsamlare

varefter alla beräkningar hämtar värden fr˚an ramen istället för fr˚an C++-argumenten. Temporära värden mellanlagras i ramen, och returvärdet läggs i en av de temporära variablerna. Till sist plockar standardepilogen bort ramen fr˚an stacken och värdet i den ena temporära variabeln returneras.

Alla sju platserna i en stackram initialiseras till ett värde som aldrig kan vara en pekare till ett giltigt objekt, och skräpsamlaren kommer att hoppa över detta värde.

Global omgivning och makrolista

En omgivning representeras som en lista med ramar, ordnade fr˚an inner-sta till ytterinner-sta—den globala omgivningen ligger allts˚a sist i varje s˚adan lista. En ram representeras som ett punkterat par av tv˚a listor med namn respektive v¨arde f¨or alla bindningar i ramen.

En pekare till listan med den (Scheme-)globala omgivningen h˚alls i en (C++-)global variabel, och denna variabel ing˚ar i rotmängden. Eftersom omgivningar och ramar är vanliga Scheme-listor behövs ingen ytterligare särbehandling.

Makrolistan är en associationslista fr˚an namn till lambdafunktioner som körs för att expandera makrot. C++-variabeln som h˚aller pekaren till denna lista ing˚ar i rotmängden.

Intergenerationspekare

Omedelbart efter att första generationen har skräpsamlats är den tom, och alla objekt ligger antingen i rotmängden eller i andra generationen. Skräpsamlingen av andra generationen äger därför rum vid s˚adana tillfällen, och behöver inte ta hänsyn till pekare mellan generationerna.

När första generationen skräpsamlas finns det dock alltid (förutom allra första g˚angen) objekt i andra generationen, och om dessa inneh˚aller pekare in i första generationen behöver de ing˚a i rotmängden.

Jones och Lins [8] beskriver ett antal olika sätt att hitta s˚adana pekare. De flesta f˚angar skrivningar med en skrivbarriär och kommer ih˚ag var inter-generationspekare har lagrats, s˚a att mängden objekt som behöver läggas till rotmängden och sökas genom minimeras.

(23)

Systemarkitektur ₁₃

Det finns en avvägning att göra mellan arbetet som görs i skrivbarriären respektive i sökningen efter pekare. I stora drag kan man f˚a en mer precis h˚agkomst av var pekarna finns genom att tillbringa mer tid i skrivbarriären, vilket d˚a gör att sökningen g˚ar snabbare. Zorn [23] beskriver och jämför ett antal olika sätt att implementera skrivbarriären och göra denna avvägning. I detta system används en algoritm som liknar den som används i LISP-maskinen Symbolics 3600 [10]. x86-processorn har h˚ardvarustöd som gör skrivbarriären gratis, medan markeringen är grov och kräver genomsökning av stora minnesutrymmen.

Sidtabellen (se avsnitt 2.3) inneh˚aller en bit (”dirty bit”) som säger hu-ruvida sidan har skrivits till. Denna sätts av h˚ardvaran vid alla skrivningar till en minnessida. Direkt efter en skräpsamling av första generationen kan det inte finnas n˚agra intergenerationspekare, eftersom det inte finns n˚agra objekt i första generationen som de kan peka p˚a. D˚a stängs biten av för alla sidor som täcker andra generationen. När en skrivning sker kommer h˚ardvaran att sätta biten, oavsett vad som skrevs. När sedan första genera-tionen skall skräpsamlas igen söks alla markerade minnessidor genom efter intergenerationspekare, och alla s˚adana pekare läggs till rotmängden.

2.7 Intern representation

Ett av de första designval implementationen av en Scheme-interpretator ställs inför är hur typning skall implementeras. Det finns tv˚a huvudalternativ— typade pekare och typade objekt. Med typade pekare reserveras ett antal av bitarna i varje pekare för att tala om vilken typ objektet de pekar p˚a har. Typade objekt har dessa bitar i ett fält i objekthuvudet istället.

Detta system använder typade objekt, främst för att det d˚a blir en-klare att behandla objekt när skräpsamlaren sveper över dem utan att följa pekare. Hade typade pekare använts hade varje objekt i alla fall be-hövt ha ˚atminstone sin storlek i huvudet, medan vissa operationer som bara behöver veta typen p˚a ett objekt hade g˚att fortare eftersom mindre data hade behövt hämtas fr˚an minnet. En annan nackdel med typade pekare är att om man vill slippa maskera bort typbitarna i pekarna för varje opera-tion, vilket tar alldeles för l˚ang tid, behöver man en noggrant designad och inflexibel minneslayout s˚a att typbitarna är en del av adressen.

(24)

14 2.7. Intern representation

De typer som finns är heltal, strängar, symboler och cons-celler. Det behövs allts˚a inget sätt att hantera stora objekt, eftersom de m˚aste brytas ner till listor först. Objekten har 4 byte huvud och antingen 4 byte (heltal, strängar, symboler) eller 8 byte (cons-celler) data.

(25)

Kapitel 3

Implementationsdetaljer

3.1 OSKit

Största delen av l˚agniv˚afunktionaliteten i systemet är implementerad med hjälp av OSKit [18]. OSKit är ett bibliotek med funktioner avsedda att hjälpa utvecklare av operativsystem genom att ta hand om alla detaljer som krävs för att f˚a ett minimalt bootbart system, s˚a att utvecklaren kan koncentrera sig p˚a det som gör just dennes operativsystem unikt.

I detta projekt används OSKit p˚a tv˚a sätt—dels används färdig funk-tionalitet rakt av, t.ex. den allra första bootkoden och konsoldrivrutinen, dels används abstraktionslager till l˚agniv˚afunktionalitet, t.ex. minneshanter-ing och CPU-initialiserminneshanter-ing.

3.1.1 C++

OSKit ¨ar skrivet i C och assembler. Det tillhandah˚aller tv˚a standardbib-liotek f¨or C—ett minimalt som inte tillhandah˚aller t.ex. fil-I/O och flyttals-matematik, och ett (anpassat fr˚an FreeBSD 2.2.2) som inneh˚aller i stort sett allt ett C-standardbibliotek skall inneh˚alla.

C++-kompilatorn i GCC förlitar sig mycket p˚a funktioner i C-biblioteket glibc, för mycket för att fungera omedelbart i denna begränsade miljö.

(26)

16 3.2. Begr¨ansningar

Nicholas [11; 12] beskriver dock hur man minimerar dess beroenden till-räckligt mycket för att arv och undantag skall fungera, även om GNU STL [17] (C++:s standardbibliotek) och globala objekt ännu inte fungerar.

P˚a grund av fel i OSKits källkod som först nyligen börjat f˚angas av kom-pilator och länkare krävs även att man inte använder en för ny och strikt toolchain. Vilka versioner som krävs är närmare dokumenterat i källkoden till detta projekt.

3.2 Begr¨

ansningar

Systemet finns implementerat enligt beskrivningen i denna rapport. Dock saknas optimering för intergenerationspekare (avsnitt 2.6.4), p˚a grund av buggar som tog längre tid än planerat att lösa. Intergenerationspekare hit-tas istället genom att söka i alla minnessidor som har använts i andra generationen, inte bara de som har skrivits i sedan senaste skräpsamlingen. Det saknas även svansrekursionsoptimering av Scheme-stacken.

(27)

Kapitel 4

Resultat

Figur 4.1 redovisar resultatet av att k¨ora fyra olika testprogram med de tre olika cache-inst¨allningar som beskrivs i avsnitt 2.4.

CPU:n som användes är en Intel Mobile Pentium 3 med 1 GHz klock-frekvens, med en L1-cache uppdelad p˚a 16 kB för instruktioner och 16 kB för data och en L2-cache p˚a 256 kB. Första generationen var lika stor som L2-cachen, eftersom L3-cache saknades. Varje program kördes fyra g˚anger, och varje g˚ang noterades antalet CPU-cykler som krävdes. Diagrammet visar medelvärdet samt standardavvikelsen för de fyra körtiderna.

Program 1 Transformerar en kort lista. Första generationen skräpsamlas en g˚ang under körningen, strax innan den avslutas.

Program 2 Definierar en funktion som helt f˚ar plats i första generationen. Program 3 Använder funktionen i program 2 för att uppdatera ett värde etthundra g˚anger. Första generationen skräpsamlas fem g˚anger under körningen.

Program 4 Läser värdet som uppdaterades i program 3. Detta flyttades upp till andra generationen tidigt under körningen av program 3. Att bara ha cachning p˚aslaget för första generationens minne ger kör-tider som är runt femhundra g˚anger längre än basfallet (se tabell 4.1. Detta

(28)

18 100000 1e+06 1e+07 1e+08 1e+09 1e+10 1e+11 1e+12 0 1 2 3 4 5 Tid (CPU−cykler) Program Cache för hela minnet

Cache av enbart första generationen Cache av allt utom andra generationen Standardavvikelse

Figur 4.1: Körtid för olika testprogram med olika cacheinställningar.

beror antagligen p˚a att inte ens L1-instruktionscachen är aktiv d˚a, vilket gör att varje instruktion resulterar i minst en cachemiss varför CPU:ns pipeline är tom största delen av tiden.

När cachning är avstängt enbart för andra generationen p˚averkas pre-standa fortfarande negativt, dock inte tillnärmelsevis lika mycket—bara upp till 56 %. Detta syns speciellt p˚a program tre, vars data flyttas upp till andra generationen tidigt under körningen, och program fyra, vilket uteslutande arbetar p˚a data i andra generationen.

(29)

Resultat ₁₉

Program Allt Endast f¨orsta Allt utom andra

1 1 477 1,01

2 1 511 1,03

3 1 509 1,14

4 1 465 1,56

(30)

Kapitel 5

Slutsatser

Modern cachedesign ¨ar resultatet av l˚ang tids datasamling och -analys. Det ¨

ar även en integrerad del av CPU-designen, i och med att l˚anga pipelines kräver snabb cache för att kunna fungera optimalt. Trots att denna design ¨

ar grundad p˚a program med explicit minneshantering istället för skräpsam-ling fungerar den tillräckligt bra för att detta arbete inte skall ha lyckats göra den bättre.

Detta negativa resultat behöver inte bero p˚a att hypotesen—att speci-fik manuell cachedesign kan bli bättre än generisk—är felaktig, utan kan ¨

aven bero p˚a begränsningar i den nuvarande implementationen eller att det saknades tillräckliga data för att göra en bra design.

5.1 Framtida arbete

Insamling av mer data

Det är sv˚art att förutse resultatet av att ändra p˚a cacheinställningar, men att ha mer bakgrundsinformation tillgänglig skulle kunna underlätta. En systemsimulator som klarar av att ge finkornig cachestatistik per minnes-sida skulle antagligen kunna producera s˚adan information. Dock m˚aste en s˚adan simulator först byggas, t.ex. genom att lägga till cachefunktionalitet till Bochs [9].

(31)

Slutsatser ₂₁

Datainsamling skulle även kunna göras p˚a större och mer realistiska exempelprogram än de som tagits upp i denna rapport, men vi förväntar oss inga större prestandaskillnader. Relevant för prestanda skulle kunna vara att större program har fler temporära datastrukturer, och därför inte behöver läsa indata fr˚an ocachat minne lika ofta. Däremot kommer pro-grammet ta mer plats och därmed flyttas upp till ocachat minne tidigare. Flytta mer data till Scheme-heapen

I den nuvarande implementationen är minnet huvudsakligen uppdelat i fem delar: C++-kod, C++-stack, strängtabell, Scheme-stack och Scheme-heap. Om skräpsamlaren känner till hur kompilatorn bygger C++-stacken behövs inte en speciell Scheme-stack, vilket minskar b˚ade dubbelarbete och min-nes˚atg˚ang. En ytterligare förbättring skulle kunna vara att lägga strängta-bellen i Scheme-heapen, eller lägga strängar direkt i Scheme-heapen utan att använda en strängtabell alls.

Uppdelad cache mellan data och instruktioner

Att sl˚a av cachning för instruktioner ger dramatiskt försämrad prestanda p˚a processorarkitekturer med l˚anga pipelines. En cachedesign som tar hänsyn till detta skulle kunna ha en instruktionscache som är p˚aslagen för hela minnet, medan datacachen kontrolleras som i detta arbete. x86-h˚ardvara har redan ofta uppdelad instruktions- och datacache, ˚atminstone i L1, men de kan inte kontrolleras separat utan m˚aste stängas av samtidigt.

Flera oberoende cachar

En generalisering av arkitekturen med uppdelad data- och instruktions-cache är att ha flera stycken oberoende men generella cachar som kan pro-grammeras var för sig efter vilken sorts minne de inneh˚aller, och att man för varje minnessida väljer vilken cache (om n˚agon) den skall hamna i. Mushroom-lik cachedesign

Mushroom_{-systemet (se avsnitt 1.7.1) hade total mjukvarukontroll ¨over} cachen, vilket m¨ojliggjordes av att h˚ardvaran var specialbyggd. x86 till˚ater

(32)

22 5.1. Framtida arbete

inte att man behandlar cachen explicit p˚a det sättet, men man kan komma nära genom att avdela ett omr˚ade av minnet som det enda som täcks av cachen och flytta objekt in i och ut ur detta omr˚ade. Man kan inte heller f˚anga cachemissar och hantera dem i mjukvara, men samma funktionalitet kan uppn˚as genom att göra alla ocacheade minnessidor oläsbara och istället f˚anga sidfelen som uppst˚ar när programmet försöker läsa dem. Alternativt kan koden som läser objekttabellen vid varje objektreferens utökas till att ¨

(33)

Litteraturf¨

orteckning

[1] Revised5 Report on the Algorithmic Language Scheme, februari 1998. http://www.schemers.org/Documents/Standards/R5RS/.

[2] Abelson, Harold, Gerald Jay Sussman, och Julie Sussman: Structure and Interpretation of Computer Programs. The MIT Press, 1996. [3] Baker, Henry G.: Cache-Conscious Copying

Col-lectors. I Submission for GC’91 Workshop on

Garbage Collection in Object-Oriented Systems, 1991. http://citeseer.csail.mit.edu/baker91cacheconscious.html. [4] Cheney, C. J.: A nonrecursive list compacting algorithm.

Communi-cations of the ACM, 13(11):677–678, 1970.

[5] The Free Software Foundation: GRUB Manual, augusti 2005. http://www.gnu.org/software/grub/manual/.

[6] Haraldsson, Anders: TDDA69 Data- och programstrukturer, februari 2006. http://www.ida.liu.se/~TDDA69/.

[7] Intel corporation: IA-32 Intel Architecture Software Developer’s Man-ual, 2002.

[8] Jones, Richard och Rafael Lins: Garbage collection: Algorithms for automatic dynamic memory management. John Wiley & sons, 1996. [9] Lawton, Kevin, Bryce Denney, et al.: Bochs user manual, 2006.

http://bochs.sourceforge.net/.

(34)

24 LITTERATURF ¨ORTECKNING

[10] Moon, David A.: Garbage collection in a large LISP system. I Proceed-ings of the 1984 ACM Symposium on LISP and functional program-ming, sidor 235–246, Austin, Texas, USA, 1984.

[11] Nicolas, Eric: Linux technical study: Minimum

C program, januari 2005.

http://www.erik-n.net/studies/linux_boot_c/linux_boot_c.pdf.

[12] Nicolas, Eric: Linux technical study: Minimum

C++ program, januari 2005.

http://www.erik-n.net/studies/linux_boot_cpp/linux_boot_cpp.pdf.

[13] Nurmiranta, Tobias: System f¨or persistenta datastrukturer med skr¨ ap-samling baserat p˚a IA32-arkitekturen. Magisteruppsats, Link¨opings universitet, oktober 2002.

[14] Okuji, Yoshinori K., Bryan Ford, Erich Stefan Bo-leyn, och Kunihiro Ishiguro: Multiboot Specifica-tion manual. The Free Software Foundation, 2004. http://www.gnu.org/software/grub/manual/multiboot/.

[15] The Open Group: Single UNIX Specification, 2001. Specifikt funktio-nen posix madvise().

[16] Stallings, William: Computer organization and architecture: Designing for performance. Prentice Hall, 2006.

[17] Stroustrup, Bjarne: The C++ programming language. Addison Wesley, 2000.

[18] The Flux research group: The OSKit: The Flux operating sys-tem toolkit. teknisk rapport, Department of computer science, University of Utah, Salt Lake City, Utah, USA, mars 2002. http://www.cs.utah.edu/flux/oskit/.

[19] Ungar, David: Generation Scavenging: A Non-disruptive High Per-formance Storage Reclamation Algorithm. ACM SIGPLAN Notices, 19(5):157–167, maj 1984.

(35)

[20] Williams, Ifor och Mario Wolczko: An Object-Based Memory Architec-ture. I Dearle, Alan, Gail M. Shaw, och Stanley B. Zdonik (redakt¨or-er): Implementing Persistent Object Bases: Proceedings of the Fourth International Workshop on Persistent Object Systems, sidor 114–130. Morgan Kaufmann Publishers, Inc., 1991.

[21] Wilson, R. Paul, Michael S. Lam, och Thoma G. Moher: Caching Considerations for Generational Garbage Collection. I Proceed-ings of the 1992 ACM Conference on Lisp and Functional Pro-gramming, sidor 32–42, San Francisco, CA (USA), juni 1992. http://citeseer.csail.mit.edu/wilson92caching.html.

[22] Wolczko, Mario och Ifor Williams: Multi-level Garbage Collection in a High-Performance Persistent Object System. I Persistent object sys-tems. Springer-Verlag, september 1992.

[23] Zorn, Benjamin: Barrier Methods for Garbage

Col-lection. Teknisk rapport CU-CS-494-90, 1990.

(36)

(37)

LINKÖPING UNIVERSITY ELECTRONIC PRESS

Copyright

Svenska

Detta dokument h˚alls tillgängligt p˚a Internet - eller dess framtida ersättare - under 25 ˚ar fr˚an publiceringsdatum under förutsättning att inga extraordinära omständigheter uppst˚ar.

Tillg˚ang till dokumentet innebär tillst˚and för var och en att läsa, ladda ner, skriva ut enstaka kopior för enskilt bruk och att använda det oförändrat för ickekommersiell forskning och för undervisning. Överföring av upphovsrätten vid en senare tidpunkt kan inte upphäva detta tillst˚and. All annan användning av dokumentet kräver upphovsmannens medgivande. För att garantera äktheten, säkerheten och tillgängligheten finns det lösningar av teknisk och administrativ art.

Upphovsmannens ideella rätt innefattar rätt att bli nämnd som upphovsman i den omfat-tning som god sed kräver vid användning av dokumentet p˚a ovan beskrivna sätt samt skydd mot att dokumentet ändras eller presenteras i s˚adan form eller i s˚adant sammanhang som är kränkande för upphovsmannens litterära eller konstnärliga anseende eller egenart.

För ytterligare information om Linköping University Electronic Pressse förlagets hem-sida http://www.ep.liu.se/

English

The publishers will keep this document online on the Internet or its possible replacement -for a period of 25 years from the date of publication barring exceptional circumstances.

The online availability of the document implies a permanent permission for anyone to read, to download, to print out single copies for your own use and to use it unchanged for any non-commercial research and educational purpose. Subsequent transfers of copyright cannot revoke this permission. All other uses of the document are conditional on the consent of the copyright owner. The publisher has taken technical and administrative measures to assure authenticity, security and accessibility.

According to intellectual property law the author has the right to be mentioned when his/her work is accessed as described above and to be protected against infringement.

For additional information about the Link¨oping University Electronic Pressand its pro-cedures for publication and for assurance of document integrity, please refer to its WWW home page: http://www.ep.liu.se/

c

Karl-Johan Karlsson Link¨oping, 5 juli 2006