Registerallokering med PBQP f¨or en DSP

(1)

Registerallokering med PBQP f¨ or en DSP

Register allocation with PBQP for a DSP

Jakob Steng˚ard

Examensarbete inom information- och programvarusystem, grundniv˚a, 15 hp

Degree Project in Information and Software Systems, First Level

2 september 2011

KTH ICT, Ericsson AB Kurs: II121X, 15hp

(2)

Sammanfattning

Irreguljära arkitekturer, s˚a som Digitala Signal Processorer, utgör nya ut- maningar vid konstruktionen av kompilatorer. I det här projektet undersöks PBQP, en alternativ algoritm till den traditionella grafallokeringen som ger större möjligheter att modellera komplexa begränsningar. Projektet har fokuserat p˚a hur man modellerar alias och parrelationer i teorin, samt vad som finns implementerat i dagsläget i kompilatorramverket LLVM. Det som framkommit är att stöd för par relationer saknas i LLVM i dagsläget och därför ges n˚agra förslag p˚a hur man skulle kunna g˚a till väga föra att implementera dessa.

Abstract

Irregular architectures, such as Digital Signal Processors, constitute new challenges in the construction of compilers. This project has focused on studies of PBQP, which is an alternative algorithm to the traditional graph coloring approach to register allocation. PBQP enables more sophisticated control over the choices of registers, by means of more fine grained mod- elling of constraints. This report describes how to model alias and pairing constraints and some of the features currently available in the LLVM compiler framework. It’s concluded that support for pairing constraints is not yet implemented in LLVM, and therefore a few suggestions on how one would go about to implement this is also given.

(3)

Inneh˚ all

1 Introduktion 3

1.1 Syfte . . . 4

1.2 Metod . . . 4

1.3 Uppl¨agg . . . 4

1.4 F¨orkortnings f¨orteckning . . . 5

1.5 Introduktion till DSPer . . . 6

1.6 N˚agra facktermer inom kompilatorteknik . . . 7

1.7 Kompilatorstruktur . . . 8

1.8 Registeralias och registerpar . . . 9

2 PBQP i teorin 11 2.1 Matematisk beskrivning . . . 11

2.2 Exempel vid registerallokering . . . 12

2.2.1 Ett mer avancerat exempel . . . 14

2.2.2 Hur man modellerar alias och par . . . 14

2.3 En l¨osningsalgoritm . . . 17

2.3.1 F¨argbarhet . . . 18

2.3.2 Branch-and-Bound . . . 18

3 Praktisk till¨ampning i LLVM 20 3.1 Om LLVM . . . 20

3.2 Upps¨attningen . . . 20

3.3 Kodbasen . . . 21

3.4 Skillnaden mellan PBQP och klassisk grafallokering . . . 21

3.5 Den nuvarande implementationen . . . 23

3.6 Möjligheter att implementera stöd för registerpar . . . 23

3.7 Utveckling och underh˚all . . . 25

3.A Pseudokod . . . 25

4 Resultat 30 4.1 Slutsatser . . . 30

4.2 Diskussion . . . 31

4.3 Framtida arbete . . . 31

(4)

F¨ orord

Detta är resultatet av ett 9,5 veckor l˚angt examensarbete jag genomfört för min kandidatexamen vid ICT-skolan p˚a KTH. Denna kandidatexamen görs som en tre˚arig delexamen p˚a Civilingenjörsutbildningen i informations- teknik, vilket är det utbildningsprogram jag läser. Jag har tidigare studerat

ämnet kompilatorteknik, och när det blev dags att göra examensarbete s˚a kontaktade jag min tidigare lärare inom kompilatorteknik som ocks˚a jobbar som examinator. Tillsammans med honom, hans kontakter, samt n˚agra gam- la kolleger som jag träffat vid mina sommarjobb p˚a Ericsson lyckades vi till- slut styra upp detta projekt. Projektet g˚ar ut p˚a att undersöka möjligheterna till att använda registerallokeringsalgoritmen PBQP vid kompilering av kod för DSPer. Jag valde att arbeta i kompilatorramverket LLVM d˚a det är ett modernt ramverk, med stöd för bland annat PBQP algoritmen.

Registerallokering för DSPer var ett ämne som min examinator gärna kunde tänka sig vilja se en välskriven rapport i. Min chef vid Ericsson kunde ocks˚a godta detta som ett examensarbete d˚a den avdelning jag tidigare jobbat p˚a sysslar med att utveckla kompilatorer för DSPer.

Jag vill här passa p˚a att tacka de personer som har hjälpt mig genom projektets g˚ang, nämligen mina handledare; Jonas Paulsson och Roberto Castañeda Lozano, samt min examinator Christian Schulte.

Jag vill ocks˚a tacka Per Gibson som hj¨alp till med allt det administrativa kring ans¨okningen och projektet.

Jakob Steng˚ard, 6:e juni 2011.

(5)

1. Introduktion

Notera: En referenslista för förkortningar kan hittas längre ned i detta kapitel.

Registerallokering är den process i en kompilator där lokala variabler i det blivande programmet tilldelas fysiska register i processorn. Instruktionerna i en processor arbetar vanligen med data fr˚an register, även om det finns un- dantag. Eftersom antalet register oftast är litet i förh˚allande till de data som skall behandlas räcker dessa register sällan till. Man blir d˚a tvungen att spara data i minnet för att frigöra register och sedan ladda tillbaka dem när de ˚ater skall användas. Eftersom laddande och sparande till minnet är l˚angsamma operationer vill man naturligtvis minimera detta. Men det är inte alltid helt lätt att välja rätt register som vi senare skall se. Registerallokering är ett väl studerat problem inom kompilatortekniken som vanligen löses med sk.

grafallokering. Vid grafallokering abstraherar man problemet och gör om det till ett problem med att färglägga noder i en sk.interferensgraf.

I det här projektet har jag tittat p˚a en alternativ algoritm till grafallokering baserad p˚a PBQP. PBQP har m˚anga likheter med grafallokering, men ger möjligheter till en mer nyanserad kontroll över vilka register som väljs i olika situationer. P˚a vanliga processorer spelar valet av register inte alltid s˚a stor roll. Dock finns det andra typer av processorarkitekturer sk. irreguljära arkitekturer där det finns begränsningar p˚a vilka register som kan användas till vad. P˚a dessa arkitekturer vill man kunna blockera t.ex. förbjudna registerkombinationer.

Det g˚ar att komma runt dessa problem även för grafallokering, men detta involverar ofta speciallösningar för varje enskilt fall. Grafallokering bygger i grunden p˚a antagandet att alla noder i grafen kan färgläggas (tilldelas ett register), med vilken färg som helst. Detta antagande är felaktigt för irreguljära arkitekturer. De lösningar som hitintills presenterats för den här typen av problem har endast behandlat en liten delmängd av problemen. [1, s.147].

För processorer där majoriteten av registren är generella spelar det ovanst˚aende liten roll och man kan bevisligen använda grafallokering med gott resultat.

(6)

Jag har här dock valt att fokusera p˚a en typ av processorer som vanligtvis bygger p˚a irreguljära arkitekturer, nämligen DSPer. DSPer är en typ av processorer som används för signalbehandling.

PBQP är som tidigare antytts inte en algoritm i sig. PBQP st˚ar för Parti- tioned Boolean Quadratic Problem och är en typ av NP-kompletta problem som kan lösas olika typer av reduktionsalgoritmer baserade p˚a heuristik.

Den algoritm som främst kommer att diskuteras i den här rapporten är den som beskrivs av Schoolz och Eckstein i artikeln Registerallocation for Ireg- ular Achitectures [1] samt de förbättringar som beskrivs i Nearly Optimal Register Allocation with PBQP av Hames och Scholz [4].

LLVM är ett open-source kompilatorramverk där man kan välja att använda bland annat PQBP för register allokering.

1.1 Syfte

Syftet med projektet är att skapa bakgrundsmaterial för en bedömning av PBQPs lämplighet som registerallokerare för DSPer. Fokus i projektet har främst legat p˚a att ta reda p˚a PBQPs lämplighet för användning för DSPer, undersöka LLVMs nuvarande implementation och hur mycket jobb som skulle krävas för att anpassa den till att användas med en typisk DSP.

1.2 Metod

För att genomföra min undersökning inledde jag med en litteraturstudie där jag gick igenom den bakomliggande teorin. Där efter har jag jobbat aktivt genom att läsa LLVM dokumentationen, ställt fr˚agor till LLVMs maillista och g˚att igenom källkoden. Jag försökte själv göra en egen implementation av registerpar i LLVM, men detta ins˚ag jag snart att jag inte skulle hinna med, s˚a det ströks.

1.3 Uppl¨ agg

Jag har i min redog¨orelse valt att ta upp f¨oljande aspekter:

• Principerna bakom PBQP.

• Användning av PBQP för att lösa problem med registeralias.

• Användning av PBQP för att lösa problem med registerpar.

• Kort genomg˚ang av en l¨osningsalgoritm f¨or PBQP.

(7)

• Utv¨ardering av en praktisk till¨ampning i en kompilator baserad p˚a LLVM.

Vi har nu g˚att igenom en kort introduktion till ämnet. Nedan följer lite bakgrundsinformation som läsaren bör känna till. I kapitel 2 g˚ar vi igenom PBQP i teorin medan kapitel 3 fokuserar p˚a den praktiska tillämpningen i LLVM. I kapitel 4 görs en summering och resultaten presenteras.

1.4 F¨ orkortnings f¨ orteckning

• ALU

Arithmetic Logic Unit.

En enhet som utf¨or logiska aritmetiska operationer. T.ex. AND, OR eller addition och subtraktion.

• DSP

Digital Signal Processor.

En typ av processorer speciellt designade f¨or signalbehandlingsapp- likationer.

• FIR

Finite Impulse Response.

En typ av filter teknik som är ett vanligt användningsomr˚ade för DSPer.

• GCC

GNU Compiler Collection.

En samling av kompilatorer och bibliotek f¨or olika programmeringsspr˚ak.

• LLVM

Low Level Virtual Machine.

Ett open-source kompilatorramverk, men st¨od f¨or m˚anga moderna funktioner, t.ex. JIT-kompilering. [12]

• MAC

Multiply-Accumulate.

En teknik f¨or att r¨akna ut ut summan av produkter.

• PBQP

Partitioned Boolean Quadratic Problem (Programming). En register- allokeringsalgoritm.

• SVN Subversion.

Ett versionshanteringssystem f¨or k¨allkod.

(8)

• HRA

Heterogeneous Register Architecture.

Heterogena registerarkitekturer ¨ar arkitekturer med m˚anga sm˚a snabba register med specifika anv¨andningsomr˚aden.

• VLIW

Very Long Instruction Word.

En typ av arkitekturer där man använder extra l˚anga instruktioner vilket gör att man kan utföra flera operationer p˚a samma klockslag.

[3, s. 710] VLIW används istället för schemaläggning av parallella instruktioner i h˚ardvaran, vilket görs p˚a de flesta generella processorer.

P˚a VLIW arkitekturer görs istället schemaläggning i mjukvaran, d˚a vanligen i kompilatorn.

1.5 Introduktion till DSPer

DSPer anv¨ands i huvudsak till att applicera matematiska algoritmer p˚a digital signaler, bla. i sk. realtidssystem d¨ar det finns strikta tidskrav. [10][s.393- 394]

Moderna DPSer görs i dag med allt fler funktioner hämtade fr˚an vanliga generella processorer. DSPer brukade förr i tiden programmeras manuellt med assembler, men idag stöds görs detta allt mer med hjälp av högniv˚aspr˚ak.

[10][s.393]

Detta stället först˚as nya krav p˚a kompilatorer för dessa högniv˚aspr˚ak att generera bra maskinkod för DSPer.

N˚agra exempel p˚a egenskaper hos DSPer som f¨orsv˚arar kompileringen ¨ar:

• Ej ortogonal instruktionsupps¨attning.

• Heterogen registerarkitektur (HRA).

• Mjukvarubaserad parallellisering (VLIW).

• Specialiserade instruktioner.

• Specialiserade adresserings moder och dedikerade adressgenereringsen- heter.

Att en instruktionsuppsättning inte är ortogonal betyder att man inte kan adressera alla typer av data fr˚an alla instruktioner. Detta är vanligt p˚a DSPer, men existerar även p˚a andra processorer. Icke ortogonalitet skapar begränsningar vid registerallokering [5, s.203].

Heterogena registerarkitekturer g¨or kompileringen mer komplex d˚a HRA skapar ett starkt beroende mellan valet av instruktioner och vilka register

(9)

som kan anv¨andas. [2, s. 149]

P˚a VLIW arkitekturer görs schemaläggning av instruktioner oftast p˚a förhand i kompilatorn. Detta gör h˚ardvaran enklare och mindre men kompilatorns jobb mer betungande.

Specialiserade instruktioner kan vara instruktioner för specifika ändam˚al. P˚a m˚anga DSPer har man t.ex. en uppsättning snabba multiplikationsinstruk- tioner, sk. multiply-accumulate (MAC) instruktioner. Dessa kan snabba upp tillämpningar som t.ex. FIR filtrering [10][s. 394].

Man har ¨aven specifika instruktioner f¨or att snabba upp loopar.[10][s. 394].

P˚a vanliga processorer görs ofta loopar med vanliga branch instruktioner som m˚aste utvärderas en g˚ang per iteration. Man använder tekniker som branch prediction för att snabba upp dessa loopar. P˚a m˚anga DSPer har man i stället special instruktioner som repeterar ett kod block ett givet antal g˚anger.

Specialiserade adresserings moder och dedikerade adress genererings enheter

¨

ar ocks˚a vanligt. T.ex. görs adress aritmetik för vissa data paths i separata ALUer.[10][s. 394-395]. En s˚adan ALU syns ofta som ett vanligt register sett ur programmeringssynpunkt. Man kan även tänkas ha instruktioner för specifika tillämpningar som involverar dessa ALUer. Vi kommer senare i rapporten att ta ett exempel p˚a ett problem som involverar adressregister och modifikationsregister.

Sammanlagt är detta n˚agra exempel p˚a saker som gör DSPer till komplicer- ade arkitekturer att kompilera effektiv kod för. För registerallokeringens del resulterar detta b.la. i att man f˚ar alias och par relationer i en större ut- sträckning än vad som är vanligt p˚a generella processorer.

Alias och par beskrivs n¨armare senare i detta kapitel.

1.6 N˚ agra facktermer inom kompilatorteknik

• Virtuellt register

I kodgenereringsfasen i en kompilator l˚atsas man ofta att man har oändligt m˚anga register att tillg˚a. Man använder d˚a s˚a kallade virtuella register vilka är temporära p˚ahittade namn för att referera till register. Vid registerallokeringen byts dessa sedan ut mot riktiga fysiska register.

• Live-range

Live-range eller livsl¨angd, ¨ar den period d˚a data i ett virtuellt register

¨

ar aktuellt och anv¨ands. Under denna tid ¨ar det bra om data som det

(10)

inneh˚aller kan placeras i ett riktigt register. Efter att livslängden är slut är det fritt att skriva över registrets inneh˚all.

• Live-in och Live-out

Man brukar säga att virtuella register som redan är definierade vid starten p˚a ett kodblock är live-in för det blocket. De som m˚aste vara definierade vid slutet av kodblocket är live-out.

• Interferens

När det finns en konflikt mellan tv˚a virtuella register brukar man säga att de interfererar med varandra. En s˚adan konflikt beror vanligen p˚a att de är live samtidigt och inte kan allokeras till samma register.

[8][s. 219] Det finns dock andra typer av interferens, t.ex. beroende p˚a registerpar som n¨amns senare i kapitlet. Man brukar st¨alla upp sk.

interferensgrafer f¨or att kunna visualisera detta. D¨ar representeras de virtuella registren med noder, och b˚agarna indikerar olika typer av interferens.

• Coalescing

Coalescing eller sammanslagning, är när man sl˚ar ihop flera livslängder till en. Detta görs vid kopieringsinstruktioner där de tv˚a livslängderna inte interfererar med varandra. Att sl˚a ihop livslängder kan vara fördelaktigt d˚a det minskar antalet livslängder som allokeraren behöver behandla, och det eliminerar kopieringsinstruktionen [7][s. 5].

• Precolored registers

Precolored registers är speciella register som inte f˚ar ändas av regis- terallokeraren, de är allokerade i förväg.

• Spilling

Om inte alla virtuellregister som interfererar f˚ar plats i riktiga register blir man tvungen att spilla. Kompilatorn lägger d˚a till spillkod som sparar ut data till minnet s˚a att fler register blir lediga. Den här datan m˚aste sedan laddas in igen innan den kan användas.

• Colorability

Colorability eller färgbarhet är en term fr˚an grafallokeringen. Om en nod är färgbar kan man garantera att det virtuella register som noden representerar kommer att kunna bli allokerad ett fysiskt register. Om den inte är färgbar, betyder det att man blir tvungen att spilla den.

1.7 Kompilatorstruktur

En modern kompilator best˚ar normalt av ett ¨ovre lager, sk. front-end och ett undre lager. sk. back-end. I front-end analyserar man sj¨alva koden och

(11)

IR

Lexikalisk analys

Syntaxanalys

Intermediär kodgenerator

Maksinkodsoberoende kodoptimerare

Frontend

Kodgenerator

Maskinberoende kodoptimerare

Backend

Val av instruktioner Regsiterallokering och tilldelning

Omordning av instruktioner

Figur 1.1: Strukturen p˚a en vanlig kompilator, h¨arledd fr˚an beskrivningarna i booken Compilers: Principles, Techniques, and Tools. [3, s.5, 505-506]

genererar en intermediär representation (IR) av koden, samt en symbolta- bell. Front-end tar hand om att tolka det spr˚ak som kompilatorn skall kompilera. IR skickas sedan till back-end, där kod genereras för en viss arkitektur eller sk. target baserat p˚a informationen i IR. Vissa kompilatorer gör även maskinberoende optimeringar p˚a IR mellan front-end och back-end.[3, s.5]

Detta är en modulär struktur som gör att det finns möjlighet att använda olika back-ends med samma front-end och tvärt om. Med en tillräckligt väldefinerad intermediär representation, kan en kompilator för spr˚aket i och arkitekturen j byggas genom att kombinera front-end för spr˚aket i med back- end för spr˚aket j. Detta tillvägag˚angsätt för att bygga kompilatorer kan spara mycket tid, m × n kompilatorer kan byggas genom att skriva endast m front-ends och n back-ends. [3, s. 357]

Registerallokering g¨ors som en del av kodgenereringen i back-end. Se figur 1.1

1.8 Registeralias och registerpar

N˚agra av de egenheter som man stöter p˚a i reguljära arkitekturer är s˚a kallade registeralias och registerpar.

Tv˚a register kallas alias om dom har olika namn, men delar hela eller en del av samma fysiska register. [2][s. 152] Ett exempel kan vara ett 64 bitar l˚angt ackumulator register a0, d¨ar tv˚a alias a0h och a0l refererar till de

¨

ovre respektive lägre 32 bitarna. Om ett virtuellt register allokeras till a0h, blockeras ocks˚a a0 i det här fallet. Är a0 upptaget kan man inte använda

(12)

a0h eller a0l.

Registerpar är lite kr˚angligare än alias. Registerpar kommer fr˚an begränsningar i h˚ardvaran som resulterar i att man med vissa instruktioner m˚aste använda kombinationer av register. Definitionerna av vad registerpar är g˚ar isär n˚agot, och i m˚anga fall finns det dessvärre olika definitioner av begreppen beropende p˚a kontext. I boken Compilers: Principles, Techniques, and Tools beskrivs registerpar som par av jämna och udda register.[3][s. 510].

Vi skall dock inte anv¨anda den definitionen h¨ar.

Briggs et al. nämner registerpar i artiklen Coloring Register Pairs. Han definerar tv˚a typer, sk. ”adjacent pairs”, närliggande par och ”unconstrained pairs”, obegränsade par. [7][s. 7]

P˚a vissa DSPer används i vissa instruktioner sk. modifikationsregister (m- register) för att räkna upp adressregister (r-register) i loopar. D˚a kan t.ex de första tre adress registren vara mappade mot modifikations register m0, de nästa tre mot m1 osv. Vid allokeringen m˚aste man allts˚a tänka p˚a att man väljer rätt m register beroende p˚a val av r register. Detta är de en enligt Briggs definition, en form av obegränsade par.

Den typ av par som beskrivs i ovanst˚aende exempel ¨ar det som vi kommer att syfta p˚a n¨ar vi talar om registerpar i resten av rapporten.

(13)

2. PBQP i teorin

Vi g˚ar här igenom den teoretiska beskrivningen av PBQP, samt dess lösnings- algoritm. Detta är en kortfattad beskrivning. En mer utförlig beskrivning kan hittas i Scholz och Ecksteins artikel [1].

2.1 Matematisk beskrivning

PBQP ¨ar egentligen ett en specialiserad typ av Quadratic Assignment Prob- lem vilket ¨ar en typ av optimeringsproblem [1, s. 143].

En av grundprinciperna i PBQP ¨ar att man kan uttrycka valet av register som en boolsk ekvation av n variabler. I v˚ar registerallokerare kan vi l˚ata en av dessa boolska variabler representera att vi spiller ett virtuellt register, en annan att vi l¨agger den i register r1 etc. Vi f˚ar ett problem som liknar det nedanst˚aende:

xsp+ xr1+ xr2+ ... + xrn= 1 (2.1) Där xsp ∈ {0, 1} st˚ar för händelsen att man väljer att spilla det virtuella registret x_r_n ∈ {0, 1} st˚ar för att vi i stället lägger det virtuella registret i register n.

Eftersom vi bara kan välja ett alternativ s˚a m˚aste högerledet vara 1 i det här fallet.

För att kunna göra bra val och modellera begränsningar i detta problem införde Scholz och Eckstein även kostnader för alla register och en kostnadsmatris för registerkombinationer. Med denna modell kan man bla. förhindra att samma register allokeras till tv˚a virtuella register som interfererar. Detta problem kom att kallas för Partitioned Boolean Quadratic Problem.

(14)

Det kan beskrivas som f¨oljande:

min f =



 X

1≤i≤j≤n

~

x_i· C_ij · ~x^T_j



+



 X

1≤i≤n

~c_i· ~x^T_i



 (2.2)

F ör vilket det gäller att : ∀i ∈ 1...n : ~x_i· ~1^T = 1, där n är antalet virtuella register.

I ovanst˚aende uttryck beskriver den första summan av alla kostnader för registerpar, medan den andra beskriver summan av alla kostnader för de enskilda registena. Vi skriver min f eftersom m˚alet är att minimera total- kostnadsfunktionen f.

~

xn ¨ar en vektor av boolska variabler d¨ar varje rad representerar ett val.

Ex:





 xsp

xr0

x_r1







H¨ar l˚ater vi x_sp ∈ {0, 1} representera valet att spilla det virtuella registret och x_rn∈ {0, 1} att i st¨allet stoppa det i register n.

~cnär en kostnadsvektor. Kostnaden för ett vanligt register är ofta 0, medan spillning kan kosta 10 till exempel. Vilka faktiska kostnader man skall använda

¨

ar upp till den enskilda implementationen.

C ¨ar en en kostnadsmatris som beskriver kostnaden f¨or en viss kombination av val.

Den kan t.ex. se ut p˚a f¨oljande s¨att:







0 0 0

0 ∞ 0

0 0 ∞







Här används ∞ i diagonalen för att blockera omöjliga kombinationer där samma register skulle användas till tv˚a register. Man kan även lägga in andra kostnader, t.ex. kostnaden -b för valet att sl˚a ihop tv˚a virtuella register som

är relaterade med en move instruktion. Notera nollan uppe i vänstra hörnet;

naturligtvis g˚ar det alltid att v¨alja att spillning f¨or b˚ada virtuella registren.

Detta gör att det alltid finns en lösning, om än d˚alig s˚adan, p˚a problem av den här typen.

2.2 Exempel vid registerallokering

Följande exempel är inspirerade av Lang Hames föredrag om framtida arbete kring registerallokering i LLVM ramverket [6].

(15)

Figur 2.1: Ett enkelt exempel

De tv˚a staplarna i figur 2.1 representerar kostnadsvektorer f¨or tv˚a virtuella register som interfererar med varandra. Dessa kan placeras antingen i register r0, r1 eller spillas p˚a stacken (sp). Rad och kolumn i kostnads matrisen v¨aljs efter index i kostnadsvektorerna (se ekv. 2.2). Vi l˚ater spilling kosta 10, men allokering till register vara gratis.

Ett möjligt val är att välja att spilla den ena. Detta val f˚ar i s˚a fall kostnaden 10 som i figur 2.2.

Figur 2.2: En d˚alig lösning d˚a kostnaden blir onödigt hög.

Om vi försöker placera de b˚ada virtuella registren i samma reella register som visas i figur 2.3 f˚ar vi en oändlig kostnad. Detta alternativ är allts˚a förbjudet.

Figur 2.3: En f¨orbjuden l¨osning.

Ett bättre alternativ som visas i figur 2.4 är att lägga dem i varsitt register;

vi f˚ar d˚a kostnaden 0. Det här tycks allts˚a vara det bästa valet i det här enkla fallet.

M˚alet för registerallokeringsalgoritmer baserade p˚a PBQP är att finna dessa bra kombinationer. Detta är trivialt i det enkla fallet, men i en interferensgraf med m˚anga noder blir antalet val snabbt stort d˚a valet för en nod p˚averkar möjligheterna för de andra.

(16)

0 0 0

∞

0 10

0 0

0 10

0 + + =

∞

⁰

0 0

0

0 0 0

Figur 2.4: En bra l¨osning.

2.2.1 Ett mer avancerat exempel

I figur 2.5 visas ett exempel p˚a hur man ställer upp ett PBQP problem i en graf. I det här fallet är problemet att allokera de viruella registren v1, v2 och v3 till de fysiska registren r0, r1. Att spillkostanden varierar är realistiskt d˚a det kan vara olika d˚aligt att spilla olika register. Vi vill t.ex. inte gärna spilla ett register som används för indexering i en loop. Detta är enkelt fixat i teorin genom att bara ge den en hög kostnad.

Figur 2.5: Ett exempel p˚a hur det hela st¨alls upp i en graf.

En möjlig lösning visas i figur 2.6. Här väljs register r1 till v1, r0 till v3 och splling för v2 d˚a v2 har den lägsta spillkostanden.

2.2.2 Hur man modellerar alias och par

Under f¨oljer n˚agra exempel p˚a hur man kan modellera registerpar och alias begr¨ansningar i PBQP.

(17)

v2

0 0

0 0 0

0 0 0 0 0

0 0

0 ∞

∞

0 0 0 0 0

∞

En lösning [3, 1 ,2]:

6

0 0 0

v1 v3

7 10 0 0 0

Nod kostnader: 0+6+0 = 6 Båg kostnader: 0+0+0 = 0 Totalkostnad: 6

0

Figur 2.6: En möjlig lösning. Problemet är att hitta den mest optimala lösningen. I det här fallet var det enkelt, men s˚a lätt är inte alltid.

L˚at säga att vi har tv˚a virtuella register. Den ena kan läggas i ackumulator registret a0, och den andra i de kortare a0h eller a0l vilka är den höga respektive l˚aga delen av a0. Vi skulle d˚a f˚a en kostnadsmatris enligt figur 2.7. Sp st˚ar för alternativet att spilla ett virtuellt register.

Figur 2.7: Ett exemepel p˚a en kostnadsmatris f¨or alias i ett ackumulator register. Det g˚ar inte att v¨alja a0 i kombination med a0l eller a0h eftersom dom tar upp samma fysiska plats.

I figur 2.8 visas ett exempel av kostnadsmatris för x86 arkitekturen där ett virtuellt register kan placeras antingen i AX eller BX och det andra i AH, AL, BL eller CL. Exemplet är taget fr˚an rapporten Nearly Optimal Register Allocation with PBQP [4, s. 5].

Par g˚ar ocks˚a ganska enkelt att modellera med kostnadsmatriser. Exem- plet fr˚an kapitel 1 rör adressregister (r) och modifikationsregister (m). I det här fallet kunde man för vissa instruktioner endast välja n˚agot m-register beroende p˚a val av r-register. De övriga registren som inte valts är lediga.

L˚at säga att vi har följande mappning för detta beroende:

(18)

Figur 2.8: Ett exemepel p˚a en kostnadsmatris f¨or alias p˚a x86 arkitekturen.

m1 -> {r0,r1,r2,r3}

m2 -> {r4,r5,r6,r7}

m3 -> {r8,r9,r10,r11}

m4 -> {r12,r13,r14,r15}

Detta betyder att adressregistren r0,r1,r2 och r3 endast kan endast anv¨andas tillsammans med modifikationsregister m1, i den h¨ar typen av instruktion.

Samma sak gäller för de övriga paren.

Vi f˚ar d˚a en matris enligt figur 2.9.

Figur 2.9: Ett exemepel p˚a en kostnadsmatris f¨or par av adress och modifikations register

Som vi ser s˚a kan b˚ade alias och par problem beskrivas med l¨atthet. Nu

är inte saken klar bara för att vi vet vilken matris vi skall använda. Innan man kan lösa ett PBQP problem med en generell lösningsalgoritm s˚a m˚aste man först konstruera grafen. För det hela skall fungera som vi vill s˚a m˚aste vi sätta in kostnadsmatrisen p˚a rätt ställen. För ovanst˚aende regler gäller nämligen inte generellt när vi har ett r-register och m-register som är live samtidigt, utan endast när de skall användas tillsammans i vissa instruktioner. Vi kommer till detta i kap. 3 där vi diskuterar en praktisk implementation av PBQP. Men först skall vi titta p˚a den teoretiska beskrivningen av lösnings algoritmen.

(19)

2.3 En l¨ osningsalgoritm

Scholz och Eckstein föresl˚ar även en lösningsalgoritm för PBQP problemet i artikeln Register Allocation for Irregular Architectures [1]. Denna algoritm bygger p˚a dynamisk programmering. Dynamisk programmering beskrivs i boken Algorithms som ett kraftfullt algoritmiskt verktyg i vilket ett problem löses genom att identifiera en uppsättning subproblem som tacklas ett i taget. De minsta behandlas först, och svaren används sedan för att klura ut de större problemen tills dess att alla är lösta [9].

Eftersom problemet är NP-komplett finns det ingen lösning i polynomisk tid, s˚a därför bygger lösningen delvis p˚a heuristik. Detta betyder att lösningen vi hittar inte är optimal, men kan anses ”tillräckligt bra”. En del av lösningen som presenterades i den ursprungliga beskrivningen av algoritmen [1] p˚avisades i en senare artikel av av Hames och Scholz prestera d˚aligt i en testbänk baserad p˚a SPEC2000 [4][s. 6]. I den nya artikeln, Nearly Optimal Register Allocation with PBQP beskrivs en ny heuristik som enligt författarna producerar allokeringar av tidigare orepresenterad kvalitet p˚a rimlig tid [4][s.

3]. Denna teknik kallas Branch-and-Bound, och diskuteras kort nedan.

Notera: För en mer utförliga och korrekta matematiska beskrivningar hänvisas läsaren till de ursprungliga rapporterna.

Algoritmen har f¨oljande fyra reduktionsregler; en nods ”grad” best¨ams av hur m˚anga grannar den har:

• R0 - K¨ors f¨or noder av grad noll.

Detta ¨ar en trivial regel som endast pushar noderna p˚a reduktion- sstacken. Den utel¨amnades i beskrivningen av den ursprungliga algoritmen, men kan ˚aterfinnas i Nearly Optimal Register Allocation with PBQP .

• RI - Körs för noder av första graden.

Man räknar här ut en delta-vektor vilken adderas till kostnaden för den intilliggande noden. Denna delta-vektor representerar den minsta kostnaden för noden x beroende p˚a val av y.

• RII - K¨ors f¨or noder av andra graden.

P˚a liknande sätt som i RI räknas i stället en delta-matris ut. Denna adderas till kostnadsmatrisen för b˚agen mellan de b˚ada grannoderna.

Om det ej finns en b˚age mellan dessa l¨aggs en s˚adan till och delta- matrisen blir d˚a kostnadsmatrisen f¨or denna b˚age. .

• RN - Körs för noder av högre grad än tv˚a.

De noder som behandlas här riskerar att spillas. I den ursprungliga lösningen testades här alla möjliga kombinationer i jakten p˚a en

(20)

färgbar nod. Man har i senare framställningar presenterat en bättre algoritm för att avgöra en nods färgbarhet.

Om ingen färgbar nod hittas väljs en nod för spilling enligt Briggs spillheuristik. Man väljer d˚a den nod med den lägsta spillkostnaden i förh˚allande till grad.

Efter varje regel pushas den valda noden p˚a stacken.

M˚alet med reduktionerna är att förenkla problemet tills lösningen blir trivial, dvs. d˚a alla kvarvarande noder i grafen har grad noll [1][s.144].

Algoritmen best˚ar av f¨oljande grundl¨aggande steg:

1. Konstruera en viktad PBQP graf med kostnadsmatriser enligt kap. 2 2. Reducera grafen enligt reduktions reglerna R0, RI, RII och RN. L¨agg

reducerade noder p˚a en stack.

3. Poppa stacken och propagera l¨osningen genom de eliminerade noderna.

I detta steg väljs en lösning för varje nod, och ”sp” (spilling) för de noder som skall spillas.

4. Baserat p˚a löningen, tilldela faktiska register till noderna. Generera spill kod. Om noder spillts m˚aste algoritmen köras igen d˚a detta skapar nya livslänger som m˚aste tas hänsyn till.

2.3.1 F¨argbarhet

En nod u anses normalt som färgbar om nodens grad är lägre än antalet lediga register k, vilket ofta skrivs som grad(u) < k. Detta kriterium är dock felaktigt för irreguljära arkitekturer eftersom en granne till u kan blockera mer än ett registerval; detta pga. aliasing. Hames och Scholzs nya färgbarhetsalgoritm definerar därför en nod som färgbar om följande gäller:

1. Det högsta antalet färger som kan blockeras av u genom färgläggning av u;s grannar är mindre än det totala antalet färger tillgängliga för u.

2. Det finns minst en färg vilken är ett till˚atet val för u, men inte för n˚agon av u;s grannar.

2.3.2 Branch-and-Bound

Enligt Hames och Scholz producerar algoritmen garanterat en optimal l¨osning om RN regeln inte anv¨ands [4]. Den alternativa tekniken Branch-and-Bound

(21)

ändrar i praktiken endast p˚a heuristiken för RN regeln, men de övriga reglerna beh˚alls intakta d˚a de redan är optimala. I Branch-and-Bound definieras ett sökträd av problem. För R0, RI, RII blir sökträden triviala med endast en rot-nod, men för RN f˚ar man ett antal subproblem som m˚aste lösas.

(22)

3. Praktisk till¨ ampning i LLVM

3.1 Om LLVM

LLVM är ett open source kompilatorramverk som ineh˚aller en samling av modulära ˚ateranvändbara verktygsteknologier (sk. toolchain technologies).

Det hela började som ett forskningsprojekt vid University of Illinois, men har sedan dess vuxit enormt och används i dag av Apple mfl. företag. [11]

LLVM stödjer i nuläget C/C++ i frontend och en rad olika arkitekturer i backend, bland annat ARM och MIPS. Man har även stöd för just in time kompilering (JIT), Garbage Collection mm. [12]

Själva ramverket är ocks˚a i huvudsak skrivet i C++. För targetbeskrivningar använder dock LLVM sin egen makrokod. Denna makrokod översätts sedan till C++ kod av en makroprocessor vid namn tablegen. Targetbeskrivnin- gen beskriver de register, beroenden och instruktioner som finns p˚a en viss arkitektur.

3.2 Upps¨ attningen

Den första utmaningen i den praktiska implementationen var att sätta upp och bygga LLVM. I uppsättningen användes LLVM med frontend clang. Att bygga LLVM visade sig inte vara helt trivialt d˚a LLVM är ett stort projekt.

Aldre versioner av GCC verkar f˚¨ ar problem och p˚ast˚ar att det finns fel i koden.

En lista p˚a GCC versioner som inte fungerar kan hittas p˚a: http://llvm.

org/docs/GettingStarted.html#brokengcc

Det tar tid att kompilera och länka alla program i LLVM. När man väl har kompilerat en g˚ang kan man använda verktyget makellvm för att bara

(23)

kompilera ¨andringarna i den nuvarande mappen och bara l¨anka ett program.

makellvm kan hittas under llvm/utils Ex:

llvm/lib/CodeGen$ ../../utils/makellvm llc

En fullständig guide för att sätta upp LLVM och clang kan hittas p˚a http:

//clang.llvm.org/get_started.html man kan¨aven vilja fundera p˚a vilka flaggor man skickar till configure beroende p˚a om man vill ha t.ex. debugsymboler eller ej. Debugsymboler ¨ar p˚aslagna som standard i SVN versionen.

3.3 Kodbasen

LLVM best˚ar av en rad olika delar. De moduler som är intressanta för registerallokeringen är framför allt den kod som skapar grafen till PBQP algoritmen, vilken ligger i modulen lib/CodeGen/RegAllocPBQP.cpp. Själva lösningsalgoritmen ligger i form av headerfiler under sökvägen

include/llvm/CodeGen/PBQP.

3.4 Skillnaden mellan PBQP och klassisk grafal- lokering

Den huvudsakliga skillnaden mellan PBQP och klassisk grafallokering är först˚as den viktade grafen. Klassisk grafallokering har ingen viktad graf utan man tittar endast p˚a spillkostnader. I de den praktiska implementationen i LLVM arbetar PBQP iterativt precis som grafallokering. Man gör en allokering, och om man blir tvungen att spilla läggs spillkod till. Sedan körs algoritmen igen med den nya koden.

De vanliga stegen i grafallokering beskrivs kortfattat nedan. Beskrivningen

¨ar h¨amtad fr˚an boken Modern Compiler Implementation in Java [8][s. 223- 224].

• Build

Konstruera interferensgrafen, kategorisera noder som antingen move- relaterade eller icke move-relaterade. Att en nod är move-relaterad betyder att den antingen används som källa eller destination i en move instruktion.

• Simplify

Ta bort en nod i taget med grad mindre ¨an k fr˚an grafen och pusha den p˚a stacken. K ¨ar antalet lediga register.

(24)

• Coalesce

Konservativ hopslagning av noder i den nuvarande grafen. Noder som efter detta steg inte längre är relaterade till en move görs tillgängliga för nästa körning av Simplify. Simplify och Coalesce upprepas tills endast noder av signifikant grad ˚aterst˚ar (grad ≥ k).

• Freeze

Om varken Simplify eller Coalesce kan appliceras letar vi upp en move- relaterad nod av l˚ag grad. Vi fryser de moves vilken den h¨ar noden

är involverad i. Detta betyder att noden inte längre kan klassas som move-relaterad, och därmed kan ytterligare förenkling med Simplify möjliggöras.

• Spill

Om det inte finns n˚agra noder med l˚ag grad väljer vi en nod av signifikant grad (grad ≤ k) för potentiell spilling. Detta görs med en spill heuristik, t.ex. Briggs. Noden markeras sedan och pushas sedan p˚a stacken.

• Select

Slutfasen, poppa stacken och dela ut f¨arger.

Om inte Select lyckas hitta färger till alla noder m˚aste vi nu introducera riktiga spills. Det görs genom att programmet skrivs om och de spillda noderna läggs ut i minnet, varifr˚an de sedan laddas in när de behövs. I det här steget skapas nya noder med korta livslängder. Hela algoritmen körs därför om fr˚an början igen.

PBQP fungerar p˚a ett liknande sätt. Coalescing mm. görs före reduktionerna, allts˚a i den fas där man konstruerar själva grafen. Denna funktion kallas build i LLVM. Därefter körs lösningsalgoritmen en g˚ang, och man reducer- ar enligt reduktionsreglerna R0, RI, RII och RN. Här görs ocks˚a PBQP;s motsvarighet till select, dvs. man poppar stacken och väljer en lösning för varje nod. Med lösningen klar g˚ar man sedan vidare till att försöka tilldela noderna riktiga register i en funktion som i LLVM kallas mapPBQPToRe- gAlloc. Om man här inser att man behöver spilla läggs spillintervall till. Där efter körs hela algoritmen, inklusive konstruktionen av grafen med build, igen.

Sj¨alva l¨osningsalgoritmen i LLVM ligger ocks˚a separat i en funktion vid namn solve.

Anropet fr˚an build ser ut som f¨oljande:

PBQP::HeuristicSolver<PBQP::Heuristics::Briggs>::solve(

problem->getGraph());

Detta är tänkt att ge läsaren en ide om hur det hela är uppdelat.

(25)

3.5 Den nuvarande implementationen

Notis: Pseudokod för viktigaste metoderna i den nuvarande källkoden kan ses i appendix för detta kapitel.

När jag började projektet tittade jag igenom en del material, bland annat Future Works in LLVM Register Allocation [6]. Där nämns en del planerad funktionalitet för PBQP, bland annat registerpairing. Detta kunde jag dock inte hitta när jag gick genom igenom den senaste versionen av källkoden.

Jag skickade ett mail om detta till LLVMs mail-lista och fick svar fr˚an Lang Hames, en av författarna till Nearly Optimal Register Allocation with PBQP [4]. Lang är ocks˚a utvecklare den PBQP lösare som finns i LLVM i dag. I sitt mail bekräftade Lang att LLVM saknar stöd för att modellera registerpar,

˚atminstone för par av typen r och m register. Det som finns i LLVM implementationen i dagsläget tycks vara stöd för alias och coalescing, vilket gör algoritmen ungefär lika kompetent som n˚agon annan algoritm, om möjligen l˚angsammare.

Dock förändras koden ständigt. I mitt arbete under tiden slutet av april till början av maj jobbade jag p˚a version 2.8, när jag sedan gick över till 2.9 upptäckte jag att man gjort avsevärda omstruktureringar av koden i RegAllocPBQP.cpp. Man hade t.ex. haft den goda smaken att bryta ut ma- triskoden till en egen klass Matrix, samt gjort ett försök att förbättra den objektorienterade strukturen genom att lägga coalescing koden i en egen subklass klass vid namn PBQPBuilderWithCoalescing.

Man har större möjligheter att modellera kostnader i PBQP jämfört med vanlig grafallokering. Dock är är fr˚agan av hur mycket man f˚ar ut av detta i den nuvarande implementationen. Det finns mycket som fortfarande inte är klart, t.ex. hittades följande i PBQPBuilderWithCoalescing:

const float copyFactor = 0.5; // Cost of copy relative to load.

// Current value plucked randomly out of the air.

Det är egentligen det här som hela PBQP implementationen lider av. Det finns inget stöd högre upp i target specifikationen för att ange värden p˚a alla de parametrar som p˚averkar prestandan av PBQP implementationen.

˚Atminstone inte ¨annu.

3.6 M¨ ojligheter att implementera st¨ od f¨ or regis- terpar

Ur ljuset av det ovanst˚aende ser jag tv˚a m¨ojligheter:

(26)

• Ett mer omfattande arbete

Man kan välja att göra ett mer omfattande arbete där man tillsammans med LLVM teamet bygger till den funktionalitet som behövs för att kunna utnyttja PBQPs fulla potential. Detta skulle i s˚a fall involvera b˚ade en del ändringar i RegAllocPBQP.cpp, men även i t.ex.

makroprocessorn tablegen.

• Eget hack

Ta den nuvarande koden i RegAllocPBQP.cpp och göra en egen version, specifik för en viss target och tillämpning. Man skulle d˚a främst kunna fokusera p˚a att skriva en egen PBQPBuilder subklass för att konstruera PBQP grafen.

Problemet med det senare är först˚as att f˚a det att fungera med framtida releaser. Som jag tidigare nämnt s˚a förändrades koden avsevärt bara under den korta tid jag jobbade med detta. Det som ocks˚a talar för det första alternativet är att LLVM teamet redan planerat för att implementera fullt stöd för pairing.

N˚agra saker som man bör tänka p˚a om man väljer att implementera sin egen parlösning är:

• N¨ar man skall s¨atta in kostnadsmatriser

I enighet med det som nämndes i exemplet för pairing av m och r register skall man endast stoppa in kostnadsmatriser vid instruktioner där begränsningarna gäller. Att ett t.ex. m register och r register är live samtidigt är inte tillräckligt.

Därmed kanske man skall välja att iterera över instruktioner. I varje iteration hämtar man de virtuella register som används. Om en förbjuden kombination hittas letar man upp noderna i grafen och upp- daterar kostnadsmatrisen. Man kan använda en likande loop som den i PBQPBuilderWithCoalescing vilken itererar över funktioner block och instruktioner.

• Coalescing

Just nu ligger coalescing koden i sin egen klass PBQPBuilderWithCoa- lescing och har en egen funktion PBQPBuilderWithCoalescing::build(...).

Denna funktion kallar sedan p˚a superklassens funktion PBQPBuilder- :build(...). Det kan vara värt att dubbelkolla att den nuvarande koden kommer att fungera tillsammans med de nya förändringarna man gör i sin egen build funktion. Man kan eventuellt bli tvungen att göra

¨

andringar ¨aven h¨ar.

(27)

N˚agonting annat som kan vara bra att ha när man utvecklar det här är en möjlighet att skriva ut en grafisk representation av PBQP grafen s˚a att man kan verifiera att det man gör är rätt. En funktion som gör detta heter printDot som ligger i include/llvm/CodeGen/PBQP/Graph.h. Den använder dock LLVMs egen utmatningsström, raw ostream.

3.7 Utveckling och underh˚ all

Det kan vara rimligt att uppskatta att storleken p˚a den nya funktionaliteten till storleken av den nuvarande PBQPBuilderWithCoalescing klassen med alla metoder. Om man räknar ihop allt samman blir det totalt ca 130 rader kod. Det är inte s˚a mycket, men det kan dock bli mer om man vill implementera register pairing för flera fall eller om man vill göra en generell lösning med stöd i tablegen. Det är inte heller helt lätt att skriva den här koden om man inte har full koll p˚a de olika objekt och datastrukturer som används i kodgenereringslagret. En gissning p˚a hur l˚ang tid det skulle kunna ta att f˚a till en färdig testad lösning ligger mellan 2 veckor till 3 m˚anader, beroende p˚a hur bra koll man har p˚a LLVM.

I en egen lösning vill man förmodligen ocks˚a föra in nya förändringar som görs i RegAllocPBQP.cpp över tiden . Man m˚aste d˚a även se till att h˚alla sig kompatibel mot de förändringar som görs i resten av LLVM. LLVM kör SVN för versionshantering, men det hjälper inte mycket eftersom att man

¨

and˚a kommer att f˚a konflikter mellan de förändringar man själv gjort och LLVM teamets förändringar när man försöker uppdatera källkoden. Som jag nämnt tidigare kan förändringarna vara ganska omfattande mellan olika versioner.

3.A Pseudokod

Nedan f¨oljer pseudokod f¨or n˚agra av de viktigaste metoderna i RegAllocPBQP.cpp.

Detta kan vara bra, kanske för att f˚a en hjälp att först˚a koden i LLVM.

Pseudokod för själva lösningsalgoritmen kan hittas i rapporten Register Al- location for Irregular Architectures av Scholz et al. [1].

(28)

/* This function contains the main allocation loop. */

runOnMachineFunction {

find vreg intervals in need of allocation;

if there are non-empty intervalls { while allocation not complete {

if coalescing is enabled {

problem := construct the PBQP problem

using the builder with coalescing;

} else {

problem := construct the PBQP problem

usingh the normal build function;

}

problem := build the PBQP problem with build();

solution := solve it using the PBQP solver;

map the solution back to the problem

using mapPBQPToRegAlloc(problem, solution);

check if the allocation is complete;

} } }

/* Build the pbqp problem. */

PBQPBuilder::build () {

pbqpProblem := new pbqp problem with a supposedly empty or initial PBQP graph;

graph := the graph from pbqpProblem;

for each live intervall {

mark all physical register as used;

}

for each virtual register {

compute an initial allowed set;

remove all physical register which overlap;

remove all aliases;

vector := compute a cost vector from the allowed set;

create a node with this cost vector;

add the node to the graph;

add spill costs for the node;

}

(29)

for each virtual register as v1 { live1 : = get live intervall for v1;

for each virtual register as v2 { live2 : = get live intervall for v2;

if live1 and live2 overlap { node1 := get the node in

the graph representing v1;

node2 := get the node in

the graph representing v2;

matrix := cost matrix for node1 and node2;

add an edge in the graph between

node1 and node2 and assign the interence matrix to the edge;

} } }

return pbqpProblem;

}

/* Build the pbqp problem and do coalescing. */

PBQPBuilderWithCoalescing::build () { /* We first construct the problem using

the normal build function.. */

pbqpProblem := PBQPBuilder::build();

/* ..then we do coalescing. */

for each machine basic block as block { for each machine isntruction as instr {

if the virtual registers in instr are not coalescable {

skipp this instruction and continue;

}

if the source and dest vreg are the same { /* Already coalesced */

skipp this instruction and continue;

}

compute coalesce benefit;

if this coalesce pair is physical { if the live interval of the dest vreg

is not allocatabe {

(30)

skipp and continue;

}

count the number of options availiable

based on the allowed set of the source vreg;

add phycial coalese;

update cost vector;

} else {

node1 := node for dest vreg;

node2 := node for source vreg;

edge := find edge in graph for node1 and node2;

if not found {

matrix := construct cost matrix from the allowed sets of dest vreg and source vreg;

edge := add an edge in the graph between node1 and node2 with the cost matrix;

} else {

if the first node conected by the edge is equal to node2 { swap node1 with node2;

swap the allowed sets of the nodes;

} }

Add a virtual register coalesce, with edge costs from the edge, the allowed sets for node1,

node2 and the coalesce bennefit;

} } } }

/* Map the solution back to the problem. */

RegAllocPBQP::mapPBQPToRegAlloc() { clear the previous allocation;

/* We’re going to do a new one right here. */

for each node in the graph { if a physical register has been

choosen for this node {

assign a physical register to this node;

} else if spilling has been choosen for this node { remove the old interval;

assign new spill intervals for this node;

(31)

add the new intervals to the PBQP graph;

} }

if new spills where added {

returnValue := we need another

round with the solver;

} else {

returnValue := allocation is complete;

}

return returnValue;

}

(32)

4. Resultat

4.1 Slutsatser

Jag har i den här är rapporten visat hur man i teorin kan modellera par och alias i en interferensgraf för användning med PBQP. Jag har ocks˚a g˚att igenom vad som i dagsläget finns implementerat i LLVM och gett förslag p˚a hur man skulle kunna g˚a till väga för att lägga till stöd för registerpar.

Det som slutligen kan konstateras ¨ar:

• PBQP ger m¨ojlighet att modellera m˚anga olika typer av begr¨ansningar, bland annat par och alias.

• Det praktiska problemet ligger i att konstruera PBQP grafen och sätta in rätt kostnadsmatris p˚a rätt ställe. När problemet väl är beskrivet kan det lösas enligt lösningsalgoritmen för PBQP, vilken beskrivs i sin helhet i [1].

• Stöd för registerpar saknas i dagsläget i PBQP implementationen i LLVM.

• En ev. implementation kan g¨oras antingen i egen regi eller som ett samarbete med LLVM teamet.

• För att kunna göra en generell löning som stödjer alla typer av be- gränsningar bör stöd för PBQP implementeras i LLVMs targetspeci- fikation.

• Storleken p˚a en minimal egen löning kan uppskattas till ca 130 rader, men kan komma att bli mycket större och avancerad för att täcka alla olika typer av parrelationer.

• Vid en eventuell implementation av stöd för registerpar m˚aste den nuvarande coalescing koden med största sannolikhet anpassas.

(33)

4.2 Diskussion

De resultat som har presenterats här skulle förhoppningsvis vara till nytta vid framtida arbete i LLVM. Med lite mer tid hade man kanske kunnat ge sig p˚a att implementera registerpar i LLVM. Detta kunde ha varit ett m˚al i ett längre examensarbete p˚a sex m˚anader. I övrigt diskuterade jag med min handledare att göra lite prestandatester p˚a algoritmen, men för att det skall bli meningsfullt s˚a förutsätter det att man har en lämplig DSP tar- getbeskrivning. Att i stället göra en prestandautvärdering för ARM arkitekturen hade varit en möjlighet, men vi kom fram till att detta förmodligen inte skulle bli speciellt representativt för en DSP. Vidare är PBQP implementationen i LLVM som sagt inte fullständig heller.

4.3 Framtida arbete

Det vore intressant att ta reda p˚a PBQPs prestanda f¨or en typisk DSP.

Detta förutsätter dock att man har en implementation som stödjer alla de egenheter som en typisk DSP har. En tidigare utvärdering som gjorts kan hittas i Nearly Optimal Register Allocation with PBQP [4]. Där visade man att PBQPs lösningar för problemen i testbänken SPEC2000 l˚ag i medeltal omkring 2% ifr˚an en optimal lösning [4][s. 15-16]. Problemet med det här testet är att det är gjort för en hyfsat reguljär arkitektur, IA-32 (x86). Det säger därför inte s˚a mycket om PBQPs prestanda för irreguljära arkitekturer, s˚a som DSPer. Därmed s˚a kan det vara intressant att titta närmare p˚a detta i framtiden. N˚agot man skulle kunna undersöka är t.ex. hur mycket spilling man f˚ar jämfört med en optimal lösning, eller jämfört med grafallokering.

P˚a detta sätt skulle man kunna f˚a ett hum om hur mycket PBQP i realiteten kan tillföra i form av ökad prestanda.

Naturligtvis s˚a behöver ocks˚a implementationen av stöd för registerpar i LLVM göras.

(34)

Litteraturf¨ orteckning

[1] Scholz B., Eckstein E. (2002). Register allocation for irregular architectures. (ACM SIGPLAN Notices. Juli 2002. Vol. 37. Num. 7. s. 139-148).

ACM New York, NY, USA. DOI: 10.1145/566225.513854

[2] Paek Y., Ahn M. (2009). Fast Code Generation for Embedded Proces- sors with Aliased Heterogeneous Registers (Lecture Notes in Computer Science. 2009. Vol. 5470. s. 149-172). Springer-Verlag. DOI 10.1007/978- 3-642-00904-4

[3] Aho A., Lam M., Sethi R., Ullman J. (2006). Compilers: Principles, Techniques, and Tools (2. uppl.). Pearson Education. ISBN 0-321-48681- 1.

[4] Hames L., Scholz B. (2006). Neraly Optimal Register Allocation with PBQP. (Lecture Notes in Computer Science. 2006. Vol. 4228. s. 346-361).

Springer-Verlag. DOI: 10.1007/11860990 21

[5] U. Hirnschrott, A. Krall, B. Scholz. (2003). Graph Coloring vs. Opti- mal Register Allocation for Optimizing Compilers. In Proc. of the Joint Modular Languages Conference (JMLC’03). Lecture Notes in Comput- er Science. Augusti 2003. Vol. 2789. s. 202-213) Springer-Verlag. DOI:

10.1007/978-3-540-45213-3 26

[6] Hames L. (2009). Future Works in LLVM Register Alloca- tion F¨oredrag om LLVMs framtidsplaner f¨or registerallokering.

http://llvm.org/devmtg/2009-10/RegisterAllocationFutureWorks.pdf.

H¨amtad den 4 maj 2011.

[7] Briggs P., Cooper K., Torczon L. (1992) Coloring Register Pairs (ACM Letters on Programming Languages and Systems, Mars 1992. Vol. 1, Num.

1. s. 3-13). ACM New York, NY, USA. DOI: 10.1145/130616.130617 [8] Apple A. Palsberg J. (2002). Modern Compiler Implementation in Java

(2. uppl.). Cambridge university press. ISBN 978-0-521-82060-8.

(35)

[9] S. Dasgupta, C.H. Papadimitriou, U.V. Vazirani (2006) Algoritms Utkast till en bok. http://www.cs.berkeley.edu/ vazirani/algorithms.html.

H¨amtad den 7 maj 2011.

[10] Takala J. General-Purpose DSP Processors (Handbook of Signal Pro- cessing Systems. 2010. Del 2. s. 393-413). Springer Science+Business Me- dia, LLC. DOI: 10.1007/978-1-4419-6345-1 15

[11] LLVM Users LLVM websidan. Anv¨andare av LLVM.

http://llvm.org/Users.html H¨amtad den 11 maj 2011.

[12] LLVM Users LLVM websidan. Funktioner i LLVM http://llvm.org/Features.html H¨amtad den 30 augusti 2011.