Design - Ny flyttalsaccelerator - Portning och utökning av processor för ASIC och FPGA

3.6 Ny flyttalsaccelerator

3.6.2 Design

Enligt krav K2.3 ska acceleratorn kunna utföra addition, subtraktion och multiplikation. Varje s˚adan aritmetisk operation kan delas in i ett antal mindre operationer. Nedan redogörs de deloperationer som behöver göras för respektive aritmetisk operation. [4]

Addition

Uppackning av flyttalen

Byte av teckenbit vid subtraktion Denormalisering av det minsta flyttalet Addition/subtraktion av signifikanderna Normalisering av resultatet

Avrundning av resultatet

Generering och avrundning av eventuellt subnormalt resultat Generering av eventuellt specialtal

Multiplikation Uppackning av flyttalen Addition av exponenterna Multiplikation av signifikanderna Normalisering av resultatet Avrundning av resultatet

Generering och avrundning av eventuellt subnormalt resultat Generering av eventuellt specialtal

Packning av resultatet

För en genomg˚ang i exakt hur de här deloperationerna g˚ar till hänvisas till [4], [7], [3] eller RTL-schemat för resulterande flyttalsaccelerator som pre- senteras i bilagorna B.1–B.4.

Operationerna delades upp i fyra pipelinesteg med avsikt att h˚alla en kort kritisk väg. Namngivning av signaler följer i stort den nomenklatur som används i [7]. Bilagorna B.1–B.7 inneh˚aller ett RTL-schema för funktionerna addition och subtraktion i flyttalsenheten. Nedan följer en beskrivning över vad som ing˚ar i varje steg.

F¨orsta pipelinesteget P0

I första pipelinesteget sker uppackningen av operanderna genom en uppdel- ning i signaler med namn som motsvarar de olika delarna. För operand A heter exempelvis teckenbiten, exponenten och signifikanden Sa, Ea respektive Fa. Utöver uppdelningen genereras ett par signaler som används för att detektera om operanden är ett specialtal. Infa, NaNa, Zroa respektive Suna är flaggor för Inf, NaN, noll respektive subnormal. Vissa signaler propageras mellan flera pipelinesteg och identifieras d˚a med tillägget pX p˚a signalnam- net, där X är 0,1,2 eller 3. Om ett tal är subnormalt justeras det s˚a att representationen är samma som för en normaliserad operand.

Det första som sker i första pipelinesteget är att exponenterna jämförs och differansen adderas till den minsta s˚a att exponenterna blir lika stora. Samtidigt justeras signifikanden s˚a att flyttalets värde beh˚alls. Efter det här pipelinesteget byter operanderna namn s˚a att den minsta operanden benämns tv˚a och den andra ett. För subtraktion byts sign-biten p˚a operand B och operationstypen byts till addition för efterföljande pipelinesteg.

För multiplikation ligger multiplikationsoperationen fördelad över pipelinesteg P0 och P1 för att möjliggöra pipelining av multiplikatorn.

Andra pipelinesteget P1

I andra pipelinesteget negeras inoperander med negativ teckenbit och själva additionen av signifikanderna utförs. För multiplikation sker andra pipelinesteget i multiplikatorn och resulterande teckenbit samt exponent beräknas. Tredje pipelinesteget P2

I tredje pipelinesteget sker normalisering av resultatet genom att räkna antalet nollor fr˚an vänster i den resulterande signifikanden (enheten CLZ). Därefter justeras exponenten och signifikanden s˚a att den mest signifikanta ettan i signifikanden hamnar p˚a 24:e bitpositionen. De fall där exponenten understiger noll efter normaliseringen detekteras.

Fj¨arde pipelinesteget P3

För de fall där exponenten understiger noll i pipelinesteg P2 justeras detta genom att signifikanden högerskiftas igen i pipelinesteg P3 och ett subnormalt tal genereras. I det här pipelinesteget utförs ocks˚a en avrundning av signifikanden och sedan en avrundning av exponenten. För utsignalen fr˚an flyttalsenheten väljs sedan antingen ett specialtal om ett s˚adant genererats eller resultatet som beräknats.

3.6.3 Testning

Aven om teorin bakom flyttalsaritmetik är ganska enkel s˚a blir en implementation i h˚ardvara snabbt komplex. Med ökad komplexitet ökar risken för fel och därmed även vikten av genomg˚aende testning av implementationen. En uttömmande testning av alla indatakombinationer leder till ungefär 3 · 264 testfall om man förutsätter att pipelineuppdelningen är korrekt. En s˚adan testning av enheten är omöjlig, en annan testmetod behövs.

Den metod som valdes för att testa den nya enheten bygger dels p˚a testning med hjälp av hörnfall och dels p˚a testning med hjälp av ett stort antal slumpmässiga tester. För testning av flyttalsaritmetiken i biblioteket SoftFlo- at används en testsvit vid namn TestFloat skriven i C. TestFloat inneh˚aller rutiner som genererar en mängd olika hörnfall för flyttalsberäkningar i olika format. Eftersom b˚ade SoftFloat och TestFloat är etablerade program med m˚anga ˚ars utveckling bakom sig verkade det lämpligt att dra nytta av det även för testningen av en ny flyttalsenhet. Vid närmare undersökning av den flyttalsenhet som ursprungligen valdes för projektet visar det sig att även den använder sig av TestFloats rutiner för att generera testfall. I det fallet

används programmet för att generera indata till en testbänk i Verilog som sedan verifierar flyttalsenheten.

För den nya flyttalsenheten skapades ett testsystem med hjälp av SystemC och ett program vid namn Verilator. Verilator kompilerar syntiserbar Verilog- kod till SystemC. [13] Den resulterande koden kan därefter användas i ett SystemC-projekt. Eftersom SystemC-kod kan länkas ihop med annan C-kod möjliggör det att källkoden fr˚an TestFloat ˚ateranvänds i testningen av flyt- talsacceleratorn utan stora förändringar.

För testningen i SystemC skrevs ett program som med hjälp av rutiner fr˚an TestFloat genererar 7,5 miljoner testfall. Utöver det genererar testprogrammet ett godtryckligt antal slumpmässiga testfall och en serie med kombinationer av specialtal. Varje testfall beräknas dels genom simulation i flyttalsenheten och dels p˚a värdprocessorn. Resultaten jämförs och varje skillnad rapporteras.

Testprogrammet utvecklades parallellt med den nya flyttalsenheten och kunde därför användas fr˚an och med första utkastet för att kontinuerligt ve- rifiera implementationen. Testningen exponerade ett par fel i designen som kunde ˚atgärdas. Ett av de upptäckta felen visade sig även finnas i den flyttalsenhet som ursprungligen användes.

3.6.4 Resultat

Flyttalsenheten som implementerades har de funktioner som projektet kräver och uppfyller de övriga som sattes upp. Enheten är uppdelad i fyra pipelinesteg och kan klockas i samma hastighet som processorn. Enheten hante- rar även denormaliserade tal, en egenskap som MicroBlazes FPU saknar. Källkoden skrevs i Verilog och uppg˚ar till 620 rader kod. Alla signaler och interface är dokumenterade och ett komplett RTL-schema finns i bilaga B.1 till bilaga B.4.

Filteracceleration

I det här kapitlet sätts n˚agra krav upp för implementationen av en accelerator för FIR-filter. En introduktion ges av de aspekter av FIR-filtrering som är relevanta för arbetet. Därefter beskrivs hur en FIR-acceleratorn designats. Till sist ges en beskrivning av de gränssnitt acceleratorn har.

4.1 Specifikation

I det system där processorn ing˚ar är exekvering av FIR-filter en viktig funktionalitet. I kravspecifikationen för processorn finns därför krav K1.5 som säger att processorn ska ha funktioner för att accelerera s˚adana beräkningar. Kravet säger att en MAC-operation ska kunna utföras per klockcykel. Det inkluderar tiden för att skriva och läsa data till och fr˚an minnet. Med anled- ning av prestandakraven valdes i samr˚ad med handledaren att implementera funktionen som en separat FIR-accelerator.

En frist˚aende filteraccelerator ger andra möjligheter till prestanda och funktionalitet än en MAC-funktion hos processorn. Till exempel kan enheten arbeta i en högre klockhastighet än processorn och göra en eller flera filterberäkningar under tiden som processorn arbetar med annat.

N˚agra krav sattes upp p˚a filteracceleratorn.

K3.1 Indataord ska vara av 24 bitars precision. K3.2 Koefficienter ska vara av 18 bitars precision. K3.3 Ackumulering ska ske med 48 bitars precision.

K3.4 Acceleratorn ska kunna utf¨ora i snitt en MAC-operation per 10 ns.

K3.5 Acceleratorn ska kunna v¨axla mellan upp till 16 f¨ordefinerade filter.

K3.6 Acceleratorn ska kunna utföra föraddering för beräkning av symmetriska och antisymmetriska filter.

K3.7 Acceleratorn ska kunna anv¨anda utdata fr˚an en filterk¨orning som indata till en annan.

K3.8 Acceleratorn ska kunna kontrolleras via Wishbonebussen. K3.9 Data- och koefficientminnena ska vara ˚atkomliga via Wishbo-

nebussen.

K3.10 Data- och koefficientminnena ska förutom krav K3.9 även vara ˚atkomliga i full hastighet via ett separat minnesinterface. Flera av kraven ovan är härledda fr˚an egenskaper hos m˚alplattformen. För filteracceleratorn kommer MAC-enheten och närmare bestämt multiplikatorn att sätta begränsningarna för prestandan. I kretsen Virtex5 SX50T finns flertalet funktioner implementerade som h˚arda block. Ett s˚adant är blocket DSP48E som inneh˚aller bland annat en multiplikator och en helad- derare. Blocket g˚ar att konfigurera s˚a att det implementerar en komplett MAC-enhet. [14] En MAC-enhet implementerad med hjälp av ett DSP48E- block kan utföra en 25x18-bitars multiplikation med ackumulering i ett 48- bitars register. Kraven K3.2 och K3.3 kommer direkt fr˚an de här kretsegen- skaperna, dataordens bredd sattes till 24 bitar eftersom en guardbit behövs vid eventuell föraddering av indatan. DSP48E-blocket kan klockas i maxi- malt 450MHz1 _{om alla interna pipelineregister används. 450MHz är ocks˚}_a den maximala klockfrekvensen som kan användas för blockminnena i kretsen. För att uppfylla krav K3.4 behöver acceleratorn kunna klockas i minst 100MHz, men för ändam˚alet är en högre klockfrekvens bara bättre.

Maxfrekvensen gäller för kretsversionen Speed Grade -1 som användes i det här projektet.

H3 H4 H5 H1 H1 H₂ X Y1 Y3 Y4 Y₅ Y6 Y₂

Figur 4.1: Exempel p˚a ett system med flera filter

Ett av användningsfallen som ställdes upp för filteracceleratorn best˚ar i att beräkna resultatet i flera noder av ett filterträd, s˚asom i figur 4.1. Genom att som i krav K3.7 till˚ata att utdata fr˚an ett filter används som indata till ett annat f˚ar man stor flexibilitet i konstruktionen av s˚adana filtersystem.

Krav K3.6 relaterar till speciella filtertyper som beskrivs n¨armre i avsnitt 4.2.1.

Genom krav K3.10 ges m¨ojlighet att l˚ata processorn arbeta mot filtrerad data som erh˚alls direkt fr˚an extern logik genom att anv¨anda filteraccelera- torns dataminne som ett delat minnesomr˚ade.

4.2 Design

4.2.1 Ber¨akning av FIR-filter

Funktionen som ska utföras av acceleratorn är filtrering av data genom ett FIR-filter. Beräkningarna som utförs utgör en faltning av tv˚a indata där den ena är FIR-filtrets koefficienter och den andra den data som ska filtreras. Faltningen uttrycks matematiskt som i ekvation 4.1, där m är filterlängden. [2] Y[n] = m−1 X k₌₀ H[k]X[n − k] (4.1)

I krav K3.6 n¨amns symmetriska och antisymmetriska filter. Med sym-

metriska filter avses filter som har den egenskapen att koefficienterna i andra

halvan av filtret är samma som de i första halvan men i omvänd ordning. Dvs. för ett filter med längden m är koefficient H[m1] = H[(m + 1) − m1] för 0 ≤ m1 ≤ ⌈

(a) Olinj¨ar fas-filter (b) Symmetriskt filter med j¨amnt antal tappar

(d) Antisymmetriskt filter med j¨amnt antal tappar

(e) Antisymmetriskt filter med udda antal tappar

Figur 4.2: Filtertyper

terna i andra halvan av filtret istället är negationen av de i första halvan men i omvänd ordning. Allts˚a, för ett filter med längden m är koefficient H[m1] = −H[(m + 1) − m1] för 0 ≤ m1 ≤ ⌈m₂⌉. En illustration av hur de här typerna av filter ser ut kan ses i figur 4.2 som visar exempel p˚a impulssvar fr˚an samtliga filtertyper.

Anledningen till att de här filtertyperna särbehandlas ligger i att det i m˚anga applikationer är önskvärt att faskaraktäristiken har en konstant grupplöptid. FIR-filter g˚ar alltid att skapa i en form med konstant grupplöptid och är d˚a alltid symmetriska eller antisymmetriska. För den här typen av filter g˚ar det att förenkla beräkningen avsevärt. [2]

Beräkningen av utdataord i ekvation 4.1 motsvarar direkt funktionen hos en MAC-enhet. Koefficienterna och indataorden ges som indata och efter m operationer ges utdataordet av inneh˚allet i ackumulatorn. Man kan notera att 2m läsningar och en skrivning behöver göras till minne.

För faltning vid beräkning av symmetriska filter med ett jämnt antal koefficienter kan man göra omskrivningar enligt ekvation 4.2. I omskrivningen tydliggörs att samma koefficient används för tv˚a indataord. Det gör att bara hälften av koefficienterna behöver lagras. Dessutom halveras antalet multipli- kationer som behöver utföras för beräkningen av varje utdataord. I gengäld m˚aste tv˚a indataord hämtas fr˚an minne för varje multiplikation. P˚a samma sätt kan antisymmetriska filter skrivas om med en subtraktion istället för en

addition. Y[n] = m−1 X k₌₀ H[k]X[n − k] H[m1] = H[m − m1] m1 ∈ 0..m      ⇒ Y [n] = ⌊m 2⌋−1 X k₌₀ H[k] (X[n − k] + X[n − m + k]) (4.2)

Ekvation 4.2 är bara giltig för filter med jämnt antal koefficienter. När det gäller symmetriska och antisymmetriska filter med ett udda antal koefficienter m˚aste ytterligare en term läggas till s˚asom i ekvation 4.3. Tillsammans ger icke-symmetriska, symmetriska och antisymmetriska filter med udda och jämnt antal koefficienter fem fundamentala fall som m˚aste hanteras. Det är värt att notera att för ett antisymmetriskt filter med udda antal koefficienter m˚aste koefficienten p˚a symmetripunkten enligt definitionen vara noll.

Vid implementation av FIR-filtrering i h˚ardvara motsvarar den nya additionen i ekvation 4.2 en f¨oradderare, som adderar b˚ada indatav¨ardena till dataing˚angen p˚a MAC-enheten.

Y[n] =   ⌊m 2−1⌋ X k₌₀ H[k] (X[n − k] + X[n − m + k])  + H h ⌊m 2⌋ i Xhn− ⌊m 2⌋ i (4.3)

4.2.2 Adressering

Beräkningen av en filterkörning i acceleratorn tar minst l · m cykler att utföra, där l är antalet indataord och m är antalet filterkoefficienter. I varje ny cykel m˚aste rätt indataord och koefficient finnas tillgänglig i respektive ing˚angsregister till MAC-enheten. I tabell 4.1 visas i vilken ordning värdena ges som indata till MAC-enheten och föradderaren för ett symmetriskt filter med data {1, 2, 3} och koefficienter {1, 2, 3}. I tabell 4.2 visas motsvaran- de exempel för ett filter som inte är symmetriskt, i det här fallet ges noll konstant som ena indata till föradderaren.

För att adressera koefficienterna i minnet används en räknare K som före varje nytt utdataord sätts till adressen för sista koefficienten och sedan räknas ned tills adressen för första koefficienten n˚as. Vid det tillfället har ett nytt utdataord beräknats.

Adressering av dataord sker p˚a olika sätt beroende p˚a om filterkörningen är symmetrisk eller inte. För symmetriska filter används tv˚a räknare U och

Utdataord 0 1 2 3 Tidssteg 0 1 2 3 4 5 6 7 8 9 10 11 Indata, ¨ovre 0 0 1 0 1 2 1 2 3 2 3 0 Indata, undre 0 0 0 0 0 0 0 0 0 1 0 0 Utdata, f¨oradd. 0 0 1 0 1 2 1 2 3 3 3 0 Koefficient 3 2 1 3 2 1 3 2 1 3 2 1 Utdata, MAC 0 0 1 0 2 4 3 7 10 9 15 15 Utdata, resultat 1 4 10 15 4 5 6 7 12 13 14 15 16 17 18 19 20 21 22 23 3 0 0 0 0 0 0 0 0 0 0 0 20 1 0 3 2 1 0 3 2 0 0 3 5 1 0 3 2 1 0 3 2 0 0 3 3 2 1 3 2 1 3 2 1 3 2 1 15 17 17 9 13 14 0 6 8 0 0 3 17 14 8 3

Tabell 4.1: Exempel p˚a ber¨akning av symmetriskt filter.

Utdataord 0 1 2 3 4 Tidssteg 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Indata, ¨ovre 0 0 1 0 1 2 1 2 3 2 3 0 3 0 0 Indata, undre 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Utdata, f¨oradd. 0 0 1 0 1 2 1 2 3 2 3 0 3 0 0 Koefficient 3 2 1 3 2 1 3 2 1 3 2 1 3 2 1 Utdata, MAC 0 0 1 0 2 4 3 7 10 6 12 12 9 9 9 Utdata, resultat 1 4 10 12 9

L som adresserar övre respektive undre delen av indatan. Räknaren L sätts före varje nytt indataord till A[k] − l där A[k] är adressen till indataordet med index k och l är antalet koefficienter. Adressen i L räknas sedan upp tills utdataordet beräknats. Räknaren U sätts före varje nytt indataord till A[k] − l − 1 och räknas ned tills utdataordet beräknats. För alla indataord som adresseras utanför filtrets indataomr˚ade genereras värdet noll.

För att initiera räknarna U och L används ocks˚a tv˚a räknare L’ och U’ som initieras till A[0] − l respektive A[0] − l − 1 och sedan räknas upp tills sista indataordet adresseras i U’. Vid det tillfället är filterkörningen klar.

För indata till föradderaren krävs att data läses fr˚an adressen i U och L varje cykel. Förutsatt att minnet till˚ater en skrivning eller läsning per cykel krävs d˚a ett tv˚aportsminne. S˚adana minnen finns ocks˚a tillgängliga i m˚alplattformen. För att h˚alla implementationen generell nog att portas till en annan teknologi där tv˚aportsminnen inte finns tillgängliga undviks dock den här lösningen.2 _{Istället delas datan upp p˚}_{a tv˚}_{a minnen som kan läsas och} skrivas till parallellt. En förutsättning för att det ska fungera är att läsningar och skrivningar är jämnt fördelade mellan minnena över tiden.

Läsning av data vid filtreing sker fr˚an adresser som ständigt ökar respektive minskar med ett för varje cykel. Det innebär att för icke-symmetriska filter kommer varannan adress att vara udda och varannan jämn. För symmetriska och antisymmetriska filter gäller att för fyra lästa indataord kommer hälften av adresserna att vara udda. Genom att dela upp datan p˚a tv˚a minnen där det ena inneh˚aller jämna adresser och det andra udda adresser g˚ar det därför att f˚a en jämn fördelning av läsningar över tiden.

Under en filterkörning sker tv˚a undantag fr˚an en s˚adan jämn fördelning mellan udda och jämna minnesadresser. För det första m˚aste varje utdataord skrivas in till minnet under en cykel. Detta hanteras genom att stoppa filterkörningen helt under den cykeln. Det andra undantaget sker när mer än tv˚a jämna eller udda adresser följer varandra. Det kan inträffa vid överg˚angen mellan tv˚a utdataord. Om det faller sig s˚a att tre eller fyra av de avslutande och p˚abörjade indataorden är av samma typ, jämna eller udda, kan inte alla indataord läsas samtidigt. För att hantera en s˚adan situation utnyttjas det faktum att det första indataordet, vid beräkningen av ett utdataord, alltid kommer att vara samma som det andra indataordet fr˚an beräkningen av föreg˚aende utdataord. Istället för att hämta det första indataordet används därför istället ett lagrat värde fr˚an förra utdataordet.3

M˚alet f¨or n¨asta portning, eAsic nextreme, erbjuder exempelvis inte tv˚aportsminnen.

Undantaget är det allra första indataordet, d˚a inget ord fr˚an föreg˚aende utdataord finns lagrat. Det indataordet kommer dock alltid att vara noll för filter med mer än en koefficient.

K o m m a n d o k ö W i s h b o n e - i n t e r f a c e A d d r e s s - g e n e r a t o r M A C K o e f f i c i e n t - m i n n e D a t a m i n n e P r e a d d e r a r e u C F I R - a c c e l e r a t o r E x t e r n l o g i k M i n n e s k o n t r o l l e r a r e

Figur 4.3: FIR-acceleratorn, toppniv˚a

4.3 Implementation

I figur 4.3 visas designen för FIR-acceleratorn p˚a toppniv˚a. För att möjliggöra klockning av acceleratorn med en hög frekvens är designen indelad i en serie av pipelinesteg. Figur 4.4 visar hur den indelningen ser ut.

Alla register i figur 4.4 har inte till syfte att minska den kritiska vägen. De tv˚a register som följer ing˚angen av preproc-enheten används som en tv˚astegs buffert för att rätta till ordningen p˚a de dataord som kommer fr˚an udda respektive jämna dataminnet. De tv˚a register som följer utg˚angen fr˚an MAC-enheten används för att synkronisera skrivningen till dataminnet med addrgen-enheten.

I figur 4.5(a) visas kommandokön. När nya kommandon skrivs till kön propagerar de till registret före det sista icke-tomma registret i kön. Ett re- gister i kön signalerar med valid o fram˚at i kön att data o är giltig. Insignalen

propagate i innebär att registervärdet har propagerat fram˚at i kön vilket i sin tur innebär registret ska ersätta nuvarande inneh˚all med data fr˚an ing˚angen om detta är giltigt. När det sker skickas propagate o till nästa register bak˚at

c m e m d m e m

p r e p r o c

m a c a d d r g e n

c q r e g c q r e g c q r e g n e w _ f i l t e r f i l t e r _ d a t a c q r e g n e x t _ f i l t e r v a l i d f i l t e r _ d a t a (a) Registerstruktur p r o p a g a t e _ i v a l i d _ i v a l i d _ o d a t a _ o d a t a _ i p r o p a g a t e _ o c q r e g 0 1 0 1 0 1 (b) RTL-schema, kommandok¨oregister

Figur 4.5: Kommandokön i FIR-acceleratorn i kön. I figur 4.5(b) visas RTL-schemat för ett register i kön.

I de tv˚a sista stegen av kommandokön genereras ocks˚a, utifr˚an filter- gränserna, stoppvillkor samt initieringsvärden för adressgeneratorn. Stopp- villkoren används för att avgöra dels när varje nytt utdatavärde beräknats, dels när sista utdatavärdet i filtret beräknats. Det sistnämnda stoppvillkoret skapas i adressgeneratorn genom att jämföra aktuell koefficientadress med en adress tv˚a ord över bottenadressen. Som följd m˚aste ett filter ha tre eller fler koefficienter för att kunna beräknas i acceleratorn.

För att dela upp indataläsningar mellan det udda och det jämna dataminnet används fyra adressregister. De inneh˚aller adresser för nuvarande respektive nästa indataord b˚ade för de övre och de undre indataorden. Den minst signifikanta biten i varje adress talar om ifall indataordet är udda eller jämnt. Utifr˚an den minst signifikanta biten i varje adress bildar arbitreraren en bitsträng med fyra bitar som sedan används för att avgöra vilket indataord som ska läsas ut. Utifr˚an valet skapas ocks˚a en kontextsignal, som talar om vilket val som gjordes. I figur 4.6 visas hur data adresseras i det udda eller jämna dataminnet. Utifr˚an kontextsignalen kan dataorden placeras in i rätt ordning senare i pipelinen. Utöver kontextsignalen finns även en signal

som talar om för preproc-enheten att använda nollvärden istället för inda- ta. Figur 4.7 visar mer specifikt hur preproc-enheten använder indata och

In document Portning och utökning av processor för ASIC och FPGA (Page 57-121)