Digital signalbehandling i realtid; en jämförelse mellan CPU och GPU: Brusfiltrering av ljudsignal med hjälp av FFT

(1)

INOM

EXAMENSARBETE TEKNIK, GRUNDNIVÅ, 15 HP

STOCKHOLM SVERIGE 2020,

Digital signalbehandling i realtid;

en jämförelse mellan CPU och GPU

Brusfiltrering av ljudsignal med hjälp av FFT

LUDWIG EMILSSON

(2)

Real time digital signal processing; A CPU, GPU comparison: Filtering noisy

audio signal with FFT

Ludwig Emilsson

Degree Project in Computer Science Date: Juni 06, 2020

Supervisor: Erik Frans´en Examiner: Pawel Herman

Swedish title : Digital signalbehandling i realtid en jämförelse mellan CPU och GPU: Brusfiltrering av ljudsignal med hjälp av FFT

School of Electrical Engineering and Computer Science

(3)

Abstract

Over the past 40 years, music production has evolved from being an analog process to a digital one. Analog instruments and filtering of signals have been complimented and partially replaced by digital instruments and filters in the form of software.

In order for software to be used in music production, it must be able to manipulate a signal in real time. This means that the delay from the time the data is loaded until it has been processed and reproduced must not take more than a certain specified time. For real-time applications in sound processing, this means that the delay must not be longer than 10 ms. A larger delay is perceived as delayed by an experienced listener and makes it difficult to use the application.

A common component in software used to process audio signals is the Fourier transform, which is a transform that, depending on the implementation, can be efficiently executed on the computer’s graphics processor (GPU). Despite this, many digital instruments and filters that use Fourier transform are implemented to be executed on the system’s main processor (CPU).

In order to perform calculations on a GPU, data must first be sent from the main memory to the graphics memory, which takes time. In this report, I examine whether it is possible, with real-time execution requirements, to perform data transfer from main memory to graphics memory, process data and return the result to the main memory.

The data transferred from the main memory to the video memory is a periodic signal that is populated with normally distributed data points.

The periodic function is a sine tone and the normally distributed data points that are added to it are perceived as noise. The goal is to filter out the original sine tone from the noise.

The results show that it is possible to perform filtering of a signal on a system’s GPU with respect to real-time execution by using Matlab’s library routines for FFT, pointwise multiplication and IFFT. Shorter execution time can be achieved by implementing optimized algorithms to transfer data from the system’s main memory to graphics memory.

Sammanfattning

Under de senaste 40 ˚aren har musikproduktion utvecklats fr˚an att vara en analog process till en digital. Analoga instrument och filtrering av signaler har kompletterats och delvis blivit utbytta mot digitala instrument och filter i form av mjukvara.

För att mjukvara som ska användas i musikproduktion ska vara använd-

(4)

Trots detta är m˚anga digitala instrument och filter som använder fouriertransform implementerade för att exekveras p˚a systemets huvudprocessor(CPU).

För att kunna utföra beräkningar p˚a en GPU m˚aste data först skickas fr˚an huvudminnet till grafikminnet, vilket tar tid. I denna rapport un- dersöker jag huruvida det är möjligt, med krav p˚a realtidsexekvering att genomföra överföring av data fr˚an huvudminne till grafikminne, bearbeta data och returnera resultatet till huvudminnet.

Den data som överförs fr˚an huvudminnet till videominnet är en periodisk signal som är förorenad med normalfördelade datapunkter. Den periodiska funktionen är en sinuston och de normalfördelade datapunk- terna som adderas till denna uppfattas som brus. M˚alet är att filtrera fram den ursprungliga sinustonen ur bruset.

Resultatet visar att det är möjligt att utföra filtrering av en signal p˚a ett systems GPU med avseende p˚a realtidsexekvering genom att använda Matlabs biblioteksrutiner för FFT, punktvismultiplikation och IFFT. Kor- tare exekveringstid g˚ar att uppn˚a genom att implementera optimerade algoritmer för att överföra data fr˚an systemets huvudminne till grafikminne.

(5)

1 Introduktion

Digital signalbehandling är ett ämne som behandlar hur man kan representera och behandla analoga signaler digitalt. N˚agra exempel p˚a signalbehandling är till exempel att öka niv˚an p˚a en signal, addera eller att subtrahera signaler fr˚an en redan befintlig s˚adan. I det senare fallet kan det handla om att filtrera bort brus.

Vid musikproduktion används m˚anga olika typer av metoder för att förändra ljudet. Vanligt är att man adderar effekter s˚a som efterklang och köreffekt för att skapa en intressant och levande ljudbild. Filter används flitigt för att framhäva ett instruments naturliga frekvensomr˚ade men även för att ta bort oönskade frekvenser som kan uppst˚a p˚a grund av d˚alig inspelningsteknik men ocks˚a bak- grundsljud [16]. Kompression är ytterligare en teknik som används för att jämna ut den dynamiska räckvidden vilket enkelt uttryckt är en niv˚autjämning av de starkaste och lägsta ljuden.

Sammansatta signaler är det som gemene man är van vid att höra, speciellt i musikaliska sammanhang. Även d˚a en grundton tas p˚a ett instrument finns det i ljudet som vi hör övertoner och skiljer sig p˚a s˚a sätt fr˚an sinustoner. Ett sammansatt ljud är allts˚a en signal som best˚ar av flera sinusfunktioner med olika frekvenser och amplitud. Sammansatta ljud kan vara sv˚ara att manipulera och att analysera men med hjälp av Fouriertransformen kan man plocka isär ett sammansatt ljud och se vilka sinustoner det best˚ar av. En lämplig analogi

¨

ar att man först blandar olika grundfärger (sinuston), man f˚ar d˚a en ny färg (sammansattljud). Att oblanda färger g˚ar inte men motsvarigheten g˚ar att göra med ljud.

Fouriertransformen är en variant av Fourierserier som undersöktes under tidigt 1800-tal av Jean-Baptiste Joseph Fourier. Fourierserier beskriver hur varje kontinuerlig periodisk funktion g˚ar att beskriva som summan av ett antal sinusfunktioner. Detta betyder att en komplex signal g˚ar att dela upp i sina best˚andsdelar som var och en g˚ar att manipulera individuellt. Denna transform g˚ar att genomföra genom att den ursprungliga signalen multipliceras med en Fouriertransform matris [21].

Digitala signaler g˚ar att att spara i matriser där varje position motsvarar ljudet vid en specifik tidpunkt. Denna matris g˚ar att förändra genom att multiplicera med tal eller andra matriser för att erh˚alla en ny signal. Säg att ett sammansatt ljud har en störande komponent, tillexempel ett bakomliggande brus. Detta brus vill man eliminera. Ett tillvägag˚angssätt kan d˚a vara att utföra Fouriertransfrom som visar vilka sinustoner som ljudet best˚ar av. Det g˚ar sedan att anpassa en funktion som enbart täcker frekvensomr˚adet man är intresserad av att beh˚alla för att sedan punktvis multiplicera ursprungsmatrisen med den anpassade funktionen. Det leder till att amplituden för de punkter som representerar bruset elimineras.

En modern dator har generellt tv˚a olika typer av processorer, en CPU vars arkitektur är utvecklad för att klara av m˚angsidiga uppgifter [3] och en GPU som vanligtvis används för att leverera bild till en skärm. D˚a beräkningar sker p˚a en GPU m˚aste den data som ska behandlas först överföras fr˚an systemets

(7)

huvudminne till videominnet. Tiden för överföringen är inte försumbar. Det finns en risk att detta steg begränsar möjligheterna att utföra beräkningarna i realtid. Om tiden det tar att överföra data, behandla den och sedan skicka resultatet tillbaka till huvudminnet tar längre tid än 10 ms anses latens vara för stor[22]. Det är allts˚a viktigt att lyssnaren kan höra förändringar i ljuden med minimal fördröjning.

(8)

1.1 Syfte

Syftet med rapporten är att undersöka om det finns beräkningar inom omr˚adet digital-signalbehandling som i dagsläget utförs p˚a ett systems CPU men likväl skulle kunna utföras p˚a ett systems GPU. Till grund för denna undersökning ligger en vilja att avlasta ett systems huvudprocessor utan att tillföra special- iserad h˚ardvara för signalbehandling.

1.2 Fr˚agest¨allning

Finns det ofta förekommande beräkningar inom digital signalbehandling som i dagsläget utförs p˚a ett sytems CPU men som likväl kan utföras p˚a ett systems GPU?

Kan en GPU utföra filtrering av en signal p˚a kortare tid än en CPU med hjälp av Fouriertransform och punktvis multiplikation?

Vilka för och nackdelar finns det med att utföra signalbehandling p˚a en GPU jämfört med en CPU?

1.3 Avgr¨ansning

Denna rapport är avgränsad till att undersöka hur en metod för att filtrera en signal presterar med avseende p˚a exekveringstid beroende p˚a var den beräknas.

Skillnaden mellan beräkningarna är att beräkningarna sker p˚a en CPU respektive en GPU.

(9)

2 Bakgrund

Under 1970-talet och 1980-talet gjordes de första försöken att utveckla DAW (digital audio workstation) vilket är ett verktyg för att digitalt spela in ljud och redigera ljudfiler. En DAW best˚ar av ett gränssnitt för att överföra en analog signal till en digital signal och programvara för att med n˚agon typ av inputenhet (mus,keyboard eller knappar) redigera ljuden. En av dom tidigaste DAW kan exemplifieras med den första typen av samplers, ett instrument som

¨

overför analoga signaler till digitala signaler för att sedan ändra signalen och f˚a nya ljud. Den första samplern släpptes 1971 och spelade upp ljud fr˚an tidigare inspelade kyrkorglar [8]. P˚a senare tid används termen DAW(software DAW)

¨

aven för den programvaran som används för att spela in och redigera ljud [5].

1996 släppte Steinberg media technologies specifikationen till ett gränssnitt VST (virtual studio technology) och medföljande SDK (Software development kit). VST är ett gränssnitt för att skapa plugins (mjukvarutillägg) för DAW’s [9]. Dessa mjukvarutillägg kan vara instrument (syntar), effekter (reverb) eller verktyg som möjliggör för annan typ av ljudredigering utan tillg˚ang till n˚agon speciell h˚ardvara för signalbehandling. VST släpptes utan licenskrav för att utveckla mjukvara. Detta bidrog till att VST kom att bli det mest använda gränssnittet för att skapa plugins till DAWs.

Digitaliseringen av musikproduktion har gjort det möjligt för hobbymusiker att använda sig av effekter, instrument och redigeringsverktyg som tidigare enbart kunde tillhandah˚allas av produktionsbolag. I och med persondatorers

¨

okade beräkningskapacitet och minskande pris g˚ar det i dagsläget utan special- iserad h˚ardvara att producera och spela in musik av hög kvalitet. Med vissa undantag är plugins utvecklade att exekveras p˚a en dators centralenhet (CPU).

Detta gör att om m˚anga beräkningar utförs samtidigt blir systemets processor ständigt upptagen med att utföra dessa.

I professionella musikstudior används därför processorer specifikt utvecklade för att effektivt utföra vanliga beräkningar inom digital-signalbehandling.

Dessa processorer har en annan instruktionsuppsättning än processorer som används för generella ändam˚al(general purpose processor) och är ibland integrerad i separat h˚ardvara [13][12]. Dessa processorer är dyra och begränsade till signalbehandling och g˚ar allts˚a inte att använda till annat, det är inte en processor för hobbymusiker. Med en avvägning p˚a pris och funktionalitet väljer ofta ickeprofessionella musikproducenter annan h˚ardvara s˚a som kraftigare general purpose processorer.

(10)

Under de senaste 10 ˚aren har ett ökat intresse visats för GPGPU – Gen- eral purpose computing on graphics processing units. Detta baseras p˚a antalet publicerade artiklar som behandlar ämnet GPGPU [Se bilaga B : GPGPU]. En av anledningarna är att det har blivit möjligt att fullständigt programmera en GPU med ramverk som CUDA och openCL. Praktiskt innebär det att flyttalsoperationer g˚ar att genomföra betydligt mycket snabbare p˚a en GPU än p˚a en CPU.

Grafikprocessorer är en h˚ardvaruarkitektur som är designade för att paral- lellt kunna utföra m˚anga flyttalsopperationer per sekund, betydligt fler än en general purpose processor [24]. Sedan Nvidia lanserade CUDA 2003 har det teoretiska antalet flyttalsoperationer som g˚ar att utföra per tidsenhet för GPUer

˚arligen ökat kraftigt. Detsamma g˚ar inte att säga för CPUer. Man ser 2013 att värdet p˚a det teoretiska antalet flyttalsopperationer tydligt divergerar mellan GPUer och CPUer. Fr˚an 2013 till 2017 har det värdet för Nvidias GPUer ökat i fr˚an 4000 GFLOP/s till 16500 GFLOP/s under samma period har Intels CPUer

¨

okat fr˚an cirka 1000 GFLOP/s till 3000 GFLOP/s (data gäller för enkel flyttal- sprecision) [24]. Det är därför intressant att undersöka om det g˚ar att ersätta eller avlasta en CPU med en GPU vid digital signalbehandling.

2.1 Tidigare forskning

Grafikproccesorer har visat sig vara anv¨andbara i fler omr˚aden ¨an bara 3d ren- dering. Omr˚aden s˚a som artificiell intelligens [4] och och sortering av data [18]

men även verifiering av transaktioner av den typ som lägger grunden för digitala valutor [20] nyttjar effektivt strukturen hos en grafikprocessor. Paralleliserbara beräkningar p˚a data som naturligt g˚ar att representera med matriser är en uppgift för en GPU. Vissa algoritmer i kategorin digital signalbehandling borde därför vara utmärkta att utföra p˚a en GPU.

Experiment har utförts för att undersöka vilka typer av ljudmaipulationer som en GPU presterar bättre än en CPU. L˚angt ifr˚an alla typer har undersökts men det ger en bild av att det är möjligt att för vissa av dom l˚ata en GPU utföra arbetet. Ett arbete av S.Wahlen [23] visar att chorus och compression är betydligt effektivare att utföra p˚a en GPU än p˚a en CPU. Problem uppst˚ar vid beräkningar som kräver att tidigare beräkningars resultat sparas i n˚agon typ av buffer s˚a som vid delay. Beräkningarna är allts˚a inte oberoende och parallalel- liserbarheten av beräkningar som en GPU är designad för är inte möjlig. Denna undersökning publicerades 2005 vilket öppnar upp för diskussion om huruvida beräkningarna av exekveringstiden för GPUer och CPUer fortfarande gäller.

I en artikel om massive convolution [1], vilket är den grundläggande operationen i akustisk signalbehandling av flera kanaler redogörs för möjligheten att avlasta en CPU med hjälp av en GPU. Massive convolution best˚ar av m˚anga faltningar av flera kanaler och används till exempel för att applicera filter eller akustiska effekter som tredimensionellt ljud. En viktig aspekt som behandlas i artikeln är möjligheten att överlappa överförandet av data fr˚an en enhets CPU till dess GPU i syfte att utföra faltningen i realtid. En algoritm för att överföra data implementeras och visar att det g˚ar att halvera tiden för faltningen med

(11)

hjälp av algoritmen jämfört med en naiv implementation där all data som ska behandlas skickas som en enhet. Det huvudsakliga problemet som undersöks är hur man kan utföra operationen i realtid [1].

”In a real-time audio application, transfer and computation on GPU must spend less time than filling the sample’sdata buffer. This time depends on the rate of the incoming samples.”

P˚a Microsoft Corporation har en grupp implementerat en egen version av FFT optimerad för en GPU och jämför den med Nvidias API, CUFFT, för olika stora datamängder N¹- N²⁵ [10][? ]. Syftet är att undersöka om deras implementation av FFT är snabbare än de befintliga biblioteksrutinerna som tillhandah˚alls i CUFFT. Resultatet visar att s˚a är fallet men även att det effektivt g˚ar att utföra FFT p˚a data av godtycklig längd och dimension p˚a ett systems GPU utan krav p˚a realtidsexekvering.

(12)

3 Metod

Detta avsnitt inleds med förklaringar av olika begrepp som är nödvändiga för att först˚a problemomr˚adet och metodens utformning. Förklaringarna är grundläggande och förklarar det nödvändigaste för att först˚a metodens utformning. Inledningsvis beskrivs metoden generellt, verktyg som använts följt av en mer ing˚aende beskrivning av datamängden och tillvägag˚angssätt.

3.1 Begrepp och teori

3.1.1 Analog till digital konvertering

Analog till digital konvertering är reduktionen av en tidskontinuerlig analog signal med avseende p˚a tid och amplitud till en tidsdiskret signal med avseende p˚a samma parametrar. Detta kan ske genom att en sensor läser av och konverterar svängningar i ett medium (till exempel luft) till elektrisk spänning. Denna signal vill man representera med en tidsdiskret signal. Det innebär att det analoga ljudet kommer representeras av ett diskret antal tidpunkterpunkter. Antalet punkter beror p˚a provtagningsfrekvensen, vilket är antalet provtagningar per sekund. För varje provtagningspunkt finns ett associerat värde som representerar signalens amplitud. Detta värde g˚ar att spara med olika noggrannhet.

Denna noggrannhet kallas för bitdjup och är ofta p˚a 16, 24 eller 32 bitar vilket innebär att amplituden g˚ar att dela upp i 2¹⁶, 2²⁴och 2³² delar [16].

3.1.2 Provtagningsfrekvens och Nykvists provtagningsteorem Vid val av provtagningsfrekvens m˚aste mottagaren av det konverterade ljudet tas i hänsyn. Ett friskt människoöra kan höra frekvenser i intervallet

[20 Hz, 20000 Hz]. Enligt Nykvist kriteriet ¨ar 44100 Hz den l¨agsta provtagningsfrekvensen om man vill representera frekvensomr˚adet [20 Hz, 20000 Hz].

I musikindustrin är en provtagningsfrekvens p˚a 48000 Hz standard men mul- tiplier av denna frekvens används ocks˚a beroende p˚a lagringsmediet men även för att underlätta vissa moment relaterade till provtagningen [11][16].

3.1.3 Fouriertransform

Fouriertransform ¨ar en transform fr˚an temporaltplan till frekvensplan. I frekvensplanet uttrycks funktionen i sina sinusoidala basfunktioner. Fouriertransform

¨

ar definierad för tidskontinuerliga och tidsdiskreta funktioner samt för reelvärda och komplexvärda data. En invers till fouriertransformen existerar och trans- formerar funktioner fr˚an frekvensplan till temporaltplan. FFT(fast fourier transform) och IFFT(inverse fast fourier transform) är algoritmen för tidsdiskret fouriertransform med tidskomplexitet O(n*log (n)). Det finns flera olika implementationer av algoritmen men en välkänd är Cooley-Tukey implementationen.

FFT och IFFT används bland annat i signalbehandling där det är av intresse och där det underlättar att manipulera en signal i frekvensplanet istället för spatialtplan [15].

(13)

3.1.4 F¨onsterfunktion

Windowing är en metod för att framhäva en del av en signal. Metoden best˚ar av att skapa en funktion (fönsterfunktion) med noll-skilda värden i ett intervall av intresse medan resterande värden sätts till noll. Fönsterfunktionen multipliceras med signalen och ger upphov till en ny signal som är nollad i samma punkter som fönsterfunktionen.

3.1.5 Faltning

Faltning ¨ar enkelt f¨orklarat en integral som uttrycker hur mycket tv˚a funktioner

¨

overlappar varandra. I figur 1 finns tv˚a funktioner, en r¨od och en bl˚a. I detta sammanhang kan vi se dom som tv˚a stycken signaler med amplitud noll till ett vilket avl¨ases p˚a Y-axeln. X-axeln representerar tid. Den bl˚aa signalen

¨

overlappar delvis med den röda. Kombinationen av dessa tv˚a ger den gröna sammansatta signalen som indikerar hur mycket den bl˚a och den röda signalen

¨

overlappar med varandra [19].

Figure 1: Faltning av tv˚a funktioner

(14)

3.1.6 Faltning, f¨onsterfunktion och fouriertransform

Faltning av tv˚a funktioner i det temporala planet motsvaras av punktvis multiplikation av samma funktioner i frekvensplanet. Detta innebär att man kan utföra faltning av tv˚a funktioner genom att transformera dessa till frekvensplanet, punktvis multiplicera funktionerna för att slutligen transformera tillbaka till temporalt plan [16].

3.1.7 Realtidsexekvering

M˚anga applikationer inom ljudbehandling kräver att utförandet g˚ar att exekvera i realtid. En anledning till det är att man vill kunna ändra parametrar och direkt höra effekterna av ändringarna. Det kan till exempel handla om att i realtid filtrera bort brus eller som i hörapparater förstärka och försvaga vissa frekvenser.

Realtidsexekvering innebär att latensen inte för överstiga ett applikation- sspecifikt värde. För ljudaplikationer är en accepterad latens 10 ms [22]. Kravet

¨

ar ofta att signalbehandlingen ska g˚a att utföra med en fördröjning p˚a mindre

¨

an 5-10 ms. I praktiken inneb¨ar det att data m˚aste behandlas i samma frekvens som provtagningsfrekvensen [23].

3.1.8 GPU och CPU

En modern dator har tv˚a typer av processorer en CPU (central processing unit) och en GPU (graphic processing unit). P˚a grund av respektive processors h˚ardvaruarkitektur l¨ampar de sig olika bra f¨or viss typ av uppgifter.

En CPU är den huvudsakliga styrenheten i en dator, den säger vad som ska göras och när det ska göras och ansvarar för att schemalägga processer och avsluta dessa. Moderna CPUer best˚ar av flertalet kärnor (cores i figur 2), där varje kärna i sig är en processor med tillg˚ang till flertalet niv˚aer av sm˚a men snabbt tillgängliga flyktiga minnesenheter (chache i figur 2) [2]. CPUn har även en direkt koppling till ett systems RAM (System Memory i figur 2).

GPU är en h˚ardvaruarkitektur som är speciellt utformad för att parallelt utföra flyttalsoperationer [6]. Flyttalsopperationer används bland annat d˚a man vill representera fysiska värden, n˚agot man gör vid digital signalbehandling.

GPUn är även fördelaktig att använda vid beräkningsintensiva uppgifter. Det vill säga, tiden som det tar att utföra beräkningar överstiger kraftigt den tid det tar att överföra data till och fr˚an GPUn. Beräkningar som g˚ar att dela upp i mindre delberäkningar som är parallelliserbara är även lämpliga att utföra p˚a en GPU [14]. Det beror p˚a att GPUn har m˚anga fler kärnor med tillg˚ang till videominnet(Device Memory i figur 2).

(15)

Figure 2: Jämförelse mellan antal kärnor p˚a en CPU och GPU. Varje kvadrat representerar en kärna (eng. core) och varje rektangel representerar en typ av minne (cacheminne och huvudminne (RAM) för CPU, samt videominne (eng.

Device memory) f¨or GPU.

3.2 Utformning

För att undersöka om det finns beräkningar som i dagsläget utförs p˚a ett systems CPU men som likväl kan utföras p˚a ett systems GPU utför jag en mängd operationer som är vanliga inom digital signalbehandling. Metoden best˚ar i att för olika provtagningsfrekvenser utföra FFT, multiplikation av tv˚a matriser följt av IFFT. Tillvägag˚angsättet är ett exempel p˚a hur man kan filtrera fram en periodisk funktion ur data som störts med att tillföra slumpmässigt nor- malfördelade datapunkter. För varje provtagningsfrekvens kommer filtreringen att utföras 100 g˚anger för att ta fram ett aritmetiskt medelvärde av exekveringstiden för respektive provtagningsfrekvens. Samma operationer utförs p˚a en CPU(AMD FX-8150) och en GPU(GeForce GTX 970) [Se bilaga A : H˚ardvara], exekveringstiderna noteras. Filtreringen är utformad p˚a s˚a sätt att s˚a länge alla operationerna utförs för alla datapunkter är resultatet representativt för andra signalbehandlingsproblem vilka g˚ar att lösa p˚a samma sätt.

(16)

i sin tur innebär att alla beräkningar sker p˚a systemets GPU. För att kunna använda resultatet för vidare beräkningar krävs det att data överförs tillbaka till huvudminnet vilket görs med funktionen gather(). Tiden det tar att utföra testet p˚a GPU beräknas med gputimeit().

3.4 Datam¨angd

För alla funktioner gäller det att dimensionerna är densamma. Funktionerna kommer best˚a av 44100, 48000, 96000 samt 192000 datapunkter och representerar samma signal med olika stor noggrannhet. För provtagningsfrekvensen 44100 innebär det att signalen är uppdelad i 44100 punkter där varje s˚adan punkt är ett 32-bitars flyttal. Detsamma gäller för övrig provtagningsfrekvenser.

Tiden det tar att utföra beräkningarna är allts˚a för en signal som ljuder under en sekund men där signalen beroende p˚a provtagningsfrekvens representeras med olika m˚anga datapunker. Datamängderna är inte uppdelade i mindre buffert- storlekar för att successivt bearbetas. Datamängderna är representativa för en kanal (mono).

(17)

3.4.1 Funktioner

S = 1*sin(2*pi*50*t): En sinusfunktion med amplitud 1 och frekvens 50 Hz, se figur 3.

Figure 3: S = 1*sin(2*pi*50*t): X-axel:tid (ms), y-axel:amplitud Sinusfunktionen adderas sedan med normalfördelade slumpmässigt genererade punkter R, SR = S + R. Summan blir en periodisk funktion förorenad av dessa punkter, se figur 4.

(18)

En Gaussisk funktion G = 50*exp(-((t-50)*2)/2*0.01) med väntevärde 50 skapas och används för att bilda G2 = G + G. Denna funktion täcker över intervallet [-50Hz, 50Hz]. Funktionen är direkt anpassad efter sinusfunktionens frekvens och kräver information om den. Det sker allts˚a ingen beräkning för att hitta den periodiska funktionen som ska filtreras ut.

Figure 5: G2 - F¨onsterdunktion: X-axel tid (ms), y-axel:amplitud

3.5 Utf¨orande

Inledningsvis träffade jag Propellerhead softwares ansvarige för utvecklingsavdel- ningen. Propellerhead är ett företag som grundades 1994 och har sedan dess utvecklat DAWs och plugins. Anledningen till mötet var att diskutera min prob- lemformulering och f˚a ˚aterkoppling p˚a huruvida det var möjligt att genomföra filtreringen p˚a en GPU effektivt. Det fanns tv˚a saker som han fann problema- tiska. Det första var tiden det tar att föra över data fr˚an huvudminnet till videominnet. Han misstänkte att det tar för l˚ang tid och s˚aledes leder till en för hög fördröjning. Det andra var att det krävs tv˚a versioner för utvecklarna att implementera i förh˚allande till hur m˚anga som skulle använda sig av produkten.

Testet g˚ar ut p˚a att filtrera ut den periodiska funktionen S fr˚an SR med funktionen G2. Exekveringstiden beräknas som t1-t0. Testet utförs 100 g˚anger, därefter beräknas det aritmetiska medelvärdet för respektive provtagningsfrekvens.

signalen med p˚alagt brus visas i figur 6. Bearbetningen sker i f¨oljande steg 1-4:

1) Tid t0 noteras.

2) SR och G2 transformeras till frekvensplanet med FFT.

(19)

Figure 6: SR; X-axel tid (ms), y-axel:amplitud

I frekvensplanet kan man tydligt se att en periodisk funktion finns i SR.

Figure 7: SR i frekvensdom¨an: X-axel frekvens (Hz), y-axel:amplitud

(20)

och j¨amf¨or med Figur 6.

Figure 8: SRG2 tidsdom¨an : X-axel tid (ms), y-axel:amplitud

3.6 Validering

Om signalen blir rätt filtrerad eller inte är av litet intresse utan agerar enbart som bevis för att n˚agot har hänt med signalen. Det är tiden det tar att applicera ett filter med tillvägag˚angssättet FFT, parvis multiplikation, följt av IFFT för dom tv˚a implementationerna som ska evalueras och jämföras för olika datamängder. Testet är utformat p˚a s˚a sätt att s˚a länge alla operationerna utförs för alla datapunkter är resultatet representativt för andra signalbehandlingsproblem som g˚ar att lösa p˚a liknande sätt. För att validera att alla datapunkter har behandlats användes Matlabs funktion conv(x,y) som enligt definition har ett ekvivalent resultat med mitt test och samma tidskomplexitet.

(21)

4 Resultat

För alla datastorlekar som testats exekverar algoritmen snabbare med GPU implementationen. För 44100 samt 48000 skiljer sig implementationerna med 5.320 respektive 7.069 ms. Vid datastorleken 96000 skiljer sig implementationerna med 31.029 ms och för 192000 64.544 ms. Nedan följer en tabell av exekveringstiderna för respektive datamängd samt en förtydligande graf. Detta

¨

ar allts˚a den tid det tar att utf¨ora FFT, punktvis multiplikation f¨oljt av IFFT p˚a en CPU och en GPU.

44100 48000 96000 192000 1,243 1,212 2,251 3,736 6,563 8,281 33,28 68,28

Tabellhuvud: antal datapunkter, rad 1: exekveringstid GPU, rad 2: exekveringstid CPU.

GPU-implementationen presterar bättre än CPU-implementationen för data- mängderna. Vid 44100 samt 48000 är skillnaden inte lika stor mellan implementationerna som vid 96000 och 192000. Vid de större datamängderna skiljer sig tiden avsevärt mellan implementationerna. Tidsskillnaden mellan den lägsta och största datamängden för GPU-implementationen är 2,493 vilket indikerar att majoriteten av tiden är kopplad till kostnaden att överföra data fr˚an huvudminne till videominne. När datastorleken ökar med en faktor 2 ökar bara exekveringstiden med en faktor 1,2 för GPU-implementationen till skillnad för CPU-implementationen där exekveringstiden ökar med en faktor 30(faktorn är beräknad som medelvärdet av skillnaderna).

Fördelarna med att utför beräkningarna p˚a GPUn är att vid större datamängder blir kostnaden att överföra data fr˚an huvudminnet till videominnet mindre i förh˚allande till den totala beräkningstiden. Det betyder att för sm˚a datamängder

¨

ar skillnaden mellan exekvering p˚a en GPU och en CPU inte s˚a stora men men för större datamängder blir den p˚ataglig. Ytterligare en fördel är att använda ett systems fulla kapacitet genom att l˚ata all h˚ardvara utföra beräkningar, om h˚ardvaran redan finns, utnyttja den. Nackdelarna är framförallt kopplade till kostnader relaterade till att skriva tv˚a implementationer, en för GPU och en för CPU.

(22)

Figure 9: exekveringstid CPU(orange) GPU(bl˚a) ; X-axel: antal datapunkter, Y-axel: tid(ms)

5 Diskussion

Resultatet visar att för detta problem, som är vanligt inom signalbehandling, presterar en GPU bättre än en CPU. Detta gäller för datastorlekarna 44100, 48000, 96000 och 192000. Tydligt är att när datastorleken ökar blir skillnaden mellan exekveringstiderna för GPU implementationen och CPU implementationen större. Vid större datamängder presterar den för GPUn bättre än den för CPUn. Vilket f˚ar stöd fr˚an en artikel ”Debunking the 100X GPU vs. CPU myth: an evaluation of throughput computing on CPU and GPU” [17] som bland annat jämför antalet flytalsoperationer per sekund för fft p˚a en Core i7- 960(CPU) och en GTX280(GPU). Resultatet visar att antalet Gflop/s för i7-960

¨

ar 71.4 och antalet Gflop/s f¨or GTX280 ¨ar 213.

I sektionen tidigare forskning tar jag upp en artikel som har undersökt n˚agra vanligt förekommande ljudmanipuleringar. Resultatet visar att det för vissa manipulationer, nämligen köreffekt och kompression, s˚a blir beräkningstiden är

(23)

kortare när beräkningarna sker p˚a en GPU. Manipuleringar som kräver att man

˚ateranvänder tidigare beräkningar s˚a som för delay, tar längre tid p˚a en GPU

¨

an p˚a en CPU.

Utifr˚an dessa resultat samt resultatet fr˚an forskning som togs upp i sektionen tidigare forskning [4][18][18][20][23][1][10] är jag övertygad att om datastorleken ökade ytterligare skulle dom tv˚a olika implementationernas exekver- ingstider divergera. Allts˚a, När datamängden växer ökar fördelarna med att utföra beräkningarna p˚a GPUn.

Eftersom jag inte unders¨oker exekveringstiderna f¨or datastorlekar under 44100

¨

ar det osäkert hurvida den faktor som exekveringstiden ökar med även är rep- resentativ för mindre storlekar. Eftersom tidsskillnaden mellan de olika datastorlekarna för GPU-implementationen är väldigt liten, g˚ar det att spekulera i att majoriteten av exekveringstiden är kostnaden för att överföra data. Om man gör antagandet att den faktor som exekveringstiden ökar med d˚a datastorleken dubbleras, även gäller d˚a datamängden halveras, resulterar det i att GPU- implementationen skulle exekveras p˚a 1 ms medan CPU-implementationen exekveras p˚a 0.2 ms för datastoleken 22500. Detta verkar troligt d˚a skillnaden mellan exekveringstiden för 44100 och 48000 datapunkter är 0.03. Exekver- ingstiden är allts˚a betydligt lägre än den högsta godkända fördröjning för att proceduren kan anses utförbar i realtid.

I denna undersökning har all data skickats samtidigt. Det innebär att data inte har delats upp i mindre buffrar, n˚agot som är vanligt förekommande. An- ledningen till det är att undersökningen enbart ska klargöra om det finns po- tential och möjlighet att använda en GPU istället för en CPU i ljudspecifika applikationer.

Datmängderna motsvarar en kanals ljud(mono) och inte tv˚a (stero). Detta betyder att det är dubbelt s˚a m˚anga datapunkter som m˚aste behandlas för steroformat. Motiveringen till att tv˚a kanaler inte testas är att det täcks upp av fallet med 96000 datapunkter. 44100 * 2 = 96000 och 48000 är en multipel av 96000. Detta betyder att datapunkter för tv˚a kanaler är antingen mindre eller lika med 96000 vilket har testats. Det finns dock risk att tv˚a separata kanaler representeras och överförs annorlunda fr˚an huvudminnet till videominnet och att MATLABs implementation av FFT behandlar det annorlunda än om det bara är en kanal.

I denna unders¨okning har varje datapunkt en noggrannhet p˚a 32-bitar. Tanken

¨

ar att det ska motsvara 32-bitars bitdjup för signalen. Bitdjup är den noggrannhet man väljer att presentera det analoga ljudet digitalt. Det är sv˚art att garantera n˚agon större säkerhet i huruvida ett 32-bitars flyttal i Matlab är rep-

(24)

När en signal har behandlats p˚a systemets GPU skickas det tillbaka till huvudminnet. Poängen med ett ljud är att man vill höra det, allts˚a m˚aste systemets CPU hämta data som representar ljudet fr˚an huvudminnet och sedan spela upp det. Detta ytterligare sista steg har inte prövats och kommer addera tid till kedjan, n˚agot som inte har tagit hänsyn till i resultatet.

Resultatet indikerar att det är möjligt att utföra FFT, punktvis multiplikation av tv˚a matriser följt av IFFT p˚a detta specifika systems GPU p˚a kortare tid än p˚a dess CPU. Tidigare litteratur visar även den att en GPU är en lämplig kandidat att utföra generella beräkningar som tidigare utförts p˚a en CPU och i dagsläget faktiskt gör s˚a. Det är även visat att FFT g˚ar att utföra mer effektivt p˚a en GPU än en CPU men även att det finns vissa ljudspecifika applikationer som kan dra nytta av arkitekturen hos en GPU. Denna rapport har fokuserat p˚a FFT och IFFT, det finns självklart andra beräkningar som används vid signalbehandling och det är ingen garanti att en GPU presterar bättre än en CPU för andra typer av beräkningar.

Aven om det ¨¨ ar möjligt att utföra signalbehandling i realtid p˚a en GPU finns det andra faktorer som avgör om det är en bra idé. Det är inte säkert att användare av DAW har ett system med separat GPU, utan den kan vara integrerad p˚a systemets CPU. Ur en utvecklingsaspekt kan det uppst˚a problem d˚a det krävs tv˚a separata implementationer för en plugin. Pengar och resurser som skulle kunna investeras i utvecklingsarbeten spenderas möjligtvis p˚a funktionalitet som marknaden inte har ett behov av. Det krävs allts˚a en gedigen analys av marknadens behov och hur stor andel av befintliga system som skulle kunna utnyttja en GPU-baserad ljudbehandlingslösning.

(25)

För vissa signalbehandlingsproblem tillkommer kravet att problemet ska g˚a att lösa i realtid med minimal fördröjning mellan input och output. Tiden för processen f˚ar inte överstiga 10 ms. Ingen av implementationerna klarar detta krav för de prövade datastorlekarna. För att uppn˚a realtidsexekvering delas ofta problemet upp i delproblem och en signal delas upp i buffrar där varje buffer behandlas var för sig. Med de tidigare antagandena resulterar detta i att för en bufferstorlek p˚a 256 datapunkter är det möjligt att exekvera i realtid p˚a en CPU. Om tiden det tar att överföra data till GPUn är 1 ms uppfyller inte GPU-implementationen realtidskravet oavsett vilken bufferstorlek man väljer.

Under avsnittet tidigare forskning presenterar jag, att det är möjligt att utföra operationerna i realtid p˚a en GPU, men det kräver att man implementerar en algoritm för att minska tiden det tar att överföra data fr˚an CPUn till GPUn.

5.1 Samhällsaspekter och etiska överväganden

Eftersom landskapet f¨or musikproduktion har m˚alats om under dom senaste

˚artionden p˚a grund av den tekniska utvecklingen har det krävt omställningar i branschen. Detta har gynnat sm˚a produktionsbolag, och hobbyproducenter och bidrar till att fler personer kan skapa och ta del av ny musik. En n˚agot vag parallel g˚ar att dra till internettrevoulutionen d˚a information blev tillgäng- lig för alla som vill ha den. När teknik blir tillgänglig för allmänheten jämnar det ut maktförh˚allandena och tidigare tydliga monopol inom en bransch kan försvagas. Möjligheten för privatpersoner och sm˚a bolag att skapa kvalitativa ljud och produktioner billigare gynnar dessa nyss nämnda. Att stora produktionsbolag drabbas negativt är inte n˚agot som jag ser som en möjlighet, kanske tvärtom. Stora produktionsbolag har stora resurser och en etablerad position p˚a marknaden och kan istället f˚a möjlighet att hitta och plocka upp ny duk- tiga människor som tack vare billigare och effektivare teknik kan bidra till att ytterligare stärka kunskapen inom omr˚adet.

5.2 H˚allbar utveckling och milj¨o

Miljö och h˚allbar utveckling är n˚agot som i dagsläget är högst relevant. Sec- ondhandtjänster och ˚ateranvändning av tidigare producerade varor är en stor del i att inte överexploatera naturresurser. Om det är möjligt att ˚ateranvända redan befintlig h˚ardvara s˚a som en GPU istället för att behöva köpa speciella signalbehandlings processorer är det positivt.

(26)

av denna typ under kortare tid p˚a en GPU än p˚a en CPU. Problematiken ligger i att överföra data fr˚an huvudminnet till videominnet p˚a ett effektivt sätt. I den metod som använts resulterar det i att överföringen introducerar extra tid- skostnad. Tidskostnaden för att överföra data är inte försumbar men är s˚a pass liten att hela proceduren kan utföras med en fördröjning som är mindre än 10 ms.

6.1 Framtida arbete

Det finns mycket som är intressant att fortsätta undersöka, dels det som nämns i diskussionen gällande bitdjup och bufferstorlekar. Flera olika GPUer och CPUer borde prövas mot varandra, dels tidigare generationers GPUer mot dagens gen- erations CPUer för att utforska möjligheten att GPUer som är utdaterade för att användas vid 3d-grafik kan användas vid signalbehandling. Ett självklart test

¨

ar att jämföra hur olika GPUer st˚ar sig jämfört med processorer specifikt utfor- made för digital signalbehandling. För att fullständigt kartlägga möjligheterna

¨

ar det intressant att lista och se vilka typer av vanliga signalbehandlingsalgorit- mer som är möjliga att utföra mer effektivt p˚a en GPU än en CPU. Med hjälp av tex CUDA g˚ar det att programmera och optimera sättet som data överförs fr˚an huvudminne till videominne med buffrar och detta möjliggör eventuellt att minska fördröjningen mellan input och output, denna intjänade tid g˚ar d˚a att nyttja till fler beräkningar när data väl har överförts [1].

(27)

References

[1] Jose A Belloch, Alberto Gonzalez, Francisco-Jose Mart´ınez-Zald´ıvar, and Antonio M Vidal. Real-time massive convolution for audio applications on gpu. The Journal of Supercomputing, 58(3):449–457, 2011.

[2] Ahmet Bindal. Central Processing Unit, pages 251–438. Springer Interna- tional Publishing, Cham, 2019.

[3] G´erard Blanchet and Bertrand Dupouy. The Basic Modules. John Wiley Sons, Inc., isbn = 9781848214293, Hoboken, NJ USA, 2013.

[4] Avi Bleiweiss. Multi agent navigation on the gpu. In Games Developpement Conference, pages 39–42. Citeseer, 2009.

[5] Karla Borja, Suzanne Dieringer, and Jesse Daw. The effect of music stream- ing services on music piracy among college students. Computers in Human Behavior, 45:69–76, 2015.

[6] Shane Cook. CUDA programming a developer’s guide to parallel computing with GPUs. Elsevier/MK, Amsterdam ; Boston, 2013.

[7] WE Cummins. The impulse response function and ship motions. Technical report, David Taylor Model Basin Washington DC, 1962.

[8] Hugh Davies. A history of sampling. Organised Sound, 1(1):3–11, 1996.

[9] Steinberg Media Technologies GmbH. Vst 3 api documenta- tion. https://steinbergmedia.github.io/vst3_doc/vstinterfaces/

index.html. [Online accessed; 2020-04-21].

[10] Naga K Govindaraju, Brandon Lloyd, Yuri Dotsenko, Burton Smith, and John Manferdelli. High performance discrete fourier transforms on graphics processors. In Proceedings of the 2008 ACM/IEEE conference on Super- computing, page 2. IEEE Press, 2008.

[11] Robjohns H. Is it worth recording at a higher sample rate? https://www.soundonsound.com/sound-advice/

q-it-worth-recording-higher-sample-rate/, 2005. [Online; accessed 06-Juli-2019].

[12] Intel. intel 64 and IA-32 architectures Software Developer’s Manual. Intel.