Ljudbilders Mättnad i Film: Hur tjocka och tunna ljudbilder byggs upp

(1)

1 Kandidatarbete i medieteknik, Institutionen för teknik och estetik, vårtermin 2020

Ljudbilders Mättnad i Film:

Hur tjocka och tunna ljudbilder byggs upp

Richard Fortea | Nils Vennberg

Handledare: Peter Giger & Sebastian Hastrup Examinator: Annika Olofsdotter Bergström

(2)

2

Abstrakt

Detta kandidatarbete undersöker ljudbilder i film och vad som påverkar ljudbildens mättnad.

Med stort fokus på Walter Murchs Dense Clarity, Clear Density (2005) bryter vi ner uppbyggnaden av en ljudbild för att få bättre förståelse kring detta. Med en egenframtagen analysmetod som fokuserar på filmers ljudbild analyserar vi scener ifrån flertalet filmer och tv-program, hittar mönster kring deras ljudläggning och hur det påverkar ljudbilden. Därefter bygger vi upp en lista med förhållningspunkter för olika typer av ljudbilder. Resultatet av undersökningen blir en förklaring av hur man uppnår olika former av ljudbilder i film och varför det blir så.

Nyckelord: Ljudbild, Dense Clarity-Clear Density, Ljuddesign, Mixning, Filmljud, Filmljudsanalys

(3)

3

Abstract

This bachelor’s thesis explores soundtracks (as described by Murch) in film and what affects the soundtracks density. With a heavy focus on Murch’s Dense Clarity, Clear Density (2005), we break down the structure of the soundtrack to gain a better understanding of it. With a self- developed analysis method that focuses on a films soundtrack, we analyse scenes from several films and tv-shows, find patterns regarding their sound and how it affects the soundtrack.

Afterwards, we create a list of bullet points for different types of soundtracks. The result will be an explanation of how to achieve different types of soundtracks in films and why it is so.

Keywords: Soundtrack, Soundscape, Dense Clarity-Clear Density, Sound Design, Mixing, Film Sound, Film Sound Analysis.

(4)

4

Innehållsförteckning

Abstrakt ... 2

Abstract ... 3

Innehållsförteckning ... 4

Samskrivande... 6

1. Bakgrund ... 7

1.1 Frågeställning ... 9

1.2 Syfte ... 9

2. Tidigare & Aktuell Forskning ... 10

2.1 Ljudbild ... 10

2.2 Ljudbildens uppbyggnad ... 11

2.3 Ljudbildens uppgift ... 13

2.4 Ljudets Historia... 13

2.5 Ljudets Mättnad ... 16

3. Metoder ... 19

3.1 Designperspektiv... 19

3.2 Designmetod ... 20

3.3 Analysmetod ... 21

3.4 Projektmetod ... 24

3.5 Sammanfattning ... 24

4. Designprocess ... 25

4.1 Design ... 25

4.2 Bedömningsmatris ... 25

4.3 Teknisk Analys ... 27

4.3.1 LUFS ... 27

4.3.2 Frekvensspektrum- och vågformsanalys ... 28

4.4 Analysiterationer ... 28

4.5 Resultat av analysen ... 30

4.5.1 Antal lager med ljud ... 30

4.5.2 Murchs färgskala... 30

4.5.3 Dynamik ... 32

4.5.4 Background Ducking ... 33

4.5.5 Hur limmar element i ljudbilden? ... 33

4.5.6 Hur mycket element i bakkanalerna? ... 34

4.5.7 Lager i specifika ljud. ... 34

4.5.8 Soundmarks. ... 34

(5)

5

4.6 Resultat av tekniska analysen ... 34

4.6.1 LUFS ... 34

4.6.2 Resultat av frekvensspektrum- och vågformsanalys ... 35

4.7 Summering av analysen och frågor som uppstått ... 36

4.8 Ljudläggningsprocess ... 37

4.9 Förhållningspunkter för mixarna ... 38

4.9.1 Olympus Has Fallen ... 38

4.9.2 Mission: Impossible ... 39

4.10 Mixfas och testande ... 40

5. Resultat ... 44

5.1 Mattan ... 44

5.2 För Tunn Ljudbild ... 45

5.3 För Tjock Ljudbild ... 47

5.4 Resultat av testande i gestaltningen ... 50

6. Diskussion ... 52

6.1 Hur man kan ta projektet vidare ... 54

7. Referenser ... 56

7.1 Bibliografi ... 56

7.2 Filmografi ... 60

7.3 Ordlista ... 63

8. Bilagor ... 65

8.1 Projektmetoder ... 65

(6)

6

Samskrivande

Denna undersökning har utförts av Richard Fortea och Nils Vennberg. Uppdelningen av skrivandet har gått till på så sätt att vi gemensamt, inför varje del som skulle skrivas, kom överens om vad som skulle vara med i respektive kapitel. Efter detta formulerade vi

tillsammans en struktur där vi kom överens om vad som skulle skrivas. När denna struktur var fastställd delades skrivandet upp, för att få så jämn fördelning som möjligt.

(7)

7

1. Bakgrund

Idén till detta projektet uppstod då vi, tillsammans med ett par klasskamrater, gav oss på en kreativ utmaning. Utmaningen gick ut på att ljudlägga en isolerad effekt i ett kort filmklipp från kommersiella filmer, där vi samtidigt begränsade antal ljud vi fick använda till 5

slumpmässigt utvalda ljudfiler ur ett ljudbibliotek. Resultatet från dessa ljudläggningarna var ett par intressanta ljudeffekter. Det som var mest intressant och som även var det som triggade igång tankarna till vår nuvarande undersökning var när vi jämförde våra ljudeffekter med hur originalklippet lät.

Vi lade märke till att de ljudeffekterna vi hade skapat tog mycket plats i ljudbilden. Detta eftersom vi enbart fokuserat på den utvalda effekten och totalt ignorerat resten av vad som sker i scenen. Vi ställde oss själva frågan: “Om vi hade ljudlagt allt som finns i scenen på detta intensiva och detaljerade sätt, hade det blivit för mycket då?”. Detta ledde även till följdfrågan: “Om man ljudlagt en hel film så här hade det blivit för mycket för tittaren (lyssnaren) och hur lång tid hade det tagit innan de blev trötta i huvudet?”.

Efter vi ljudlagt dessa isolerade effekter ville vi ta oss an lite större utmaningar. Vi valde ut en hel scen från en film för att få en helhet att ljudlägga. Då kom vi i kontakt med filmen Public Enemies (Misher & Mann, 2009) som vi tyckte hade en för tunn ljudbild. Med andra ord var det något som lät fel och man hörde att något saknades. Vi kunde inte riktigt sätta fingret på det. Detta fick oss att fundera på kontrasten mellan vad som är en tunn ljudbild och en för tunn ljudbild.

Termen ljudbild kommer från svenske professorn Klas Dykhoff (2017). Dykhoff menar att en ljudbild är ett sammanbindande ord för det ljud vi hör i narrativ media. Det kan till exempel vara i en film, en ljudbok, teaterpjäs, spel eller ett radioprogram. Detta arbete fokuserar främst på ljudbild inom film.

Vi anser att detta ämne är relevant just nu eftersom det händer mer på bild i dagens filmer än vad det gjorde för 30–40 år sedan. Detta är tack vare framstegen i CGI¹. Idag ser man att det ofta är mer smådetaljer som gnistor, rök och moln av damm. Explosioner och förstörelse blir

1 CGI (Computer Generated Imagery) är tillämpningen av datorgrafik för att skapa eller bidra med bilder i film och tv-program, m.m. (Wikipedia, 2016)

(8)

8 också mer och mer vanligt. Ta till exempel en filmserie som Star Wars. Ryu (2007, s.100) skriver hur Star Wars (Kurtz & Lucas, 1977) var viktig för utvecklingen av specialeffekter på dess tid då den anses ha startat “the special effects revolution of the 80s and 90s”.

Jämfört med dagens Star Wars-filmer upplever vi de gamla nästan minimalistiska. Ser man på de äldre filmerna i filmserien idag märker man snabbt att det “endast” är ett fåtal explosioner i bild och att det är väldigt lite som händer utöver dessa få skott och explosioner. Jämför det med en scen från Star Wars: Episode IX - The Rise of Skywalker (Kennedy & Abrams, 2019) där huvudkaraktärerna blir jagade på s.k. Speeders (snabba, svävande fordon). I scenen skjuter båda grupperna av karaktärer futuriska vapen mot varandra, både med handhållna och större kanoner. Det uppstår massvis med större explosioner och eftersom de befinner sig i en öken skapas det tjocka sandmoln samtidigt som de som jagar har “jetpacks”. Det finns alltså väldigt mycket mer att ljudlägga i filmer idag än vad det fanns förr vilket påverkar hur den slutgiltiga ljudbilden ser ut. Det vi ville undersöka och anser är viktigt att ta reda på, är hur vi som ljudläggare ska ta beslut kring vad som är för mycket och vad som är för lite

ljudläggning.

Om en scen är fylld med många olika visuella element: Hur vet vi och hur väljer vi ut vad vi ska ljudlägga, kontra vad man ska ignorera? Hur mycket av de utvalda ljudeffekterna ska höras tydligt eller mindre tydligt i en mix? Vi anser att det är en väldigt finkänslig balans och skulle man göra fel där kan det lätt kan resultera i för överdriven ljudläggning eller vad vi i texten kallar för för tjock ljudbild. Det kan även gå åt andra hållet om man är för rädd att ljudlägga för mycket och därför resulterar i en för tunn ljudbild.

(9)

9

1.1 Frågeställning

Hur kan vi skapa en ljudbild med lämplig mättnad i film?

Med “lämplig” menar vi att vi tar beslut angående ljudläggning baserat på vad tidigare forskning har bevisat fungerar och varför det fungerar snarare än att förlita sig på vår subjektiva åsikt.

1.2 Syfte

Denna undersökning syftar till att hitta en grund för hur vi som ljudläggare ska tänka kring ljudbilder i film. Baserat på tidigare forskning och bevisade metoder av framgångsrika personer inom branschen hoppas vi kunna hitta svar angående vad som är för mycket ljud, vad som är för lite ljud, anledningen till varför det blir så och de elementen som orsakade ljudbilden att förändras på det sättet. Baserat på de svar vi får från forskningen planerar vi att gestalta detta genom att ljudlägga kortare filmklipp på tre olika sätt. Ett där vi bygger upp ljudbilden för tunn, ett där vi bygger upp den för tjock och ett där vi gör en ljudläggning som är “lämplig”.

(10)

10

2. Tidigare & Aktuell Forskning

I detta kapitel kommer vi presentera den tidigare forskning som finns i det område denna undersökning kretsar kring. Vi börjar med att presentera vad en ljudbild är och vad den tidigare forskningen säger om ljudbilder. Vi går sedan vidare och förklarar vad som ingår i ljudbilden och vilka byggstenar den består utav. Vi fortsätter med vad en ljudbilds uppgift i film är och vad ljuddesigners och mixare siktar efter när de ljudlägger film eller m.a.o. bygger upp en ljudbild. Efter detta går vi in på ljudbildens historia och hur den har utvecklats med tiden. När läsaren har en bättre förståelse för vad en ljudbild är går vi vidare och presenterar forskning kring mättnad i ljudbilder.

2.1 Ljudbild

Det finns ingen direkt översättning för ljudbild till engelskan. Ett antal professorer, forskare och ljuddesigners diskuterar kring vad Dykhoff (2017) kallar för ljudbild, men de har många olika benämningar för ordet.

Walter Murch använder ofta termen soundtrack (Jarrett & Murch, 2000) när han diskuterar kring film på samma sätt som Dykhoff använder ljudbild. Soundtrack rakt översatt till svenska blir ”ljudspår” men ska inte blandas ihop med svenskans ”ljudspår” vilket främst används som en term inom redigering av ljud där man kan placera ljudfiler på ljudspår och därefter få tillgång till olika redigeringsverktyg.

”It refers to every sound – to the collage of voices, noises, and music – that the movie-going audience hears coming through speakers, not just to a potentially marketable collection of music isolated from the film it accompanies” (Jarrett &

Murch, 2000, s.2)

Så här beskriver Jarrett och Murch (2000) ordet soundtrack i deras inledning. De vill

förtydliga att de inte enbart menar den musik som finns i filmen vilket också brukar benämnas som en films soundtrack. Utan att de använder soundtrack som ett samlingsord för allt det ljud vi hör komma genom högtalarna när vi ser på filmen.

Taberham (2018) har sin egen version av svenskans ”ljudbild”. Han beskriver kort om det han kallar för ”sonic landscape”. Han beskriver hur ett sonic landscape består utav distinkta röster

(11)

11 parat med slående ljudeffekter och excentrisk musik, vilket stämmer bra överens med det ovanstående exemplet.

2.2 Ljudbildens uppbyggnad

Som det tidigare exemplet förklarar, kan en ljudbild delas upp i mindre subkategorier eller byggstenar som tillsammans skapar ljudbilden. Benjamin A. Wright (2011) skriver indirekt om ljudbilder när han presenterar vad en ljuddesigners uppgift i film är. Han beskriver att en ljudläggare har hand om tusentals ljud som ska limma² ihop med bilden på ett

sammanhängande, logiskt och förståeligt sätt. Han fortsätter att förklara hur ljudmixare måste arrangera dialog, musik, ljudeffekter och tystnad för att få en lämplig ljudbalans i en mix.

Murch (2005) drar en parallell mellan ljud och vitt ljus. Mer exakt hur vitt ljus kan splittras upp i ett spektrum av alla regnbågens färger, från violett till rött. Han förklarar att allt ljud kan delas upp på ett liknande spektrum. Detta kommer vi att referera till som “Murchs färgskala”

senare i texten. Till vänster på spektrat, där färgen violett skulle funnits, har vi ”kodat” ljud (Encoded sound), som till exempel dialog. Till höger, där rött skulle funnits, har vi

”förkroppsligat” ljud (Embodied sound), exempelvis musik. Murch menar att varje språk i grund och botten är en kod med regler och när vi förstår de reglerna och kan använda dem, kan vi också kommunicera med varandra. Ljudet från våra stämband och munnar fungerar bara som ett transportmedel som levererar koden. Murch fortsätter att förklara hur musik nästan är raka motsatsen. Musik är ljud som vi upplever direkt utan att någonting kommer emellan. Ingen avkodning måste ske för att vi ska uppleva musik, vilket Murch anser är varför musik ibland kallas för det universella språket.

Allt annat ljud man hör i en ljudbild kan sedan placeras på detta spektrat (Figur 1).

Ljudeffekter placeras i mitten, där färgen gul vanligtvis är.

Eftersom en ljudeffekt

vanligtvis är kopplat till något specifikt som pistolskott,

2 Limma – När olika ljudelement låter som att det existerar inom samma utrymme och kontext. (Vargo, 2018) Figur 1 Murchs färgskala. En illustration av vilka ljud som faller var på Murchs färgskala. Hämtad 2020-02-17 från https://transom.org/2005/walter-murch/

(12)

12 dörrknackningar eller en bilmotor så faller det inte riktigt lika långt åt höger som musik men till skillnad från språk är det samtidigt inte heller något som direkt behöver avkodas. Murch beskriver det som ”ljudeffekternas språk” (language of sound effects). Det är mer universellt förstått än vad ett talat språk är. Det är alltså något mitt emellan kodat och förkroppsligat och därför hamnar det i mitten. Ljudeffekter kan dock röra sig mot båda ändarna på spektrat. Till exempel kan en ljudeffekt vara någorlunda musikalisk och röra sig mot den änden. Detta kan till exempel vara droner³ som är en typ av blandning av musik och ljudeffekter och därmed placeras mitt emellan de två, där färgen orange skulle varit. Ljudeffekter som till exempel BB8s “röst” från Star Wars: Episode VII - The Force Awakens (Kennedy & Arbram, 2015) som är en form av blandning av dialog och ljudeffekt landar istället mitt emellan de två ungefär där blågrönt skulle varit. En annan vanlig ljudeffekt som landar lite mer åt vänster mot den blågröna färgen är foley⁴.

”Just as a well-balanced painting will have an interesting and proportioned spread of colors from complementary parts of the spectrum, so the soundtrack of a film will appear balanced and interesting if it is made up of a well-

proportioned spread of elements from our spectrum of ‘sound-colors.’”(Murch, 2005, s.10-11)

Citatet ovan beskriver poängen med denna indelning av ljudet. Man behöver en blandning av ljud från alla delar av spektrat för att bygga upp en intressant mix.

Lopez och Pauletto (2010) skriver om hur de applicerat soundmarks, med hjälp av Murray Schafers definition. Det vill säga att soundmarks fungerar som ett ljudekvivalent till landmärke som karaktäriserar en plats för en grupp människor. De soundmarks Lopez och Pauletto använde sig av var exempelvis sjungande fåglar, en gräsklippare, avlägsen trafik och någon som krattar löv. Dessa använde de sig av för att förmedla att man befinner sig i ett bostadsområde. Schafer (1994) förklarar i sin bok The Soundscape att efterklang även kan fungera som ett soundmark eftersom det informerar lyssnaren om den akustiska miljö vi befinner oss i.

3 Dron - Minimalistisk musik som använder långa och utdragna ljud (Wikipedia, 2020)

4 Foley - Döpt efter ljuddesignern Jack Foley, är processen att skapa ljud i sync med bild. T.ex. fotsteg, klädrörelser och plock (Viers, 2008)

(13)

13

2.3 Ljudbildens uppgift

Taberham (2018) förklarar att ljud kan skapa, förstärka och fördjupa känslor och atmosfär genom EQ⁵ och efterklang⁶. EQ och artificiell efterklang är ett par utav många verktyg som ljuddesigners har tillgång till.

Wright (2011) skriver om hur en ljudmixare kan få en specifik ljudeffekt att stå ut för att få publiken att rikta uppmärksamheten till en specifik händelse på bild. Taberham (2018) presenterar två exempel om just denna typ av mixningsteknik:

”If a character is eating, the sound designer may add the sound of chewing to draw one’s attention to this. If a character is making notes during a lesson, the image might be accompanied by exaggerated scratching or squeaking sounds of a pencil to draw attention to the fact they are diligently following the teacher’s words.” (Taberham, 2018, s.142)

Vi som ljuddesigners kan alltså genom ljudbilden hjälpa det visuella mediet genom att leda tittarens uppmärksamhet. Ljudbilder jobbar i tandem med det visuella mediet och förstärker, som nämnt tidigare, både känslor och andra underliggande element som det visuella vill förmedla.

2.4 Ljudets Historia

Då undersökningen handlar om ljudbilder ville vi börja med att gå igenom lite hur den kontemporära ljudbilden kommit att se ut som den gör. Under stumfilmseran beskriver Benjamin Wright (2011) hur det var vanligt att filmerna visades tillsammans med

ackompanjerande musik och en del ljudeffekter som producerades med hjälp av skickliga operatörer av maskiner som producerade dessa effekter.

På slutet av 1920-talet när synkroniserat ljud introducerades till animation fungerade detta som ett hjälpmedel att hålla publikens intresse förklarar Paul Taberham (2018). Här var musiken en stor del av animationens konstruktion och spelade större roll än någon form av dialog och ljudeffekterna var själva en del av kompositionen. Michael Jarrett diskuterar detta i

5 EQ - Förkortning för “Equalizer”. Ett verktyg som kan stärka eller sänka intensiteten av specifika frekvenser i ett ljud. (Izhaki, 2018)

6 Efterklang - Ljudvågor som uppstår i stängda utrymmen studsar kontinuerligt, emot väggar, tak och golv. Detta skapar ett fenomen som kallas efterklang (reverberation på engelska). (Viers, 2008)

(14)

14 ett samtal med Walter Murch (2000), att animation senare under 30- och 40-talet inte var begränsad till verklighet på samma sätt som spelfilm⁷. De kunde med andra ord spela in olika intressanta ljud och arrangera och komponera dem på olika sätt. Detta sätt att arbeta på var spelfilmer mycket senare med att adoptera.

Under 40-talet hade inspelningstekniken utvecklats så pass mycket att ljudläggarna kunde ta med den utanför studion. Det var även under den här tiden man fick möjligheten att klippa ihop olika ljud och justera volymen och dubba över ett begränsat antal ljudspår (Taberham, 2018). Med den här möjligheten att manipulera ljud, kunde ljuddesigners nu utrycka sig på samma sätt som en målare kan uttrycka sig med färger förklarar Jarrett och Murch (2000). De fortsätter att förklara hur man på sätt och vis redan kunde manipulera ljud i form av musik, men att det motsvarar en abstrakt målning snarare än något konkret och realistiskt vilket den nya tekniken tillåter.

Jarrett & Murch (2000) diskuterar kring hur Touch of Evil (Zugsmith & Welles, 1958) av Orson Welles fortsatte att bygga på tekniker som Welles använde sig av under sin tid i radio under 30-talet. Eftersom ljud var dyrt att arbeta med i film så krävdes det artister som hade viljan att ta det den extra biten och nyttja mediet till sin fulla potential. Orson Welles och Alfred Hitchcock är exempel på regissörer som gjorde detta.

Under The Godfather (Ruddy & Coppola, 1972) och American Graffiti (Coppola & Lucas, 1973) så arbetade Walter Murch med worldizing.

Worldizing är en teknik där man spelar upp

ljudeffekter ur en högtalare och spelar sedan in det igen med en mikrofon riktad mot högtalaren.

Ljudeffekterna som spelas upp är ofta inspelade i

en studio och därför är torra och saknar rumskaraktäristik. Med worldizing fångar mikrofonen upp rumskaraktäristiken från rummet högtalaren står placerad i och man färgar därmed

inspelningen (Figur 2). Murch jämför fenomenet med skärpedjup i en kamera. På så sätt kunde de ha musiken där, men i bakgrunden, utan att riskera att den krockar med dialogen.

(Jarrett & Murch, 2000)

7 Spelfilm - En spelfilm är en film som är baserad på ett manuskript med detaljerade scenanvisningar som genomförs av skådespelare. Motsats till dokumentärfilm och animerad film. (Wikipedia, 2016)

Figur 2 Worldizing. Bilden visar ett exempel på hur worldizing kan gå till. Ur Scoring Synths Teaser Trailer [Videofil], 2018, Hämtad 2020-05-20 från https://www.youtube.com/watch?time_continue=72&

v=99SAdORetOc&feature=emb_logo

(15)

15 I American Graffiti (Coppola & Lucas, 1973) uppnådde de en rörelseeffekt genom att rotera högtalaren och mikrofonen så man upplevde att ljudet i bilar passerade kameran. Murch beskriver hur detta var något Welles hade gjort i ett primitivt format i Touch of Evil

(Zugsmith & Welles, 1958). På den filmen hade de kombinerat originalinspelningen och den atmosfäriska inspelningen genom att ställa en fast mikrofon i en gränd utanför Universal Studios, spelat in originalinspelningen som spelades upp ur en högtalare. Han hade med andra ord inte kontroll över balansen mellan originalinspelningen och den atmosfäriska och fick inte den känslan av rörelse i något. (Jarrett & Murch, 2000)

Vidare beskriver de (Jarrett & Murch, 2000) om Apocalypse Now (Coppola, 1979) som var den första filmen med surroundljud⁸ Murch arbetade på. Där berättar han om hur de hade en lista med ”do’s and don’ts” där de var väldigt försiktiga med vad de lade i de bakre kanalerna för att undvika att det skulle distrahera publiken från det som händer på skärmen. Ljud med tydlig definition höll de i de främre kanalerna. Under Apocalypse Now använde Murch även synthesisers⁹ för att skapa ljudet till helikoptrarnas propellerblad. Detta är ett exempel på när spelfilmen började designa ljud som inte var kopplat till verkligheten, i likhet med de

animerade filmerna på 30- och 40-talet.

Nästa stora steg var att få digitala redigerings- och mixverktyg. Detta ledde till att man kunde arbeta mycket snabbare och effektivare förklarar Wright (2011). Inte bara att de fick

möjligheten att arbeta icke-linjärt, de kunde även spela in stora ljudbibliotek att hämta ljud ifrån så man inte var tvungen att gå ut och spela in alla effekter man inte kunde fånga upp på inspelningsplats. Det möjliggjorde också att arbeta med upp till 128 spår i Pro Tools¹⁰. Detta var så klart en stor tillgång, men kunde även skapa sina egna problem. Vi tolkar det som att Wrights (2011) slutsats är att möjligheten att ljudlägga så mycket tack vare de 128 spåren i Pro Tools skapade vissa problem rent socialt, då exempelvis regissören, mixaren och

kompositören alla försöker få sina viljor igenom så löper man större risk att det krockar i den slutgiltiga produkten.

8 Surroundljud - Ljud som spelas upp i flera kanaler. Vanligaste är 5.1-surround där du omsluts av 5 högtalare med en Subwoofer. (Holman, 2008)

9 Synthesisers - Vardagligen “Synth” eller “Synt”. Ett elektroniskt musikinstrument som via analog eller digital ljudsyntes skapar ljud. (Wikipedia, 2019)

10 Pro Tools - Ett digitalt ljudbearbetningssystem, utvecklat av Avid. (Izhaki, 2018)

(16)

16

2.5 Ljudets Mättnad

Mättnad i ljud är hur ihoppackat allt ljud man hör ur högtalarna är. Står karaktärer på ett torg i en folkmassa och det är ljud från motorer, tutor, sirener, fotsteg och sorl, har ljudbilden en högre mättnad. Sitter karaktären på ett café tidigt på morgonen och det enda du hör är fågelkvitter och en kaffekopp har ljudbilden en lägre mättnad.

Benjamin Wright (2011) berättar om hur mixaren Beau Borders refererade till de olika ljudkategorierna som auditiva matgrupper. Kategorierna av olika effektelement inkluderade vapen, djur, foley och bakgrundsljud. Varje kategori innefattade dussintals val som

ljudläggaren själv hade förmixat. Borders förklarade det så att man inte ville använda alla ingredienserna på en och samma gång så det blir en stor sörja. Men att man också kan riskera att en blir för dominant så rätten bara smakar en sak. Borders refererade till en actionsekvens han förberedde sig för att mixa. Han förklarade att om man har för många pilar som swooshar förbi så blir ljudet för tjockt och odefinierat, har man för mycket bakgrundsljud kan dialogen drunkna och för mycket Foley kan förstöra ett ljud av ett djur som är viktigt för scenen.

Taberham (2018) berättar om hur det finns en relation mellan röster och andra ljudelement som kan karaktäriseras i form av en hierarki av ljudets vikt. Dialog ligger i toppen av denna hierarki, som följs av ljudeffekter, sen ambienta effekter och till sist musik vid botten. Matteo Torcoli, Freke-Morin, Paulus, Simon & Shirley (2019) skriver om background ducking som är en teknik som gör dialogen lättare att höra, samtidigt som man tillåter bakgrundsljuden att vara intressanta och underhållande.

De (Torcoli, et al., 2019) utförde en

undersökning inom dokumentärfilmer om de optimala duckningsnivåerna, då det inte fanns dokumenterat tidigare. De fokuserade på loudness difference (LD) mellan förgrundsljud (dialog) och bakgrundsljud. Baserat på

resultatet rekommenderar de att ha en skillnad på 10 loudness Units (LU) mellan dialog och musik, och 15 LU mellan dialog och ambienta ljud (Figur 3). De menar inte att genom följa

Figur 3 Loudness difference. Bilden illustrerar hur duckning går till och förtydligar hur dialog bör ligga i förhållande till bakgrundsnivåer. Hämtad från Background Ducking to Produce Esthetically Pleasing Audio for TV with Clear Speech. (s. 2) av M. Torcoli, A. Freke-Morin, J. Paulus, C.

Simon och B. Shirley, 2019. Paper presenterat vid AES 2019, Audio Engineering Society 2019, Dublin, Irland.

(17)

17 deras resultat så får man per automatik en estetiskt önskvärd mix. Erfarna mixare menar de fortfarande är oersättliga.

Wright (2011) skriver om hur viktigt det är att få dialoginspelning med så lite bakgrundsljud som möjligt från inspelningsplatsen. Även om post-produktionen har hand om majoriteten av materialet så är det viktigaste produktionsmixen, då det är där filmen bär eller brister. Här menar Wright att det finns små nyanser i en inspelning från prestationen på plats som är svåra att replikera efteråt i en studio. Till exempel, hur de känner och hur de rör sig under scenen.

Ett extremt exempel på hur viktigt detta kan vara är när Heath Ledger gick bort kort efter inspelningen av The Dark Knight (Thomas & Nolan, 2008), berättar Wright (2011). Detta hade försvårat inte bara det tekniska att tvingas få en matchande rumsklang för att ljudbilden ska limma, utan även det faktum att man blivit tvungen att göra ADR¹¹ med en annan

skådespelare. Då måste inte bara rösten matcha men också känslan Ledger framkallade under produktionen.

Wright (2011) skriver hur mixaren Larry Blake har en burdus syn på den nuvarande relationen mellan kompositör och mixare. Han menar att kompositören är någon man bör undvika att bjuda in till mix-sessionerna, eftersom de är där för att få sin musik att spelas så högt som möjligt. Detta bidrar då till en högre mättnad och kan göra det svårare för mixaren att balansera resten av mixen. Denna förhandling mellan mixare och kompositörer är en av de största delarna i mixning inom Hollywood.

Walter Murch diskuterar med Jarrett (2000) kring hur han inte bara tänker på det ljudet som finns i det rummet en karaktär befinner sig i, utan även det ljudet som finns utanför

byggnaden. De ljuden måste då vara ett relativt starkt pulserande eller något med en tydlig tonalitet som kan penetrera väggarna. Utan det löper man risken att det blir ett generellt stadsljud som mer uppfattas som rosa brus, det saknar karaktär.

Murch (Jarrett & Murch, 2000) beskriver även när han skulle ljudlägga exempelvis helikoptrarna i Apocalypse Now (Coppola, 1979), så måste man tänka på att det är

komplicerade maskinerier som har många olika komponenter som ger ifrån sig ljud. Detta kan

11 ADR (Automated Dialogue Replacement) - En process där man spelar in repliker i studio med skådespelaren.

Detta görs generellt om ljudet från inspelningsplats inte är tillräckligt bra (Purcell, 2014).

(18)

18 vara de tidigare nämnda propellerbladen eller bruset från motorn. Man bör då välja vilka av de olika komponenterna som ska få mest utrymme för att inte ta upp för mycket plats i

ljudbilden och därmed ge den en för hög mättnad. Hade man t.ex. ljudlagt varenda komponent från en helikopter hade det inte funnits plats för något annat i mixen utan att överskrida en lämplig mättnad.

(19)

19

3. Metoder

I denna delen av texten presenteras de olika metoder som gått in i undersökningen vi

genomfört. I det ingår designperspektiv, projekt-, design- och analysmetoder. Vi presenterar även hur vi applicerar, och modifierar dem för att bättre lämpad för denna undersökning.

3.1 Designperspektiv

Vårt designperspektiv har sin grund i texten Dense Clarity, Clear Density (DCCD) av Walter Murch (2005). I texten skriver Murch om hur man kan uppnå en tydlighet i ljudbilder trots att den har en förhållandevis hög mättnad. Han fortsätter att beskriva om hur ändamålet, inte nödvändigtvis helgar medlen när det kommer till att mixa en film. När man ska skapa vad som visuellt ser ut att vara enkel scen mellan två personer som för en dialog, måste man ibland ta hänsyn till att flera dussintals ljudspår ska skapas och sömlöst blandas ihop.

Bakgrundsljud, foley, ljudeffekter och musik finns det ofta multipla spår av trots att det är en, till synes simpel scen. Vid andra tillfällen kan en, till synes komplex actionscen gestaltas med ett fåtal, väl utvalda element. Det är m.a.o. inte alltid uppenbart vad som krävs för att få fram slutresultatet. Det kan vara enkelt att vara komplex, och komplicerat att vara enkel.

”Seventy years ago, for instance, it would not have been unusual for an entire film to need only fifteen to twenty sound effects. Today that number could be hundreds to thousands of times greater.” (Murch, 2005, s.7)

Murch (2005) fortsätter att förklara när man närmar sig slutet av mixen, på nästan alla filmer, kommer stunder där balansen mellan dialog, musik, och ljudeffekter plötsligt förvandlas till en så extrem blockad att t.o.m. de mest erfarna regissörerna och mixarna överväldigas av de beslut som måste fattas

Som vi tidigare nämnt jämför Murch (2005) ljud med ljus. Vitt ljus (som innehåller alla färger) översätts då till vitt brus (som innehåller alla frekvenser). Tänk alla ljud från hela frekvensspektret spelas samtidigt, ta New York som exempel. Där kan finnas skrik,

viskningar, bilar, byggarbetsplatser, tunnelbanor, gatumusik, m.fl. Här delas ljuden upp i det tidigare nämnda spektret som visar de gömda elementen från det vita bruset.

(20)

20 DCCD fungerar som ett sätt att tänka kring ljudläggning och mixning. I detta stadie är inte det viktiga vilka ljud som placeras vart i stereobilden¹², det är inte heller viktigt vilken del av Murchs färgskala som är mest framträdande vid en given stund i filmen. Som vi förklarat innan är det enkelt att vara komplex och komplicerat att vara enkel. Detta ljudmättnadstänk ligger som grund för detta arbete och det är denna dynamik vi har utforskat vidare i. Hur vi kan uppnå den här komplicerade enkelheten vilken leder till tydligare ljudbilder, speciellt i kaotiska scener. För ett mer generellt resultat har vi fokuserat på scener som har något vi kallar för passivt narrativa ljudbilder vilka står i kontrast till estetiskt narrativa ljudbilder.

En passivt narrativ scen kan vara två karaktärer som går längs en gata i New York. Här tas det i hänsyn till färgskalan i den bemärkelsen att man kommer höra de tidigare nämnda elementen man kan finna i New York. Man tar ändå hänsyn till den dialog som förs mellan karaktärerna, man duckar alltså de övriga färgerna på skalan för att lämna plats till dialogen. Jämför detta med en estetiskt narrativ ljudbild, exempelvis

en scen ur Harry Potter And The Order of The Phoenix (Heyman & Yates, 2006) där en familjemedlem till Harry mördas, och de tar bort alla ambienta ljud, allt foley, till och med Harrys skrik (Figur 4). Det enda som lämnas inne är musiken och ett fåtal abstrakta ljudeffekter.

3.2 Designmetod

De mer praktiska delarna av DCCD är hur färgerna förhåller sig till varandra inuti färgskalan.

Här förklarar Murch (2005) hur man kan max ha fem lager av ljud under en femsekunders- period för att tolereras av publiken. Med andra ord att de ska ha en klar bild av de individuella elementen i mixen. Man vill att ljudbilden ska vara både tät och tydlig. Men för att använda sig av fem lager måste de vara jämt fördelade över färgskalan. Om ljuden hamnar i en del av färgerna, sjunker gränsen till två och ett halvt lager. Vill man ha två och ett halvt lager av dialog exempelvis, och man vill att publiken ska förstå vart enda ord, måste man eliminera de konkurrerande ljuden som kan krocka med dialogen.

12 Stereobilden - Hur ljudet är utspritt i stereoperspektivet. Med andra ord hur det fyller ut från vänster till höger.

(Kontrollrummet, 2009)

Figur 4 - Harry Potter and the Order of the Phoenix (Heyman

& Yates, 2007)

(21)

21

Murch (2005) berättar om ett problem han stötte på när han mixade Apocalypse Now

(Coppola, 1979), som uppstod när han hade sex lager av ljud, spritt över hela färgskalan. Han hade passerat tröskeln där ljudbilden var tät på bekostnad av tydligheten. Nästa steg blev att reducera antalet lager, lyckligtvis var ljuden jämt fördelade i färgskalan, så inga större

ändringar avkrävdes. Hade ljuden däremot inte varit lika utspridda, skulle gränsen vara under fem.

”I could build a ”sandwich” with five layers to it. If I wanted to add something new, I had to take something else away” (Murch, 2005, s22).

I samma scen av Apocalypse Now (Coppola, 1979) berättar han om hur han gjorde ett val att ta bort all musik när pojken i helikoptern skriker ”I’m not going, I’m not going!” (Figur 5).

Eftersom han sitter i helikoptern som producerar musiken borde, rent logiskt musiken vara högre där än någon annanstans. Men för storyn behövde man höra honom och Murch ville även föra fram alla vapenljud och

explosioner som representerar kaos.

Samma sak med helikopterljudet som representerar trygghet. Under dessa förhållanden fick musiken offras.

Han avslutar med att mättnad i en ljudbild borde lyda samma regler som ljudstyrkedynamik.

En mix ska, stund för stund, vara så tät eller stark som storyn och händelserna i bild kräver.

En extremt tät ljudbild är lika påfrestande som en film med extremt stark ljudstyrka. Poängen är att under de bästa av förhållanden är fem lager en tröskel man inte ska passera utan vidare eftertanke. Trots allt detta ska man dock inte glömma att målet med film är att publiken ska följa storyn och den rätta ljudbilden är det som tjänar berättandet bäst (Murch 2005).

3.3 Analysmetod

Det finns få analysmetoder av ljudbilder inom film som fokuserar enbart på ljudet så som vår undersökning kräver. De få metoder som finns har ofta huvudfokus på bildmediet, narrativet och nämner ofta bara ljudet kort som komplement till det som sker på skärmen. Vi har därför valt att ta fram en egen analysmetod, baserad på två andra analysmetoder, som inriktar sig mer på filmernas ljudbilder och är mer lämplig för det vi ville undersöka. Som nämnts

Figur 5 - Apocalypse Now (Coppola, 1979)

(22)

22 tidigare ville vi göra bedömningar av ljudbilder baserat på forskning och etablerade metoder.

Med andra ord försöker vi hålla bedömningen så objektiv som möjligt. Detta har presenterat en stor utmaning för oss då ljudanalys är mycket svårare och mer subjektiv än bildbaserad analys (Kerins, 2011) vilket vi har fått ta hänsyn till i vår analysmetod.

Vi har baserat vår analysmetod på en metod framtagen i boken Beyond Dolby av Kerins (2011) och på den empiriska cykeln så som De Waard (2010) beskriver den. Vi har dock anpassat båda metoderna för att det bättre ska fungera i vårt arbete.

Kerins (2011) beskriver att det finns 3 kriterier han vill uppfylla med sin analysmetod av filmljud:

1. Analysen ska fokusera på det filmiska. Det vill säga bilden, ljudet och manuset.

Vi har tidigare deklarerat att vi ville rikta in oss mer på ljudbilden och inte så mycket på bildmediet. Därför har vi valt att anpassa detta på så sätt att vi, till skillnad från andra filmanalysmetoder, inte kritiserade det som sker i bild eller det narrativa. Däremot eftersom ljudet är beroende av det som sker på bild och det narrativ som framstår måste vi respektera det när vi analyserar ljudet. Detta är anledningen att vi valde bort scener där ljudläggaren gjorde mer extrema estetiska val som går bort från normen, vilka vi beskrev tidigare i exemplet från Harry Potter and the Order of the Phoenix (Heyman & Yates, 2006). Istället analyserar vi scener med passivt narrativa ljudbilder för att vi lättare ska kunna respektera kopplingen mellan det som sker på bild och ljudbilden och för att få en mer generell bedömning av ljudbilder som helhet.

2. Metoden ska vara flexibel och robust nog att gå att applicera på ett brett urval av filmer.

Denna punkt använder vi oss av utan direkt vidare anpassning. Vi anser att det är en viktig kvalitet för vår metod att inte vara nischad. Detta för att undvika att den endast går att applicera på en speciell typ av scen eller genre som t.ex. actionscener eller kontorsscener.

Oavsett genre och intensitet ska metoden gå att appliceras. Vi byggde upp en

bedömningsmatris med ett antal punkter. Alla punkterna är anpassade för att de ska leva upp till detta kriteriet.

3. Den ska vara lättillgänglig för alla forskare.

Det vill säga att metoden inte ska kräva någon specialiserad utbildning inom ljud eller omfattande teknisk expertis. I vårt fall där vi ska studera och analysera något som är relativt

(23)

23 nischat kanske inte direkt lever upp till denna punkten. Vi anser dock att med den

presenterade forskningen vi har tagit fram får läsaren mer än tillräcklig förståelse för vad vi ville undersöka och att forskningen helt enkelt är en del av vår metod att analysera ljudbilder.

Alla våra punkter i bedömningsmatrisen är antingen lätta att förstå för sig själv eller kopplade till forskningen vi har presenterat.

De Waard (2010) förklarar tanken bakom den empiriska cykeln som att gång på gång gå igenom de olika faserna av cykeln för att utöka vetskapen inom kunskapsområdet i omgångar.

Dessa faser är observation, induction, deduction, testing och evaluation (Figur 6).

I observation-fasen ska forskaren göra en inventering kring det vetenskapliga materialet som finns kopplat till området i fråga (De Waard, 2010). Denna fasen har vi gått igenom då vi samlat på oss både forskningsmaterial och

branschlitteratur.

Induction-fasen går ut på att forskaren, genom olika metoder försöker avslöja outforskade delar av de befintliga teoretiska koncept eller variabler (De Waard, 2010). Detta kan man exempelvis, jämföra med vårat val att fokusera på de passivt narrativa ljudbilderna efter att ha läst den tidigare

forskningen, men framför allt DCCD av Walter Murch.

Deduction-fasen är där forskaren slutför sina teoretiska antaganden och fastställer en specifik, testbar hypotes (De Waard, 2010). Vid denna fas slog vi ihop det vi läst i DCCD och Beyond Dolby för att ha en grund för vår kommande analys. Sedan togs det fram en

bedömningsmatris där vi valde ut specifika element att fokusera på när vi skulle sätta oss för att analysera filmer. Då vi inte drivit en specifik hypotes fyllde bedömningsmatrisen samma funktion som en hypotes, då det är en utgångspunkt för att samla information i testing-fasen.

I testing-fasen måste den faktiska empiriska undersökningen hjälpa forskaren att värdera sin hypotes, genom att analysera om det är bekräftande eller avvisande (De Waard, 2010). För oss var detta fasen där vi satte oss ner för att analysera film. Detta gjordes genom en initial

Figur 6 - Empiriska cykeln. Hämtad från Engaging Environmental Turbulence: Organizational Determinants for Repetetive Quick and Adequate Responses av De Waard. E. J, 2010,

Doktorsavhandling, Erasmus Univsersity Rotterdam, Rotterdam.

(24)

24 analys för att få en uppfattning av vad vi lade märke till i ljudbilderna. Dessa tankar skrevs ner som stöd för framtagandet av bedömningsmatrisen.

När vi återkom till denna fasen strukturerade vi analyserna på så sätt att vi lyssnade igenom varje filmklipp fem gånger. Första genomgången skedde utan något specifikt i åtanke, sedan delades bedömningsmatrisen upp i fyra kategorier, där vi såg igenom klippen fyra gånger med de olika kategorierna i åtanke. Efter varje kategori tog vi en paus på ca 10 minuter för att hörseln skulle få slappna av.

I evaluation-fasen ska forskaren reflektera över värdet av de nyfunna teoretiska insikterna i materialets hållbarhet i olika sammanhang och situationer (De Waard, 2010). Exempelvis, i vår första analys kunde vi notera att vi underskattat hur mycket plats musiken skulle ta plats i ljudbilden. Detta tog vi hänsyn till och adderade musiken till vår bedömningsmatris inför nästa analys.

Efter evaluation-fasen gjorde vi ett medvetet val att gå direkt till deduction-fasen, då vi redan lagt grunden för undersökningen med den tidigare forskningen och valet att fokuserade på de passivt narrativa scenerna i observation- och induction-faserna. Denna anpassning av

metoden, att göra de initiala stegen i cykeln först och sedan påbörja cykeln på nytt med deduction, direkt efter evaluation-fasen, anser vi mer lämplig för den här undersökningen.

3.4 Projektmetod

Vi har använt oss utav projektmetoderna Scrum (Scrum.org, u.å.) och Kanban (Projektledning. u.å.). Vissa delar av de olika metoderna ansåg vi inte passade vårt

arbetsförhållande då vi endast var 2 personer i projektet, se bilaga “Projektmetoder” för mer detaljer.

3.5 Sammanfattning

Vi använder oss utav Dense Clarity, Clear Density av Walter Murch(2005) och hans idé om att uppnå tydlighet i täta ljudbilder. Vi har tagit fram en egen analysmetod för filmljud. Den är baserad på två andra metoder vilka vi har tagit element ifrån för att skapa någonting som var mer lämpligt anpassad för vad vi var ute efter.

(25)

25

4. Designprocess

I detta kapitel presenterar vi hur vi använder vår analysmetod som en del av vår designprocess att ljudlägga två filmklipp på tre olika sätt. Vi presenterar hur den tidigare forskningen och metoderna hjälper oss att lägga grunden för den design vi tar fram för att uppnå den lämpliga mättnad, som vi presenterat i frågeställningen. Vi utförde även en teknisk analys för att få reda på hur olika filmer förhåller sig till ljudstyrkenivåer och dynamik. När alla dessa analyser slutförts framkom frågor som inte kunde besvaras med forskningen vi presenterat.

Därför tog vi dessa vidare och testade i ljudläggningen av filmklipp.

4.1 Design

Målet var att välja ut två korta filmklipp ifrån kommersiella filmer av olika genrer och sedan ljudlägga dessa och ta stöd i analys vi har utfört när vi tar beslut om ljudläggningen. Analysen som vi använde som stöd gick ut på att analysera ljudbilden i cirka 20 scener ifrån filmer av olika genrer. Scenerna i fråga var även olika typer av scener. T.ex. intensiva actionscener, lugna dialogscener, biljakter etc. Detta för att analysen skulle bli matad med ett så brett

spektrum av filmer som möjligt och därmed inte vara allt för specificerad på hur ljudbilder ser ut i en specifik genre utan vara mer generell. Utifrån analysen ville vi hitta mönster och svar på hur scener är ljudlagda i den kommersiella filmindustrin och applicera det på de klippen vi skulle ljudlägga. För att förtydliga vår poäng av vad som är för mycket ljud och vad som är för lite ljud, designade vi även två extra versioner av varje filmklipp där vi under- och överdriver ljudläggningen efter det resultat vi fått ut av analysen.

4.2 Bedömningsmatris

Tidigt i processen skrev vi om den tidigare forskningen, DCCD och försökte komma fram till en bedömningsmatris att ta hänsyn till när vi skulle göra en slutgiltig analys av ljudbilderna.

Detta ledde oss runt i cirklar, då fler och fler variabler dök upp i forskningen, samt våra egna tankar. Vi beslutade att sätta oss och göra en initial analys för att få en uppfattning av hur filmerna faktiskt låter för att komma igång med processen.

Under den initiala analysen lyssnade vi på ett par filmklipp och noterade i princip allt vi kom att tänka på när vi satt och lyssnade med ett kritiskt öra. Detta kunde vara allt från vart i mixen ljudeffekter var placerade, till när de höjde och sänkte musik i mixen eller om det var

(26)

26 specifika ljudeffekter som inte limmade med ljudbilden. När vi sedan ställde våra noteringar mot forskningen hjälpte det oss se vad som skulle bli viktigt i vår uppkommande analys. Med denna information konstruerade vi fram en bedömningsmatris att följa under den mer

djupgående analysen.

Det vi lyssnade efter när vi såg filmsekvenserna:

Antal lager med ljud

(Murch, 2005)

Lyssna efter om Murchs 5 ljudlager överskrids eller om de ligger precis på gränsen konstant, eller om de mestadels ligger under och i så fall hur långt under.

Murchs färgskala (Murch, 2005)

Vilka av färgerna från Murchs färgskala som träder fram mest i mixen i olika sekvenser?

Vilka som jobbar i kontrast med varandra eller ihop? Leta mönster.

Dynamik (Murch, 2005)

Hur dynamisk mixen är och hur mixaren använder sig av dynamiken i de olika filmsekvenserna?

Background ducking (Torcoli et al., 2019)

Lyssna efter om det finns eller inte.

Är det för lite eller för mycket ”ducking”? Enda förhållningspunkten vi hade var vår observation. Vi kunde lyssna efter det men kunde tyvärr inte mäta det efter Torcolis et al. (2019) rekommenderade nivåer, eftersom vi inte har tillgång till separata spår och stems av filmerna vi analyserade

Musikens intensitet (Wright, 2011)

Som nämnt tidigare lade vi märke till att vi i den initiala analysen hade underskattat hur stor plats musiken tar i ljudbilden. Därför lade vi till detta som en punkt så vi potentiellt kunde dra paralleller och hitta mönster mellan intensiteten av musiken och någon annan punkt eller kritikers tankar om filmen

Hur limmar element i ljudbilden?

(Wright, 2011)

Finns det specifika element, till exempel ljudeffekter eller

röstinspelningar som sticker ut ur mixen? Om de är dåligt mixade kanske de låter som om de befinner sig i fel rum och det skulle kunna bidra till uppfattningen av hur tjock en ljudbild är.

Lager i specifika ljud. (Ex: Tågljud, Maskinljud, Propeller)

Vad framstår mest i specifika ljudeffekter?

(27)

27 (Jarrett & Murch,

2000) Soundmarks (Lopez & Pauletto, 2010)

Finns det tydliga soundmarks?

I förberedelse för att börja använda bedömningsmatrisen delade vi upp den i fyra grupper i hopp om att vi skulle kunna effektivisera processen och få svar på flera olika punkter samtidigt istället för att lyssna efter svaren ett i taget. Vi delade in “Antal lager med ljud”,

“Murchs färgskala” och “Dynamik” i första gruppen. Andra gruppen innehöll “Background ducking” och “Musikens intensitet”. Tredje innehöll “Hur limmar element i ljudbilden?” och

“Hur mycket element i bakkanalerna?”. Fjärde och sista gruppen innehöll “Lager i specifika ljud” och “Soundmarks”.

4.3 Teknisk Analys

Alla ovanstående punkter i bedömningsmatrisen är det vi lyssnat efter då vi sett igenom filmsekvenserna. Vi gjorde även en kortare, teknisk analys där vi såg över LUFS (Loudness Unit Full Scale), gjorde en frekvensspektrumsanalys och en vågformsanalys.

4.3.1 LUFS

LUFS är en enhet som identifierar hur högljudd t.ex. en ljudfil är i genomsnitt. LUFS är kopplat till människans hörsel och upplevelse av ljud (Rory, 2019). Det finns vissa ljud som människan antingen inte upplever lika starkt eller upplever starkare än den faktiskt fysiska ljudvågen är. Här kan vi dra paralleller till vår uppfattning av mixen och se om det är någon koppling mellan de två.

Det finns många underkategorier inom LUFS som analyserar och presenterar flertalet

karaktäristiker av ljud. Vi har valt att fokusera på två utav dessa då vi anser de vara viktiga för vår undersökning och analys; Average dynamics och Loudness range. Average dynamics mäts i Loudness Units (LU) och ger ett värde för hur komprimerad ljudfilen är. Loudness range mäts också i Loudness Units (LU) och är skillnaden mellan ett klipps mest högljudda och tystaste del.

(28)

28 4.3.2 Frekvensspektrum- och vågformsanalys

Frekvensspektrumsanalysen består huvudsakligen av två punkter. Spektrogram och FFT-analys (Fast Fourier Transform) Med hjälp av dessa ser vi vilka frekvensband som det sker mest i under klippens spelning och vi kan hitta mönster och kopplingar till vår uppfattning av mixen.

Spektrogram visar frekvensers intensitet med hjälp av färger. Ju ljusare färg, desto mer aktivitet runt den frekvensen sker. Detta visas upp med frekvensen på y-axeln och tid på x- axeln (Figur 7).

I en FFT-analys analyseras en ljudfil och visar frekvensen på x-axeln och intensiteten av sagd frekvens på y-axeln (Figur 8). Detta kan antingen vara vid en viss tidpunkt eller över en längre tidperiod där den istället ger ett snitt på vilka frekvenser som varit aktiva.

Genom att studera och analysera ljudfilers vågformer försökte vi hitta mönster och kopplingar mellan vågformens utseende och hur tjock eller tunn ljudbilden är.

4.4 Analysiterationer

Som vi beskrivit i vår analysmetod är en del att vi ska utföra iterationer för att metoden kontinuerligt ska vara så uppdaterad och anpassad till vårt behov som möjligt. T.ex. om vi anser att bedömningsmatrisen saknar en viss punkt att analysera eller lyssna efter. De iterationer vi gjorde var:

Vi lade till punkten ”Hur stark upplevs mixen” i bedömningsmatrisen. Eftersom vi hade mätt upp en lyssningsnivå som vi behöll konstant när vi lyssnade på de olika klippen märkte vi snabbt att klippen hade väldigt olika ljudstyrkor. Därför ansåg vi att det var nödvändigt att lägga till denna punkt dels för att ha dokumenterat den upplevda ljudstyrkan ifall vi längre fram märker att vi var färgade av den och dels för att dra potentiella paralleller mellan den tekniska analysen och vår uppfattning av ljudstyrkan.

Figur 7 – Ett spektrogram

Figur 8 – FFT-analys

(29)

29 Vi bytte tillvägagångssätt för hur vi lyssnade på klippen. Istället för att lyssna på klippen en gång per kategori, bestämde vi oss för att lyssna tillräckligt många gånger för att känna oss trygga i att vi gjorde en rättvis bedömning. Sedan tog vi tio minuters paus innan vi påbörjade nästa kategori.

I en senare iteration ansåg vi att tio minuters paus mellan varje kategori blev för mycket uppehåll och det blev för hackigt att jobba på det sättet. Därför bestämde vi att vi tar pausen mellan varje klipp istället för varje kategori och bytte därmed tillvägagångssätt ytterligare en gång

Mot slutet av analysen ville vi visualisera resultatet från vår analys av färgskalan genom att konstruera ett diagram. Därför började vi tilldela värden till varje färg i mixarna av de filmer vi analyserade. Varje färg fick två värden mellan 1 och 10. Ett värde för hur mycket av sagd färg som fanns med i mixen och ett värde för hur starkt det som fanns av den färgen var mixat. Till exempel, om ett klipp hade väldigt lite dialog men den lilla dialogen som fanns var stark mixad skulle det första värdet vara lågt och det andra vara högt. Utöver detta tog vi även fram ett värde för hur stor plats i mixen varje färg tog överlag, dock mellan 1 och 5 denna gången. Till exempel, om ett klipp endast har starkt mixad musik och ett annat klipp som endast har starkt mixad dialog skulle musiken ta betydligt mer plats än vad dialogen tar.

Värdet vi tilldelade den röda färgen (i vilken musik finns) blev alltså högre än värdet vi tilldelade den violetta (i vilken dialog finns). Vi tog sen de två första värdena och multiplicerade ihop de med varandra och sen ytterligare en gång med värdet för färgens generella platstagande och fick härmed ett ungefärligt värde för mixarnas mättnad (Figur 9).

(30)

30

Figur 9 – Analysresultat av färgskalan av samtliga filmklipp vi har analyserat.

4.5 Resultat av analysen 4.5.1 Antal lager med ljud

Enligt vår analys överskred inga av filmklippen vi analyserade Murchs (2005) idé om 5 lager med ljud. Där var en del som låg på 5 lager men också de som låg runt 3 lager med ljud. I snitt ligger de på ungefär 4 lager. Något vi lade märke till var att vi inte kunde se någon direkt relation mellan endast antal lager med ljud och tjockleken på mixen. I vissa fall kunde det bidra till en tjockare ljudbild men det var absolut inte den avgörande faktorn.

Anledningen att vi ville ha med denna punkt i bedömningsmatrisen var för att vi hade en teori att de mixar som generellt upplevs som ”tjocka” hade en stor sannolikhet att överskrida 5 lager med ljud men det visade sig inte vara fallet.

4.5.2 Murchs färgskala

Något av det första vi lade märke till är relationen mellan den röda musiken och den orangea ambiensen och hur de jobbar ihop. När musiken sänks träder ambiensen fram och vice versa.

På så sätt finns det alltid en matta med ljud även i de tystaste filmklippen. Ett exempel på denna relation hör man väldigt tydligt i scenen från Star Wars: Episode VII - The Force Awakens (Kennedy & Abrams, 2015). I stridsscenen där Maz Kanatas slott blir bombarderat spelas musiken kraftigt i början. Lite längre in i sekvensen, när vi följer Han och Chewbacca

(31)

31 på stridsfältet, försvinner musiken helt men blir istället ersatt med en matta av eld och kulor som flyger förbi. Denna matta försvinner igen när musiken kommer tillbaks senare.

Vi lade också märke till att relationen mellan musik och ambiens alltid finns där. Även i de tystaste filmklippen. Två exempel på detta är scenen från The Godfather (Ruddy & Coppola, 1972) när Maffiabossarna har möte och scenen efter raketuppskjutningen i Interstellar (Thomas & Nolan, 2014). Det spelas ingen musik i någon av scenerna och båda är väldigt tysta men där ligger alltid minst en lågt mixad ambiens eller ”room-tone” av något slag. Det är alltså aldrig helt tyst.

Den violetta dialogen har för det mesta varit hörbar i mixarna. Ett fåtal undantag för detta är i raketuppskjutningen i Interstellar (Thomas & Nolan, 2014) och i Alexanders (Borman &

Stone, 2004) stridsscen. I dessa blir dialogen dränkt av antingen musik eller ljudeffekter eller både och. Båda dessa scener var även de scener som vi ansåg hade väldigt tjocka ljudbilder och var mindre behagliga att lyssna på då de var väldigt starkt mixade med ljudeffekter som skar igenom mixen vilket

överlag resulterade i en väldigt utmattande upplevelse. Först trodde vi att det fanns en direkt koppling mellan tjocka ljudbilder och dialog som är svår att höra.

Detta visade sig vara delvis sant.

Ytterligare en scen som var starkt mixad var krigsscenen mellan människorna och trollen i Jack the Giant Slayer (Dobkin & Singer, 2013) (Figur 10). Starkt mixad musik, ljudeffekter som var starka och stundtals skar igenom mixen vilket gjorde det obehagligt att lyssna på.

Skillnaden mellan denna scen och de två tidigare nämnda scenerna var att trots den tjocka ljudbilden hade vi inga problem att höra dialogen i scenen från Jack the Giant Slayer. På grund av skillnaden i dessa scener dök vi djupare ner och tittade lite extra på dessa.

Vi testade att isolera centerkanalen (i vilken dialogen finns) för att se hur högt mixad den är i de olika scenerna. Vi märkte att i Interstellar (Thomas & Nolan, 2014) och Jack the Giant Slayer (Dobkin & Singer, 2013) var dialogen ungefär på samma nivå. Skillnaden är att i Interstellar var omslutande gula och orangea ljudeffekter mycket mer överväldigande vilket i sin tur gör att dialogen drunknar bort. I Alexander (Borman & Stone, 2004) var centern

Figur 10 - Jack the Giant Slayer (Dobkin & Singer, 2013)

(32)

32 svagare mixad än i de andra två scenerna och hade dessutom ett starkare mixat stereofält med musik och ljudeffekter än vad Jack the Giant Slayer hade. Musiken, som vi etablerat tidigare, har en stor påverkan på ljudbildens tjocklek. Musiken fyller oftast upp en större del av

frekvensspektrat än vad dialog gör. Är dialogen lite för svagt mixad och musiken lite för starkt är det lätt att dialogen drunknar bort och blir svår att höra.

Gula ljudeffekter, som specialeffekter och punkteffekter, var det gott om i de flesta klippen.

De enda klippen som inte hade lika mycket utav det var de lugnare dialogscenerna där fokus ligger på annat. Som nämnt tidigare hade Jack the Giant Slayer (Dobkin & Singer, 2013) och Alexander (Borman & Stone, 2004) båda starkt mixade ljudeffekter men utöver det hade vi inget speciellt noterat.

Förutom foley var det inte ofta vi lade märke till några ljudeffekter vi skulle klassificera som blågröna. I The Hobbit: The Battle of the Five Armies (Walsh & Jackson, 2014) fanns det en ljudeffekt när jättemaskarna närmar sig under jorden och man hör deras läten. Där blir man tvungen att “avkoda”, som beskrivet av Murch (2005), för att förstå vad det är som närmar sig. Som vi även nämnde i forskningskapitlet räknas BB8 läten som blågröna. En del av flygplansljuden från Interstellar (Thomas & Nolan, 2014) skulle kunna klassificeras som blågröna då de informerar tittaren att flygplanen kommer närmare vilket indirekt också bygger spänning i klippet.

Något intressant vi noterade var att under analysen var det inte alltid lätt att identifiera vilka effekter som borde klassificeras som blågröna och vilka som var gula. Ofta var det en tolkningsfråga och kom ner till en subjektiv bedömning för vad vi tyckte att det skulle klassificeras som. Till exempel i scenen från Joker (Tillinger Koskoff & Philips, 2019) där man hör skratt från publiken som ser på komikern. Skrattet skulle kunna klassificeras som en gul ljudeffekt men också som blågrön eftersom där finns saker att “avkoda” om man väljer att göra det.

4.5.3 Dynamik

De filmklipp som vi upplevde som mer behagliga att lyssna på i längden när vi utförde analysen hade också en mer dynamisk mix. Scenerna kunde vara fyllda med action men tog audiella ”pauser” från den intensiva ljudbilden. På så sätt upplevs mixen som mer dynamisk

(33)

33 vilket vi som sagt märkte korrelerar med en mer behaglig mix, som även Murch (2005)

förklarat.

4.5.4 Background Ducking

I vår analys kunde vi ibland höra ducking framförallt i actionscener där man sänkte musik och/eller ambienta ljud precis innan dialog och höjde volymen efter att dialogen avslutats.

Detta görs ofta väldigt subtilt, exempelvis i Star Wars: Episode VII - The Force Awakens (Kennedy & Abrams, 2015) när en Stormtrooper förmedlar information åt Kylo Ren. Vid ett tillfälle som vi nämnt innan överröstas dialogen av musik och ambiens i Alexander (Borman

& Stone, 2004) trots att de duckar musik och ambiens. Detta tyder på att de inte uppnådde Torcolis et al. (2019) rekommenderade duckingnivåer.

För det mesta beredde de plats i mixen ett tag innan en replik där de tar bort flera lager med ljud så dialogen inte har mycket att krocka med. Detta kan man höra i en scen ur Black Panther (Feige & Coogler, 2018) där huvudkaraktären konfronterar antagonisten mot slutet av en actionsekvens, inför deras dialog försvinner nästan alla ljudeffekter, ambienta skrik reduceras kraftigt, musiken går från stor orkestrering till endast lätta stråkar och afrikanska slagverk. I de dramascener vi analyserat har de mest använt denna metod.

4.5.5 Hur limmar element i ljudbilden?

I de filmklippen vi analyserat hade majoriteten ljudbilder som limmade bra, dvs. att allt upplevs befinna sig i samma utrymme och inget ljud sticker ut. Detta med vissa undantag, exempelvis i The Hobbit: The Battle of the Five Armies (Walsh & Jackson, 2014) stack några svärdljud ut som att de inte fanns i samma miljö som de övriga ljuden. I The Hobbits fall är det inget som påverkar upplevelsen mer än ett ögonblick. Andra klipp hade ljudbilder som inte limmade lika väl. Den som stod ut mest i detta fall var Public Enemies (Misher & Mann, 2009). I scenen vi analyserat sker det ett bankrån, där de hade flera problem. Bl.a. var

mängden foley inkonsekvent, en del saker var helt enkelt inte ljudlagda, som när ett

bankbiträde plockar fram kontanter till en av rånarna är det helt tyst. Ett annat stort problem kunde vi höra i hur rumsklangen inte matchade bilden, som Wright (2011) beskriver vikten av. Eftersom de befinner sig i en stor bank med hårda ytor förväntar man sig en rumsklang som matchar det, problemet var att mycket lät som om det spelats in i en studio.

(34)

34 4.5.6 Hur mycket element i bakkanalerna?

Av samtliga nitton filmklipp vi analyserade i surroundformat upplevde vi inte att någon av dem hade något distraherande i bakkanalerna. Detta är helt i linje med det som framkom i samtalet mellan Jarrett och Murch (2000). Vi hoppades på att hitta något exempel på när ljudeffekterna stack ut tillräckligt mycket för att vara distrahera tittaren från det visuella.

Detta för att ha något att efterlikna i våra överdrivna ljudläggningar.

4.5.7 Lager i specifika ljud.

I denna kategori valde vi att inte försöka oss på olika sci-fi-vapen eller -fordon då de kan finnas många olika lager som går in bara för att bygga upp ett specifikt ljud. Vi valde därför att fokusera på mer igenkänningsbara mekaniska objekt, exempelvis flygplan, bilar m.m. I Dunkirk (Thomas & Nolan, 2017) när flygplanen närmar sig soldaterna på stranden, hörs ett ilande motorljud som blir starkare desto närmare det kommer. Sedan när de passerar hör man mer av ett propelleraktigt ljud, som följs av ett slags väsande ljud. Detta är i stil med Murch och Jarretts (2000) diskussion kring vilka lager som träder fram i mekaniska ljud.

4.5.8 Soundmarks.

I de klipp vi valde att analysera kunde vi i flera fall inte hitta några soundmarks, som

beskrivet av Lopez och Pauletto (2010). De vi hittade var vågor, som indikerar att man är vid havet i Dunkirk (Thomas & Nolan, 2017), klinkande från glas, och sorl som indikerar att man är på en restaurang/kafé i bl.a. Joker (Tillinger Koskoff & Philips, 2019) och Baby Driver (Bevan & Wright, 2017). Rumsklangen, som nämnt tidigare, hade Public Enemies (Misher &

Mann, 2009) problem med.

4.6 Resultat av tekniska analysen 4.6.1 LUFS

De LUFS-mätningarna vi gjorde stämde bra med våra noteringar angående vilka filmklipp vi tyckte var högljudda och vilka som inte var det. De starkaste filmerna var Alexander (Borman

& Stone, 2004) och Jack the Giant Slayer (Dobkin & Singer, 2013) som båda låg på -16,7 LUFS vilket är en hög siffra (ju närmre 0 desto starkare ljud). Detta stämmer överens med hur starkt vi upplevde de två mixarna. Snittnivåerna för alla actionklippen vi analyserade låg på -22,7 LUFS och för dramascenerna låg snittnivån på -44,2 LUFS.