• No results found

Analysis of Swedish pollutants

N/A
N/A
Protected

Academic year: 2021

Share "Analysis of Swedish pollutants"

Copied!
51
0
0

Loading.... (view fulltext now)

Full text

(1)

den 8 juni 2012

David Berglund

Analys av svenska utsläppsämnen

En skattning av branschers utsläpp

(2)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

Analys av svenska utsläppsämnen

En skattning av branschers utsläpp

Innehållsförteckning

1. ABSTRACT ... 3 2. SAMMANFATTNING ... 3 3. SYFTE ... 4 3.1. PROBLEMBESKRIVNING ... 4 3.2. FRÅGESTÄLLNING... 4 3.3. AVGRÄNSNING ... 4 3.4. MÅL ... 4

4. BAKGRUND TILL DATAN ... 5

4.1. FÖRETAGSUTSLÄPP... 5 4.2. SVENSK MILJÖRAPPORTERINGSPORTAL ... 5 4.3. E-PRTR ... 6 5. DATABEHANDLING ... 7 5.1. MATCHNING AV INFORMATION ... 7 5.2. INITIAL GRANSKNING ... 9 5.3. DJUPGÅENDE SORTERING ... 10 5.4. DETALJUNDERSÖKNING... 11 5.5. KOMPLETTERANDE DATA ... 12 6. TEORI ... 13

6.1. GRUNDLÄGGANDE TEORI FÖR TEST AV LINJÄRA HYPOTESER ... 13

6.2. ANVÄNDNINGAR OCH T-TEST ... 14

6.3. GRUNDLÄGGANDE LINJÄR REGRESSION ... 15

6.4. FLERNIVÅSMODELLER ... 15 7. MODELLBESKRIVNING ... 16 7.1. TIDIGT MODELLERANDE ... 16 7.2. MODELLVAL ... 16 7.3. INDEXFÖRKLARINGAR ... 16 7.4. TERMINOLOGI ... 16 8. METOD ... 17 9. RESULTAT ... 18 9.1. TIDIG GALLRING ... 18 9.2. SULFATMASSA TILLVERKNING ... 19

9.3. TRYCKPAPPERSTILLVERKNING, EJ TIDNINGS- OCH JOURNALPAPPER ... 23

9.4. TILLVERKNING AV KRAFTPAPPER OCH KRAFTPAPP ... 24

9.5. AVLOPPSRENING ... 28

9.6. DATAAVVIKELSER FRÅN SKATTAD MODELL ... 29

9.7. FÖRETAGSEFFEKTER... 30

(3)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8 10. PROBLEM ... 32 10.1. MÄT OCH RAPPORTERINGSFEL ... 32 10.2. SIGNIFIKANTA AVVIKELSER ... 32 10.3. DÅLIG BRANSCHSORTERING ... 33 10.4. SAKNAD DATA ... 34 11. DISKUSSION ... 36 11.1. UTÖKAT TIDSINTERVALL ... 36 11.2. FLER LÄNDER ... 36 11.3. MEDIAN REGRESSION ... 36 11.4. ALTERNATIVA MODELLVAL ... 36 11.5. KORSTERMER ... 37

11.6. FLER FÖRKLARANDE VARIABLER ... 37

11.7. PROCENTUELLA RESIDUALER ... 37

12. SLUTSATSER OCH KOMMENTARER ... 38

13. REFERENSER ... 39

14. APPENDIX ... 40

14.1. SKAPANDET AV BAS... 40

14.2. RELEVANT DATA ... 40

14.3. KONTROLL OCH HOPKOPPLING ... 41

14.4. ANROP OCH HÄMTNING ... 44

14.5. HUVUDBERÄKNINGAR ... 46

14.6. TIDIG KOORDINATMATCHNING ... 48

(4)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

1.

Abstract

Today’s environmental reports contain flaws in the acquired data. This master thesis has the mission to alleviate the estimations of those flaws. The data in question, originates from Swedish industrial facilities.

The thesis involves data-treatment by statistical analysis, which is done through fitting a model by the means of analysis of variance and multilevel modeling. The thesis also involves gathering and work with data from databases, as well as systematic treatment, sorting, categorization and evaluation of the data material.

Calculations are made through the SAS statistical analysis program, which rendered estimates of fixed, linear and random effects. The results are presented through graphs and numerical estimates in the later part of the report. Calculations for estimations of the grand pollutant totals are conducted. These are compared to the observed data for relevance. Alternative ways on working on the problem at hand is discussed, as well as problems that have appeared during the work on the master thesis. The relevant code and calculations are attached towards the end.

2.

Sammanfattning

Dagens miljörapportering har brister i den rapporterade datan. Examensarbetet har som avsikt att underlätta skattningen av den saknade datan i rapporteringen, vars data härstammar från svenska företagsutsläpp.

Arbetet innebär en databehandling via statistisk analys, vilken utförs genom modellanpassning via variansanalys och flernivåmodellering. Arbetet omfattar även hämtning och bearbetning av

datamaterial ifrån databaser, så väl som systematisk behandling, sortering, indelning och tolkning av dataobservationer.

Beräkningar är utförda i SAS statistiska analysprogram, vilket renderat skattningar och

representationer av termer till fasta, linjära och slumpartade effekter. Dessa presenteras med siffror och grafer i senare delen av rapporten. Skattning av totaler beräknas och jämförs med observerad data. Problem och alternativa angreppssätt diskuteras, samt kod och beräkningar bifogas.

(5)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

3.

Syfte

3.1. P r o b l e m b es k r i v ni ng

I dagens miljörapportering är det svårt att få en bra överskådning av utsläppen inom alla

industrisektorer. Svårigheter finns i att avgöra vilken total omfattning de små industrierna släpper ut farliga ämnen, då dessa inte har krav på att rapportera om inte de överstiger bestämda

tröskelgränsvärden.

3.2. F r å g e s t ä l l n i n g

Är det möjligt att med hjälp av flernivåsmodeller skatta totala utsläpp per ämne som sker i Sverige utifrån data för utsläppsintensiva företag?

3.3. A v g r ä n s n i n g

Examensarbetet är avgränsat till företag som ligger inom Sverige. Data ifrån European Pollution Release Transfer Register används och omfattar åren 2007-2009.

Den datamängd som tagits med för analys omfattar omkring 3400 registrerade utsläpp av olika ämnen, ifrån över 300 olika arbetsplatser och utsläppspunkter.

3.4. M å l

Att analysera rapporterad data utifrån förklarade variabler för att erhålla en bättre förståelse av

utsläppen från den svenska industrin. Utifrån resultaten skall det vara möjligt att uttala sig om de totala utsläppen för hela de undersökta industrisektorerna. Totalen inkluderar då även de företag som

normalt är belägna under tröskel- och detektionsgränser. Målet är att möjliggöra hjälpskattningar, av vad ett företag inom rimliga siffror förväntas släppa ut. Dessa resultat kan t.ex. vara behjälpliga i de ytterligheter där man av någon anledning saknar data för ett specifikt företag eller grupper av företag. Alternativt fallet där man skulle vilja ha en skattning av vilka kvantiteter ett nystartat företag kommer att avge inom olika utsläppsämnen.

(6)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

4.

Bakgrund till datan

4.1. F ö r e t a g su t s l ä p p

De flesta industriella företag och producenter är skyldiga att lämna emissionsdeklaration (enligt bilaga 1 i miljörapportföreskriften (NFS 2006:9)) och genomför därför tester eller individuella beräkningar på utsläppsämnen. Datan rapporteras årligen vidare till svensk miljörapporteringsportal (SMP), där den sedan sparas om de överskrider fastslagna nationella emissionsgränser.

4.2. S v e n s k m i l j ö ra p p o r t er i n g sp o r t a l

SMP tillhör naturvårdsverket och är en viktig hjälp när Sverige skall hålla sig till Århuskonventionen och EG-direktivet (SÖ 2005:28) om allmänhetens tillgång till miljöinformation. Detta offentliggörs bl.a. för allmänheten via Utsläpp i siffror (UTIS), ett dataregister med svenska utsläpp överstigande emissionsgränserna, vilket görs tillgängligt via internet.

SMP:s samlade databas är en viktig plats för allmänheten, beslutsfattare, forskare och andra aktörer för att få information om miljöfrågor på både internationell, nationell, regional och lokal nivå.

Uppgifterna i SMP används för: • Tillsynsmyndigheters arbete

• Internationell rapportering av svenska utsläpp • Uppföljning av nationella och regionala miljömål • Sammanställning av officiell statistik på miljöområdet

Uppgifterna i SMP rapporteras årligen vidare till European Pollutant Release Transfer Register (E-PRTR).

Kravet för att rapporter som sänds vidare till E-PRTR är att företaget överskrider minst ett av de fastslagna europeiska tröskelvärdena (Europaparlamentets och rådets förordning (EG) nr 166/2006, bilaga 2).

Tester

• Fabriker / Utsläppspunkter

SMP

• Svensk emissionsgräns. Gränsen för Indata till SMP

E-PRTR

• Europeisk emissionsgräns. Gränsen för Indata till E-PRTR

Utsläpp

• Output - Utdatan av svenska dataobservationer

Data

• Detektionsgräns. Vad som är fysiskt mätbart

(7)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

Energi

Produktion och processer

av metaller

Gruvindustrin

Kemiska industrin

Avfall och avlopp

Papper och träproduktion

samt behandling av dessa

Uppfödning av kreatur

Animaliska och

vegetabiliska produkter

från mat och drycksektorn

Övriga aktiviteter

Växthusgaser

Andra gaser

Tungmetaller

Bekämpningsmedel

Klorerade substanser

Andra organiska

substanser

Oorganiska substanser

4.3. E - P R T R

E-PRTR är förkortningen av European Pollutant Release Transfer Register. Detta är ett europeiskt samlingsregister som publicerar utsläppsdata för EU:s 27 medlemsländer samt Island, Liechtenstein, Norge, Serbien och Schweiz. E-PRTR är en ersättning och förbättring av det tidigare använda European Pollutant Emission Register.

E-PRTR innehåller årliga rapporter från omkring 28000 industriella faciliteter vilka omfattar 65 olika ekonomiska områden inom Europa.

(8)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

Figur 2: Visuell representation över hur datan kopplats ihop. Här tillhör två olika

arbetsställen samma företag (företagsnamn) och men har två olika kopplingar till FDB (Tjockare linjerna, den övre svarta, respektive undre blåa).

5.

Databehandling

5.1. M a t ch ni ng a v i nf o r ma t io n

Genom att utgå ifrån de rapporterade utsläppen i E-PRTR (http://prtr.ec.europa.eu/) så erhålls en mängd unika arbetsställen i Sverige (325 st.). Där deras olika utsläpp har stor variation i storlek bland företag, ämnen och branscher sinsemellan. E-PRTR:s observationer innehåller en mängd data där de viktigaste (förutom kvantitet och utsläppsämne) består av namn på arbetsställen och deras företag, adresser och industribranscher (se Appendix 14.2 för exempel av termer). För att koppla ihop denna ursprungsdata med extra information ifrån statistiska centralbyrån (SCB), så användes omfattande arbete via tillvägagången som beskrivs nedan.

Företagsnamnen kopplade till arbetsställena i E-PRTR:s data, användes som sökvariabel för att erhålla tillhörande organisationsnummer (orgnr). Ett orgnr är en 10 siffror lång unik nyckel tillhörande företag. Sökning av orgnr genomfördes huvudsakligen manuellt via en webb-baserad databas över företag (www.121.nu).

Organisationsnumret användes därefter vidare till sökning efter arbetsställen, vilket till huvudpart gjordes via SCB:s webbsida för företagssök (www.cfarnrsok.scb.se). Varje enskilt

organisationsnummer är kopplat till en unik lista av arbetsställen. Databasstrukturen för detta är designad så att ett företag måste ha minst ett arbetsställe för att existera i registret. I de flesta fall var det dock en lång lista av arbetsställen till respektive företag. Varje sådan lista behövde en manuell genomsökning för att lokalisera det tillhörande arbetsstället kopplat till E-PRTR:s rapporterade dataobservationer. Arbetsstället har ett identifikationsnummer vilket går under benämningen

CfarNummer (CfarNr) och ligger i SCB:s företagsdatabas (FDB). De arbetsställen som behövde mest tid för matchning av CfarNr var de som tillhörde kommuner (t.ex. alla avloppsreningsverk). Dessa har nämligen en omfattande lista med tillhörande arbetsställen som ofta sträcker sig över åtminstone 30-50 poster tillhörande organisationsnumret, vilket då resulterat i mycket sökande.

CfarNumret i sin tur är den unika nyckel som krävs för att länka fram rätt information till motsvarande dataposter som ligger lagrade i FDB. CfarNr är där ett åttasiffrigt löpnummer som tillsätts i registret i FDB varje gång ett nytt arbetsställe skapas.

(9)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

Vid sökningen efter CfarNummer upptäcktes att många observationers information skiljde sig åt ifrån dagens register i FDB, vilket försvårade matchningen markant. Exempel var gator som döpts om, adresser vilka ändrats, arbetsställen där det lagts ned eller ibland saknats bra rapporter i systemet. Betydande tidsåtgång krävdes för att matcha E-PRTR:s observationer med tillhörande CfarNummer. En mängd av punkter krävde dessutom matchning med geografisk position via kartor (kartsökning på ursprungsadressen och adresser i det nya uppdaterade registret där de var ändrade), för att hitta arbetsställen inom samma område då adress, gatnamn etc. ändrats.

Trots mycket jobb med att hitta och matcha utsläppsdata mot poster, så resulterade det i att en delmängd av poster inte gick att matcha. Denna var dock försumbart liten (15 st.) och togs bort från observationerna.

Utifrån detta förarbete kopplades informationen i FDB ihop med ursprungsdatan. Därigenom erhölls antal anställda tillhörande varje arbetsställes respektive observationstillfälle (det rapporterade året).

Alternativ idé: En annan tidig tanke var att även använda andra förklarande variabler i FDB

till modellen. T.ex. arbetsställets omsättning. Det visade sig dock vara tekniskt svårt att erhålla. SCB har i företagsdatabasen visserligen omsättning rapporterad, men endast för hela företaget. Alla företag som har mer än ett arbetsställe skulle då vara omöjliga att beräkna vilken delmängd av företagets omsättning som var tillhörande respektive arbetsställe.

(10)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8 0 500 1000 1500 2000 2500 0 200 400 600 800 1000 1200 1400

Kg

(i  miljo n ta l) Antal anställda 5.2. I n i ti a l g r a n s k ni ng

Den initiala granskningen bestod i sortering av datamängden baserat på antal anställda, branscher (kemi, papperstillverkning, reningsverk etc.) och utsläpp. Branschvariabeln var information som medföljde i E-PRTR:s datarapport.

Detta gav upphov till en rad ämnen som nu kunde granskas grafiskt. Enkla grafer över arbetsplatsernas observation av utsläppsmängd (y-axeln), gentemot deras antal anställda vid observationstillfället (x-axeln), resulterade i grafer av typen som visas i figur 3 nedan:

(11)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8 5.3. D j u p g å e n d e s o rt e r i n g

Efter den initiala granskningen där alla branscher och ämnen kontrollerats med tillhörande grafer, så framgick det att påtagliga samband nästan i alla fallen saknades (se fig. 3). Sorteringen antogs därför vara för grov. Till följd av detta testades en ny och finare sortering av branscherna. För detta ändamål tillämpades variabeln ”svensk näringsgrensindelning” (förkortat SNI). Detta är en finare och lite mera djupgående branschindelning som existerar i SCB:s företagsdatabas. SNI används för att utifrån sin femsiffriga SNI-nyckel sortera in företag i branscher på olika nivåer (grovare sortering desto fler slutsiffror i SNI som ignoreras). SNI-numret erhölls med hjälp av den redan tidigare etablerade relationen, där nyckeln CfarNr återigen användes för att koppla observationerna till databasen. Till dataarbetet med SNI så krävdes extra mycket insats rörande datamängden året 2007, då

standarden därefter bytts och medfört ett nytt system på SNI-koder. Detta resulterade i mera manuellt arbete och jämförelser för företag år till år. Detta för att para ihop samma företag från det tidigare året 2007 med sina nya korrekta SNI-koder. Orsaken var att den nya standarden inbegrep att göra SNI finkänsligare och mer mångtalig. Genom att med hjälp av en kodnyckel översätta från gammal SNI till den nya standarden, så erhöll nästan alla observationer då flera samband i den nya matchningen. T.ex. om en gammal SNI-bransch var så omfattande att den kunde inbegripa fyra underkategorier, så translaterades den till fyra nya unika SNI. Mycket sortering krävdes för att ta fram rätt SNI-koder till de gamla observationerna.

Den nya sorteringen och graferna visade då ett finare (och i de flesta fall mera påtagligt) samband mellan axlarna (fig. 4-7 nedan):

Figurer 4-7: Pappersindustrins Koldioxidutsläpp. All data är från föregående figur 3, nu uppdelat i

nya SNI-delkategorier

 17112 - Sulfatmassatillverking

 17122 - Tryckpapperstillverkning, ej tidnings och journalpapper  17123 - Tillverkning av kraftpapper och kraftpapp

(12)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8 5.4. D e t a lj un d er s ö k n i ng

Eftersom många datapunkter varierade kraftigt, så krävdes en mångfald av detaljundersökningar för de mycket höga/låga extrempunkter som framträdde ur datan för olika ämnen. Via hjälp från SCB så erhölls access till SMP:s rapporterade värden (https://smp2.naturvardsverket.se/). Via detta så granskades med manuella jämförelser, om stora mängder av datan var felrapporterad eller hade förklarande kommentarer. Resultatet var att ett tjugotal arbetsställen erhöll någon sorts förklaring till starka avvikelser inom deras olika ämnen. Undersökningen utfördes genom direkt sifferjämförelse och studie av eventuella bifogade kommentarer, samt kontroll av angränsade år utanför det egentliga intervallet för ytterligare jämförelse.

Det sistnämnda betydde att då tillgång funnits till påföljande år, så var det möjligt att erhålla fler observationer med uppmätta värden för att jämföra om den eventuella extrempunkten var en anomali från företagets sida. De extra nämnda värdena har dock inte tagits med i dataanalysen, då

examensarbetet är avgränsat till åren 2007-2009. Till flera fall av datan har även vidtagits internetbaserade undersökningar om företagen i allmänhet.

Figur 8: Exempel på detaljundersökningen. Lista i Microsoft Excel över anmärkningsvärda

identifierade skillnader, problem och extrempunkter tillhörande arbetsställen inom pappersindustrin. Den fullständiga listan finns som bilaga nr. 7 i appendix (Excelanteckningar).

(13)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

Figur 9: Enkel illustration av datan. Utsläpp rapporteras in i SMP om de är

tillräckligt höga, där de större av dessa i sin tur rapporteras vidare till E-PRTR.

E-PRTR

SMP

Utsläpp

5.5. K o m p l e t t e ra nd e d a ta

Med tillgången till SMP så erhölls datavärden utöver vad som ingick i E-PRTR. Detta möjliggjorde även tillgång till rapporter av utsläpp som inte överskridit de europeiska tröskelgränsvärdena, men vilka fortfarande var kraftiga nog för att lagras i SMP.

Då det är svårt att på egen hand finna företag som inte redan nämnts (dvs. är okända för

läsaren/innehavaren av E-PRTR:s rapport) i exakt samma SNI-kategorier, så uteslöts SMP-sökningar av hela industrisektorerna efter kompletterande observationer.

Det som däremot syntes och var nämnvärt lätt, var att punktsöka de redan nämnda företag med känd SNI-kod, vilka redan rapporterats för andra ämnen i samma sektorer. Med de eventuellt extra rapporterade ämnen så kunde då tillägg till datan konstrueras genom mer manuellt arbete.

Exempel: Edet Bruk (relativt litet företag) rapporterade endast nämnvärda utsläpp av nickel (Ni) och

organiskt kol (TOC) i E-PRTR. Har företaget inga rapporterade utsläpp i andra ämnen som t.ex. fosfor, zink och kväve? Sökning i SMP resulterade i ett flertal ”saknade” observationer som kompletterade datamängden.

Sökning efter dessa ”givna” arbetsställen bland ämnen där de saknades, renderade då ett flertal av datamängderna med kompletterande observationer till sina respektive år. Detta medförde förbättring av datan som då utökandes med en extra delmängd, vilken är belägen inuti det i övrigt ej rapporterade intervallet i E-PRTR, mittemellan E-PRTR och SMP:s cut-off gränser (se figur 9 nedan).

Intervallet med delvis

kompletterande observationer

Ursprungsdata med observationer

(14)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

6.

Teori

6.1. G r u n d l ä g g a n d e t e o r i f ö r t e s t a v l i n j ä r a h y p o t e s e r

Låt oss utgå från en lineär modell , med dim Rang , grundmodellen, som förutsätts giltig, dvs. ge en korrekt beskrivning av strukturen i data. Grundmodellen föreskriver att Y:s N-dimensionella väntevärdesvektor skall ligga i ett -dimensionellt underrum till , benämnt . Hypotesen kan antingen vara formulerad så den specificerar hur skall kunna uttryckas lineärt med hjälp av färre parametrar eller också så att det föreskriver vissa lineära beroenden mellan

komponenterna i , dvs. att vissa lineära former i , … , skall vara noll. I det förra fallet kan vi skriva med en känd matris och en ny parametervektor av lägre dimension än . Insättning ger väntevärdesvektorn , vilket visar att hypotesmodellen är en lineär modell (med

designmatris ) som tillåter väntevärdevektorn att variera i ett underrum till , rummet av dimension låt säga, . I den andra formuleringsvarianten specificerar hypotesen vissa lineära beroenden i , vilket likaså innebär att enligt hypotesmodellen tillåts variera inom ett underrum

till .

Låt oss med beteckna minstakvadrat-skattningen av i grundmodellen (dvs. ), och med beteckna minstakvadrat-skattningen i hypotesmodellen.

Det är klart att om hypotesen är sann så är både och väntevärdesriktiga skattningar av det sanna . Vi kan alltså förvänta oss att både och ligger i närheten av , så avståndet är litet, i jämförelse med om hypotesen inte är sann, för då är det bara som är väntevärdesriktig. Avståndet

är alltså en naturlig utgångspunkt för ett test av hypotesen. Nu är standardavvikelserna för och båda proportionella mot den okända parametern . Närmare bestämt skall vi visa följande resultat

Sats 1: Testkriterium . Ett test på risknivån av hypotesen (eller ) erhålls om vi väljer att förkasta hypotesen då

F ,

Vi kan ge ett alternativt utryck för teststorheten i (Sats 1), som är instruktivt på sitt sätt. Kvadratsummeuppdelning ur Pytagoras sats ger att teststorhetens täljare kan skrivas som

där är hypotesmodellens väntevärdesriktiga variansskattning. Testkriteriet (Sats 1) kan alltså uttryckas med hjälp av enbart de båda modellernas variansskattningar. Låt säga att frihetsgradernas antal är stort och att hypotesen är sann. Då är båda variansskattningarna ungefär lika med sitt gemensamma väntevärde och teststorheten blir

Om hypotesen däremot inte är sann, har ett väntevärde större än , och vi kan vänta oss att teststorheten skall bli större än 1.

(15)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

Vi kan säga att vårt test består av en analys av variationen omkring hypotesmodellen,

1 . Med hjälp av den tidigare relation Pytagoras sats, kan

uttrycket delas upp i de två komponenterna och , som svarar mot residual inom grundmodellen respektive avvikelse från hypotesmodellen inom grundmodellen. Man brukar ställa upp en sammanfattande tabell av följande typ, kallad variansanalystabell, ofta benämnd ANOVA. Variansanalystabell:

Teststorheten i Sats 1 är medelkvadratsummornas kvot. Observera att tabellens

kvadratsummekomplettering, är giltig helt oavsett , dvs. speciellt vare sig hypotesen är sann eller ej. Vidare är ju residualkvadratsummans fördelning, , inte beroende av att hypotesen är sann. Avvikelser från hypotesen ger däremot utslag i fördelningen för , vi får en s.k. icke-central -fördelning. Motsvarande medelkvadratsummas väntevärde anges i tabellens högerkant. Där står för ortogonala projektionen av i hypotesrummet .

6.2. A n v ä n d n i n g a r o c h t - t e s t

Många tillämpningar och sorter av ANOVA existerar. Några av de vanligaste exemplen är: - Flersidig indelning, när det testas med flera olika responsvariabler.

- Upprepad, när samma testobjekt utsätts för flertalet olika försök.

- Flerfaktorförsök, när man vill studera interaktion mellan olika försöksobjekt.

Den mest relevanta typen av ANOVA som använts i rapportens analys är dock Ensidig indelning. Denna variant tillämpas för att testa skillnader mellan grupper. Den vanligaste användningen av ensidig indelning är när det finns minst tre grupper. I fallet där det finns två hypoteser att jämföra, så är det istället vanligt med användning av t-test. Det är då i fallet med två hypoteser, ekvivalent med F-testet med relationen

Den vanligaste användningen av t-test är test om en normalfördelad population har ett värde skilt från nollhypotesen. Där man testar om regressionslinjen är signifikant skild ifrån noll.

(16)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8 6.3. G r u n d l ä g g a n d e l i n j ä r r e g r e s s i o n

Linjära regressionsmodeller används antingen då ett teoretiskt funktionssamband finns, eller då det är alltför komplicerade relationer. Grundtanken i regressioner är att man kan beskriva samband med hjälp av en rad mindre termer för att erhålla en god approximation till det studerade ämnet/sambandet. Ett lättare exempel på linjär approximation kan ges när man erhållit n olika observationer för den beroende variabeln , med n stycken tillhörande värden på den förklarande variabeln . Sambandet kan då skrivas:

där 1, . . ,

Där och är skattade parametrar för intercept respektive linjärt beroende. står för slumpvariationer och de olika -na betraktas oberoende och normalfördelade.

Standardtillämpning för approximationen är minstakvadrat-metoden, vilken lägger tyngd på att minimera summan av de n kvadratiska avvikelserna till modellen:

min min min

Dessa kommer ifrån modellens val av den ”bästa” linjen som beskriver datan. är modellens skattning av den ”sanna” punkten med tillhörande .

6.4. F l e r n i vå sm o d e ll e r

Grundtanke till flernivåsmodeller (även kallad multinivå modell och mixad modell) är den samma som för linjär regression. Skillnaden är användandet av flera nivåer och klassindelningar för termerna. Man kan nu bygga vidare på exemplet ifrån linjär regression:

är beroende variabel och det uppmätta/observerade värdet. är förklarande variabel. står för slumpvariationer och de olika -na betraktas oberoende och normalfördelade.

I det här fallet så är och parametrar som varierar. De har nu egna samband (och egna förklarande variabler) som t.ex. kan likna den tidigare linjära regressionsmodellen.

Modellen kan då förklaras och byggas ut för mer komplicerade samband. Termer på flera nivåer kan användas, så väl som extra termer, kategorier för parametrarna, tidsberoenden och blandade termer med ett flertal index. Detta verktyg förklarar eller delar upp modellen med fler termer, tills det känns som en god approximation av vad man önskar beskriva.

(17)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

7.

Modellbeskrivning

7.1. T i d i g t m o d e l l e r a n d e

Innan en lämplig modell anpassats så testades ett flertal modeller. Dessa hade olika karaktärer och innehöll termer och sortering av komponenter så som branscher, korstermer, alternativ sortering via utsläppstyp (växthusgaser, tungmetaller etc.). Ingen av dem gav dock en bra representation och skattning av datan.

7.2. M o d e l l va l

Utifrån resultat och slutsatser från de tidiga testerna och undersökningar, antogs att utsläppsdatan kan beskrivas med en flernivåsmodell innehållandes både fixa effekter och slumpeffekter:

7.3. I n d ex fö r k la r i ng a r i – SNI-bransch

j – Arbetsenhet/Utsläppspunkt k – Utsläppsämne

t – Vilket av de 3 åren som det rapporterades. Användes som upprepade mätningar av samma

arbetsställe då fokus ej lagts på tidsaspekten.

7.4. T e r m i n o l o g i

= Observationer av utsläppsdata.

= Intercept, fix effekt. Kopplad till det eventuella startvärdet på utsläpp då företag har väldigt få anställda. Kan tolkas som en sorts ”startkostnad” för utsläpp när produktionen sätts igång.

= Linjär term beroende av utsläppsämne, fix effekt. Den skattade lutningen på korresponderande ämnesgrafen med utsläpp.

= Förklarande variabel och ett mått på företagets storlek. Antal anställda är en lämplig variabel. = Konversion/skalfaktor, unik för varje ämne och bransch. Används primärt för att få

oberoende av index i och k i modellvalet.

= Slumpeffekt/mätfel/residual på utsläppsnivå.

= Slumpmässig företagseffekt, även möjlig residual på företagsnivå. Slumpeffekten från ett företag är oberoende av andra företags slumpeffekter. Termen är förklarande för systematiska och

genomgående avvikelser av samma karaktär mellan ämnena, kopplad till samma enskilda företag/arbetsplatser.

Exempel på företagseffekt: Ett företag som systematiskt producerar mer än den skattade modellen,

kan ha många konsulter som jobbar hos dem. Dessa räknas då inte som fast antal anställa hos företaget i fråga. Modellen visar i så fall ”fel” på antal anställda och företagets plats i modellen förskjuts kraftigt åt vänster. Företaget uppvisar då höga värden i modellen.

(18)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

8.

Metod

Beräkningar och skattningar utfördes med hjälp av datorn. Till detta ändamål valdes SAS statistiska analysprogram, vilket erhölls via statistiska centralbyrån. SAS är ett av de mest vanliga och ledande analysprogrammen världen över och används av otaliga företag för statistisk analys och beräkning. Det har även inbyggt stöd för hantering av databaser via SQL, vilket var till stor nytta under examensarbetets gång. Lite extra tid behövdes dock för inlärning, då tidigare erfarenhet av SAS saknades.

Genom att köra den valda modellen i proceduren PROC MIXED, vilken är skapad för skattning av multinivåmodeller, så erhölls värden och skattningar på ämnes-intercepter samt termen kopplad till den förklarande variabeln antal anställda.

Med utgångspunkt enligt det tidigare beskrivna modellvalet (se Modellbeskrivning), så är termerna ur praktisk skattningssynpunkt och . Dvs. intercepten och den linjära termen som är kopplad till antal anställda. De bägge slumpeffekterna associerade med modellen är av naturen omöjliga att veta eller gissa utfallet i förväg, så vida man inte erhållit en mängd tidigare information som man har till hands rörandes det sökta arbetsstället. Det mest praktiska när det skall skattas, är att anta att deras väntevärden är noll.

Skattningarna beräknades med PROC MIXED i SAS med följande anrop:

Där Ng1 är namnet för variabeln innehållandes SNI-bransch och termen Anst står för antal anställda. PROC MIXED anropas och körs för varje SNI, ämne och utsläppsmedium (två stycken, luft och vatten) med hjälp av BY-satsen. Detta resulterar i att termen PollutantCode blir den term som skattas som intercept till varje enskild genomkörning.

PROC MIXED använder REML (Restricted Maximum Likelihood) som standard när den anpassar den valda datastrukturen. Variabeln ReportingYear innehållandes år, används i anropet REPEATED

för upprepade mätningar. Detta säkerställer en bättre individuell skattning till varje arbetsställe när modellen anpassas. FacilityName är namnet på arbetsplatsen där anropet subject berättar att den används för en extra nivå kopplad till de rapporterade åren.

Resultatfilen SolutionF med dataskattningarna erhålls via ODS(Output Delivery System) och har sedan undersökts och tolkats utifrån de skattade värdena. Ytterligare en iteration genomfördes sedan efter en mera grundlig datakontroll, samt då den tidigare nämnda kompletteringen av data genomförts. Det nya resultatet visade då bättre värden och skattningar vilka passades in närmre (mindre variation) samt renderade lägre t-värden i SolutionF för de korresponderande testerna av nollhypotesen.

/*Proc Mixed med output av skattningar i filen ”SolutionF”*/

PROC MIXED DATA=sasuser.SNI_rensad noclprint noitprint;

BY Ng1 PollutantCode ReleaseMediumCode;

CLASS PollutantCode FacilityName ReportingYear;

MODEL TotalQuantity = PollutantCode Pollutantcode*Anst/solution noint; REPEATED ReportingYear /subject=FacilityName;

ODS OUTPUT CovParms=sasuser.CovParms SolutionF=sasuser.SolutionF; RUN;

(19)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

9.

Resultat

9.1. T i d i g g a l l r i n g

Utifrån att det är sparsamt med dataobservationer så gallrades flera branscher tidigt bort i sorteringen då de saknade tillräckligt med arbetsställen för analys av ämnen. Vid gallringen tilltogs en tumregel att det skulle vara minst fyra unika arbetsställen, för att erhålla någon sorts relevanta skattningar.

Resulterande branscher var då de följande huvudbranscherna: - Uppfödning av kreatur

- Pappersindustrin - Avfall och avlopp - Energi

Ifrån dessa så var Anställd-utsläpps-modellen tyvärr inte anpassad för uppfödning av kreatur. Detta kan dock tes som naturligt då antal anställda inte nödvändigtvis har fullgod koppling till produktion och uppfödning. Det kan t.ex. vara en delnäring för lantbrukaren/producenten där det odlas i olika skala vid sidan om. Många utsläpp, inom de olika SNI-kategorierna för uppfödning, ligger även tätt längs tröskelgränsen (metan till luft, 10 000 kg/år). Detta medför stark misstanke att utsläppen är liknande och mångtaliga även under tröskelgränsen. Försök till skattning skulle då resultera i grovt missvisande värden jämt emot verkligheten .

Utifrån resultatfilen SolutionF från PROC MIXED så erhölls nu intressanta skattningar med p-värden i SNI-kategorierna. Konfidensintervall och p-värde har relationen:

å 100 %

Detta innebär att nollhypotesen kan förkastas med 95 % sannolikhet då p-värdet är mindre än 5 %. På samma sätt kan man använda p-värde 1 % för att ha en konfidensgrad på 99 %.

Efter all gallring och tillämpandet av PROC MIXED med 95 % konfidensgrad, så visade sig den mest homogena och välrapporterade branschen vara pappersindustrin. Det fanns även några få samband ibland kraft- och reningsverkssektorerna. Sambanden i efterföljande avsnitten kunde där med erhållas (avsnitt 9.2 - 9.5).

(20)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8 9.2. S u l f a t m a s sa t i l l v e r k n i n g

Punkterna i datan håller sig i närheten av 200 respektive lite över 500 antal anställda då det är där de rapporterade företagen placerar sig. De har dock tillräckligt med observationer för att passa in en linjär regression med tillräcklig säkerhet.

Figur 10: Utsläpp av till luft i Sulfatmassa tillverkning (SNI: 17112) åren 2007-2009.

Intercept: 0 där då nollhypotesen ej går att förkasta. Lutning: 2400000 med ett p-värde på mindre än 0,0001.

Figur 11: Utsläpp av till luft i Sulfatmassa tillverkning (SNI: 17112) åren 2007-2009.

Intercept: 0 där då nollhypotesen ej går att förkasta. Lutning: 40 med ett p-värde på 0,00043.

0 500 1000 1500 2000 2500 0 100 200 300 400 500 600 700 Kg  (i  mi ljo n ta l) Antal anställda 2007 2008 2009 0 5000 10000 15000 20000 25000 30000 35000 40000 0 100 200 300 400 500 600 700 Kg Antal anställda 2007 2008 2009

(21)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

Figur 12: Utsläpp av Nickel till luft i Sulfatmassa tillverkning (SNI: 17112) åren 2007-2009.

Intercept: 0 där då nollhypotesen ej går att förkasta. Lutning: 0,16 med ett p-värde på 0,015.

Figur 13: Utsläpp av Nickel till vatten i Sulfatmassa tillverkning (SNI: 17112) åren 2007-2009.

Intercept: 0 där då nollhypotesen ej går att förkasta. Lutning: 0,17 med ett p-värde på 0,0066.

0 20 40 60 80 100 120 140 160 0 100 200 300 400 500 600 Kg Antal anställda 2007 2008 2009 0 20 40 60 80 100 120 140 160 180 200 0 100 200 300 400 500 600 700 Kg Antal anställda 2007 2008 2009

(22)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

Figur 14: Utsläpp av Kväveoxider till luft i Sulfatmassa tillverkning (SNI: 17112) åren 2007-2009.

Intercept: 0 där då nollhypotesen ej går att förkasta. Lutning: 1100 med ett p-värde på 0,0002

Figur 15: Utsläpp av Kväve till vatten i Sulfatmassa tillverkning (SNI: 17112) åren 2007-2009.

Intercept: -26000 med ett p-värde på 0,043. Lutning: 290 med ett p-värde mindre än 0,0001.

Den teoretiska linjen skär y-axeln i den negativa delen av skalan. Detta är givetvis inte fallet i verkligheten. Det är snarare att tolka som att det är en fördröjd effekt. Företagen fram till den teoretiska skärningen av x-axeln släpper då ut värden som är väldigt låga och mycket nära noll.

0 100000 200000 300000 400000 500000 600000 700000 800000 900000 1000000 0 100 200 300 400 500 600 700 Kg Antal anställda 2007 2008 2009 0 20000 40000 60000 80000 100000 120000 140000 160000 180000 0 100 200 300 400 500 600 700 Kg Antal anställda 2007 2008 2009

(23)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

Figur 16: Utsläpp av Fosfor till vatten i Sulfatmassa tillverkning (SNI: 17112) åren 2007-2009.

Intercept: 0 där då nollhypotesen ej går att förkasta. Lutning: 18 med ett p-värde på 0,02.

Figur 17: Utsläpp av organiskt kol till vatten i Sulfatmassa tillverkning (SNI: 17112) åren 2007-2009.

Intercept: 1 000 000 med ett p-värde på 0,02. Lutning: 2700 med ett p-värde ett p-värde på 0,005.

Till första anblick antar grafen en stor variation. Trots detta blir det bra skattningar då PROC MIXED använder år som upprepade observationer. Skattningarna antar användbara medelvärden baserat på de upprepade observationerna ifrån de olika företagen/arbetsställena, innan påföljande linjär regression

0 5000 10000 15000 20000 25000 30000 0 100 200 300 400 500 600 700 Kg Antal anställda 2007 2008 2009 0 500000 1000000 1500000 2000000 2500000 3000000 3500000 0 100 200 300 400 500 600 700 Kg Antal anställda 2007 2008 2009

(24)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8 9.3. T r y c k p a p p e r s t i l l v e r k n i n g , e j t id n i n g s - o c h j o u r n a l p a p p e r

Figur 18: Utsläpp av nickel till luft i tryckpapperstillverkning, ej tidnings- och journalpapper (SNI:

17122) åren 2007-2009.

Intercept: 71 med ett p-värde på 0,011. Lutning: 0,048 med ett p-värde på 0,035.

En väldigt tydlig och påtaglig regressionslinje. Intercepten har en tydlig skattning och kan tolkas som att det är en ”startkostnad” för att producera. En svag men klart påvisbar lutning i den anpassade regressionen. I normala fall borde inte nollan vara med i modellen av antal anställda. I SCB:s databas så kan dock ett företag existera med noll anställda. Detta på grund av att ägaren inte räknas som anställd.

Figur 19: Utsläpp av nickel till vatten i tryckpapperstillverkning, ej tidnings- och journalpapper (SNI:

17122) åren 2007-2009.

Intercept: 0 där då nollhypotesen ej går att förkasta.

Lutning: 0,13 med ett p-värde på 0,014. 0 50 100 150 200 250 0 200 400 600 800 1000 1200 1400 Kg Antal anställda 2007 2008 2009 0 50 100 150 200 250 300 0 200 400 600 800 1000 1200 1400 Kg Antal anställda 2007 2008 2009

(25)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8 9.4. T i l l v e r k n i n g a v k ra f t p a p p e r o c h k ra f t p a p p

Figur 20: Utsläpp av koldioxid till luft i tillverkning av kraftpapper och kraftpapp (SNI: 17123) åren

2007-2009.

Intercept: 0 där då nollhypotesen ej går att förkasta. Lutning: 1 500 000 med ett p-värde mindre än 0.0001.

Figur 21: Utsläpp av till luft i tillverkning av kraftpapper och kraftpapp (SNI: 17123) åren 2007-2009.

Intercept: 0 där då nollhypotesen ej går att förkasta. Lutning: 42 med ett p-värde på mindre än 0.0001.

0 200 400 600 800 1000 1200 1400 1600 1800 0 200 400 600 800 1000 1200 Kg  (i  M ilj o n ta l) Antal anställda 2007 2008 2009 0 5000 10000 15000 20000 25000 30000 35000 40000 45000 0 200 400 600 800 1000 1200 Kg Antal anställda 2007 2008 2009

(26)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

Figur 22: Utsläpp av (ammoniak) till luft i tillverkning av kraftpapper och kraftpapp (SNI: 17123) åren 2007-2009.

Intercept: 0 där då nollhypotesen ej går att förkasta. Lutning: 210 med ett p-värde mindre än 0,0001.

Figur 23: Utsläpp av NMVOC (non-methane volatile organic compounds) till luft i tillverkning av

kraftpapper och kraftpapp (SNI: 17123) åren 2007-2009.

Intercept: 0 där då nollhypotesen ej går att förkasta. Lutning: 1000 med ett p-värde mindre än 0,0001.

0 50000 100000 150000 200000 250000 0 200 400 600 800 1000 1200 Kg Antal anställda 2007 2008 2009 0 200000 400000 600000 800000 1000000 1200000 0 200 400 600 800 1000 1200 Kg Antal anställda 2007 2008 2009

(27)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8 0 20000 40000 60000 80000 100000 120000 140000 160000 0 200 400 600 800 1000 1200 Kg Antal antällda 2007 2008 2009

Figur 24: Utsläpp av kväveoxider till luft i tillverkning av kraftpapper och kraftpapp (SNI: 17123)

åren 2007-2009.

Intercept: 140 000 med ett p-värde på 0,012. Lutning: 700 med ett p-värde mindre än 0,0001.

Figur 25: Utsläpp av Kväve till vatten i tillverkning av kraftpapper och kraftpapp (SNI: 17123) åren

2007-2009.

Intercept: 50 000 med ett p-värde på 0,00068. Lutning: 92 med ett p-värde mindre än 0,0001.

0 100000 200000 300000 400000 500000 600000 700000 800000 900000 0 200 400 600 800 1000 1200 Kg Antal anställda 2007 2008 2009

(28)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

Figur 26: Utsläpp av Zink till vatten i tillverkning av kraftpapper och kraftpapp (SNI: 17123) åren

2007-2009.

Intercept: -570 med ett p-värde på 0,031.

Lutning: 4,3 med ett p-värde mindre än 0,0001. 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 0 200 400 600 800 1000 1200 Kg Antal anställda 2007 2008 2009

(29)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8 9.5. A v l o p p s r en i n g

Figur 27: Utsläpp av kväve till vatten i avloppsrening (SNI: 37000) åren 2007-2009.

Intercept: 140 000 med ett p-värde på 0,019. Lutning: 7 400 med ett p-värde mindre än 0.0001.

Figur 28: Utsläpp av organiskt kol till vatten i avloppsrening (SNI: 37000) åren 2007-2009.

Intercept: -180 000 med en signifikansnivå på 0,041. Lutning: 17 000 med ett p-värde mindre än 0,0001.

0 100000 200000 300000 400000 500000 600000 700000 800000 0 20 40 60 80 Kg Antal anställda 2007 2008 2009 0 100000 200000 300000 400000 500000 600000 700000 800000 900000 1000000 0 20 40 60 80 Kg Antal anställda 2007 2008 2009

(30)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8 9.6. D a t a a v vi k el s e r f rå n sk a t t a d m o d e l l

Grafens åskådliggörande nedan (fig. 29) representerar slumptermerna och tillhörande dataobservationerna. Där de två termerna står för mätfel, samt avvikelser ifrån företagens egen sida. Grafen representerar hur väl modellen anpassas till datamängden. Desto närmre punkterna ligger längs nollvärdet på x-axeln desto bättre.

Axlarna på grafen kan förklaras som följande:

- X-axeln är dataobservationernas numrering (runt 1700 data) och är sorterad först på SNI-bransch, sedan företag.

- Y-axeln representerar dataobservationens skillnad från modellen, i termer av modellen själv. T.ex. om en punkt har värdet tre, så innebär det att dess ursprungliga dataobservation skiljer sig, med en storlek av tre modellskattningar, från den anpassade modellen.

Denna visualisering utifrån de grova skattningarna användes delvis som ett av verktygen att leta efter extrempunkter och stora avvikelser ifrån arbetsställena och företagen. Detta gav en snabb överblick till dataanpassningen, samt kunde snabbt identifiera vilka observationer som var mest kritiska (markant högst) att kontrollera och försöka erhålla förklaring (alternativt korrektion) till datan och modellen.

Figur 29: Observationernas ”normerade” avvikelser från den skattade modellen. Avvikelserna är

sorterade efter företag, utan hänsyn till ämnen. Beräkningarna har gjorts utifrån skattningarna ifrån modellen och använt dessa för att normera datan för en grov grafisk representation.

Man kan t.ex. notera området mellan datapunkterna 1000 och 1200, där man urskönjer förhöjda avvikelser uppåt. Där ligger Korsnäsverken, vilken tenderar att avvika i de flesta dataobservationer när man anpassar modellen, samt ha höga utsläpp i förhållande till sitt antal av fast anställda.

‐2 ‐1 0 1 2 3 4 5 6 0 200 400 600 800 1000 1200 1400 1600 1800 2000

(31)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8 9.7. F ö r e ta g s eff e k t e r

Grafen nedan (fig. 30) skall ha sitt ursprung i termen i modellvalet. Där en ungefärlig representation av de olika värdena på termen (slumpmässig företagseffekt) renderas. Detta är medelskattningen av arbetsställenas ”normerade” avvikelser dvs. medel för varje enskilt arbetsställe i den tidigare grafen (fig. 29). Axlarna representerar samma sak som tidigare. Skillnaden är att det rör sig om arbetsställenas genomsnittliga påverkan/effekt jämt emot modellen istället för individuella observationer.

Denna effekt är förklarande variabel för sambandet då företaget avviker ifrån modellen. Ifall företaget har väldigt hög produktion (effektiva producenter/mycket övertid) resulterar det i ett rejält utslag på

. Det är även en förklaring till när strukturen i företaget är missvisande. Som när mycket personal (t.ex. konsulter) inte registrerats som fast anställda.

I en perfekt modell med ”perfekta” skattningar skulle alla värden i grafen ligga nära noll. Det syns dock arbetsställen (punkter) som framträder med extrempunkter tydligt mycket större än sin omgivning. Detta är tecken på att det är svårt att anpassa modellen så att man får en mycket hög säkerhet när datan har nuvarande SNI-sortering. Det kommer alltid att existera slumpfaktorer ifrån företagen.

De flesta bra skattningarna till branscherna och företagen, ligger i det tidiga och lite mera välanpassade intervallet på x-axeln (0-60).

Figur 30: En grov skattning och åskådliggörande av de skattade företagens ”normerade”

medelavvikelser från modellen. Då det är medel över företagets normerade avvikelser från alla

‐1,5 ‐1 ‐0,5 0 0,5 1 1,5 2 2,5 3 3,5 0 20 40 60 80 100 120 140

(32)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8 9.8. S k a tt n in g a v t o t a l e r

Utifrån de beräknade värdena så kunde ämnena som anpassats med modellen erhålla skattningar för totalerna. Här nedan har dessa beräknats för år 2009 utifrån den skattade modellen. Detta har sedan jämförts med summering av E-PRTR:s liknande utsläpp gällandes samma år genom en kvot. Det totala antal anställda till pappersbranscherna erhölls genom SAS-anrop, där databasen söktes av för anställda tillhörande arbetsställen med valda SNI-nummer (17112,17122 och 17123). Summering och

beräkningar är gjorda i Excel. Enheten för utsläppen är i antal kg.

· ·

SNI Totalt Anställda Arbetsställen

17112 3144 10

17122 5041 14

17123 4334 15

17112 - Sulfatmassa tillverkning

Intercept Lutning Beräknat totalt utsläpp Summa av E-PRTR Kvot

Koldioxid 0 2400000 7545600000 8079000000 0,933977 N2O 0 40 125760 115400 1,089775 Nickel luft 0 0,16 503,04 257,4 1,954312 Nickel vatten 0 0,17 534,48 397,9 1,343252 NOX 0 1100 3458400 3770000 0,917347 kväve -26000 290 651760 537000 1,213706 fosfor 0 18 56592 73100 0,774172 organiskt kol 1000000 2700 18488800 15491000 1,193519

17122 - Tryckpapperstillverkning, ej tidnings- och journalpapper

Intercept Lutning Beräknat totalt utsläpp Summa av E-PRTR Kvot

Nickel luft 71 0,048 1235,968 472,9 2,613593

Nickel vatten 0 0,13 655,33 674 0,9723

17123 - Tillverkning av kraftpapper och kraftpapp

Intercept Lutning Beräknat totalt utsläpp Summa av E-PRTR Kvot

Koldioxid 0 1500000 6501000000 6068000000 1,071358 N2O 0 42 182028 115500 1,576 NH3 0 210 910140 551000 1,651797 NMVOC 0 1000 4334000 4278000 1,01309 NOX 140000 700 5133800 3678000 1,395813 Zink -570 4,3 12386,2 12720,3 0,973735 kväve 50000 92 1148728 443900 2,587808

I fallet Zink (under SNI 17123), har flera av företagen så få anställda att det använts en extra modifikation på + 2300 kg. Detta för att kompensera för att modellen inte skall räkna med

orimligheten att företag kan ge negativa bidrag (dvs. de skulle absorbera utsläpp istället för att avge). Kvoterna indikerar på skattningar av olika tillförlitlighet. De fall där kvoten av utsläppen är mycket mindre än ett, så kan då ifrågasättas om det verkligen var rimligt att förkasta skattningen av

intercepten till fördel av nollhypotesen. Där den förkastade skattningen av intercepten då förklarar underskattningarna om man skulle använda den i beräkningen. T.ex. 17112 med koldioxid skulle intercepten som förkastats, ge ett totalt bidrag med ytterligare 1,3 miljarder kg och kvoten skulle bli 1,095 istället vilket är rimligare.

(33)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

10.

Problem

Långt ifrån alla resultat är av signifikant effekt. Skattningarna är väldigt beroende av enskilda punkter då det är sparsamt med observationer. Olika skäl till stora avvikelser och missvisningar i datan kan vara:

10.1. M ä t o c h ra p p o r t e ri ng s f e l

Enstaka punkterna kan vara exempel på grova mät/rapporteringsfel. Flera fall av typen missade decimaltecken eller borttappade kiloprefix (10 ) har noterats. Det har även dykt upp observationer som rapporterats in i fel SNI-kategori (ett företag hade bytt SNI för ett av sina rapporterade år). Mycket arbete har lagts ned på att rätta till (alternativt utesluta) punkter av denna karaktär.

10.2. S i gn ifik ant a a v vi k el ser

Företaget/arbetsstället har en otroligt hög produktion/utsläpp jämt emot vad modellen baserat med deras anställda. Detta kan bero på en rad olika förklaringar. Några av de mera logiska förklaringarna är att företaget dåligt representerar SNI-kategorin, eller att det har mindre rationell struktur där t.ex. det skulle kunna vara många konsulter anställda, vilka inte syns ordentligt i registret för anställda. Skulle det vara det sistnämnda fallet, så blir då företagets alla mätningar systematiskt förskjutna i sidled i de plottade graferna. Korsnäsverken, Ryaverket och M-Real Husum är givna misstänkta i den här kategorin. Ett par exempel:

Figur 31: till luft ifrån försörjning av värme och kyla (SNI: 35300) åren 2007-2009.

 Fjärrvärmeverk i grafen (fig. 31). Där de punkter som förhöjer sig extremt mycket över de andra, alla tre tillhör samma fjärrvärmeverk. Lite efterforskning visade då att den vara klassad som ”värst i Sverige” med otroligt hög förbränning av fossila bränslen. Detta arbetsställe är då inte representativt för resten av branschen om man försöker bilda en skattning utav helheten utan bör i modellvalet ses som extrempunkt (s.k. ”outlier”)

 ”Lessebo bruk” ett handpappersbruk med stort manuellt arbete och mycket mindre produktion av löpandeband-typ än sina s.k. ”likar” i samma SNI-kategori. Detta resulterar i att flera av dess olika utsläppsämnen passar in dåligt bland resten av sektorn.

0 50000 100000 150000 200000 250000 300000 0 50 100 150 200 250 Kg Antal anställda

(34)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8 10.3. D å l i g b ra n s c h s o r t e ri n g

Företag är ibland inte tillräckligt branschrena trots den finare SNI-indelningen och skiljer sig bitvis ifrån övriga företag i samma SNI-kategori. Borde vara möjligt att separera i flera SNI-koder. Några exempel är:

Figur 32: Kväveoxid till luft ifrån Övrig tillverkning av papper och papp (SNI: 17129) åren

2007-2009.

 Möjligt att bättre sortering krävs (fig. 32) då det anas två olika linjära regressioner. SNI-kategorin är dock inte särskilt sorterad då det är en blandning av resterande företag inom pappersindustrin, som inte passade in i de övriga SNI-kategorierna.

Figur 33: Zink till vatten ifrån avloppsrening (SNI: 37000) åren 2007-2009.

 Även denna graf ter det sig som om flera underbranscher finns representerade. Notera ”bågen” i början av grafen (fig. 33). Andra grafer med liknande karaktär syntes i tidigt stadium innan sorteringen av datan tillämpat SNI. Fullt möjligt att reningsverken kan sorteras ut i mindre kategorier med mer markanta samband.

0 100000 200000 300000 400000 500000 600000 700000 800000 900000 1000000 0 200 400 600 800 1000 1200 Kg Anställda 0 500 1000 1500 2000 2500 0 20 40 60 80 100 Kg Anställda

(35)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8 10.4. S a k na d d a ta

I flera ämnen fanns det bortfall av data som bör varit med om sortering och modell stämde. Detta kan illustreras genom följande exempel:

Figur 34: Kväveoxid till luft ifrån tillverkning av kraftpapper och kraftpapp (SNI: 17123) åren

2007-2009.

Jämförbar graf (fig. 34) för kväveoxider i SNI-branschen 17123. Använd denna för jämförelse med påföljande grafer med saknad data inom samma bransch, som då borde ha observationer ifrån samma företag. Lägg märke till de platser på axeln över anställda, där arbetsställena ligger.

Figur 35: Kvicksilver till vatten ifrån tillverkning av kraftpapper och kraftpapp (SNI: 17123) åren

2007-2009.

Grafen här (fig. 35) har samma bransch som jämförbara grafen över kväveoxider (fig. 34). Notera att alla riktigt stora företag nu är ”försvunna”. Det saknas data i närheten av punkterna 400, 600 och 1000 på antal anställda, där det annars finns stora företag. Rimlig förklaring skulle kunna vara stramare och

0 100000 200000 300000 400000 500000 600000 700000 800000 900000 0 200 400 600 800 1000 1200 Kg Anställda 0 0,5 1 1,5 2 2,5 3 0 50 100 150 200 250 300 350 400 Kg Anställda

(36)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

Figur 36: Krom till vatten ifrån tillverkning av kraftpapper och kraftpapp (SNI: 17123) åren

2007-2009.

Återigen SNI-bransch 17123, samma som kväveoxidgrafen (fig. 34). Notera skillnaden mellan de bägge graferna (fig. 34 & 36). Det är ”försvunna” värden i mitten av grafen för kromutsläpp. Borde finnas företag av betydelse mellan 600 & 700 markeringarna på axeln för antal anställda. Avsaknaden innebär att en skattning av datan inte skulle vara representativ för ämnet. Betydelsefulla företag skulle då saknas och modellen skulle representera ämnets helhet dåligt.

0 50 100 150 200 250 300 0 200 400 600 800 1000 1200 Kg Anställda

(37)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

11.

Diskussion

11.1. U t ö k a t t id si n t e r va ll

Datan skulle potentiellt kunna utvidgas med mer observationer då fler år rapporteras in till SMP och E-PRTR. Det skulle säkerställa bättre skattningar över de enskilda företagen och eliminera större delen av de små slumptermerna som mätfelen, vilka gissningsvis fortfarande har en mindre påverkan. Nackdelen är att om man tar för många år så kan företaget hunnit förändra apparatur, produktionslinje eller processer i tillverkningen. T.ex. installerat nyare mer effektiva filter. Alla mätningarna är då inte homogena inom företaget självt. Fall som detta upptäcktes i redan befintlig data t.ex. där Stora Enso Nymölla AB halverade sina utsläpp i organiskt kol efter att de bättrat på sin reningsprocess.

11.2. F l e r l ä n d er

Det bör vara möjligt att inkludera andra länder i analysen om de i sin företagsstruktur och miljöaspekter/miljöstadgar är tillräckligt homogena i förhållande till Sverige.

Datan över antal anställda på motsvarande arbetsplatser i dessa länder är dock inte tillgänglig via SCB. Behövs kontakt med motsvarande myndigheter i de tilltänkta länderna för att erhålla nödvändig data.

11.3. M e d i a n R eg r e s s i o n

Den vanliga anpassningen för regression är av kvadratisk natur. Man minimerar summan av kvadratiska avvikelser.

Ett alternativt tillvägagångssätt vid regression av sparsam data, skulle vara användning av linjär regression via mediananpassning av skattningarna. Detta är mindre känsligt för de enstaka extrempunkter då få data observerade.

Tyvärr är det svårt att tillämpa medianregression praktiskt med de SAS-verktyg som använts för att få fram skattningarna.

11.4. A l t e r na ti va mo d el l va l

Somliga grafer skiljer sig till synes ifrån den tänkta modellen. I de få fall då stor negativ skattning på intercepten erhålls (vilket inte ”stämmer” med verkligheten att utsläpp kan vara negativa) kan tankarna föras till en exponentiell anpassning istället, som då skulle böja av och följa x-axeln fram till noll. Av naturen känns det dock inte särskilt rimligt att anta sådana anpassningar till dessa utsläpp. Krävs en mycket bra motivering för användning av sådana alternativa modeller.

(38)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8 11.5. K o r s t e r m e r

Genom utökat arbete med skattningarna samt bra vald normering av datan via lämplig logaritmering för varje enskilt ämne och bransch, skulle det möjliggöras skattning av korstermer inom branschen i sig. Detta är dock väldigt beroende på de initiala skattningarna av intercepten och parametrarna kopplade till den förklarande variabeln. Normeringen är då unik för varje enskilt ämne respektive bransch och skulle behöva olika normeringsfaktorer till alla samband.

Vid lyckade skattningar skulle detta möjliggöra kopplingen av ämnena sinsemellan inom branscher. T.ex. om man vet hur mycket fosfor ett företag släpper ut så kan man även bilda en skattning av deras kväveemission.

Försök till detta kräver tyvärr data av väldigt branschrent slag alternativt väldigt riklig data, för att få fram korresponderande skattningar tillräcklig säkerhet. Fullt möjligt att detta kan fungera om man lyckas utvidga datan med extra år och länder.

11.6. F l e r f ö rk l a r a n d e va r i a b l e r

Möjligt att ha test av fler eller andra förklarande variabler. Om annan lämplig information kunde införskaffas angående företagen, så skulle modellen anpassas och modelleras med alternativa eller fler variabler. Omsättning är som tidigare nämnt, en variabel som skulle vara av gott intresse. Den är djupare kopplad till hur mycket företaget producerar och skulle sakna problemen som dras med variabeln anställda, t.ex. konsulterna.

11.7. P r o c e n t u e l l a r e s i d u a l e r

Möjligt att modellen skulle kunna anpassas med hänsyn på procentuella residualer. Det vill säga desto större företag, desto större avvikelser i residualer. Den sista termen i Modellbeskrivning skulle då kunna skrivas med där den har ett samband till antal anställda. Osäkert om så är fallet. Det skulle behövas mera data.

(39)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

12.

Slutsatser och kommentarer

Datamängden som examensarbetet baserades på bestod till stor del av kategorier med få observationer, eller hade delar som var svårkategoriserade. Det var därmed svårt att uppnå skattningar för alla ämnen och branscher. Som data material behöver man ju i regel observationer från punkter som är av

homogen natur (alt. väl beskrivna faktorer av skillnader) då skattningar av samband ska tas fram. Ett exempel på kategoriseringen var SNI-branschen 17129 (Övrig tillverkning av papper och papp), vilken är en av de tidigare nämnda svårkategoriserade branscherna. Där företagen kan ha kraftigt skilda tillverkningar och processer vilket gör det svårt att skatta ett bra samband mellan dem. Som hänvisning till otillräckliga data, så kan ett mått på användbarheten av ursprungsdatan nämnas. Omkring 50 % av all ursprungsdata föll bort. Där de dels inte hade tillräckligt med

observationspunkter (arbetsställen) för pålitlig skattning (fem av de nio sektorer), dels då de som saknade en bra relation mellan anställda och utsläpp (odling och uppfödning, ca 3 % av

ursprungsdatan). Den resterande datamängden lyckades dock kompletteras med hjälp av tidigare nämnda SMP och ökades då med omkring 13 % utifrån det som var kvar.

Från det genomförda arbetet har dock erhållits en mängd med skattningar med god konfidensgrad och rimliga skattningar på totalen. Det är ämnen som är av homogen natur med starka samband till branscherna. Växthusgaser som koldioxid och kväve är väl representerade ibland dem. Bland tungmetallerna så varierade hur pass bra skattningarna på utsläppen kunde göras, men det var i regel nickelutsläpp som hade bäst resultat.

Utifrån datan och analysen så har målet till examensarbetet därmed delvis uppfyllts. Arbetet bör dessutom vara behjälpligt om någon vid ett senare skede skall bygga vidare med mera data.

(40)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

13.

Referenser

Europeiska unionens officiella tidning, Europaparlamentets och rådets förordning (EG) nr 166/2006. http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=OJ:L:2006:033:0001:0017:SV:PDF (hämtad 2012-04-25)

Europeiska kommissionen, Vägledning vid implementering vid implementering av det europeiska

registret över utsläpp och överföringar av föroreningar.

http://www.naturvardsverket.se/upload/02_tillstandet_i_miljon/utsl%C3%A4ppsdata/farliga_amnen/2 0060831_EPRTR_GuidancE-PRTR_GD_160707.pdf

Naturvårdsverket, Naturvårdsverkets författningssamling.

http://www.naturvardsverket.se/Documents/foreskrifter/nfs2006/nfs_2006_9.pdf (hämtad 2012-04-25) Naturvårdsverket, Svensk miljörapporteringsportal. https://smp2.naturvardsverket.se/

Naturvårdsverket, Århuskonventionen. http://www.naturvardsverket.se/Start/EU-och-Internationellt/Internationella-miljokonventioner/Arhuskonventionen/ (hämtad 2012-04-25) Sundberg, Rolf. 1997. Kompendium i tillämpad matematisk statistik. 38-44

Statistiska Centralbyrån, CfarNummer. http://www.cfarnrsok.scb.se/

The European Pollutant Release Transfer Register E-PRTR. http://prtr.ec.europa.eu/Home.aspx (hämtad 2012-01-03)

(41)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

14.

Appendix

14.1. S k a p a nd e t a v b a s

SAS-kod för att skapa en bas ifrån data utplockat från E-PRTR: PROC SQL;

CREATE TABLE sasuser.BAS

AS SELECT * FROM sasuser.facilityreport f, sasuser.pollutantrelease p, sasuser.pollutantreleaseandtransferrepor pt WHERE p.FacilityReportID = f.FacilityReportID AND f.PollutantReleaseAndTransferRepor = pt.PollutantReleaseAndTransferRepor; QUIT; 14.2. R e l e v a n t d a t a

SAS-kod för att välja ut relevant och behjälplig data från basen: DATA sasuser.BAS_valda; SET sasuser.BAS; KEEP NationalID FacilityReportID FacilityID ParentCompanyName FacilityName StreetName City Lat Long NACEMainEconomicActivityCode NACEMainEconomicActivityName MainIASectorCode MainIASectorName MainIAActivityCode MainIAActivityName PollutantReleaseID ReleaseMediumCode PollutantCode PollutantName PollutantGroupCode PollutantGroupName MethodBasisCode TotalQuantity AccidentalQuantity ReportingYear; RUN; /*Sortera*/

PROC SORT DATA = sasuser.Bas_valda;

BY NationalID; run;

(42)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8 14.3. K o n t r o l l o c h h o p k o p p l i n g

SAS-kod för att kontrollera, koppla ihop och leta efter Cfar-nummer (renderar en lista) :

/* 2007, kör även för 2008 och 2009 genom att ändra lite lätt */

LIBNAME fdb2007 oledb provider=sqloledb

properties=("Integrated Security"=SSPI "Data Source"="Q13\A" "Initial

Catalog"=FDB2007) owner=dbo; /*Läser in bastupplerna*/ DATA in; SET sasuser.bas_tuppler2; RUN;

/*MODIFICATION:Konverterar Cfar till CHAR*/

/*Ha med detta ifall excel fått för sig att göra CFARNR till numerärer (skiljer sig från innan)*/

DATA in2(drop=temp); SET in(rename=(cfarnr=temp)); cfarnr=put(temp,8.); RUN; /*Sorterar på CfarNR*/ PROC SORT; BY cfarnr; RUN;

/*Plockar ut de tupler som har CfarNR*/

DATA in2;

SET in;

WHERE substr(cfarnr,1,1) in ('1' '2' '3' '4' '5'); RUN;

/*Konverterar CfarNr till numeriska värden*/

DATA in3(drop=temp);

SET in2(rename=(CfarNr=temp)); CfarNr=input(temp,8.);

RUN;

/*Sortera igen (borde redan vara sorterat)*/

PROC SORT;

BY cfarnr; RUN;

/*Plockar ut första av varje respektive CfarNr*/

DATA in4;

SET in3; BY cfarnr;

IF first.cfarnr; RUN;

/*Matcha mot AE på CfarNR*/

PROC SQL;

CREATE TABLE fdb1 AS

SELECT a.*, b.anst, b.bgata, b.bgatunr, b.bpostort, b.bpostnr, b.gata, b.gatunr, b.postort, b.postnr, b.ben

FROM in4 a LEFT OUTER JOIN fdb2007.ae b ON a.cfarnr=b.cfarnr;

(43)

v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

/* Kod för att hitta saknade AE */

/*Startinläsning, lägger till löpnummer*/

DATA koll;

SET in; Lop +1; RUN;

/*Gallar bort de som saknar CfarNR*/

DATA koll2;

SET koll;

WHERE substr(cfarnr,1,1) in ('1' '2' '3' '4' '5'); RUN;

/*Konverterar CfarNR till numerärer*/

DATA koll3(drop=temp); SET koll2(rename=(CfarNr=temp)); CfarNr=input(temp,8.); RUN; /*Sorterar på CfarNR*/ PROC SORT; BY cfarnr; RUN;

/*Plockar ut de första CfarNr*/

DATA koll4; SET koll3; BY cfarnr; IF first.cfarnr; RUN; /*Sortera på löpnummer*/ PROC SORT; BY lop; RUN; /*Kasta CfarNr*/

DATA kollref (drop=cfarnr);

SET koll; RUN; /*Sortera på löpnummer*/ PROC SORT; BY lop; RUN;

/*Merge på kollref(startdatan minus CfarNR) och koll4 (Samma data fast bortgallrade tuppler utan cfarNr)*/

DATA koll5;

MERGE kollref (IN=a) koll4 (IN=b); BY lop;

/*Ta bort ifall matchar*/

IF a=b THEN DELETE; RUN;

(44)

Anal ys a v s v en ska ut sl äp psäm nen | 2 0 1 2 -06 -0 8

/*tar de utplockade "bommarna" och sätter PeOrgNr till de som saknade*/

DATA miss (drop=org_nr_anpassat cfarnr);

SET koll5; PeOrgNr=org_nr_anpassat; RUN; /*Sortera på PeOrgNr*/ PROC SORT; BY peorgnr; RUN;

/*Plockar ut PeOrgNr endast, sorterar på dessa*/

DATA misspeorg (keep=peorgnr);

SET miss; BY peorgnr;

IF first.peorgnr; RUN;

/*Skapa tabell som Vänster-Join på JE med PeOrgNr:na*/

PROC SQL;

CREATE TABLE fdbje AS SELECT a.*, b.namn

FROM misspeorg a LEFT OUTER JOIN fdb2007.je b ON a.peorgnr=b.peorgnr;

/*Skapa Tabell av den förra med Vänster-Join på AE via PeOrgNr:en*/

CREATE TABLE fdbae AS

SELECT a.*, b.cfarnr, b.anst, b.bgata, b.bgatunr, b.bpostort, b.bpostnr, b.gata, b.gatunr, b.postort, b.postnr, b.ben

FROM fdbje a LEFT OUTER JOIN fdb2007.ae b ON a.peorgnr=b.peorgnr

/*Inte ta med inaktiva ArbetsEnheter*/

WHERE aestat<7; QUIT;

/*Skapa en kopia av datan som sparas */

DATA sasuser.fdbae_copy2007;

SET fdbae; RUN;

References

Related documents

Medelvärdet för cheferna visade att de skattade sig själva högre inom transformellt ledarskap än vad medarbetarna gör vilket går ihop med teorin om att ledare tenderar

Får en förare av ett tungt fordon fortsätta att köra efter att ha varit med om en

I Jakarta ratificerade representanthuset den 13 januari lagen om särskilda åtgärder regeringen ska vidta för att återupprätta direkta val av regionala ledare i

Nyckelord: Offentliga värden, den statliga värdegrunden, översättningsteori. Syfte: Syftet med denna uppsats är bidra till en diskussion om hur offentliga värden realiseras i

Vi kan nu också med tillfredsställelse konstatera att utredningen kommit till samma slutsats som HRF och andra funktionshinders- organisationer, att uttrycket ”nedsatt

Significant correlation was found between the concentrations of PAHs, dioxin/furans and dioxin like PCBs in the mosses and the distance to the closest industry, and also to

Dock är intressenter inom området inte bara påverkande när det kommer till utvecklarna av miljöfordon, de påverkar även konsumenter som grupp, inklusive de hinder

Utifrån detta blir uppsatsens syfte att lämna ett underlag till debatten om hur samverkan mellan universitet och högskolor och externa aktörer kan bidra till att skapa värden