• No results found

Gravhögarna på Långön: ett metodtest av statistisk prediktionsmodellering i Norrlands inland

N/A
N/A
Protected

Academic year: 2022

Share "Gravhögarna på Långön: ett metodtest av statistisk prediktionsmodellering i Norrlands inland"

Copied!
59
0
0

Loading.... (view fulltext now)

Full text

(1)

Institutionen för arkeologi och antik historia

Gravhögarna på Långön

ett metodtest av statistisk prediktionsmodellering i Norrlands inland

Tim Granholm

Kandidatuppsats 15 hp i arkeologi VT 2020 Handledare: Daniel Löwenborg Campus Engelska Parken

(2)

Abstract

Granholm, T. 2020. Gravhögarna på Långön: ett metodtest av statistisk prediktionsmodellering i Norrlands inland.

Granholm, T. 2020. The burial mounds of Långön: testing statistical predictive modeling in northern Sweden.

In an attempt to improve archaeological predictive modeling, two predictive models were developed through QGIS, Excel, GeoDa and R. These models were then tested with statistical quality tests. The first model was a linear regression model similar to that used by the default predictive models used in GIS software. The second model was a custom exponential model built through R. The two models were compared using MAE and the exponential model yielded slightly improved results. Various problems and opportunities regarding statistics in archaeological work were discovered, and discussed based on this papers findings.

The concept of using the econometric methods of spatial predictive modeling was explored and discussed, although deemed unfit for this paper. Although the spatial model was never developed, it was deemed innessecary considering the success of the other models, in particular the exponential model. A few areas could with relative statistical significance be pointed out as likely former

settlements, in particular an area to the immidiate west of Långön. The high probability area contains a smaller area previously reported by a civilian to contain rock fragments. Although that report is uncertain, in combination with the model results it is deemed the most promising area discovered during this project.

KEYWORDS: Predictive Modeling, R, Spatial Modeling, Långön NYCKELORD: Prediktionsmodellering, R, Spatial Modellering, Långön

Omslagsbild: Långön i Hotingsjön. Foto: Jan Norrman 1996 via Kulturmiljöbild, Riksantikvarieämbetet.

http://kulturarvsdata.se/raa/kmb/html/16000700023530

(3)

Tack

Till Daniel Löwenborg för värdefull handledning både under och innan uppsatsarbetet.

(4)

Innehåll

1. Inledning... 5

1.1. Syfte ... 5

2. Begreppslista ... 7

3. Bakgrund ... 9

3.1. Kort om Långön ... 9

3. 2. Syd eller nord? ... 11

4. Teori ... 12

5. Metod ... 13

5.1. Val av modell ... 13

5.2. Icke-spatial modellering, OLS ... 13

5.3. Spatial modellering, ... 15

5.4. Kvalitetskontroll ... 16

5.5. Deduktiv kontra induktiv metod ... 17

5.6. Dataförberedning ... 18

6. Material ... 22

6. 1. Långön ... 22

6. 2. Testdata ... 24

6.3. Modellutveckling ... 27

7. Resultat ... 28

7.1. Regression ... 28

7.2. Prediktion... 30

7.3. Kvalitetstest ... 32

8. Diskussion ... 33

8.1. Långön ... 33

8.2. Utvärdering av modellerna... 35

8.3. Spatial modellering ... 38

8.4. Förbättringsförslag ... 39

9. Slutdiskussion... 40

10. Sammanfattning ... 41

11. Referenslista ... 42

11.1. Litteraturlista ... 42

(5)

11.2. Digitala källor ... 43

11.3. Geodata ... 43

Bilaga 1: Testdata, frekvenser ... 44

Bilaga 2: R-kod ... 47

(6)
(7)

1. Inledning

På Långön, i Hotingsjön, Jämtland, finns elva gravhögar och ett antal fångstgropar. Dessa gravar är dels, enligt Hvarfner (1957: 39) inlandets nordligaste gravar, dels har

anmärkningsvärda fynd funnits i dem. Bland dessa finns ett svärd, en skinnpung tillverkad av en östasiatisk varanödla samt en eventuell björngrav. Trots att dessa varit kända av

vitterhetsakademin sedan 1883 (Hvarfner 1957: 41) finns det än idag inga väldokumenterade boplatser i området. Många frågor kvarstår ännu kring Norrlands vikingatid, kan människorna som bodde kring Långön svara på några av dem?

1.1. Syfte

Uppsatsens har två huvudsakliga syften; dels att utveckla en prediktionsmodell över

potentiella bosättningar kring Långön för att bidra till en vidare förståelse av platsen och dess historiska sammanhang, dels att göra en kvalitetsjämförelse mellan traditionella arkeologiska utvecklingsmetoder med mer moderna statistiska tekniker. Statistisk prediktionsmodellering utvecklas kontinuerligt och allteftersom bland annat datorers beräkningskapacitet ökar förbättras de existerande metoderna, detta har dock inte inneburit ett ökat användande av statistik inom svensk arkeologi. Därför vill jag, via ett metodtest, jämföra de hittills mest använda arkeologiska metoderna med de senaste statistiska metoderna. Utöver den statistiska metoden vill jag undersöka spatial metod härledd från ekonometri, vilket är den version av statistisk prediktionsmodellering som verkar mest lovande för arkeologi. Om spatial teori kan appliceras inom arkeologi har den potential att förbättra precisionen för arkeologisk

prediktionsmodellering, vilket skulle kunna bidra till en ökad användning av statistiska analyser inom arkeologi och bidra till bättre kunskapsunderlag för forskning och kulturmiljövård.

I och med att stora delar av de skillnader som finns mellan statistiska och arkeologiska

tekniker finns i den, relativt avancerade, matematiken bakom modellerna vill jag även försöka förklara matematiken på ett så förståeligt sätt som möjligt. Vissa förenklingar kommer vara nödvändiga för att förklara den, men för att arkeologin ska kunna ta del av utvecklingen som sker inom statistiken krävs en grundläggande förståelse för begreppen och termerna statistiken använder sig av.

Uppsatsen är således i första hand ett metodtest av statistiska prediktionsmodeller. I och med att modellerna måste testas i praktiken för att kunna kvalitetsbedömas har jag försökt välja en intressant plats att testa dem på, men jag vill förtydliga att arbetets fokus inte egentligen ligger på de historiska och arkeologiska sammanhangen kring Långön, uppsatsens huvudsyfte är att utvärdera själva modellerna.

(8)

Studiens frågeställningar är alltså:

• Kan man utveckla en prediktionsmodell som ger rimliga resultat med förslag på platser som kan använts som boplatser av de människor som anlade gravhögarna på Långön?

• Finns det några fördelar med att utveckla en modell med de senaste statistiska metoderna kontra traditionell arkeologisk prediktionsmodellering?

• Finns det något som tyder på att en spatial prediktionsmodell skulle kunna ge ytterligare fördelar? Vad vore för- och nackdelar med en sådan metod?

Under arbetets gång har det blivit tydligt att spatial prediktionsmodellering inte var rätt val för ett arbete av detta omfång. Dels då det kräver en betydlig arbetsinsats som skulle ske på bekostnad av viktigare analyser, dels då data i just detta arbete inte är särskilt lämpad för spatial modellering. Med det sagt tror jag fortfarande att spatial prediktionsmodellering har potential inom arkeologiska arbeten, bara inte just detta arbete. Därför vill jag fortfarande inkludera en diskussion kring spatial modellering, där jag förklarar varför det inte passar i detta sammanhang men varför det kan vara relevant i andra arbeten.

(9)

2. Begreppslista

• Extrapolering – Att uppskatta ett resultat utanför vad som ryms inom en modell.

• Heteroskedasticitet– en mängd tal, exempelvis en testdatagrupp, kan vara

heteroskedasticisk om det finns grupper av data där modellens genomsnittsfel avviker på ett regelbundet sätt. Detta kan ge missvisande prediktioner.

• Homoskedasticitet – avsaknad av heteroskedasticitet. Nödvändigt antagande för att utveckla en prediktionsmodell.

• Beroende variabel – den eftersökta variabeln, påverkas av de oberoende. Exempelvis boplatser i ett område.

• Oberoende variabel – variabeln/variablerna som förklarar den beroende. Exempelvis höjd eller jordart i ett område.

• Binär variabel – en variabel som bara kan ha värde 1 eller 0. Kan ofta tolkas som ja eller nej.

• Icke-spatial prediktionsmodell – använder oberoende variabler för att göra förutsägningar kring den beroende.

• Spatial prediktionsmodellering – som ovanstående, men kan ta geografiska samband i beaktning.

• Linjär – en konstant utveckling, graf liknar ett rakt streck.

• Exponentiell – en accelererande utveckling, graf liknar en brant kurva.

• Logaritmisk – förenklat uttryckt, motsatsen till en exponentiell utveckling. Graf liknar ofta en utplanande kurva.

• Intercept – Värdet på den oberoende variabeln när värdet på de beroende är noll.

• Koefficient – en multiplikativ faktor i en term, i arbetet effekten en oberoende variabel har på den beroende.

• Klustring – En avvikande ansamling av ett eller flera värden i en grupp.

• Bias – En effekt som gör en modells resultat missvisande.

• Korsvalidering – En metod att kontrollera en modells kvalitet.

• Testdata – Data via vilken en modell utvecklas.

• Induktiv metod – att utveckla en modell via testdata.

• Deduktiv metod – att utveckla en modell via antaganden.

• Spatial vikt – den effekt ett spatialt samband har på en oberoende variabel i en prediktionsmodell.

• Kvantitativ variabel – en numerisk variabel såsom ålder, höjd.

• Kvalitativ variabel – en icke-numerisk variabel såsom kommun eller utbildning.

• Absolut frekvens – Summa av en andel av en variabel. Exempelvis hur många personer i en grupp som är mellan 18–25 år.

(10)

• Relativ frekvens – Procentuell andel av en variabel. Exempelvis hur många procent av personerna i en grupp som är mellan 18–25 år.

• Statistika – Beskrivande statistik härledd ur ett stickprov.

• MSPE/MAE/RMSE – står för mean square predictive error/mean absolute error, root mean square error, tre metoder att producera värden som förenklat uttrycker hur mycket en prediktion i genomsnitt har fel.

• N/A-värde – ett värde som saknas ur en dataram. Exempelvis ett område som saknar information om vilken jordart det har. Kan störa statistiska beräkningar.

• Regression – En statistik modell som beskriver ett samband mellan två eller fler variabler.

(11)

3. Bakgrund

3.1. Kort om Långön

Långöns gravhögar och fångstgropar är tydligt synliga på avstånd och har varit kända av lokalbefolkningen sedan åtminstone 1840-tal, men troligen ännu tidigare (Hvarfner 1957: 41).

Även utgrävningarna skedde tidigt, några gravar på den norra halvan grävdes ut 1906 av Ture J:son Arne och ytterligare några på den södra halvan undersöktes 1952 av Harald Hvarfner.

Kompletterande

undersökningar utfördes på 1970-talet då

inlandsbanan byggdes över ön.

Trots att ett flertal gravar plundrats hittades ett stort antal fynd, några särskilt anmärkningsvärda. Bland dessa finns exempelvis

pärlor, bältbeslag, eldstål och ett svärd (Hvarfner 1957: 42–46; Arne 1926: 91–96).

Vidare har fem silvermynt hittats, däribland två tyska mynt.

Figur 1: Översiktskarta, röd stjärna representerar Långön.

(12)

Utöver dessa finns två särskilt intressanta fynd. Dels en grav med obrända björnben, eventuellt en björngrav (Zachrisson & Iregren 1974: 226).

Dels en skinnpung ursprungligen artbestämd till antingen Varanus Salvator eller Varanus bengalensis, två sydasiatiska varanödlor (Hvarfner 1957: 46). Stora delar av diskussionen kring Långön har utgått från detta exotiska fynd. Råhlander (2017: 249–251) argumenterar dock för att skinnpungen i själva verket är gjord av bäversvans utifrån visuella jämförelser mellan bilder.

Långöns närområde har Sveriges största uranfyndigheter (SVT 2007) och omfattande prospekteringar har utförts i området. Intresset tycks ha svalnat men prospektörernas senaste tillgängliga rapport antyder att området fortfarande övervägs för uranbrytning (Mawson 2007).

Som nämns i inledningen är den här uppsatsen i första hand ett metodtest och därför kommer bakgrunden hållas koncis, för intresserade läsare rekommenderar jag Fossums avhandling Förfädernas land: en arkeologisk studie av rituella lämningar i Sápmi, 300 f. Kr-1600 e. Kr.

(2006) för en utförligare sammanfattning samt en mer kulturellt fokuserad diskussion av platsen.

Figur 2: Inzoomad översiktskarta, Långön ligger vid länsgränsen mellan Jämtland, Västerbotten och Västernorrland.

(13)

3. 2. Syd eller nord?

Det råder ovisshet kring vilka människorna som byggde gravhögarna på Långön var – var de pionjärer från sydliga Skandinavien eller var de av samiskt ursprung?

Etnicitet är ett komplext och ofta kontroversiellt ämne inom nordskandinavisk arkeologi (Carver 2003: 515) och eftersom gravarna inte är huvudfokus för detta arbete kommer jag inte ge mig in i diskussionen, jag har därför valt att utgå från existerande tolkningar.

Dessvärre har gruppens etnicitet relevans för prediktionsmodellens utformning. Modellen bygger på testdata, som utgörs av kända boplatser med liknande egenskaper som de modellen ämnar predicera. Om det finns oklarhet exakt vad den försöker förutsäga blir det

problematiskt att avgöra vilka platser som bör utgöra modellens testdata. Förmodligen har samiska boplatser från den undersökta tidsperioden inte exakt samma egenskaper som sydskandinaviska, och därför skulle en uppfattning om vilken etnicitet gravanläggarna tillhörde bidra till bättre utformning av testdata. Om Långön är en samisk gravplats ska testdata utgöras av samiska bosättningar, om den däremot är sydskandinavisk ska testdata också vara sydskandinavisk. Dock diskuterar exempelvis Hvafner (1957: 17) bland annat närliggande Ströms vattudal som en plats där det funnits tecken på stort kulturellt utbyte mellan samer och sydskandinaver, vilket kan innebära att denna distinktion kan vara otydligare just i detta fall.

Fossum diskuterar gravanläggarnas kultur i sin avhandling (2006: 94–96). Gravarna har både sydliga och nordliga attribut. Bland de sydliga attributen finns ett svärdfynd, de blandade gravskicken mellan gravhögar och brandgravar samt de exotiska fynden såsom skinnpungen.

De nordliga attributen innefattar gravarnas avstånd från större kulturbygd,

fyndsammansättningen och de näverbitar som hittats i gravarna. Gravtolkningen blir ännu mer problematisk i och med att gravarna plundrades i början av 1900-talet, det är omöjligt att säga vad som stulits och det för med ytterligare osäkerhet i tolkningen.

Som tidigare nämnt har skinnpungen eventuellt felidentifierats och är möjligen gjord av bäver snarare än östasiatisk varanödla. Detta kommer troligen påverka hur Långön tolkas ur en kulturell synvinkel. Det exotiska fyndet har ofta attribuerats som ett starkt tecken på sydlig kultur, och om det argumentet faller bör det påverka analysen.

Jag väljer dock att inte spekulera vidare kring hur Långön bör tolkas. Det är inte den här uppsatsens avsikt att göra tolkningar kring Långön utöver de relaterade till

prediktionsmodellen.

Även om en tolkning inte kan göras med säkerhet bedöms Långöns fyndmaterial

överensstämma med närliggande områdens, såsom Ströms vattudal, och på så sätt kan en vidare tolkning undvikas. Snarare än att välja mellan samiska eller sydskandinaviska boplatser kan helt enkelt de mest närliggande användas, oavsett tillhörighet.

Det begränsar modellens applikation till ett snävt område, men externt utvecklade

prediktionsmodeller bör oavsett appliceras med stor försiktighet, vilket kommer diskuteras vidare i nästa kapitel.

(14)

4. Teori

Syftet med en prediktionsmodell är att identifiera, kvantifiera och standardisera ett samband mellan en beroende variabel och en eller flera oberoende variabler. Detta samband uttrycks via en regressionsmodell, vilken kan anta flera olika former. Dessa former kommer diskuteras vidare i kapitel 5.2 samt 5.3. När regressionsmodellen tagits fram kan den användas på

situationer utanför modellens omfång, då sker en prediktion via extrapolering. I arkeologin utvecklas sedan prediktionsmodellen till en spatial prediktionsmodell, alltså en som beskriver och predicerar kring samband i ett spatialt plan, världen. Notera att en spatial modell kan använda icke-spatiala metoder.

Den beroende variabeln är det prediktionsmodellen vill förklara betingat av de oberoende, eller förklarande, variablerna. Den beroende variabeln är alltså i det här fallet huruvida en boplats funnits eller inte funnits i ett visst område och kan anta två värden, funnits eller inte funnits. De oberoende variablerna förklarar vilka omständigheter som gäller hos olika

beroende variabler. Exempelvis vilken jordart som finns i ett område eller vilket avstånd från färskvatten området har. De oberoende variablerna kan anta olika värden men har samtliga en konstant koefficient, som förklarar vilken effekt ett visst värde har på den beroende variabeln.

Matematiskt uttrycks den beroende variabeln som y, de oberoende som xk och koefficienterna som βk.

I praktiken sker detta genom testdata, data med samma egenskaper som den predicerade, men där alla variabler är kända på förhand. Genom att undersöka dessa kan, förhoppningsvis, samband utrönas mellan den beroende och de oberoende variablerna. Dessa samband används sedan för att göra själva prediktionen.

För att utveckla en prediktionsmodell med någon som helst praktisk tillämpning krävs ofta tiotusentals ekvationer och därför är processen nästintill omöjlig om den inte automatiseras, vilket görs via exempelvis programmeringsspråket R.

I och med att modellens testdata tas fram för att vara så lik som möjligt det modellen vill hitta är det viktigt att vara oerhört försiktig om modellen ska användas på annat än dess

ursprungliga undersökningsområde. Även om en modell i teorin kan återanvändas hur många gånger som helst, var som helst, kommer dess precision minska markant på ett oförutsägbart sätt när testdata och måldata skiljer sig mer och mer.

Prediktionsmodellering är, för det allra mesta och absolut i det här fallet, en starkt processualistisk metod. Modellen baseras på geologisk data och det förutsätter att människorna som byggt dessa boplatser gjort val helt baserat på de geografiska

förutsättningarna som beskrivs via de oberoende variablerna, medan det i praktiken sannolikt åtminstone till en del influerats av kultur och andra sociala faktorer. Att ta kultur i beaktning i en prediktionsmodell är i vissa fall möjligt men långt bortom vad som skulle rymmas inom tidsramen för detta arbete. Det är därför viktigt att ha i åtanke att den här typen av modeller bör ses som ett argument snarare än ett bevis, och att modellen består av testdataområdets ingående variabler för landskapet och den härledda uppskattade sannolikheten för lämningar.

Modellen bör inte ses som ett försök att säga något konkret om områdets historiska förhållanden.

(15)

5. Metod

5.1. Val av modell

Valet av modell är avgörande för alla prediktionsmodeller, oavsett ämne. Det är något som statistiker ofta understryker som en av de viktigaste delarna av hela arbetsprocessen (Ding, Tarokh, Yang 2018: 1).

Jag kommer i detta kapitel gå igenom den bakomliggande matematiken. Matematiken är komplicerad men i och med att den är mestadels automatiserad behöver arkeologer inte nödvändigtvis förstå hela förloppet. Det som är viktigt att förstå är inte de enskilda formlerna, utan att förstå att dessa uträkningar alltid sker, även vid icke-spatiala modeller. Det är dessa ekvationer de automatiska regressionsfunktionerna i exempelvis ArcGIS använder, även om användaren aldrig ser dem. Dessa ekvationer för med sig ett antal förutsättningar och gör ett antal antaganden för att fungera, och en bristande förståelse för arbetsprocessen kan lätt leda till felaktiga modeller.

Det är svårt att generalisera kring arkeologins modellval, den arkeologiska metod det här arbetet kommer använda utgår från ett antal arbeten som verkar vara representativa för arkeologin som fält. Tre modeller tycks sammanfatta arkeologins prediktionsmodellering väl, den linjära, icke-spatiala modellen som Westcott & Kuiper (2000: 66–67) utvecklat, den logistiska, icke-spatiala modellen som Warren & Asch (2000: 18) utvecklat samt modeller som saknar tydlig redogörelse för hur de är framtagna (exempelvis Duncan & Beckman 2000:

43–47). Det finns även exempel på spatiala modeller inom arkeologi (exempelvis Löwenborg 2010), det är dock mycket ovanligt.

Valet av spatiala modeller är härlett ut LaSage och Pace Introduction to Spatial Econometrics 2009) Samtliga formler är antingen direkt hämtade eller härledda från Uppsala Universitets formelsamling för grundläggande samt tillämpad statistik (2017, 2019).

5.2. Icke-spatial modellering, OLS

Den icke-spatiala modellen är i praktiken en regressionsmodell, alltså en formel som förklarar ett samband mellan två eller fler variabler, där utvecklaren har för avsikt att extrapolera ett resultat utöver vad som ryms inom själva modellen. En icke-spatial prediktionsmodell kan se ut på många olika sätt beroende på utvecklarens val, vanliga är bland annat linjär, logaritmisk eller exponentiell regression.

Förenklat kan de olika modellerna förklaras som olika sätt att tolka variabler beroende på hur stor effekt de kommer ha, exempelvis har ett stort värde i en linjär modell mindre effekt på resultatet än ett stort värde i en exponentiell modell.

(16)

Matematisk uttrycks dessa som:

𝑦 = 𝛽0+ 𝛽𝑘𝑥𝑘+ 𝜀 𝑦 = 𝛽0 + 𝛽𝑘𝑥𝑘+ 𝜀 𝑦 = 𝑒𝛽0+𝛽𝑘𝑥𝑘+ 𝜀

y representerar den beroende variabeln, alltså i den här uppsatsen sannolikheten att en boplats funnits i den aktuella rutan. x representerar de oberoende variablerna såsom höjd,

vegetationstyp et cetera. k representerar områden.

𝛽0 representerar interceptet, värdet på y där x är noll. Interceptet behöver ofta extrapoleras, vilket innebär att det är ett teoretiskt värde utan praktisk tillämpning, men skulle i uppsatsen innebära sannolikheten till en boplats när alla beroende variabler såsom höjd, lutning och så vidare alla är noll. 𝛽𝑘 representerar koefficienterna, alltså den effekt en skillnad i en

oberoende variabel har på den beroende variabeln.

𝛽0 och 𝛽𝑘 är i praktiken okända men skattas enligt nedanstående formler:

𝛽̂ = 𝑦̅ − 𝛽0 ̂𝑥̅ 1 Respektive:

𝛽̂ =1 𝑆𝑆𝑥𝑦 𝑆𝑆𝑥𝑥

Där SSxy och SSxx, förenklat uttryckt, visar hur mycket varje variabel i genomsnitt avviker från dess genomsnitt och beräknas enligt:

𝑆𝑆𝑥𝑥 = ∑(𝑥𝑖− 𝑥̅)2

𝑛

Respektive: 𝑖=1

𝑆𝑆𝑥𝑦 = ∑(𝑥𝑖 − 𝑥̅)(𝑦𝑖− 𝑦̅)

𝑛

𝑖=1

I och med att en prediktionsmodell behöver ett resultat uttryckt i procent sannolikhet omformuleras modellen något och exempelvis förändras den logaritmiska modellen från:

𝑦 = 𝑒𝛽0+𝛽1𝑥1 + 𝜀

Till:

Pr(𝑦 = 1|𝑥1, … , 𝑥𝑘) = 𝑒𝛽0+𝛽1𝑥1+⋯+𝛽𝑘𝑥𝑘 1 + 𝑒𝛽0+𝛽1𝑥1+⋯+𝛽𝑘𝑥𝑘

Även om den ser annorlunda ut är skillnaden i praktiken liten, det enda som egentligen tillkommit är konstanten 1. Utöver 1 är allt detsamma, all ingående data är densamma.

(17)

Skillnaden är att svaret med den nedre modellen blir uttryckt i sannolikhet. Det vänstra leder tolkas som sannolikheten att y är 1, alltså att det finns en boplats, betingat på värdet x, alltså alla de beroende variablernas statusar.

De två icke-spatiala modeller som kommer användas för detta arbete är en linjär multipel regression respektive en exponentiell multipel regression.

Den linjära modellen är något av en standardmodell, det är en grundläggande modell som inte gör skillnad mellan variabler. Den uttrycks matematiskt som ovanstående formel, alltså:

Pr(𝑦 = 1|𝑥1, … , 𝑥𝑘) = 𝑒𝛽0+𝛽1𝑥1+⋯+𝛽𝑘𝑥𝑘 1 + 𝑒𝛽0+𝛽1𝑥1+⋯+𝛽𝑘𝑥𝑘

Den exponentiella modellen liknar mestadels den linjära men har större förmåga att prioritera olika variabler olika högt beroende på hur relevanta de bedöms vara. Den uttrycks

matematiskt som:

Pr(𝑦 = 1|𝑥1, … , 𝑥𝑘) = 𝑒𝛽0+𝛽1𝑥1+⋯+𝛽𝑘𝑥𝑘 1 + 𝑒𝛽0+𝛽1𝑥1+⋯+𝛽𝑘𝑥𝑘

Skillnaden kan vara svår att se men till skillnad från den linjära där koefficienten

multipliceras med den oberoende variabeln är variabeln en potens för koefficienten, vilket ger större potential för värdeändringar i modellen. Notera att dessa modeller kan blandas, alla variabler behöver inte vara potenser i en exponentiell funktion.

5.3. Spatial modellering,

Det finns ett flertal spatiala modeller, dessa utgår från en central modell kallas Manski model.

Jag har valt har valt att koncentrera mig på de tre huvudsakliga modeller som tas upp i statistisk undervisning: SLX (Spatially Lagged X), SAR (Spatial Lag) samt SEM (Spatial Error) (Burkey 2017).

Manski model uttrycks matematiskt som:

𝑦 = 𝑝𝑊𝑦 + 𝛽0+ 𝛽𝑘𝑥𝑘+ 𝑊(𝛽0+ 𝛽𝑘𝑥𝑘) + 𝑢, 𝑢 = 𝜆𝑊𝑈 + 𝜀

Det kan se överväldigande ut men det enda som tillkommer jämfört med de tidigare, icke- spatiala modellerna är spatiala vikter, uttryckta som W, vilka kommer diskuteras vidare nedan.

Både den beroende variabeln, de oberoende variablerna och feltermen har i denna modell varsin spatial vikt. I praktiken kan denna modell vara mycket svår att applicera och därför förenklas den ofta till en av tre modeller:

SLX Spatially Lagged X

𝑦 = 𝛽0+ 𝛽𝑘𝑥𝑘+ 𝑊(𝛽0+ 𝛽𝑘𝑥𝑘) + 𝜀

(18)

SAR Spatial Lag

𝑦 = 𝑝𝑊𝑦 + 𝛽0+ 𝛽𝑘𝑥𝑘+ 𝜀

SEM Spatial Error

𝑦 = 𝛽0+ 𝛽𝑘𝑥𝑘+ 𝑢, 𝑢 = 𝜆𝑊𝑈 + 𝜀

Dessa är alltså modeller där bara en spatial vikt används, till skillnad från Manski model som använder alla tre.

Den viktigaste distinktionen mellan den icke-spatiala respektive spatiala prediktionsmodellen är att den spatiala har förmågan att låta variabler av samma typ påverka varandra. En

beroende variabel i en ruta kan alltså påverka den beroende variabeln i dess grannruta.

Exempelvis kan alltså en lämplig jaktplats i ett område sänka sannolikheten att grannområdet haft en boplats eller något dylikt som skulle störa jaktmarken.

En spatial modell har även förmåga att motverka klustring, vilket innebär att modellen kan korrigera för grupper av resultat som tillsammans blir missvisande. I praktiken innebär detta att modellen kan korrigera för att områden med bra förutsättningar kommer resultera i dussintals sannolika bosättningar och istället för att antyda att det finns dussintals antyda att det är sannolikt att det finns ett fåtal bosättningar där, men inte ett stort antal.

Det är viktigt att notera att alla variabler inte bör definieras som spatiala, spatiala vikter bör endast användas om det är rimligt att anta att de variablerna har en effekt på andra områden.

Exempelvis är avstånd till vatten redan spatialt i att alla områden är relativa till varandra i avstånd, att lägga till en spatial vikt kommer då störa variabeln.

5.4. Kvalitetskontroll

Kvalitén på en modell, alltså dess förväntade precision, kan framställas matematiskt via korsvalidering. Korsvalidering innebär att modellen testas på den grupperingar av den testdata modellen är härledd via. Modellen används, stödd av en del av testdata, för att predicera resultaten för en annan del av testdata, alltså data där de faktiska resultaten är kända. Via korsvalidering kan det alltså fastställas hur mycket modellen i genomsnitt har fel utifrån dess precision gällande prediktion av testdata. På så vis kan modellers kvalitet uppskattas och jämföras, ett lägre medelfel antyder en bättre modell.

(19)

5.5. Deduktiv kontra induktiv metod

Utöver den ovan nämnda indelningen kan modeller även delas in efter huruvida de utvecklats deduktivt eller induktivt.

En induktiv metod baseras på testdata, alltså data med de egenskaper modellen hoppas hitta. I detta fall platser med boplatser respektive platser utan boplatser, men testdata kan vara i stort sett vad som helst beroende på ämne. Ett stort antal testdatapunkter undersöks för att hitta samband mellan olika variabler i testdata och den undersökta variabeln. Sedan kan dessa samband appliceras för att predicera kring datapunkter där den undersökta variabeln har ett okänt värde.

Det finns viss, om än oundviklig, problematik kring den induktiva metoden. Testdata väljs i princip alltid utifrån en rad antaganden om vilken typ av data modellen är utvecklad för att hitta, vilket i hög grad kommer påverka resultatet.

Vidare, särskilt inom arkeologin, finns en risk för så kallad bias, alltså risken att den

tillgängliga data inte är representativ för helheten på grund av vissa nativa oförutsägbarheter (Wheatley, Gillings 2013: 209).

Inom arkeologin baseras den tillgängliga data i stort sett uteslutande på var arkeologer utfört utgrävningar, både platser där det finns och platser där det inte finns fynd måste grävas ut innan de kan säkerställas och läggas in i en databas. Alla outgrävda områden saknar data.

Därför baseras den tillgängliga data på var det grävs, vilket i sin tur till stor del baseras på var det byggs exempelvis vägar. Det är inte ett rimligt antagande att infrastruktur planeras på områden som är representativa för helheten och därför infaller en viss, icke kvantifierbar, osäkerhet i samtliga testdata.

Det är dock nämnvärt att även en osäker modell inom arkeologin i de flesta fall är bättre än att inte ha någon modell alls, då alternativet i praktiken ofta blir en väldig rudimentär, inofficiell, deduktiv modell för att uppskatta var i landskapet fornlämningar kan finnas

I den deduktiv metoden har variabelvikterna skattats av en sakkunnig snarare än via matematik.

Deduktiv metod är mestadels obsolet inom statistiskt arbete men används sporadiskt inom arkeologi. Den deduktiva metoden kan vara användbar för en allra första överblick av ett material men bör inte användas till några betydande analyser. Den deduktiva metodens huvudsakliga fördel är att den kan skära ner kraftigt på antalet nödvändiga ekvationer för att utveckla en modell, samt att den ibland kan användas på data där det inte finns tillräcklig information för att utveckla en induktiv. I vissa fall kan den även minska bias i materialet. Det finns dock problematik kring att över huvud taget utveckla en modell baserad på sådan data, då den i de flesta fall saknar möjligheter till kvalitetskontroll.

(20)

5.6. Dataförberedning

Arbetet sker via tre program, QGIS1 (version 3.10.1 with GRASS 7.8.1.), GeoDa2 (version 1.140.) samt R via Rstudio3 (Version 1.2.5019.). QGIS har valts framför andra GIS-tjänster dels tack vare prestandafördelar jämfört med exempelvis ArcGIS och dels på grund av dess inbyggda pythontolk som ger större kontroll över arbetsförloppet. I och med arbetets omfång har en relativt stor skala valts, därför blir processen väldigt arbetsintensiv och QGIS tycks arbeta betydligt snabbare än alternativen vid arbetsintensiva processer.

GeoDa är en tjänst som utvecklar nödvändig statistika för spatial modellering. GeoDa kan i det här fallet ses som en tolk mellan QGIS och R, och har som huvudsakligt syfte att förbereda data för att förflyttas mellan tjänsterna. GeoDa kan även användas till preliminär visualisering och kan generera vissa grafer och kartor.

R är ett programmeringsspråk utvecklat för att arbeta statistiskt. Rstudio är ett gränssnitt som underlättar kodning. Utöver Rstudio kommer även ett stort antal användarutvecklade libraries användas, alltså kodpaket som utökar Rs funktioner.

Utöver dessa kommer även en del dataformatering göras via Excel (version 16.0.12730.20144).

Arbetsprocessen kommer alltså gå till genom att data hämtas från internet, läses in, granskas och formateras i QGIS, förs över till GeoDa för att utveckla spatiala modeller och formateras ytterligare för att till slut föras över till R för att utveckla själva prediktionsmodellen. När modellen är färdigutvecklat kan den sedan appliceras i GeoDa och till sist visualiseras som en karta med sannolikhetsfördelning per område.

Tabell 1: Använda datalager, primära och härledda.

Vegetation Höjd Jordart Bergart Strandlinjeförskjutning Fornlämningar Vattenytor

Lutning Avstånd

till vatten Viewshed

Utöver dessa används QGIS Plugin LM Open Data WMTS för att generera en topografisk bakgrundskarta.

Ovannämnda datalager är valda då de är de som bedöms ha störst relevans för bosättningsplatser.

Jordart och bergart är direkt relaterade till möjligheterna att bebygga och leva i området.

Exempelvis är jordartsvärdet kalt berg betydligt svårare att bebygga än morän.

Höjddatalagret bedöms främst intressant via de två andra lagren som kan härledas ur det, men själva lagret kan vara av intresse för att sålla bort exempelvis toppen av höga kullar, platser med övrigt bra förutsättningar men som kan vara arbetsintensiva att röra sig till och från.

Lutning bedöms särskilt viktigt då en relativt stor del av området har ojämn mark och för kraftig lutning för att innehålla rimliga boplatser. Lutningslagret sållar effektivt bort alla strandhak och höga kullar i området.

1 https://qgis.org/en/site/index.html 2 https://geodacenter.github.io/

3 https://rstudio.com/

(21)

Viewshed är ett aningen mer svårarbetat lager i att det inte direkt producerar ett värde som kan arbetas med. Jag tror dock att en uppfattning om generell sikt kan vara av intresse och har, via en metod som kommer diskuteras senare i detta kapitel, producerat ett värde för relativ sikt.

Strandlinjeförskjutningslagret är mer experimentellt men kan i vissa fall användas för att få en uppfattning om huruvida området haft markanta skillnader i landmassa i den undersökta tidsperioden.

Lagret vattenytor kan dels användas till att sålla bort alla platser som befinner sig i vatten, dels till att skapa ett nytt lager med avstånd till vatten. Avstånd till vatten-lagret har troligen lite lägre relevans för vikingatida boplatser än ännu tidigare boplatser, men i och med att människorna i området oftast beskrivs som fångstmän (se exempelvis Hvafner) bedöms avstånd till fiskevatten fortfarande vara av intresse. Vidare har området, som tidigare nämnt, mark som är mödosam att röra sig genom, och kort transport av dricksvatten bör ha varit av åtminstone visst intresse.

Att använda SGU:s strandlinjedata för med sig vissa komplikationer. Modellen tappar

tillförlitlighet drastiskt allteftersom den

appliceras på mer och mer avlägsna tidsperioder (2010: 27). Dessa kvalitetsproblem blir tydliga i Långöns fall, då SGU:s modell placerar nästan hälften av gravhögarna under vatten, modellen delar även upp Långön i två delar som inte alls tycks överensstämma med fyndspridningen.

Strandlinjedata visar dock något

anmärkningsvärt, något jag inte sett diskuterats tidigare. Enligt data var Långön i själva verket inte en ö, utan en halvö med en bred landmassa mellan ön och fastlandet. I mån av tid hade detta kunnat vara intressant att spekulera vidare kring, eventuellt bör modellen ta i beaktning att det kan ha funnits en landväg till ön.

Det är dock oklart huruvida landmassan över huvud taget funnits och den kommer förbises i detta arbete.

Vidare visar strandlinjemodellen, utöver landbryggan, inga större skillnader mot nuvarande strandlinje och skulle troligen inte ha någon effekt på analysen.

I och med att tillgängliga strandlinjedata dels har kvalitetsproblem som inte kan åtgärdas och dels inte visar några relevanta skillnader kommer den inte användas.

Även jordartskartan verkar ha kvalitetsproblem, då dess vattenlager inte riktigt

överensstämmer med terrängkartan och exempelvis visar hela Långön som under vatten.

Detta bedöms dock inte påverka resultatet då själva Långön inte kommer användas i någon analys, och därför är det i detta arbete irrelevant vilken jordart Långön har.

Vidare är det viktigt att anmärka att vegetationslagret är baserat på nutidens vegetation och att denna inte nödvändigtvis är representativ för den undersökta tiden. I Långöns fall bedöms den vara trovärdig då den uteslutande utgörs av barrskog och olika typer av myrar, vilka

åtminstone generellt är äldre än öppen mark (Lantmäteriet 2018: 5).

Vidare ger den undersökta platsen inga resultat i lantmäteriets arkiv för historiska kartor

Figur 3: Strandlinjedata för Långön, 1000 år sedan.

(22)

utöver en kungörelse från 1890 gällande ett torp (Lantmäterimyndigheternas arkiv 1890).

Höjddata har i vissa platser levererats indelad i mindre rutor, i dessa fall har ett virtuellt raster skapats för att kombinera dem då använda funktioner inte kan hämta höjddata från mer än ett lager samtidigt. För att kunna hantera höjddata i R behöver den konverteras från raster till vektor, i processen skapades ett flertal felaktiga geometrier. Dessa åtgärdades genom att identifiera och separera de felaktiga, skapa ett bufferlager för dem och sedan ersätta det ursprungliga med bufferlagret. Det tycks skett utan någon som helst dataförlust, men i och med att det rör sig om tusentals punkter är det svårt att säga med säkerhet. Vidare var

majoriteten i vatten, och kommer därför oavsett inte tas i beaktning vid prediktionen. Samma process upprepas för lutning, sikt och avstånd till vatten-variablerna.

Avstånd till vatten har på testdata för kända boplatser beräknats för hand med QGIS measure line-funktion. På övrig testdata har den beräknats via funktionen distance to nearest hub (points).

I prediktionsdata görs ett avståndsraster baserat på SMHI:s datalager Vattenytor (SVAR2012). Skalan är inte optimal, som synes på bilden till vänster tas bara större vattendrag i beaktning. Mindre strömmar som syns på översiktskartan finns inte med i data, och används därför inte.

Det är möjligt att det finns andra, mer detaljerade datalager, men skillnaden är troligen minimal och det använda lagret bedöms skäligt.

Figur 4: Avstånd till vatten, mörkare färg ju längre avstånd.

(23)

Viewshed utvecklas via QGIS plugin Visibility analysis. Att producera ett relativt värde för sikt är inte helt okomplicerat.

Metoden är en kraftigt förenklad version av Baek och Chois metod presenterad i Comparison of 2Derived

from High-Resolution Digital Surface Models Using Line-of-Sight, 2D Fresnel Zone, and 3D Fresnel Zone Analysis (2018: 5–6). Jag har valt att skapa en random point per tio meter i ett område kring den undersökta punkten och sedan testat hur många av dessa punkter som ser den undersökta punkten. Antalet punkter med syn delat med det totala antalet punkter ger den procentuella sikten från random points i området, vilket bedöms vara en rimlig skattning av den relativa sikten i närområdet.

Siktanalyserna utgår från en åskådare 1,6 meter över marken som kan se upp till fem kilometer runt sig.

I praktiken har faktorer såsom vegetation och kulturella markförändringar stor effekt på siktanalysen men i arbetets omfång är det i praktiken omöjligt att ta detta i hänsyn. I och med att siktanalyserna kommer jämföras med varandra är endast relativa värden av intresse, och därför bedöms det rimligt att förenkla samtliga siktanalyser till att inte ta dessa faktorer i beaktning. Det skapar en osäkerhet, men osäkerheten bör vara relativt lik för samtliga områden.

Även om precisionen i en siktanalys bör kunna förbättras via exempelvis mer komplexa siktanalysmetoder, exempelvis Fresnel zone analysis (Baek, Choi 2018: 5) är förbättringen försumbar när osäkerheten är så pass stor.

I och med att merparten av den undersökta data är kategorisk, alltså inte kontinuerlig, behöver data konverteras innan den kan användas i en regressionsmodell. För att skapa kontinuerlig data har därför varje variabel delats in ett flertal binära ja/nej-variabler, så kallade dummy variabels, för samtliga värden varje variabel kan inneha. Snarare än att exempelvis ha en variabel för jordart med värden såsom morän eller torv skapas alltså ett trettiotal variabler såsom morän men värdena ja eller nej, 1 respektive 0. Det blir i längden arbetsintensivt då alla dessa behöver kodas om manuellt, men det är det säkraste sättet att arbeta med kategorisk data i detta kontext (Grotenhuis, Thijs 2015: 9–11).

Figur 5: Siktanalys, mörkare färg ju färre punkter med sikt.

(24)

6. Material

6. 1. Långön

Själva prediktionen har utförts på 25 x 25 meter stora rutor i ett rutnät i ett kvadratiskt område med Långön centrerat. Området har valts ut för att ge en så stor undersökningsarea som möjligt utan att ge en alltför svårarbetad datamängd. Nedanstående figur motsvarar exakt det undersökta området.

Figur 6:Det undersökta området kring Långön.

(25)

Sammanlagt har 72 270 av dessa rutor skapats. Varje ruta har ett x- samt y-värde som visar vilken plats den har i griden. Inzoomat ser alltså griden ut som bilden till vänster. För varje ruta har en centriod, alltså en point- vektor, skapats i mitten och samtliga oberoende variabler på den punkten har kopierats över till centroiden, som i sin tur sedan kopierats tillbaka till rutnätet. Detta innebär att exempelvis höjddata inte nödvändigtvis representerar hela rutan, men det bedöms vara den närmsta skattningen som kan göras. Varje ruta läses sedan in i R där varje rutas egenskaper vägs enligt prediktionsmodellen

utvecklad via testdata. Varje ruta får då ett nytt attribut som anger dess sannolikhet att inneha en boplats.

Den färdiga prediktionen kommer alltså gå att illustrera grafiskt men även ha fulla attribut med ingående variabler tillgängliga för samtliga rutor.

Figur 8: Exempel från linjär prediktionsmodell, rödare färg ju högre sannolikhet för boplats.

Figur 7: Rutnät med identifikationsnummer.

(26)

6. 2. Testdata

Statistiken, och i förlängning ekonometrin, har formler och regler kring minsta nödvändiga testgrupp (Riley et al 2018. 1277–1278) som skulle resultera i en nödvändig testgrupp av tusentals boplatser. I praktiken är detta i stort sett alltid omöjligt för arkeologer. Det är oerhört sällan, om någonsin, det går att hitta 10 000 lämningar med samma förutsättningar som de sökta platserna. I det här arbetets, och många andra, fall är det oklart om det finns några över huvud taget med perfekt likhet. Därför är ett antagande nödvändigt, nämligen att områdets stenåldersbosättningar har samma förutsättningar som de vikingatida bosättningarna. Det är ett stort, och riskabelt antagande, men det är ett typiskt antagande för denna typ av prediktion.

Alternativet är att använda vikingatida boplatser i helt andra områden, vilka har landskap som inte alls överensstämmer med landskapet kring Långön. Det finns inga tydliga tecken på att detta antagande ska vara felaktigt, en stor del av de registrerade stenåldersbosättningarna kring Ströms Vattudal och Hoting finns i platser som geografiskt liknar området kring Långön. Det är dock värt att notera att risken med detta är att hitta fel sorts boplatser snarare än att inte hitta några alls. Även om det skulle finnas väsentliga skillnader som stör

prediktionen skulle detta inte påverka modellens effektivitet för att predicera kring stenåldersboplatser.

Det för med sig viss osäkerhet, men vissa antaganden är nödvändiga.

För att minimera osäkerheten kring testdata prioriterades boplatser som var:

• Närbelägna, samtliga är i Strömsund eller Dorotea kommun.

• Dokumenterade, samtliga är delvis eller helt undersökta.

• Säkra, samtliga är antikvariskt bedömda att vara fornlämningar.

Med ovanstående urvalsram återstår sammanlagt 12 lämningar. Samtliga boplatsers

inventeringsböcker läses för att säkerställa att det inte finns några försvårande omständigheter kring dem, men samtliga bedöms rimliga för analysen.

(27)

Tabell 2: Egenskaper för boplatser i testdata.

Lämnings- nummer

L1946:6812 L1948:9213 L1938:85 L1938:561 L1938:367 L1938:1011

Kommun Strömsund Strömsund Dorotea Dorotea Dorotea Dorotea

År för utgrävning

1972 1971 1996 1996 1996 1996

Vegetation Torr-frisk barrskog

Torr-frisk barrskog

Kulturmark/Torr- frisk barrskog

Torr-frisk barrskog

Kulturmark Torr-frisk barrskog

Höjd 287 239 267 266 266 268

Lutning 0,0384 0,1413 1,2009 0,0050 0,0009 0,0110

Viewshed 5,48 3,11 1,61 3,47 2,40 6,53

Jordart Morän Morän Morän Morän Torv Isälvssediment

Bergart Granit Granit Granodiorit-

granit

Granodiorit- granit

Granodiorit- granit

Granodiorit- granit Avstånd

till vatten (meter)

0–25 0–25 25–50 0–25 0–25 0–25

Lämnings- nummer

L1945:9338 L1947:5023 L1947:36 L1948:9519 L1948:9819 L2019:5900

Kommun Strömsund Strömsund Strömsund Strömsund Strömsund Strömsund

År för utgrävning

2018 1972 1971 1971 1971 2019

Vegetation Torr-frisk barrskog

Mossmarks- barrskog

Torr-frisk barrskog

Torr-frisk barrskog

Torr-frisk barrskog

Torr-frisk barrskog

Höjd 265 313 262 242 240 263

Lutning 1,9344 1,4989 1,1757 1,9792 1,1992 2,0577

Viewshed 4,90 1,88 3,22 4,47 3,11 4,04

Jordart Morän Berg Morän Morän Isälvssediment Isälvssediment

Bergart Granit Amfibolit Gabbroid-

Dioritoid

Granit Granit Gabbroid-

Dioritoid Avstånd till

vatten (meter)

0–25 25–50 0–25 50–75 0–25 0

L1946:6812, L2019:5900 samt L1948:9213 är idag endast torrlagda vid lågvatten och polygonerna är därför i vattnet, närmsta jordart samt vegetation har använts.

L1948:9519 samt L1948:9213 har, på grund av skala, felaktigt klassats som jordart vatten. Den närmsta jordarten som inte är vatten har istället använts för dem.

L1938:1011 har ett väldigt högt siktvärde men detta bedöms korrekt och rimligt då platsen befinner sig på en liten ö mitt i en sjö.

(28)

Utöver dessa tolv har sammanlagt 1000 punkter skapats i Långöns närområde via QGIS random points-funktion. Området är snarlikt det som används för prediktionen men något större för att få med datapunkter som inte finns i prediktionsramen. Punkterna har skapats helt slumpmässigt, utan regler, vad som inom statistiken brukar kallas för obundet slumpmässigt urval (utan återläggning). Detta är ett krav för att vissa beräkningar ska fungera som avsett.

Figur 9: Det undersökta testdataområdet med random points.

Förenklat uttryckt kan de 1000 punkterna ses som ett sätt att skapa en bild av vilka

omständigheter som råder i området, alltså vilka variabler som förekommer och hur dessa är fördelade medan de 12 fyndpunkterna ger en, om än rudimentär, bild av detsamma för boplatser. När dessa ställs i förhållande till varandra kan förhoppningsvis mönster upptäckas, såsom exempelvis att boplatser generellt har kortare avstånd till vatten än vad som är typiskt enligt de 1000 punkternas sammanfattning av området. När det sedan är känt att det finns ett samband kan det appliceras i prediktionen för att ge platser nära vatten högre sannolikhet att inneha en boplats.

(29)

6.3. Modellutveckling

Vissa förenklingar blir nödvändiga men dessa bedöms inte riskera modellens kvalitet. Myrar och kärr bedöms vara högst osannolika boplatser och därför generaliseras samtliga typer till en kategori, Myr eller kärr. I och med att en stor del av vegetationen utgörs av barrskog behålls dessa variationer, även om variationen mellan Våt barrskog och Fuktig barrskog troligen är relativt liten i praktiken.

Några punkter saknar vissa värden, sammanlagt 46 N/A-värden. 42 av dessa kommer från bergartslagret.

Viss osäkerhet finns kring testboplatsernas avstånd till vatten. Dels då ett flertal är polygoner där det är svårt att avgöra exakt varifrån avståndet ska mätas, dels då

strandlinjeförskjutningen inte tas i beaktning. Avstånden avrundas därför upp till närmsta faktor på 25, en ruta i prediktionsmodellen. Detta bedöms dock vara försumbart då samtliga boplatser har ett väldigt litet avstånd relativt till övrig testdatas.

Tabell 2: Nivåer i kategorivariabler jordart, bergart samt vegetation.

Jordart Bergart Vegetation

Morän Granit Torr-frisk barrskog

Vatten Kvartsarenit Vatten

Berg Vacka Fuktig barrskog

Isälvssediment Skiffer Kulturmark eller exploaterad

mark

Torv Paragnejs Barrskog, lavristyp

Älvsediment, sand Gabbriod-dioritoid Myr eller kärr

Lera – silt Tonalit-granodiorit Våt barrskog

N/A Syenitoid-granit Sötvattenstrandäng

Graniorit-granit Mossmarksbarrskog

Kalksten N/A

Sandsten N/A

Absoluta frekvenser för samtlig testdata samt relativa frekvenser för kategorivariabler ges via R. Dessa finns tillgängliga i bilaga 1. Sammanfattat är morän den vanligaste jordarten med cirka 60% förekomst, torr-frisk barrskog är den vanligaste vegetationstypen med cirka 65%

förekomst medan bergarter är mer jämnt fördelade. Granit är något vanligare än övriga med cirka 30%.

(30)

7. Resultat

7.1. Regression

Samtliga variabler anpassas via Ordinary Least Squares för att ge modellens koefficienter. R ger värdena:

Residuals:

Min 1Q Median 3Q Max -0.21764 -0.02995 0.00056 0.02670 0.72697 Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.259e-01 3.172e-02 -3.970 7.73e-05 ***

testdata$amfi 7.486e-01 6.966e-02 10.746 < 2e-16 ***

testdata$gabb_dior 4.501e-02 1.379e-02 3.265 0.00113 **

testdata$gran 1.974e-02 7.856e-03 2.512 0.01216 * testdata$gran_gran 4.876e-02 1.206e-02 4.043 5.70e-05 ***

testdata$kalk -1.189e-02 1.729e-02 -0.688 0.49179 testdata$kvar -9.254e-03 8.256e-03 -1.121 0.26261 testdata$para 4.583e-03 1.345e-02 0.341 0.73337 testdata$sands -2.529e-02 6.830e-02 -0.370 0.71121 testdata$skif -3.989e-02 9.442e-03 -4.225 2.62e-05 ***

testdata$syen_gran -5.717e-03 1.065e-02 -0.537 0.59159 testdata$tona_gran 1.070e-02 1.289e-02 0.830 0.40655 testdata$vacka NA NA NA NA testdata$berg 1.483e-02 2.791e-02 0.531 0.59531 testdata$isalv 2.903e-02 2.776e-02 1.046 0.29594 testdata$lera_silt 3.798e-02 7.294e-02 0.521 0.60268 testdata$moran 1.207e-02 2.670e-02 0.452 0.65118 testdata$torv 2.414e-02 2.750e-02 0.878 0.38021 testdata$vattenjord -8.135e-02 2.862e-02 -2.842 0.00457 **

testdata$alvs_sand NA NA NA NA testdata$barr_lav -2.761e-02 2.339e-02 -1.181 0.23806 testdata$expl 8.764e-02 6.855e-02 1.278 0.20143 testdata$myr_karr -6.237e-03 1.234e-02 -0.505 0.61339 testdata$barr_fukt -5.795e-03 1.225e-02 -0.473 0.63632 testdata$kult 2.777e-02 1.633e-02 1.700 0.08941 . testdata$barr_moss NA NA NA NA testdata$strand -4.879e-02 6.914e-02 -0.706 0.48061 testdata$barr_torr 2.010e-03 9.773e-03 0.206 0.83710 testdata$barr_vat 2.922e-02 1.634e-02 1.789 0.07397 . testdata$hojd 2.094e-04 5.065e-05 4.135 3.86e-05 ***

testdata$View 1.613e-01 4.594e-03 35.105 < 2e-16 ***

testdata$Slopeint -3.382e-03 6.774e-04 -4.993 7.08e-07 ***

testdata$Avstand -7.112e-06 3.230e-06 -2.202 0.02793 * ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.06789 on 941 degrees of freedom (41 observations deleted due to missingness)

Multiple R-squared: 0.634, Adjusted R-squared: 0.6227 F-statistic: 56.21 on 29 and 941 DF, p-value: < 2.2e-16

(31)

Väldigt förenklat kan tabellen tolkas som att stjärnorna till höger antyder att det finns ett samband mellan värdet på variabeln och huruvida det funnits en boplats i området. Alltså tycks de undersökta variablerna varit relativt välformulerade, det finns ett flertal signifikanta samband. De starkaste sambanden är alltså ett antal av bergarterna, jordarten vatten samt höjd, sikt, lutning och avstånd till vatten. Med jordarten vatten menas alltså att jordartslagret varit vatten, vilket i praktiken är sättet modellen definierar vatten. Att det finns ett negativt samband mellan vatten och boplatser tycks rimligt.

Modellen misslyckas dock i statistiska kvalitetstest, ett homoskedasticitet i R ger:

Det innebär att det på 95% signifikansnivå inte kan säkerställas att det råder

homoskedasticitet, alltså är heteroskedasticitetsproblem sannolika. Heteroskedasticitet är ett komplext begrepp men någorlunda enkelt uttryckt innebär det att variabeln som ska förklara hur varje datapunkt slumpmässigt avviker från prediktionen i själva verket korrelerar med de oberoende variablerna. Detta kan leda till problem med prediktionen då det innebär att det finns mönster i testdata som modellen inte tar hänsyn till. Dessvärre är detta förväntat, och troligen oundvikligt, med så små frekvenser i testdata. Detta gäller troligen en stor del av arkeologiska prediktionsmodeller, även om det inte rapporteras eller ens alltid upptäcks.

Non-constant Variance Score Test Variance formula: ~ fitted.values

Chisquare = 3628.132, Df = 1, p = < 2.22e-16

(32)

7.2. Prediktion

Den allra mest rudimentära i sammanhanget är en icke-spatial, helt linjär regressionsmodell där alla variabler använts. Detta är standarden för Rs prediktionskommando samt diverse GIS- applikationers prediktionsfunktion.

Modellen visar mestadels skäliga resultat, de flesta platser med hög sannolikhet är nära vatten, på plant utrymme med god sikt. Platser långt från vatten samt i skarp lutning är minst

sannolika, vilket bör vara korrekt. Intressant är att Långön själv klassats som relativt osannolik enligt denna modell.

Notera även det mesta av sjön klassats som relativt sannolik boplats. Det beror på att denna modell inte har några som helst undantag i sin prediktion och därför behandlar vatten på samma sätt som jordarter. Även om det inte är ett problem kring själva sjön, dessa platser är lätta att utröna visuellt, är det svårare att avgöra vilka felaktiga platser som finns på

exempelvis kärr eller mindre vattendrag.

Figur 10:: Fullständig prediktionskarta för linjär modell. Rödare färg ju högre sannolikhet för ett boplatsläge. Högupplöst bild finns tillgänglig på https://tinyurl.com/prediktion.

(33)

Ytterligare en modell utvecklades, även den här icke-spatial men med mer situationsanpassad form. Modellen formuleras i exponentiell form snarare än linjär kombinerat samt med ökad vikt på de mest skäliga variablerna, alltså höjd, avstånd till vatten, sikt och lutning. Detta innebär dels att variabler med tveksam relevans såsom vissa av bergartslagren prioriteras lägre, samt att det krävs ett starkare samband för att ge utslag på kartan.

Figur 11: : Fullständig prediktionskarta för exponentiell modell. Rödare färg ju högre sannolikhet. Högupplöst bild finns tillgänglig på https://tinyurl.com/prediktion.

Som synes är modellen mestadels genomskinlig, vilket antyder väldigt låg sannolikhet. Fyra områden sticker ut, där ett område har ett kluster av särskilt hög sannolikhet.

Bägge modeller finns tillgängliga som högupplösta bilder samt i xlsv- och csvformat via dropbox på https://tinyurl.com/prediktion. Samtlig testdata finns även tillgänglig i csvformat.

(34)

7.3. Kvalitetstest

För att jämföra den linjära och exponentiella modellen kvalitetstestas bägge via Root Mean Squared Error (RMSE) samt Mean Absolute Error (MAE). Bägge metoderna är snarlika sätt att testa prediktionssäkerhet, MAE uppskattas vara något bättre lämpad i detta arbete då RMSE bestraffar fel olika hårt beroende på hur felaktiga de är. I och med att boplatsvariabeln är binär bör MAE passa bättre. Vidare kan RMSE/MAE testas på både hela testdatat och det mindre korsvalideringsstickprovet för att se huruvida modellen är överanpassad. Resultaten ges via R:

Tabell 3: MAE/RMSE-värden för linjär/exponentiell modell.

Linjär modell

MAE RMSE

Testdata Stickprov Testdata Stickprov

15,76919 15,77008 1508,357 1609,793

Exponentiell modell

MAE RMSE

Testdata Stickprov Testdata Stickprov

13,53729 13,53726 5483,563 5138,094

Låga värden innebär, generellt, ett lägre genomsnittsfel för modellens prediktioner. Notera att dessa värden endast är relativa varandra, de har alltså inget inherent värde utan bör enbart jämföras med varandra. MAE-värden bör bara jämföras med andra MAE-värden och vice versa. MAE respektive RMSE-värdena kan jämföras dels inom modellerna för att avgöra om modellerna är överanpassade, i sådant fall finns det en stor avvikelse mellan värdena, dels mellan modeller för att avgöra vilken modell som, utifrån förutsättningarna, predicerat mest rätt.

Testen antyder att inga av modellerna är överanpassade samt att den exponentiella har något bättre kvalité enligt MAE medan den linjära har bättre kvalité enligt RMSE. Trots den stora skillnaden i RMSE ses MAE-värdet som mer relevant då metoden är bättre lämpad.

(35)

8. Diskussion

8.1. Långön

I och med Tåsjö sockens omfattande uranprospekteringar tillkommer ett ytterligare

tillämpningsområde för modellen. Även om forskningsutgrävningar på platsen inte är troliga kan det hända att exploateringsutgrävningar bli aktuella i framtiden. Då Tåsjö är ett stort område nästan uteslutande täckt av barrskog, cirka 85% av Långöns närområde består av barrskog, finns det utmaningar med att göra utredningar och undersökningar i området.

Vidare saknar stora delar av området vägförbindelser. En nyligen utförd förundersökning i närområdet (Engman 2018: 4) vittnar om att området om vintern kan nå temperaturer närmare -35 grader samt ha ett snödjup uppemot en meter. I en sådan situation bör en

prediktionsmodell kunna underlätta enormt, det är svårt att arbeta deduktivt i ett helt snötäckt område, särskilt med dålig logistik.

Till skillnad från stora delar av de kända lämningarna i området antyder den linjära modellen att boplatser är mer sannolika något längre in på land. Den exponentiella visar däremot enbart platser under 100 meter från vatten.

Trots den preliminära siktanalysen som antydde boplatser på den sydvästra stranden premierar den första, linjära, modellen landet direkt nordöst om Långön, vilket är i nära anknytning till landbryggan strandlinjeförskjutningskartan antydde kan ha funnits. Det rör sig dock om stora områden av snarlik sannolikhet, och det är oklart hur stor praktisk tillämpning denna modell faktiskt har.

Den exponentiella modellen visar sammanlagt fyra områden av sannolikhet, samtliga i anknytning till stränder närbelägna Långön. Intressant är att området nordöst inte ger något som helst utslag i denna modell. Platsen direkt väster om Långön har de rutor med starkast utslag medan de östra områdena har flest sannolika platser.

(36)

Figur 12: Prediktionskarta för exponentiell modell, sannolikt område väst om Långön.

Även om platserna tycks skäliga och modellen presterat relativt väl är det svårt att dra mer övergripande slutsatser kring Långön utifrån dem. Det är, inte helt oväntat, omöjligt att säga något om gravbyggarnas kulturella tillhörighet oavsett vilka områden de mest sannolikt bott på i närområdet. Hacigüzeller (2012: 18–20) menar dock att denna typ av GIS-projekt inte bara bör tolkas som en indikation om var utgrävningar bör ske, utan kan även ge en inblick i gravbyggarnas samtid. Prediktionen i sig kan tolkas post-processualistiskt som en del av hur gravbyggarna tänkt när de valt boplatsen. Bra sikt har enligt modellen prioriterats relativt högt, vilket kan tolkas på olika sätt. Det kan antingen betyda att det prioriterats av kulturella eller mer strategiska skäl. Det kan även vara ett modellproblem via modellens

homoskedasticitet, närhet till vatten och bra sikt bör rimligtvis korrelera.

I området finns L1948:9605, en rapporterad boplats jag tidigare valt att förbise i och med dess högst osäkra status. Rapporten tycks vara en anmälan om ett skärvstensfynd som hittats och behållits av en privatperson, datum saknas och platsen tycks vara manuellt utpekad av

privatpersonen. Även om rapporten är osäker befinner sig den potentiella boplatsen i ett av de områden som enligt modellen är mest sannolika. Personligen ser jag den här platsen som den mest lovande i området.

References

Related documents

Syftet med detta examensarbete är, som tidigare nämnt, att skapa ett designförslag för en trädgård innehållande ett antal härdiga, perenna sorter av frukt och bär lämpliga för

Eftersom elcertifikat inte kommer att tilldelas efter 2021 innebär detta dock inte att ytterligare via elcertifikatsystemet subventionerad elproduktion tillförs kraftsystemet

I dagsläget är priset på elcertifikat väldigt låga och om priserna på elcertifikat blir varaktigt låga och närmar sig administrationskostnaderna anser branschföreningen Svensk

Dock anser Chalmers att det inte bara är uppfyllandet av målet för elcertifikatsystemet som ska beaktas vid ett stopp utan även balansen mellan tillgång och efterfrågan av

Energiföretagen Sverige och Energigas Sverige har gemensamt i en hemställan (bifogas) till regeringen den 8 februari 2019 begärt att 2 § förordningen (2011:1480) om

Fastighetsägarna anser att den del i avtalet med Norge om gemensam elcertifikatsmarknad som resulterat i att skatt påförs på egenförbrukad solel från anläggningar med en

Missa inte vårt politiska nyhetsbrev som varje vecka sammanfattar de viktigaste nyheterna om företagspolitik. Anmäl

I promemorian finns förslag till ändringar i lagen om elcertifikat. Lagför- slaget innebär bl.a. att elcertifikatssystemet avslutas 2035 och att ett stopp- datum för godkännande av