Utvärdering av modellerna - Gravhögarna på Långön: ett metodtest av statistisk prediktionsmodel

8. Diskussion

8.2. Utvärdering av modellerna

De variabler jag valt att arbeta med är de, troligen, allra vanligaste att använda inom

arkeologisk prediktionsmodellering. Utöver dem finns det dock en variabel jag vill diskutera trots att jag valt att inte använda mig av, least cost path alternativt cumulative cost. Dessa är variabler härledda från lutningsdata, vilket i sin tur är härlett från höjddata, som används för att beräkna hur mödosamt det är att ta sig igenom terrängen. Medan least cost path beräknar den minst mödosamma vägen mellan två punkter kan cumulative cost användas för att beräkna den aggregerade mödan, alltså den relativa energin nödvändig, för att röra sig i alla riktningar från en punkt. Även om dessa funktioner har stor potential i andra arbeten har jag valt att inte inkludera den då den inte lämpar sig väl för den här typen av

prediktionsmodellering. För att använda variabeln måste den kunna tillämpas på all data, även testdata. I och med att testdata för kända boplatser inte ligger i närområdet kan inte Långön användas som mittpunkt för ett cumulative cost-raster och det vore det enda rimliga sättet att inkludera variabeln på.

Ett flertal problematiska antaganden och kompromisser har behövts göras under arbetets gång. De flesta av dessa bör dock vara generella för arkeologiska prediktionsmodeller och inte unika för detta arbete. Syftet med det här kapitlet är inte att argumentera för varför prediktionsmodeller inte är hållbara, utan snarare att diskutera vad som skulle, och i vissa fall behöver, förbättras.

De flesta gäller modellens testdata. I och med att det inte finns tillgänglig data av utgrävda, fyndlösa, områden krävs ett antagande att alla områden utan bekräftade fynd saknar fynd.

Detta är ett högst osäkert antagande, men ett som är nödvändigt i samtlig arkeologisk prediktionsmodellering.

Vidare krävs ett antagande att de bosättningar som används i testdata är representativa för helheten, vilket inte heller kan ses som ett rimligt antagande. De allra flesta kända boplatser är på en strandkant eller i exploaterade områden. Det förekommer även viss klustring i de kända boplatserna. Detta skulle i teorin kunna mitigeras i framtida arbeten om det framställts register över utgrävda platser oavsett om det upptäckts fynd eller inte. Detta är ett känt problem och moderna utgrävningsområden registreras i ett särskilt datalager på i Kulturmiljöregistret (KMR). I bland annat Strömsund kommuns fall har dock en stor del av utgrävningarna utförs för länge sedan, tidigt 1970-tal i detta arbetes fall. För denna typ av områden är det i dagsläget i praktiken omöjligt att få en bild av var i området det grävts och därför är det svårt att avgöra om boplatser är mer sannolika vid strandkanter eller om det helt enkelt bara är där det utförts utgrävningar. Oavsett om det är representativt eller inte är det dock säkert att boplatser finns att hitta på strandkanter, så det är åtminstone delvis korrekt.

Att hitta, hämta och förbereda testdata är en oerhört arbetsintensiv period där varje känd boplats tar timmar att behandla. Vidare är utbudet av kända boplatser ytterst begränsat vilket resulterat i ytterligare antaganden.

Detta resulterar i förlängningen i variabler som inte representeras över huvud taget, vilket skapar viss beräkningsproblematik.

I många fall har arbetet begränsats av sökfunktionerna i de GIS-databaser som använts. De två främsta hindren har varit Fornsöks begränsade funktioner för att avgränsa material, där urvalet behövt göras genom att manuellt läsa hundratals inskannade inventeringsböcker för att se datering, fyndmaterial och säkerhet. De inventeringsböcker som varit aktuella för detta arbete har ofta varit slarvigt, i vissa fall oläsligt, skrivna och saknar tydligt syntax vilket i tur

resulterar i att de är väldigt svåra att jämföra med varandra. En funktion som tillåter sökning baserat på datering, även om dateringen varit så grov som förhistorisk/historisk tid, hade underlättat enormt i att ta fram testdata.

Boldrini (2016) utvecklade en modell för lösfynd i North Yorkshire, England där området delades in i grids och varje grid fick ett register för antal lösfynd av varje relevant typ. Denna typ av data hade varit betydligt mer lättarbetad vid prediktionsmodellering, ett gridnät med ja/nej-värden för olika fyndtyper vore oerhört hjälpsamt för merparten av statistiska analyser.

I och med att de flesta datalager som finns tillgängliga för Sverige följer samma syntax bör det egentligen gå relativt enkelt att utveckla en mall för R-kodning, en stor del av arbetstiden har lagts på att skriva kring 500 rader kod i R där kring 80% enbart handlar om att förbereda data genom att göra den uniform och i korrekta format. I praktiken är det mindre än 20 av dessa rader som skapar själva prediktionen, resten handlar om att förbereda data på olika sätt.

Med mindre korrigeringar skulle koden gå att använda till all arkeologisk

prediktionsmodellering på svensk data, ett mallbibliotek för datalager skulle troligen underlätta enormt i framtida prediktionsmodellering. Alltså bör, i teorin, ett stycke R-kod kunna bifogas med varje GIS-fil för att direkt tillåta användaren att hantera filen i R utan att behöva skriva denna förberedande kod själv varje gång. Den nödvändiga koden är densamma för alla användare så det bör räcka med att den skrivs en gång och sedan delas ut.

Nedanstående ruta är ett utdrag ur R-koden och utgör ungefär en tredjedel av koden använd för att koda om vegetationsdata till ett binärt format som kan användas i regression. I och med att all vegetationsdata i Sverige följer samma syntax bör denna kod gå att kopiera direkt till vilket annat arbete som helst oavsett plats eller arbetssyfte.

Det är viktigt att ha i åtanke att modellens skala är 25 x 25m-rutor, som vidare påverkas av skalan på dess variabler. I bästa fall rör sig resultatet alltså om en sannolik boplats inom ett 25m² stort område. I praktiken är det möjligt att ett fältbesök kan ge indikatorer om var inom dessa rutor utgrävningar kan vara aktuella, men det är värt att ha i åtanke att de högsannolika områdena är relativt stora.

#binar vegetation vegfreq

testdata$barr_lav<- NA

testdata$barr_lav[which (testdata$Vegetationstyp!="Barrskog, lavristyp")] <- 0 testdata$barr_lav[which (testdata$Vegetationstyp=="Barrskog, lavristyp")] <- 1 testdata$myr_karr<- NA

testdata$myr_karr[which (testdata$Vegetationstyp!="Barrskogsmyr")] <- 0 testdata$myr_karr[which (testdata$Vegetationstyp=="Barrskogsmyr")] <- 1 testdata$expl<- NA

testdata$expl[which (testdata$Vegetationstyp!="Exploaterad mark")] <- 0 testdata$expl[which (testdata$Vegetationstyp=="Exploaterad mark")] <- 1

testdata$myr_karr[which (testdata$Vegetationstyp=="Fastmattemyr, halvgräsvariant")] <- 1 testdata$barr_fukt<- NA

testdata$barr_fukt[which (testdata$Vegetationstyp!="Fuktig barrskog")] <- 0 testdata$barr_fukt[which (testdata$Vegetationstyp=="Fuktig barrskog")] <- 1 testdata$myr_karr[which (testdata$Vegetationstyp=="Högstarr-sumpkärr")] <- 1 testdata$kult<- NA

testdata$kult[which (testdata$Vegetationstyp!="Kulturmark")] <- 0 testdata$kult[which (testdata$Vegetationstyp=="Kulturmark")] <- 1

testdata$myr_karr[which (testdata$Vegetationstyp=="Lösbottenkärr, starr-örtvariant")] <- 1 testdata$myr_karr[which (testdata$Vegetationstyp=="Lösbottenmyr, halvgräsvariant")] <- 1 testdata$myr_karr[which (testdata$Vegetationstyp==" Mjukmattemyr, halvgräs-vitmossvariant")] <- 1 testdata$barr_moss<- NA

testdata$barr_moss[which (testdata$Vegetationstyp!="Mossmarksbarrskog")] <- 0 testdata$barr_moss[which (testdata$Vegetationstyp=="Mossmarksbarrskog")] <- 1 testdata$myr_karr[which (testdata$Vegetationstyp=="Ristuvemyr")] <- 1 testdata$strand<- NA

testdata$strand[which (testdata$Vegetationstyp!="Sötvattensstrandäng (nordlig), sedimentationsbetingad")] <- 0 testdata$strand[which (testdata$Vegetationstyp=="Sötvattensstrandäng (nordlig), sedimentationsbetingad")] <- 1 testdata$barr_torr<- NA

testdata$barr_torr[which (testdata$Vegetationstyp!="Torr-frisk barrskog")] <- 0 testdata$barr_torr[which (testdata$Vegetationstyp=="Torr-frisk barrskog")] <- 1 testdata$barr_vat<- NA

testdata$barr_vat[which (testdata$Vegetationstyp!="Våt barrskog")] <- 0 testdata$barr_vat[which (testdata$Vegetationstyp=="Våt barrskog")] <- 1 testdata$vattenveg<- NA

testdata$vattenveg[which (testdata$Vegetationstyp!="Öppet vatten")] <- 0 testdata$vattenveg[which (testdata$Vegetationstyp=="Öppet vatten")] <- 1

In document Gravhögarna på Långön: ett metodtest av statistisk prediktionsmodellering i Norrlands inland (Page 37-40)