Socialarbetares riskbedömningar för partnervåld : En analys av interbedömarreliabilitet

(1)

Socialarbetares riskbedömningar för partnervåld

En analys av interbedömarreliabilitet

Jonathan Christiansson, Adam Jonsäll & Fredrik T. Petersson Vårterminen 2020 Självständigt uppsatsarbete, 15 hp Huvudområde: Kriminologi

Institutionen för juridik, psykologi och socialt arbete Handledare: Joakim Petersson

(2)

Abstract

Risk assessments are an important element in preventing recidivism for intimate partner violence. This study aimed to investigate the inter-rater reliability of social workers' risk assessments for partner violence regarding the identification of risk, vulnerability and

protective factors as well as case prioritization. The study was conducted by giving six social workers, both individually and jointly, the opportunity to assess risk-, vulnerability- and protective factors as well as prioritization of safety measures for six fictitious cases. The results showed that inter-rater reliability varied when comparing individual assessors depending on the factor that was to be identified and the priority to be attributed to the case. The same was true of the joint assessments. Risk factors were shown to have the highest inter-rater reliability and vulnerability factors to have the lowest inter-rater reliability averaged across all cases. The same was true when comparing joint assessments. Case prioritization showed varying inter-rater reliability with moderate agreement between individual assessors and somewhat lower agreement compared to a joint assessment, averaged across all cases. Further research is recommended in order to assist in the development and use of manuals in assessments of partner violence and in order to understand the need for support to its users.

Keywords: Intimate partner violence, risk assessment, inter-rater reliability, social worker, risk-, vulnerability- and protective factors, case prioritization

(3)

Sammanfattning

Riskbedömningar är ett betydande inslag för att arbeta förebyggande mot återfall i partnervåld. Denna studie syftade till att undersöka interbedömarreliabiliteten bland socialarbetares riskbedömningar för partnervåld gällande identifiering av risk-, sårbarhets- och skyddsfaktorer samt ärendeprioritering. Undersökningen genomfördes genom att sex socialarbetare, både individuellt och gemensamt, fick bedöma risk- sårbarhet- och

skyddsfaktorer samt prioritering av ärendet i sex fiktiva fall. Resultaten påvisade att

interbedömarreliabiliteten vid jämförelse av enskilda bedömare varierade beroende på vilken faktor som skulle identifieras samt vilken prioritering som skulle tillskrivas ärendet. Det samma gällde de gemensamma bedömningarna. Riskfaktorer påvisades inneha högst

interbedömarreliabilitet och sårbarhetsfaktorer inneha lägst interbedömarreliabilitet. utslaget på samtliga fall. Det gällde även vid jämförelse av gemensam bedömning. Ärendeprioritering påvisade varierande interbedömarreliabilitet med måttlig samstämmighet mellan enskilda bedömare och något lägre samstämmighet i jämförelse med en gemensam bedömning, utslaget på samtliga fall. Vidare forskning rekommenderas i syfte att bistå i utvecklandet och användandet av manualer i bedömningar gällande partnervåld och förstå behovet av stöd till dess användare.

Nyckelord: Partnervåld, riskbedömning, interbedömarreliabilitet, socialarbetare, risk-, sårbarhets- och skyddsfaktorer, ärendeprioritering

(4)

Innehåll

Introduktion ... 1

Riskbedömningar och dess användning ... 2

Faktorer vid riskbedömning ... 3

Interbedömarreliabilitet i riskbedömning ... 4

Teoretisk anknytning ... 7

Den aktuella studien ... 8

RISKSAM. ... 9

Syfte & frågeställningar ... 10

Metod... 10 Urval... 11 Material ... 11 Procedur ... 13 Etiska överväganden ... 14 Statistisk analys ... 16 Resultat ... 19

Hur ser interbedömarreliabiliteten ut bland socialarbetare vid identifiering av risk-, sårbarhets- och skyddsfaktorer för partnervåld? ... 19

Hur ser interbedömarreliabiliteten ut bland socialarbetare vid fallens ärendeprioritering gällande behovet av skyddsåtgärder? ... 20

Diskussion ... 22

Metoddiskussion ... 22

Resultatdiskussion ... 24

(5)

Introduktion

Partnervåld är ett utbrett och allvarligt globalt samhällsproblem (Brottsförebyggande rådet [Brå], 2007, 2009, 2014; Garcia-Moreno m.fl., 2013; Statens beredning för medicinsk utvärdering [SBU], 2005). Statistik visar att drygt var fjärde kvinna och var sjätte man i Sverige uppger att de någon gång utsatts för våld av en nuvarande eller dåvarande partner (Brå, 2014). Fenomenet följs likväl av påtaglig återfallsfrekvens hos partnervåldsförövare (Hilton, Harris, Popham & Lang, 2010; Klein & Tobin, 2008; Lin m.fl., 2009; Loinaz, 2014; Petersson & Strand, 2017). Ur en svensk kontext har det rapporterats en återfallsfrekvens mellan 36-42% (Belfrage & Strand, 2012; Mellgren, Svalin, Levander, & Torstensson Levander, 2014). Med denna bakgrund existerar det ett behov av att, i flera av samhällets institutioner där riskbedömningar genomförs, bedöma sannolikheten och allvarlighetsgraden av eventuella återfall hos gärningspersoner för att förebygga detta. Vidare bör bedömningar utföras gällande skyddsbehov för utsatta samt huruvida en gärningsperson kan vistas i frihet (Kropp & Hart, 2015). Ett led i detta är utvecklandet av riskbedömningar, dess metoder och instrument inom myndigheter där risken för återfall i våld bedöms. Av dessa bör så kallad interbedömarreliabilitet tas i beaktning (Sturup, Forsman, Haggård, Karlberg & Johansson, 2014; SBU, 2005). Det vill säga huruvida olika bedömare kan komma till samma/liknande slutsatser av samma fallbeskrivningar med samma instrument eller metod (Borg &

Westerlund, 2012). Vid riskbedömningar kan exempelvis ett scenario uppkomma där en bedömare kan anse ett fall vara av hög risk, medan en andra bedömare kan anse det vara av låg risk, vilket kan resultera i rättsosäkerhet. Oberoende av vilken riskbedömare som utför bedömningen, skall resultatet samt åtgärderna som följer av den bli densamma (Mellgren m.fl., 2014). Betydelsen av interbedömarreliabilitet kan sammanfattas som: “If raters cannot agree on the presence of individual risk factors or the implications that can be drawn from them, there is little point in conducting risk assessments” (Kropp & Hart, 2000, s.109)

Forskning om interbedömarreliabilitet vid riskbedömningar har hitintills fokuserats i hög utsträckning inom polisiär- eller rättsvårdande verksamhet (Kropp & Hart, 2000; Sebire & Barling. 2016; Svalin, Mellgren, Torstensson Levander &

Levander, 2017), samt på specifika instrument och dess utveckling (Grann & Wedin, 2002; Kropp & Hart, 2000; Svalin m.fl., 2017). Socialtjänstens arbete har inte undersökts i samma utsträckning (Socialstyrelsen, 2014), inte heller har fokus riktats till att undersöka

socialarbetare som enskilda riskbedömare. Av denna anledning syftar denna studie till att undersöka interbedömarreliabilitet vid riskbedömningar för partnervåld bland socialarbetare.

(6)

Riskbedömningar och dess användning

Riskbedömningar är en arbetsprocess som kan utföras med stöd av ett instrument eller metod för att kunna bedöma olika typer av risk (Douglas, Hart, Webster & Belfrage,

2013). I en partnervåldskontext kan en riskbedömning beskrivas som “En process som innebär insamlande av information av människor i avsikt att avgöra deras risk att begå partnervåld” (Kropp & Hart, 2015, s.2). Riskbedömningarna i partnervåldskontext baseras på information om förövaren och den som är utsatt för partnervåld (Kropp & Hart, 2015). Denna information kan bestå av våldshistorik hos förövaren, huruvida hen har sysselsättning och liknande faktorer som kan påverka dennes risk för att återfalla i partnervåld. Vidare baseras även riskbedömningen på information om den utsatte i form av exempelvis huruvida den utsatte lider av psykisk ohälsa samt om denne har tillgång till professionell hjälp. Detta påverkar den utsatte i dess möjlighet att skydda sig från förövaren sett till förmåga och motivation.

Kliniska bedömningar är den mest grundläggande formen av riskbedömning och innebär att själva bedömningen vilar på praktikerns egen expertis och egna slutsatser (Kropp, 2008; Kropp, Hart & Lyon, 2008). Denna typ av riskbedömning kan vara subjektiv, har ofta en sämre prediktiv förmåga, lägre interbedömarreliabilitet och är därmed ansedd vara den svagaste typen av riskbedömning (Ægosdottír m.fl., 2006; Nicholls, Pritchard, Reeves & Hilterman, 2013; Singh, Grann & Fazel, 2011; Spengler m.fl., 2009). Vilken typ av

riskbedömning som är mest fördelaktig att använda är dock kontextbundet och beroende på vad som ska bedömas talar forskning både för och emot de olika bedömningstyperna (Kropp, 2008; SBU, 2005).

Aktuariska bedömningar innebär att bedömaren utgår från ett strikt schema eller formulär med evidensbaserade frågor och begränsar således praktikerns inblandning

(Ægosdottír m.fl., 2006; Kropp, 2008). Frågornas karaktär är ofta dikotoma där det endast går att besvara frågorna med ett “ja” eller “nej” (SBU, 2005). Denna typ av riskbedömningar ställer inte lika höga krav på riskbedömarens förmåga, då riskbedömaren endast behöver ta ställning till om faktorerna föreligger. Vidare, då de innehar evidensbaserade frågor, har aktuariska riskbedömningar därmed bättre reliabilitet och validitet i jämförelse med kliniska bedömningar (Ægosdottír m.fl., 2006).

Den mest frekvent använda varianten vid myndighetsutövning idag är de som kallas strukturerade professionella bedömningar (Kropp & Hart, 2015; Kropp m.fl., 2008). En strukturerad professionell bedömning innebär att en riskbedömare utgår från ett

(7)

bedömning kan anses vara ett mellanting av vad som traditionellt kallats aktuariska och kliniska bedömningar (Brå, 2010). Vid strukturerade professionella bedömningar tillåts dock bedömaren att frångå instrumentet och anpassa bedömningen efter individ och kontext, vilket inte är möjligt vid aktuariska riskbedömningar (Douglas & Kropp, 2002). Strukturerade professionella bedömningar innehåller förutbestämda, evidensbaserade faktorer som

riskbedömaren sedan ska utvärdera (Belfrage, 2004; Kropp m.fl., 2008). Dels utvärderas om faktorerna föreligger och sedan hur relevanta dessa är för bedömningen. Denna form av riskbedömning ställer stora krav på både riskbedömningsinstrumentet såväl som på riskbedömarens förmåga att genomföra en adekvat riskbedömning. Det kräver att riskbedömningsinstrumentet inkluderar relevanta- och evidensbaserade faktorer samt att riskbedömaren får ut tillräcklig information för att både kunna besvara om faktorerna föreligger samt kunna avgöra dess relevans.

Faktorer vid riskbedömning

Riskbedömningsinstrument i dagens institutioner utgår vanligtvis endast från så kallade riskfaktorer vid bedömningen av allvarlighets- och prioriteringsgrad av fallet (SBU, 2005; Sturup m.fl., 2014).

Riskfaktorer. Riskfaktorer kan beskrivas som faktorer som ökar sannolikheten för att en viss problematik inträffar (Andershed, Andershed & Farrington, 2012). Ur en

partnervåldskontext innebär detta således en ökad risk för fortsatt våld mot partnern och härrör från faktorer hos förövaren (Kropp & Hart, 2015). En riskfaktor kan exempelvis vara missbruk av olika slag, personlighetsstörning samt tidigare våld (Douglas m.fl., 2013). Sedermera har en diskussion följts av nutidens bedömningsinstrument huruvida även

ytterligare faktorer bör tas i beaktning vid bedömningstillfället, så kallade sårbarhetsfaktorer (Belfrage & Strand, 2008; Storey & Strand, 2017) och skyddsfaktorer (Sturup m.fl., 2014; Webster, Nicholls, Martin, Desmarais & Brink, 2006a).

Sårbarhetsfaktorer. Sårbarhetsfaktorer kan beskrivas som faktorer hos den utsatte som ökar dennes risk att utsättas för våld (Brå, 2010). I partnervåldskontext kan detta

exempelvis vara ifall förövaren och den utsatte har gemensamma barn som kommer emellan samt att den utsatte har dålig tillgång till social- och professionell hjälp (Kropp & Hart, 2015). Viss forskning menar att sårbarhetsfaktorer bör tas i beaktning i högre utsträckning då det visats resultera i annorlunda bedömning gällande allvarlighetsgrad och prioritering (Belfrage & Strand, 2008; Storey & Strand, 2017). Vid bedömningar utförda av poliser har

(8)

exempelvis inkluderingen av sårbarhetsfaktorer resulterat i en mer omfattande och rättvisande helhetssyn av problematiken.

Skyddsfaktorer. Ett fåtal bedömningsinstrument inkluderar idag så kallade skyddsfaktorer vid bedömning (Vogel, de Vries Robbé, Ruiter & Bouman, 2011; Sturup m.fl., 2014; Webster m.fl., 2006a). Hur skyddsfaktorer ska definieras är idag något tvetydigt, även om grundtanken är densamma. En bredare majoritet av forskningsfältet menar att skyddsfaktorer kan beskrivas som något som minskar risken för ett negativt utfall, även vid närvaro av riskfaktorer (Andershed m.fl., 2012; Vogel m.fl., 2011; Webster m.fl., 2006a). Ur en partnervåldskontext kan en skyddsfaktor exempelvis vara att den utsatte har en

sysselsättning (Webster, Martin, Brink, Nicholls & Desmarais, 2009), vilket stärker den utsattes ekonomiska oberoende från våldsutövaren (Kropp & Hart, 2015). Skyddsfaktorerna kan även underlätta bedömningen av vilka insatser som bör eller inte bör sättas in och är således ett användbart komplement när riskhanteringsstrategier skall utformas (Douglas m.fl., 2013).

Bedömd risk och ärendeprioritering. Bedömningar av risk-, sårbarhets- och skyddsfaktorer resulterar i ett mått av risk för återfall i partnervåld och behovet av skyddsåtgärder för den utsatte (Kropp & Hart, 2015). Detta benämns vanligen som “bedömd risk”. Bedömd risk kan skattas utifrån en skala bestående av låg, medel eller hög risk för ytterligare och allvarligare våld (Belfrage & Strand, 2008; Douglas & Kropp, 2002; Sebire & Barling, 2016). Den bedömda risken används sedermera som ett underlag till vilken ärendeprioritering som bör tillskrivas fallet. Ärendeprioriteringen ligger till grund för de skyddsåtgärder som utformas för den utsatte individen (Strand, Petersson, Fröberg & Storey, 2016). En genomförd riskbedömning, även om den håller hög kvalitet samt har en stark prediktiv kraft, förlorar sitt syfte om inte skyddsåtgärder utformas och används utefter den. Dessa skyddsåtgärder kan exempelvis vara att den utsatte kan få utbildning i hur den ska skydda sig eller få stärkt säkerhet i den fysiska omgivningen, samt behandling för både den utsatte och förövaren (Kropp & Hart, 2015).

Interbedömarreliabilitet i riskbedömning

Tidigare forskning rörande interbedömarreliabilitet hos riskbedömningsinstrument för partnervåld visar på varierande nivå av interbedömarreliabilitet (Grann & Wedin, 2002; Kropp & Hart, 2000; Sebire & Barling, 2016; Svalin m.fl., 2017). Forskning gällande

interbedömarreliabilitet bland riskbedömningsinstrument som specifikt används inom socialt arbete är dock begränsad (Socialstyrelsen, 2014). Än mindre forskning finns tillgänglig kring

(9)

det specifika riskbedömningsinstrumentet FREDA framtaget och använt av socialtjänsten vid riskbedömning av våld i nära relation. Den begränsade forskningen som förekommer bygger på det bedömningsinstrument som FREDA baseras på: Danger Assessment [DA]. Dessa är dock antingen av kvalitativ ansats (Glass m.fl., 2008), och/eller utvärderar inte instrumentets reliabilitet (Campbell, Webster & Glass, 2009). Vad som finns att tillgå gällande FREDA är yrkesverksammas erfarenheter av att använda sig av instrumentet. I en svensk rapport utvärderades huruvida användandet av

FREDA bidrog till förändrade arbetsmetoder hos de organisationer som utförde dessa (Stranz, Andersson Vogel & Wiklund, 2015). Rapporten visade bland annat att

partnervåldsförövare med högre farlighetsbedömning även fick mer omfattande insatser samt att användandet av FREDA lett till att kommuner identifierat att de har en avsaknad av insatser att sätta in mot partnervåldsförövare. Detta talar för användandet av instrumentet, i jämförelse med kliniska bedömningar, men för stora kunskapsluckor finns rörande

instrumentets reliabilitet och validitet.

Forskningsfältet kring interbedömarreliabilitet har istället riktat ett primärt fokus till polisiär eller rättsvårdande verksamhet (Grann & Wedin, 2002; Kropp & Hart, 2000; McNeil m.fl., 2000; Sebire & Barling, 2016; Svalin m.fl., 2017). En studie undersökte exempelvis den prediktiva förmågan och interbedömarreliabiliteten av riskbedömningsinstrumentet

Spousal Assault Risk Assessment [SARA] (Grann & Wedin, 2002). Studien bestod av att en

psykologstudent fick, med hjälp av SARA, genomföra riskbedömningar utifrån 88 manliga partnervåldsförövares rättspsykiatriska undersökning. Av det totala urvalet valdes 18 randomiserade fall till vilket en psykolog med avlagd doktorsexamen också genomförde oberoende bedömningar. Dessa jämfördes sedan i vilken utsträckning de olika bedömarna var samstämmiga i generella riskfaktorer för framtida våld och specifika riskfaktorer för

partnervåld. Resultatet påvisade att bedömarna hade hög interbedömarreliabilitet på såväl generella riskfaktorer som de specifika riskfaktorerna samt att instrumentet innehade en hög prediktiv förmåga.

En studie i Storbritannien syftade till att undersöka i vilken utsträckning poliser från fem olika distrikt var samstämmiga i bedömd risk för partnervåldsfall med hjälp av

instrumentet Domestic Abuse, Stalking, Harassment and Honour Based Violence [DASH] (Sebire & Barling, 2016). Instrumentet är en strukturerad professionell bedömning

innehållande 27 frågor till vilket mycket fokus läggs till bedömarens expertis. Totalt undersöktes fyra olika fall av 38 poliser av olika rang men med samma grundutbildning. Bedömarna fick genomföra en riskbedömning av fallet utifrån initiala polisrapporter och

(10)

skulle gradera den bedömda risken som låg, medel eller hög där fokus lades till risken för framtida våld och allvarlighetsgraden som följde av våldet. Bedömarna testades sedan en andra gång och fick vid det tillfället en genomgång av de nationella definitionerna av vad låg, medel och hög bedömd risk samt allvarlig skada innebar. Resultatet visade att bedömarna innehade en mycket begränsad samstämmighet gällande den bedömda risken för partnervåld. Vid det första tillfället föreföll det en låg interbedömarreliabilitet mellan riskbedömningarna. Vid det andra testet, till vilket bedömarna informerades om de nationella definitionerna, påvisades en mindre ökning men som fortfarande ansågs svag samt var icke-signifikant. Variation av den bedömda risken diskuterades bero på hur erfarna de olika distriktens bedömare var gällande hantering av riskbedömningar för partnervåld. Antalet fall som varje distrikt hanterade till vardags kunde ha resulterat i att poliser med mer erfarenhet hade en annan avvägning gällande den bedömda risken och tillskrev således en lägre risk. De med mindre erfarenhet tenderade istället att “gardera sig” och tillskrev en högre risk.

Vidare genomfördes även en studie på poliser i Sverige gällande

interbedömarreliabilitet för instrumenten Brief Spousal Assault Form for the Evaluation of

Risk [B-SAFER] och the Police Screening Tool for Violent Crimes [PST-VC] (Svalin m.fl.,

2017). Studien undersökte i vilken utsträckning poliser var samstämmiga i identifiering av risk- och sårbarhetsfaktorer samt den bedömda risken av fallet. Totalt bedömdes 16 verkliga fall till vilket det redan fanns en färdig bedömning. Bedömningarna genomfördes av totalt tre polisanställda med begränsad kunskap i ämnet. Dessa fick endast göra bedömningar utifrån initiala polisrapporter upprättade på plats och inte ha kontakt med den utsatte med risk för påverkan. Bedömarna blev sedan indelade parvis utan vetskap om den andres riskbedömning och jämfördes i hur många risk- och sårbarhetsfaktorer, kodade av forskarna utifrån PST-VC, som de identifierade samt den bedömda risk de tillskrivit ärendet. Samma tillvägagångssätt applicerades till B-SAFER. Resultatet påvisade en varierande interbedömarreliabilitet hos de båda instrumenten. Bedömarna hade överlag en låg interbedömarreliabilitet för en majoritet av risk- och sårbarhetsfaktorerna som identifierades. Detta förklarades bero på dels den bristande utbildningen poliserna hade gällande riskbedömningar och nyckelfaktorer, men även att bedömarna fick begränsad mängd information. Resultatet påvisade även att bedömarna överlag var samstämmiga kring den bedömda risken som skulle tillskrivas ärendet. Detta gällde såväl utifrån B-SAFER som PST-VC. Dock menar författarna att resultatet snarare grundades i “tyst kunskap” än de faktiska instrumenten. Tyst kunskap kan beskrivas som erfarenhet vilket förvärvats genom yrkeslivet och verkar bland medarbetare utan att en faktisk riktlinje stipulerar det.

(11)

Forskning har även indikerat att hög interbedömarreliabilitet kan ha ett samband med hög prediktiv förmåga i riskbedömningar av framtida våld (Duwe, 2017; McNiel, Lam & Binder, 2000). Hög interbedömarreliabilitet och hög prediktiv förmåga innebär dock inte att ett kausalt samband finns. En hög interbedömarreliabilitet kan nås även om flera bedömare svarar “fel”. Om flera riskbedömare bedömer ett fall som “låg risk” trots att utfallet av riskbedömningen visade att ärendet hade “hög risk”, så innebär det att en hög

interbedömarreliabilitet uppnås trots att riskbedömarna svarade “fel”.

Teoretisk anknytning

Institutional theory, såsom först beskrivet av Meyer och Rowan (1977), är ett teoretiskt ramverk vilket menar att två primära beståndsdelar svarar till hur formella strukturer och praktik kan komma att påverkas av fenomen i den institutionella miljön. Dessa två beståndsdelar är Legitimitet (eng. Legitimacy) och Isomorfism (eng. Isomorphism).

“Legitimitet” innebär i vilken utsträckning organisationens struktur och arbetssätt kan anses utstråla, såväl internt som externt, intryck av lämplighet och ansvarsfullhet. För en

organisation är legitimitet centralt då detta inverkar markant till dess utveckling och överlevnad.

Strävandet efter legitimitet tenderar att leda till vad som kallas “Isomorfism”. Isomorfism kan enkelt översättas till vilken grad av homogenitet som uppvisas i en

organisation (Meyer & Rowan, 1977). Isomorfisk förändring i en organisation har förklarats uppkomma främst genom en kombination av tre huvudsakliga mekanismer; Coercive

pressures, Mimetic pressures och Normative pressures (DiMaggio & Powell, 1983).

Coercive pressures innebär att organisationen upplever formella eller informella

påtryckningar av externa organisationer som de är beroende av eller samhällets förväntningar på organisationen. Det skulle kunna resoneras att bedömarna genom att vara del av samma organisation kommit att påverkats genom påtryckningar av, för organisationen, centrala aktörer. I relation till föreliggande studie skulle sådan central aktör kunna vara

Socialstyrelsen som kan komma att påverka socialtjänstens riskbedömare inom partnervåld. Socialstyrelsen, enligt myndighetens webbsida, “ (. . .) styr, stödjer och utvecklar hälso- och sjukvården och socialtjänsten” (Socialstyrelsen,

2019a). Socialstyrelsen ger riktlinjer, ramverk och har tagit fram riskbedömningsinstrumentet FREDA att användas av socialtjänstens aktörer vid partnervåld (Socialstyrelsen, 2019b). Påtryckningar i form av riktlinjer, ramverk och ett rutinmässigt användande av ett gemensamt

(12)

riskbedömningsinstrument skulle kunna bidra till högre grad av isomorfism bland riskbedömarna och således högre samstämmighet dem emellan.

Mimetic pressures innebär att när det råder organisationell osäkerhet, exempelvis i mål eller tillvägagångssätt, finns tendenser till att vilja imitera andra organisationer som anses mer framgångsrika eller legitima (DiMaggio & Powell, 1983). Strävan efter legitimitet kan således skapa en vilja hos riskbedömare att imitera andra organisationer eller strukturer som anses framgångsrika eller väl ansedda. Exempelvis går det att tänka sig att om andra

organisationer som genomför riskbedömningar prioriterar vissa risk- sårbarhets- eller

skyddsfaktorer finns incitament för Socialstyrelsen att i större utsträckning hänvisa till dessa. Även om praktiker är knutna till det bedömningsunderlag som återfinns i de instrument som hanteras inom organisationen kan de således se till andra organisationer eller länders

hantering av liknande instrument eller metoder. Det nuvarande instrumentet inom svensk socialtjänst, FREDA, har exempelvis utvecklats från ett redan befintligt instrument som används i Nordamerika (Socialstyrelsen, 2014).

Normative pressures grundar sig primärt i “professionalisering” (DiMaggio & Powell, 1983). Professionalisering kan tolkas som att praktiker strävar efter självbestämmande i sina arbetsmetoder och villkor. För att upprätthålla och legitimera detta självbestämmande så “filtreras” personal. Denna “filtrering” utgår från att dels anställa personal inom samma yrkeskategori till sin organisation samt befordra anställda inom organisationen för att eftersträva homogenitet. Riskbedömare som genomgått väldigt likvärdig utbildning, tränats eller utbildats vid samma lärosäten eller rekryteras från samma bransch, skulle kunna diskuteras bidra till samstämmighet i riskbedömningar. Innehar riskbedömare en likartad grundsyn och rekryteras med anledning av den, kan det tänkas att det formas en bredare homogenitet mellan riskbedömare naturligt.

Den aktuella studien

Riskbedömningar för partnervåld hanteras i dag framförallt av polisen, rättsvårdande myndigheter och socialtjänsten med anledning av att dessa kommer i kontakt med förövare och/eller brottsutsatt (Brå, 2010; SBU, 2005; Socialstyrelsen, 2014; Sturup m.fl., 2014). Forskning om interbedömarreliabilitet har hitintills fokuserats i hög utsträckning till polisiär- eller rättsvårdande verksamhet (Grann & Wedin, 2002; Kropp & Hart, 2000; McNeil m.fl., 2000; Sebire & Barling, 2016; Svalin

m.fl., 2017). Arbetet som bedrivs inom socialt arbete fyller en likvärdig del i hanteringen av partnervåldsärenden men har inte undersökts i samma utsträckning. Detta är problematiskt

(13)

med anledning av att socialtjänstens arbete primärt riktar sitt fokus till den brottsutsatte (Socialstyrelsen, 2014) och kan ibland behöva kombinera riskbedömningar av fall som även hanteras av polisen (Socialstyrelsen, 2018). Det är således behövligt att öka kunskapen kring hur samstämmiga bedömare är hos en vital samhällsaktör vid identifiering av faktorer och ärendeprioritering.

Forskning på interbedömarreliabilitet har även fokuserats kring framförallt

instrumentutveckling (Kropp & Hart, 2000; Svalin m.fl., 2017; Van der Knaap, Leenarts, Born & Oosterveld, 2012). Problematiskt är således att den forskning som har bedrivits har fokuserats mycket kring instrumentets reliabilitet och inte på de faktiska bedömarna

(Belfrage & Strand, 2008; Belfrage m.fl., 2012; Storey, Kropp, Hart, Belfrage & Strand, 2014; Sturup m.fl., 2014). Att undersöka i vilken utsträckning enskilda bedömare är samstämmiga, bör vara av relevans för att dels bedömarna själva är en del av instrumentet, men även för att undersöka instrumentets betydelse. Av tidigare forskning tenderar

interbedömarreliabiliteten att undersökas genom att bedömares riskbedömningar endast jämförs med varandra och ibland någon form av riktlinje för vad som är eftersträvansvärt inom riskbedömningen (Sturup m.fl., 2014). Detta kan vara exempelvis nationella

definitioner (Sebire & Barling, 2016), eller den redan genomförda bedömningen som tillskrivits ärendet (Svalin m.fl., 2017). Begränsat fokus har riktats till utarbetande av en gemensam bedömning vilket kan argumenteras ha, med anledning av att den är gemensamt utarbetad, en högre interbedömarreliabilitet (Webster m.fl., 2006b). Den forskning som har undersökt detta har endast undersökt riskbedömningar rörande sexuellt våld. Gemensam bedömning ansågs enligt forskarna själva innebära en metodologisk fördel mot tidigare forskning då denna bedömning tillät att: “rater’s data is compared with an ideal/acceptable standard” (Webster m.fl., 2006b s.451). Resultatet påvisade att den gemensamt utarbetade bedömningen hade en hög interbedömarreliabilitet i jämförelse med individuella

bedömningar på en majoritet av faktorerna som skulle identifieras. Denna form av

bedömning har inte tidigare använts till riskbedömningar för partnervåld, men med anledning av dess positiva resultat inom riskbedömningar för sexuellt våld kan argumenteras för att det bör undersökas.

RISKSAM. Med bakgrund i tidigare forskning och en identifierad kunskapslucka , har det initierats ett projekt vid Örebro universitet vilket leds av forskargruppen Stalking och

Partnervåld [SToP] som kallas RISKSAM (Örebro universitet, 2020). Detta projekt syftar till

att möjliggöra för de olika myndigheterna och organisationerna att utveckla en gemensam problembild, oberoende av vilken metod eller riskbedömningsinstrument som de använt sig

(14)

av. Myndigheter som kommer i kontakt med förövare eller den utsatte, primärt polis och socialtjänst, använder idag olika bedömningsinstrument med betoning på olika riskfaktorer (Socialstyrelsen, 2018). Av detta följer således ett behov av bättre samverkan mellan myndigheter och utarbetandet av gemensamma manualer som kan sammanföra de olika metodernas perspektiv. Till RISKSAM utvecklades även en första version av en tillhörande manual och projektet innehåller utrymme för att utforma riskhanteringsstrategier och samverkan mellan de olika myndigheterna och organisationerna. Under våren 2020 genomfördes en pilotstudie för att utveckla den manual som utarbetats inom projektet. Pilotstudien bestod av att yrkesverksamma inom socialtjänst och polis genomförde egna bedömningar av fiktiva partnervåldsfall. Dessa bedömningar skulle i ett senare skede jämföras med anledning av att undersöka hur samstämmiga bedömare från de olika myndigheterna var med stöd av manual. Vad som är av relevans att lyfta är det faktum att RISKSAM är ett arbetssätt att arbeta efter med tillhörande manual och inte ett

riskbedömningsinstrument. Vid användandet av RISKSAM-manualen går det att använda sig av ett riskbedömningsinstrument när den gemensamma problembilden utformas. Det

presenterades under våren 2020 en möjlighet att använda sig av RISKSAM-projektets data, dock utan att vara en del av projektet. Författarna till föreliggande studie antog detta i syfte att undersöka den kunskapslucka som identifierats kring interbedömarreliabiliteten i

partnervåldsbedömningar av socialarbetare. Syfte & frågeställningar

Syftet med föreliggande studie är att undersöka hur interbedömarreliabiliteten bland socialarbetare ser ut i individuellt- och gemensamt utarbetade riskbedömningar för partnervåld. Syftet har sedan ytterligare konkretiserats kring tre frågeställningar:

1. Hur ser interbedömarreliabiliteten ut bland socialarbetare vid identifiering av risk-, sårbarhets- och skyddsfaktorer för partnervåld?

2. Hur ser interbedömarreliabiliteten ut bland socialarbetare vid gradering av ärendeprioritering gällande behovet av skyddsåtgärder?

3. Hur ser interbedömarreliabiliteten ut mellan socialarbetares individuella bedömningar vid identifiering av risk-, sårbarhets- och skyddsfaktorer samt ärendeprioritering i jämförelse med en gemensam bedömning?

Metod

Föreliggande studie var av kvantitativ ansats med tvärsnittsdesign. Detta valdes med anledning av att interbedömarreliabilitet mellan bedömare syftades till att undersökas, att

(15)

datan som användes var av numerisk art samt att data samlades in vid ett och samma tillfälle (Borg & Westerlund, 2012). Studien utgick från data som insamlats i en pilotstudie för ett projekt kallat RISKSAM som bedrivs vid Örebro universitet (Örebro universitet, 2020). Pilotstudien bestod av att yrkesverksamma inom socialtjänst och polis genomförde egna bedömningar av fiktiva partnervåldsfall. Datan som presenterades och diskuterades i denna studie bestod av de svar som givits av socialarbetarna men verkade som ett separat steg från det faktiska RISKSAM-projektet.

Urval

Deltagarna inom denna studie var totalt sex socialarbetare, som framledes benämns som bedömare, vilka samtliga hade samma grundutbildning och varierande erfarenhet av att genomföra riskbedömningar för partnervåld. Dessa bedömare var samtliga verksamma inom samma rådgivande organisation med fokus på bland annat partnervåld som en del av

socialtjänstens verksamhet. Ytterligare information om dessa individer delgavs inte

författarna av denna studie då den data som erhölls var anonymiserad. Bedömarna hade inför pilotstudien gått igenom RISKSAM-manualen tillsammans med en av forskningsledarna för projektet vid ett tillfälle. Den korta genomgången genomfördes så bedömarna visste hur de skulle tolka samtliga steg i manualen samt så gick de igenom ett ärende gemensamt, som dock inte användes som underlag för föreliggande studie.

Vardera bedömare hade genomfört en enskild bedömning på sex fiktiva fall samt en

gemensam bedömning som skulle verka som en form av “golden standard”, det vill säga det “bästa” alternativet. Denna golden standard utarbetades för vardera av de sex fallen. Totalt skulle således 42 riskbedömningar erhållas, sex gemensamma och 36 individuella. Internt bortfall blev en riskbedömning som inte hade lämnats in till projektledarna, vilket resulterade i att det faktiska urvalet av denna studie bestod av 41 riskbedömningar. Samtliga bedömare deltog vid alla fallen av riskbedömningar, bortsett vid ett av de tidigare nämnda fallen, varav inget externt bortfall uppstod.

Material

Bakgrunden till utformandet av RISKSAM-projektet grundar sig i ett behov av samverkan mellan polis och socialtjänst, som båda arbetar mot partnervåld (Örebro universitet, 2020). Syftet med projektet är att underlätta samverkan samt möjliggöra att, trots deras olika

arbetssätt, komma fram till en gemensam problembild. Tillhörande manual syftar till att verka som en vägledning i hur problembilden ska utformas.

(16)

För att komma fram till en gemensam problembild så består RISKSAM-manualen av flera olika steg (Örebro universitet, 2020). Det initiala steget utifrån RISKSAM-manualen var att ange huruvida ett riskbedömningsinstrument legat till grund för bedömningen för det angivna fallet eller ej. Exempelvis kan bedömaren ange om SARA eller FREDA legat till grund för bedömningen till fallet. Nästa steg i arbetsprocessen involverade att bedöma samt rangordna risk-, sårbarhet- och skyddsfaktorer samt de mest betydelsefulla faktorerna ur ett barnperspektiv. Detta steg låg sedan till grund för det tredje steget i processen; att beskriva dels det mest sannolika scenariot som förövaren kan komma göra mot den utsatte samt det värsta tänkbara scenariot som kan komma att inträffa. Det fjärde steget i processen är att göra en individuell ärendeprioritering baserat på risken för återfall i hot och våld, som graderas från 1-5. Efter detta genomförs en riskformulering med motivering till vad för gradering som valdes. Det efterföljande sjätte steget syftar till att utforma riskhanteringsstrategier baserat på tidigare ärendeprioritering. Ju högre gradering av ärendeprioritering, desto mer

skyddsåtgärder behöver sättas in. I det sjunde steget ska en riskhanteringsplan utformas efter risk-, behov- och mottaglighetsprincipen. Vid utformandet av denna ska risk, skyddsbehov samt genomförbarhet tas i beaktning. Efter genomförd riskhanteringsplan skall det anges huruvida ett behov av samverkan med andra organisationer eller myndigheter behöver genomföras. Slutligen kommer en uppföljning genomföras för att utvärdera situationen, för att avgöra om ärendet kan avslutas.

Den aktuella studien. För den föreliggande studien bestod materialet av

riskbedömningar på fiktiva fall som genomförts med stöd av den manual som pilotestades till RISKSAM, ifyllda av bedömarna i pappersformat. Manualen bestod av rangordningsfrågor som: “Vilka är de mest betydelsefulla riskfaktorerna i detta ärende?”, till vilket dessa fick möjlighet att ange och rangordna i varsitt skrivfält de tre mest betydelsefulla faktorerna för vardera fall. Samma frågeställning förekom också gällande sårbarhetsfaktorer och

skyddsfaktorer, Se Figur 1 för exempel på arbetsbladets utformning. Manualen inbegrep även “nivå av prioritering”. För att besvara ärendeprioriteringen utfördes en gradering av hur stor risken var för “Återfall i hot och våld inom 12 månader” samt “Risk för allvarligt hot och våld”. Denna gradering innefattade en kombination av dessa två aspekter och utfördes på en femgradig skala från “Låg risk (nivå 1)” till “Extremt hög risk (nivå 5)”. För denna studie, vars syfte var att undersöka interbedömarreliabilitet mellan bedömarnas angivna faktorer samt ärendeprioritering, var dessa steg av relevans att inkludera. Interbedömarreliabilitet av dessa faktorer är av vikt då en gemensam problembild ska utformas, varav en låg

(17)

förefaller risken att olika slutsatser dras, vilket leder till att en

gemensam problembild är svår att utforma och i sin tur kan skapa rättsosäkerhet (Mellgren m.fl., 2014). Utfallet av

riskbedömningen ska idealt sett bli likadan oavsett vem som genomför den. För att detta skall säkerställas behövs därmed hög interbedömarreliabilitet.

Totalt bedömdes sex fiktiva fall, konstruerade av ansvariga aktörer för RISKSAM-projektet. De fiktiva fallen, såväl som RISKSAM-manualen, utformades av två forskare med stor

erfarenhet av forskning inom partnervåld samt riskbedömningar.

Manualen hade tydlig grund i tidigare forskning och de fiktiva fallen inkluderade etablerade faktorer för att undersöka och bedöma partnervåld, vilket styrker dess validitet. RISKSAM-manualens reliabilitet i sin tur är vad pilotstudien, vars data denna studie utgick ifrån, ämnade att undersöka. Föreliggande studie ämnade att testa interbedömarreliabiliteten mellan

socialarbetarna, vilket är viktigt att särskilja från pilotstudiens syfte. Samtliga fall för

föreliggande studie berörde partnervåld och var mellan heterosexuella par. Ett av fallen hade inslag av hederskultur, ett handlade om en kvinnas våld mot en föredetta pojkvän och

resterande fokuserade på partnervåld där en man var våldsam mot sin kvinnliga partner.

Procedur

Fallen som skulle bedömas var fiktiva men verklighetstrogna och inkluderade olika exempel av partnervåld. Vid riskbedömningarna fick bedömarna själva välja om de ville använda sig av ett riskbedömningsinstrument, som exempelvis SARA eller FREDA, eller inte. De skulle sedan bedöma och rangordna de viktigaste risk-, sårbarhets- och skyddsfaktorerna i fallet. Vidare bedömdes fallets ärendeprioritering. Vid de individuella bedömningarna fick

Figur 1.Arbetsblad ur RISKSAM-manualen. Viktigaste riskfaktorer för fortsatt våld/hot.

(18)

bedömarna inte diskutera fallen och faktorerna sinsemellan då detta skulle kontaminera deras bedömningar. Bedömarna fick sedan en vecka på sig att jobba individuellt med ett fall, varav en av forskningsledarna inhämtade deras individuella bedömningar och sedan gav nya fall att bedöma. Detta skedde vid sex tillfällen, för de sex fallen bedömarna skulle bedömas

individuellt, varav de slutligen fick göra en gemensam bedömning för varje fall som fick verka som “golden standard”. Vid den gemensamma bedömningen fick bedömarna

gemensamt diskutera fallen utifrån sina individuella bedömningar för att utarbeta det “bästa” alternativet. Bedömningen genomfördes genom att bedömarna fick följa manualen för att gemensamt komma fram till de viktigaste risk-, sårbarhets- och skyddsfaktorerna samt fallets ärendeprioritering. Sammanlagd tidsåtgång för både individuella- samt gemensamma

bedömningarna blev drygt tre månader.

Den aktuella studien. Pappersmaterialet, det vill säga bedömarnas fysiska

riskbedömningar, bearbetades och sammanställdes vid tre tillfällen á två till tre timmar. Vid tillfällena gick författarna igenom varje riskbedömning för varje fall vilket sedan skrevs in i ett digitalt kalkylark. Pappersmaterialet returnerades vid slutet av varje tillfälle till

forskningsledaren och extraherades på plats i ett rum i nära anslutning till dennes kontor på universitetet så de fysiska bedömningarna aldrig skulle lämna universitetet. Av kalkylarken genomfördes sedan kodningar för att möjliggöra analyser.

Etiska överväganden

I all vetenskaplig forskning bör en diskussion föras kring etiska faktorer som behöver tas i beaktning vid genomförandet av studier eller undersökningar (Vetenskapsrådet, 2002). Vad som vanligen följer av detta är en avvägning av att forskningen måste vara högkvalitativ och ständigt utvecklande, samtidigt som den i högsta grad måste ta i beaktande vilka

konsekvenser som kan inträffa för deltagande parter (Vetenskapsrådet, 2017). De tydligaste riktlinjerna inom svensk forskningsetik idag är de fyra forskningsetiska principer som presenterats av Vetenskapsrådet. Informationskravet, samtyckeskravet,

konfidentialitetskravet och nyttjandekravet (Vetenskapsrådet, 2002).

Informationskravet innebär att samtliga deltagande parter informeras om uppgiften dessa kommer att ha i studien, vilka villkor som följer av deltagandet, att deltagandet är frivilligt samt att de när som helst har rätt att avbryta sin medverkan (Vetenskapsrådet, 2002). Deltagarna i den aktuella studien hade under det pågående projektet informerats om vad det syftade till, hur datan skulle hanteras samt att de när som helst fick avbryta sin medverkan utan vidare förklaring. Detta innebar således att studiedeltagarna inte behövde fylla i de fiktiva fall som delades ut.

(19)

Samtyckeskravet innebär att deltagande parter måste lämna sitt samtycke för att medverka och att data insamlas om individen (Vetenskapsrådet, 2002). Deltagarna inom föreliggande studie hade lämnat samtycke till projektledarnas insamling och analyser av deras data. Samtycket verkade även för vidare analyser till vilket denna studie inbegreps.

Konfidentialitetskravet innebär att känsliga data hanteras konfidentiellt, det vill säga att datan inte kan kopplas tillbaka till någon enskild deltagare och att datan inte heller kan tas del av utomstående (Vetenskapsrådet, 2002). Då pilotstudien inte samlade personuppgifter samt att partnervåldsfallen var fiktiva behövdes ingen etikprövning. Författarna för denna text var inte heller under hela studien någonsin i kontakt med någon av deltagarna och erhöll redan anonymiserade data. Deltagarna, de sex bedömarna, blev tilldelade en siffra mellan ett till sex i syfte att kunna identifiera vilken bedömare som bedömt vilken av fallen. All data som hanterades i denna studie processades på Örebro universitet och den fysiska datan lämnade aldrig universitet. Vidare var datan inlåst på ett kontor varav möjligheterna för utomstående att ta del av datan ej var möjlig.

Nyttjandekravet innebär att insamlad data samt uppgifter inte kommer att användas för någonting annat än den aktuella studien och således inte användas i kommersiella syften (Vetenskapsrådet, 2002). Vid datainhämtning för den aktuella studien bearbetades fysisk data på plats med en av de ansvariga för projektet och returnerades sedan för att uppgifter inte skulle hanteras av andra än tillåtna parter.

Utöver dessa grundläggande principer tillkommer även andra etiska aspekter att ta hänsyn till (Vetenskapsrådet, 2017). De fallen som bedömdes var, om än fiktiva, av känslig karaktär som skulle kunna väcka obehag hos den som läser samt bedömer dessa. De innehöll exempelvis beskrivningar av fysiskt och psykiskt våld. Vad som bör beaktas är att de som utförde bedömningarna på dessa fiktiva fall har erfarenhet av just liknande fall om än

autentiska sådana. Därav kan det argumenteras för att, då de är vana att ta del av information av känslig karaktär och utföra riskbedömningar baserat på detta, kan göra att de är “vana” och inte blir påverkade i lika stor utsträckning känslomässigt som om en oerfaren individ vore att utföra dem. Denna aspekt bör ändock lyftas då bakgrunden och erfarenheten hos de som bedömde fallen är okänd för föreliggande studies författare och hur fallen påverkade bedömarna.

Insamlandet av data tog även i beaktning rådande lagstiftning under

dataskyddsförordningen General Data Protection Regulation [GDPR] som åsyftar att “skydda enskilda individers grundläggande rättigheter- och friheter, särskilt deras rätt till skydd av

(20)

personuppgifter.” (Datainspektionen, u.å). Dock, såsom tidigare nämnts, hade inga personuppgifter insamlats vilket innebar att rådande lagstiftning efterföljts.

Statistisk analys

Data sammanställdes i Microsoft Excel där varje bedömare associerades med de risk-,

sårbarhets-, och skyddsfaktorer samt ärendeprioritering som de angett för varje fall. Tre olika analyser genomfördes till denna studie: En för jämförelse av samstämmighet gällande

faktorer och två för jämförelse av samstämmighet gällande ärendeprioritering.

Samstämmighet gällande risk-, sårbarhets- och skyddsfaktorer. Bedömarna ombads att välja ut de tre mest betydande risk-, sårbarhets-, och skyddsfaktorerna för varje fall.

Jämförelser gjordes sedan mellan bedömarna parvis (1&2, 1&3 etc.) så att alla möjliga alternativ jämfördes. Vidare gjordes jämförelser även mellan varje enskild bedömare och den gemensamma bedömningen. Vid jämförelsen undersöktes i vilken utsträckning bedömarna varit samstämmiga i vilka risk-, sårbarhets-, och skyddsfaktorer de identifierat. Bedömare som hade en faktor överensstämmande tilldelades 0.25, två faktorer tilldelades 0.5 och tre

faktorer, det vill säga samtliga, fick 1.0. Denna samstämmighet omsattes i procent för att

räkna ut den procentuella samstämmigheten. Samma tillvägagångssätt förelåg för samtliga faktorer vid jämförelser av endast individuella samt med den gemensamma. Vid vissa fall hade bedömare endast angett exempelvis två av tre skyddsfaktorer, då de inte inkluderat fler. Vid jämförelser av sådana fall utlämnades den icke ifyllda faktorn helt, vilket resulterade i att en bedömare som angett två av tre skyddsfaktorer kunde uppnå full samstämmighet med en annan bedömare som angett tre av tre skyddsfaktorer så länge samma två faktorer

överensstämde hos vardera bedömare. För exempel på jämförelse mellan bedömare, se Tabell 1. Samma tillvägagångssätt applicerades för jämförelse med gemensam bedömning.

(21)

Tabell 1

Matris av samstämmighet mellan bedömare. Fall 1. Sårbarhetsfaktorer.

Not. 0 = ingen faktor överensstämde. 0,25 = en faktor överensstämde. 0,5 = två faktorer överensstämde. 1,0 = tre faktorer överensstämde (samtliga). X = Svar saknades. Bedöm. = Bedömare.

Analysmetoden benämns vanligen som “percentage agreement” och är ett basalt alternativ vid undersökning av interbedömarreliabilitet (McHugh, 2012). Det innebär kortfattat hur procentuellt samstämmiga bedömare av samma fall är. Denna metod valdes med anledning av att datan var nominal och således inte kunde hanteras i starkare analysmetoder. Fallen hade inte heller ett förutbestämt antal faktorer, vilket omöjliggjorde en analys av hur samstämmighet liknades med ett “facit”. Procentuell samstämmighet har sagts vara ett begränsat sätt att beräkna interbedömarreliabilitet då metoden kommer med vissa metodologiska svagheter (Belur, Tompson, Thornton & Simon, 2018; Hallgren, 2012; Lombard, Snyder‐Duch & Bracken, 2002). Beräkningar med procentuell samstämmighet tar inte i beaktning eventuell samstämmighet som kommit som en effekt av slump istället för egentlig samstämmighet mellan bedömare. Detta har en risk att överestimera samstämmighet ju mindre kategorier som bedömare har möjlighet att ange. Därför föreslås att vid tolkning av resultat med procentuell samstämmighet bör en acceptabel nivå generellt ligga högre än andra metoder. Mer konservativa beräkningar med andra metoder än procentuell samstämmighet kan en nivå av 0,7–0,8 accepteras som hög eller acceptabel. Procentuell samstämmighet bör istället vara på en högre nivå kring 0,8–0,9, alltså 80–90%

Samstämmighet mellan bedömare gällande ärendeprioritering. Ärendeprioritering numrerades som 0=inte överensstämmande prioritering och

1=överensstämmande prioritering vid jämförelser för såväl endast individuella som den

Bedöm. 1 Bedöm.2 Bedöm. 3 Bedöm. 4 Bedöm. 5 Bedöm. 6

Bedöm.1 - 0.25 0.25 X 0.25 0.25 Bedöm.2 - - 0.5 X 0.5 0.5 Bedöm. 3 - - - X 1 1 Bedöm. 4 - - - - X X Bedöm. 5 - - - 1 Samstämmighet 55%

(22)

gemensamma bedömningen. Data gällande ärendeprioritering importerades sedan till det statistiska analysprogrammet Statistical Package for the Social Sciences [SPSS] där analys genomfördes.. Som statistisk analysmetod användes Fleiss kappatest, en metod framtagen för att mäta samstämmighet mellan fler än två bedömare med begränsat antal alternativ (Fleiss, 1971). Fleiss kappa kan sägas vara en potentiellt starkare analysmetod än exempelvis procentuell samstämmighet, bland annat för att testet tar i beaktning risken att bedömare av slump blivit samstämmiga och på så sätt kan underskatta samstämmigheten (McHugh, 2012). Detta var möjligt i och med att ärendeprioritering hade ett begränsat antal alternativ

bedömarna kunde ange, “1” till och med “5”. För att tolka resultaten användes riktmärken för kappa-nivåer föreslagna av Landis och Koch (1977) vars nivåer har sagts vara vanligt

citerade i forskning som använt sig av kappa (Hallgren, 2012; Viera &

Garrett, 2005). Dessa nivåer kan benämnas som: < 0.00 “Poor”, 0.00-0.20 “Slight”, 0.21-0.40 “Fair”, 0.41-0.60 “Moderate”, 0.61-0.80 “Substantial” och 0.81-1.00 “Almost Perfect”

(Landis & Koch, 1977).

Samstämmighet mellan individuella och gemensamma bedömningar gällande ärendeprioritering. För att undersöka samstämmigheten av individuella bedömningar av ärendeprioritering till en gemensam bedömning utfördes sex Cohens kappa-test. Detta gjordes för varje bedömares och skattades mot den gemensamma bedömningen. Cohens kappa är en statistisk analysmetod som syftar till att undersöka interbedömarreliabilitet mellan två bedömare och med begränsat antal alternativ (McHugh, 2012). Precis som Fleiss kappa tar Cohens kappa i beaktning risken för att bedömare av slump är samstämmiga och således kan underskatta samstämmigheten. Tolkning av resultaten gällande Cohens kappa utgick från de tidigare nämnda riktmärkena föreslagna av Landis och Koch (1997).

Kodning av risk- sårbarhets- och skyddsfaktorer. Sammanställning av data gällande risk-, sårbarhets- och skyddsfaktorer involverade en process där svaren angivna av bedömarna i vissa fall operationaliserades och kodades om. Detta för att göra faktorerna kompatibla att jämföra med varandra och kunna användas för vidare analys. För att minimera risken att angivna faktorer som är synonymer men benämnts olika ska bedömas som olika faktorer, kodas exempelvis riskfaktorerna “Arbetslöshet” och “Utan arbete” som att bedömarna identifierat samma riskfaktor. Vidare har också kodning gjorts vid de tillfällen bedömarna angivit fler faktorer vid rangordning. I dessa fall har den delats upp i sina respektive faktorer. Exempel ur kodningsproceduren kan ses i Tabell 2. Denna

kodningsprocess kommer med vissa metodologiska överväganden. I en kodningsprocess som innefattar någon typ av kodning och tolkning av latent innehåll, det vill säga den

(23)

underliggande meningen av det som angetts, kan kodningen komma att påverkas av de som utför den (Belur m.fl., 2018). Därför togs ett gemensamt kodningsschema fram för att i så stor utsträckning det var möjligt se till att kodningen mellan fall och faktorer var konsekvent och att samtliga kodare var överens om det slutgiltiga kodade materialet.

Tabell 2 Exempel på kodningsprocess av en faktor där olika angivna svar kodats som samma

faktor. Skyddsfaktor.

Ursprungligt angiven faktor Innehåll Kodad faktor

“Om han får sitta kvar i häktet och polis, utredning fortsätter, han får inte ha kontakt med

henne”

- “Polisanmälan -> häktning -> åtal -> dom

- “Frihetsberövad”

“Att han är anhållen”

Gärningspersonen kan inte ha

kontakt med den utsatte Inkapacitering

Resultat

Denna studie syftade till att undersöka hur interbedömarreliabiliteten bland socialarbetare såg ut i både individuellt- och gemensamt utarbetade riskbedömningar för partnervåld.

Resultatet av genomförda analyser för varje frågeställning presenteras under varsitt avsnitt.

Hur ser interbedömarreliabiliteten ut bland socialarbetare vid identifiering av risk-, sårbarhets- och skyddsfaktorer för partnervåld?

För att mäta interbedömarreliabilitet analyserades hur många risk-, sårbarhets- och

skyddsfaktorer i de fiktiva fallen som bedömarna samstämmigt uppgett som viktiga. Gällande riskfaktorer påvisade resultatet en genomsnittlig procentuell samstämmighet på 64% utslaget på samtliga fall. Endast i Fall 6 var samstämmigheten på 82%, en acceptabel nivå i enlighet med de rekommenderade nivåerna mellan 80-90%.

(24)

Tabell 3

Matris av summering gällande procentuell (%) samstämmighet mellan bedömare i faktorer. Samtliga fall.

Fall 1 Fall 2 Fall 3 Fall 4 Fall 5* Fall 6 Sammanslaget Genomsnitt

Riskfaktorer 65 70 70 65 30 82 64

Sårbarhetsfaktorer 55 97 33 77 27 43 55

Skyddsfaktorer 45 97 38 75 78 43 63

Not. Sammanslaget genomsnitt = Sammanlagd summa av fall 1–6 dividerad med antalet fall *= En bedömare använde instrumentet FREDA. Samtliga siffror avrundade till närmsta heltal.

Även interbedömarreliabiliteten hos bedömare gällande sårbarhetsfaktorer påvisade en genomsnittlig procentuell samstämmighet lägre än den rekommenderade nivåerna, 55% utslaget på samtliga fall. I två fall var den procentuella samstämmigheten mellan bedömarna i sårbarhetsfaktorer över eller nära de lägsta accepterade nivåerna, Fall 2 och 5 som påvisade 97% respektive 78%.

Likaså identifieringen av skyddsfaktorer påvisade en lägre procentuell

samstämmighet utslaget på samtliga fall än de rekommenderade nivåerna, 63%. Endast Fall 2 påvisade en nivå över de rekommenderade lägsta nivåerna med 97%.

Hur ser interbedömarreliabiliteten ut bland socialarbetare vid fallens ärendeprioritering gällande behovet av skyddsåtgärder?

Vidare utfördes analyser av interbedömarreliabilitet hos de sex bedömarna gällande

tillskrivelse av ärendeprioritering, det vill säga den skala mellan 1 och 5 som bedömaren fick ange i en sammanvägd bedömning mellan återfallsrisk och allvarligheten av potentiellt våld. I vilken utsträckning bedömarna angett samma nivå på skalan analyserades med ett Fleiss kappa-test. Resultatet visade en måttlig (eng. Moderate) samstämmighet mellan bedömarna κ= 0,495 (95% KI, 0,492 till 0,498), p <0,001.

Hur ser interbedömarreliabiliteten ut mellan socialarbetares individuella bedömningar vid identifiering av risk-, sårbarhets- och skyddsfaktorer samt ärendeprioritering i jämförelse med en gemensam bedömning?

(25)

Vidare analyserades även bedömarnas individuella bedömningar av risk-, sårbarhets- och skyddsfaktorer med den bedömning som alla bedömare gjorde gemensamt. I Tabell 4 kan utläsas att interbedömarreliabiliteten mellan enskilda bedömare och den gemensamma bedömningen gällande identifierade riskfaktorer påvisade en genomsnittlig procentuell samstämmighet på 71% utslaget på samtliga fall. Detta var således under den

rekommenderade nivåerna för procentuell samstämmighet mellan 80–90%. Interbedömarreliabiliteten mellan enskilda bedömare och den gemensamma

bedömningen gällande identifierade sårbarhetsfaktorer påvisade en genomsnittlig procentuell samstämmighet på 78% utslaget på samtliga fall. Även denna faktor befann sig således strax under de rekommenderade nivåerna för procentuell samstämmighet.

Vid analysen av interbedömarreliabiliteten mellan enskilda bedömare och den

gemensamma bedömningen gällande identifierade skyddsfaktorer påvisades en genomsnittlig procentuell samstämmighet på 79% utslaget på samtliga fall. Även denna faktor befann sig således strax under de rekommenderade nivåerna för procentuell samstämmighet.

Tabell 4

Matris av summering gällande procentuell (%) samstämmighet mellan individuella bedömningar och gemensam bedömning. Samtliga fall.

Not. Samtliga siffor ska läsas som procent.

Totalt = Sammanlagd summa av fall 1-6 dividerad med antalet fall *= En bedömare använde instrumentet FREDA

Samstämmigheten i ärendeprioritering mellan individuella bedömningar och en gemensam bedömning varierade kappavärdena påtagligt. Två av sex resultat beräknades vara statistiskt signifikanta, se Tabell 5. Det genomsnittliga kappavärdet av samtliga bedömare beräknades till 0,41 och kan således tolkas som “måttlig” (eng. Moderate) samstämmighet. Detta kan jämföras med det beräknade Fleiss-kappavärdet för samstämmigheten mellan bedömarna (κ= 0,49), vilket indikerar att samstämmigheten bland bedömarna är något högre än den

Fall 1 Fall 2 Fall 3 Fall 4 Fall 5* Fall 6 Totalt

Riskfaktorer 80 92 75 58 33 88 71

Sårbarhetsfaktorer 75 100 92 83 42 75 78

(26)

genomsnittliga samstämmigheten mellan bedömarna och den gemensamma bedömningen, dock grundat på statistiskt icke-signifikanta beräkningar.

Tabell 5

Cohens Kappa test för beräknad samstämmighet i Ärendeprioritering. Samtliga fall (n=6).

Kappa (K) SD Bedömare 1 0,18 0,28 Bedömare 2 0,50 0,31 Bedömare 3 0,58* 0,32 Bedömare 4 0,67* *0,25 Bedömare 5 0,10 0,33 Bedömare 6 0,46 0,25

Genomsnitt utslaget på samtliga bedömare 0,41 X

Not.* p < 0,05. X=Inget beräknat värde. SD = Standardavvikelse

Diskussion

Syftet med denna studie var att undersöka hur interbedömarreliabiliteten bland socialarbetare såg ut gällande identifiering av risk-, sårbarhets- och skyddsfaktorer samt ärendeprioritering vid riskbedömning för partnervåld. Studien syftade även till att undersöka hur individuella bedömningar ställde sig gentemot en gemensamt utarbetad bedömning av samma

identifiering av faktorer. Resultatet påvisade en mycket varierande interbedömarreliabilitet beroende på vilket av fallen samt vilken typ av faktorer som berördes. Riskfaktorer var de faktorer som påvisade högst interbedömarreliabilitet bland samtliga fall. Lägst

interbedömarreliabilitet var sårbarhetsfaktorer sett över samtliga fall. Tillskrivelse av ärendeprioritering påvisade en måttligt hög interbedömarreliabilitet gällande jämförelser av endast de individuella, vilket var signifikant. Jämförelsen mellan individuell och gemensam ärendeprioritering uppnådde istället endast en interbedömarreliabilitet som ansågs “fair” (Landis & Koch, 1977). Av de sex Cohens kappa-test som genomfördes innehade dock endast två värden signifikans.

Metoddiskussion

Valet av analysmetod i form av procentuell samstämmighet kan argumenteras för att vara en tydlig fördel vid tolkning av resultatet för denna studie. Metoden i sig är lättöverskådlig och lättförståelig, något som även påtalats i tidigare forskning (McHugh, 2012). Detta möjliggör

(27)

att interbedömarreliabiliteten uppfattas på ett tydligare och mer lättbegripligt sätt än andra statiska metoder. Att sedan Cohens och Fleiss kappa användes för att undersöka

interbedömarreliabiliteten gällande tillskrivelse av ärendeprioritering kan likväl anses vara en metodologisk fördel. Båda metoderna är tillräckligt starka för att ta i beaktning risken för slumpartade resultat. Dessa metoder är starkare att använda vid en analys, i jämförelse med om percentage agreement vore att användas även vid analysen av ärendeprioritering.

Av relevans är även att vid de fall där bedömare inte fyllde i alla tre faktorer som skulle inkluderas utelämnades de icke-ifyllda faktorerna helt från analysen, såväl mellan bedömare som med gemensam bedömning. Detta påverkade den presenterande

samstämmigheten då den ökade i jämförelse med om de icke-ifyllda faktorerna inkluderats. Valet av att exkludera de icke-ifyllda faktorerna diskuterades av föreliggande studies författare vara det mest fördelaktiga alternativet då bedömare till vissa fall inte fann fler faktorer. Inkludering av de icke-ifyllda faktorerna skulle resultera i en låg samstämmighet fastän bedömarna faktiskt var överens.

Vidare skulle samtal med bedömarna underlättat för författarna för att förstå deras tankegångar och motiveringar vid själva bedömningen. Bedömarna kan inneha samma innebörd av exempelvis en riskfaktor men använt sig av olika ord för att beskriva den. Exempel på detta är ord som “kontrollerande” samt “svartsjuka”. Ordens innebörd skiljer sig åt, men individuellt kan bedömarna tolka dem som samma fenomen. Detta är en problematisk aspekt vid kodningsprocessen då risken uppstår att författarna tolkar dessa faktorer fel. Då författarna av studien erhöll data anonymiserad samt att bedömningarna var genomförda, förekom inte möjligheten att ta del av deras process vid val av faktorer. Av relevans är även att nämna att den kodningsprocess som skett under denna studie medför en risk för bias. Kodningen har skett av författarna själva och enskilda faktorer hos dessa som erfarenhet samt åsikter påverkar kodningsprocessen (Armstrong, Gosling, Weinman & Marteau, 1997).

En problematisk aspekt att lyfta är det faktum att författarna av föreliggande studie hade oerhört begränsad information om deltagarna av studien. Som tidigare nämnts erhölls endast information om att deltagarna arbetade inom samma rådgivande organisation, hade samma grundutbildning samt att de hade olika erfarenhet av att utföra riskbedömningar. Denna bristande information om deltagarna resulterar i att färre slutsatser och förklaringar kan ges till att kunna förstå varför deltagarna graderade som de gjorde. Hade författarna bakom föreliggande studie haft vetskap om faktorer som exempelvis hur stor erfarenhet de enskilda bedömarna haft, hade det kunnat förklara resultatet mer ingående. Vidare erhöll deltagarna i studien ingen utbildning för hur de skulle arbeta efter RISKSAM-manualen. Det

(28)

grundar sig i att deltagarna var med för hjälpa till att testa och därmed bidra till utvecklingen av RISKSAM-manualen, då den är ett preliminärt utkast som kan komma behöva förändras.

Det är av vikt att lyfta att datan som författarna av föreliggande studie erhöll var av sådan art att starkare analysmetoder inte gick att genomföra. Författarna genomförde inte datainsamlingen och kunde därmed inte påverka aspekter och faktorer som kan verkat för att en starkare analysmetod kunde ha genomförts. Valet av analysmetoden procentuell

samstämmighet kan likväl medfört svårigheter (Belur m.fl., 2018; Hallgren, 2012; Lombard m.fl., 2002). Primärt med anledning av att metoden i sig är ett så pass basalt alternativ så att slumpen inte kan tas i beaktning. Detta medför en tydlig svårighet vid tolkning av resultatet av denna studie då metoden påvisats inneha en påtaglig risk för överestimering av

interbedömarreliabilitet.

Ytterligare en metodologisk aspekt att ta hänsyn till vid tolkning av resultaten är dess begränsade stickprovsstorlek och som en effekt, brist på statistisk “power” (Borg & Westerlund, 2012). Statistisk “power” kan enkelt beskrivas som hur väl ett stickprov kan sägas representera den större populationen som vill undersökas. Den här studiens låga stickprovsstorlek, det vill säga sex socialarbetare, riskerar således ha väldigt låg power och inte kunna representera en större population. Resultaten kan därför sägas inte kunna

generaliseras och ska inte tolkas som ett mått på interbedömarreliabilitet hos socialarbetare gällande partnervåld överlag och därför kunna anses en metodologisk svaghet. Sagda låga power skulle även kunna vara en del i förklaringen till att endast två av sex värden i Kappa testet mellan bedömarnas ärendeprioritering var signifikanta då power kan öka sannolikheten för signifikans (Borg & Westerlund, 2012). Såsom nämnts tidigare har Kappa test sagts vara generellt starkare metodologiskt än exempelvis percentage agreement, men användandet av testet trots ett behov av större stickprovstorlek och power kan diskuteras vara ytterligare en metodologisk svaghet.

Resultatdiskussion

Vid tolkning av resultat finns flera aspekter som kan ha påverkat utfallet. Nedan följer vidare diskussion i ljuset av tidigare forskning och teoretiska resonemang för varje frågeställning.

Individuella bedömningars identifiering av faktorer. Tidigare forskning har indikerat på att identifiering av risk- och sårbarhetsfaktorer innehar en varierande

interbedömarreliabilitet (Grann & Wedin, 2002; Svalin m.fl., 2017). Denna studie påvisade liknande resultat då interbedömarreliabiliteten bland bedömarna vid identifiering av risk- sårbarhets- och skyddsfaktorer påvisade en tydlig variation beroende på vilket fall som berördes. Samtliga former av faktorer påvisade dock en lägre procentuell samstämmighet än

(29)

de rekommenderade nivåerna utslaget på samtliga fall. Detta kan argumenteras följa av att endast en bedömare för ett enskilt fall använde ett strukturerat riskbedömningsinstrument. Det faktum att det endast användes vid ett fall och inte genomgående av alla bedömare vid alla fall, kan delvis förklara den låga interbedömarreliabilitet som uppkom. Då bedömaren som använde sig av instrumentet FREDA utgår från förutbestämda faktorer, förefaller det möjligt att just det gör att dennes svar skiljer sig åt från övriga och påverkar

interbedömarreliabiliteten negativt. Den bedömare som använde sig av FREDA angav färre antal faktorer än övriga bedömare och följde därmed instruktionerna för hur RISKSAM-manualen var tänkt att användas. De övriga bedömarna inkluderade fler faktorer och

“garderade” sig därmed, i jämförelse med bedömaren som använde sig av FREDA. De övriga bedömningarna som utfördes var i form av kliniska bedömningar, som enligt tidigare

forskning innehar en lägre interbedömarreliabilitet i jämförelse med strukturerade

professionella bedömningar (Belfrage, 2004; Nicholls m.fl., 2013; Singh m.fl., 2011). Det kan därmed argumenteras för att om samtliga bedömare använt sig av ett

riskbedömningsinstrument, och därmed utfört en strukturerad professionell bedömning, skulle interbedömarreliabiliteten kunna varit högre. I och med att ett

riskbedömningsinstrument består av bestämt antal faktorer skulle det även resulterat i att en starkare statistisk analys hade varit genomförbar, exempelvis Cohens kappa som kan sägas vara mer informativ än endast procentuell samstämmighet (Viera & Garrett, 2005). Vid tillvägagångssättet som användes vid bedömningarna, där de inte utgick från ett instrument med ett antal bestämda faktorer, finns möjligheten att använda och komma på ett “oändligt” antal faktorer. Denna ökade möjlighet att välja faktorer, kan i sin tur minska möjligheten för bedömarna att vara samstämmiga i sina val av dessa i jämförelse med användandet av ett instrument med ett bestämt antal faktorer. Hade en starkare statistik analys genomförts hade resultaten som framkommit av den varit mer tillförlitliga.

Normative pressures, inom ramen för de teoretiska resonemang framförda i

institutional theory, menar att organisationer tenderar att utveckla homogenitet genom bland annat så kallad professionalisering och filtrering av personal gällande åsikter och kunskap (DiMaggio & Powell, 1983). Studiens resultat påvisade att samstämmigheten varierade från att vara hög såsom 97% till låg som 27% vid identifieringen av faktorer. Utifrån ett teoretiskt resonemang skulle resultatet kunna förklaras genom att filtrering av personal inte förekommit i hög utsträckning, att homogenitet gällande värderingar eller perspektiv inte varit centralt i rekryteringsprocessen och/eller att bedömarna varierar i bakgrund, erfarenhet eller bransch som de tidigare varit verksamma.