Socialarbetares riskbedömningar för partnervåld
En analys av interbedömarreliabilitet
Jonathan Christiansson, Adam Jonsäll & Fredrik T. Petersson Vårterminen 2020 Självständigt uppsatsarbete, 15 hp Huvudområde: Kriminologi
Institutionen för juridik, psykologi och socialt arbete Handledare: Joakim Petersson
Abstract
Risk assessments are an important element in preventing recidivism for intimate partner violence. This study aimed to investigate the inter-rater reliability of social workers' risk assessments for partner violence regarding the identification of risk, vulnerability and
protective factors as well as case prioritization. The study was conducted by giving six social workers, both individually and jointly, the opportunity to assess risk-, vulnerability- and protective factors as well as prioritization of safety measures for six fictitious cases. The results showed that inter-rater reliability varied when comparing individual assessors depending on the factor that was to be identified and the priority to be attributed to the case. The same was true of the joint assessments. Risk factors were shown to have the highest inter-rater reliability and vulnerability factors to have the lowest inter-rater reliability averaged across all cases. The same was true when comparing joint assessments. Case prioritization showed varying inter-rater reliability with moderate agreement between individual assessors and somewhat lower agreement compared to a joint assessment, averaged across all cases. Further research is recommended in order to assist in the development and use of manuals in assessments of partner violence and in order to understand the need for support to its users.
Keywords: Intimate partner violence, risk assessment, inter-rater reliability, social worker, risk-, vulnerability- and protective factors, case prioritization
Sammanfattning
Riskbedömningar är ett betydande inslag för att arbeta förebyggande mot återfall i partnervåld. Denna studie syftade till att undersöka interbedömarreliabiliteten bland socialarbetares riskbedömningar för partnervåld gällande identifiering av risk-, sårbarhets- och skyddsfaktorer samt ärendeprioritering. Undersökningen genomfördes genom att sex socialarbetare, både individuellt och gemensamt, fick bedöma risk- sårbarhet- och
skyddsfaktorer samt prioritering av ärendet i sex fiktiva fall. Resultaten påvisade att
interbedömarreliabiliteten vid jämförelse av enskilda bedömare varierade beroende på vilken faktor som skulle identifieras samt vilken prioritering som skulle tillskrivas ärendet. Det samma gällde de gemensamma bedömningarna. Riskfaktorer påvisades inneha högst
interbedömarreliabilitet och sårbarhetsfaktorer inneha lägst interbedömarreliabilitet. utslaget på samtliga fall. Det gällde även vid jämförelse av gemensam bedömning. Ärendeprioritering påvisade varierande interbedömarreliabilitet med måttlig samstämmighet mellan enskilda bedömare och något lägre samstämmighet i jämförelse med en gemensam bedömning, utslaget på samtliga fall. Vidare forskning rekommenderas i syfte att bistå i utvecklandet och användandet av manualer i bedömningar gällande partnervåld och förstå behovet av stöd till dess användare.
Nyckelord: Partnervåld, riskbedömning, interbedömarreliabilitet, socialarbetare, risk-, sårbarhets- och skyddsfaktorer, ärendeprioritering
Innehåll
Introduktion ... 1
Riskbedömningar och dess användning ... 2
Faktorer vid riskbedömning ... 3
Interbedömarreliabilitet i riskbedömning ... 4
Teoretisk anknytning ... 7
Den aktuella studien ... 8
RISKSAM. ... 9
Syfte & frågeställningar ... 10
Metod... 10 Urval... 11 Material ... 11 Procedur ... 13 Etiska överväganden ... 14 Statistisk analys ... 16 Resultat ... 19
Hur ser interbedömarreliabiliteten ut bland socialarbetare vid identifiering av risk-, sårbarhets- och skyddsfaktorer för partnervåld? ... 19
Hur ser interbedömarreliabiliteten ut bland socialarbetare vid fallens ärendeprioritering gällande behovet av skyddsåtgärder? ... 20
Diskussion ... 22
Metoddiskussion ... 22
Resultatdiskussion ... 24
Introduktion
Partnervåld är ett utbrett och allvarligt globalt samhällsproblem (Brottsförebyggande rådet [Brå], 2007, 2009, 2014; Garcia-Moreno m.fl., 2013; Statens beredning för medicinsk utvärdering [SBU], 2005). Statistik visar att drygt var fjärde kvinna och var sjätte man i Sverige uppger att de någon gång utsatts för våld av en nuvarande eller dåvarande partner (Brå, 2014). Fenomenet följs likväl av påtaglig återfallsfrekvens hos partnervåldsförövare (Hilton, Harris, Popham & Lang, 2010; Klein & Tobin, 2008; Lin m.fl., 2009; Loinaz, 2014; Petersson & Strand, 2017). Ur en svensk kontext har det rapporterats en återfallsfrekvens mellan 36-42% (Belfrage & Strand, 2012; Mellgren, Svalin, Levander, & Torstensson Levander, 2014). Med denna bakgrund existerar det ett behov av att, i flera av samhällets institutioner där riskbedömningar genomförs, bedöma sannolikheten och allvarlighetsgraden av eventuella återfall hos gärningspersoner för att förebygga detta. Vidare bör bedömningar utföras gällande skyddsbehov för utsatta samt huruvida en gärningsperson kan vistas i frihet (Kropp & Hart, 2015). Ett led i detta är utvecklandet av riskbedömningar, dess metoder och instrument inom myndigheter där risken för återfall i våld bedöms. Av dessa bör så kallad interbedömarreliabilitet tas i beaktning (Sturup, Forsman, Haggård, Karlberg & Johansson, 2014; SBU, 2005). Det vill säga huruvida olika bedömare kan komma till samma/liknande slutsatser av samma fallbeskrivningar med samma instrument eller metod (Borg &
Westerlund, 2012). Vid riskbedömningar kan exempelvis ett scenario uppkomma där en bedömare kan anse ett fall vara av hög risk, medan en andra bedömare kan anse det vara av låg risk, vilket kan resultera i rättsosäkerhet. Oberoende av vilken riskbedömare som utför bedömningen, skall resultatet samt åtgärderna som följer av den bli densamma (Mellgren m.fl., 2014). Betydelsen av interbedömarreliabilitet kan sammanfattas som: “If raters cannot agree on the presence of individual risk factors or the implications that can be drawn from them, there is little point in conducting risk assessments” (Kropp & Hart, 2000, s.109)
Forskning om interbedömarreliabilitet vid riskbedömningar har hitintills fokuserats i hög utsträckning inom polisiär- eller rättsvårdande verksamhet (Kropp & Hart, 2000; Sebire & Barling. 2016; Svalin, Mellgren, Torstensson Levander &
Levander, 2017), samt på specifika instrument och dess utveckling (Grann & Wedin, 2002; Kropp & Hart, 2000; Svalin m.fl., 2017). Socialtjänstens arbete har inte undersökts i samma utsträckning (Socialstyrelsen, 2014), inte heller har fokus riktats till att undersöka
socialarbetare som enskilda riskbedömare. Av denna anledning syftar denna studie till att undersöka interbedömarreliabilitet vid riskbedömningar för partnervåld bland socialarbetare.
Riskbedömningar och dess användning
Riskbedömningar är en arbetsprocess som kan utföras med stöd av ett instrument eller metod för att kunna bedöma olika typer av risk (Douglas, Hart, Webster & Belfrage,
2013). I en partnervåldskontext kan en riskbedömning beskrivas som “En process som innebär insamlande av information av människor i avsikt att avgöra deras risk att begå partnervåld” (Kropp & Hart, 2015, s.2). Riskbedömningarna i partnervåldskontext baseras på information om förövaren och den som är utsatt för partnervåld (Kropp & Hart, 2015). Denna information kan bestå av våldshistorik hos förövaren, huruvida hen har sysselsättning och liknande faktorer som kan påverka dennes risk för att återfalla i partnervåld. Vidare baseras även riskbedömningen på information om den utsatte i form av exempelvis huruvida den utsatte lider av psykisk ohälsa samt om denne har tillgång till professionell hjälp. Detta påverkar den utsatte i dess möjlighet att skydda sig från förövaren sett till förmåga och motivation.
Kliniska bedömningar är den mest grundläggande formen av riskbedömning och innebär att själva bedömningen vilar på praktikerns egen expertis och egna slutsatser (Kropp, 2008; Kropp, Hart & Lyon, 2008). Denna typ av riskbedömning kan vara subjektiv, har ofta en sämre prediktiv förmåga, lägre interbedömarreliabilitet och är därmed ansedd vara den svagaste typen av riskbedömning (Ægosdottír m.fl., 2006; Nicholls, Pritchard, Reeves & Hilterman, 2013; Singh, Grann & Fazel, 2011; Spengler m.fl., 2009). Vilken typ av
riskbedömning som är mest fördelaktig att använda är dock kontextbundet och beroende på vad som ska bedömas talar forskning både för och emot de olika bedömningstyperna (Kropp, 2008; SBU, 2005).
Aktuariska bedömningar innebär att bedömaren utgår från ett strikt schema eller formulär med evidensbaserade frågor och begränsar således praktikerns inblandning
(Ægosdottír m.fl., 2006; Kropp, 2008). Frågornas karaktär är ofta dikotoma där det endast går att besvara frågorna med ett “ja” eller “nej” (SBU, 2005). Denna typ av riskbedömningar ställer inte lika höga krav på riskbedömarens förmåga, då riskbedömaren endast behöver ta ställning till om faktorerna föreligger. Vidare, då de innehar evidensbaserade frågor, har aktuariska riskbedömningar därmed bättre reliabilitet och validitet i jämförelse med kliniska bedömningar (Ægosdottír m.fl., 2006).
Den mest frekvent använda varianten vid myndighetsutövning idag är de som kallas strukturerade professionella bedömningar (Kropp & Hart, 2015; Kropp m.fl., 2008). En strukturerad professionell bedömning innebär att en riskbedömare utgår från ett
bedömning kan anses vara ett mellanting av vad som traditionellt kallats aktuariska och kliniska bedömningar (Brå, 2010). Vid strukturerade professionella bedömningar tillåts dock bedömaren att frångå instrumentet och anpassa bedömningen efter individ och kontext, vilket inte är möjligt vid aktuariska riskbedömningar (Douglas & Kropp, 2002). Strukturerade professionella bedömningar innehåller förutbestämda, evidensbaserade faktorer som
riskbedömaren sedan ska utvärdera (Belfrage, 2004; Kropp m.fl., 2008). Dels utvärderas om faktorerna föreligger och sedan hur relevanta dessa är för bedömningen. Denna form av riskbedömning ställer stora krav på både riskbedömningsinstrumentet såväl som på riskbedömarens förmåga att genomföra en adekvat riskbedömning. Det kräver att riskbedömningsinstrumentet inkluderar relevanta- och evidensbaserade faktorer samt att riskbedömaren får ut tillräcklig information för att både kunna besvara om faktorerna föreligger samt kunna avgöra dess relevans.
Faktorer vid riskbedömning
Riskbedömningsinstrument i dagens institutioner utgår vanligtvis endast från så kallade riskfaktorer vid bedömningen av allvarlighets- och prioriteringsgrad av fallet (SBU, 2005; Sturup m.fl., 2014).
Riskfaktorer. Riskfaktorer kan beskrivas som faktorer som ökar sannolikheten för att en viss problematik inträffar (Andershed, Andershed & Farrington, 2012). Ur en
partnervåldskontext innebär detta således en ökad risk för fortsatt våld mot partnern och härrör från faktorer hos förövaren (Kropp & Hart, 2015). En riskfaktor kan exempelvis vara missbruk av olika slag, personlighetsstörning samt tidigare våld (Douglas m.fl., 2013). Sedermera har en diskussion följts av nutidens bedömningsinstrument huruvida även
ytterligare faktorer bör tas i beaktning vid bedömningstillfället, så kallade sårbarhetsfaktorer (Belfrage & Strand, 2008; Storey & Strand, 2017) och skyddsfaktorer (Sturup m.fl., 2014; Webster, Nicholls, Martin, Desmarais & Brink, 2006a).
Sårbarhetsfaktorer. Sårbarhetsfaktorer kan beskrivas som faktorer hos den utsatte som ökar dennes risk att utsättas för våld (Brå, 2010). I partnervåldskontext kan detta
exempelvis vara ifall förövaren och den utsatte har gemensamma barn som kommer emellan samt att den utsatte har dålig tillgång till social- och professionell hjälp (Kropp & Hart, 2015). Viss forskning menar att sårbarhetsfaktorer bör tas i beaktning i högre utsträckning då det visats resultera i annorlunda bedömning gällande allvarlighetsgrad och prioritering (Belfrage & Strand, 2008; Storey & Strand, 2017). Vid bedömningar utförda av poliser har
exempelvis inkluderingen av sårbarhetsfaktorer resulterat i en mer omfattande och rättvisande helhetssyn av problematiken.
Skyddsfaktorer. Ett fåtal bedömningsinstrument inkluderar idag så kallade skyddsfaktorer vid bedömning (Vogel, de Vries Robbé, Ruiter & Bouman, 2011; Sturup m.fl., 2014; Webster m.fl., 2006a). Hur skyddsfaktorer ska definieras är idag något tvetydigt, även om grundtanken är densamma. En bredare majoritet av forskningsfältet menar att skyddsfaktorer kan beskrivas som något som minskar risken för ett negativt utfall, även vid närvaro av riskfaktorer (Andershed m.fl., 2012; Vogel m.fl., 2011; Webster m.fl., 2006a). Ur en partnervåldskontext kan en skyddsfaktor exempelvis vara att den utsatte har en
sysselsättning (Webster, Martin, Brink, Nicholls & Desmarais, 2009), vilket stärker den utsattes ekonomiska oberoende från våldsutövaren (Kropp & Hart, 2015). Skyddsfaktorerna kan även underlätta bedömningen av vilka insatser som bör eller inte bör sättas in och är således ett användbart komplement när riskhanteringsstrategier skall utformas (Douglas m.fl., 2013).
Bedömd risk och ärendeprioritering. Bedömningar av risk-, sårbarhets- och skyddsfaktorer resulterar i ett mått av risk för återfall i partnervåld och behovet av skyddsåtgärder för den utsatte (Kropp & Hart, 2015). Detta benämns vanligen som “bedömd risk”. Bedömd risk kan skattas utifrån en skala bestående av låg, medel eller hög risk för ytterligare och allvarligare våld (Belfrage & Strand, 2008; Douglas & Kropp, 2002; Sebire & Barling, 2016). Den bedömda risken används sedermera som ett underlag till vilken ärendeprioritering som bör tillskrivas fallet. Ärendeprioriteringen ligger till grund för de skyddsåtgärder som utformas för den utsatte individen (Strand, Petersson, Fröberg & Storey, 2016). En genomförd riskbedömning, även om den håller hög kvalitet samt har en stark prediktiv kraft, förlorar sitt syfte om inte skyddsåtgärder utformas och används utefter den. Dessa skyddsåtgärder kan exempelvis vara att den utsatte kan få utbildning i hur den ska skydda sig eller få stärkt säkerhet i den fysiska omgivningen, samt behandling för både den utsatte och förövaren (Kropp & Hart, 2015).
Interbedömarreliabilitet i riskbedömning
Tidigare forskning rörande interbedömarreliabilitet hos riskbedömningsinstrument för partnervåld visar på varierande nivå av interbedömarreliabilitet (Grann & Wedin, 2002; Kropp & Hart, 2000; Sebire & Barling, 2016; Svalin m.fl., 2017). Forskning gällande
interbedömarreliabilitet bland riskbedömningsinstrument som specifikt används inom socialt arbete är dock begränsad (Socialstyrelsen, 2014). Än mindre forskning finns tillgänglig kring
det specifika riskbedömningsinstrumentet FREDA framtaget och använt av socialtjänsten vid riskbedömning av våld i nära relation. Den begränsade forskningen som förekommer bygger på det bedömningsinstrument som FREDA baseras på: Danger Assessment [DA]. Dessa är dock antingen av kvalitativ ansats (Glass m.fl., 2008), och/eller utvärderar inte instrumentets reliabilitet (Campbell, Webster & Glass, 2009). Vad som finns att tillgå gällande FREDA är yrkesverksammas erfarenheter av att använda sig av instrumentet. I en svensk rapport utvärderades huruvida användandet av
FREDA bidrog till förändrade arbetsmetoder hos de organisationer som utförde dessa (Stranz, Andersson Vogel & Wiklund, 2015). Rapporten visade bland annat att
partnervåldsförövare med högre farlighetsbedömning även fick mer omfattande insatser samt att användandet av FREDA lett till att kommuner identifierat att de har en avsaknad av insatser att sätta in mot partnervåldsförövare. Detta talar för användandet av instrumentet, i jämförelse med kliniska bedömningar, men för stora kunskapsluckor finns rörande
instrumentets reliabilitet och validitet.
Forskningsfältet kring interbedömarreliabilitet har istället riktat ett primärt fokus till polisiär eller rättsvårdande verksamhet (Grann & Wedin, 2002; Kropp & Hart, 2000; McNeil m.fl., 2000; Sebire & Barling, 2016; Svalin m.fl., 2017). En studie undersökte exempelvis den prediktiva förmågan och interbedömarreliabiliteten av riskbedömningsinstrumentet
Spousal Assault Risk Assessment [SARA] (Grann & Wedin, 2002). Studien bestod av att en
psykologstudent fick, med hjälp av SARA, genomföra riskbedömningar utifrån 88 manliga partnervåldsförövares rättspsykiatriska undersökning. Av det totala urvalet valdes 18 randomiserade fall till vilket en psykolog med avlagd doktorsexamen också genomförde oberoende bedömningar. Dessa jämfördes sedan i vilken utsträckning de olika bedömarna var samstämmiga i generella riskfaktorer för framtida våld och specifika riskfaktorer för
partnervåld. Resultatet påvisade att bedömarna hade hög interbedömarreliabilitet på såväl generella riskfaktorer som de specifika riskfaktorerna samt att instrumentet innehade en hög prediktiv förmåga.
En studie i Storbritannien syftade till att undersöka i vilken utsträckning poliser från fem olika distrikt var samstämmiga i bedömd risk för partnervåldsfall med hjälp av
instrumentet Domestic Abuse, Stalking, Harassment and Honour Based Violence [DASH] (Sebire & Barling, 2016). Instrumentet är en strukturerad professionell bedömning
innehållande 27 frågor till vilket mycket fokus läggs till bedömarens expertis. Totalt undersöktes fyra olika fall av 38 poliser av olika rang men med samma grundutbildning. Bedömarna fick genomföra en riskbedömning av fallet utifrån initiala polisrapporter och
skulle gradera den bedömda risken som låg, medel eller hög där fokus lades till risken för framtida våld och allvarlighetsgraden som följde av våldet. Bedömarna testades sedan en andra gång och fick vid det tillfället en genomgång av de nationella definitionerna av vad låg, medel och hög bedömd risk samt allvarlig skada innebar. Resultatet visade att bedömarna innehade en mycket begränsad samstämmighet gällande den bedömda risken för partnervåld. Vid det första tillfället föreföll det en låg interbedömarreliabilitet mellan riskbedömningarna. Vid det andra testet, till vilket bedömarna informerades om de nationella definitionerna, påvisades en mindre ökning men som fortfarande ansågs svag samt var icke-signifikant. Variation av den bedömda risken diskuterades bero på hur erfarna de olika distriktens bedömare var gällande hantering av riskbedömningar för partnervåld. Antalet fall som varje distrikt hanterade till vardags kunde ha resulterat i att poliser med mer erfarenhet hade en annan avvägning gällande den bedömda risken och tillskrev således en lägre risk. De med mindre erfarenhet tenderade istället att “gardera sig” och tillskrev en högre risk.
Vidare genomfördes även en studie på poliser i Sverige gällande
interbedömarreliabilitet för instrumenten Brief Spousal Assault Form for the Evaluation of
Risk [B-SAFER] och the Police Screening Tool for Violent Crimes [PST-VC] (Svalin m.fl.,
2017). Studien undersökte i vilken utsträckning poliser var samstämmiga i identifiering av risk- och sårbarhetsfaktorer samt den bedömda risken av fallet. Totalt bedömdes 16 verkliga fall till vilket det redan fanns en färdig bedömning. Bedömningarna genomfördes av totalt tre polisanställda med begränsad kunskap i ämnet. Dessa fick endast göra bedömningar utifrån initiala polisrapporter upprättade på plats och inte ha kontakt med den utsatte med risk för påverkan. Bedömarna blev sedan indelade parvis utan vetskap om den andres riskbedömning och jämfördes i hur många risk- och sårbarhetsfaktorer, kodade av forskarna utifrån PST-VC, som de identifierade samt den bedömda risk de tillskrivit ärendet. Samma tillvägagångssätt applicerades till B-SAFER. Resultatet påvisade en varierande interbedömarreliabilitet hos de båda instrumenten. Bedömarna hade överlag en låg interbedömarreliabilitet för en majoritet av risk- och sårbarhetsfaktorerna som identifierades. Detta förklarades bero på dels den bristande utbildningen poliserna hade gällande riskbedömningar och nyckelfaktorer, men även att bedömarna fick begränsad mängd information. Resultatet påvisade även att bedömarna överlag var samstämmiga kring den bedömda risken som skulle tillskrivas ärendet. Detta gällde såväl utifrån B-SAFER som PST-VC. Dock menar författarna att resultatet snarare grundades i “tyst kunskap” än de faktiska instrumenten. Tyst kunskap kan beskrivas som erfarenhet vilket förvärvats genom yrkeslivet och verkar bland medarbetare utan att en faktisk riktlinje stipulerar det.
Forskning har även indikerat att hög interbedömarreliabilitet kan ha ett samband med hög prediktiv förmåga i riskbedömningar av framtida våld (Duwe, 2017; McNiel, Lam & Binder, 2000). Hög interbedömarreliabilitet och hög prediktiv förmåga innebär dock inte att ett kausalt samband finns. En hög interbedömarreliabilitet kan nås även om flera bedömare svarar “fel”. Om flera riskbedömare bedömer ett fall som “låg risk” trots att utfallet av riskbedömningen visade att ärendet hade “hög risk”, så innebär det att en hög
interbedömarreliabilitet uppnås trots att riskbedömarna svarade “fel”.
Teoretisk anknytning
Institutional theory, såsom först beskrivet av Meyer och Rowan (1977), är ett teoretiskt ramverk vilket menar att två primära beståndsdelar svarar till hur formella strukturer och praktik kan komma att påverkas av fenomen i den institutionella miljön. Dessa två beståndsdelar är Legitimitet (eng. Legitimacy) och Isomorfism (eng. Isomorphism).
“Legitimitet” innebär i vilken utsträckning organisationens struktur och arbetssätt kan anses utstråla, såväl internt som externt, intryck av lämplighet och ansvarsfullhet. För en
organisation är legitimitet centralt då detta inverkar markant till dess utveckling och överlevnad.
Strävandet efter legitimitet tenderar att leda till vad som kallas “Isomorfism”. Isomorfism kan enkelt översättas till vilken grad av homogenitet som uppvisas i en
organisation (Meyer & Rowan, 1977). Isomorfisk förändring i en organisation har förklarats uppkomma främst genom en kombination av tre huvudsakliga mekanismer; Coercive
pressures, Mimetic pressures och Normative pressures (DiMaggio & Powell, 1983).
Coercive pressures innebär att organisationen upplever formella eller informella
påtryckningar av externa organisationer som de är beroende av eller samhällets förväntningar på organisationen. Det skulle kunna resoneras att bedömarna genom att vara del av samma organisation kommit att påverkats genom påtryckningar av, för organisationen, centrala aktörer. I relation till föreliggande studie skulle sådan central aktör kunna vara
Socialstyrelsen som kan komma att påverka socialtjänstens riskbedömare inom partnervåld. Socialstyrelsen, enligt myndighetens webbsida, “ (. . .) styr, stödjer och utvecklar hälso- och sjukvården och socialtjänsten” (Socialstyrelsen,
2019a). Socialstyrelsen ger riktlinjer, ramverk och har tagit fram riskbedömningsinstrumentet FREDA att användas av socialtjänstens aktörer vid partnervåld (Socialstyrelsen, 2019b). Påtryckningar i form av riktlinjer, ramverk och ett rutinmässigt användande av ett gemensamt
riskbedömningsinstrument skulle kunna bidra till högre grad av isomorfism bland riskbedömarna och således högre samstämmighet dem emellan.
Mimetic pressures innebär att när det råder organisationell osäkerhet, exempelvis i mål eller tillvägagångssätt, finns tendenser till att vilja imitera andra organisationer som anses mer framgångsrika eller legitima (DiMaggio & Powell, 1983). Strävan efter legitimitet kan således skapa en vilja hos riskbedömare att imitera andra organisationer eller strukturer som anses framgångsrika eller väl ansedda. Exempelvis går det att tänka sig att om andra
organisationer som genomför riskbedömningar prioriterar vissa risk- sårbarhets- eller
skyddsfaktorer finns incitament för Socialstyrelsen att i större utsträckning hänvisa till dessa. Även om praktiker är knutna till det bedömningsunderlag som återfinns i de instrument som hanteras inom organisationen kan de således se till andra organisationer eller länders
hantering av liknande instrument eller metoder. Det nuvarande instrumentet inom svensk socialtjänst, FREDA, har exempelvis utvecklats från ett redan befintligt instrument som används i Nordamerika (Socialstyrelsen, 2014).
Normative pressures grundar sig primärt i “professionalisering” (DiMaggio & Powell, 1983). Professionalisering kan tolkas som att praktiker strävar efter självbestämmande i sina arbetsmetoder och villkor. För att upprätthålla och legitimera detta självbestämmande så “filtreras” personal. Denna “filtrering” utgår från att dels anställa personal inom samma yrkeskategori till sin organisation samt befordra anställda inom organisationen för att eftersträva homogenitet. Riskbedömare som genomgått väldigt likvärdig utbildning, tränats eller utbildats vid samma lärosäten eller rekryteras från samma bransch, skulle kunna diskuteras bidra till samstämmighet i riskbedömningar. Innehar riskbedömare en likartad grundsyn och rekryteras med anledning av den, kan det tänkas att det formas en bredare homogenitet mellan riskbedömare naturligt.
Den aktuella studien
Riskbedömningar för partnervåld hanteras i dag framförallt av polisen, rättsvårdande myndigheter och socialtjänsten med anledning av att dessa kommer i kontakt med förövare och/eller brottsutsatt (Brå, 2010; SBU, 2005; Socialstyrelsen, 2014; Sturup m.fl., 2014). Forskning om interbedömarreliabilitet har hitintills fokuserats i hög utsträckning till polisiär- eller rättsvårdande verksamhet (Grann & Wedin, 2002; Kropp & Hart, 2000; McNeil m.fl., 2000; Sebire & Barling, 2016; Svalin
m.fl., 2017). Arbetet som bedrivs inom socialt arbete fyller en likvärdig del i hanteringen av partnervåldsärenden men har inte undersökts i samma utsträckning. Detta är problematiskt
med anledning av att socialtjänstens arbete primärt riktar sitt fokus till den brottsutsatte (Socialstyrelsen, 2014) och kan ibland behöva kombinera riskbedömningar av fall som även hanteras av polisen (Socialstyrelsen, 2018). Det är således behövligt att öka kunskapen kring hur samstämmiga bedömare är hos en vital samhällsaktör vid identifiering av faktorer och ärendeprioritering.
Forskning på interbedömarreliabilitet har även fokuserats kring framförallt
instrumentutveckling (Kropp & Hart, 2000; Svalin m.fl., 2017; Van der Knaap, Leenarts, Born & Oosterveld, 2012). Problematiskt är således att den forskning som har bedrivits har fokuserats mycket kring instrumentets reliabilitet och inte på de faktiska bedömarna
(Belfrage & Strand, 2008; Belfrage m.fl., 2012; Storey, Kropp, Hart, Belfrage & Strand, 2014; Sturup m.fl., 2014). Att undersöka i vilken utsträckning enskilda bedömare är samstämmiga, bör vara av relevans för att dels bedömarna själva är en del av instrumentet, men även för att undersöka instrumentets betydelse. Av tidigare forskning tenderar
interbedömarreliabiliteten att undersökas genom att bedömares riskbedömningar endast jämförs med varandra och ibland någon form av riktlinje för vad som är eftersträvansvärt inom riskbedömningen (Sturup m.fl., 2014). Detta kan vara exempelvis nationella
definitioner (Sebire & Barling, 2016), eller den redan genomförda bedömningen som tillskrivits ärendet (Svalin m.fl., 2017). Begränsat fokus har riktats till utarbetande av en gemensam bedömning vilket kan argumenteras ha, med anledning av att den är gemensamt utarbetad, en högre interbedömarreliabilitet (Webster m.fl., 2006b). Den forskning som har undersökt detta har endast undersökt riskbedömningar rörande sexuellt våld. Gemensam bedömning ansågs enligt forskarna själva innebära en metodologisk fördel mot tidigare forskning då denna bedömning tillät att: “rater’s data is compared with an ideal/acceptable standard” (Webster m.fl., 2006b s.451). Resultatet påvisade att den gemensamt utarbetade bedömningen hade en hög interbedömarreliabilitet i jämförelse med individuella
bedömningar på en majoritet av faktorerna som skulle identifieras. Denna form av
bedömning har inte tidigare använts till riskbedömningar för partnervåld, men med anledning av dess positiva resultat inom riskbedömningar för sexuellt våld kan argumenteras för att det bör undersökas.
RISKSAM. Med bakgrund i tidigare forskning och en identifierad kunskapslucka , har det initierats ett projekt vid Örebro universitet vilket leds av forskargruppen Stalking och
Partnervåld [SToP] som kallas RISKSAM (Örebro universitet, 2020). Detta projekt syftar till
att möjliggöra för de olika myndigheterna och organisationerna att utveckla en gemensam problembild, oberoende av vilken metod eller riskbedömningsinstrument som de använt sig
av. Myndigheter som kommer i kontakt med förövare eller den utsatte, primärt polis och socialtjänst, använder idag olika bedömningsinstrument med betoning på olika riskfaktorer (Socialstyrelsen, 2018). Av detta följer således ett behov av bättre samverkan mellan myndigheter och utarbetandet av gemensamma manualer som kan sammanföra de olika metodernas perspektiv. Till RISKSAM utvecklades även en första version av en tillhörande manual och projektet innehåller utrymme för att utforma riskhanteringsstrategier och samverkan mellan de olika myndigheterna och organisationerna. Under våren 2020 genomfördes en pilotstudie för att utveckla den manual som utarbetats inom projektet. Pilotstudien bestod av att yrkesverksamma inom socialtjänst och polis genomförde egna bedömningar av fiktiva partnervåldsfall. Dessa bedömningar skulle i ett senare skede jämföras med anledning av att undersöka hur samstämmiga bedömare från de olika myndigheterna var med stöd av manual. Vad som är av relevans att lyfta är det faktum att RISKSAM är ett arbetssätt att arbeta efter med tillhörande manual och inte ett
riskbedömningsinstrument. Vid användandet av RISKSAM-manualen går det att använda sig av ett riskbedömningsinstrument när den gemensamma problembilden utformas. Det
presenterades under våren 2020 en möjlighet att använda sig av RISKSAM-projektets data, dock utan att vara en del av projektet. Författarna till föreliggande studie antog detta i syfte att undersöka den kunskapslucka som identifierats kring interbedömarreliabiliteten i
partnervåldsbedömningar av socialarbetare. Syfte & frågeställningar
Syftet med föreliggande studie är att undersöka hur interbedömarreliabiliteten bland socialarbetare ser ut i individuellt- och gemensamt utarbetade riskbedömningar för partnervåld. Syftet har sedan ytterligare konkretiserats kring tre frågeställningar:
1. Hur ser interbedömarreliabiliteten ut bland socialarbetare vid identifiering av risk-, sårbarhets- och skyddsfaktorer för partnervåld?
2. Hur ser interbedömarreliabiliteten ut bland socialarbetare vid gradering av ärendeprioritering gällande behovet av skyddsåtgärder?
3. Hur ser interbedömarreliabiliteten ut mellan socialarbetares individuella bedömningar vid identifiering av risk-, sårbarhets- och skyddsfaktorer samt ärendeprioritering i jämförelse med en gemensam bedömning?
Metod
Föreliggande studie var av kvantitativ ansats med tvärsnittsdesign. Detta valdes med anledning av att interbedömarreliabilitet mellan bedömare syftades till att undersökas, att
datan som användes var av numerisk art samt att data samlades in vid ett och samma tillfälle (Borg & Westerlund, 2012). Studien utgick från data som insamlats i en pilotstudie för ett projekt kallat RISKSAM som bedrivs vid Örebro universitet (Örebro universitet, 2020). Pilotstudien bestod av att yrkesverksamma inom socialtjänst och polis genomförde egna bedömningar av fiktiva partnervåldsfall. Datan som presenterades och diskuterades i denna studie bestod av de svar som givits av socialarbetarna men verkade som ett separat steg från det faktiska RISKSAM-projektet.
Urval
Deltagarna inom denna studie var totalt sex socialarbetare, som framledes benämns som bedömare, vilka samtliga hade samma grundutbildning och varierande erfarenhet av att genomföra riskbedömningar för partnervåld. Dessa bedömare var samtliga verksamma inom samma rådgivande organisation med fokus på bland annat partnervåld som en del av
socialtjänstens verksamhet. Ytterligare information om dessa individer delgavs inte
författarna av denna studie då den data som erhölls var anonymiserad. Bedömarna hade inför pilotstudien gått igenom RISKSAM-manualen tillsammans med en av forskningsledarna för projektet vid ett tillfälle. Den korta genomgången genomfördes så bedömarna visste hur de skulle tolka samtliga steg i manualen samt så gick de igenom ett ärende gemensamt, som dock inte användes som underlag för föreliggande studie.
Vardera bedömare hade genomfört en enskild bedömning på sex fiktiva fall samt en
gemensam bedömning som skulle verka som en form av “golden standard”, det vill säga det “bästa” alternativet. Denna golden standard utarbetades för vardera av de sex fallen. Totalt skulle således 42 riskbedömningar erhållas, sex gemensamma och 36 individuella. Internt bortfall blev en riskbedömning som inte hade lämnats in till projektledarna, vilket resulterade i att det faktiska urvalet av denna studie bestod av 41 riskbedömningar. Samtliga bedömare deltog vid alla fallen av riskbedömningar, bortsett vid ett av de tidigare nämnda fallen, varav inget externt bortfall uppstod.
Material
Bakgrunden till utformandet av RISKSAM-projektet grundar sig i ett behov av samverkan mellan polis och socialtjänst, som båda arbetar mot partnervåld (Örebro universitet, 2020). Syftet med projektet är att underlätta samverkan samt möjliggöra att, trots deras olika
arbetssätt, komma fram till en gemensam problembild. Tillhörande manual syftar till att verka som en vägledning i hur problembilden ska utformas.
För att komma fram till en gemensam problembild så består RISKSAM-manualen av flera olika steg (Örebro universitet, 2020). Det initiala steget utifrån RISKSAM-manualen var att ange huruvida ett riskbedömningsinstrument legat till grund för bedömningen för det angivna fallet eller ej. Exempelvis kan bedömaren ange om SARA eller FREDA legat till grund för bedömningen till fallet. Nästa steg i arbetsprocessen involverade att bedöma samt rangordna risk-, sårbarhet- och skyddsfaktorer samt de mest betydelsefulla faktorerna ur ett barnperspektiv. Detta steg låg sedan till grund för det tredje steget i processen; att beskriva dels det mest sannolika scenariot som förövaren kan komma göra mot den utsatte samt det värsta tänkbara scenariot som kan komma att inträffa. Det fjärde steget i processen är att göra en individuell ärendeprioritering baserat på risken för återfall i hot och våld, som graderas från 1-5. Efter detta genomförs en riskformulering med motivering till vad för gradering som valdes. Det efterföljande sjätte steget syftar till att utforma riskhanteringsstrategier baserat på tidigare ärendeprioritering. Ju högre gradering av ärendeprioritering, desto mer
skyddsåtgärder behöver sättas in. I det sjunde steget ska en riskhanteringsplan utformas efter risk-, behov- och mottaglighetsprincipen. Vid utformandet av denna ska risk, skyddsbehov samt genomförbarhet tas i beaktning. Efter genomförd riskhanteringsplan skall det anges huruvida ett behov av samverkan med andra organisationer eller myndigheter behöver genomföras. Slutligen kommer en uppföljning genomföras för att utvärdera situationen, för att avgöra om ärendet kan avslutas.
Den aktuella studien. För den föreliggande studien bestod materialet av
riskbedömningar på fiktiva fall som genomförts med stöd av den manual som pilotestades till RISKSAM, ifyllda av bedömarna i pappersformat. Manualen bestod av rangordningsfrågor som: “Vilka är de mest betydelsefulla riskfaktorerna i detta ärende?”, till vilket dessa fick möjlighet att ange och rangordna i varsitt skrivfält de tre mest betydelsefulla faktorerna för vardera fall. Samma frågeställning förekom också gällande sårbarhetsfaktorer och
skyddsfaktorer, Se Figur 1 för exempel på arbetsbladets utformning. Manualen inbegrep även “nivå av prioritering”. För att besvara ärendeprioriteringen utfördes en gradering av hur stor risken var för “Återfall i hot och våld inom 12 månader” samt “Risk för allvarligt hot och våld”. Denna gradering innefattade en kombination av dessa två aspekter och utfördes på en femgradig skala från “Låg risk (nivå 1)” till “Extremt hög risk (nivå 5)”. För denna studie, vars syfte var att undersöka interbedömarreliabilitet mellan bedömarnas angivna faktorer samt ärendeprioritering, var dessa steg av relevans att inkludera. Interbedömarreliabilitet av dessa faktorer är av vikt då en gemensam problembild ska utformas, varav en låg
förefaller risken att olika slutsatser dras, vilket leder till att en
gemensam problembild är svår att utforma och i sin tur kan skapa rättsosäkerhet (Mellgren m.fl., 2014). Utfallet av
riskbedömningen ska idealt sett bli likadan oavsett vem som genomför den. För att detta skall säkerställas behövs därmed hög interbedömarreliabilitet.
Totalt bedömdes sex fiktiva fall, konstruerade av ansvariga aktörer för RISKSAM-projektet. De fiktiva fallen, såväl som RISKSAM-manualen, utformades av två forskare med stor
erfarenhet av forskning inom partnervåld samt riskbedömningar.
Manualen hade tydlig grund i tidigare forskning och de fiktiva fallen inkluderade etablerade faktorer för att undersöka och bedöma partnervåld, vilket styrker dess validitet. RISKSAM-manualens reliabilitet i sin tur är vad pilotstudien, vars data denna studie utgick ifrån, ämnade att undersöka. Föreliggande studie ämnade att testa interbedömarreliabiliteten mellan
socialarbetarna, vilket är viktigt att särskilja från pilotstudiens syfte. Samtliga fall för
föreliggande studie berörde partnervåld och var mellan heterosexuella par. Ett av fallen hade inslag av hederskultur, ett handlade om en kvinnas våld mot en föredetta pojkvän och
resterande fokuserade på partnervåld där en man var våldsam mot sin kvinnliga partner.
Procedur
Fallen som skulle bedömas var fiktiva men verklighetstrogna och inkluderade olika exempel av partnervåld. Vid riskbedömningarna fick bedömarna själva välja om de ville använda sig av ett riskbedömningsinstrument, som exempelvis SARA eller FREDA, eller inte. De skulle sedan bedöma och rangordna de viktigaste risk-, sårbarhets- och skyddsfaktorerna i fallet. Vidare bedömdes fallets ärendeprioritering. Vid de individuella bedömningarna fick
Figur 1.Arbetsblad ur RISKSAM-manualen. Viktigaste riskfaktorer för fortsatt våld/hot.
bedömarna inte diskutera fallen och faktorerna sinsemellan då detta skulle kontaminera deras bedömningar. Bedömarna fick sedan en vecka på sig att jobba individuellt med ett fall, varav en av forskningsledarna inhämtade deras individuella bedömningar och sedan gav nya fall att bedöma. Detta skedde vid sex tillfällen, för de sex fallen bedömarna skulle bedömas
individuellt, varav de slutligen fick göra en gemensam bedömning för varje fall som fick verka som “golden standard”. Vid den gemensamma bedömningen fick bedömarna
gemensamt diskutera fallen utifrån sina individuella bedömningar för att utarbeta det “bästa” alternativet. Bedömningen genomfördes genom att bedömarna fick följa manualen för att gemensamt komma fram till de viktigaste risk-, sårbarhets- och skyddsfaktorerna samt fallets ärendeprioritering. Sammanlagd tidsåtgång för både individuella- samt gemensamma
bedömningarna blev drygt tre månader.
Den aktuella studien. Pappersmaterialet, det vill säga bedömarnas fysiska
riskbedömningar, bearbetades och sammanställdes vid tre tillfällen á två till tre timmar. Vid tillfällena gick författarna igenom varje riskbedömning för varje fall vilket sedan skrevs in i ett digitalt kalkylark. Pappersmaterialet returnerades vid slutet av varje tillfälle till
forskningsledaren och extraherades på plats i ett rum i nära anslutning till dennes kontor på universitetet så de fysiska bedömningarna aldrig skulle lämna universitetet. Av kalkylarken genomfördes sedan kodningar för att möjliggöra analyser.
Etiska överväganden
I all vetenskaplig forskning bör en diskussion föras kring etiska faktorer som behöver tas i beaktning vid genomförandet av studier eller undersökningar (Vetenskapsrådet, 2002). Vad som vanligen följer av detta är en avvägning av att forskningen måste vara högkvalitativ och ständigt utvecklande, samtidigt som den i högsta grad måste ta i beaktande vilka
konsekvenser som kan inträffa för deltagande parter (Vetenskapsrådet, 2017). De tydligaste riktlinjerna inom svensk forskningsetik idag är de fyra forskningsetiska principer som presenterats av Vetenskapsrådet. Informationskravet, samtyckeskravet,
konfidentialitetskravet och nyttjandekravet (Vetenskapsrådet, 2002).
Informationskravet innebär att samtliga deltagande parter informeras om uppgiften dessa kommer att ha i studien, vilka villkor som följer av deltagandet, att deltagandet är frivilligt samt att de när som helst har rätt att avbryta sin medverkan (Vetenskapsrådet, 2002). Deltagarna i den aktuella studien hade under det pågående projektet informerats om vad det syftade till, hur datan skulle hanteras samt att de när som helst fick avbryta sin medverkan utan vidare förklaring. Detta innebar således att studiedeltagarna inte behövde fylla i de fiktiva fall som delades ut.
Samtyckeskravet innebär att deltagande parter måste lämna sitt samtycke för att medverka och att data insamlas om individen (Vetenskapsrådet, 2002). Deltagarna inom föreliggande studie hade lämnat samtycke till projektledarnas insamling och analyser av deras data. Samtycket verkade även för vidare analyser till vilket denna studie inbegreps.
Konfidentialitetskravet innebär att känsliga data hanteras konfidentiellt, det vill säga att datan inte kan kopplas tillbaka till någon enskild deltagare och att datan inte heller kan tas del av utomstående (Vetenskapsrådet, 2002). Då pilotstudien inte samlade personuppgifter samt att partnervåldsfallen var fiktiva behövdes ingen etikprövning. Författarna för denna text var inte heller under hela studien någonsin i kontakt med någon av deltagarna och erhöll redan anonymiserade data. Deltagarna, de sex bedömarna, blev tilldelade en siffra mellan ett till sex i syfte att kunna identifiera vilken bedömare som bedömt vilken av fallen. All data som hanterades i denna studie processades på Örebro universitet och den fysiska datan lämnade aldrig universitet. Vidare var datan inlåst på ett kontor varav möjligheterna för utomstående att ta del av datan ej var möjlig.
Nyttjandekravet innebär att insamlad data samt uppgifter inte kommer att användas för någonting annat än den aktuella studien och således inte användas i kommersiella syften (Vetenskapsrådet, 2002). Vid datainhämtning för den aktuella studien bearbetades fysisk data på plats med en av de ansvariga för projektet och returnerades sedan för att uppgifter inte skulle hanteras av andra än tillåtna parter.
Utöver dessa grundläggande principer tillkommer även andra etiska aspekter att ta hänsyn till (Vetenskapsrådet, 2017). De fallen som bedömdes var, om än fiktiva, av känslig karaktär som skulle kunna väcka obehag hos den som läser samt bedömer dessa. De innehöll exempelvis beskrivningar av fysiskt och psykiskt våld. Vad som bör beaktas är att de som utförde bedömningarna på dessa fiktiva fall har erfarenhet av just liknande fall om än
autentiska sådana. Därav kan det argumenteras för att, då de är vana att ta del av information av känslig karaktär och utföra riskbedömningar baserat på detta, kan göra att de är “vana” och inte blir påverkade i lika stor utsträckning känslomässigt som om en oerfaren individ vore att utföra dem. Denna aspekt bör ändock lyftas då bakgrunden och erfarenheten hos de som bedömde fallen är okänd för föreliggande studies författare och hur fallen påverkade bedömarna.
Insamlandet av data tog även i beaktning rådande lagstiftning under
dataskyddsförordningen General Data Protection Regulation [GDPR] som åsyftar att “skydda enskilda individers grundläggande rättigheter- och friheter, särskilt deras rätt till skydd av
personuppgifter.” (Datainspektionen, u.å). Dock, såsom tidigare nämnts, hade inga personuppgifter insamlats vilket innebar att rådande lagstiftning efterföljts.
Statistisk analys
Data sammanställdes i Microsoft Excel där varje bedömare associerades med de risk-,
sårbarhets-, och skyddsfaktorer samt ärendeprioritering som de angett för varje fall. Tre olika analyser genomfördes till denna studie: En för jämförelse av samstämmighet gällande
faktorer och två för jämförelse av samstämmighet gällande ärendeprioritering.
Samstämmighet gällande risk-, sårbarhets- och skyddsfaktorer. Bedömarna ombads att välja ut de tre mest betydande risk-, sårbarhets-, och skyddsfaktorerna för varje fall.
Jämförelser gjordes sedan mellan bedömarna parvis (1&2, 1&3 etc.) så att alla möjliga alternativ jämfördes. Vidare gjordes jämförelser även mellan varje enskild bedömare och den gemensamma bedömningen. Vid jämförelsen undersöktes i vilken utsträckning bedömarna varit samstämmiga i vilka risk-, sårbarhets-, och skyddsfaktorer de identifierat. Bedömare som hade en faktor överensstämmande tilldelades 0.25, två faktorer tilldelades 0.5 och tre
faktorer, det vill säga samtliga, fick 1.0. Denna samstämmighet omsattes i procent för att
räkna ut den procentuella samstämmigheten. Samma tillvägagångssätt förelåg för samtliga faktorer vid jämförelser av endast individuella samt med den gemensamma. Vid vissa fall hade bedömare endast angett exempelvis två av tre skyddsfaktorer, då de inte inkluderat fler. Vid jämförelser av sådana fall utlämnades den icke ifyllda faktorn helt, vilket resulterade i att en bedömare som angett två av tre skyddsfaktorer kunde uppnå full samstämmighet med en annan bedömare som angett tre av tre skyddsfaktorer så länge samma två faktorer
överensstämde hos vardera bedömare. För exempel på jämförelse mellan bedömare, se Tabell 1. Samma tillvägagångssätt applicerades för jämförelse med gemensam bedömning.
Tabell 1
Matris av samstämmighet mellan bedömare. Fall 1. Sårbarhetsfaktorer.
Not. 0 = ingen faktor överensstämde. 0,25 = en faktor överensstämde. 0,5 = två faktorer överensstämde. 1,0 = tre faktorer överensstämde (samtliga). X = Svar saknades. Bedöm. = Bedömare.
Analysmetoden benämns vanligen som “percentage agreement” och är ett basalt alternativ vid undersökning av interbedömarreliabilitet (McHugh, 2012). Det innebär kortfattat hur procentuellt samstämmiga bedömare av samma fall är. Denna metod valdes med anledning av att datan var nominal och således inte kunde hanteras i starkare analysmetoder. Fallen hade inte heller ett förutbestämt antal faktorer, vilket omöjliggjorde en analys av hur samstämmighet liknades med ett “facit”. Procentuell samstämmighet har sagts vara ett begränsat sätt att beräkna interbedömarreliabilitet då metoden kommer med vissa metodologiska svagheter (Belur, Tompson, Thornton & Simon, 2018; Hallgren, 2012; Lombard, Snyder‐Duch & Bracken, 2002). Beräkningar med procentuell samstämmighet tar inte i beaktning eventuell samstämmighet som kommit som en effekt av slump istället för egentlig samstämmighet mellan bedömare. Detta har en risk att överestimera samstämmighet ju mindre kategorier som bedömare har möjlighet att ange. Därför föreslås att vid tolkning av resultat med procentuell samstämmighet bör en acceptabel nivå generellt ligga högre än andra metoder. Mer konservativa beräkningar med andra metoder än procentuell samstämmighet kan en nivå av 0,7–0,8 accepteras som hög eller acceptabel. Procentuell samstämmighet bör istället vara på en högre nivå kring 0,8–0,9, alltså 80–90%
Samstämmighet mellan bedömare gällande ärendeprioritering. Ärendeprioritering numrerades som 0=inte överensstämmande prioritering och
1=överensstämmande prioritering vid jämförelser för såväl endast individuella som den
Bedöm. 1 Bedöm.2 Bedöm. 3 Bedöm. 4 Bedöm. 5 Bedöm. 6
Bedöm.1 - 0.25 0.25 X 0.25 0.25 Bedöm.2 - - 0.5 X 0.5 0.5 Bedöm. 3 - - - X 1 1 Bedöm. 4 - - - - X X Bedöm. 5 - - - 1 Samstämmighet 55%
gemensamma bedömningen. Data gällande ärendeprioritering importerades sedan till det statistiska analysprogrammet Statistical Package for the Social Sciences [SPSS] där analys genomfördes.. Som statistisk analysmetod användes Fleiss kappatest, en metod framtagen för att mäta samstämmighet mellan fler än två bedömare med begränsat antal alternativ (Fleiss, 1971). Fleiss kappa kan sägas vara en potentiellt starkare analysmetod än exempelvis procentuell samstämmighet, bland annat för att testet tar i beaktning risken att bedömare av slump blivit samstämmiga och på så sätt kan underskatta samstämmigheten (McHugh, 2012). Detta var möjligt i och med att ärendeprioritering hade ett begränsat antal alternativ
bedömarna kunde ange, “1” till och med “5”. För att tolka resultaten användes riktmärken för kappa-nivåer föreslagna av Landis och Koch (1977) vars nivåer har sagts vara vanligt
citerade i forskning som använt sig av kappa (Hallgren, 2012; Viera &
Garrett, 2005). Dessa nivåer kan benämnas som: < 0.00 “Poor”, 0.00-0.20 “Slight”, 0.21-0.40 “Fair”, 0.41-0.60 “Moderate”, 0.61-0.80 “Substantial” och 0.81-1.00 “Almost Perfect”
(Landis & Koch, 1977).
Samstämmighet mellan individuella och gemensamma bedömningar gällande ärendeprioritering. För att undersöka samstämmigheten av individuella bedömningar av ärendeprioritering till en gemensam bedömning utfördes sex Cohens kappa-test. Detta gjordes för varje bedömares och skattades mot den gemensamma bedömningen. Cohens kappa är en statistisk analysmetod som syftar till att undersöka interbedömarreliabilitet mellan två bedömare och med begränsat antal alternativ (McHugh, 2012). Precis som Fleiss kappa tar Cohens kappa i beaktning risken för att bedömare av slump är samstämmiga och således kan underskatta samstämmigheten. Tolkning av resultaten gällande Cohens kappa utgick från de tidigare nämnda riktmärkena föreslagna av Landis och Koch (1997).
Kodning av risk- sårbarhets- och skyddsfaktorer. Sammanställning av data gällande risk-, sårbarhets- och skyddsfaktorer involverade en process där svaren angivna av bedömarna i vissa fall operationaliserades och kodades om. Detta för att göra faktorerna kompatibla att jämföra med varandra och kunna användas för vidare analys. För att minimera risken att angivna faktorer som är synonymer men benämnts olika ska bedömas som olika faktorer, kodas exempelvis riskfaktorerna “Arbetslöshet” och “Utan arbete” som att bedömarna identifierat samma riskfaktor. Vidare har också kodning gjorts vid de tillfällen bedömarna angivit fler faktorer vid rangordning. I dessa fall har den delats upp i sina respektive faktorer. Exempel ur kodningsproceduren kan ses i Tabell 2. Denna
kodningsprocess kommer med vissa metodologiska överväganden. I en kodningsprocess som innefattar någon typ av kodning och tolkning av latent innehåll, det vill säga den
underliggande meningen av det som angetts, kan kodningen komma att påverkas av de som utför den (Belur m.fl., 2018). Därför togs ett gemensamt kodningsschema fram för att i så stor utsträckning det var möjligt se till att kodningen mellan fall och faktorer var konsekvent och att samtliga kodare var överens om det slutgiltiga kodade materialet.
Tabell 2 Exempel på kodningsprocess av en faktor där olika angivna svar kodats som samma
faktor. Skyddsfaktor.
Ursprungligt angiven faktor Innehåll Kodad faktor
“Om han får sitta kvar i häktet och polis, utredning fortsätter, han får inte ha kontakt med
henne”
- “Polisanmälan -> häktning -> åtal -> dom
- “Frihetsberövad”
“Att han är anhållen”
Gärningspersonen kan inte ha
kontakt med den utsatte Inkapacitering
Resultat
Denna studie syftade till att undersöka hur interbedömarreliabiliteten bland socialarbetare såg ut i både individuellt- och gemensamt utarbetade riskbedömningar för partnervåld.
Resultatet av genomförda analyser för varje frågeställning presenteras under varsitt avsnitt.
Hur ser interbedömarreliabiliteten ut bland socialarbetare vid identifiering av risk-, sårbarhets- och skyddsfaktorer för partnervåld?
För att mäta interbedömarreliabilitet analyserades hur många risk-, sårbarhets- och
skyddsfaktorer i de fiktiva fallen som bedömarna samstämmigt uppgett som viktiga. Gällande riskfaktorer påvisade resultatet en genomsnittlig procentuell samstämmighet på 64% utslaget på samtliga fall. Endast i Fall 6 var samstämmigheten på 82%, en acceptabel nivå i enlighet med de rekommenderade nivåerna mellan 80-90%.
Tabell 3
Matris av summering gällande procentuell (%) samstämmighet mellan bedömare i faktorer. Samtliga fall.
Fall 1 Fall 2 Fall 3 Fall 4 Fall 5* Fall 6 Sammanslaget Genomsnitt
Riskfaktorer 65 70 70 65 30 82 64
Sårbarhetsfaktorer 55 97 33 77 27 43 55
Skyddsfaktorer 45 97 38 75 78 43 63
Not. Sammanslaget genomsnitt = Sammanlagd summa av fall 1–6 dividerad med antalet fall *= En bedömare använde instrumentet FREDA. Samtliga siffror avrundade till närmsta heltal.
Även interbedömarreliabiliteten hos bedömare gällande sårbarhetsfaktorer påvisade en genomsnittlig procentuell samstämmighet lägre än den rekommenderade nivåerna, 55% utslaget på samtliga fall. I två fall var den procentuella samstämmigheten mellan bedömarna i sårbarhetsfaktorer över eller nära de lägsta accepterade nivåerna, Fall 2 och 5 som påvisade 97% respektive 78%.
Likaså identifieringen av skyddsfaktorer påvisade en lägre procentuell
samstämmighet utslaget på samtliga fall än de rekommenderade nivåerna, 63%. Endast Fall 2 påvisade en nivå över de rekommenderade lägsta nivåerna med 97%.
Hur ser interbedömarreliabiliteten ut bland socialarbetare vid fallens ärendeprioritering gällande behovet av skyddsåtgärder?
Vidare utfördes analyser av interbedömarreliabilitet hos de sex bedömarna gällande
tillskrivelse av ärendeprioritering, det vill säga den skala mellan 1 och 5 som bedömaren fick ange i en sammanvägd bedömning mellan återfallsrisk och allvarligheten av potentiellt våld. I vilken utsträckning bedömarna angett samma nivå på skalan analyserades med ett Fleiss kappa-test. Resultatet visade en måttlig (eng. Moderate) samstämmighet mellan bedömarna κ= 0,495 (95% KI, 0,492 till 0,498), p <0,001.
Hur ser interbedömarreliabiliteten ut mellan socialarbetares individuella bedömningar vid identifiering av risk-, sårbarhets- och skyddsfaktorer samt ärendeprioritering i jämförelse med en gemensam bedömning?
Vidare analyserades även bedömarnas individuella bedömningar av risk-, sårbarhets- och skyddsfaktorer med den bedömning som alla bedömare gjorde gemensamt. I Tabell 4 kan utläsas att interbedömarreliabiliteten mellan enskilda bedömare och den gemensamma bedömningen gällande identifierade riskfaktorer påvisade en genomsnittlig procentuell samstämmighet på 71% utslaget på samtliga fall. Detta var således under den
rekommenderade nivåerna för procentuell samstämmighet mellan 80–90%. Interbedömarreliabiliteten mellan enskilda bedömare och den gemensamma
bedömningen gällande identifierade sårbarhetsfaktorer påvisade en genomsnittlig procentuell samstämmighet på 78% utslaget på samtliga fall. Även denna faktor befann sig således strax under de rekommenderade nivåerna för procentuell samstämmighet.
Vid analysen av interbedömarreliabiliteten mellan enskilda bedömare och den
gemensamma bedömningen gällande identifierade skyddsfaktorer påvisades en genomsnittlig procentuell samstämmighet på 79% utslaget på samtliga fall. Även denna faktor befann sig således strax under de rekommenderade nivåerna för procentuell samstämmighet.
Tabell 4
Matris av summering gällande procentuell (%) samstämmighet mellan individuella bedömningar och gemensam bedömning. Samtliga fall.
Not. Samtliga siffor ska läsas som procent.
Totalt = Sammanlagd summa av fall 1-6 dividerad med antalet fall *= En bedömare använde instrumentet FREDA
Samstämmigheten i ärendeprioritering mellan individuella bedömningar och en gemensam bedömning varierade kappavärdena påtagligt. Två av sex resultat beräknades vara statistiskt signifikanta, se Tabell 5. Det genomsnittliga kappavärdet av samtliga bedömare beräknades till 0,41 och kan således tolkas som “måttlig” (eng. Moderate) samstämmighet. Detta kan jämföras med det beräknade Fleiss-kappavärdet för samstämmigheten mellan bedömarna (κ= 0,49), vilket indikerar att samstämmigheten bland bedömarna är något högre än den
Fall 1 Fall 2 Fall 3 Fall 4 Fall 5* Fall 6 Totalt
Riskfaktorer 80 92 75 58 33 88 71
Sårbarhetsfaktorer 75 100 92 83 42 75 78
genomsnittliga samstämmigheten mellan bedömarna och den gemensamma bedömningen, dock grundat på statistiskt icke-signifikanta beräkningar.
Tabell 5
Cohens Kappa test för beräknad samstämmighet i Ärendeprioritering. Samtliga fall (n=6).
Kappa (K) SD Bedömare 1 0,18 0,28 Bedömare 2 0,50 0,31 Bedömare 3 0,58* 0,32 Bedömare 4 0,67* *0,25 Bedömare 5 0,10 0,33 Bedömare 6 0,46 0,25
Genomsnitt utslaget på samtliga bedömare 0,41 X
Not.* p < 0,05. X=Inget beräknat värde. SD = Standardavvikelse
Diskussion
Syftet med denna studie var att undersöka hur interbedömarreliabiliteten bland socialarbetare såg ut gällande identifiering av risk-, sårbarhets- och skyddsfaktorer samt ärendeprioritering vid riskbedömning för partnervåld. Studien syftade även till att undersöka hur individuella bedömningar ställde sig gentemot en gemensamt utarbetad bedömning av samma
identifiering av faktorer. Resultatet påvisade en mycket varierande interbedömarreliabilitet beroende på vilket av fallen samt vilken typ av faktorer som berördes. Riskfaktorer var de faktorer som påvisade högst interbedömarreliabilitet bland samtliga fall. Lägst
interbedömarreliabilitet var sårbarhetsfaktorer sett över samtliga fall. Tillskrivelse av ärendeprioritering påvisade en måttligt hög interbedömarreliabilitet gällande jämförelser av endast de individuella, vilket var signifikant. Jämförelsen mellan individuell och gemensam ärendeprioritering uppnådde istället endast en interbedömarreliabilitet som ansågs “fair” (Landis & Koch, 1977). Av de sex Cohens kappa-test som genomfördes innehade dock endast två värden signifikans.
Metoddiskussion
Valet av analysmetod i form av procentuell samstämmighet kan argumenteras för att vara en tydlig fördel vid tolkning av resultatet för denna studie. Metoden i sig är lättöverskådlig och lättförståelig, något som även påtalats i tidigare forskning (McHugh, 2012). Detta möjliggör
att interbedömarreliabiliteten uppfattas på ett tydligare och mer lättbegripligt sätt än andra statiska metoder. Att sedan Cohens och Fleiss kappa användes för att undersöka
interbedömarreliabiliteten gällande tillskrivelse av ärendeprioritering kan likväl anses vara en metodologisk fördel. Båda metoderna är tillräckligt starka för att ta i beaktning risken för slumpartade resultat. Dessa metoder är starkare att använda vid en analys, i jämförelse med om percentage agreement vore att användas även vid analysen av ärendeprioritering.
Av relevans är även att vid de fall där bedömare inte fyllde i alla tre faktorer som skulle inkluderas utelämnades de icke-ifyllda faktorerna helt från analysen, såväl mellan bedömare som med gemensam bedömning. Detta påverkade den presenterande
samstämmigheten då den ökade i jämförelse med om de icke-ifyllda faktorerna inkluderats. Valet av att exkludera de icke-ifyllda faktorerna diskuterades av föreliggande studies författare vara det mest fördelaktiga alternativet då bedömare till vissa fall inte fann fler faktorer. Inkludering av de icke-ifyllda faktorerna skulle resultera i en låg samstämmighet fastän bedömarna faktiskt var överens.
Vidare skulle samtal med bedömarna underlättat för författarna för att förstå deras tankegångar och motiveringar vid själva bedömningen. Bedömarna kan inneha samma innebörd av exempelvis en riskfaktor men använt sig av olika ord för att beskriva den. Exempel på detta är ord som “kontrollerande” samt “svartsjuka”. Ordens innebörd skiljer sig åt, men individuellt kan bedömarna tolka dem som samma fenomen. Detta är en problematisk aspekt vid kodningsprocessen då risken uppstår att författarna tolkar dessa faktorer fel. Då författarna av studien erhöll data anonymiserad samt att bedömningarna var genomförda, förekom inte möjligheten att ta del av deras process vid val av faktorer. Av relevans är även att nämna att den kodningsprocess som skett under denna studie medför en risk för bias. Kodningen har skett av författarna själva och enskilda faktorer hos dessa som erfarenhet samt åsikter påverkar kodningsprocessen (Armstrong, Gosling, Weinman & Marteau, 1997).
En problematisk aspekt att lyfta är det faktum att författarna av föreliggande studie hade oerhört begränsad information om deltagarna av studien. Som tidigare nämnts erhölls endast information om att deltagarna arbetade inom samma rådgivande organisation, hade samma grundutbildning samt att de hade olika erfarenhet av att utföra riskbedömningar. Denna bristande information om deltagarna resulterar i att färre slutsatser och förklaringar kan ges till att kunna förstå varför deltagarna graderade som de gjorde. Hade författarna bakom föreliggande studie haft vetskap om faktorer som exempelvis hur stor erfarenhet de enskilda bedömarna haft, hade det kunnat förklara resultatet mer ingående. Vidare erhöll deltagarna i studien ingen utbildning för hur de skulle arbeta efter RISKSAM-manualen. Det
grundar sig i att deltagarna var med för hjälpa till att testa och därmed bidra till utvecklingen av RISKSAM-manualen, då den är ett preliminärt utkast som kan komma behöva förändras.
Det är av vikt att lyfta att datan som författarna av föreliggande studie erhöll var av sådan art att starkare analysmetoder inte gick att genomföra. Författarna genomförde inte datainsamlingen och kunde därmed inte påverka aspekter och faktorer som kan verkat för att en starkare analysmetod kunde ha genomförts. Valet av analysmetoden procentuell
samstämmighet kan likväl medfört svårigheter (Belur m.fl., 2018; Hallgren, 2012; Lombard m.fl., 2002). Primärt med anledning av att metoden i sig är ett så pass basalt alternativ så att slumpen inte kan tas i beaktning. Detta medför en tydlig svårighet vid tolkning av resultatet av denna studie då metoden påvisats inneha en påtaglig risk för överestimering av
interbedömarreliabilitet.
Ytterligare en metodologisk aspekt att ta hänsyn till vid tolkning av resultaten är dess begränsade stickprovsstorlek och som en effekt, brist på statistisk “power” (Borg & Westerlund, 2012). Statistisk “power” kan enkelt beskrivas som hur väl ett stickprov kan sägas representera den större populationen som vill undersökas. Den här studiens låga stickprovsstorlek, det vill säga sex socialarbetare, riskerar således ha väldigt låg power och inte kunna representera en större population. Resultaten kan därför sägas inte kunna
generaliseras och ska inte tolkas som ett mått på interbedömarreliabilitet hos socialarbetare gällande partnervåld överlag och därför kunna anses en metodologisk svaghet. Sagda låga power skulle även kunna vara en del i förklaringen till att endast två av sex värden i Kappa testet mellan bedömarnas ärendeprioritering var signifikanta då power kan öka sannolikheten för signifikans (Borg & Westerlund, 2012). Såsom nämnts tidigare har Kappa test sagts vara generellt starkare metodologiskt än exempelvis percentage agreement, men användandet av testet trots ett behov av större stickprovstorlek och power kan diskuteras vara ytterligare en metodologisk svaghet.
Resultatdiskussion
Vid tolkning av resultat finns flera aspekter som kan ha påverkat utfallet. Nedan följer vidare diskussion i ljuset av tidigare forskning och teoretiska resonemang för varje frågeställning.
Individuella bedömningars identifiering av faktorer. Tidigare forskning har indikerat på att identifiering av risk- och sårbarhetsfaktorer innehar en varierande
interbedömarreliabilitet (Grann & Wedin, 2002; Svalin m.fl., 2017). Denna studie påvisade liknande resultat då interbedömarreliabiliteten bland bedömarna vid identifiering av risk- sårbarhets- och skyddsfaktorer påvisade en tydlig variation beroende på vilket fall som berördes. Samtliga former av faktorer påvisade dock en lägre procentuell samstämmighet än
de rekommenderade nivåerna utslaget på samtliga fall. Detta kan argumenteras följa av att endast en bedömare för ett enskilt fall använde ett strukturerat riskbedömningsinstrument. Det faktum att det endast användes vid ett fall och inte genomgående av alla bedömare vid alla fall, kan delvis förklara den låga interbedömarreliabilitet som uppkom. Då bedömaren som använde sig av instrumentet FREDA utgår från förutbestämda faktorer, förefaller det möjligt att just det gör att dennes svar skiljer sig åt från övriga och påverkar
interbedömarreliabiliteten negativt. Den bedömare som använde sig av FREDA angav färre antal faktorer än övriga bedömare och följde därmed instruktionerna för hur RISKSAM-manualen var tänkt att användas. De övriga bedömarna inkluderade fler faktorer och
“garderade” sig därmed, i jämförelse med bedömaren som använde sig av FREDA. De övriga bedömningarna som utfördes var i form av kliniska bedömningar, som enligt tidigare
forskning innehar en lägre interbedömarreliabilitet i jämförelse med strukturerade
professionella bedömningar (Belfrage, 2004; Nicholls m.fl., 2013; Singh m.fl., 2011). Det kan därmed argumenteras för att om samtliga bedömare använt sig av ett
riskbedömningsinstrument, och därmed utfört en strukturerad professionell bedömning, skulle interbedömarreliabiliteten kunna varit högre. I och med att ett
riskbedömningsinstrument består av bestämt antal faktorer skulle det även resulterat i att en starkare statistisk analys hade varit genomförbar, exempelvis Cohens kappa som kan sägas vara mer informativ än endast procentuell samstämmighet (Viera & Garrett, 2005). Vid tillvägagångssättet som användes vid bedömningarna, där de inte utgick från ett instrument med ett antal bestämda faktorer, finns möjligheten att använda och komma på ett “oändligt” antal faktorer. Denna ökade möjlighet att välja faktorer, kan i sin tur minska möjligheten för bedömarna att vara samstämmiga i sina val av dessa i jämförelse med användandet av ett instrument med ett bestämt antal faktorer. Hade en starkare statistik analys genomförts hade resultaten som framkommit av den varit mer tillförlitliga.
Normative pressures, inom ramen för de teoretiska resonemang framförda i
institutional theory, menar att organisationer tenderar att utveckla homogenitet genom bland annat så kallad professionalisering och filtrering av personal gällande åsikter och kunskap (DiMaggio & Powell, 1983). Studiens resultat påvisade att samstämmigheten varierade från att vara hög såsom 97% till låg som 27% vid identifieringen av faktorer. Utifrån ett teoretiskt resonemang skulle resultatet kunna förklaras genom att filtrering av personal inte förekommit i hög utsträckning, att homogenitet gällande värderingar eller perspektiv inte varit centralt i rekryteringsprocessen och/eller att bedömarna varierar i bakgrund, erfarenhet eller bransch som de tidigare varit verksamma.