• No results found

Klassificering av skogsentreprenadföretag baserad på finansiella nyckeltal

N/A
N/A
Protected

Academic year: 2022

Share "Klassificering av skogsentreprenadföretag baserad på finansiella nyckeltal"

Copied!
86
0
0

Loading.... (view fulltext now)

Full text

(1)

Klassificering av skogsentreprenadföretag baserad på finansiella nyckeltal

Classification of logging contractors based on their financial ratios

Sara Gustavsson

(2)
(3)

Förord

Jag har era som jag vill tacka för deras hjälp under detta arbete, och tänker börja med mina handledare Peter Anton och Sara Sjöstedt de Luna på Institutionen för matematik och matema- tisk statistik som ska ha stort tack för all den tid och hjälp de gett mig. Jag vill även tacka Simon Berg från SLU i Umeå både för att han gav mig tillgång till sitt arbete och för tolkningshjälp.

Sist men inte minst så vill jag tacka Håkan Person och Leif Nilsson för deras konstruktiva kritik som hjälpt mig att förbättra mitt arbete.

Sara Gustavsson

(4)
(5)

Sammanfattning

Då större skogsföretag lägger ut många arbeten på entreprenad så blir den ekonomiska hälsan hos entreprenadföretagen en viktig fråga för att kunna bibehålla ett långvarigt samarbete. Det- ta arbete är en fortsättning på Bergs (2009) där syftet var att hitta en modell som förklarar skogsentreprenörernas ekonomiska situation, korrelera resultatet med resultaten i en enkätun- dersökning bland de aktuella företagen och jämföra skogsentreprenörernas ekonomiska situation med den för liknande branscher.

Syftet med denna studie är att undersöka olika multivariata modeller för att bedöma ett entreprenadsföretags ekonomiska situation utifrån de ekonomiska nyckeltal som företagen lämnar i sin årsredovisning. En annan del av arbetet är att undersöka om en modell med variabler beroende på förändringar över tiden kan tillämpas.

Metoder som används är faktoranalys, principalkomponentanalys, bekräftande faktoranalys, klusteranalys samt en ad hoc metod här kallad medelskillnad. Sen tillämpas även Altmans (1993) Z-scores-modell.

Det visar sig att variationen är liten för vilka företag som klassas bland de bäst och sämst rankade hos de olika metoderna. Då inget data från konkursdrabbade företag nns tillgängligt i denna studie är det omöjligt att säga om de variationer som förekommer gör någon modell bättre än någon annan. Det är därför osäkert om någon vinst görs då er dimensionella metoder, så som faktoranalys med ett ertal faktorer, används istället för de ofta mer lättolkade endimensionella metoderna, som t.ex. Z-scores. Vad gäller modeller med tidsberoende kan en viss skillnad ses mellan dessa och modeller utan tidsberoende, men återigen, då inga validerings möjligheter nns så kan det inte sägas om skillnaden är till de bättre.

Abstract

When bigger forest companies use logging contractors for a big part of their work, the economic health of these contractors is of great importance to ensure long term cooperations. This work is a continuation of Berg's thesis (Berg 2009) where the goal was to nd a working model for evaluating the nancial situation of the contractors, to correlate the result to the result of a survey and to compare the logging contractors' economic situation to those of similar branches.

The goal of this thesis is to investigate various multivariate methods to rate the economic situation of contractors with regards to the nancial ratios that every company presents in their

nancial statements. An other part is to explore the possibility to create a model with variables that depends on the ratio changes over time.

The explored methods are factor analysis, principal component analysis, conrmatory factor analysis, cluster analysis and an ad hoc method here called medelskillnad, average-dierence.

The Z-scores model by Altman (1993) is also used.

The variation in which contractors are rated best or worst turns out to be small between the dierent methods. When no data from bankrupt companies are available there is no way to say if the variation makes any model better then any other. It is therefore unclear if there is any gain in using multidimensional methods, like factor analysis with more than one factor, instead of a more accessible linear model, e.g. the Z-scores model. When it comes to the time-dependent models, there is some dierence between those models and those without time-dependents, but once again, without validation there is no way to say if the dierence is for the better.

(6)
(7)

Innehåll

1 Introduktion 3

2 Nyckeltal 5

3 Datamaterial 9

4 Metoder för klassicering via nyckeltal 10

4.1 Z-scores modeller . . . 10

4.2 Medelskillnad . . . 13

4.3 Klusteranalys . . . 14

4.3.1 Principalkomponentanalys . . . 16

4.3.2 Faktoranalys . . . 18

4.3.2.1 Faktorladdningar . . . 18

4.3.2.2 Faktorskattningar . . . 19

4.3.3 Skillnader mellan PCA och Faktoranalys . . . 21

4.3.4 Faktorladdning och Egenvärden . . . 21

4.3.5 Antalet faktorer eller komponenter. . . 22

4.3.6 Bekräftande faktoranalys . . . 23

4.3.6.1 Faktorladdningar . . . 24

4.3.6.2 Modell-test . . . 24

4.3.6.3 Modelljusteringar . . . 26

5 Resultat 27 5.1 Z-scores . . . 27

5.2 Medelskillnad . . . 28

5.3 Principalkomponentanalys . . . 30

5.4 Faktoranalys . . . 36

5.5 Bekräftande faktoranalys . . . 45

5.5.1 Apriorimodell . . . 45

5.5.2 Slutlig modell . . . 47

5.6 Modelljämförelse . . . 51

5.6.1 Jämförelse med resulteten i Berg (2009) . . . 53

6 Slutsats och kommentarer 55 6.1 Vilka av analysmetoderna kan användas? . . . 55

6.2 Medelvärden eller ej? . . . 55

6.3 Tidsaspekten . . . 55

6.4 Klusteranalys . . . 56

6.5 Förslag till fortsatta studier . . . 56

A Nyckeltalsmatris 57

B PCA med data från år 2007 59

(8)

C PCA med medelvärdena för år 2005 till år 2007 61

D Olika modeller för PCA med tidstrend 63

E Faktoranalys 64

E.1 2007 . . . 64

E.1.1 Scores-koecienter . . . 66

E.2 Medelvärdena . . . 67

E.2.1 Scores-koecienter . . . 69

E.3 2007 med tidstrend . . . 70

E.3.1 Scores-koecienter . . . 72

F Z-scores för år 2007 73 G Bekräftande faktoranalys 74 G.1 Skattad korrelationsmatris till apriorimodellen . . . 74

G.2 Utskrifter från LISREL . . . 75

H Modellmatris 78

(9)

1 Introduktion

Det är av intresse för företag som lägger ut många arbeten på entreprenad att kunna urskilja ekonomiskt stabila entreprenörer från de som riskerar att gå i konkurs eller sluta på grund av dålig lönsamhet. För dessa företag nns ett intresse av att ha ett lätt överblickbart sätt att klassicera olika entreprenörer utifrån företagens årsredovisningar.

Arbetet med en sådan klassicering har påbörjats i en D-uppsats av Berg (2009), där han har riktat in sig på att hitta en modell för att klassicera skogsentreprenadföretagen, att jämföra med liknande branscher och sedan med hjälp av en enkätundersökning bland entreprenörerna försöka hitta förklaringar till företagens ekonomiska situation.

Detta arbete är en fortsättning på Bergs (2009) arbete och här jämförs olika multivariata dataanalysmetoder för att försöka komma fram till en bra modell för en uppdelning av entrepre- nörerna utifrån deras nansiella nyckeltal.

Det nns en anknytning till tidigare studier som gjorts om konkursprediktion, t.ex Beaver (1966), Altman (1968) och Laitinen (1991), där data från både konkursdrabbade företag och aktiva företag använts. Dessa studier har visat på att nyckeltalens medelvärden hos företag på väg in i konkurs skiljer ut sig från de övriga företagen upp till fem år innan konkursen.

I denna studie nns inget data från konkursdrabbade företag med, och studien handlar därmed inte om konkursprediktion utan om att hitta en uppdelning mellan företag som går ekonomiskt bra och företag som riskerar att hamna i obestånd. Dock bygger idén om att en sådan uppdelning är möjlig på de tidigare studierna om konkursprediktion.

Idén att använda ekonomiska nyckeltal, eng. nancial ratios, för att bedöma ett företags

nansiella hälsa har varit aktuell sen 1960-talet och bygger på två grundantaganden (Foster 1986).

1. Nyckeltal för företag som inom en överskådlig framtid kommer att gå i konkurs skiljer sig systematiskt från nyckeltal för företag som under samma tidsperiod inte kommer att gå i konkurs.

2. Skillnaden är så pass stor och uppkommer så långt i förväg att den går att använda för att förutse en kommande konkurs.

Man brukar säga att det var Beaver (1966) som lade grunderna för forskning kring konkurs- prediktion med nansiella nyckeltal. I sina studier använde han 30 nyckeltal från två grupper med 79 företag i varje grupp. Den första gruppen bestod av konkursdrabbade rmor där data fanns tillgängligt från åtminstone fem år innan konkurs. Företagen i den andra gruppen var fort- farande aktiva vid det tillfälle då data samlades in, och valdes ut så att varje företag matchade ett företag i den första gruppen till bransch och storlek av tillgångar. Genom prolanalys och T-test, där han jämförde medeltalen för de både grupperna för vart och ett av nyckeltalen, kunde han påvisa en skillnad mellan grupperna upp till fem år före konkurs. På så sätt kunde han visa att grundantagandena var rimliga.

Efter att ha gjort antaganden om lika varians och fördelning för nyckeltalen mellan de båda grupperna så använde Beaver sig av dikotomiska test för att klassicera ett företag som antingen ett konkursdrabbat eller aktivt.

Då de olika grupperna antas ha signikant skilda medelvärden så placeras företagen i den grupp för vilken sannolikheten är störst att de tillhör, m.a.o. i den grupp vars medelvärde företa-

(10)

gens värde ligger närmast. Bäst resultat med den här metoden ck Beaver (1966) med nyckeltalet cash ow/total debt, där han lyckades rätt klassicera 78% av företagen.

Vid Beavers studie jämfördes nyckeltalen ett och ett, detta kallas ibland för univariat dataa- nalys. När många variabler är av intresse så riskerar univariat dataanalys att ge en ofullständig bild av situationen. Speciellt då man ofta är intresserad av kombinationer av olika variabler.

Antag att vi t.ex. har två företag där företag 1 har högre nettomarginal än företag 2, medan företag 1 har negativ riskbuert och företag 2 har positiv samt har högre soliditet 1. Tittar man bara på nettomarginal, som är ett vanligt använt nyckeltal, så skulle man välja företag 1, men genom att titta på tre nyckeltal framstår företag 2 som ett bättre val.

Med multivariata dataanalysmetoder försöker man ta hänsyn till era variabler, nyckeltal, samtidigt.

Altman (1968) använde sig av multivariat diskriminantanalys där han valde ut 5 nyckeltal för att hitta diskrimineringsregler mellan aktiva och konkursdrabbade företag. Hans modell kallas för Z-score-modellen, se avsnitt 4.1. Ett problem med den ursprungliga Z-scores modellen är att även om frekvensen rätt klassiceringar under åren närmast före konkursen var upp till 95% så minskade den snabbt med tiden och fem år före konkurs felklassicerade diskriminantanalysmo- dellen er företag än Beavers (1966) univariata modell där enbart cash ow/total debt-kvoten används. Därför har Altman (1993) tagit fram andra Z-scores modeller som är mer anpassade till olika företagssituationer. Återkommer med mer om dessa modeller i kapitel 4.1.

Även ett antal svenska studier har gjorts. Sundgren (2000) använde i sin studie av svenska företag under de ekonomiska krisåren 1990-1994 logistisk regression för att skapa en konkurspre- diktionsmodell.

Ytterligare en metod som används vid konkursprediktion är faktoranalys, se avsnitt 4.3.2.

Laitinen (1991) använde sig av faktoranalys i kombination med diskriminantanalys när han ana- lyserade 80 nska företag, varav 40 var konkursföretag, där 6 nyckeltal användes. Han ansåg att 3 faktorer var tillräckligt för prediktion och han kunde även visa på att ingen signikant förbättring kom av att öka antalet använda nyckeltal till 20. I studien lyckades han rätt klassicera mellan 53,85 och 76,92 % av företagen beroende på hur många år som återstod fram till konkursen. Två år kvar till konkurs gav sämst prediktion medan ett och fyra år kvar gav bäst.

Ett problem med både univariata och multivariata analyser är att många av dem bygger på antagandet om att nansiella nyckeltal är normalfördelade. Detta är i många fall tveksamt och verieras sällan. Det har även gjort försök med parameterfria metoder, det vill säga metoder där inga fördelningsantaganden görs. Några exempel på sådana metoder är logit- och probit regressionsmodeller (Ohlson 1980, Skogsvik 1988, Sundgren 2000). Parameterfria metoder är mer robusta men ger därför även svagare test och bredare kondensintervall, än vad den icke- parameterfria motsvarigheten ger, vilket gör att skillnader blir svårare att upptäcka. Därför väljer många att anta normalfördelning, även i fall där det inte går att statistiskt säkerställa.

I denna studie nns inte tillgång till data för konkursdrabbade företag, utan samtliga företag är aktiva under den 3 års period som detta data tillhör. Därför kan inte dessa modeller heller verieras utifrån deras prediktionsförmåga utan bara utifrån uppgifter från tidigare studier och utifrån tolkbarhet.

Det data som här används är några av de nyckeltal som nns i alla aktiebolags årliga bokslut.

Ett av målen i arbetet är att det slutliga resultatet ska kunna användas och tolkas av en bredare publik för att modellerna skulle kunna användas av aktuella företag.

1Se avsnitt 2 för denition av nyckeltal och gränsvärden

(11)

2 Nyckeltal

Ett nyckeltal är en kvot av en eller era ekonomiska poster, därav den engelska benämningen ratio som betyder just kvot. I Sverige nns inga lagstadgade regler för hur de olika nyckeltalen skall räknas ut. Detta innebär att även om två företag har samma namn på sina nyckeltal så kan de ha två olika innebörder beroende på hur nyckeltalen har denierats. Därför ska företag som redovisar nyckeltal även ange en denitionslista med beräkningssätt för nyckeltal. Detta innebär dock att även om nyckeltalen i regel är likvärdiga, företag emellan, så nns där felkällor som bland annat kan ge ökad varians, felaktiga medelvärden eller extremvärden, outliers. Detta är ytterligare en anledning till varför multivariat dataanalys lämpar sig för analysering av nansiella nyckeltal då dessa metoder i regel påverkas mindre av enskilda värden.

Tumreglerna för nyckeltalen varierar beroende på bransch, tidpunkt och litteratur. Dessutom

nns det, som sagt, inte något lagstadgat sätt för att räkna ut nyckeltal så nyckeltal med samma namn kan ha olika gränsvärden beroende på beräkningssätt. I många fall är det även så att det inte är nuvärdet på ett nyckeltal som är intressant utan snarare dess förändring under de senaste åren, och även ofta i kombination med förändring eller nuvärdet av ett annat nyckeltal.

De gränsvärden som står angivna här är ungefärliga värden som hämtats från tidigare litteratur.

Här anges några denitioner av olika nyckeltal, tagna från UC (2009), UC (2008), Hogia (2009a), Hogia (2009b) och Företagsekonomi för skogsentrepenörer (2004), samt exempel på tolkningarna av dessa nyckeltal, men före det denieras några av andra nansiella uttryck som förekomer.

Balansomslutning (UC 2009)

Eget kapital − Skulder

Balansomslutning är summan av tillgångar alternativt summan av eget kapital och skulder i ett företags balansräkning.

Finansnetto (UC 2009)

Finansnetto är skillnaden mellan ränteintäkter och räntekostnader.

Justerat eget kapital (Aktiesite.se 2007)

Eget kapital + 0, 72 · Obeskattade reserver

Justerat eget kapital är eget kapital plus 72 procent av obeskattade reserver. 72 procent är en uppskattning av hur mycket av reserven som nns kvar efter att skatten betalats.

Omsättning (UC 2009)

Omsättning är intäkter för sålda varor och tjänster och kallas även för rörelseintäkter.

(12)

Totala skulder (Hogia 2009b, Aktiesite.se 2007)

Långfristiga skulder + Kortfristiga skulder + 0, 28 · Obeskattade reserver

0, 28 ·Obeskattade reserver = 1 − 0, 72 · Obeskattade reserver är en uppskattning av den uppskjuten skatteskulden, den skatt företaget måste betala först när de väljer att utnyttja reserverna.

Denition av nyckeltal

Avkastning på totalt kapital är ekvivalent med Räntabilitet på totalt kapital (UC 2009) Resultat efter nansnetto + Finansiella intäckter

Balansomslutning

Detta är ett av de vanligaste, och viktigaste, nyckeltalen. Det kan ses som ett mått på ett företags eektivitet oberoende av typ av nansiering (Hogia 2009b). Avkastningen på totalt kapital bör överstiga 10%, åtminstone för större företag. För små företag kan lägre värden vara acceptabla (UC 2009).

Ett expertutlåtande i examensarbetet av Berg (2009) säger att bland skogsentreprenörer är en avkastning på totalt kapital på 4% acceptabelt.

Kassalikviditet (Hogia 2009b)

Omsättningstillgångar − Varulager Kortfristiga skulder

Det kan tolkas som ett företags betalningsförmåga på kort sikt. Om kassalikviditeten är 100% eller högre så kan kortfristiga skulder betalas omedelbart vilket är det ideala, men spridningen är stor mellan olika branscher (Hogia 2009b).

Kedner (1975) visade i sin studie på en signikant skillnad i medelvärdena för kassalikvidi- teten för aktiva företag och kassalikviditeten för företag som inom en femårsperiod drab- bades av konkurs.

Kassaöde/Totala skulder står ibland angivet som "Cash ow/Totala skulder".(UC 2008) Resultat (före bokslutsdispositioner) + Avskrivningar − Skatt

Totala skulder + Avsättningar

Detta nyckeltal anger hur stor del av företagets skulder som täcks med överskott från rörelsen. Detta är ett lite mer långsiktigt stabilitetsmått, men även ett eektivitetsmått då det anger hur stor del av kassaödet som bygger på lån och hur mycket som kommer av försäljningar och dylikt. Nuvärdet, så länge det är positivt, anses inte lika viktigt som trenden. En fallande trend indikerar att ett företag kan vara på väg in i kris.

Det var detta nyckeltal som Beaver (1966) vid sin studie ansåg vara de bästa på att förutse framtida konkurser.

(13)

Kortfristiga skulder/Tillgångar (Företagsekonomi för skogsentrepenörer 2004) Skulder som förfaller inom 1år

Omsättningstillgångar + Anläggningstillgångar

Detta nyckeltal anger hur stor del av del av tillgångarna som tas upp av kortfristiga skulder.

Ett värde under 100% betyder att skulder som ska betalas inom ett år överstiger företa- gets nuvarande tillgångar. Detta nyckeltal ses som ett kortsiktigt stabilitetsmått och bör överstiga 100%.

Detta är ett av de nyckeltal som Kedner (1975) i sin studie visade på en skillnad i medelvärde mellan företag som gick i konkurs inom 5 år och företag som förblev aktiva under samma period. Däremot kunde han inte visa på någon skillnad när i stället långfristiga skulder användes i formeln. En annan slutsats i Kedners studie är att tillgångarna är starkt växande hos företag fram till ett år innan konkurs, vilket gör att detta nyckeltal uppvisar tydligast tillväxt sista året innan konkurs. De kortfristiga skulderna var starkt växande alla fem åren fram till konkursen.

Nyckeltalet i sig fanns ej i det givna datamaterialet, men kunde beräknas utifrån annat givet data.

Lönekostnad/Omsättning

Lönekostnader för ett år Omsättning

Detta är ett eektivitetsmått. Enligt ett expertutlåtande i examensarbetet av Berg (2009) bör detta nyckeltal ej överstiga 40%.

Nettomarginal (Hogia 2009a)

Nettovinst Omsättning

Nettomarginalen visar hur stor del av varje omsatt krona som blir över efter att samtliga avdrag dragits bort och bör därför vara större än 0, och ju högre desto bättre. (Hogia 2009b) Enligt Mäkinen (2001) nns en skillnad i nettomarginal mellan mer lönsamma skogsåkerier och de som riskerar att hamna i ekonomiska svårigheter.

Omsättning per anställd (Hogia 2009a)

Omsättning i kkr

Medelantalet anställda under ett år

Detta är ett av de vanligare nyckeltalen. Det sägs ange hur eektivt ett företag är. Det nns ingen angiven tumregel, men ju högre desto bättre och desto eektivare anses ett företag vara. Detta nyckeltal påverkas dock lätt av olika omständigheter, och bör därför analyseras tillsammans med andra nyckeltal (Hogia 2009b).

Enligt två expertutlåtanden i examensarbetet av Berg (2009) bör detta nyckeltal vara minst 1 000, det vill säga omsättningen per anställd bör vara mer än 1 000 000 kr.

(14)

Riskbuert (Hogia 2009a)

Avkastning på totalt kapital Skuldräntan

Nyckeltalet talar om ifall företagets avkastning på totalt kapital överstiger företagets skuld- ränta eller inte. Riskbuert kan ses som ett stabilitetsmått då en positiv riskbuert anger hur stor ränteförändring som företaget klarar av. Negativ riskbuert är inte bra och i kombination med låg soliditet en indikation på att företaget är i fara, även tidstrenden är av intresse då en negativ trend på riskbuert tillsammans med en negativ trend på soliditet är en varningssignal (Hogia 2009b).

Skulder /Omsättning (Företagsekonomi för skogsentrepenörer 2004) Totala Skulder

Omsättning

Nyckeltalet anger hur stor andel av omsättningen som upptas av skulder och ett högt värde är önskvärt.

Enligt Mäkinen (2001) så nns det en skillnad i detta nyckeltal för välmående företag och de som riskerar konkurs.

Nyckeltalet i sig fanns ej i det givna datamaterialet, men kunde beräknas utifrån annat givet data.

Skuldsättningsgrad (UC 2008)

Totala skulder Justerat eget kapital

Detta Nyckeltal ses som ett mått på företagets nansiella styrka. Det anger hur stora före- tagets skulder är i förhållande till det egna kapitalet. Hög skuldsättningsgrad tillsammans med negativ riskbuert tyder på stora ekonomiska problem inom företaget (Hogia 2009b).

Sundgren (2000) kom i sin studie fram till att skuldsättningsgraden var det nyckel tal som tydligast skilde konkursföretagen från icke-konkursföretagen. Samma resultat ck Mäkinen (1997) i sin studie om drivningsföretag.

Soliditet (Hogia 2009b)

Justerat eget kapital Balansomslutning

Soliditeten ger ett mått på företagets förmåga att motstå förluster och överleva på längre sikt, och ger där med en indikation på stabiliteten för företaget. Utöver att nyckeltalet ska vara positivt så är trenden av stort intresse. En förändring mellan två år anger i regel om företagets lönsamhet har varit tillräcklig i förhållande till tillväxten. Dock så kan en tillfällig försämring av soliditet vara acceptabel, men bara vid snabb tillväxt. Dålig tillväxt tillsammans med en försämring i soliditet är en varningssignal (Hogia 2009b).

Experter i arbetet av Berg (2009) anger att ett värde mellan 20- och 30% är att rekom- mendera för ett välmående företag, och att ett värde under 6% är riktigt dåligt.

(15)

3 Datamaterial

De nyckeltal och nansiella data som används i studien är från 90 st skogsentreprenörer under en treårsperiod, åren 2005 t.o.m. 2007, och har tagits fram av kreditupplysningsföretaget UC AB på uppdrag av ett större skogsföretag. Det består av 41 nansiella variabler, nyckeltal, som kan åternnas i de årliga bokslut som alla aktiebolag presenterar. Man kan även ta fram ytterligare nyckeltal utifrån dessa.

De nyckeltal som slutligen används i studien valdes ut dels på grund av deras förekomst i tidigare studier och dels på grund av deras tolkade innebörd. Slutligen så blev det 11 nyckeltal som valdes ut, se tabell 3.1. Med tidstrender för nyckeltalen X3, X5, X6 och X7 hamnade det slutliga antalet nyckeltal på 15. Tidstrend betyder här skillnaden på ett nyckeltal mellan två på varandra följande år.

I tabell 3.1 anges även medelvärde och varians för varje nyckeltal, men för vidare analyser kommer standardiserade värden av nyckeltalen att användas. Detta för att motverka att storhets skillnader mellan nyckeltalen ska påverka resultatet.

För att kunna göra en jämförelse med tidigare utländska studier, framför allt med Altmans Z-scores modeller (Altman 1993), gjordes försök att återskapa likartade nyckeltal som använts där. På grund av den begränsade tillgången av data kunde inte exakt samma nyckeltal användas men man kan ändå få en ungefärlig bild, se tabell 4.4.

Tabell 3.1: Medelvärde och varians för de 15 nyckeltal som valdes att använda i de slutliga modellerna i detta arbete. två års tidstrend betyder här skillnaden på ett nyckeltal mellan två på varandra följande år.

2007 2006 2005

Namn Medel. Var. Medel. Var. Medel. Var.

X1 Avkastning totalt kapital 6,1 71,2 4,1 118,8 9,0 99,2

X2 Nettomarginal 3,5 79,6 2,9 111,6 6,1 97,4

X3 Kassaöde/Totala skulder 35,4 817,0 33,6 822,6 38,4 657,9

X4 Omsättning per anställd 1215,5 255065,1 1193,2 295623,0 1248,6 306467,1

X5 Kassalikviditet 104,4 7177,5 102,2 6385,1 103,9 4027,9

X6 Soliditet 29,9 367,2 28,2 315,5 28,2 233,9

X7 Riskbuert 2,2 77,1 1,2 130,0 5,9 99,8

X8 Skulder/Omsättning 66,3 909,9 73,1 1288,1 64,1 608,8

X9 Kortfristiga skulder/Tillgångar 33,8 283,8 32,4 239,7 34,0 188,0

X10 Lönekostnad/Omsättning 24,8 48,6 25,0 45,2 23,6 42,7

X11 Skuldsättningsgrad 3,3 23,9 3,2 18,8 2,9 152,9

X12 Riskbuert två års trend 1,0 210,0 -4,7 221,6  

X13 Kassaöde/Totala skulder två års trend 1,8 662,1 -4,8 468,9  

X14 Soliditet två års trend 1,6 53,0 0,0 67,4  

X15 Kassalikviditet två års trend 2,2 2183,5 -1,7 1307,6  

(16)

4 Metoder för klassicering via nyckeltal

4.1 Z-scores modeller

Altmans Z-scores modell (Altman 1968) har använts i mer än 40 år och under årens lopp har man även arbetat fram modieringar som är mer situationsanpassade. För att få fram gränsvärden i sina modeller använde han sig av diskriminantanalys, en metod som här först ska beskrivas lite närmare innan Altmans egna modeller presenteras.

Figur 4.1: En illustration av diskriminantfunk- tionens placering i det univariata fallet, med två grupper med gaussiska fördelningar och medel- värde A respektive B.

I diskriminantanalys börjar man med en el- ler era grupper från olika kända populationer, där var population har mätbara variabler vars medelvärde skiljer mellan populationerna. Ett grundantagande är sen att variablerna tillhör en gaussisk fördelning.

Första steget är att hitta en funktion som beskriver det kumulativa avståndet till var- je grupps medelvärde. En sådan funktion kal- las för diskriminantfunktion. I gur 4.1 visar det grå markerade området fördelningen för en univariat diskriminantfunktion för två grupper med medelvärdena A och B. Det värde som en diskriminantfunktion ger för en punkt kallas för diskriminantvärde, och betecknas ofta Z.

Andra steget är hitta det maximala diskri- minantvärdet, och det värdet kallas diskrimi- nantgränsen, och är i gur 4.1 markerad med

en streckade linje. I det univariata fallet räcker det med en diskriminantfunktion för att beskri- va grupperna, men i det multivariata fallet är antalet diskriminantfunktioner lika många som antalet grupper minus ett. Då det i det här fallet bara förekommer två grupper, företag som försätts i konkurs inom fem år och företag som förblir aktiva under samma tidsperiod så kon- centrerar vi oss på fallet med två grupper. Detta ger att bara en diskriminantfunktion behövs.

Diskriminantfunktionen för variabelvärdena (X1, X2. . . , Xm) kan skrivas på formen Z(X1,X2...,Xm)= a + W1X1+ W2X2+ · · · + WmXm

där a är den eventuella skärningspunkten och Wi är viktningen för variabel nr i.

Det sista steget i en diskriminantanalys är klassicering av nya observationer. I detta fall med två grupper beräknas diskriminantvärdet för en ny observation, och om det är mindre är diskriminantgränsen bedöms observationen tillhöra den ena gruppen, i gur 4.1 skulle det vara gruppen med medelvärde A, och om diskriminantvärdet är större än diskriminantgränsen bedöms observationen tillhöra den andra gruppen (Hair, Black, Babin, Anderson & Tatham 2006).

För att nu återgå till Altmans Z-scores (Altman 1968) så bestod ena gruppen i hans studie av företag som drabbats av konkurs inom en fem års period och andra gruppen bestod av företag som förblivit aktiva under samma period. Han gjorde en diskriminantanalys för de båda grupperna och det gav följande diskriminantfunktion:

(17)

Z = 1, 2X1+ 1, 4X2+ 3, 3X3+ 0, 6X4+ 0, 999X5

där

X1 =Working capital/ Total assets X2 =Retained earnings/ Total assets

X3 =Earnings before interest and taxes / Total assets X4 =Market value equity/ Book value of total dept X5 =Sales/ Total debt

Det intervall i vilka han ck fel klassicerade företag valde han att benämna som ett osäkert intervall, vilket gjorde att det slutligen blev två diskriminantgränser istället för en, se tabell 4.1.

Tabell 4.1: Gränsvärdena för Z-scores modellen Konkursrisk Z < 1, 81

Osäkert intervall 1, 81 ≤ Z ≤ 2, 99

Säkra 2, 99 <Z

Detta är den ursprungliga modellen från 1968 som har fått namnet Z-scores modellen och den är konstruerad för börsnoterade företag.

Senare (Altman 1993) gjordes en modierad modell, benämnd Z'-scores modellen, som an- passats för onoterade företag. Modieringen bestod av att i Z'-scores modellen använda bokfört värde istället för marknadsvärde. Detta gav lite andra koecienter än i den ursprungliga Z-scores modellen.

Z' = 0, 717X1+ 0, 847X2+ 3, 107X3+ 0, 6X4+ 0, 998X5

där

X1=Working capital/ Total assets X2=Retained earnings/ Total assets

X3=Earnings before interest and taxes/ Total assets X4=Book value equity/ Book value of total dept X5=Sales/ Total debt

Med den nya diskriminantfunktionen kom även nya diskriminantgränser, se tabell 4.2.

Tabell 4.2: Gränsvärdena för Z'-scores modellen Konkursrisk Z' < 1, 23

Osäkert intervall 1, 23 ≤ Z' ≤ 2, 90

Säkra 2, 90 <Z'

(18)

I samma studie konstaterade Altman (1993) att variabel X5 är starkt branschberoende så för att skapa en mer allmän regel testade han att ta bort X5 helt från modellen. Detta gav en tredje modell som kallas Z-scores modellen.

Z = 6, 56X1+ 3, 26X2+ 6, 72X3+ 1, 05X4 (4.1) där

X1 =Working capital/ Total assets X2 =Retained earnings/ Total assets

X3 =Earnings before interest and taxes / Total assets X4 =Book value equity/ Book value of total dept

Precis som med Z'-scores modellen så cks Z-scores modellen nya diskriminantgränser, se tabell 4.3

Tabell 4.3: Gränsvärdena för Z-scores modellen Konkursrisk Z < 1, 10

Osäkert intervall 1, 10 ≤ Z ≤ 2, 60

Säkra 2, 60 <Z

I den här studien nns inte tillgång till samma nyckeltal som i Altmans modeller, men en jämförelse med likartade nyckeltal kan ändå göras, se tabell 4.4. Kan påpekas att det är icke standardiserade värden som används.

Tabell 4.4: En approxemativ svensk översättning av de nyckeltal som används i Altmans Z-scores, ekvation 4.1

De 4 nyckeltal som ingår I Z-score modellen Svensk approximativ motsvarighet

Working capital

Total assets Rörelsekapital

Totala tillgångar Retained earnings

Total assets Balanserad vinst

Totala tillgångar Earnings before interest and taxes

Total assets Avkastning på totalt kapital

Book value equity

Book value total dept Bokfört värde på eget kapital Bokfört värde på totala skulder

(19)

4.2 Medelskillnad

Denna metod utgår som jag föreslår från det enklaste och mest uppenbara, nämligen att ett företag vill ha stora inkomster och små utgifter. Om man sedan ska titta på data utan er antaganden så kan man göra ett väldigt enkelt test, nämligen att jämföra medelvärdet av de standardiserade variablerna och ta medelvärdena för inkomster, kapital och dylikt och drar sedan bort medelvärdena för skulder och utgifter. Enkelt sagt tar man medel av de variabler man vill ha stora och subtraherar medel för de variabler man vill ha små. Det ska förhoppningsvis ge en grov översikt över situationen. Detta är en ad hoc metod som vid senare analyser kan jämföras med mer vedertagna analysmetoder, för att se hur mycket den skiljer sig från dessa. Skulle skillnaden vara liten så kan det övervägas huruvida man vinner tillräckligt för att genomföra de mer komplexa analyserna, eller om en enklare metod som denna är tillräcklig, speciellt då inget facit nns att validera efter. Detta kan beskriva med en ekvation där X och Y är standardiserade värdena, det vill säga X och Y har medelvärde noll och varians ett:

M = P7

i=1Xi

7 −

P4 i=jYj

4 (4.2)

och där

X1 = Avkastning totalt kapital Y1 = Skulder/Omsättning

X2 = Nettomarginal Y2 = Kortfristiga skulder/Tillgångar X3 = Kassaöde/Totala skulder Y3 = Lönekostnad/Omsättning X4 = Omsättning per anställd Y4 = Skuldsättningsgrad X5 = Kassalikviditet

X6 = Soliditet X7 = Riskbuert

Med denna ekvation skulle ett negativt resultat indikera att relativt dessa 90 företag har detta företag stora skulder och utgifter i förhållande till kapital och inkomster. Detta är en väldigt grov uppdelning utan hänsyn till korrelation eller skillnader i påverkningsgrad mellan variablerna.

(20)

4.3 Klusteranalys

Klusteranalys delar upp data i grupper så att olikheterna inom grupperna minimerar samtidigt som man olikheterna mellan grupperna maximerar. Olikheterna mäts med ett avståndsmått, som i sin tur kan tas fram på olika sätt. Det kan t.ex. handla om euklidiska avstånd eller något annat mått baserat på skillnader i värde mellan olika variabler.

En metodgrupp är hierarkisk klusteranalys. I dessa skapas en hierarki av kluster där grupp- erna slås samman stegvis, vilket kan illustreras med en typ av träddiagram kallad dendrogram.

Trädets rot består av ett enda kluster där alla observationer ingår och dess löv av kluster med bara en enskild observation. Man kan helt enkelt hugga av trädet där det innehåller de antal kluster man önskar.

De olika hierarkiska sammanlänkningsmetoderna, klustringsmetoderna, går ut på att stegvis slå samman de grupper med minst avstånd mellan sig. Det som skiljer metoderna åt är hur avståndet, d, mellan grupperna beräknas. Här kommer beskrivningar av avståndsberäkningarna för några av de vanligare klustringsmetoderna (Johnson & Wichern 2007)

Närmaste granne-metoden ,eng. The single linkage method. Här mäts avståndet, d, mellan två grupper som det euklidiska minsta avståndet mellan två observationer från varsin grupp.

Figur 4.2: Linjen d visar här vilka punkter som ger avståndet mellan grupp i och grupp j.

Bortersta granne-metoden ,eng. The complete linkage method. Här mäts avståndet, d, mel- lan två grupper som det euklidiska största avståndet mellan två observationer från varsin grupp.

Figur 4.3: Linjen d visar här vilka punkter som ger avståndet mellan grupp i och grupp j.

Genomsnittliga granne-metoden ,eng. The average linkage method. Här mäts avståndet, d, mellan två grupper som det euklidiska avståndet mellan medelvärdet för de två grupperna.

(21)

Figur 4.4: Linjen d visar här vilka punkter som ger avståndet mellan grupp i och grupp j.

Wards klustringsmetod ,eng. Ward's clustering method. Med denna metod handlar det inte om ett direkt euklidiskt avståndsmått, utan här är idén att slå ihop grupper på ett sådant sätt att man minimerar informationsförlusten.

Informationsförlust brukar denieras som en ökning av kvadratsumman, ESS. Vid Wards klustringsmetod så räknas ESSjför grupp j, eller kluster j, ut genom att summera kvadra- terna av skillnaden mellan observationerna i klustret och klustermedelvärdet.

ESSj =

nj

X

i=1

(xi− ¯xj)2 och ESStot =

g

X

j=1

ESSj

där

g =Antal grupper

nj =Antal observationer i grupp j xi=Observat värde nummer i

¯

xj =Medeltalet för de observerade värdena i grupp j

(Ward 1963)

Wards klustring går alltså ut på att stegvis slå samman de grupper som minimerar ESStot

för det aktuella antalet grupper g. Wards klustring har en tendens att ge jämnare storlek på grupperna än många av de andra metoderna.

När resultatet av denna studie presenteras, kapitel 5, så kommer bara de klusterindelningar som gav bäst resultat, utifrån tolkningen av variabler och dylikt, att redovisas.

Det nns ingen gräns för hur många variabler som kan användas vid en klusterindelning.

Problemet med att använda ett stort antal variabler är att det blir svårt att tolka innebörden av de olika grupperna och varför en observation har hamnat i en viss grupp.

Därför är det bra att försöka minska antalet variabler innan själva klusterindelningen, gärna ner till så få som två eller tre dimensioner så att det lättare går att visualisera uppdelningen i till exempel en graf. Denna dimensionsminskning ska göras utan att för mycket av information går förlorad. Det nns ett ertal metoder för att göra just detta. Några som ska presenteras här är principalkomponentanalys, PCA, faktoranalys, FA och bekräftande faktoranalys, CFA.

Dessa olika metoder ska användas innan själva klusterindelningen görs.

(22)

4.3.1 Principalkomponentanalys

Principalkomponentanalys, PCA, används främst till att minska antalet variabler, eller dimen- sioner, utan att för mycket information går förlorad. Dimensionsminskningen kommer sig av att man beräknar nya variabler, s.k. principalkomponenter. Ett fåtal av dessa brukar innehålla mer- parten av informationen som nns i samtliga av de ursprungliga variablerna. Informationen i en datamängd är dess varians, och de komponenter som senare används vi vidare analyser ska anses innehålla så mycket av variansen att resterande varians kan ses som slumpfel.

Komponenterna kan beskrivas med ekvationen:

PC = ATX

(m × 1) (m × p) (p × 1) (4.3)

där X är en vektor med de p st ursprungliga variablerna, i detta fall nyckeltalen, och m < p.

Komponenterna, PC, är en linjärkombination av X. Kolumnerna i matrisen A består av skalärer och dessa kolumnvektorer anger komponenternas laddningar. En laddning anger hur mycket en komponent påverkas av en variabel.

Genom att studera komponenternas laddningar görs en tolkning av vad komponenten antas representera. Dessa tolkningar kan sedan användas för att lättare se skillnader och likheter i datamaterialet, t.ex. genom att rita upp komponenterna, som är färre till antal än de ursprungliga variablerna, mot varandra i grafer.

Det är vanligt att ha data där variablerna har olika storheter på variansen, ofta p.g.a. olika måttenheter. För att undvika att en variabel ska få större inytande än övriga enbart p.g.a. stor varians kan man välja att jobba med standardiserat data, där data har omarbetats så att alla variabler har väntevärde 0 och varians 1. PCA som görs med standardiserat data kallas SPCA, eng. Standardize Principal Component analysis. Standardiseringen av data måste göras innan komponenternas laddningar beräknas.

Algoritmen för att räkna ut principalkomponenter presenterades av Hotelling (1933) och kallas därför ibland för Hotellings transformation och komponenterna beräknas på följande sätt (Johnson & Wichern 2007):

Låt X=[X1X2. . .Xp]T vara standardiserade mätvärden, i denna studie nyckeltalsvärden, där Xi är en vektor med n värden för variabel nr i, i detta fall nyckeltal nr i.

Låt Yi vara en vektor med linjärkombination sådan att

Yi = aTi X = ai1X1+ ai2X2+ · · · + aipXp

(1 × n) (1 × p) (p × n) där i = 1, 2, . . . , p.

Eftersom Yi är en linjärkombination, och kovariansmatrisen för X, S, är ekvivalent med korrelationsmatrisen, R, då X är standardiserat, innebär detta att

var(Yi) =aTiRai i = 1, 2, . . . , p cov(Yi,Yk) =aTi Rak k, i = 1, 2, . . . , p

Principalkomponenterna blir de Yi vars cov(Yi, Yk) = 0för alla 0 < k < p där k 6= i och som maximerar var(Yi). Det vill säga

P C1 = De aT1X som maximerar var(aT1X) givet aT1a1 = 1 P C2 = De aT2X som maximerar var(aT2X)

givet aT2a2= 1 och cov(aT1X, aT2X) = 0

(23)

... ...

P Ci = De aTi X som maximerar var(aTi X) givet aTi ai = 1 och cov(aTjX, aTi X) = 0 ∀ j < i

... ...

P Cp = De aTpX som maximerar var(apX) givet aTpap= 1 och cov(aTjX, aTpX) = 0 ∀ j < p.

Här står PCi för principalkomponent nummer i.

aiblir den ite egenvektorn, tillhörande de ite största egenvärdet λitill Σ. λiblir då ekvivalent med variansen för PCi.

Att utgå från korrelationsmatrisen i beräkningarna, istället för kovariansmatrisen, är ekviva- lent med att använda standardiserat data

corr(x, y) = cov(x, y) pvar(x)var(y). För standardiserat data fås

corr(x, y) = cov(x, y)

pvar(x)var(y) = cov(x, y)

√1 · 1 = cov(x, y)

I den här undersökningen används korrelationsmatrisen i beräkningarna, d.v.s. SPCA.

Något som kan vara bra att nämna är signikansnivån på komponents laddningarna. Råden för vad som ses som en signikant laddning varierar beroende på vilken litteratur man läser, men de esta är överens om att laddningar mindre än 0,10 kan ses som icke signikanta och kan bortses från när man t.ex. gör sina tolkningar av komponenterna.

Komponenterna skapas så att de är ortogonala mot varandra, och därmed korrelerade, och variansen för samtliga komponenter summerar till den totala variansen av datamängden. Kom- ponenterna presenteras i storleksordning utifrån variansen, så komponent 1 har störst varians.

Förklaringsgraden för en komponent är komponentens varians i förhållande till den totala vari- ansen i datamängden, detta ger att komponent 1 även är komponenten med den största förkla- ringsgraden.

(24)

4.3.2 Faktoranalys

Skillnaden mellan faktoranalys, FA, och PCA är att i FA antas en modell där de observerbara variablerna tillåts ha unika slumpfel, medan i PCA görs inget modellantagande utan enbart en rotation av data utförs.

Vid en faktoranalys utgås det från antagandet att ett antal observerbara variabler X kan beskrivas med ett mindre antal icke observerbara variabler F, så kallade underliggande faktorer.

Detta kan beskrivas på följande sätt:

X = LF + 

(p × n) (p × m) (m × n) (p × n) (4.4)

X är som tidigare en matris med standardiserade observationer där Xkj är oberverat värde nr k på variabel j. F är de icke observerbara faktorerna konstruerade så att E[Fi] = 0 och V [Fi] = 1 för i = 1 . . . m , där m<p, och L är faktorladdningarna.  är de specika faktorn för varje observation, även kallat för slumpfelet.

Detta leder till att kovariansmatrisen Σ kan skrivas som

Σ = LLT + Ψ,

(p × p) (p × m) (m × p) (p × p) (4.5)

där Ψ kovariansmatrisen för , vilket i och med att oberoende antas mellan  är en diagonalmatris med variansen för slumpfelen  i diagonalen.

Faktoranalysen göras i två steg, först beräknas faktorladdningarna, mer om det i avsnitt 4.3.2.1, sen beräknas de skattade värdena för faktorerna, bF, se hur i avsnitt 4.3.2.2. I den här studien beräknas bF för att sedan kunna användas vid klustringen.

4.3.2.1 Faktorladdningar

Det nns olika metoder för att beräkna faktorladdningarna i faktoranalys. Två av de vanligaste metoderna är Principalkomponent-metoden, som är nära släkt med Principalkomponentanalys, och Maximum Likelihood-metoden. Ingen av metoderna anses överlägsen den andra och rotation kan utföras på båda resultaten, mer om rotation kommer senare i detta avsnitt.

Principalkomponent-metoden

Principalkomponent-metoden, PC-FA, kan anses vara den robustare av de båda metoderna då inga fördelningaantagande görs varesig på de gemensamma faktorerna F eller på specika fakto- rerna .

Med den här metoden skattas par av egenvektorer, ˆei, och egenvärden, ˆλi, genom iterations- steg utifrån korrelationsmatrisen, R. Man skattar faktorladdningarnas matris, ˜L, så att

L =˜ q λˆ1· ˆe1,

q

λˆ2· ˆe2, . . . , q

λˆm· ˆem



(4.6) där ˆλ1 > ˆλ2> · · · > ˆλm och m är antalet gemensamma faktorer, och den specika variansen är ˜Ψ =R − ˜L˜LT. (Johnson & Wichern 2007)

Om  = 0 så ger detta samma resultat som vid PCA.

(25)

Maximum Likelihood-metoden

När Maximum Likelihood-metoden, ML-FA, används så antas de gemensamma faktorerna, F, vara multivariat normalfördelade med väntevärde 0 och varians 1, och även den specika faktorn,

, antas vara normalfördelad.

Detta innebär att X blir en linjärkombination av normalfördelade variabler, vilket gör att även X antas tillhöra normalfördelningen. Detta gör att L och Ψ kan skattas genom att maximera

likelihooden:

L(L, Ψ) = (2π)np2 |LLT + Ψ|n2e12tr[(LLT+Ψ)−1(Pnj=1(xj−¯x)(xj−¯x)T)] (4.7) där xj− ¯x = [xj1−x1, xj2−x2, . . . , xjp−xp]för j = 1, 2, . . . n.

På så sätt skattas Σ då Σ = LLT + Ψ(Johnson & Wichern 2007).

Rotationsmetoder

I och med att ekvationerna (4.4) och (4.5) inte har en entydig lösning för L och F kan de L som beräknats med någon av metoderna ovan roteras ortogonalt utan att ekvationerna (4.7) eller (4.6) ändras.

Rotationen bLav bL fås genom bL= bL·T där T är godtycklig rotationsmatris med egenskapen att TTT = TTT =I. Matrisen bL är av samma storlek som bL, och bLbLT =TbLTLTb T = bLLb∗T, men där laddningarna är roterade.

Det kan visas att formeln (4.4) inte ändras av substituera bL med bL, det vill säga att X = LbF +  = bLF +  där F precis som F är en matris med icke observerbara faktorer med V [F] =I.

X = bLF+  = bLTF+ 

men V [TF] =TV [F]TT =TTT =I vilket ger TF =F så

X = bLF+  = bLTF+  = bLF + 

Det man helst vill hitta vid en rotation är en struktur där varje faktor har en stark laddning på en variabel och relativt svaga på de övriga. Det nns olika metoder för att beräkna T, till exempel varimax-rotation som maximerar kvadrerade variansen av laddningarna och equimax- rotation som roterar laddningarna så att en variabel får hög laddning på en faktor och låg på de andra. Andra rotationsmetoderna och hur rotationsmatriserna beräknas kommer inte att gås närmare in på här. För den som vill veta mer står det bland annat att läsa i kapitel 9,4 i Johnson

& Wichern (2007).

4.3.2.2 Faktorskattningar

Vid beräkning av laddningarna L, se avsnitt 4.3.2.1, så tas beräkningen av de underliggande fak- torerna F aldrig upp, efter som det inte behövs. Det kan dock vara av intresse att skatta värdena på F speciellt om resultaten ska jämföras med till exempel resultaten i PCA. På engelska kallas dessa bF för scores, och de koecienter som används vid skattningen för factor score coeci- ents. På svenska nns inget allmänt vedertaget namn för dessa. Ibland kallas bF för de skattade faktorvärdena och koecienterna för faktorkoecienter, men ofta används en försvenskad variant

(26)

av de engelska orden, scores och scorsen för bF och scores-koecienter eller scores laddningar för koecienterna.

Faktorerna skattas med utgång från regressions formeln där faktorn Fi är en linjär kombina- tion av observationerna samt ett slumpfel i.

Fi = βi,0+ βi,1X1+ βi,2X2+ · · · + βi,nXn+ i, (4.8) där Fi är underliggande faktor nr i och 0 < i ≤ k, βi,j är faktorns scoresladdning för variabel j där 1 ≤ j ≤ n, βi,0 är en konstant och i är faktorns slumpfel.

Detta kan också skrivas i vektorform som

Fi = β0,i + βTi Xi + i

(m × 1) (m × 1) (m × p)(p × 1) (m × 1)

Inom faktoranalys är oftast β0,i = 0 för 0 < i ≤ m om inget annat speciceras. Detta ger i matrisform:

F = βTX + 

(m × n) (m × p)(p × n) (m × n) (4.9)

där m =antal faktorer, p =antal variabler samt n =antal observationer.

Det nns ett ertal olika metoder för att beräkna faktorkoecienterna β0, β1, . . . , βm, för faktorerna F. Några av de vanligaste är Viktad Minsta-kvadrat-metoden, Regressions-metoden och Maximum Likelihood-metoden. (Johnson & Wichern 2007)

Regressions-metoden

Här skattas faktorkoecienter, β, via korrelationsmatrisen, R, så att β = LTR−1T

=R−1L

och själva skattningarna av faktorvärderna, bF, blir då (Johnson & Wichern 2007)

Fb = LT R−1X

(m × n) (m × p)(p × p)(p × n) Viktad Minsta Kvadrat-metoden

Viktad Minsta Kvadrat-metoden, VMK-metoden , konstruerad av Bartlett (1937) och därför ibland kallad Bartlett's weighted least-squares, minimerar slumpfelen ε i regressionsekvationen, givet L som i formel 4.4. Det gäller att hitta den skattning av F och β enligt ekvation (4.8) som minimerar

n

X

i=i

2i

Ψi = εTΨ−1ε = (X − LF)TΨ−1(X − LF) Enligt Bartlett (1937) ges denna av

β = (LTΨ−1L)−1LTΨ−1T

som i sin tur ger scorsen som (Johnson & Wichern 2007)

Fb = (LTΨ−1L)−1 LT Ψ−1X

(m × n) (m × m) (m × p)(p × p)(p × n)

(27)

Minsta Kvadrat-metoden

Om laddningarna L beräknats med Principalkomponent-metoden så brukar den icke viktade minsta kvadrat-metoden, MK-metoden, användas vid skattning av F. Då är

β = (LTL)−1LTT

och Fb = (LTL)−1LT X (m × n) (m × m) (m × p) (p × n)

(Johnson & Wichern 2007) Detta blir samma sak som att använda matrisberäkningar och utgå från X=LF

X = LF ger LTX = LTLF som ger

LTL−1LTX = F

I minitab1används minsta kvadrat-metoden oavsett vilken skattningsmetod som tidigare används (Inc. 2009).

4.3.3 Skillnader mellan PCA och Faktoranalys

En av de skillnaderna mellan FA och PCA är att FA är en väldenierad modell med slumpkom- ponenter, se avsnitt 4.3.2 och speciellt ekvation (4.4), medan PCA är en entydig rotation av data, se avsnitt 4.3.1. Det nns även teoretiska skillnader mellan de båda metoderna (Hair et al. 2006).

PCA används i första hand för att minska dimensionen på data, vilket kan ge ett förtydligan- de av underliggande samband mellan variablerna. Vad gäller faktoranalys är det tvärtom. Det handlar i första hand om att identiera hur underliggande samband mellan variablerna ser ut, vilket oftast ger en minskad dimension på vårat data. Dessa skillnader gör att de två metoderna fungerar olika bra i olika situationer. PCA bör användas vid följande situationer:

• När man i första hand vill reducera datamängden.

• När tidigare kunskaper säger oss att den faktorspecikavariansen och felvariansen är relativt liten i förhållande till den totala variansen.

I följande situationer kan FA vara mer lämpligt:

• När man i första hand vill komma åt den underliggande strukturen på data.

• När det inte nns tidigare kunskaper om variansfördelningen på data.

4.3.4 Faktorladdning och Egenvärden

En faktorladdning är ett tal mellan -1 och 1, och absolutbeloppet på faktorladdningen ger en indikation på hur starkt en variabel korrelerar med en faktor (samvarierar). Ett värde på 1 ger ett linjärt samband. Exakt hur mycket av variansen i en faktor som en viss variabel förklarar kallas R2-värde och kan uttryckas i procent om man multiplicerar den med hundra. R2fås genom att ta faktorladdningen i kvadrat:

R2=Faktorladdning2

1Minitab 15, demo nns på http://www.minitab.com/en-SE/support/downloads/default.aspx?langType=2057

(28)

Om vi sedan går andra vägen och frågar oss hur stark förklaringsförmåga en viss faktor har på vårat data så talar vi om en faktors egenvärde. Egenvärdet för en faktor fås genom att summera alla R2 för de olika laddningarna.

Egenvärde =X R2 4.3.5 Antalet faktorer eller komponenter.

Det nns olika kriterier för hur många komponenter (PCA) / faktorer (FA) man bör ha med i en modell. Det nns inte en bestämd regel utan man får gå efter det kriterium, de kriterier, som man anser passar den undersökning man gör bäst.

Apriori-kriteriet,A priori criterion: Betyder att man redan innan försöket har bestämt an- talet faktorer. Används oftast då man vill pröva en hypotes, eller när man vill replikera tidigare studier.

Rotkriteriet,Latent root criterion: Säger att alla faktorer vars egenvärde överstiger 1 ska användas. Ett mycket vanligt kriterium i många sammanhang.

Kumulativa-varians-kriteriet, Percentage of variance criterion: Här har man på förhand bestämt en procentsats av den totala variationen som ska förklaras med faktorerna. Vanliga gränser är 60%, 80% och 85%, men ibland nöjer man sig med så lite som 50%.

Scree-plot kriteriet, Scree-plot criterion: Genom att studera en så kallad scree-plot så vill man ta ut så många faktorer som möjligt innan den unika variansen börjar dominera.

Faktorerna sorteras efter egenvärdena som sedan ritas upp en och en i en graf. Efter ett antal faktorer brukar man se en kraftigare minskning i egenvärde mellan 2 faktorer eller en utplaning av minskning. Detta brukar kallas för ett knä , eller på engelska "elbow", armbåge. Man väljer då att ta med de faktorer med egen värden större än "knät".

I denna studie kommer en blandning av apriori-kriteriet och kumulativa-varians-kriteriet att användas. För att klusterindelningarna ska vara lättare att tolka så sätts en maximal gräns på antalet faktorer/ komponenter till tre, dock måste dessa tre faktorer/ komponenter ha en kumulativ varians på minst 60%.

(29)

4.3.6 Bekräftande faktoranalys

Bekräftande faktoranalys, som på engelska heter conrmatory factor analysis eller kort CFA, är en modellbaserad faktoranalys där en modellstruktur bestäms på förhand, en apriori modell, och sen undersöks om observationerna kan förklaras med apriorimodellen, eller om modellen förkastas. Det skiljer sig från tidigare nämnda FA som är en databaserad metod, där försöker man hitta en modell som passar observationerna. (Albright & Park 2009).

När en modellstruktur för CFA tagits fram och data samlats in så kan test göras för att antingen styrka eller förkasta den föreslagna modellen, se avsnitt 4.3.6.2.

När apriori-modellen görs bestäms först vad man vill att modellen ska mäta och vilka faktorer som bör påverkas av detta. När antalet faktorer och fördelningen av variabler mellan dessa bestäms så görs det vanligen utifrån egna teorier, tidigare studier, observerade korrelationer, samt att en vanlig faktoranalys ofta görs för att ge en idé om hur observationerna beter sig.

I CFA använd vanligen standardiserat data, och själva modellen kan beskrivas på samma sätt som i FA, formel (4.4):

X = LF + ε

(p × n) (p × m) (m × n) (p × n) (4.10)

En skillnad mellan FA och CFA är att här sätts restriktioner på L. Kovariansmatrisen Σ för en apriorimodell i CFA kan beskrivas på följande sätt

Σ = LΦLT + Θ

(p × p) (p × m)(m × m)(m × p) (p × p) (4.11)

Θär kovariansmatrisen för ε och Φ är kovariansmatrisen för F. Oftast sätts var(Fj) = 1 så om faktorerna är oberoende blir Φ = I, där I är identitetsmatrisen. Då blir

Σ =LLT + Θ

Här bör en viktig skillnad mellan FA och CFA påpekas. I FA är kovariansmatrisen för slumpfelen, Ψ, en diagonalmatris. Vilket inte nödvändigtvis är fallet för Θ där kovarians mellan slumpfelen är tillåtet.

Någonting som måste hållas i åtanke när en modellstruktur konstrueras är hur många para- metrar som kan skattas, d.v.s. hur många frihetsgrader som nns. Antalet frihetsgrader är li- ka med antalet unika parametrar i Σ. Vad som måste skattas är L, och som mest nns där p · m parametrar att skatta, sen Θ, där det som mest nns (p2 + p)/2 parametrar att skat- ta, och slutligen, om faktorerna inte är oberoende, så ska även Φ skattas vilket som mest är (m2+ m)/2parametrar. Detta innebär att det maximala antalet parametrar i en modellstruktur är p · m + p22+p +m22+m = (p+m)22+(p+m) och antal frihetsgrader att använda är p22+p. Detta ger att en modell med maximalt antal parametrar aldrig kan skattas i en CFA.

Som exempel kan tas en modell så som den i gur 4.5 där 4 variabler tros påverkas av ett antal faktorer. Figuren visar bara en faktor, men skulle det vara möjligt att skatta ytterligare en faktor?

Fyra observerbara variabler ger 10 frihetsgrader. Det går åt en frihetsgrad för att skatta varianserna för var och en av variablerna. Efter det fås 10 − 4 = 6 frihetsgrader kvar. Alla variabler antas påverkas av minst en faktor, så där går ytterligare en frihetsgrad per variabel åt. Det nns nu 6 − 4 = 2 frihetsgrader kvar. Det innebär att ytterligare en faktor skulle kunna skattas, men att den bara kan påverka två av variablerna. Ett annat annat alternativ är att skatta två kovarianser mellan variablerna. Fast bäst är att spara de återstående frihetsgraderna för att kunna utföra modelltest, se avsnitt 4.3.6.2.

(30)

Σ =

var(X1) cov(X1, X2) cov(X1, X3) cov(X1, X4) cov(X1,X2) var(X2) cov(X2, X3) cov(X2, X4) cov(X1,X3) cov(X2,X3) var(X1) cov(X3, X4) cov(X1,X4) cov(X2,X4) cov(X3,X4) var(X4)

Figur 4.5: En graf över en CFA-modellstruktur samt dess varians matris S. De parametrar som måste skattas är markerade med gråa cirklar och i Σ är de unika varianserna fetstilta.

Detta innebär också att det måste vara minst tre variabler för att kunna skatta en modell med en faktor. Då räcker frihetsgraderna precis, till en sådan modell nns 6 frihetsgrader. 3 variabelvarianser innebär 3 frihetsgrader kvar och 3 faktorladdningar ger 0 frihetsgrader kvar.

En sådan modell kallas för en precis identierbar modell eller en saturerad modell. Inga modelltest kan göras för saturerade modeller, se avsnitt 4.3.6.2.

4.3.6.1 Faktorladdningar

Laddningarna i en CFA-modell kan skattas med hjälp av program så som LISREL 2 eller R 3. Den vanligaste beräkningsmetoden är maximum likelihood skattning, MLE.

MLE görs under antagandena att X och F är multivariat normalfördelade med väntevärde 0 och varians 1, och har en kovariansmatris enligt ekvation (4.11) och som är anpassad efter apriorimodellen. Detta görs stegvis utifrån programmets default-inställningar.

För att använda MLE rekommenderas att antalet observationer ska vara mellan 100 och 150 för en större modell, men för enklare modellerräcker det med minst 50 observationer (Hair et al. 2006). Modellerna i den här studien räknas som enklare modeller.

4.3.6.2 Modell-test

När laddningarna L för Apriori-modellen har skattats så kan även kovariansmatris bΣför modellen beräknas enligt formel (4.11). Sen skattas kovariansmatris, S, utifrån de observerade värdena.

Det är utifrån dessa två kovariansmatriser som GOF beräknas.

GOF står för goodness-of-t-test och är ett mått på hur bra bΣstämmer överäns med S. Detta ger en inikation på om en apriori-modell är lämplig eller ej. Viktigt att ha i åtanke är att dessa test , precis som maximum likelihood-metoden, bygger på ett antagande om normalfördelning.

2Finns att ladda ner som demo på www.ssicentral.com/

3Finns att ladda ner på www.r-project.org/

References

Related documents

Det första problemet berör att en del organisationer är rädda för den risk som till exempel hotar deras rykte om de skulle göra något som allmänheten inte uppskattar

Regleringen kan också leda till missnöje bland de anställda som får sin ersättning uppskjuten så mycket som tre år framåt, vilket skulle kunna leda till personalflykt från

Paragrafen innehåller bestämmelser om hur kravet på kapitalbas och kvalificerade skulder ska uppfyllas. Paragrafen genomför bl.a. I samband med remissförfarandet har det

Ett bankaktiebolag får vara överlåtande bolag vid en fusion bara om ett annat bankaktiebolag eller en motsvarande juridisk person med hemvist i en annan stat inom EES än Sverige

Enligt en lagrådsremiss den 12 februari 2009 (Finansdepartementet) har regeringen beslutat att inhämta Lagrådets yttrande över förslag till1. lag om ändring i lagen (1996:1006)

Bestämmelsen i tredje stycket har formulerats på samma sätt som ett bemyndigande bortsett från att orden ”får meddela föreskrifter” bytts ut mot orden

Resultaten från analysen av Judge (2006) när företag som bara använder valutasäkring eller ingen form av säkring alls undersöks visar på positiva signifikanta samband mellan

(2001) presenterar en mognadspyramid för användning av nyckeltal. Pyramiden togs fram för att illustrera användningen av personalnyckeltal, men författarna använder