ORDINALA LOGITMODELLER FÖR KUNDNÖJDHET En bransch- och kundgruppsjämförelse
Moa Edin & Vanessa Goodbrand-Skagerlind
UMEÅ UNIVERSITET Statistikerprogrammet, 180 hp
Examensarbete, 15 hp
Vt 2017
FÖRORD
Denna rapport är skriven på uppdrag av Svenskt kvalitetsindex (SKI). SKI har sitt
ursprung från Handelshögskolan i Stockholm och har sedan 1989 studerat samband
mellan företags lönsamhet, nöjda kunder och medarbetare. Utöver detta bedriver de
även forskning tillsammans med Chalmers tekniska högskola i Göteborg, Institutet för
Kvalitetsutveckling (SIQ), Handelshögskolan samt Karolinska Institutet i Stockholm.
SAMMANFATTNING
Företag med nöjda kunder har i tidigare studier visat sig ha ett samband med lång- siktig framgång. Detta har lett till olika försök i att mäta just kundnöjdhet samt att se vad som kan tänkas påverka variabeln. Net Promoter Score (NPS) är ett exempel på en poäng som ger ett mått på kundnöjdhet men som däremot inte ger någon in- formation om bakomliggande faktorer. NPS beräknas med hjälp av kunders svar på frågan: ”På en skala från 1–10, hur troligt är det att du skulle rekommendera företag X till en kompis eller kollega?”. Det besvarade värdet betecknas med Promote Value.
Kunderna delas in i tre olika grupper beroende på vilket Promote Value de angett och NPS kan sedan beräknas. NPS anses vara ett relativt enkelt mått vad gäller både beräkning och tolkning.
I denna studie analyseras sambandet mellan responsvariabeln Promote Value och förklaringsvariabler i syfte att kunna undersöka bakomliggande faktorer. Tre logitmo- deller väljs ut för detta och underliggande antaganden undersöks. Samtliga model- ler skattas för tre olika branscher som vidare är indelade i två kundkategorier. Mot bakgrund av hur NPS beräknas grupperas Promote Value in i tre kategorier och an- vänds som ytterligare en responsvariabel vilken sedan jämförs mot den förstnämnda.
Syftet med studien är att analysera de tre utvalda modellerna genom att granska
modellantaganden och jämföra modellskattningar. Det är även av intresse att se om
förklaringsvariablerna har olika samband med Promote Value mellan branscherna och
kundkategorierna samt att se om resultaten skiljer sig mellan responsvariabeln med
tio kategorier och responsvariabeln med tre kategorier.
Resultaten visade på att det inte finns en modell som är lämplig att användas genom hela studien. För det datamaterial som använts kommer valet av modell bero på såväl responsvariabeln som bransch och kundkategori. Studien visade även på att förkla- ringsvariablernas samband med Promote Value ser olika ut beroende på bransch och kundkategori. Generellt visade dock en kunds värde för variabeln ”värde för pengarna”
på ett starkt positivt samband med Promote Value och en kunds tidigare förvänt-
ningar av ett företag visade ofta på ett svagt samband med Promote Value. När
responsvariabeln med tio kategorier grupperades till tre kategorier försvann viss in-
formation och av den orsaken rekommenderar vi att gruppera Promote Value med
försiktighet.
ABSTRACT
Title: Ordinal Logit Models for Promote Value
A comparison of industries and customer groups
In previous studies, companies with satisfied customers have shown to be positive related to a long-term success. This has led to various attempts to measure customer satisfaction and to identify possible independent variables to costumer satisfaction.
Net Promoter Score (NPS) is an example of a developed score that measures custo- mer satisfaction but, on the other hand, does not provide any further information on independent variables. NPS is based on observations of customer answers of the following question: “On a scale from 1–10, how likely is it that you would recommend company X to a friend or colleague?”. The responded value is denoted by Promote Value. The costumers are divided into three groups depending on the value of the Promote Value they specified and NPS can then be calculated. NPS is considered to be a feasible measure in terms of both calculation and interpretation.
In this study, the relationship between the dependent variable Promote Value and independent variables is analyzed in order to investigate underlying factors. Three lo- git models are selected for this purpose and underlying assumptions are investigated.
All models are estimated for three different industries, which are further divided into two customer groups. In terms of how NPS is calculated, the Promote Value is grou- ped into three categories and is used as an additional dependent variable for which the results compares to the former one. The purpose of the study is to analyze the three selected models by examining model assumptions and comparing model estima- tes. Subsequently, underlying factors are investigated for Promote Value within each industry and customer group, while comparing these results between the dependent variable with ten categories and the dependent variable with three categories.
The results showed that there is no single model that is plausible throughout the
study. For the data used, the choice of model will depend on the dependent variable
as well as industry and customer group. The study also shows that the independent variables have different associations to the dependent variable depending on industry and customer group. However, a customer’s value of the variable “value for money”
showed a general positive association with Promote Value. Also, a customer’s ex-
pectations of a company often shows a weak association to Promote Value. When
grouping the dependent variable with ten categories into three categories some infor-
mation were lost, and for that reason we recommend grouping Promote Value with
caution.
POPULÄRVETENSKAPLIG SAMMANFATTNING
Tidigare studier tyder på att nöjda kunder är nära besläktat med en långsiktig fram- gång för företag, men hur förklaras kundnöjdhet? Flera variabler kan tänkas påverka kundnöjdhet och dessa variabler kallas för förklaringsvariabler. Ett exempel är en kunds upplevda kvalitet av en produkt. Statistiska modeller används för att förklara samband mellan förklaringsvariabler och en responsvariabel, där responsvariabeln är det som ska förklaras. I den här studien är kundnöjdhet den responsvariabel som ska förklaras. De statistiska modellerna baseras på hur sambanden mellan de förklarande variablerna och responsvariabeln ser ut.
I dagsläget finns ett populärt mått på kundnöjdhet som heter Net Promoter Score (NPS). Det beräknas med hjälp av kunders svar på följande fråga: ”På en skala från 1–10, hur troligt är det att du skulle rekommendera företag X till en kompis eller kollega?”. Beroende på hur kunderna besvarar frågan delas de in i tre kategorier för att NPS ska kunna beräknas. NPS ger ingen förståelse för vad som påverkar kundnöjdhet men anses vara ett relativt enkelt mått vad gäller både beräkning och tolkning.
I denna studie används tre statistiska modeller för att analysera samband mellan
förklaringsvariabler och kundnöjdhet. Datamaterialet som ligger till grund för ana-
lysen kommer från tre olika branscher och studiens syfte är bland annat att göra en
jämförelse mellan dessa. Inom respektive bransch är det även av intresse att undersö-
ka om det finns några skillnader mellan privat- och företagskunder. Mot bakgrund av
hur NPS beräknas har responsvariabeln med tio kategorier grupperats i tre kategorier
och använts som ytterligare en responsvariabel för att se om resultaten mellan dessa
skiljer sig åt.
Våra analyser visar på att de statistiska modellerna fungerar olika bra beroende på
bransch, kundgrupp och responsvariabel. Det finns därför ingen modell som utifrån
resultaten rekommenderas att användas över alla datamaterial. Kunder med höga
värden på förklaringsvariabeln ”värde för pengarna” hade generellt starkast samband
med kundnöjdhet medan kunders tidigare förväntningar av ett företag generellt hade
svagast samband. De resterande förklaringsvariablernas samband med kundnöjdhet
varierade dock mellan branscher och kundgrupper. Studien visar även på att val av
responsvariabel har betydelse för resultatet och därför bör responsvariabeln med tio
kategorier grupperas med försiktighet.
TILLKÄNNAGIVANDE
Först och främst vill vi tacka Anna Andersdotter Persson och Johan Parmler, på
Svenskt Kvalitetsindex, som anförtrodde oss det här uppdraget och som välkomnade
oss till Stockholm för en inspirerande dag. Vi vill även rikta ett stort tack till Ingeborg
Waernbaum som stöttat oss genom hela arbetsprocessen och som genomgående bistått
med värdefull handledning och stort engagemang.
Innehåll
1. Bakgrund 1
1.1. Syfte 2
2. Teori 3
2.1. Kumulativ logitmodell 3
2.2. Partiellt proportionell logitmodell 4
2.3. Multinomial logitmodell 5
2.4. Modellkontroll 6
2.5. Transformation av responsvariabeln 12
3. Datamaterial 13
3.1. Variabelbeskrivning 14
3.2. Deskriptiv statistik 15
4. Resultat 20
4.1. Responsvariabel med tio kategorier 21
4.2. Responsvariabel med tre kategorier 27
4.3. Jämförelser 30
5. Diskussion 33
Referenser 36
Bilaga A. Härledning 39
Bilaga B. Korrelationsmatriser 41
1. Bakgrund
Tidigare studier har visat att företag med nöjda kunder i större utsträckning når en långsiktig framgång (Ittner & Larcker 1998). Flera variabler kan tänkas påverka kun- dernas inställning till ett företag. Fornell (1992) menar att kundnöjdhet är en latent variabel vilket innebär att den inte går att observera. Han anser även att de vari- abler som påverkar kundernas inställning till ett företag är latenta. I dagsläget finns ett antal förslag på mått och modeller som arbetats fram för att mäta dessa laten- ta varibler. Ett exempel är European Performance Satisfaction Index (EPSI) Rating Framework som bygger på att kundnöjdhet, kundens lojalitet och kundens uppskat- tade värde av en produkt/tjänst drivs av företagets image, kundens förväntningar, kundens upplevda kvalitet på service och upplevda kvalitet på produkter (Eskildsen et al. 2004). Svenskt kvalitetsindex (SKI) arbetar efter detta ramverk med en struktu- rell ekvationsmodell (SEM) för att mäta kundnöjdhet och kundlojalitet (Vinzi et al.
2010, kap. 11). Datamaterialet som används för att skatta modellen bygger på ett frågeformulär som innehåller minst tre frågor per latent variabel (Eklöf & Selivanova 2008).
En av frågorna som finns inkluderande i frågeformuläret ger ett mått som kan ses som ett sammanfattande betyg på kundnöjdhet för företag. Måttet är Net Promoter Score (NPS) som bygger på att kunder besvarar frågan: ”På en skala från 1–10, hur troligt är det att du skulle rekommendera företag X till en kompis eller kollega?” med ett så kallat Promote Value. Kunderna delas sedan in i tre olika grupper beroende på vilket Promote Value de angett. De som svarat 1–6 betraktas som baktalare, 7–8 som passiva och 9–10 som främjare. Slutligen beräknas NPS genom att man tar procenten främjare minus procenten baktalare (Reichheld & Markey 2011, s. 4–7). Reichheld
& Markey (2011) menar att NPS ger ett företag möjlighet att på ett okomplicerat
sätt mäta dess kunders attityd och att resultaten är relativt lättolkade. En person
som däremot ställer sig kritisk till NPS är Price (2015) som påpekar svårigheten med att analysera de faktorer som påverkar kundnöjdhet. Enligt Price leder det inte till någon förståelse för vad som påverkar en kunds attityd och det blir därmed svårt att förbättra kundnöjdheten.
1.1. Syfte. Syftet med studien är att undersöka statistiska modeller som kan ge kunskap om vilka faktorer som påverkar Promote Value. I modellerna används de skattade latenta variablerna från SKI:s SEM som förklarande variabler och Promote Value används som responsvariabel. För att undersöka om information går förlorad, när grupperingen görs vid beräkningen av NPS, jämförs två olika indelningar för responsvariabeln. Den ena är den ursprungliga indelningen på Promote Value med tio kategorier och den andra är där de tio kategorierna grupperas till tre kategorier.
Kategorierna 1–6 utgör då kategori 1, 7–8 utgör kategori 2 och 9–10 utgör kategori 3. Modellerna skattas på datamaterial från två olika kundgrupper inom tre olika branscher i syfte att se om resultaten skiljer sig mellan dessa.
Båda responsvariablerna är på ordinalskala och eftersom vi i modellen vill förklara kundnöjdhet med hjälp av förklarande variabler har vi fokuserat på tre ordinala logitmodeller. Underliggande antaganden för dessa modeller beskrivs och tillämpas.
All modellkontroll utvärderas och alla parameterskattningar diskuteras.
2. Teori
En variabel är på ordinalskala om den är kategorisk och det finns en naturlig ord- ning bland kategorierna (Dobson 2001, s. 143). I denna studie är responsvariabeln på ordinalskala för båda responsvariablerna och eftersom vi vill förklara responsvari- abeln med hjälp av förklarande variabler har vi fokuserat på ordinala logitmodeller men även andra ordinala modeller kan användas, till exempel probit (Faraway 2016, s. 106–109). I detta avsnitt föreslås och beskrivs tre teoretiska modeller: kumulativ logitmodell, partiellt proportionell logitmodell och multinomial logitmodell. Vi har valt dessa modeller med hänsyn till datamaterialet och de underliggande antaganden för de två förstnämnda modellerna, vilka beskrivs i avsnitt 2.4.
Följande notationer gäller för respektive modell. Antag att (Y i , X i ) är oberoende och likafördelade, där i = 1, 2, ..., N och N är antal observationer i stickprovet. In- dexet i kommer hädanefter inte att skrivas ut om det inte är nödvändigt. Låt c vara antalet kategorier i responsvariabeln. Den stokastiska variabeln Y antar värdet j där j = 1, 2, ..., c. Låt X = (X 1 , X 2 , ..., X p ) 0 vara en p × 1-vektor med de p förklarande variablerna och β = (β 1 , β 2 , ..., β p ) 0 en p × 1-vektor med regressionskoefficienterna för de p förklarande variablerna. Låt även π j (x) = P (Y = j|X = x) där Σ c j=1 π j (x) = 1.
2.1. Kumulativ logitmodell. För att ta hänsyn till ordningen på responsvariabelns kategorier definieras följande kumulativa sannolikheter:
P (Y ≤ j|X = x) = π 1 (x) + π 2 (x) + ... + π j (x), j = 1, 2, ..., c.
De kumulativa oddsen definieras genom:
P (Y ≤ j|X = x)
1 − P (Y ≤ j|X = x) = π 1 (x) + π 2 (x) + ... + π j (x)
π (j+1) (x) + π (j+2) (x) + ... + π c (x) , j = 1, ..., c − 1. (1)
En kumulativ logit definieras med hjälp av ekvation (1) enligt:
logit[P (Y ≤ j|X = x)] = log P (Y ≤ j|X = x) 1 − P (Y ≤ j|X = x) .
För varje kumulativ logit är responsvariabeln binär. Kategori 1 till j representerar det ena utfallet (ett ”lyckat försök”) och kategori (j + 1) till c representerar det andra utfallet (ett ”misslyckat försök”), det vill säga alla responskategorier används i varje kumulativ logit. Den kumulativa logitmodellen skrivs nu som:
logit[P (Y ≤ j|X = x)] = α j + β 0 x, j = 1, ..., c − 1.
I modellen används alla (c − 1) kumulativa logits samtidigt. Varje kumulativ logit har ett eget intercept, α j , där α 1 < α 2 <, ..., < α c−1 . Den kumulativa sannolikheten, P (Y ≤ j|X = x), skrivs nu som:
P (Y ≤ j|X = x) = exp(α j + β 0 x) 1 + exp(α j + β 0 x) .
I modellen är β-koefficienterna samma över de j responskategorierna vilket betyder att modellen bygger på ett antagande om proportionella odds för de förklarande variablerna över de j responskategorierna (Agresti 2015, kap. 6).
2.2. Partiellt proportionell logitmodell. När antagandet om proportionella odds
inte är uppfyllt för en eller flera förklarande variabler kan istället en partiellt propor-
tionell logitmodell användas. I modellen tillåts en delmängd, q ≤ p, av de förklarande
variablerna ha ett varierande samband med responsvariabeln över de j responskate- gorierna.
Låt Z vara en q × 1-vektor som innehåller den delmängd av de förklarande va- riablerna som inte uppfyller antagandet om proportionella odds. Låt även γ j vara en q × 1-vektor som innehåller motsvarande q regressionskoefficienter, det vill säga kombinationen γ 0 j Z tillhör den j:te kumulativa logiten. Den första kategorin, j = 1, ses som en referenskategori vilket innebär att i den första logiten är γ 1 = 0. Detta betyder att denna logit motsvarar den första logiten i den kumulativa logitmodellen.
Det gäller även att om γ j = 0, där j = 1, ..., c − 1, så motsvarar den partiellt propor- tionella logitmodellen en kumulativ logitmodell eftersom respektive variabel enbart representeras av motsvarande β (Peterson & Harrell Jr 1990, s. 208). Nedan definieras den partiellt proportionella logitmodellen (Wang & Abdel-Aty 2008, s. 1676):
logit[P (Y ≤ j|X = x)] = α j + β 0 x + γ 0 j z, j = 1, ..., c − 1.
För de kumulativa sannolikheterna skrivs modellen enligt följande:
P (Y ≤ j|X = x) = exp(α j + β 0 x + γ 0 j z) 1 + exp(α j + β 0 x + γ 0 j z) .
Notera att för en variabel som anses vara icke-proportionell blir regressionskoefficien- ten β +γ j och för en variabel som anses vara proportionell blir regressionskoefficienten β. Låt β ∗ j vara en p×1-vektor som innehåller regressionskoefficienter för proportionella och icke-proportionella variabler.
2.3. Multinomial logitmodell. Om majoriteten av de förklarande variablerna inte
uppfyller antagandet om proportionalitet kan en multinomial logitmodell användas
(Williams et al. 2006, s. 62). I modellen utnyttjas inte informationen om responsva- riabelns ordinala skala men den kan ändå ge information om förklaringsvariablernas samband med responsvariabeln och användas för klassificering (O’Connell 2006, s. 48).
I den multinomiala logitmodellen skattas (c − 1) binära logits. Modellen byggs upp genom att varje responskategori jämförs med en referenskategori. Om kategori c väljs som referenskategori definieras dessa logits genom:
log π 1 (x)
π c (x) , log π 2 (x)
π c (x) , ..., log π (c−1) (x) π c (x) .
Låt nu β j , där j = 1, ..., c − 1, vara en p × 1-vektor som innehåller p regressionskoeffi- cienter vilka varierar mellan responskategorierna. Alla (c − 1) logits antas vara linjära och en multinomial logitmodell definieras genom (Agresti 2015, kap. 6):
log π j (x)
π c (x) = α j + β 0 j x, j = 1, ..., c − 1,
där α j är interceptet. Responssannolikheterna, π j (x), beräknas med hjälp av följande (se Bilaga A):
π j (x) = exp(α j + β 0 j x)
1 + Σ c−1 k=1 exp(α k + β 0 k x) , j = 1, ..., c − 1. (2)
I kumulativ logitmodell och partiellt proportionell logitmodell tolkas exp (β l ), respek- tive exp (β lj ∗ ), där l = 1, ..., p och j = 1, ..., c, som oddskvoter (OR). I den multinomiala logitmodellen tolkas däremot exp (β l ) som relativa riskkvoter.
2.4. Modellkontroll. Den kumulativa logitmodellen har ett underliggande antagan-
de om proportionella odds. För att testa om antagandet är uppfyllt kan statistiska
hypotesprövningar med olika typer av teststatistikor användas. Dessa resulterar dock ofta i felbedömningar, framförallt då metoderna används på stora datamaterial (Kim 2003). I dessa lägen finns alternativa metoder att tillämpa, till exempel numeriskt med hjälp av oddskvoter (Bender & Grouven 1998). En annan metod är att grafiskt undersöka antagandet (Gameroff 2005). I kommande avsnitt presenteras och beskrivs dessa två metoder med hjälp av två exempel som baseras på simulerade datamateri- al. I det första datamaterialet är antagandet uppfyllt och i det andra är antagandet inte uppfyllt. För att de simulerade datamaterialen ska efterlikna datamaterialet som används vid analys så genereras en förklarande variabel som en kontinuerlig variabel med värden mellan 0 och 100. Responsvariabeln genereras som en variabel på ordinal- skala med tio responskategorier. I exempel 1 definieras modellen för det simulerade datamaterialet då antagandet om proportionalitet är uppfyllt.
Exempel 1.
Låt N = 4 000 vara antalet observationer, V ∼ U nif orm(0, 100), Y ∼ M ultinomial(N, p j ), där j = 1, ..., 9 och p 10 = 1 − Σ 9 j=1 p j .
P (Y ≤ 1|V = v) = exp(−0,25−0,02v)
1+exp (−0,25−0,02v) , P (Y ≤ 2|V = v) = exp (0,05−0,02v) 1+exp (0,05−0,02v) , P (Y ≤ 3|V = v) = exp (0,25−0,02v)
1+exp (0,25−0,02v) , P (Y ≤ 4|V = v) = exp (1−0,02v) 1+exp (1−0,02v) , P (Y ≤ 5|V = v) = exp (2,05−0,02v)
1+exp (2,05−0,02v) , P (Y ≤ 6|V = v) = exp (2,5−0,02v) 1+exp (2,5−0,02v) , P (Y ≤ 7|V = v) = exp (3−0,02v)
1+exp (3−0,02v) , P (Y ≤ 8|V = v) = exp (3,75−0,02v) 1+exp (3,75−0,02v) , P (Y ≤ 9|V = v) = exp (4−0,02v)
1+exp (4−0,02v) .
I exempel 2 definieras modellen för det simulerade datamaterialet då antagandet om proportionalitet inte är uppfyllt.
Exempel 2.
Låt N = 4 000 vara antalet observationer, V ∼ U nif orm(0, 100), Y ∼ M ultinomial(N, p j ),
där j = 1, ..., 9 och p 10 = 1 − Σ 9 j=1 p j .
P (Y ≤ 1|V = v) = exp (0,4−0,02v)
1+exp (0,4−0,02v) , P (Y ≤ 2|V = v) = exp (0,75−0,02v) 1+exp (0,75−0,02v) , P (Y ≤ 3|V = v) = exp (1−0,02v)
1+exp (1−0,02v) , P (Y ≤ 4|V = v) = exp (2,75−0,03v) 1+exp (2,75−0,03v) , P (Y ≤ 5|V = v) = exp (2,8−0,02v)
1+exp (2,8−0,02v) , P (Y ≤ 6|V = v) = exp (3−0,02v) 1+exp (3−0,02v) , P (Y ≤ 7|V = v) = exp (3,5−0,02v)
1+exp (3,5−0,02v) , P (Y ≤ 8|V = v) = exp (3,75−0,02v) 1+exp (3,75−0,02v) , P (Y ≤ 9|V = v) = exp (3,95−0,01v)
1+exp (3,95−0,01v) .
2.4.1. Grafisk modellkontroll. Vid den grafiska modellkontrollen plottas de kumulati- va oddsen för förklaringsvaraiblerna mot en responsvariabel. För att genomföra mo- dellkontrollen delas de förklarande variablerna in i fyra grupper. Observationer med värden mellan (0; 25] hamnar i grupp 1, observationer med värden mellan (25; 50]
hamnar i grupp 2, observationer med värden mellan (50; 75] hamnar i grupp 3 och observationer med värden mellan (75; 100] hamnar i grupp 4. I varje grupp för de förklarande variablerna beräknas andelen observationer som har ett värde ≤ j, där j = 1, 2, ..., 9, på responsvariablen.
Låt n vara det totala antalet observationer som är i grupp k, där k = 1, 2, 3, 4, för den förklarande variabeln X l , där l = 1, ..., p. Låt sedan n +j vara antalet observationer som är i grupp k och som har ett värde ≤ j på responsvariabeln. Den skattade kumulativa sannolikheten skrivs då som:
P (Y ≤ j|X ˆ l = k) = n +j
n , j = 1, 2, ..., 9,
och de kumulativa oddsen beräknas genom:
Odds(Y ≤ j|X [ l = k) =
P (Y ≤ j|X ˆ l = k)
1 − ˆ P (Y ≤ j|X l = k) , j = 1, 2, ..., 9.
De kumulativa oddsen för respektive grupp i varje förklarande variabel plottas sedan mot responsvariabeln. I figur 1 presenteras den grafiska modellkontrollen för de si- mulerade datamaterialen. Denna modellkontroll liknar en grafisk modellkontroll som brukar användas vid exempelvis Cox Regression. Beroende på hur de kumulativa oddsen förhåller sig till varandra kan proportionalitetsantagandet utvärderas. Om avståndet mellan de kumulativa oddsen stadigt ökar anses antagandet vara uppfyllt.
Om avståndet däremot inte ökar men de kumulativa oddsen inte korsar varandra blir bedömningen mer subjektiv. Beslutet om proportionalitetsantagandet är upp- fyllt eller inte landar därför ofta i om de kumulativa oddsen korsar varandra eller inte (Bellera et al. 2010). I panel a) i figuren är antagandet om proportionalitet uppfyllt och i panel b) är antagandet inte uppfyllt.
01020304050
a) Exempel 1: Proportionellt
Responskategorier
Kumulativa odds
1 2 3 4 5 6 7 8 9 10
0≤ V ≤ 25 25 < V ≤50 50 < V ≤75 75 < V ≤100
010203040
b) Exempel 2: Ej proportionellt
Responskategorier
Kumulativa odds
1 2 3 4 5 6 7 8 9 10
0≤ V ≤ 25 25 < V ≤50 50 < V ≤75 75 < V ≤100
Figur 1. Den grafiska modellkontrollen för de simulerade datamaterialen.
De kumulativa oddsen tar slut innan responskategori 10 vilket beror på att de för denna kategori resulterar i division med noll:
P (Y ≤ 10|X ˆ l = k) = 1 =⇒ [ Odds = 1
1 − 1 .
Med andra ord går de kumulativa oddsen mot oändligheten i responskategori 10 och de fortsätter därför inte till denna kategori.
2.4.2. Numerisk jämförelse. Den kumulativa logitmodellen bygger på (c−1) logistiska regressionsmodeller med de binära utfallen:
U j =
1, om Y ≤ j 0, om Y > j.
De logistiska regressionsmodellerna ställs upp som:
log P (U j = 1|X = x)
1 − P (U j = 1|X = x) = α j + β 1 x 1 + ... + β p x p ,
med sannolikheten (Hosmer et al. 1997):
P (U j = 1|X = x) = exp (α j + β 1 x 1 + ... + β p x p ) 1 + exp (α j + β 1 x 1 + ... + β p x p ) .
För att undersöka det underliggande antagandet om proportionella odds skattas oddskvoter med hjälp av (c − 1) logistiska regressionsmodeller där utfallen är U j = 1 och U j = 0. Sedan analyseras oddskvoterna numeriskt. Oddskvoten står för kvoten mellan två odds då en förklarande variabel, x 1 , ökar med ett fixerat antal enheter.
När en förklarande variabel, x 1 , går från x 1 till x 1 + 1 ställs oddskvoten upp genom:
OR = Odds(U j = 1|X = (x 1 + 1, x 2 , ..., x p ) )
Odds(U j = 1|X = (x 1 , x 2 , ..., x p ) ) = exp (β 1 (x 1 + 1 − x 1 ))
= exp(β 1 ), j = 1, ..., c − 1.
Detta tillämpas för respektive förklaringsvariabel, x 1 , ..., x p , medan resterande vari- abler hålls konstanta. För att antagandet ska vara uppfyllt hos en förklaringsvariabel måste oddskvoterna mellan varje binärt utfall hållas konstanta, det vill säga vara oberoende av j (Agresti 2015, s. 210).
I figur 2 visualiseras de skattade oddskvoterna tillsammans med 95 %–iga kon- fidensintervall för de simulerade datamaterialen. I panel a) är antagandet uppfyllt och i panel b) är antagandet inte uppfyllt. I respektive plot går en horisontell linje genom alla oddskvoter vilken representerar det sanna värdet på oddskvoten (exp (β)) när förklaringsvariabeln ökar med en enhet och när oddsen är proportionella. I data- materialet med proportionella odds täcker samtliga konfidensintervall för respektive oddskvot det sanna värdet på oddskvoten och ingen av oddskvoterna ser ut att skilja sig från resterande. I datamaterialet där proportionalitetsantagandet inte är upp- fyllt täcker inte konfidensintervallen det sanna värdet på oddskvoten för två av nio oddskvoter. Detta beror på att β j –koefficienterna, där j = 1, ..., 9, inte är samma över alla responskategorier, vilket framgår av exempel 2.
0.9700.9800.9901.000
a) Exempel 1: Proportionellt
Oddskvot
● ●
● ● ● ● ●
● ●
≤1 ≤2 ≤3 ≤4 ≤5 ≤6 ≤7 ≤8 ≤9
0.9700.9800.9901.000
b) Exempel 2: Ej proportionellt
Oddskvot
● ● ●
●
● ● ● ●
●
≤1 ≤2 ≤3 ≤4 ≤5 ≤6 ≤7 ≤8 ≤9