Ordinala logitmodeller för kundnöjdhet: En bransch- och kundgruppsjämförelse

(1)

ORDINALA LOGITMODELLER FÖR KUNDNÖJDHET En bransch- och kundgruppsjämförelse

Moa Edin & Vanessa Goodbrand-Skagerlind

UMEÅ UNIVERSITET Statistikerprogrammet, 180 hp

Examensarbete, 15 hp

Vt 2017

(2)

FÖRORD

Denna rapport är skriven på uppdrag av Svenskt kvalitetsindex (SKI). SKI har sitt

ursprung från Handelshögskolan i Stockholm och har sedan 1989 studerat samband

mellan företags lönsamhet, nöjda kunder och medarbetare. Utöver detta bedriver de

även forskning tillsammans med Chalmers tekniska högskola i Göteborg, Institutet för

Kvalitetsutveckling (SIQ), Handelshögskolan samt Karolinska Institutet i Stockholm.

(3)

SAMMANFATTNING

Företag med nöjda kunder har i tidigare studier visat sig ha ett samband med lång- siktig framgång. Detta har lett till olika försök i att mäta just kundnöjdhet samt att se vad som kan tänkas påverka variabeln. Net Promoter Score (NPS) är ett exempel på en poäng som ger ett mått på kundnöjdhet men som däremot inte ger någon in- formation om bakomliggande faktorer. NPS beräknas med hjälp av kunders svar på frågan: ”På en skala från 1–10, hur troligt är det att du skulle rekommendera företag X till en kompis eller kollega?”. Det besvarade värdet betecknas med Promote Value.

Kunderna delas in i tre olika grupper beroende på vilket Promote Value de angett och NPS kan sedan beräknas. NPS anses vara ett relativt enkelt mått vad gäller både beräkning och tolkning.

I denna studie analyseras sambandet mellan responsvariabeln Promote Value och förklaringsvariabler i syfte att kunna undersöka bakomliggande faktorer. Tre logitmo- deller väljs ut för detta och underliggande antaganden undersöks. Samtliga model- ler skattas för tre olika branscher som vidare är indelade i två kundkategorier. Mot bakgrund av hur NPS beräknas grupperas Promote Value in i tre kategorier och an- vänds som ytterligare en responsvariabel vilken sedan jämförs mot den förstnämnda.

Syftet med studien är att analysera de tre utvalda modellerna genom att granska

modellantaganden och jämföra modellskattningar. Det är även av intresse att se om

förklaringsvariablerna har olika samband med Promote Value mellan branscherna och

kundkategorierna samt att se om resultaten skiljer sig mellan responsvariabeln med

tio kategorier och responsvariabeln med tre kategorier.

(4)

Resultaten visade på att det inte finns en modell som är lämplig att användas genom hela studien. För det datamaterial som använts kommer valet av modell bero på såväl responsvariabeln som bransch och kundkategori. Studien visade även på att förkla- ringsvariablernas samband med Promote Value ser olika ut beroende på bransch och kundkategori. Generellt visade dock en kunds värde för variabeln ”värde för pengarna”

på ett starkt positivt samband med Promote Value och en kunds tidigare förvänt-

ningar av ett företag visade ofta på ett svagt samband med Promote Value. När

responsvariabeln med tio kategorier grupperades till tre kategorier försvann viss in-

formation och av den orsaken rekommenderar vi att gruppera Promote Value med

försiktighet.

(5)

ABSTRACT

Title: Ordinal Logit Models for Promote Value

A comparison of industries and customer groups

In previous studies, companies with satisfied customers have shown to be positive related to a long-term success. This has led to various attempts to measure customer satisfaction and to identify possible independent variables to costumer satisfaction.

Net Promoter Score (NPS) is an example of a developed score that measures custo- mer satisfaction but, on the other hand, does not provide any further information on independent variables. NPS is based on observations of customer answers of the following question: “On a scale from 1–10, how likely is it that you would recommend company X to a friend or colleague?”. The responded value is denoted by Promote Value. The costumers are divided into three groups depending on the value of the Promote Value they specified and NPS can then be calculated. NPS is considered to be a feasible measure in terms of both calculation and interpretation.

In this study, the relationship between the dependent variable Promote Value and independent variables is analyzed in order to investigate underlying factors. Three lo- git models are selected for this purpose and underlying assumptions are investigated.

All models are estimated for three different industries, which are further divided into two customer groups. In terms of how NPS is calculated, the Promote Value is grou- ped into three categories and is used as an additional dependent variable for which the results compares to the former one. The purpose of the study is to analyze the three selected models by examining model assumptions and comparing model estima- tes. Subsequently, underlying factors are investigated for Promote Value within each industry and customer group, while comparing these results between the dependent variable with ten categories and the dependent variable with three categories.

The results showed that there is no single model that is plausible throughout the

study. For the data used, the choice of model will depend on the dependent variable

(6)

as well as industry and customer group. The study also shows that the independent variables have different associations to the dependent variable depending on industry and customer group. However, a customer’s value of the variable “value for money”

showed a general positive association with Promote Value. Also, a customer’s ex-

pectations of a company often shows a weak association to Promote Value. When

grouping the dependent variable with ten categories into three categories some infor-

mation were lost, and for that reason we recommend grouping Promote Value with

caution.

(7)

POPULÄRVETENSKAPLIG SAMMANFATTNING

Tidigare studier tyder på att nöjda kunder är nära besläktat med en långsiktig fram- gång för företag, men hur förklaras kundnöjdhet? Flera variabler kan tänkas påverka kundnöjdhet och dessa variabler kallas för förklaringsvariabler. Ett exempel är en kunds upplevda kvalitet av en produkt. Statistiska modeller används för att förklara samband mellan förklaringsvariabler och en responsvariabel, där responsvariabeln är det som ska förklaras. I den här studien är kundnöjdhet den responsvariabel som ska förklaras. De statistiska modellerna baseras på hur sambanden mellan de förklarande variablerna och responsvariabeln ser ut.

I dagsläget finns ett populärt mått på kundnöjdhet som heter Net Promoter Score (NPS). Det beräknas med hjälp av kunders svar på följande fråga: ”På en skala från 1–10, hur troligt är det att du skulle rekommendera företag X till en kompis eller kollega?”. Beroende på hur kunderna besvarar frågan delas de in i tre kategorier för att NPS ska kunna beräknas. NPS ger ingen förståelse för vad som påverkar kundnöjdhet men anses vara ett relativt enkelt mått vad gäller både beräkning och tolkning.

I denna studie används tre statistiska modeller för att analysera samband mellan

förklaringsvariabler och kundnöjdhet. Datamaterialet som ligger till grund för ana-

lysen kommer från tre olika branscher och studiens syfte är bland annat att göra en

jämförelse mellan dessa. Inom respektive bransch är det även av intresse att undersö-

ka om det finns några skillnader mellan privat- och företagskunder. Mot bakgrund av

hur NPS beräknas har responsvariabeln med tio kategorier grupperats i tre kategorier

och använts som ytterligare en responsvariabel för att se om resultaten mellan dessa

skiljer sig åt.

(8)

Våra analyser visar på att de statistiska modellerna fungerar olika bra beroende på

bransch, kundgrupp och responsvariabel. Det finns därför ingen modell som utifrån

resultaten rekommenderas att användas över alla datamaterial. Kunder med höga

värden på förklaringsvariabeln ”värde för pengarna” hade generellt starkast samband

med kundnöjdhet medan kunders tidigare förväntningar av ett företag generellt hade

svagast samband. De resterande förklaringsvariablernas samband med kundnöjdhet

varierade dock mellan branscher och kundgrupper. Studien visar även på att val av

responsvariabel har betydelse för resultatet och därför bör responsvariabeln med tio

kategorier grupperas med försiktighet.

(9)

TILLKÄNNAGIVANDE

Först och främst vill vi tacka Anna Andersdotter Persson och Johan Parmler, på

Svenskt Kvalitetsindex, som anförtrodde oss det här uppdraget och som välkomnade

oss till Stockholm för en inspirerande dag. Vi vill även rikta ett stort tack till Ingeborg

Waernbaum som stöttat oss genom hela arbetsprocessen och som genomgående bistått

med värdefull handledning och stort engagemang.

(10)

Innehåll

1. Bakgrund 1

1.1. Syfte 2

2. Teori 3

2.1. Kumulativ logitmodell 3

2.2. Partiellt proportionell logitmodell 4

2.3. Multinomial logitmodell 5

2.4. Modellkontroll 6

2.5. Transformation av responsvariabeln 12

3. Datamaterial 13

3.1. Variabelbeskrivning 14

3.2. Deskriptiv statistik 15

4. Resultat 20

4.1. Responsvariabel med tio kategorier 21

4.2. Responsvariabel med tre kategorier 27

4.3. Jämförelser 30

5. Diskussion 33

Referenser 36

Bilaga A. Härledning 39

Bilaga B. Korrelationsmatriser 41

(11)

1. Bakgrund

Tidigare studier har visat att företag med nöjda kunder i större utsträckning når en långsiktig framgång (Ittner & Larcker 1998). Flera variabler kan tänkas påverka kun- dernas inställning till ett företag. Fornell (1992) menar att kundnöjdhet är en latent variabel vilket innebär att den inte går att observera. Han anser även att de vari- abler som påverkar kundernas inställning till ett företag är latenta. I dagsläget finns ett antal förslag på mått och modeller som arbetats fram för att mäta dessa laten- ta varibler. Ett exempel är European Performance Satisfaction Index (EPSI) Rating Framework som bygger på att kundnöjdhet, kundens lojalitet och kundens uppskat- tade värde av en produkt/tjänst drivs av företagets image, kundens förväntningar, kundens upplevda kvalitet på service och upplevda kvalitet på produkter (Eskildsen et al. 2004). Svenskt kvalitetsindex (SKI) arbetar efter detta ramverk med en struktu- rell ekvationsmodell (SEM) för att mäta kundnöjdhet och kundlojalitet (Vinzi et al.

2010, kap. 11). Datamaterialet som används för att skatta modellen bygger på ett frågeformulär som innehåller minst tre frågor per latent variabel (Eklöf & Selivanova 2008).

En av frågorna som finns inkluderande i frågeformuläret ger ett mått som kan ses som ett sammanfattande betyg på kundnöjdhet för företag. Måttet är Net Promoter Score (NPS) som bygger på att kunder besvarar frågan: ”På en skala från 1–10, hur troligt är det att du skulle rekommendera företag X till en kompis eller kollega?” med ett så kallat Promote Value. Kunderna delas sedan in i tre olika grupper beroende på vilket Promote Value de angett. De som svarat 1–6 betraktas som baktalare, 7–8 som passiva och 9–10 som främjare. Slutligen beräknas NPS genom att man tar procenten främjare minus procenten baktalare (Reichheld & Markey 2011, s. 4–7). Reichheld

& Markey (2011) menar att NPS ger ett företag möjlighet att på ett okomplicerat

sätt mäta dess kunders attityd och att resultaten är relativt lättolkade. En person

(12)

som däremot ställer sig kritisk till NPS är Price (2015) som påpekar svårigheten med att analysera de faktorer som påverkar kundnöjdhet. Enligt Price leder det inte till någon förståelse för vad som påverkar en kunds attityd och det blir därmed svårt att förbättra kundnöjdheten.

1.1. Syfte. Syftet med studien är att undersöka statistiska modeller som kan ge kunskap om vilka faktorer som påverkar Promote Value. I modellerna används de skattade latenta variablerna från SKI:s SEM som förklarande variabler och Promote Value används som responsvariabel. För att undersöka om information går förlorad, när grupperingen görs vid beräkningen av NPS, jämförs två olika indelningar för responsvariabeln. Den ena är den ursprungliga indelningen på Promote Value med tio kategorier och den andra är där de tio kategorierna grupperas till tre kategorier.

Kategorierna 1–6 utgör då kategori 1, 7–8 utgör kategori 2 och 9–10 utgör kategori 3. Modellerna skattas på datamaterial från två olika kundgrupper inom tre olika branscher i syfte att se om resultaten skiljer sig mellan dessa.

Båda responsvariablerna är på ordinalskala och eftersom vi i modellen vill förklara kundnöjdhet med hjälp av förklarande variabler har vi fokuserat på tre ordinala logitmodeller. Underliggande antaganden för dessa modeller beskrivs och tillämpas.

All modellkontroll utvärderas och alla parameterskattningar diskuteras.

(13)

2. Teori

En variabel är på ordinalskala om den är kategorisk och det finns en naturlig ord- ning bland kategorierna (Dobson 2001, s. 143). I denna studie är responsvariabeln på ordinalskala för båda responsvariablerna och eftersom vi vill förklara responsvari- abeln med hjälp av förklarande variabler har vi fokuserat på ordinala logitmodeller men även andra ordinala modeller kan användas, till exempel probit (Faraway 2016, s. 106–109). I detta avsnitt föreslås och beskrivs tre teoretiska modeller: kumulativ logitmodell, partiellt proportionell logitmodell och multinomial logitmodell. Vi har valt dessa modeller med hänsyn till datamaterialet och de underliggande antaganden för de två förstnämnda modellerna, vilka beskrivs i avsnitt 2.4.

Följande notationer gäller för respektive modell. Antag att (Y _i , X _i ) är oberoende och likafördelade, där i = 1, 2, ..., N och N är antal observationer i stickprovet. In- dexet i kommer hädanefter inte att skrivas ut om det inte är nödvändigt. Låt c vara antalet kategorier i responsvariabeln. Den stokastiska variabeln Y antar värdet j där j = 1, 2, ..., c. Låt X = (X 1 , X 2 , ..., X p ) ⁰ vara en p × 1-vektor med de p förklarande variablerna och β = (β ₁ , β ₂ , ..., β _p ) ⁰ en p × 1-vektor med regressionskoefficienterna för de p förklarande variablerna. Låt även π _j (x) = P (Y = j|X = x) där Σ ^c _j=1 π _j (x) = 1.

2.1. Kumulativ logitmodell. För att ta hänsyn till ordningen på responsvariabelns kategorier definieras följande kumulativa sannolikheter:

P (Y ≤ j|X = x) = π ₁ (x) + π ₂ (x) + ... + π _j (x), j = 1, 2, ..., c.

De kumulativa oddsen definieras genom:

P (Y ≤ j|X = x)

1 − P (Y ≤ j|X = x) = π ₁ (x) + π ₂ (x) + ... + π _j (x)

π _(j+1) (x) + π _(j+2) (x) + ... + π c (x) , j = 1, ..., c − 1. (1)

(14)

En kumulativ logit definieras med hjälp av ekvation (1) enligt:

logit[P (Y ≤ j|X = x)] = log P (Y ≤ j|X = x) 1 − P (Y ≤ j|X = x) .

För varje kumulativ logit är responsvariabeln binär. Kategori 1 till j representerar det ena utfallet (ett ”lyckat försök”) och kategori (j + 1) till c representerar det andra utfallet (ett ”misslyckat försök”), det vill säga alla responskategorier används i varje kumulativ logit. Den kumulativa logitmodellen skrivs nu som:

logit[P (Y ≤ j|X = x)] = α _j + β ⁰ x, j = 1, ..., c − 1.

I modellen används alla (c − 1) kumulativa logits samtidigt. Varje kumulativ logit har ett eget intercept, α j , där α 1 < α 2 <, ..., < α c−1 . Den kumulativa sannolikheten, P (Y ≤ j|X = x), skrivs nu som:

P (Y ≤ j|X = x) = exp(α _j + β ⁰ x) 1 + exp(α _j + β ⁰ x) .

I modellen är β-koefficienterna samma över de j responskategorierna vilket betyder att modellen bygger på ett antagande om proportionella odds för de förklarande variablerna över de j responskategorierna (Agresti 2015, kap. 6).

2.2. Partiellt proportionell logitmodell. När antagandet om proportionella odds

inte är uppfyllt för en eller flera förklarande variabler kan istället en partiellt propor-

tionell logitmodell användas. I modellen tillåts en delmängd, q ≤ p, av de förklarande

(15)

variablerna ha ett varierande samband med responsvariabeln över de j responskate- gorierna.

Låt Z vara en q × 1-vektor som innehåller den delmängd av de förklarande va- riablerna som inte uppfyller antagandet om proportionella odds. Låt även γ _j vara en q × 1-vektor som innehåller motsvarande q regressionskoefficienter, det vill säga kombinationen γ ⁰ _j Z tillhör den j:te kumulativa logiten. Den första kategorin, j = 1, ses som en referenskategori vilket innebär att i den första logiten är γ ₁ = 0. Detta betyder att denna logit motsvarar den första logiten i den kumulativa logitmodellen.

Det gäller även att om γ _j = 0, där j = 1, ..., c − 1, så motsvarar den partiellt propor- tionella logitmodellen en kumulativ logitmodell eftersom respektive variabel enbart representeras av motsvarande β (Peterson & Harrell Jr 1990, s. 208). Nedan definieras den partiellt proportionella logitmodellen (Wang & Abdel-Aty 2008, s. 1676):

logit[P (Y ≤ j|X = x)] = α j + β ⁰ x + γ ⁰ _j z, j = 1, ..., c − 1.

För de kumulativa sannolikheterna skrivs modellen enligt följande:

P (Y ≤ j|X = x) = exp(α _j + β ⁰ x + γ ⁰ _j z) 1 + exp(α _j + β ⁰ x + γ ⁰ _j z) .

Notera att för en variabel som anses vara icke-proportionell blir regressionskoefficien- ten β +γ _j och för en variabel som anses vara proportionell blir regressionskoefficienten β. Låt β ^∗ _j vara en p×1-vektor som innehåller regressionskoefficienter för proportionella och icke-proportionella variabler.

2.3. Multinomial logitmodell. Om majoriteten av de förklarande variablerna inte

uppfyller antagandet om proportionalitet kan en multinomial logitmodell användas

(16)

(Williams et al. 2006, s. 62). I modellen utnyttjas inte informationen om responsva- riabelns ordinala skala men den kan ändå ge information om förklaringsvariablernas samband med responsvariabeln och användas för klassificering (O’Connell 2006, s. 48).

I den multinomiala logitmodellen skattas (c − 1) binära logits. Modellen byggs upp genom att varje responskategori jämförs med en referenskategori. Om kategori c väljs som referenskategori definieras dessa logits genom:

log π 1 (x)

π _c (x) , log π 2 (x)

π _c (x) , ..., log π _(c−1) (x) π _c (x) .

Låt nu β _j , där j = 1, ..., c − 1, vara en p × 1-vektor som innehåller p regressionskoeffi- cienter vilka varierar mellan responskategorierna. Alla (c − 1) logits antas vara linjära och en multinomial logitmodell definieras genom (Agresti 2015, kap. 6):

log π _j (x)

π _c (x) = α j + β ⁰ _j x, j = 1, ..., c − 1,

där α _j är interceptet. Responssannolikheterna, π _j (x), beräknas med hjälp av följande (se Bilaga A):

π _j (x) = exp(α _j + β ⁰ _j x)

1 + Σ ^c−1 _k=1 exp(α _k + β ⁰ _k x) , j = 1, ..., c − 1. (2)

I kumulativ logitmodell och partiellt proportionell logitmodell tolkas exp (β _l ), respek- tive exp (β _lj ^∗ ), där l = 1, ..., p och j = 1, ..., c, som oddskvoter (OR). I den multinomiala logitmodellen tolkas däremot exp (β _l ) som relativa riskkvoter.

2.4. Modellkontroll. Den kumulativa logitmodellen har ett underliggande antagan-

de om proportionella odds. För att testa om antagandet är uppfyllt kan statistiska

(17)

hypotesprövningar med olika typer av teststatistikor användas. Dessa resulterar dock ofta i felbedömningar, framförallt då metoderna används på stora datamaterial (Kim 2003). I dessa lägen finns alternativa metoder att tillämpa, till exempel numeriskt med hjälp av oddskvoter (Bender & Grouven 1998). En annan metod är att grafiskt undersöka antagandet (Gameroff 2005). I kommande avsnitt presenteras och beskrivs dessa två metoder med hjälp av två exempel som baseras på simulerade datamateri- al. I det första datamaterialet är antagandet uppfyllt och i det andra är antagandet inte uppfyllt. För att de simulerade datamaterialen ska efterlikna datamaterialet som används vid analys så genereras en förklarande variabel som en kontinuerlig variabel med värden mellan 0 och 100. Responsvariabeln genereras som en variabel på ordinal- skala med tio responskategorier. I exempel 1 definieras modellen för det simulerade datamaterialet då antagandet om proportionalitet är uppfyllt.

Exempel 1.

Låt N = 4 000 vara antalet observationer, V ∼ U nif orm(0, 100), Y ∼ M ultinomial(N, p j ), där j = 1, ..., 9 och p ₁₀ = 1 − Σ ⁹ _j=1 p _j .

P (Y ≤ 1|V = v) = exp(−0,25−0,02v)

1+exp (−0,25−0,02v) , P (Y ≤ 2|V = v) = exp (0,05−0,02v) 1+exp (0,05−0,02v) , P (Y ≤ 3|V = v) = exp (0,25−0,02v)

1+exp (0,25−0,02v) , P (Y ≤ 4|V = v) = exp (1−0,02v) 1+exp (1−0,02v) , P (Y ≤ 5|V = v) = exp (2,05−0,02v)

1+exp (2,05−0,02v) , P (Y ≤ 6|V = v) = exp (2,5−0,02v) 1+exp (2,5−0,02v) , P (Y ≤ 7|V = v) = exp (3−0,02v)

1+exp (3−0,02v) , P (Y ≤ 8|V = v) = exp (3,75−0,02v) 1+exp (3,75−0,02v) , P (Y ≤ 9|V = v) = exp (4−0,02v)

1+exp (4−0,02v) .

I exempel 2 definieras modellen för det simulerade datamaterialet då antagandet om proportionalitet inte är uppfyllt.

Exempel 2.

Låt N = 4 000 vara antalet observationer, V ∼ U nif orm(0, 100), Y ∼ M ultinomial(N, p _j ),

(18)

där j = 1, ..., 9 och p ₁₀ = 1 − Σ ⁹ _j=1 p _j .

P (Y ≤ 1|V = v) = exp (0,4−0,02v)

1+exp (0,4−0,02v) , P (Y ≤ 2|V = v) = exp (0,75−0,02v) 1+exp (0,75−0,02v) , P (Y ≤ 3|V = v) = exp (1−0,02v)

1+exp (1−0,02v) , P (Y ≤ 4|V = v) = exp (2,75−0,03v) 1+exp (2,75−0,03v) , P (Y ≤ 5|V = v) = exp (2,8−0,02v)

1+exp (2,8−0,02v) , P (Y ≤ 6|V = v) = exp (3−0,02v) 1+exp (3−0,02v) , P (Y ≤ 7|V = v) = exp (3,5−0,02v)

1+exp (3,5−0,02v) , P (Y ≤ 8|V = v) = exp (3,75−0,02v) 1+exp (3,75−0,02v) , P (Y ≤ 9|V = v) = exp (3,95−0,01v)

1+exp (3,95−0,01v) .

2.4.1. Grafisk modellkontroll. Vid den grafiska modellkontrollen plottas de kumulati- va oddsen för förklaringsvaraiblerna mot en responsvariabel. För att genomföra mo- dellkontrollen delas de förklarande variablerna in i fyra grupper. Observationer med värden mellan (0; 25] hamnar i grupp 1, observationer med värden mellan (25; 50]

hamnar i grupp 2, observationer med värden mellan (50; 75] hamnar i grupp 3 och observationer med värden mellan (75; 100] hamnar i grupp 4. I varje grupp för de förklarande variablerna beräknas andelen observationer som har ett värde ≤ j, där j = 1, 2, ..., 9, på responsvariablen.

Låt n vara det totala antalet observationer som är i grupp k, där k = 1, 2, 3, 4, för den förklarande variabeln X _l , där l = 1, ..., p. Låt sedan n _+j vara antalet observationer som är i grupp k och som har ett värde ≤ j på responsvariabeln. Den skattade kumulativa sannolikheten skrivs då som:

P (Y ≤ j|X ˆ _l = k) = n _+j

n , j = 1, 2, ..., 9,

och de kumulativa oddsen beräknas genom:

Odds(Y ≤ j|X [ _l = k) =

P (Y ≤ j|X ˆ _l = k)

1 − ˆ P (Y ≤ j|X _l = k) , j = 1, 2, ..., 9.

(19)

De kumulativa oddsen för respektive grupp i varje förklarande variabel plottas sedan mot responsvariabeln. I figur 1 presenteras den grafiska modellkontrollen för de si- mulerade datamaterialen. Denna modellkontroll liknar en grafisk modellkontroll som brukar användas vid exempelvis Cox Regression. Beroende på hur de kumulativa oddsen förhåller sig till varandra kan proportionalitetsantagandet utvärderas. Om avståndet mellan de kumulativa oddsen stadigt ökar anses antagandet vara uppfyllt.

Om avståndet däremot inte ökar men de kumulativa oddsen inte korsar varandra blir bedömningen mer subjektiv. Beslutet om proportionalitetsantagandet är upp- fyllt eller inte landar därför ofta i om de kumulativa oddsen korsar varandra eller inte (Bellera et al. 2010). I panel a) i figuren är antagandet om proportionalitet uppfyllt och i panel b) är antagandet inte uppfyllt.

01020304050

a) Exempel 1: Proportionellt

Responskategorier

Kumulativa odds

1 2 3 4 5 6 7 8 9 10

0≤ V ≤ 25 25 < V ≤50 50 < V ≤75 75 < V ≤100

010203040

b) Exempel 2: Ej proportionellt

Responskategorier

Kumulativa odds

1 2 3 4 5 6 7 8 9 10

0≤ V ≤ 25 25 < V ≤50 50 < V ≤75 75 < V ≤100

Figur 1. Den grafiska modellkontrollen för de simulerade datamaterialen.

De kumulativa oddsen tar slut innan responskategori 10 vilket beror på att de för denna kategori resulterar i division med noll:

P (Y ≤ 10|X ˆ l = k) = 1 =⇒ [ Odds = 1

1 − 1 .

(20)

Med andra ord går de kumulativa oddsen mot oändligheten i responskategori 10 och de fortsätter därför inte till denna kategori.

2.4.2. Numerisk jämförelse. Den kumulativa logitmodellen bygger på (c−1) logistiska regressionsmodeller med de binära utfallen:

U _j =



 



 



1, om Y ≤ j 0, om Y > j.

De logistiska regressionsmodellerna ställs upp som:

log P (U j = 1|X = x)

1 − P (U _j = 1|X = x) = α _j + β ₁ x ₁ + ... + β _p x _p ,

med sannolikheten (Hosmer et al. 1997):

P (U _j = 1|X = x) = exp (α j + β 1 x 1 + ... + β p x p ) 1 + exp (α _j + β ₁ x ₁ + ... + β _p x _p ) .

För att undersöka det underliggande antagandet om proportionella odds skattas oddskvoter med hjälp av (c − 1) logistiska regressionsmodeller där utfallen är U _j = 1 och U _j = 0. Sedan analyseras oddskvoterna numeriskt. Oddskvoten står för kvoten mellan två odds då en förklarande variabel, x ₁ , ökar med ett fixerat antal enheter.

När en förklarande variabel, x 1 , går från x 1 till x 1 + 1 ställs oddskvoten upp genom:

OR = Odds(U _j = 1|X = (x ₁ + 1, x ₂ , ..., x _p ) )

Odds(U _j = 1|X = (x ₁ , x ₂ , ..., x _p ) ) = exp (β ₁ (x ₁ + 1 − x ₁ ))

= exp(β ₁ ), j = 1, ..., c − 1.

(21)

Detta tillämpas för respektive förklaringsvariabel, x ₁ , ..., x _p , medan resterande vari- abler hålls konstanta. För att antagandet ska vara uppfyllt hos en förklaringsvariabel måste oddskvoterna mellan varje binärt utfall hållas konstanta, det vill säga vara oberoende av j (Agresti 2015, s. 210).

I figur 2 visualiseras de skattade oddskvoterna tillsammans med 95 %–iga kon- fidensintervall för de simulerade datamaterialen. I panel a) är antagandet uppfyllt och i panel b) är antagandet inte uppfyllt. I respektive plot går en horisontell linje genom alla oddskvoter vilken representerar det sanna värdet på oddskvoten (exp (β)) när förklaringsvariabeln ökar med en enhet och när oddsen är proportionella. I data- materialet med proportionella odds täcker samtliga konfidensintervall för respektive oddskvot det sanna värdet på oddskvoten och ingen av oddskvoterna ser ut att skilja sig från resterande. I datamaterialet där proportionalitetsantagandet inte är upp- fyllt täcker inte konfidensintervallen det sanna värdet på oddskvoten för två av nio oddskvoter. Detta beror på att β j –koefficienterna, där j = 1, ..., 9, inte är samma över alla responskategorier, vilket framgår av exempel 2.

0.9700.9800.9901.000

a) Exempel 1: Proportionellt

Oddskvot

● ●

● ● ● ● ●

● ●

≤1 ≤2 ≤3 ≤4 ≤5 ≤6 ≤7 ≤8 ≤9

0.9700.9800.9901.000

b) Exempel 2: Ej proportionellt

Oddskvot

● ● ●

●

● ● ● ●

●

≤1 ≤2 ≤3 ≤4 ≤5 ≤6 ≤7 ≤8 ≤9

Figur 2. Numerisk modellkontroll för de simulerade datamaterialen. I figuren presenteras skattade

oddskvoter med 95 %-iga konfidensintervall.

(22)

2.5. Transformation av responsvariabeln. När responsvariabeln grupperas i tre kategorier kan information gå förlorad. För att undersöka hur detta påverkar parame- terskattningarna skattas ordinala logitmodeller på simulerade datamaterial. Designen för de simulerade datamaterialen beskrivs i exempel 1 och exempel 2.

I det ena datamaterialet är antagandet om proportionalitet uppfyllt och med detta datamaterial skattas kumulativa logitmodeller med två olika responsvariabler. Den första responsvariabeln är på ordinalskala med tio responskategorier och den andra är på ordinalskala med tre responskategorier.

I det andra datamaterialet är antagandet om proportionalitet inte uppfyllt och då skattas två partiellt proportionella logitmodeller med samma responsvariabler som för den kumulativa logitmodellen.

Resultaten för de skattade logitmodellerna presenteras för respektive responsva- riabel i tabell 1. Där framgår även de sanna värdena på β- eller β _j ^∗ -koefficienterna (β/β _j ^∗ ). I tabellen presenteras de skattade värdena på regressionskoefficienterna som β/ ˆ ˆ β _j ^∗ ( ˆ β eller ˆ β _j ^∗ ) för responsvariabeln med tio kategorier och som ˆ β ⁰ / ˆ β _j ^0∗ ( ˆ β ⁰ eller ˆ β _j ^0∗ ) för responsvariabeln med tre kategorier.

Tabell 1. Jämförelse av parameterskattningar för olika värden på c. Jämförelsen är gjord på si- mulerade datamaterial med förklaringsvariabeln V ∼ U nif orm(0, 100). De sanna parametervärdena på β eller β _j ^∗ framgår i tabellen.

c = 10 c = 3

β/β

^∗_j

β/ ˆ ˆ β

^∗_j

Std. Error β ˆ

⁰

/ ˆ β

_j^0∗

Std. Error Kumulativ logitmodell:

V -0,02 -0,019 0,001 -0,018 0,002

Partiell proportionell logitmodell:

V

1 -0,02 -0,021 0,001 -0,018 0,002

2 -0,02 -0,021 0,001 -0,016 0,002

3 -0,02 -0,022 0,001

4 -0,03 -0,028 0,001

5 -0,02 -0,018 0,002

6 -0,02 -0,018 0,002

7 -0,02 -0,017 0,002

8 -0,02 -0,016 0,002

9 -0,01 -0,004 0,003

(23)

Resultaten i tabell 1 visar inte på någon tydlig skillnad mellan parameterskattningar- na när de två olika responsvariablerna används i den kumulativa logitmodellen. Varken β ˆ ⁰ -koefficienten eller ˆ β-koefficienten visar på avvikande värden från parametervärdet för β.

För den partiellt proportionella logitmodellen när c = 10 visar resultaten att värde- na på de skattade regressionskoefficienterna är nära de sanna värdena på regressions- koefficienterna. När den grupperade responsvariabeln används i den partiellt propor- tionella logitmodellen antar de skattade ˆ β _j ^0∗ -koefficienterna värden som ligger mellan de högsta och lägsta värdena på ˆ β _j ^∗ -koefficienterna för motsvarande responskategori- erna. Exempelvis antar ˆ β _j ^∗ , där j = 1, ..., 9, värden mellan −0, 018 och −0, 028 för responskategori 1–6 och ˆ β _j ^0∗ , där j = 1, 2, antar värdet −0, 018 i responskategori 1.

Det ser därmed inte ut som att någon viktig information går förlorad vid gruppe- ring av responsvariabeln när den kumulativa logitmodellen används på datamaterial som uppfyller proportionalitetsantagandet. När proportionalitetsantagandet däremot inte är uppfyllt och den partiellt proportionella logitmodellen används tar inte den grupperade responsvariabeln hänsyn till β _j ^∗ –koefficienterna, där j = 1, ..., 9, som va- rierar mellan de responskategorierna som grupperas. Exempelvis varierar värdena på parameterskattningarna med 0, 01 enheter i responskategori 1–6 för responsvariabeln med c = 10 och när responsvariabeln grupperas till tre kategorier går denna variation förlorad.

3. Datamaterial

I följande avsnitt beskrivs datamaterialet som ligger till grund för analysen i studien.

Det totala antalet observationer är 11 532 som är fördelade över sex olika strata. I

den första delen presenteras och beskrivs alla variabler och i den andra delen beskrivs

datamaterialet.

(24)

3.1. Variabelbeskrivning. Det insamlade datamaterialet kommer från tre olika branscher: bank-, mobil- och försäkringsbranschen. Varje bransch är i sin tur indelad i en kategori för privatkunder och en för företagskunder. För respektive bransch och kundkategori används variablerna i tabell 2 (Image, Product Quality, Service Quality, Expectations och Value) som förklaringsvariabler. I tabellen framgår även de förkort- ningar som används i den kommande resultatdelen (Committee et al. 1998). När en förklaringsvariabel grupperas in i fyra grupper (x ≤ 25, 25 < x ≤ 50, 50 < x ≤ 75 och x > 75) används beteckningarna som står under rubriken ”Kategorisering”.

Tabell 2. En kort beskrivning av variablerna i datamaterialen (Eklöf & Selivanova 2008) och de förkortningar som används i rapporten.

Variabel Förklaring Förkortning Kategorisering

Promote Value Hur sannolikt det är att en kund skulle rekommendera ett givet fö- retag

Q15b –

Image De associationer en kund får från produkten/företaget/märket kopplat till varumärket

Image Image.Kat

Product Quality Mäter hur kunden betraktar pro- dukten/tjänstens kvalitet

ProdQ ProdQ.Kat

Service Quality Mäter hur kunden ser på tillhö- rande service (t.ex. garantier)

ServQ ServQ.Kat

Expectations En kunds tidigare förväntningar av en produkt/tjänst (t.ex. ryk- ten och tidigare erfarenheter av produkten/tjänsten)

Expect Expect.Kat

Perceived Value Avser ”värde för pengarna”–

aspekter (t.ex. förväntingar samt hur kunden upplever kvalitet)

Value Value.Kat

Figur 3 illustrerar hur de förklarande variablerna hänger ihop med varandra och de-

ras samband med responsvariabeln. Förklaringsvariablerna ses som latenta variabler

och har därför skattas med metoden Patrial Least Squares Path Modeling. Metoden

bygger på att respektive komponent skattas med hjälp av minst tre observerade fråge-

ställningar som kunder från olika branscher har besvarat (Eklöf & Selivanova 2008).

(25)

Totalt baseras skattningarna av de latenta variablerna på cirka 30–35 frågeställning- ar. De latenta variablerna mäts på en stigande skala från 0–100, där 0 beskrivs som en inte alls nöjd kund och 100 innebär en fullt nöjd kund (Eklöf & Selivanova 2008, s. 832). Frågeformuläret täcker även rapportens responsvariabel, Promote Value, vil- ken besvaras på en skala mellan 1–10 där kunden ställs frågan: ”På en skala från 1–10, hur troligt är det att du skulle rekommendera företag X till en kompis eller kollega?”.

Figur 3. Sambanden mellan de latenta variablerna och responsvariabeln.

3.2. Deskriptiv statistik. På grund av att alla variabler är på ordinalskala analy-

seras medianvärden för att beskriva förklaringsvariablernas fördelningar i respektive

kundgrupp och bransch. Tabell 3 visar antalet observationer för varje bransch i re-

spektive kategori samt medianvärdet för varje förklaringsvariabel i respektive bransch

och kundgrupp.

(26)

Tabell 3. Inom respektive kundgrupp och bransch har medianen för varje variabel beräknats tillsammans med den första och den tredje kvartilen.

Företagskunder Privatkunder Bank:

Promote Value 8,00 (6,00; 10,00) 8,00 (6,00; 10,00) Image 74,95 (61,32; 86.06) 73,48 (57,33; 86,71) Product Quality 78,01 (66,67; 89,34) 77,99 (63,66; 92,45) Service Quality 72,39 (58,24; 83,91) 74,45 (56,54; 86,35) Expectations 81,57 (66,79; 93,03) 77,78 (63,16; 92,64) Value 70,45 (55,56; 81,77) 70,56 (52,24; 84,83)

Antal obs. 3593 4394

Försäkring:

Promote Value 8,00 (6,00; 9,00) 8,00 (6,00; 10,00) Image 71,96 (53,19; 85,78) 69,58 (55,56; 81,48) Product Quality 77,78 (62,96; 91,91) 79,77 (63,18; 90,37) Service Quality 72,22 (55,31; 88,05) 72,39 (55,56; 85,32) Expectations 81,23 (65,02; 92,84) 77,87 (66,67; 92,64) Value 72,45 (55,56; 87,66) 71,04 (55,56; 84,45)

Antal obs. 811 940

Mobil:

Promote Value 7,00 (6,00; 9,00) 8,00 (6,00; 10,00) Image 66,67 (47,90; 77,78) 64,48 (48,89; 77,78) Product Quality 77,08 (61,96; 85,23) 77,78 (63,27; 88,89) Service Quality 66,67 (47,51; 80,45) 66,67 (47,43; 80,74) Expectations 77,78 (63,14; 95,92) 77,78 (59,41; 92,84) Value 68,35 (51,58; 80,83) 69,76 (52,90; 82,45)

Antal obs. 767 1027