• No results found

5   Empirisk data och analys

5.4   Multipel linjär regressionsanalys

I syfte att undersökta sambandet mellan studiens valda delkomponenter av ständiga förbättringar och NPS genomfördes en multipel linjär regressionsanalys. Då relativt få hotell undersöktes ansågs denna metod var den enda lämpliga för att dra statistiskt säkerställda slutsatser. Regressionsanalysen utfördes med hjälp av Statgraphics Centurion XVII och tillvägagångsättet baserades på den arbetsgång som Montgomery, Peck och Geoffrey Vinings (2012) beskriver, se Figur 5.3. Denna arbetsgång valdes då den var vedertagen och väl lämpad för studiens syfte.

Tabell 5.3: Utdrag från datamaterial över hotellens NPS-värden, där två hotell använts som exempel

0,0

Figur 5.2: Illustration över två av hotellens variation i NPS-värde under den undersökta perioden

Hotell 6 Hotell 13

Modellen för linjär regression bygger på ett antal grundläggande förutsättningar som bör uppfyllas för att kunna dra slutsatser utifrån analysen, det vill säga för att hypotestester och konfidensintervall i modellen ska vara korrekta (Montgomery et al., 2012). Dessa förutsättningar och grundläggande antaganden togs i beaktning under analysens gång och illustreras med streckade linjer i Figur 5.3. För att undvika förvrängda resultat menar Montgomery et al. (2012) att samtliga ingående variabler bör vara normalfördelade likväl som det bör finnas ett linjärt samband mellan de oberoende variablerna och den beroende variabeln.

Vidare menar författarna att kollinearitet mellan de oberoende variablerna bör studeras för att kunna säkerställa att ingen korrelation mellan dessa förekommer likväl som residualerna bör vara normalfördelade, ha konstant varians samt ett väntevärde på noll, något som kom att studeras i residualanalysen.

5.4.1   Ingående variabler

Baserat på den teoretiska referensramen antogs att kundlojalitet var beroende av de två delkomponenterna i ständiga förbättringar; genomförda förbättringar och delaktighet. En multipel linjär regressionsmodell som beskrev detta samband var

där y betecknade den beroende variabeln; kundlojalitet (NPS) medan x1 och x2 betecknade de oberoende variablerna; genomförda förbättringar respektive delaktighet. Vidare betecknade β0, β1 och β2 de okända regressionskoefficienterna och ε utgjorde en normalfördelad stokastisk slumpvariabel.

5.4.2   Normalfördelningsantagande

För att resultaten från regressionsanalysen ska bli tillförlitliga krävs det att de ingående variablerna är normalfördelade (Montgomery et al., 2012). Enligt Osborn och Water (2002) kan variabler som inte är normalfördelade medföra förvrängda resultat av eventuella samband och signifikanstester. För att kontrollera normalfördelningsantagandet och studera de ingående variablernas fördelning inspekterades i denna analys normalfördelningsplottar visuellt likväl som Shapiro-Wilk-test med 5 % signifikansnivå användes för att statistiskt säkerställa variablernas fördelning. Detta tillvägagångssätt stärktes av Montgomery et al. (2012) som menar att visuell inspektion bör kompletteras med normalfördelningstester för att med säkerhet kunna fastställa normalitet. Detta stöds även av Ghasemi och Zahediasl (2012) som vidare menar att Shapiro-Wilk-testet lämpar sig bäst för små urvalsstorlekar och är mer tillförlitligt än andra etablerade normalfördelningstester, såsom Kolmogorov-Smirinov.

Den första oberoende variabeln (genomförda förbättringar) kunde genom visuell kontroll av normalfördelningsplott, med anledning av ett antal avvikande värden antas vara icke-normalfördelad, se Figur 5.4. Likaså antydde Shapiro-Wilk-testet med ett p-värde på 0,86×10-4 att hypotesen om normalitet kunde förkastas på 5 % signifikansnivå, då p-värdet var y  =  β0+  β1x1  +  β2x2  +  ε (1)

Ingående variabler

Normal-

fördelnings-antagande

Linjäritet Inledande

regression Kollinearitet Residual-analys

Slutgiltig modell

Figur 5.3: Schematisk bild över regressionsanalysens tillvägagångssätt, där de streckade linjerna illustrerar grundläggande antaganden vid regressionsanalys, fritt från Montgomery et al. (2012)

mindre än 0,05. Vid närmare granskning av normalfördelningsplott kunde ett antal statistiska uteliggare identifieras (Hotell 10, 17, 18, 21 och 23), där samtliga uteliggare hade få ärenden i System C2 och valdes därmed att exkluderas ur den fortsatta analysen, då det gav en missvisande bild över hotellens sanna genomförandegrad av förbättringsförslag.

Efter att de avvikande värdena exkluderades ur analysen indikerade Shapiro-Wilk-testet med ett p-värde på 0,02 att hypotesen om normalitet fortfarande kunde förkastas och således uppfyllde inte variabeln det grundläggande antagandet om normalitet. För att kunna dra slutsatser av analysen genomfördes således en Box-Cox transformation som genererade ett lambda-värde på 2,605. Denna typ av transformation menar Montgomery et al. (2012) är särskilt lämplig för att normalisera variablerna. Figur 5.5 illustrerar den normalfördelningsplott som genererades efter transformationen, vilken indikerade på normalfördelad data. Vidare genererade Shapiro-Wilk-testet ett p-värde på 0,068 och således kunde inte nollhypotesen att variabeln genomförda förbättringar var normalfördelad förkastas på 5 % signifikansnivå.

Den andra oberoende variabeln (delaktighet) antogs genom normalfördelningsplott vara normalfördelad, då värdena följde normalfördelningslinjen väl, se Figur 5.6. Vidare genererade

Quantile-­Quantile  Plot

Figur 5.5: Normalfördelningsplott över variabeln genomförda förbättringar efter Box-Cox transformation Quantile-­Quantile  Plot

Figur 5.4: Normalfördelningsplott över den oberoende variabeln genomförda förbättringar

Shapiro-Wilk-testet ett p-värde på 0,70 och således kunde inte nollhypotesen att variabeln delaktighet var normalfördelad förkastas på 5 % signifikansnivå.

Den beroende variabeln (NPS) kunde genom visuell inspektion antas vara normalfördelad, då värdena följde normalfördelningslinjen väl, se Figur 5,7. Shapiro-Wilk-testet genererade ett p-värde på 0,54 och således kunde inte nollhypotesen att variabeln NPS var normalfördelad förkastas på 5 % signifikansnivå.

5.4.3   Linjäritet

För att undvika förvrängda resultat och för att kunna dra slutsatser av analysen krävs även att det grundläggande antagandet om ett linjärt samband mellan de oberoende och den beroende variabeln uppfylls (Montgomery et al., 2012). Om sambandet är icke-linjärt kommer analysen underskatta de oberoende variablernas effekt i den slutgiltiga modellen, något som kan resultera i ökad risk för Typ I- och Typ II-fel. Det vill säga att nollhypotesen förkastas trots att den är sann eller att nollhypotesen accepteras trots att den är falsk (Osborne and Waters, 2002). För att undersöka om sambandet är sant menar Montgomery et al. (2012) att en matris med spridningsdiagram är lämpligt i syfte att ge en överblick över hur de olika variablerna förhåller

Figur 5.6: Normalfördelningsplott över den beroende variabeln delaktighet

-0,1 0,1 0,3 0,5 0,7 0,9 1,1

Figur 5.7: Normalfördelningsplott över den beroende variabeln NPS

sig till varandra. Ett matrisspridnings för studiens undersökta variabler illustreras i Figur 5.8, där varje diagram i figuren visar sambandet mellan två variabler.

Utifrån spridningsdiagrammen i Figur 5.8 antogs det på grund av den stora spridningen i Figur (1) och Figur (2) vara svårt att dra några slutsatser om huruvida det fanns ett linjärt samband mellan de oberoende variablerna och den beroende variabeln. Vidare påvisade figuren inte heller något icke-linjärt samband, vilket resulterade i att inga ytterligare transformationer av variablerna ansågs lämpligt. Fortsatt analys utgick från att det fanns ett svagt linjärt samband.

5.4.4   Inledande regression

För att skatta regressionskoefficienterna användes Minsta kvadratmetoden i Statgraphics, vilken enligt Montgomery et al. (2012) syftar till att minimera skillnaden mellan de observerade värdena och dess linjära approximation för att finna en förklarande modell. Ekvation (2) och Tabell 5.4 illustrerar den skattade modellen för det undersökta sambandet och dess variansanalys från Statgraphics.

NPS = 47,812 + 4,25758×Delaktighet + 4,18016×Genomförda förbättringar

Då p-värdena för samtliga oberoende variabler var större än 0,05 kunde inget signifikant samband på 5 % signifikansnivå säkerställas. Vidare gav modellen ett värde för R2 på 0,013, vilket innebar att modellens förklaringsgrad var låg och att den endast förklarade 1,3 % av variationen i hotellens NPS-värde. Modellens låga förklaringsgrad illustreras tydligt i Figur 5.9, där de observerade värdena plottades mot de predikterade värdena.

Parameter Estimate Standard Error T-Statistic P-Value

Konstant 47,812 13,4141 3,56431 0,0022

Delaktighet 4,25758 12,1026 0,351789 0,7291

Genomförda förbättringar 4,18016 17,1615 0,243578 0,8103

Source Sum of Squares Df Mean Square F-Ratio P-Value

Model 38,8717 2 19,4358 0,12 0,8905

Residual 2997,18 18 166,51

Total (Corr) 3036,05 20

Tabell 5.4: ANOVA-tabell, från Statgraphics

(2)

Nps

del

t.and

NPS

Delaktighet

Genomförda förbättringar

Figur 5.8: Matris med spridningsdiagram med de ingående variablerna (1)

(2)

Notering: Signifikant då p<0,05

För att modellen skulle kunna förklara variationen i responsvariabeln NPS, hade värdena behövt ligga längs den heldragna linjen. Vidare illustrerar Figur 5.9 ett tydligt avvikande värde, vilket motsvarade NPS-värdet för Hotell 2, vilket även utmärkte sig som avvikande i residualplotten i Figur 5.10.

Enligt Figur 5.10 uppvisade Hotell 2 en studentiserad residual på -3,15, vilket enligt Schlotzhauer (2009) bör ses som en statistisk uteliggare. Anledningen till hotellets stora residual var dess låga NPS-värde som i förhållande till modellens predikterade värde var betydligt lägre.

Slutsatser kring grundorsaken till det låga NPS-värdet kunde inte dras utifrån befintliga data men däremot kunde det utifrån data i Bilaga B konstateras att Hotell 2 hade ett lågt NPS-värde för samtliga undersökta månaderna. Hotell 2 kom således att exkluderas ur den fortsatta analys, något som emellertid inte förbättrade modellens förklaringsgrad nämnvärt.

5.4.5   Kollinearitet

Det sista modellantagandet om icke-kollinearitet, oberoende mellan de förklarande variablerna, menar Montgomery et al. (2012) är nödvändigt för att de slutsatser som dras från modellskattningen ska vara korrekt. Vidare menar författarna att kollinearitet eller multikollineraitet kan medföra att modeller skattade med Minsta kvadratmetoden får dålig

Plot of NPS

Figur 5.9: Observerade NPS-värden mot predikterade NPS-värden

Residual Plot

Figur 5.10: Residualplott med studentiserade residualer mot predikterade NPS-värden

prediktionsförmåga och regressionskoefficienterna storlek blir missvisande. Tabell 5.5 illustrerar den uppskattade korrelationen mellan koefficienterna i den anpassade modellen.

Då inga absolutvärden för korrelationskoefficienterna var större än 0,5 kunde det antas att det inte fanns någon kollineraritet mellan de två oberoende variablerna (Montgomery et al., 2012) och således uppfylldes antagandet om icke-kollinearitet.

5.4.6   Residualanalys

Enligt Montgomery et al. (2012) är grafisk analys av residualerna den mest effektiva metoden för att undersöka hur väl regressionsmodellen passar observerad data samt för att kontrollera de modellantaganden som gjorts gällande residualerna. Detta menar författarna lämpligast undersöks genom att studera residualernas normalplott, se Figur 5.11 samt genom att studera grafen över residualerna och de predikterade värdena, se Figur 5.10. Normalfördelningsplotten för residualerna indikerade att antagandet om residualernas normalfördelning stämde.

Ytterligare stärktes antagandet om normalitet av Shapiro-Wilk-testet som genererade ett p-värde på 0,54. Vidare visade Figur 5.10 att residuerna hade ett väntep-värde på noll likväl som en konstant varians, då samtliga residualer är jämt spridna kring väntevärdet. Slutligen påvisade Figur 5.10 inte heller någon synlig trend och residualerna kunde i enlighet med Montgomery et al. (2012) antas vara icke-autokorrelerade.

5.4.7   Regressionskoefficenter och slutgiltig modell

Efter att uteliggare exkluderas och modellantagandena kontrollerats, hade regressionsmodellen fortfarande en låg förklaringsgrad, 2,68 %. De oberoende variablerna (genomförda förbättringar och delaktighet) hade p-värden på 0,66 respektive 0,69 och kunde således inte anses ha en signifikant effekt på den beroende variabeln NPS, med en 95 % konfidensgrad. Modellens låga förklaringsgrad och koefficienternas låga p-värden bekräftade även de slutsatser som kunde dras från spridningsdiagrammen i Figur 5.8, det vill säga att modellantagandet om linjäritet mellan de oberoende och beroende variablerna inte uppfylldes.

Delaktighet Genomförda förbättringar

Delaktighet 1,0000 -0,2249

Genomförda förbättringar -0,2249 1,0000

Tabell 5.5: Korrelationsmatris för skattade regressionskoefficienter

Distribution

Figur 5.11: Normalfördelningsplott över residualerna Notering: Kollinearitet då koefficienter >0,5

Då det fanns en avsaknad av linjärt samband mellan delaktighet, genomförda förbättringar och NPS kunde ingen statistiskt fastställd regressionsekvation eller koefficienter härledas.

Regressionsanalysen falsifierade således delhypoteserna med en 95 % konfidensgrad, det vill säga delaktighet och genomförda förbättringar som komponenter i ständiga förbättringar hade inte en signifikant effekt på NPS.

Related documents