• No results found

2.9 Receiver operating characteristic, ROC curve [2]

3.1.4 Fyllda roller

Antalet roller som beställaren krävt.

Rollerna som finns tillgängliga för beställaren, med sina respektive grade-ringar:

• Specialist & Expert - 6

Figur 3.1: Affärsområde och dess kategorier

• Uppdragsledare & Besiktningsman - 5

• Handläggare, Tekniskansvarig & Biträdande besiktningsman - 4

• Cad ansvarig - 3

• Konstruktör -2

• Kvalite och miljö - 1 3.1.5 Anbuds typ

Beskriver vilket typ av anbud som skickas.

Anbudstyper:

• Ramavtal - 0

• Projekt - 1

3.1.6 Referens objekt & referens person

Referens objekt syftar på vilka projekt som företaget har arbetat med de senaste tre åren och graderas efter om de anses bra eller dåliga, efter vad marknaden tycker. Referens person syftar på befattningshavarnas CV:en över vilka projekt de arbetat med, liksom för fallet för referens objekt graderas referensen efter vad marknaden tycker.

3.1.7 Kompetensgrad

Kompetensgrad representerar genomsnitts graden som krävdes till anbudet.

Genomsnittet beräknades efter antalet roller som krävdes, där rollerna gra-derades efter hur stor vikt de har i ett arbete (2.1.4).

3.1.8 Interaktioner

Anledingen till de utvalda interaktions variablerna är för att de anses vara de mest intutiva samt att de kan vara av intresse.

EL och VVS anses inuitiva de kan ingå i samma anbud och det samma gäller för referens variablerna, referens objekt och referens person. Interaktioner-na mellan referenserInteraktioner-na, referens objekt & referens person, är av intresse för att det kan visa hur beställarna väger referenserna. Anbuds typ och timpriset kan ses signifikanta tillsammans då projekt, speciellt de stora, normalt sätt kräver högre timpris. Sist är interaktionen mellan kompetensgrad och tim-pris, denna interaktion är troligtvis den som känns mest intuitiv då normalt sätt högre kompetens kräver högre timpris.

Figur 3.2: Figuren illustrerar anbuden och dess kovariater

3.2 Genomförande av analys

Datan som extraherats gavs utav företaget Sweco Systems dock var inte al-la observationer som gavs fullständiga vilket gav förlorade fall, de fall med stora brister utelämnades därför. De observationer med relativt små infor-mations brister fylldes ut m.h.a. anbudsansvarigas erfarenhet.

Programmet som användes vid analysen var IBM SPSS Statistics 20, Inter-national Business Machines Corporation Statistical Package for the Social Sciences Statistics 20.

Modelleringen utfördes från två olika utgångspunkter, den första var genom att stegvis eliminera de kovariater som ej visade sig vara signifikanta. Det andra var att modellera med interaktions kovariaterna och stegvist elimine-rar de kovariater som inte ansågs som signifikanta.

Elimineringsprocessen som följdes var Backward stepwise regression med Wald statistik utan standardizerade residualer och Cook’s värdena samt Back-ward stepwise regression med wald statistik med standardizerade residualer och Cook’s värdena, där man sållar bort de fall som avviker mycket och har för stora Cook värden. Modell 3: referens objekt* referens person

Lo g i t (p

1

) = β

o

+ β

1

X

1

+ β

2

x

2

+ β

3

X

3

+ β

4

X

4

+ β

5

X

5

+ β

6

X

6

7

X

7

+ β

8

X

8

+ β

9

X

9

+ β

11

X

7

X

8 (3.3)

Modell 4: Anbuds typ*Timpris i genomsnitt

Lo g i t (p

1

) = β

o

+ β

1

X

1

+ β

2

x

2

+ β

3

X

3

+ β

4

X

4

+ β

5

X

5

+ β

6

X

6

7

X

7

+ β

8

X

8

+ β

9

X

9

+ β

12

X

1

X

6 (3.4) Modell 5: Kompetensgrad*Timpris i genomsnitt

Lo g i t (p

1

) = β

o

+ β

1

X

1

+ β

2

x

2

+ β

3

X

3

+ β

4

X

4

+ β

5

X

5

+ β

6

X

6

7

X

7

+ β

8

X

8

+ β

9

X

9

+ β

13

X

1

X

9 (3.5) Modell 6: alla interaktioner

Lo g i t (p

1

) = β

o

+ β

1

X

1

+ β

2

x

2

+ β

3

X

3

+ β

4

X

4

+ β

5

X

5

+ β

6

X

6

7

X

7

+ β

8

X

8

+ β

9

X

9

+ β

13

X

1

X

9

β

12

X

1

X

6

+ β

11

X

7

X

8

+ β

10

X

3

X

4 (3.6)

Kapitel 4

Resultat

Resultaten för varje modell visas nedan dock borde det noteras att de sista stegen på backward stepwise regression har återskapats då hela procedurens utskrift är väldigt omständig och skulle täcka minst 3 sidor, vardera modell.

Hosmer och Lemeshow testen har lagts i appendix då inga av kovariaterna är kontinuerliga, de är antingen i skala eller nominala.

4.1 Signifikanser

4.1.1 Model: 1,2 och 5

De resultat som rapporterats av SPSS visar att modell 1, 2 och 5 ger samma resultat där modell 2 och 5 krävt 5 steg till skillnad från modell 1 som krävde 4 steg.

Tabell 4.1: De kovariater som SPSS rapporterade efter det sista steget i mo-deller 1,2 och 5

Av det som avläses i figur 4.1 är att VVS är över den kritiska gränsen som nor-malt sätts vid modellering,p< 0.005. Frågan som ställs kan då vara varför

ha med den? Det visar sig att om disciplin VVS tas bort och en ny regression utförs kommer disciplin EL att passera den kritiska gränsen vilket leder en till att tro att disciplinerna måste vara korrelerade och disciplin VVS behålls därför.

4.2 Model: 3

Vidare är resultaten på modell 3,se figur 4.5, annorlunda till modeller 1,2 och 5. Referens person istället för referens objekt anses signifikant och inter-aktionen mellan referens objekt och referens person tas med. återigen togs disciplin VVS med, detta diskuterades ovan, men det är inte bara disciplin VVS som är över den kritiska gränsen utan även referensperson och interak-tions variabeln.

Tabell 4.2: De kovariater som SPSS rapporterade efter sista steget i modell 3

4.3 Model: 4

Model 4 visar att interaktions variabeln,anbuds typ med timpris i genom-snitt, är signifikant.

Det som är oroande är att konstanten och 2 andra kovariater, referens objekt och disciplin VVS, är relativt högt över den kritiska gränsen, p< 0.05.

Tabell 4.3: De kovariater som SPSS rapporterade efter sista steget i modell 4

4.4 Model: 6

De kovariater som är ligger över den kritiska gränsen är disciplin VVS, re-ferensperson och interaktionen mellan referens objekt med refers person.

Disciplin EL är även väldigt nära gränsen.

4.5 Psuedo R

2

och Deviance, −2 log likelihood

De psuedo R2 som rapporteras är Cox & Snell R square och Nagelkerke R square. Till skillnad från det vanliga R2 som rapporteras i vanlig multiple regressionsanalys visar dessa R2inte hur stor del som regressions modellen står för när ett värde uppskattas. Dessa R2visa ungefär hur står del regres-sions modellen står för när värden uppskattas.

Anledningen till att den vanliga R2som rapporteras i multiple regressionsa-nalys är för att logistisk regression är heteroskedastisk i sin natur.

−2 log likelihood som SPSS rapporterar är det samma som deviance, vilket kan ses som residual sum of squares i linjär regression. Om deviance, eller

Tabell 4.4: De kovariater som SPSS rapporterade efter sista steget i modell 6

−2 log likelihood, är hög innebär det att modellen inte stäar för stor del av variansen.

4.5.1 Modell 1,2 och 5

I modell 1,2 och 3 ändras psuedo R:en inte med mycket under stegens gång.

Enda skillnaden mellan modellerna var att modell 2 och 5 hade fler steg än modell 1.

Utskriften visar även att−2 log likelihood är väldigt stor vilket tyder på att modellen inte förklarar en stor av variansen.

Tabell 4.5: Psuedo R2modell 1

Tabell 4.6: Psuedo R2modell 2

Tabell 4.7: Psuedo R2modell 5 4.5.2 Modell 3

Modell 3 var psuedo R2 något bättre än de i modell 1,2 och 5 men−2log likelihood visar sig fortfarande vara hög genom alla 3 steg.

Tabell 4.8: Psuedo R2modell 3 4.5.3 Modell 4

Modell 4 följer trenden med högt−2 log likelihood och med låga R2. 4.5.4 Modell 6

Modell 6 är av att dömma på SPSS utskrifter den modellen som verkar lämp-ligast sett till−2 log likelihood värdet och R2värdena, i jämförelse med de

Tabell 4.9: Psuedo R2modell 4 andra modellerna.

Tabell 4.10: Psuedo R2modell 6

4.6 Signifikanser med användning av standardisera-de residualer och Cook’s värstandardisera-den

Nedan visas kovariaternas signifikans när observationer med för stora stan-dardiserade residualer och stora Cook värden utelämnats. Hosmer och Le-meshow test finns i appendix.

4.6.1 Modell 1,2 och 5

Kovariaterna visar sig vara mer signifikanta när fall med stor avvikelse och hög påverkan utelämnats.

Tabell 4.11: Modell 1, 2 och 5’s kovariater 4.6.2 Modell 3

Modell 3 behåller samma kovariater som innan dock är alla kovariater sig-nifikanta till skillnad från första analysen där disciplin VVS, referensperson och interaktionen mellan referensobjekt samt referensperson inte ansågs sig-nifikanta.

Tabell 4.12: Modell 3’s kovariater 4.6.3 Modell 4

Konstanten visar sig vara insignifikant och disciplin VVS togs bort medan resterande kovariaterna visar sig vara av signifikanta.

4.6.4 Modell 6

Modell 6 består av samma kovariater efter de 7 stegen dock är de signifikan-ta.

Tabell 4.13: Modell 4’s kovariater

Tabell 4.14: Modell 6’s kovariater

4.7 Psuedo R

2

och Deviance, −2 log likelihood med standardiserade residualer och Cook’s värden

4.7.1 Modell 1,2 och 5

R2visar sig vara större och−2 log likelihood för modellerna visar sig vara lägre, vilket är positivt. Dock ska det noteras att R2 är högre under de två första stegen, när fler insignifikanta kovariater var med.

4.7.2 Modell 3

Modell 3 visar högre R2än i första analysen och även lägre−2 log likelihood men även här liksom i modellerna 1,2 och 5 var R2högre u de första stegen.

Tabell 4.15: Psuedo R2och−2 log likelihood för modell 1,2 och 5

Tabell 4.16: Psuedo R2och−2 log likelihood för modell 3 4.7.3 Modell 4

Modell 4 visar högre R2 än och även lägre −2 log likelihood och liksom modellerna innan visar det sig att psuedo goodness of fit värdena, R2, var betydligt högre i de tidigare stegen.

Tabell 4.17: Psuedo R2och−2 log likelihood för modell 4

4.7.4 Modell 6

Den sista modellen visade sig ha fått störst R2jämfört med de andra model-lerna, och jämfört med sig självt i första analysen. Det borde även noteras att i första steget var R2 väldigt högt men som nämnt innan skall man ej förlita sig för mycket på de.−2 log likelihood visar sig vara under 70, vilket fortfarande är högt men det får ses som något positivt.

Tabell 4.18: Psuedo R2och−2 log likelihood för modell 4

4.7.5 De slutliga modellerna utan standardiserade residualer och Cook’s värden

Modell 1,2 och 5:

Lo g i t (p

1

) = 8.126 − 1.229X

1

+ 1.355X

3

+ 1.511X

4

− 1.798X

6

+1.413X

7

− 1.257X

9 (4.1) Modell 3:

Lo g i t (p

1

) = 10.263 − 1.297X

1

+ 1.352X

3

+ 1.527X

4

− 1.607X

6

−1.498X

8

− 1.402X

9

+ 1.399X

7

X

8 (4.2) Modell 4:

Lo g i t (p

1

) = 2.307 + 1.145X

3

+ 1.551X

4

+ 4.822X

6

+1.146X

7

− 1.217X

9

− 1.355X

1

X

6 (4.3)

Modell 6:

Lo g i t (p

1

) = 9.151 − 1.056X

1

+ 1.302X

3

+ 1.513X

4

−1.446X

8

− 1.410X

9

− 0.336X

1

X

6

+ 1.356X

7

X

8 (4.4) 4.7.6 De slutliga modellerna med standardiserade residualer och

Cook’s värden

Nedan visas ROC kurvorna, samt arean under de, mellan modellerna i de två analys omgångarna. Vad som kan ses i samtliga fall är att genom eli-mineringen av observationer med stora standardiserade residualer och stora Cook värden leder till att arean under ROC kurvan blir större och där genom leder till en bättre urskiljning.

(a) omgång 1 (b) omgång 2

Figur 4.1: ROC kurvorna för modellerna 1,2 & 5

(a) omgång 1 (b) omgång 2

Figur 4.2: ROC kurvorna för modell 3

(a) omgång 1 (b) omgång 2

Figur 4.3: ROC kurvorna för modell 4

(a) omgång 1 (b) omgång 2

Figur 4.4: ROC kurvorna för modell 6

(a) Omgång 1.

(b) Omgång 2.

Figur 4.5: Arean under ROC kurvorna för modellerna 1,2 & 5.

(a) Omgång 1.

(b) Omgång 2.

Figur 4.6: Arean under ROC kurvorna för modell 3.

(a) Omgång 1.

(b) Omgång 2.

Figur 4.7: Arean under ROC kurvorna för modell 4.

(a) Omgång 1.

(b) Omgång 2.

Figur 4.8: Arean under ROC kurvorna för modell 6.

Kapitel 5

Diskussion, felkällor & slutsats

Av att döma av resultaten visar det sig att utav de 6 modellerna som fö-reslogs var det modell 6, där standardiserade residualer och Cook’s värden användes, som visade sig vara den bästa modellen. Själva modellen var dock inte speciellt lyckad då den förklarade ungefär lite mer än 50% av variansen, sett till R2, där−2 log likelihood var väldigt hög, tolkas ungefär som residu-al sum of squares i multipel regressionsanresidu-alys, vilket visar att modellen inte har en stark förutsägelse kraft och sett till ROC kurvorna var modellernas urskiljning allt från acceptabel till enastående. Sammanfattningsvis rekom-menderas ingen modell till att förutse sannolikheten att vinna ett anbud fast än om arean under ROC kurvorna visar sig vara väldigt höga, man måste nämligen även ta hänsyn till−2 log likelihood som är väldigt hög i samtliga modeller, dock kan det vara motiv till att fortsätta forska på ämnet och ideen.

Angående kovariaterna som användes visade det sig att antalet fyllda roller i ett projekt, de administrativa, verkade vara insignifikanta vilket kan vara p.g.a. alla roller har olika vikt i ett projekt och att bara räkna på antalet rol-ler utan att ta hänsyn till vilka rolrol-ler som faktiskt fyllts utan enbart räkna på hur många som fyllts kan vara anledning till att den visats vara insignifi-kant. Affärsområde visade sig inte heller ha signifikans och det kan vara för att de observationer som tagits var till stor del uppdelad mellan 3 affärsom-råden. En kovariat som förvånade var referens person som visade negativt medan referens projekt visade positivt, troligtvis är det p.g.a. observationer-na och att referens person vart korrelerad med andra kovariater. En anobservationer-nan förklaring kan vara att väldigt många av de äldre och erfarna arbetarna har pensionerats de sista åren och många nyexaminerade arbetare har anställts vilket resulterar i bleka referenser i jämförelse med de äldre och mer erfarna arbetarna.

Logistiska regressions modellers grafer skall vara sigmoid formade, s forma-de, för samtliga modeller var de dock vagt s formaforma-de, se appendix, detta kan

vara p.g.a. antalet observationer och hur man valt samt ställt upp kovaria-terna.

Hur kovariaterna ställs upp är väldigt viktigt då t.ex. kontinuerliga värden är alltid bättre än skalor som kan skapa stora gap mellan värdena, i det här ex-emplet är det timpris i genomsnitt som är skalad, p.g.a. sekretess, något som skapar väldigt stora gap mellan värdena då en stor andel genomsnitts timpris grupperas när de kanske egentligen inte borde grupperas. Man måste även ta hänsyn till att en eller flera kovariater kan bero eller påverka varandra vil-ket skapar problem där t.ex. två kovariater beror av varandra och det visar sig efter gjord analys att en av kovariaterna visar sig insignifikant där beslu-tet att utelämna den görs. Det som kan ske p.g.a. att de påverkar varandra, korrelerade till den grad att de har relativt stor inverkan på varandra, är att vid nästa steg av analysen skjuter den andra kovariaten upp eller ned i både signifikans och dess parameter, koefficient, värdeβ.

Datan som tillförs spelar även stor roll, kanske störst roll, i det här fallet då den inte finns lagrad som specifik information utan i form av textmas-sa, leder till att större delen av tiden spenderas på att extrahera data. Detta skulle kunna lösas genom att företaget Sweco skapar en form av databas där de anbudsansvariga i framtiden fyller informationen som getts och fåtts.

Naturligtvis kan inte det skapas matematiska modeller som innehåller alla kovariater då de flesta anbud skiljer sig åt, ibland går de i steg och ibland skickas allt på en gång, vilket leder till att matematiska modeller för subgrup-per eller steg skulle kunna skapas för att inte bara förutspå sannolikheten att vinna ett anbud utan även skapa modeller som förutspår chansen att gå vi-dare ett steg beroende på vad beställaren kräver.

Sist kan det nämnas att om logistisk regressions är valet av regressionsana-lys och regressionen skall utföras utförligt med alla tester och lösningar till problem behövs det mer tid än 7 veckor och betydligt kraftfullare mjukvara.

5.1 Om arbetet

Arbetet var intressant då det involverade användningen av logistisk regres-sion vilket används bl.a. till att beräkna risk m.m.[2]. Logistisk regressionsa-nalys visade sig dock att vara väldigt annorlunda och mer komplext än vanli-ga multipel regressions analysen, man kunde nämligen inte se saker på sam-ma sätt och antagandena var olika. Jämfört med multiple regressionsanalys som har relativt kända metoder för att handskas med problem som multi-kollinearitet, heteroskedasticitet och autokorrelation, för att nämna några, är det inte lika för logistisk regression som för det första är heteroskedastisk i sin natur[2] och för det andra är väldigt känsligt för multikollinearitet,

vil-ket är ett relativt vanligt problem, detta gör att kovariaterna blir svåra att tolka. Vidare krävs det väldigt avancerade mjukvareprogram för att kunna beräkna och testa modeller utförligt, SPSS må kunna utföra skattningar av parametrar och skapa scatter plots dock kan den inte utföra mycket mer. De mjukvareprogram som krävs för att t.ex. vid multikollinearitets problem be-räkna Fhir estimates är program som SAS och STATA, deras mest avancerade paket [2]. Inte nog med att det krävs väldigt tekniskt avancerad mjukvara för att utföra logistisk regressionsanalys ordentligt, det finns nämligen inte mycket information att hitta om logistisk regression förutom introduktions information vilket inte leder till några stora framsteg.

Det som skulle behövas för ett arbete vars mål och syfte är att skapa en mate-matisk modell och analysera faktorer som påverkar utfallet m.h.a. logistisk regression skulle vara att gå en kurs enbart för logistisk regression då lo-gistisk regression är väldigt omständigt. Just för någon som gått en kurs i tillämpad statistik vars primära syfte är att lära ut multipel regressionsana-lys och där logistisk regression endast gås igenom ytligt blir ett arbete som det här väldigt svårt att utföra med lyckat resultat, speciellt om det utförs helt självt.

Själva ideen var dock väldigt intressant då anbud är en väldigt viktig del inom teknik konsult branschen, det för med sig efter allt arbete samt vinst, betingat att allt går vägen.

Överlag har arbetet varit intressant och roligt men också frustrerande, då man inte kunnat förstå eller hitta information. Med tanke på att kunskapen om hur logistisk regression funkar är väldigt nyttig och används mycket inom beräkning av risk bl.a. dock krävs det mycket tid till att förstå sig på regres-sions typen. Via arbetet har mycket lärts men det finns fortfarande mycket att lära sig om logistisk regression, allt från binärt till multinomial, och jag ser fram i mot att lära mig mera om logistisk regression.

Kapitel 6

Appendix

6.1 Hosmer och Lemeshow test

(a) Modell 1.

(b) Modell 2.

(c) Modell 5.

(a) Modell 3.

(b) Modell 4.

(c) Modell 6.

Figur 6.2: Lemeshow testen för modellerna 3,4 & 6.

6.2 Hosmer och Lemeshow test för analysen med stan-dardiserade residualer och Cook’s värden

Hosmer och Lemeshow test för modell 2 och 5 har utelämnats då de leder till samma sak som modell 1 i slutändan.

(a) Modell 1.

(b) Modell 3.

(c) Modell 4.

(d) Modell 6.

Figur 6.3: Lemeshow testen för modellerna 1 till 6.

6.3 Modellernas logit grafer utan standardizerade re-sidualer och Cook’s värden

(a) Modell 1,2 och 5.

(b) Modell 3.

Figur 6.4: Logit graferna till modeller1,2,3 och 5

(a) Modell 4.

(b) Modell 6.

6.4 Modellernas logit grafer med standardiserade re-sidualer och Cook’s värden

(a) Modell 1,2 och 5.

(b) Modell 3.

Figur 6.6: Logit graferna till modeller1,2,3 och 5

(a) Modell 4.

(b) Modell 6.

Figur 6.7: Logit graferna till modeller 4 och 6

6.5 Modellernas logit residualer med och utan stan-dardiserade residualer och Cook’s värden

(a) Modell 1 residualer utan standard res. & Cook

(b) Modell 1 residualer med standard res. & Cook.

Figur 6.8: Logit residualer till modell 1

(a) Modell 2 residualer utan standard res. & Cook

(b) Modell 2 residualer med standard res. & Cook.

Figur 6.9: Logit residualer till modell 2

(a) Modell 3 residualer utan standard res. & Cook

(b) Modell 3 residualer med standard res. & Cook.

Figur 6.10: Logit residualer till modell 3

(a) Modell 4 residualer utan standard res. & Cook

(b) Modell 4 residualer med standard res. & Cook.

Figur 6.11: Logit residualer till modell 4

(a) Modell 5 residualer utan standard res. & Cook

(b) Modell 5 residualer med standard res. & Cook.

Figur 6.12: Logit residualer till modell 5

(a) Modell 6 residualer utan standard res. & Cook

(b) Modell 6 residualer med standard res. & Cook.

Figur 6.13: Logit residualer till modell 6

Litteraturförteckning

[1] D. N. Gujarati, “Basic econometrics. 4th,” 2003.

[2] D. W. Hosmer and S. Lemeshow, Applied logistic regression, vol. 354.

Wiley-Interscience, 2004.

Related documents