• No results found

Datamängden

In document Data mining (Page 31-34)

8.1 Insamling av data

Den data som använts i det här arbetet har tillhandahållits av Volvos dieselmotorfabrik i Skövde. Detta med anledning av Volvos eget intresse av arbetet. För att få ett användbart material krävs att datan kommer från likadana motorer. Annars blir en jämförelse svår att genomföra.

Datan som behövdes fick hämtas från flera databaser. Först valdes en motortyp ut, som tillverkats i stor upplaga under lång tid utan förändringar. Valet föll på en tolvlitersmotor, D12A420, och tidsperioden 95-12 till 96-12. Tidsperioden bestämdes dels av att motorerna måste ha varit i drift under en tid för att skillnader i kostnader skall hinna uppträda, och dels att den under perioden tillverkats i oförändrat utförande.

Uppgifter från eftermarknaden finns hos dataenheten i Göteborg. Där finns uppgifter om de kostnader som varje fordon gett upphov till. Datan är kopplad till lastbilens chassinummer, inte motornummer. Därifrån erhölls de 300 chassinummer som hade de högsta motorkostnaderna, och de 300 som hade de lägsta.

De flesta motorer tillverkas till ett bestämt chassi till en bestämd kund. Denna data finns i en databas på motorfabriken i Skövde. Där finns också uppgift om när motorn levererats från fabriken. Till vissa marknader finns dock inte kopplingen till ett bestämt chassi.

Resultaten från motorprovningen finns i en annan databas på motorfabriken. Den innehåller provresultat fram till maj -97, då ett nytt system togs i bruk.

8.1.1 Datans struktur

Posterna från de olika databaserna har i huvudsak följande struktur:

• Kostnadsdatan innehåller chassinummer, chassityp, motornummer, importör och material-, arbets- och totalkostnad.

• Leveransdatan innehåller motornummer, chassinummer (oftast) och leveransdag.

• Provningsdatan innehåller motornummer, motortyp, datum, pump- och turbonummer, 33 st uppmätta värden från provningen samt uppgift om i vilken provbox motorn provkörts.

Företagssekretess

Eftersom exempelmängden utgörs av testdata från Volvos kvalitetssystem och uppföljningssystem innebär det att en viss sekretess måste iakttagas. Därför finns ingen redovisning av vad attributen exakt står för eller attributens värden. I de grafer där värden på datan förekommer har värdena därför normaliserats enligt kap. 9.1.1.

8.2 Sammanställning av datan

Vid sammanställningen av uppgifterna från de olika databaserna uppstod en del problem. Motornumret för ett visst chassi från kostnadsdatan stämde inte med numret från leveransdata. Några motornummer var då också tillverkade efter tidsintervallet.

Motorn har alltså bytts ut. Eftersom det är den utbytta motorn som förorsakat

Datamängden

kostnaden kopplas till rätt provningsdata. För de motorer där leveransdata inte innehöll chassinummer kontrollerades att tillverkningen av motorn låg inom tidsintervallet. Om så var fallet antogs den vara originalmotor.

8.2.1 Rensning

Den tillgängliga datamängden rensades innan några tester genomfördes. Vissa poster och vissa attribut togs bort ur datamängden av olika orsaker som redovisas nedan.

Skälet var att få en så god kvalité som möjligt på datan, i syfte att ge de olika metoderna så bra förutsättningar som möjligt.

Dubbletter

För ett fåtal motorer fanns det dubbla uppsättningar provdata. Där dateringen skilde endast en eller några dagar antogs den senaste provningen som den relevanta. Den första provningen resulterade då i en rejekt. Det fanns dock motorer där det skilde flera månader på de båda provtillfällena. Där hände det att leverans angavs till strax efter första provtillfället. Någon rimlig förklaring till det andra provtillfället kunde inte hittas. De motorer vars dubbletter saknade rimlig förklaring togs bort, eftersom det var oklart vilken uppsättning provningsdata som skulle kopplas till kostnaden.

Felaktiga värden

Några uppenbart felaktiga värden upptäcktes. Uppgiften om oljetemperatur vid effektmätningen visade orimligt lågt värde. Temperaturen på oljan mäts vid tre tillfällen; låg tomgång, hög tomgång (fullgas utan belastning) och vid max effektuttag.

Motorerna hade normala värden vid låg och hög tomgång, strax över 100 grader, men lågt vid maxeffekt. Två motorer hade mycket låga värden, 24 respektive 29 grader. En tredje hade 97 grader, inte extremt lågt men lägre än vid de andra två mätningarna.

Dessa tre motorer togs bort ur datamängden eftersom provningsvärdena inte representerar den faktiska bilden av motorerna.

Orsaken till att dessa låga värden kan finnas i provningsdatan är att det inte finns någon nedre toleransgräns för det värdet och därmed accepterar systemet låga värden utan att reagera. Förklaringen till att det saknas nedre gräns är att vid belastning blir motorn varm, och därför finns bara en övre gräns. Vid de andra två temperaturmätningarna, där motorn går obelastad och då inte blir så varm, finns en nedre gräns.

Fel motorer

Datamängden visade sig innehålla några motorer med en annan beteckning, EPG istället för VEB. EPG-motorerna saknar den speciella motorbromsteknik som VEB-motorerna har, nämligen att avgasventilen lyfts efter kompressionstakten. Det innebär att de är av ett något enklare utförande, med något färre tekniska detaljer. Detta gör dem svåra att jämföra med övriga motorer eftersom en mer komplicerad motor har fler saker som kan krångla och därmed orsaka högre kostnader. Dessa enklare motorer, 14 stycken, togs bort ur datamängden.

Slopade attribut

En mängd attribut har tagits bort. Det är sådana som anses irrelevanta för undersökningen eller tagits bort av andra orsaker. Bland de irrelevanta hör datum,

Datamängden

chassinummer, typbeteckning, pump- och turbonummer. Importör har tagits bort med tanke på den begränsade datamängden. 31 olika importörer förekommer, några endast en gång. Som mest förekommer en importör 120 gånger. Uppgiften om importör skulle kunna användas för att se om motorerna klarar sig olika bra på olika marknader.

Till detta krävs dock en betydligt större mängd för att få ett rimligt utfall. Uppgiften om provbox har slopats då fabriken regelbundet kalibrerar sina boxar. Därför antas provningsvärdena från de olika boxarna vara jämförbara.

8.2.2 Den återstående datan

Efter genomförd sammanslagning och rensning av datan återstod 578 motorer (290 med höga kostnader, 288 med låga). Varje motor representerades av motornummer, kostnad i kronor och 33 värden från provningen. Alla provningsvärden är numeriska inom ett kontinuerligt intervall, bortsett från olika avrundningar. Exempelvis mäts temperatur i hela grader.

Klusteranalysen

In document Data mining (Page 31-34)

Related documents