• No results found

Projekt 2: Linjär regression

N/A
N/A
Protected

Academic year: 2022

Share "Projekt 2: Linjär regression"

Copied!
9
0
0

Loading.... (view fulltext now)

Full text

(1)

MATEMATISK STATISTIK, AK FÖRL, FMS 033, HT-02

Projekt 2:

Linj¨ ar regression

1 Syfte

Detta projekt handlar om regressionsanalys och är upp- delad i två delar. Del ett handlar om enkel linjär regres- sion medan del två handlar om multipel linjär regression.

De grundläggande modellerna presenteras och anpassas med minsta-kvadrat-metodens hjälp till givna datama- terial. Projektet syftar också till att visa på några av de egenskaper hos de skattade modellerna som man, un- der förutsättning att vissa grundläggande antaganden är uppfyllda, kan härleda med statistikteorins hjälp. I detta sammanhang spelar även modellvalidering och residua- lanalys en viktig roll.

2 Enkel linjär regression

2.1 Förberedelseuppgifter

(a) Läs kapitel 15 i kursboken samt kapitlen 3 och 4 i kompendiet [3], så att du är väl förtrogen med matrisformuleringen av regressionsproblemet.

• (b) Lös del (i) av uppgift 102 i övningshäftet genom att ställa upp det i matrisform och sedan lösa nor- malekvationerna XtX = Xty.

• (c) Vad innebär det att utföra ett signifikanstest med den så kallade konfidensmetoden?

• (d) Räkna uppgift 1503 i kursboken. Vad skulle du dra för slutsats om det visade sig att det beräknade konfidensintervallet för regressionslinjens lutning innehöll nollan?

• (e) Räkna uppgift 103 i övningshäftet. Beräkna föru- tom de tre efterfrågade konfidensintervallen också ett 95 %-igt prediktionsintervall för torktiden, om koncentrationen är 17.0.

2.2 Linjära regressionsmodeller i allmänhet Med matrisnotation kan en allmän linjär regressionsmo- dell, vare sig den är enkel eller multipel, skrivas

y = X + e,

(med samma beteckningar som i kompendiet [3]) där de ingående matriserna har följande form:

y =

y1

y2 ... yn

, X =

1 x(1)1 . . . x(p)1 1 x(1)2 . . . x(p)2 ... ... . .. ...

1 x(1)n . . . x(p)n

 ,

=



0



..1

.



p

och e =



1



..2

.



n

 .

Rent allmänt fås minsta-kvadratlösningen till ett överbestämt ekvationssystem y = X via de så kallade normalekvationerna

XtX = Xty,

som =(XtX)−1Xty. Man bör dock i möjligaste mån undvika att lösa ut genom att invertera matrisen XtX.

Om matrisen är illa konditionerad kan man nämligen få en feltillväxt som gör resultatet helt oanvändbart. Det finns bättre numeriska metoder för att hantera detta pro- blem (se till exempel [1, 2]).

I MATLAB finns visserligen en funktion invför att in- vertera matriser, men en numeriskt sett effektivare och mer stabil lösning får du om du i stället använder ope- ratorn \ som kan uppfattas som vänsterdivision (för en mer utförlig beskrivning se till exempel [4, 5]). Det re- kommenderade sättet att lösa matrisekvationen ovan är alltså

>> b = X\y

(2)

2.3 Enkel linjär regression i matrisform

Vid enkel linjär regression söker man anpassa en rät linje till datamaterialet, dvs modellen är

yi =



0+



1xi+ i, i = 1, . . . ,n,

där  i är oberoende likafördelade störningar med vänte- värdet 0 och variansen 2.

Vi kommer i den följande framställningen att arbeta med matrisformuleringen av modellen, vilket innebär att vi skriver det överbestämda ekvationssystemet ovan som

y = X + e,

där de ingående matriserna har följande form (se kom- pendiet [3]):

y =

y1

y2

... yn

, X =

1 x1

1 x2

... ... 1 xn

 ,

=

 

0



1



och e =



1



..2

.



n

 .

observation x1, x2, x3 y1 y2 y3 x4 y4

1 10.0000 8.0400 9.1900 7.4600 8.0000 6.5800

2 8.0000 6.9500 8.1400 6.7700 8.0000 5.7600

3 13.0000 7.5800 8.7400 12.7400 8.0000 7.7100

4 9.0000 8.8100 8.7700 7.1100 8.0000 8.8400

5 11.0000 8.3300 9.2600 7.8100 8.0000 8.4700

6 14.0000 9.9600 8.1000 8.8400 8.0000 7.0400

7 6.0000 7.2400 6.1300 6.0800 8.0000 5.2500

8 4.0000 4.2600 3.1000 5.3900 8.0000 5.5600

9 12.0000 10.8400 9.1300 8.1100 8.0000 7.9100

10 7.0000 4.8200 7.2600 6.4200 8.0000 6.8900

11 5.0000 5.6800 4.7400 5.7300 19.0000 12.5000

Tabell 1: Anscombedata 2.4 Fallgropar

För att illustrera vådan av att okritiskt anpassa en lin- jär modell till ett givet datamaterial har F. J. Anscombe konstruerat ett datamaterial, se tabell 1, som finns lagrat i filenanscombe.matoch kan laddas in i MATLAB med hjälp av kommandotload anscombe. Med kommandot whofår du reda på aktuella variabler i minnet. En lämplig början är alltid att ta sig en titt på datamaterialet. Börja med att plottay1gentemotx1, dvs

>> subplot(221)

>> plot(x1,y1,’+’)

Plotta sedan y2mot x2, y3 mot x3, samt y4 mot x4(med hjälp av kommandotsubplotkan du få alla fyra plottar- na var för sig i samma fönster, det ger en bra överblick).

Vi skall nu helt aningslöst till var och en av datamäng- derna anpassa en linjär modell enligt

yi = +

 xi+ i, i = 1, . . . ,n,

där  i är oberoende likafördelade störningar med vänte-

värdet 0 och variansen 2.

Vi börjar med att konstruera matrisen X (enligt notatio- nen i det inledande avsnittet ovan) för den första data- mängden på följande sätt:

>> X1 = [ones(size(x1)) x1]

Med MATLABs inbyggda ”minsta-kvadrat-lösare” kan vi snabbt och enkelt få fram vår skattning av som

>> b1 = X1\y1

Denna ”vänsterdivision” med matrisen X1 innebär att MATLAB beräknar vänsterinversen till X1, och om sy- stemet är överbestämt bestämmer MATLABautomatiskt minsta-kvadrat-lösningen.

Nu kan vi bestämma den skattade regressionslinjen och sedan rita in denna ovanpå punktdiagrammet över det första datamaterialet.

>> y1hat = X1*b1;

(3)

>> subplot(221)

>> hold on

>> plot(x1,y1hat)

>> hold off

Är det rimligt att teckna sambandet mellan den förkla- rande variabeln x1och den beroende variabelny1som ett linjärt samband? För att studera hur väl vår modell stämmer med givna data, beräknar vi först vektorn av re- sidualer. Om modellen är korrekt skall residualerna un- gefärligen (vi använder skattade parametrar) vara obser- vationer av likafördelade stokastiska variabler. För att un- dersöka hur det förhåller sig med detta utför vi en residu- alanalys enligt beskrivningen i kurslitteraturen. Vi kan, till exempel, plotta residualerna gentemot den förklaran- de variabeln.

>> figure

>> subplot(221)

>> res1 = y1-y1hat;

>> plot(x1,res1,’+’)

Om vårt modellantagande är korrekt skall vi inte kunna skönja någon systematisk variation i diagrammet. Kan du finna något beroende?

Nu vill vi göra motsvarande för de övriga tre datamateri- alen, det vill säga, lösa ekvationssystemen, skatta regres- sionslinjerna och rita ut residualerna. För att du ska slip- pa göra alla dessa kommandon finns de sammanställda i MATLAB-filenanscombe.m. Skriv alltså

>> anscombe

för att få skattningar och plottar och besvara sedan föl- jande frågor:

• Uppgift 2.1:

Jämför värdena på de skattade koefficienterna för var och en av de fyra regressionslinjerna.

Svar:

• Uppgift 2.2:

Studera och jämför residualplottarna för de fyra olika fal- len. Passar det med linjära samband i alla de fyra fallen?

Var passar det inte och varför?

Svar:

• Uppgift 2.3:

Vad har denna lilla studie att förtälja den som helt slent- rianmässigt och okritiskt vill använda en linjär regres- sionsmodell?

Svar:

2.5 Kalibrering av flödesmätare 2.5.1 Bakgrund

Kalibrering av en flödesmätare genomförs oftast i en spe- ciell kalibreringsrigg. Här finns en referensmätare eller referensmetod för att mäta flödet. För att erhålla en god bild av hur den testade flödesmätaren fungerar utförs ka- libreringen vid ett stort antal flöden. Tyvärr kan man även vid kalibrering råka ut för situationer där den testa- de mätaren störs av testförhållandena.

Om, till exempel, pulsationer uppträder i flödet kom- mer detta att negativt påverka resultaten för den testa- de mätaren. Detta visar sig oftast vid låga flödeshastig- heter, då ultraljudsmätare tenderar att överskatta flödes- hastigheten. Detta orsakas av att vi erhåller en laminär flödesprofil i röret, vilket medför att en ultraljudsmätare kan överskatta flödet med upp till 33 % vid fullt utbildad laminär strömning.

Vid låga flöden ser vi även att vi har stora fluktuationer i resultaten. Detta beror troligen på att vi har flödespul- sationer i flödesriggen vilka kommer att orsaka fluktu- erande resultat för ultraljudsflödesmätaren, bland annat orsakat av så kallade aliasproblem.

Vid höga flöden uppträder troligen kavitation inne i ult- raljudsflödesmätaren vilket kan förklara de positiva felen och den ökade spridningen för strömningshastigheter över 6.3 m/s.

2.5.2 Metod

Vi har nu tillgång till data från en kalibrering av en ultraljudsflödesmätare. Datamaterialet, som kommer från institutionen för värme- och kraftteknik, omfattar 71 mätningar och är lagrat i matrisenflode, där varje rad innehåller data från en mätning, variabeln fxavser referensflödesmätningar från kalibreringsriggen och fy avser respektive flöden uppmätta med den testade ult- raljudsflödesmätaren (flödeshastigheterna givna i enhe- ten m/s).

Den använda kalibreringsriggen använder kontinuerlig vägning av det genomströmmande vattnet för att be-

(4)

stämma ett massflöde som sedan kan räknas om till me- delhastighet i röret, vilket är vad ultraljudsmätaren mä- ter.

Tanken är här att vi med hjälp av de gjorda mätningarna med givare och referens skall skatta parametrarna i en en- kel linjär regressionsmodell. Vi antar då att referensmät- ningarnas fel kan försummas i jämförelse med ultraljuds- givarens (varför måste vi bekymra oss om detta?) och att ultraljudsgivarens fel är oberoende, likafördelade och har väntevärdet noll.

Vi skall nu använda en färdigskriven funktion reggui och låta den göra grovjobbet. Undersök med help- kommandot vad funktionenregguigör och vad den har för inparametrar.

Observera att du, till exempel, automatiskt kan rita ut konfidensintervall och prediktionsintervall genom att markera i tillämplig ruta. För att bilden skall bli tydligare börjar vi med att studera en liten delmängd av materia- let, 10 talpar av flödesmätningar som ges i variablerna fxaochfya.

>> load flode

>> reggui(fxa,fya)

Använd nu funktionen interaktivt för att göra följande beräkningar:

• Uppgift 2.4:

Beräkna det förväntade värdet enligt ultraljudsmätaren, då flödet enligt kalibreringsriggen är 0.56 m/s. Beräkna också ett 95 %-igt konfidensintervall för detta förvänta- de värde. Beräkna dessutom ett 95 %-igt prediktionsin- tervall för en framtida observation från ultraljudsmäta- ren, då kalibreringsriggen ger mätvärdet 0.56 m/s. Iden- tifiera dessa två intervall i figuren och förklara vad det är som skiljer dem åt. Notera också värdena på de två intervallen eftersom du ska använda dem senare i labora- tionen.

Svar:

Uppgift 2.5:

När vi sedan skall använda den kalibrerade ultraljudsmä- taren, innebär det i princip att vi ”läser baklänges” i ka- libreringskurvan. Antag att vi med ultraljudsmätaren får mätvärdet 0.61 m/s. Beräkna ett 95 %-igt konfidensin- tervall för den ”sanna” flödeshastigheten (det vill säga det värde som kalibreringsriggen skulle ge). Identifiera i figu- ren de kurvor som används vid den grafiska bestämning-

en av detta konfidensintervall och förklara varför det är just dem, man skall använda.

Uppgift 2.6:

När vi enligt det ovanstående beräknat olika konfidens- och prediktionsintervall har vi stillatigande förutsatt att mätfelen hos ultraljudsmätaren är normalfördelade med konstant varians. Var i beräkningarna utnyttjas detta an- tagande?

Om vi vill använda kalibreringskurvan i seriösa samman- hang måste vi först utföra en modellvalidering, det vill säga, vi måste kontrollera att den linjära regressionsmo- dellen ger en adekvat beskrivning av sambandet. Vi kan bland annat validera modellen genom en grafisk residu- alanalys. Vid en sådan residualanalys får följande tre dia- gram, som alla kan fås ireggui, anses vara standard:

• Residualer gentemot observerade eller prediktera- de y-värden.

• Residualer gentemot den oberoende variabelns värden.

• Residualer i normalfördelningsdiagram.

Detta skall vi nu ta itu med, men låt oss göra detta med en modell anpassad till hela datamaterialet. Då kan vi också passa på att studera vissa andra egenskaper hos de olika intervallskattningarna.

>> reggui(fx,fy)

Upprepa nu beräkningarna från första frågepunkten ovan, det vill säga

• Uppgift 2.7:

Beräkna det förväntade värdet enligt ultraljudsmätaren, då flödet enligt kalibreringsriggen är 0.56 m/s. Beräkna också ett 95 %-igt konfidensintervall för detta förvänta- de värde. Beräkna dessutom ett 95 %-igt prediktionsin- tervall för en framtida observation från ultraljudsmäta- ren, då kalibreringsriggen ger mätvärdet 0.61 m/s. Skriv ner de båda intervallen.

Svar:

Jämför intervallbredderna baserade på de 10 mätning- arna med motsvarande intervallbredder för den modell som är anpassad till alla de 71 mätpunkterna. Nu är det inte säkert att du lyckats pricka in precis samma x-värde i de två fallen, men vissa allmänna iakttagelser bör ändå vara möjliga.

(5)

• Uppgift 2.8:

Jämför de två konfidensintervallen. Skiljer de sig väsent- ligt åt (eller inte)? Hur kan det förklaras?

Svar:

• Uppgift 2.9:

Jämför de två prediktionsintervallen. Skiljer de sig vä- sentligt åt (eller inte)? Hur kan det förklaras?

Svar:

• Uppgift 2.10:

Innan vi törs använda den skattade regressionslinjen för prediktion, måste vi naturligtvis förvissa oss om att mo- dellen är adekvat. Ger plottarna anledning att förkasta modellen eller anser du att du på goda grunder kan an- vända den skattade regressionslinjen för kalibrering av ultraljudsmätaren?

Svar:

3 Multipel linjär regression

I och med att vi redan vid enkel linjär regression arbetat med matrismodeller, erbjuder multipel linjär regression inget nytt vad beträffar parameterskattningarna. Vi får utöka matrisen X med ytterligare en kolonn för varje ny förklarande variabel, men minsta-kvadrat-problemet lö- ser vi med benägen hjälp av MATLABpå samma sätt som tidigare.

3.1 Huspriser

I kursen fastighetsvärdering AK använder man bland an- nat multipel linjär regression för att bedöma marknads- värdet för småhus med den s.k. ortsprismetoden. Vi skall nu undersöka hur försäljningpriset P (tkr)för ett antal småhus i Lund under 1995 och 1996 beror på de för- klarande variablerna: Bo-ytaBY(m2), StandardpoängSP, Taxeringsvärde T (tkr) och Husets ålderHA(år). Vi har även uppgifter om: hustypHTdärHT=1 innebär radhus, HT=2 kedjehus ochHT=3 fristående hus och i variabler- na dagD, månad Moch årAfinns uppgifter om försälj- ningdatum för husen lagrade. Data finns lagrade i filen

huspriser.matoch du kan i vanlig ordning läsa in data med kommandotload huspriser.

Börja med att titta på data. Plotta köpesumman mot bo- ytaBY, resp mot standardpoängSP, resp mot taxerings- värdetT, och mot husets ålderHA, exempelvis med kom- mandona:

>> subplot(2,2,1)

>> plot(BY,P,’.’)

>> xlabel(’Boyta’)

>> title(’Huspris som funktion av boyta’)

>> subplot(2,2,2)

>> plot(SP,P,’.’)

>> xlabel(’Standardpo¨ang’)

>> title(’Huspris som funktion av standardpo¨ang’)

>> subplot(2,2,3)

>> plot(T,P,’.’)

>> xlabel(’Taxeringsv¨arde’)

>> title(’Huspris som funktion av taxeringsv¨arde’)

>> subplot(2,2,4)

>> plot(HA,P,’.’)

>> xlabel(’˚Alder’)

>> title(’Huspris som funktion av husets ˚alder’)

• Uppgift 3.1:

Ser sambanden ut som du förväntat dig? Verkar det finns linjära samband mellan huspriset och de förklarande va- riablerna?

Svar:

• Uppgift 3.2:

Kan man alltid räkna med att eventuella samband skall synas, när man plottar den beroende variabeln gentemot de förklarande variablerna en i taget på detta sätt? För- klara varför (eller varför inte).

Svar:

• Uppgift 3.3:

Anpassa en linjär regression till försäljningspriset med de förklarande variablerna: bo-ytaBY, standardpoängSP, taxeringsvärdeToch husets ålderHA. Börja med att skapa X-matrisen ochY-vektorn enligt:

>> X=[ones(size(P)) BY SP T HA];

>> Y=P;

För att snabbt komma vidare kan vi ta MAT-

LAB-funktionen regress till hjälp. Ta med help- kommandot reda på vad funktionen regress gör och

(6)

vad den har för in- och utparametrar, innan du använder den.

>> [b,Ib,r,Ir,stats]=regress(Y,X,0.05);

De skattade parametrarna finns i vektornboch motsva- rande konfidensintervall finns i vektornIboch residua- lerna i vektornr.

• Uppgift 3.4:

När regress räknar ut konfidensintervall för b- parametrarna utnyttjas normalfördelingsantagandet.

Kontrollera om detta är uppfyllt genom att rita in residu- alerna i ett normalfördelningspapper med kommandot:

>> normplot(r)

Det kan här vara bra att repetera resultaten från avsnitt 3.2 i laboration 3 speciellt resultaten på uppgift 3.5. Ver- kar det som om residualerna är normalfördelade? Om inte vilken fördelning ser de ut att ha?

Svar:

• Uppgift 3.5:

Gör en lämplig transformation avY-värdena och gör om regressionen.

>> Y=f(P); % d¨ar f v¨aljs l¨ampligt

>> [b,Ib,r,Ir,stats]=regress(Y,X,0.05);

>> normplot(r)

Verkar residualerna vara normalfördelade nu?

Svar:

• Uppgift 3.6:

Hur många av modellparametrarna är signifikant skilda från noll (på 5 %-nivån)?

Svar:

• Uppgift 3.7:

Gör om regressionen med bara de förklarande variabler som har b-koefficienter signifikant skilda från noll.

>> I=find( (0<bint(:,1))|(0>bint(:,2)))

% index f¨or de koefficienter som ¨ar

% signifikant skillda fr˚an 0

>> X=X(:,I);

>> [b,Ib,r,Ir,stats]=regress(Y,X,0.05);

>> normplot(r)

Vi kan också skatta med hjälp av residualerna.

>> s=std(r)

Vilket antal frihetsgrader har vår -skattning?

Svar:

• Uppgift 3.8:

Vi skall nu studera residualerna närmare. Först kontrol- lerar vi igen om de är normalfördelade. Sen vill vi också kontrollera om det finns någon systematik hos residua- lerna.

>> figure

>> normplot(r)

>> xlabel(’Residualer’)

>> figure

>> subplot(221)

>> plot(BY,r,’x’)

>> title(’Residualer mot bo-yta’)

>> xlabel(’Bo-yta (m^2)’)

>> subplot(222)

>> plot(HA,r,’x’)

>> xlabel(’˚Alder (˚Ar)’)

>> title(’Residualer mot husets ˚alder’)

>> subplot(223)

>> plot(T,r,’x’)

>> title(’Residualer mot taxeringsv¨arde’)

>> xlabel(’Taxeringsv¨arde (tkr)’)

>> subplot(224)

>> plot(P,r,’x’)

>> title(’Residualer mot husets pris’)

>> xlabel(’Pris (tkr)’)

Vilka slutsatser kan vi dra från ovanstående plottar? Ver- kar vår modell rimlig?

Svar:

• Uppgift 3.9:

För att ytterligare testa vår modell har vi sparat någ- ra huspriser som vi inte hade med i datamaterialet då vi anspassade vår regressionsmodell. Dessa finns i filen huspriser2.mat. Ladda in data med kommandotload huspriser2. Här heter variablerna samma saker som för det första datamaterialet fast med tillägg av 2 på slu- tet av alla variabelnamn. Således heter huspriserna P2,

(7)

HA2är husen ålder osv. Välj ut något/några av husen och gör ett 95-%-igt prediktionsintervall för priset med hjälp din tidigare modell. Ligger det verkliga priset i ditt pre- diktionsintervall? Är prediktionsintervallets bredd rimlig med tanke på om vill använda det praktiskt för att vär- dera hus? Finns det något vi kan göra för att förbättra detta?

• Uppgift 3.10:

Vi vill avslutningsvis också undersöka om priserna har ändrats från 1995 till 1996. Vi väljer här att titta bara på de fristående husen (dvs de med HT=3. Vi kan välja ut priser för fristående hus från 1995 respektive 1996 med kommandona:

>> Pf95=P((A==1995)&(HT==3));

>> Pf96=P((A==1996)&(HT==3));

Vi kan nu utnyttja att log-priserna är ungefär normalför- delade. Gör således ett 95-%-igt konfidensintervall för skillnaden i medelpris för fristående hus från 1995 och 1996. Ledning: Använd teorin för konfidensintervall för skillnad i väntevärde mellan två oberoende normalpopu- lationer. Detta kan vi sedan översätta till ett 95-%-igt konfidensintervall för kvoten mellan medelpriset för fri- stående hus 1995 och 1996 genom att ta e upphöjt till de båda gränserna för konfidensintervallet för skillnad i log-priser. Kommentera resultatet? Har priserna gått upp eller ner?

Svar:

3.2 Polynomregression

Vi skall nu avsluta denna laboration med ett exempel på polynomregression, som vi med ett lämpligt val av förklarande variabler kan behandla som ett specialfall av multipel linjär regression. Hur detta går till beskrivs i kompendiet [3].

Vi skall använda data från uppgift 110 som exempel:

Olikheterna mellan fotogrammetrisk triangulerad höjd- mätning — före justering — och terrestiellt beräknad förhöjning är ett exempel på mätningsfel i fotogramme- tri. De här skillnaderna, Y , i höjdberäkningarna, har ob- serverats och teoretiskt visats att vara en ickelinjär funk- tion av avståndet x längs centrumlinjen i en triangel en- ligt följande:

Y ≈ a + bx + cx2

Bestäm minsta-kvadrat-skattningarna av a, b, och c ut- gående från följande mätningar.

Avståndet längs centrumlinjen Fel i förhöjningen av triangelformad strip

X Y

(km) (m)

0 0

0.5 0

1.2 −0.3

1.7 −0.6

2.4 −1.4

2.7 −2.0

3.4 −3.1

3.7 −4.0

Läs in datafilen triangel.mati MATLABs arbetsarea med kommandotload triangel. Avståndet från cent- rumlinjen finns i variabelnx och felet i förhöjningen i variabely.

Vi skall återigen användaregguitill att göra grovjobbet, så att vi kan koncentrera oss åt att tolka resultatet. Vi vet att gradtalet på polynomet borde vara 2. Prova ändå med olika gradtal och studera skattade parametrar och deras konfidensintervall.

Nu är det hög tid att fundera och besvara några frågor:

• Uppgift 3.11:

Fick du några varningsmeddelanden? Vad kan det i så fall bero på?

Svar:

• Uppgift 3.12:

Undersök för varje modell vilka parametrar som är sig- nifikant skilda från noll (till exempel på 5 %-nivån). På vilket sätt är denna undersökning beroende av antagan- det om oberoende normalfördelade slumpfel?

Svar:

• Uppgift 3.13:

Välj utifrån en samlad bedömning av figurerna och de skattade parametrarna med konfidensintervallen ut den polynom-modell som du tycker är mest adekvat. Ditt val skall vara väl motiverat!

Svar:

(8)

4 Avslutning

Linjära regressionsmodeller är på grund av sin enkelhet mycket populära. Dock skall man alltid efter det att man anpassat en sådan modell — och alltså innan man tar den i bruk — utföra en ordentlig modellvalidering, det vill säga, kontrollera om modellen verkligen kan anses vara adekvat. Syftet med denna datorlaboration har, för- utom att medelst några få exempel presentera enkel och multipel linjär regression samt polynomregression, varit att rikta uppmärksamheten mot diverse fallgropar, ris- ken av förhastade slutsatser och vikten av en omsorgsfull modellvalidering. Teorin för linjära statistiska modeller är i och med detta ingalunda uttömd, och de praktiska svårigheter man så gott som alltid stöter på i samband med modellanpassning har vi i denna laboration endast antydningsvis snuddat vid.

Referenser

[1] Torgil Ekman. Numeriska metoder på dator och dosa.

Studentlitteratur, Lund, 1987.

[2] Lars Eldén and Linde Wittmeyer-Koch. Numerisk analys — en introduktion. Studentlitteratur, Lund, 1987.

[3] Björn Holmquist. Matematisk statistik för M &

V. Kompletteringar och tillämpningar. KFS, Lund, 1996.

[4] George Lindfield and John Penny. Numerical Met- hods Using MATLAB. Ellis Horwood Ltd, Hemel

Hempstead, Hertfordshire, 1995. En introduktion i numeriska metoder med MATLAB-algoritmer som exempel.

[5] The Math Works, Inc., Natick, Mass. MATLAB.

Reference Guide, 1993.

5 Redovisning — Rapport

Projektet utförs i grupper om två eller tre personer och skall redovisas i form av en kort rapport koncentrerad kring de nyckelfrågor som är markerade med en bomb,

•. Figurer och histogram som kan förtydliga resonemang och slutsatser skall givetvis också vara med.

Rapporten skall senast vara inlämnad måndagen den 16 december klockan 17.00. Du kan lämna den till anting- en labbhandledaren eller sekreteraren. Om rapporten in- te är inlämnad senast detta datum rättas den inte förrän nån gång i framtiden när vi har tid. Rättade rapporter delas ut på föreläsningarna och finns sedan i fack i kor- ridoren på andra våningen i mattehuset. Icke godkända rapporter skall kompletteras och lämnas in igen så fort som möjligt.

Utformningen av rapporten skall i görligaste mån följa instruktionerna i den utdelade promemorian angående redovisning av datorlaborationer.

Rapporten skall bara omfatta väsentligheterna i projek- tet. Det finns delmoment och Uppgifter som är till för att stödja nyckelmomenten. Dessa behöver så klart ej re- dovisas i detalj och bör bara tas med för att stödja och förtydliga eventuella resonemang.

(9)

REDOVISNING AV PROJEKT 2: LINJÄR REGRESSION

MATEMATISK STATISTIK, AK FÖRL, FMS 033, HT-02

Detta blad skall lämnas som försättsblad till rapporten.

Checklista

(a) Vi har utfört alla moment i projektet, inklusive förberedelseuppgifterna (b) Vi har korrekturläst rapporten och rättat språk- och skrivfel

(c) Vi har försett figurer, tabeller och liknande med figurtexter och tydlig numrering (d) Vi har försett alla axlar i alla figurer med storheter, där så är möjligt

(e) Vi har kontrollräknat de beräkningar som kan kontrollräknas (f ) Vi har gjort en rimlighetsbedömning av samtliga resultat

(g) Vi har kontrollerat och kommenterat eventuella orimliga resultat (h) Vi har strukturerat den löpande texten väl med tydliga avsnittsrubriker

(i) Vi har försett rapporten med sidnumrering och datum

(j) Vi har tydligt redovisat förutsättningar, förenklingar och gjorda antaganden (k) Vår rapport är läsbar utan tillgång till laborationshandledningen

(l) Härmed intygas att alla ovanstående frågor kan besvaras med Ja och att denna rapport är ett resultat av våra egna ansträngningar, bortsett från att vi samarbetat med

[namn]

. . . . [ort och datum]

. . . . [underskrifter]

. . . . [namnförtydliganden]

. . . .

Rättarens anteckningar Rättat av:

Godkänt (datum):

References

Related documents

Uppgift: Avläs ett 95 %-igt prediktionsintervall för en framtida observation från ultraljudsmätaren, då kalibreringsriggen ger mätvärdet 0.40 m/s?. Uppgift: Tänk efter vad det är

Fak- torn bank fångar upp skillnader i kundränta mellan olika banker samtidigt som konsu- mentspecifika faktorer är inkluderade för att fånga upp kundens risk och potentiella värde

För att få poäng bör hemuppgifterna inlämnas senast måndagen den 10.2.2014.. Lösningarna skall vara ordentligt skrivna

Sedan klickar du på ”Fler alternativ för trendlinje” (sista alternativet) och där klickar du i att ekvationen ska visas och R2värdet ska visas (längst ned i rutan). Du får nu

Respondent D är inne på samma bana och menar att det är möjligt att bedöma vilken kvalitet en vara besitter genom att kunna se och ta på den, framförallt kläder, medan andra

Längdfrekvensdiagram (andelen av viss mm-grupp iförhållande till totala antalet i årsfångsten) hos hummerfångsterna vid Kåvra från 1989 (överst) till 1993 (underst), för

Eftersom föregå- ende simuleringarna visar på att t-testet inte bevarar signifikansnivån för denna typ av feltermer, är testet inte giltigt och bör därför inte användas, trots

ligtvi~ det datum då plåtar och tccJ..- ning mrevisal~ för antingen kamrnar- eller riksråden. Teckningen förestill- ler dc olika förslag till stiimplar. Weilers förslag vann