• No results found

Inferens på rangordningar - En Monte Carlo-analys

N/A
N/A
Protected

Academic year: 2021

Share "Inferens på rangordningar - En Monte Carlo-analys"

Copied!
55
0
0

Loading.... (view fulltext now)

Full text

(1)

Örebro Universitet

Handelshögskolan

Statistik C, kandidatuppsats 15 HP

Handledare Sune Karlsson

Examinator Niklas Karlsson

Vårterminen 2015

Inferens på rangordningar

– En Monte Carlo-analys

Lars Bohlin

19670429

(2)

Sammanfattning

I den här uppsatsen studeras metoder för inferens på rangordningar. Ett urval respondenter ombeds att rangordna ett antal objekt från det de tycker bäst om till det de tycker sämst om. Kan vi utifrån deras svar dra några slutsatser om hur objekten rangordnas i hela populationen?

Parvisa teckentester av olika slag utvärderas. Fokus ligger på två problem. Det ena problemet är hur resultaten påverkas av att analytikern baserar val av objekt att testa utifrån deskriptiv statistik från sitt urval. Det andra problemet är att familywise error rate (FWER), dvs andel urval med minst ett felaktigt signifikant hypotestest, blir hög om vi väljer att testa en stor del av de möjliga

kombinationerna.

Vi föreslår en metod för att hantera det första problemet där teststatistikans p-värden betingas på urvalets rangordning. Urvalets rangordning definierar vi från objektens genomsnittliga rangtal i urvalet. Den föreslagna metoden utvärderas och jämförs med vanligt teckentest med hjälp av Monte Carlo-simuleringar. I simuleringarna utvärderas även Holm Bonferoni justering för att hantera problemet med för hög FWER för såväl det vanliga som det betingade testet.

Vi finner att styrkan i genomsnitt är något högre för det betingade teckentestet, men att styrkan varierar med avseende på vilka objekt i populationens rangordning som testas. Det vanliga

teckentestet är väldigt svagt när man testar objekt som ligger nära varandra men betydligt starkare när vi testar objekt som ligger långt ifrån varandra. Samma skillnad finns när vi använder det

betingade testet men den är inte alls lika stor. Det betingade testet blir därför starkare än det vanliga teckentestet när objekten är nära varandra i populationens rangordning men svagare när objekten ligger långt ifrån varandra.

Om vi begränsar oss till att testa objekt som ligger intill varandra i urvalets rangordning kommer det betingade teckentestet att vara starkare än det vanliga teckentestet även om vi Holm Bonferioni justerar det. Dock är styrkan även på det betingade teckentestet svagare än vid testning av alla tio kombinationer trots att HB justeringen som krävs är betydligt mindre när vi bara gör fyra tester.

(3)

Innehåll

1 Inledning ... 1

2 Bakgrund... 4

3 Andel respondenter som föredrar ena objektet, betingat på urvalets rangordning ... 6

4 Teckentest betingat på urvalets rangordning ... 8

4.1 P-värden vid enkelsidigt test ... 8

4.2 P-värden vid dubbelsidigt test ... 10

5 Utvärdering av olika varianter av teckentest vid analys av rangordningar ... 14

5.1 Frestelsen att testa den största avvikelsen ... 14

5.2 Test av samtliga kombinationer under antagandet att H0 är sann ... 15

5.3 Utvärdering av testens styrka vid falsk H0 när samtliga kombinationer testas ... 18

5.4 Utvärdering av strategi att endast testa intilliggande objekt, H0 sann ... 23

5.5 Utvärdering av strategi att endast testa intilliggande objekt vid falsk H0 ... 25

6 Slutsatser och diskussion ... 40

Referenser ... 41

Appendix 1 Utvärdering av teststatistika för teckentest betingat på urvalets rangordning... 42

(4)

1

1 Inledning

I den här uppsatsens argumenteras för att p-värden vid hypotestestning bör betingas på hur analytikern valde sin testmetod. Mer specifikt analyserar vi hur p-värden påverkas av att man väljer vilka tester att utföra efter att ha studerat deskriptiv statistik från sitt urval. I någon mening kan man säga att analytikerns beteende endogeniseras i analysen. Detta är ett oerhört komplext problem och vi väljer därför ett relativt enkelt problem som tillämpning. Vi använder teckentestet som är ett av de enklare statistiska testen och vi applicerar det på relativt hanterbara problemet att rangordna 5 objekt.

Vi analyserar således olika testmetoder för att göra inferens på rangordningar. Det är ganska vanligt att i enkätundersökningar be respondenter rangordna eller värdera ett antal olika alternativ. Några exempel kan vara produktutveckling där ett urval potentiella konsumenter ombeds rangordna eller betygsätta ett antal nyutvecklade produkter. Andra exempel kan vara enkätundersökningar där företagare tillfrågas om vilka faktorer som är viktigast för ett gott företagsklimat eller

kursutvärderingar där studenter ombeds värdera de olika böckerna på litteraturlistan. Utifrån svaren kan vi skapa en rangording för urvalet genom att beräkna genomsnittsbetyg för de olika alternativen. Men vilka slutsatser kan vi dra om hur hela populationen rangordnar de olika alternativen?

När respondenterna får rangordna två olika produkter eller fenomen är teckentestet det naturliga testet. Vid betygsättning av två olika fenomen är även Wilcoxons teckenrangtest möjligt. Om vi har fler än två alternativ som ska utvärderas är det svårare att hitta en tillfredställande testmetod. En möjlighet är Fridmans två vägs Anova test. Det testet kommer dock enbart att testa nollhypotesen om att populationen är indifferent mellan alla objekten mot alternativhypotesen att minst ett objekt har en avvikande preferens, utan att tala om vilket/vilka objekt som avviker. I den här uppsatsen kommer vi att utvärdera olika metoder att avgöra vilket/vilja objekt som avviker när Fridmans test har förkastat sin nollhypotes.

För att ta reda på vilka objekt som avviker kan man testa objekten parvis med teckentest eller Wiloxons teckenrangtest. I den här uppsatsen kommer vi dock att begränsa oss till olika varianter av teckentest. Men om respondenterna rangordnar flera objekt uppkommer två problem vid

användande av parvisa teckentest. Om man testar alla kombinationer kommer en stor mängd hypoteser att testas simultant varvid risken är stor att något av testen ger signifikant resultat av ren slump. I det fallet bör man därför beräkna andelen urval med minst ett signifikant test, en s.k familywise error rate (FWER). Testmetodiken bör sedan justeras så att FWER inte överstiger signifikansnivån.

Problemet med FWER har diskuterats bland annat av Bonferroni (1936), Dunn (1961) och Holm (1979). De rekommenderar att p-värdena justeras uppåt vid simultan testning av ett flertal hypoteser. I denna uppsats kommer Holms variant av Bonferoni justering att utvärderas, med tillämning på parvisa teckentest av rangordningar. Holm föreslog en metod som innebär att det minsta P-värdet multipliceras med antalet hypoteser som utvärderas, det näst minsta med antalet hypoteser minus ett, det tredje minsta med antalet hypoteser minus 2, och så vidare. Det största P-värdet kommer därmed att multipliceras med 1, dvs. vara ojusterat.

P-värdena utvärderas sedan sekventiellt, med början från det p-värde som hade lägst värde före justeringen. Så snart man ej förkastar en nollhypotes ska även resterande, med högre p värden före justeringen, inte förkastas. Om man inte utvärderar dem sekventiellt kan man hamna i en situation där man inte förkastar en nollhypotes som före justeringen hade ett högre p-värde än en nollhypotes som man har förkastat. I det följande kommer denna metod att benämnas HB-justering.

(5)

2

Om man väljer ut en kombination eller ett fåtal av de möjliga kombinationerna finns risk att man väljer vilka objekt som ska testas efter att ha tittat på deskriptiv statistik från sitt urval. Om man gör det påverkas sannolikhetsfördelningarna hos teststatistikan och p-värdena blir inte tillförlitliga. Efter att ha tittat på deskriptiv statistik från sitt urval kan det vara frestande att välja de par som, kanske av ren slump, verkar ha stora skillnader i rangordning i just detta urval.

Standardrekommendationen är därför att man alltid ska bestämma vilka test man kommer att utföra innan man tittar på den deskriptiva statistiken från urvalet.1 Problemet med den rekommendationen är att det, i en granskning av studien, är väldigt svårt att kontrollera att analytikern inte tittade på deskriptiv statistik av sina data, innan han bestämde vilka test han skulle utföra. Förmodligen efterlevs rekommendationen väldigt sällan. Att börja med att studera en deskriptiv statistik av sina data är för många analytiker en naturlig arbetsgång.

I den här uppsatsen tar vi därför en motsatt ansats. Vi utgår ifrån att vi studerar den deskriptiva statistiken från urvalet och baserar testmetodiken på den informationen. Vi börjar med att ta fram urvalets rangordning av objekten baserat på urvalets genomsnittliga rangtal för varje objekt. Denna information används sedan både för att beräkna betingade p-värden och för att avgöra vilka test som kommer att utföras.

Syftet med uppsatsen är att skapa en metod som är robust mot problemet att analytikern väljer ut vilka tester som ska göras baserat på resultatet från det enskilda urvalet samt att utvärdera olika strategier för att välja ut vilka objekt som testas. I det följande kallar vi testerna där p-värdena betingats på urvalets rangordning för betingade teckentestet. Med hjälp av Monte Carlo-simuleringar kommer vi att utvärdera såväl det vanliga som det betingade teckentestet med eller utan

HB-justering.

När testmetoden baseras på information från det enstaka urvalet är det teoretiskt sett ganska svårt att definiera nollhypotes och mothypotes. I de här uppsatsen väljer vi att se den betingade ansatsen som ett alternativt sätt att utvärdera det vanliga teckentestets hypoteser. Vi testar således

nollhypotesen om att båda objekten är lika populära mot alternativ hypotesen att en majoritet i populationen föredrar ett av objekten. Denna definition kan ifrågasättas på teoretiska grunder men vi menar att om vi kan visa att testets storlek understiger signifikansnivån i en population där vanliga teckentestets nollhypotes är uppfyllt har vi visat att metoden i praktiken fungerar för att utvärdera det vanliga teckentestets hypoteser.

När vi väljer vilka par som kommer att testas väljer vi de par som hamnat på platserna intill varandra i rangordningen. Om samtliga dessa test blir signifikanta har vi visat att urvalets rangordning

sammanfaller med populationens. I det fallet kan samtliga andra relationer mellan objekten härledas. Har vi visat att A är bättre än B och B är bättre än C följer av det att A är bättre än C.

Om endast någon/några tester blir signifikanta kan vi åtminstone använda den till att dela in objekten i grupper. Testar vi 5 objekt och endast får signifikans mellan objekten på plats 3 och 4 i rangordningen kan vi med hög sannolikhet hävda att objekt 1, 2 och 3 rangordnas före objekt 4 och 5. Även om vi inte kan fastställa rangordningen inom de båda grupperna kan vi dela in objekten i en populär grupp och en mindre populär grupp.

Nästa avsnitt består av en litteraturöversikt, i avsnitt 3 redovisas en Monte Carlo-studie för att beräkna sannolikheten att en enskild respondent har föredragit objektet på plats v före objektet på plats w i urvalets rangordning. Eller med andra ord, vi beräknar den förväntade andelen av

(6)

3

respondenterna som rangordnat objektet på en viss plats i rangordningen före objektet på en annan bestämd plats givet att populationen är indifferent mellan samtliga objekt. I appendix 1 finns en redogörelse av fördelningsegenskaperna hos en standardiserad teststatistika baserad på dessa sannolikheter. I avsnitt 4 använder vi istället teststatistikan; antal respondenter som föredrar ena objektet. Vi simulerar kumulativa fördelningen av denna teststatistika vilken ger oss testets p-värden. Dessa p –värden jämförs med teckentestets p-värden. I avsnitt 5 utvärderas de metoder som

föreslagits i denna uppsats och jämförs med teckentest med hjälp av Monte Carlo-simuleringar. Här utvärderas även HB-justering för att hantera FWER problemet. Avsnitt 6 slutligen ger en

(7)

4

2 Bakgrund

För att undersöka populationens rangordning av ett flertal objekt, genom urvalsundersökningar, kan man tänka sig olika typer av frågedesign. Den metod som presenteras i denna uppsats är avsedd för en frågedesign där respondenterna ombeds rangordna ett antal objekt. Vi utgår i uppsatsen ifrån att det är 5 objekt som ska rangordnas och att respondenterna ombeds sätta en 5’a på det de tycker bäst om 4’a på det näst bästa etc. En alternativ frågedesign är att fråga om objekten ett i taget och be respondenterna betygsätta dem. I det följande kommer dessa båda designer att benämnas rangordning respektive betygsättning.

Fördelen med betygsättning skulle kunna vara att man även skulle kunna fånga styrkan i

preferenserna. Hur mycket föredrar respondenten det ena objektet framför det andra. Men det är kanske också dess nackdel. Enligt den neoklassiska nyttoteorin, utvecklad av bl a Slutsky(1915), Hicks (1939) och Debrau (1959) är preferenser ett ordinalt fenomen2. Individer kan rangordna två objekt eller två varukorgar men kan inte uttala sig om ”nyttoskillnaden” däremellan. Ska vi förhålla oss till denna teori kring preferenser bör därför även en frågedesign baserad på betygsättning räknas om till rangordningar så att vi inte drar nytta av en styrka i preferenserna som inte är tillförlitlig.

Ett test som ibland ansätts direkt på betygskalan, vid parvis jämförelse av värderade objekt är Wilcoxons teckenrangtest, där differensen mellan betygen för respektive objekt rangordnas. Det anses ofta att detta är en godtagbar procedur för variabler mätta på ordinalskala. Men vi måste då trots allt göra antagandet att intervallen mellan betyg satta av olika individer går att jämföra. Vilket för oss en bit från den rena ordinalskalan mot intervallskalan.

Ett annat sätt att uttrycka i grunden samma problem, är att en ren ordinalskala är oförändrad av en logaritmisk transformation. Om vi beräknar logaritmen av ett antal tal kommer deras ordningsföljd att vara oförändrad. Men om vi beräknar logaritmen av betygen innan vi applicerar Wilcoxons teckenrangtest kommer det att påverka utfallet.3 Jag skulle därför argumentera för att Wilcoxons teckenrangtest är tveksam att använda om vi menar att preferenser och nytta är rent ordinala fenomen. Dessa problem med att analysera en frågedesign baserad på betygsättning talar för användandet av en frågedesign baserad på rangordning.

Ska vi göra inferens på dessa rangordningar måste vi förhålla oss till vad det är vi gör inferens om. Arrow (1951) visade att det är teoretiskt omöjligt att finna ett sätt att aggregera individuella preferenser till en social rangordning mellan alternativen givet ett antal rimliga krav på en

samhällelig nyttofunktion och en samhällelig beslutsprocess. Enligt Arrow har vi ingen möjlighet att undersöka populationens gemensamma rangordning av de olika alternativen eftersom en sådan inte kan definieras. Så det vi gör inferens på kan inte vara något annat än vilka individuella preferenser som är vanligast i populationen, vilket ur en filosofisk utgångspunkt är en något annorlunda

frågeställning. För ett företag som ska göra en kundundersökning är den kanske dock mer intressant. Kanske företaget intresserar sig mer för hur många som kommer att köpa deras produkt än hur väl produkten tillfredsställer en samhällelig nyttofunktion.

Utifrån människors kognitiva förmåga att värdera olika objekt enligt den neoklassiska nyttoteorin, finns goda argument för en frågedesign baserad på rangordning snarare än betygsättning.

Standardmetoderna för att analysera rangordningar är teckentest, vid rangordning av 2 objekt, och Friedmans två vägs ANOVA test vid analys av fler än 2 objekt (Friedman 1937). Friedmans test kallas ibland också för Friedman test of randomized block designs (Wackerly et al 2008) eftersom

2 För en genomgång av denna teori se exempelvis Jehle et all 2001

(8)

5

variabelvärdena rangordnas inom ett block. I vår tillämpning här, blir blocket den enskilda respondentens värdering av studieobjekten och variabelvärdet blir värderingen av de enskilda objekten. I detta fall är variabelvärdena därför rangordnade inom blocket redan från respondentens svar. Ibland, exempelvis i R, kallas detta test för Friedmans ranksummetest då det baseras på ranksumman för varje objekt

De generella hypoteserna för Friedmans test är:

𝐻0: Sannolikhetsfördelningarna av de k variablerna är identiska.

𝐻1: Minst 2 av sannolikhetsfördelningarna av de k variablerna skiljer sig åt med avseende på läge. Applicerat på tillämpningen i denna uppsats skulle det innebära

𝐻0: Samtliga k objekt värderas lika av populationen.

𝐻1: Minst 2 av objekten skiljer sig åt med avseende på de vanligaste preferenserna i populationen. Eftersom Friedmans test inte kan tala om för oss vilka objekt som avviker behöver vi gå vidare och göra parvisa jämförelser mellan objekten. För att göra det kan vi välja mellan olika varianter av teckentest och teckenrangtest. Teckentest är att föredra före teckenrangtest, om vi menar att ett tredje irrelevant alternativ inte ska kunna påverka utfallet i en jämförelse av två objekt. Använder vi teckentest gör det inte det, använder vi teckenrangtest kommer det tredje alternativets placering i de individuella rangordningarna att påverka differensen mellan rangtalen och därmed testets utfall. I den här uppsatsen kommer vi därför enbart att utvärdera olika typer av teckentest.

(9)

6

3 Andel respondenter som föredrar ena objektet, betingat på urvalets rangordning

Vi studerar alltså fallet där respondenterna ombeds rangordna 5 objekt genom att sätta en 5’a på det de tycker bäst om, 4’a på det näst bästa etc. När vi studerar preferenser genom urvalsundersökningar behöver vi hålla isär tre typer av rangordningar. Vi har den enskilda individens rangordning, vi har hela populationens genomsnittliga rangordning och vi har det enskilda urvalets genomsnittliga rangordning.

I denna uppsats genererar vi individernas rangordningar genom att dra slumptal från fem olika normalfördelningar. I dessa fördelningar använder vi alltid standardavvikelsen 1 men vi varierar medelvärdet. Vi definierar populationens rangordning som rangordningen mellan de fem

fördelningarnas väntevärden. Vi slumpar fram ett urval av n individuella rangordningar och definierar urvalets rangordning genom att beräkna det genomsnittliga rangtalet för varje objekt i det specifika urvalet.

I detta avsnitt ska vi studera fördelningarna under H0. Vi gör det genom att slumpvis dra individer ur en population där populationen som helhet är indifferent mellan alla fem objekt. Vi implementerar detta genom att använda medelvärdet 1 i alla 5 normalfördelningarna.

I det vanliga teckentestet baseras teststatistikan på att halva urvalet bör föredra vartdera objektet om nollhypotesen är uppfylld. Men om man väljer ut vilka par man ska testa efter att ha tagit fram deskriptiv statistik från urvalet kommer väntevärdet av andel respondenter som föredrar vartdera objektet att avvika från 50 % även om nollhypotesen är uppfylld och därmed kommer teckentestets p-värde inte vara tillförlitligt. Det ger oss ett skäl att betinga p-värdet på urvalets rangordning. I tabell 3.1 redovisas väntevärdet för andel respondenter som föredrar objektet på en viss plats i urvalets rangordning före ett objekt på en annan plats i urvalets rangordning givet olika

urvalsstorlekar. Tabellen framställdes genom att slumpa fram 2 miljoner urval. Därefter beräknas för varje par av positioner i det enskilda urvalets rangordning andelen respondenter som föredrar objektet på placering v före objektet på placering w. Baserat på alla de 2 miljoner urvalen beräknas sedan väntevärdena för dessa andelar vilka redovisas i tabell 3.1.

Tabell 3.1 Väntevärde för andel respondenter som föredrar objekt på plats v före objekt på plats w i urvalets rangordning under H0.

Rang-ordning Urvalsstorlek, n v w 10 20 30 40 60 80 100 150 200 300 400 600 1 2 0,57 0,55 0,54 0,53 0,53 0,52 0,52 0,52 0,51 0,51 0,51 0,51 1 3 0,62 0,58 0,57 0,56 0,55 0,54 0,54 0,53 0,53 0,52 0,52 0,52 1 4 0,67 0,62 0,60 0,58 0,57 0,56 0,55 0,54 0,54 0,53 0,53 0,52 1 5 0,73 0,66 0,63 0,62 0,59 0,58 0,57 0,56 0,55 0,54 0,54 0,53 2 3 0,55 0,54 0,53 0,52 0,52 0,52 0,52 0,51 0,51 0,51 0,51 0,51 2 4 0,60 0,57 0,56 0,55 0,54 0,54 0,53 0,53 0,52 0,52 0,52 0,51 2 5 0,67 0,62 0,60 0,58 0,57 0,56 0,55 0,54 0,54 0,53 0,53 0,52 3 4 0,55 0,54 0,53 0,52 0,52 0,52 0,52 0,51 0,51 0,51 0,51 0,51 3 5 0,62 0,58 0,57 0,56 0,55 0,54 0,54 0,53 0,53 0,52 0,52 0,52 4 5 0,57 0,55 0,54 0,53 0,53 0,52 0,52 0,52 0,51 0,51 0,51 0,51 Vi kan se att när urvalsstorleken ökar går väntevärdena mot 50 procent. Ju större urvalsstorlek desto mindre skulle problemet vara att kika på sina data innan man väljer ut ett par av objekt att utföra ett

(10)

7

vanligt teckentest på. Och därmed desto mindre skäl att betinga beräkningen av p-värdet på urvalets rangordning.

Vid test av andelar där binomialfördelningens antaganden är uppfylld kan en standard

normalfördelad teststatistika användas. En motsvarande teststatistika för detta test skulle kunna skrivas som:

𝐵𝑣,𝑤 = 𝑝𝑣,𝑤−𝜋𝑣,𝑤,𝑛

√𝜋𝑣,𝑤,𝑛(1−𝑣,𝑤,𝑛)𝑛

Där

𝑝𝑣,𝑤 är andelen i urvalet som föredrar objektet på plats v före objektet på plats w.

𝑛 är urvalsstorleken

𝜋𝑣,𝑤,𝑛 är den förväntade andelen som föredrar ett objekt på plats v före ett objekt på plats w vid

urvalsstorleken n om populationen är indifferent mellan samtliga objekt i undersökningen. Om binomialantagandena vore uppfyllda skulle varje teststatistika 𝐵𝑣,𝑤 vara standard

normalfördelad. P.g.a. av beroende som uppkommer av att vi har rangordnat objekten kommer den dock inte att vara det. I appendix 1 studeras därför denna teststatistikas egenskaper vid olika urvalsstorlekar. I praktiken torde det dock vara enklare att använda antal respondenter som teststatistika. En sådan teststatistika utvärderas i nästa avsnitt.

(11)

8

4 Teckentest betingat på urvalets rangordning

I detta avsnitt beräknas kumulativa fördelningar för andelen urval där ett visst antal respondenter föredrar ett objekt före ett annat, betingade på dessa objekts plats i urvalets rangordning. Vi beräknar den relativa frekvensen urval där ett visst antal respondenter föredrar objekten på en specifik plats i det urvalets rangordning före objektet på en annan plats i deras rangordning. Utifrån fördelningen av relativa frekvenser kan vi skapa kumulativa fördelningar vilka ger oss p-värden för teckentest betingade på urvalets rangordning, där vi använder antal respondenter som teststatistika. Beräkningarna baserades på 2 miljoner slumpvisa urval.

4.1 P-värden vid enkelsidigt test

Tabell 4.1a redovisar den kumulativa fördelningen för den relativa frekvensen av urval, där ett visst antal respondenter föredrar objektet på plats v i det egna urvalets rangordning, för en urvalsstorlek av 20 respondenter. Tabell 4.1b redovisar motsvarande fördelning för en urvalsstorlek av 60 respondenter och enkelsidigt test.

Tabell 4.1a P-värden för antalet respondenter som föredrar objektet på plats v,

urvalsstorlek 20, enkelsidig text

Plats i rangordningen Tecken

test v 1 1 1 1 2 2 2 3 3 4 w 2 3 4 5 3 4 5 4 5 5 Antal respondenter 0 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 2 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 3 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 4 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,999 5 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,994 6 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,979 7 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,942 8 0,999 1,000 1,000 1,000 0,999 1,000 1,000 0,999 1,000 0,999 0,868 9 0,983 0,995 0,999 1,000 0,979 0,994 0,999 0,979 0,995 0,983 0,748 10 0,885 0,955 0,985 0,996 0,859 0,944 0,985 0,859 0,955 0,885 0,588 11 0,628 0,804 0,911 0,972 0,562 0,763 0,911 0,562 0,804 0,628 0,412 12 0,316 0,530 0,719 0,880 0,236 0,459 0,720 0,237 0,530 0,316 0,252 13 0,112 0,257 0,445 0,685 0,062 0,191 0,445 0,063 0,257 0,112 0,132 14 0,030 0,091 0,205 0,427 0,011 0,054 0,206 0,011 0,091 0,030 0,058 15 0,006 0,023 0,069 0,205 0,001 0,010 0,069 0,001 0,023 0,006 0,021 16 0,001 0,004 0,017 0,073 0,000 0,001 0,017 0,000 0,004 0,001 0,006 17 0,000 0,001 0,003 0,019 0,000 0,000 0,003 0,000 0,001 0,000 0,001 18 0,000 0,000 0,000 0,003 0,000 0,000 0,000 0,000 0,000 0,000 0,000 19 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 20 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

(12)

9

urvalsstorlek 60, enkelsidig text

Plats i rangordningen Tecken

test v 1 1 1 1 2 2 2 3 3 4 w 2 3 4 5 3 4 5 4 5 5 Antal respondenter 14 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 15 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 16 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 17 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 18 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,999 19 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,999 20 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,997 21 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,993 22 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,986 23 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,974 24 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,954 25 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,922 26 0,999 1,000 1,000 1,000 0,999 1,000 1,000 0,999 1,000 0,999 0,877 27 0,995 0,999 1,000 1,000 0,994 0,998 1,000 0,994 0,999 0,995 0,817 28 0,979 0,993 0,998 1,000 0,974 0,991 0,998 0,973 0,993 0,979 0,741 29 0,934 0,976 0,992 0,998 0,918 0,969 0,992 0,918 0,976 0,934 0,651 30 0,839 0,931 0,974 0,993 0,804 0,914 0,974 0,804 0,931 0,839 0,551 31 0,690 0,843 0,931 0,979 0,631 0,809 0,931 0,632 0,844 0,689 0,449 32 0,507 0,709 0,850 0,946 0,431 0,655 0,851 0,431 0,709 0,506 0,349 33 0,330 0,544 0,728 0,884 0,253 0,474 0,729 0,253 0,544 0,329 0,259 34 0,192 0,377 0,576 0,787 0,127 0,304 0,576 0,127 0,376 0,191 0,183 35 0,100 0,235 0,417 0,659 0,055 0,172 0,417 0,055 0,235 0,100 0,123 36 0,048 0,133 0,274 0,514 0,021 0,086 0,274 0,021 0,132 0,047 0,078 37 0,021 0,068 0,164 0,370 0,007 0,038 0,163 0,007 0,067 0,021 0,046 38 0,008 0,031 0,088 0,245 0,002 0,015 0,088 0,002 0,031 0,008 0,026 39 0,003 0,013 0,043 0,149 0,001 0,005 0,043 0,001 0,013 0,003 0,014 40 0,001 0,005 0,019 0,083 0,000 0,002 0,019 0,000 0,005 0,001 0,007 41 0,000 0,002 0,008 0,042 0,000 0,000 0,008 0,000 0,002 0,000 0,003 42 0,000 0,001 0,003 0,020 0,000 0,000 0,003 0,000 0,001 0,000 0,001 43 0,000 0,000 0,001 0,008 0,000 0,000 0,001 0,000 0,000 0,000 0,001 44 0,000 0,000 0,000 0,003 0,000 0,000 0,000 0,000 0,000 0,000 0,000 45 0,000 0,000 0,000 0,001 0,000 0,000 0,000 0,000 0,000 0,000 0,000 46 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 47 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 48 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

Av platsskäl utlämnas en del av de rader som enbart innehåller ettor och nollor.

Fördelningarna ger oss sannolikheten för att detta antal respondenter eller fler föredrar objektet på plats v, givet att populationen är indifferent mellan alla fem objekten. Därmed ger den oss det enkelsidiga betingade teckentestets p-värden. Som en jämförelse finns även det vanliga teckentestets p-värden med i tabellerna.

(13)

10

4.2 P-värden vid dubbelsidigt test

Tabell 4.2 redovisar också en kumulativ fördelning för relativa frekvensen urval där ett visst antal respondenter föredrar objektet på plats v i det egna urvalets rangordning, men den här gången ackumulerad från båda svansarna. I nedre delen av fördelningen, dvs övre halvan av tabellen, ger tabellen sannolikheten att få ett visst antal respondenter som föredrar objekt v eller ett antal som är mindre än så. I övre delen av fördelningen, dvs nedre halvan av tabellen, ger tabellen sannolikheten att få ett visst antal respondenter som föredrar objekt v eller ett antal som är större än så.

Tabell 4.2a Kumulativ fördelning för frekvensen urval där ett visst antal respondenter

föredrar objektet på plats v, ackumulerad från båda svansarna, urvalsstorlek 20.

Plats i rangordningen v 1 1 1 1 2 2 2 3 3 4 w 2 3 4 5 3 4 5 4 5 5 Antal respondenter 0 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 2 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 3 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 5 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 6 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 7 0,001 0,000 0,000 0,000 0,001 0,000 0,000 0,001 0,000 0,001 8 0,017 0,005 0,001 0,000 0,021 0,006 0,001 0,021 0,005 0,017 9 0,115 0,045 0,015 0,004 0,141 0,057 0,015 0,141 0,045 0,116 10 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 11 0,627 0,804 0,911 0,972 0,562 0,763 0,910 0,562 0,805 0,628 12 0,315 0,530 0,719 0,880 0,236 0,459 0,719 0,236 0,530 0,315 13 0,112 0,257 0,445 0,684 0,062 0,190 0,444 0,062 0,257 0,112 14 0,030 0,091 0,205 0,427 0,011 0,054 0,205 0,011 0,091 0,030 15 0,006 0,023 0,069 0,204 0,001 0,010 0,069 0,001 0,023 0,006 16 0,001 0,004 0,017 0,073 0,000 0,001 0,017 0,000 0,004 0,001 17 0,000 0,001 0,003 0,019 0,000 0,000 0,003 0,000 0,001 0,000 18 0,000 0,000 0,000 0,003 0,000 0,000 0,000 0,000 0,000 0,000 19 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 20 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

I tabell 4.3a beräknas sannolikheten att antalet respondenter som föredrar ett visst objekt är lika med antalet i förta kolumnen eller är ett antal som avviker lika mycket eller mer från halva urvalsstorleken. Sannolikheten för 13 respondenter i tabell 4.3 a anger således sannolikheten att antingen 7 eller färre föredrar objekt v eller att 13 eller fler gör det. Därmed blir sannolikheterna symmetriska kring 10. Dessa sannolikheter kommer vi att använda som p-värden för det dubbelsidiga betingade teckentestet. I sista kolumnen visas p-värden från det dubbelsidiga teckentestet som en jämförelse. Tabell 4.3 b anger samma typ av P-värden för urvalsstorleken 60. För denna typ av dubbelsidiga p-värden vid andra urvalsstorlekar se appendix 2.

(14)

11

Eftersom vi nästan alltid förkastar nollhypotesen på den övre delen av fördelningen, dvs att fler än hälften föredrar det objekt som hamnat högst i rangordningen, blir p-värdena på den nedre halvan av tabellen snarlika p-värdena från den enkelsidiga testen. P- värdena på övre halvan av tabellen blir en spegelbild av p-värdena på nedre halvan.

I praktiken innebär detta sätt att definiera ett dubbelsidig test att vi kommer att få signifikans i exakt samma situationer som det enkelsidiga testet ger signifikans så länge vi förkastar på den övre delen av fördelningen. Detta dubbelsidiga test ger dock en möjlighet, om än väldigt osannolik, att förkasta även i nedre delen. Om vi skulle ha ett urval där endast 6 respondenter föredrar objektet på plats fyra i urvalets rangordning före objektet på sista platsen kommer det dubbelsidiga testets p-värde att bli 0,030 och det enkelsida testets p-värde blir 1.

Detta fall inträder om de respondenter som föredrar objekt fem sällan har några av de övriga tre objekten mellan fyran och femman, medan de som föredrar objekt fyra ofta har de tre andra objekten mellan fyran och femman. I det fallet är det dubbelsidiga testet att föredra om vi vill att de övriga tre objekten inte ska påverka jämförelsen mellan fyran och femman. Eftersom detta är ett mycket osannolikt fall blir det dock i praktiken oftast egalt om vi väljer enkelsidigt eller dubbelsidigt test. Därmed är det betingade teckentestet också robust mot att analytikern använder enkelsidigt test för att sänka sitt p-värde och baserar olikhetstecknet på urvalets deskriptiva statistik.

Tabell 4.3a P-värden för antalet respondenter som föredrar objektet på plats v

urvalsstorlek 20, dubbelsidig text.

Plats i rangordningen Tecken

test v 1 1 1 1 2 2 2 3 3 4 w 2 3 4 5 3 4 5 4 5 5 Antal respondenter 0 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 2 0,000 0,000 0,000 0,003 0,000 0,000 0,000 0,000 0,000 0,000 0,000 3 0,000 0,001 0,003 0,019 0,000 0,000 0,003 0,000 0,001 0,000 0,003 4 0,001 0,004 0,017 0,073 0,000 0,001 0,017 0,000 0,004 0,001 0,012 5 0,006 0,023 0,069 0,205 0,001 0,010 0,069 0,001 0,023 0,006 0,041 6 0,030 0,091 0,205 0,427 0,011 0,054 0,206 0,011 0,091 0,030 0,115 7 0,113 0,257 0,445 0,685 0,063 0,191 0,445 0,064 0,257 0,113 0,263 8 0,332 0,535 0,720 0,880 0,257 0,465 0,721 0,257 0,535 0,332 0,503 9 0,743 0,849 0,926 0,975 0,703 0,820 0,926 0,703 0,849 0,744 0,824 10 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 11 0,743 0,849 0,926 0,975 0,703 0,820 0,926 0,703 0,849 0,744 0,824 12 0,332 0,535 0,720 0,880 0,257 0,465 0,721 0,257 0,535 0,332 0,503 13 0,113 0,257 0,445 0,685 0,063 0,191 0,445 0,064 0,257 0,113 0,263 14 0,030 0,091 0,205 0,427 0,011 0,054 0,206 0,011 0,091 0,030 0,115 15 0,006 0,023 0,069 0,205 0,001 0,010 0,069 0,001 0,023 0,006 0,041 16 0,001 0,004 0,017 0,073 0,000 0,001 0,017 0,000 0,004 0,001 0,012 17 0,000 0,001 0,003 0,019 0,000 0,000 0,003 0,000 0,001 0,000 0,003 18 0,000 0,000 0,000 0,003 0,000 0,000 0,000 0,000 0,000 0,000 0,000 19 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 20 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

(15)

12

Tabell 4.3b P-värden för antalet respondenter som föredrar objekt v

urvalsstorlek 60, dubbelsidig text.

Plats i rangordningen Tecken

test v 1 1 1 1 2 2 2 3 3 4 w 2 3 4 5 3 4 5 4 5 5 Antal respondenter 13 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 14 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 15 0,000 0,000 0,000 0,001 0,000 0,000 0,000 0,000 0,000 0,000 0,000 16 0,000 0,000 0,000 0,003 0,000 0,000 0,000 0,000 0,000 0,000 0,000 17 0,000 0,000 0,001 0,008 0,000 0,000 0,001 0,000 0,000 0,000 0,001 18 0,000 0,001 0,003 0,020 0,000 0,000 0,003 0,000 0,001 0,000 0,003 19 0,000 0,002 0,008 0,042 0,000 0,000 0,008 0,000 0,002 0,000 0,006 20 0,001 0,005 0,019 0,083 0,000 0,002 0,019 0,000 0,005 0,001 0,013 21 0,003 0,013 0,043 0,149 0,001 0,005 0,043 0,001 0,013 0,003 0,027 22 0,008 0,031 0,088 0,245 0,002 0,015 0,088 0,002 0,031 0,008 0,052 23 0,021 0,068 0,164 0,370 0,007 0,038 0,163 0,007 0,067 0,021 0,092 24 0,048 0,133 0,274 0,514 0,021 0,086 0,274 0,021 0,132 0,048 0,155 25 0,101 0,236 0,417 0,659 0,057 0,173 0,417 0,057 0,235 0,101 0,245 26 0,197 0,378 0,577 0,787 0,134 0,306 0,577 0,133 0,378 0,196 0,366 27 0,351 0,551 0,730 0,884 0,280 0,483 0,731 0,280 0,550 0,351 0,519 28 0,573 0,733 0,858 0,948 0,514 0,685 0,858 0,513 0,733 0,572 0,699 29 0,851 0,912 0,957 0,986 0,827 0,895 0,957 0,827 0,913 0,850 0,897 30 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 31 0,851 0,912 0,957 0,986 0,827 0,895 0,957 0,827 0,913 0,850 0,897 32 0,573 0,733 0,858 0,948 0,514 0,685 0,858 0,513 0,733 0,572 0,699 33 0,351 0,551 0,730 0,884 0,280 0,483 0,731 0,280 0,550 0,351 0,519 34 0,197 0,378 0,577 0,787 0,134 0,306 0,577 0,133 0,378 0,196 0,366 35 0,101 0,236 0,417 0,659 0,057 0,173 0,417 0,057 0,235 0,101 0,245 36 0,048 0,133 0,274 0,514 0,021 0,086 0,274 0,021 0,132 0,048 0,155 37 0,021 0,068 0,164 0,370 0,007 0,038 0,163 0,007 0,067 0,021 0,092 38 0,008 0,031 0,088 0,245 0,002 0,015 0,088 0,002 0,031 0,008 0,052 39 0,003 0,013 0,043 0,149 0,001 0,005 0,043 0,001 0,013 0,003 0,027 40 0,001 0,005 0,019 0,083 0,000 0,002 0,019 0,000 0,005 0,001 0,013 41 0,000 0,002 0,008 0,042 0,000 0,000 0,008 0,000 0,002 0,000 0,006 42 0,000 0,001 0,003 0,020 0,000 0,000 0,003 0,000 0,001 0,000 0,003 43 0,000 0,000 0,001 0,008 0,000 0,000 0,001 0,000 0,000 0,000 0,001 44 0,000 0,000 0,000 0,003 0,000 0,000 0,000 0,000 0,000 0,000 0,000 45 0,000 0,000 0,000 0,001 0,000 0,000 0,000 0,000 0,000 0,000 0,000 46 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 47 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

Av platsskäl utlämnas en del av de rader som enbart innehåller nollor.

Hur förhåller sig då det betingade teckentestets p-värden till teckentestets p-värden? Vi utgår ifrån ett dubbelsidigt test. Antag att man har en urvalsstorlek om 20 personer och väljer ut ett par objekt att testa efter att ha tittat på deskriptiv statistik från sitt urval. Antag också att 14 respondenter föredrar objektet på plats v i urvalets rangordning. P-värdet i vanligt dubbelsidigt teckentest blir då 0,115. I det här fallet kommer det dubbelsidiga betingade teckentestet att ge lägre p- värde än det vanliga teckentestet i alla fall utom där de båda objekten ligger på 1’a respektive 4’e, 1’a respektive 5’e eller 2’a respektive 5’e plats i urvalets rangordning. Betingning leder alltså till att vi kommer att få

(16)

13

svårare att förkasta nollhypotesen om objekten ligger långt ifrån varandra men lättare att göra det om de ligger nära jämfört med den traditionella beräkningen av P-värden för teckentestet.

Den föreslagna metoden för teckentest betingat på rangordning är därmed enligt följande: Be respondenterna rangordna objekten från det objekt de anser ha den högsta kvaliteten till det objekt de anser ha den lägsta. Rangordna samtliga objekt i undersökningen utifrån respondenternas genomsnittliga rangtal. För de kombinationer som väljs ut för att testas räknas antalet respondenter som föredrar det av de båda objekten som hamnade högst i urvalets rangordning. Därefter kan man avläsa ett p-värde ur de tabeller som redovisas här betingat på objektens plats i rangordningen. Om man väljer det restriktivt betingade teckentestet används dock detta värde endast när det är högre än det vanliga teckentestets p-värde.

Om det uppstår ties i urvalets rangordning, dvs om två objekt får exakt samma genomsnittliga rangtal föreslår vi ett dubbelsidigt vanlig teckentest mellan dessa båda objekt. Ett svårare avgörande blir det när ett av tie objekten ska jämföras med ett annat objekt. Om exempelvis första och andra objektet i urvalets rangordning har samma rangtal och man vill testa ett av dessa mot objektet på plats 3 är det svårt att avgöra om man ska använda p-värdet för jämförelse mellan objekt 2 och 3 eller för

jämförelse mellan objekt 1 och 3. Om man väljer att utvärdera från 1 och 3 får man högre p värden än om man väljer att utvärdera från 2 och 3. Vill man vara mer restriktiv väljer man därför att använda 1 och 3. Att använda medelvärdet mellan dem kan vara en kompromiss. I våra simuleringar görs detta val slumpmässigt vilket innebär att våra resultat bör hamna mitt emellan de resultat man får givet det valet. Och ganska nära resultatet av att använda medelvärdet mellan dem. Dessutom händer det så pass sällan att det uppstår ties att valet av strategi inte bör ha haft någon större påverkan på resultatet i Monte Carlo-simuleringarna.

(17)

14

5 Utvärdering av olika varianter av teckentest vid analys av rangordningar

I detta avsnitt redovisas en Monte Carlo- studie för att utvärdera olika varianter av parvisa teckentest för att avgöra vilka objekt som är populärare än andra. Vi utvärderar det vanliga teckentestet och det betingade teckentestet i båda fallen med eller utan HB-justering. Om ej annat anges baseras

simuleringarna på 200 000 repetitioner. Grundproblemet här är alltså att om vi börjar med att ta fram en deskriptiv statisk av vårt urval med medelrangtal för de olika objekten finns det en frestelse att välja ut de objekt som avviker mest ifrån varandra eftersom det verkar mest sannolikt att vi då kan visa en skillnad. Avsnitt 5.1 illustrerar det problemet genom att beräkna frekvens urval som felaktigt förkastar en sann nollhypotes givet den teststrategin.

I avsnitt 5.2 och 5.3 väljer vi teststrategin att testa alla möjliga kombinationer av objekt. I avsnitt 5.2 studeras fallet då populationen är indifferent mellan samtliga objekt. Urvalens rangordningar

slumpas fram på ett sätt där alla möjliga rangordningar har samma sannolikhet. I avsnitt 5.3 studeras fallet där vissa objekt är populärare än andra. Där slumpas rangordningarna fram genom att

rangordna slumptal genererade från fördelningar med olika medelvärden. Avsnitt 5.4 utvärderar strategin att testa de objekt som hamnat intill varandra i urvalets rangordning, givet att

nollhypotesen är uppfylld och i 5.5 görs motsvarande för populationer som ej är indifferenta mellan samtliga objekt.

Syftet med 5.2 och 5.3 är dels att kunna utvärdera det enskilda testets egenskaper genom att varje kombination redovisas, dels att visa behovet av HB-justering om man faktiskt väljer att testa alla kombinationer. Syftet i 5.4 och 5.5 är att utvärdera strategin att endast testa intilliggande objekt. Genom att minska totala antalet tester krävs inte lika stor HB-justering vilket leder till en större styrka, genom att välja just dessa objekt minskar styrkan, åtminstone i det vanliga teckentestet, eftersom de har lägsta sannolikheten att bli signifikanta. Därmed kan det vara intressant att se om denna strategi ger en större eller lägre styrka än strategin att testa alla kombinationer.

5.1 Frestelsen att testa den största avvikelsen

Hur påverkas testets faktiska storlek om vi väljer ut de objekt vars genomsnittliga rangtal avviker mest ifrån varandra? Tabell 5.1 redovisar frekvensen förkastade sanna nollhypoteser vid ett antal olika urvalsstorlekar vid test av objekt på plats 1 mot objekt på plats 5 i urvalets rangordning. Tabell 5.1 Frekvens förkastade sanna nollhypoteser vid test av objekt på plats 1 mot objekt på plats 5

Vanligt teckentest Betingat teckentest

Urvalsstorlek 1 % sign 5 % sign 1 % sign 5 % sign

20 1,9 20,5 0,3 1,9

60 4,4 14,9 0,8 4,4

200 5,7 20,2 0,7 4,0

Vi ser som väntat att sannolikheten att felaktigt förkasta nollhypotesen ligger långt över

signifikansnivån om vi använder ett vanligt teckentest. Givet att vi har gluttat på våra data kan vi därför inte på ett tillförlitligt sätt testa dessa objekt med det vanliga teckentestet. Samtidigt är det kanske just dessa båda objekt vi vill testa, om de andra objekten ser ut att vara relativt lika. Fördelen med det betingade teckentestet är att det ger oss en möjlighet att testa dessa objekt även efter det

(18)

15

att vi tittat på vår deskriptiva statistik. Vi testar helt enkelt om skillnaden mellan dem är så stor att vi vågar förkasta nollhypotesen trots att vi valt ut att testa det bästa objektet mot det sämsta. I tabell 5.1 ser vi att det betingade teckentestets storlek ligger under signifikansnivån även om vi medvetet testar första objektet mot det sista.

5.2 Test av samtliga kombinationer under antagandet att H0 är sann

I tabell 5.2.1 redovisas det individuella testets faktiska storlek, familywise error rate (FWER), dvs. andelen urval med minst ett signifikant teckentest för dubbelsidiga tester vid urvalsstorleken 60 samt andelen urval med ett visst antal signifikanta test. FWER redovisas dels för samtliga urval och dels uppdelat på om urvalen gav signifikans i Friedmans test eller ej. 5.2.2 visar motsvarande resultat för enkelsidiga tester. Storleken på de individuella dubbelsidiga teckentestet och betingade teckentestet är något lägre än vald signifikansnivå. Detta beror på att fördelningarna är diskreta. Det finns inget antal respondenter som exakt svarar mot en signifikansnivå på 5 %.

Tabell 5.2.1 samtliga 10 tester utförs, H

0

sann, n = 60, 2-tailed test

För såväl det vanliga om det betingade teckentestet krävs HB-justering för att få en FWER som understiger signifikansnivån. I de icke justerade testen är FWER knappt 10 gånger så stor som de individuella testernas storlek. Vi kan se att HB justeringen i det här fallet är aningen restriktiv. FWER i de HB justerade testerna understiger storleken på det individuella testet. I de urval där Friedman ger signifikans ser vi att de obetingade testen hittar minst ett signifikant par i den absoluta majoriteten av fallen. HB-justering leder dock till att andelen av dessa urval där vi hittar minst ett signifikant par sjunker rejält. 1 % signifikansnivå 5 % signifikansnivå Vanligt tecken-test Betingat tecken-test HB justerat vanligt teckentest HB justerat betingat teckentest Vanligt tecken-test Betingat tecken-test HB justerat vanligt teckentest HB justerat Betingad teckentest

Det individuella testets faktiska storlek, procent

0,6 0,7 0,0 0,1 2,7 3,7 0,3 0,3

Familywise error rate, FWER, procent

Samtliga 5,5 6,0 0,4 0,5 21,2 25,7 2,4 2,9

Friedman sign. 90,1 88,7 23,1 23,5 97,9 97,7 33,9 19,5

Friedman ej sign. 4,7 5,2 0,2 0,3 17,3 22,0 0,8 2,0

Antal signifikanta test, procentuell andel av urvalen

0 94,5 94,0 99,6 99,5 78,8 74,3 97,6 97,1 1 5,0 5,2 0,4 0,5 16,3 18,1 2,3 2,9 2 0,5 0,7 0,0 0,0 3,9 5,3 0,1 0,0 3 0,1 0,1 0,0 0,0 0,8 1,7 0,0 0,0 4 0,0 0,0 0,0 0,0 0,1 0,5 0,0 0,0 5 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0

(19)

16

Tabell 5.2.2 samtliga 10 tester utförs, H

0

sann, n = 60, 1-tailed test

För det vanliga enkelsidiga teckentestet är storleken större än signifikansnivån. Detta är en

illustration av att man ej bör bestämma riktningen på ett enkelsidigt test utifrån deskriptiv statistik i sitt urval. Gör man det blir p-värdet inte tillförlitligt. För det betingade teckentestet får vi i stort sett samma storlek vid dubbelsidigt som enkelsidigt test, vilket illustrerar att vi i det fallet (nästan) alltid förkastar på samma sida. Eftersom vi här betingar testets p-värde på den deskriptiva statistiken är det inte ett problem att bestämma riktningen på mothypotesen utifrån densamma.

I resten av uppsatsen kommer endast dubbelsidiga hypotestester att redovisas. Motivet till det är att resultaten ändå sammanfaller för de betingade testen och att enkelsidiga test inte bör användas för vanliga teckentest utan någon relevant förhandsinformation om vilken riktning testet bör ha. Tabell 5.2.3 ger motsvarande resultat för en urvalsstorlek om 20 respondenter. Kvalitativt kan vi dra liknande slutsatser. Med en lägre urvalsstorlek blir hoppen större i den diskreta fördelningen. I de flesta fall leder det till en lägre storlek på testen, för den vanliga teckentesten vid 5 % signifikansnivå får vi dock en större storlek då närmast möjliga utfall ligger närmare 5 % i det fallet. ( 5 respektive 15 respondenter har p-värdet 0,041 vid vanligt dubbelsidigt teckentest) Tabell 5.2.4 ger motsvarande resultat för urvalsstorleken 200. Här hamnar storleken betydligt närmare signifikansnivåerna då fördelningen mer och mer liknar en kontinuerlig fördelning ju större urval vi har. De kvalitativa slutsatserna angående skillnaderna i FWER mellan de olika testmetoderna blir snarliga i de tre urvalsstorlekarna. 1 % signifikansnivå 5 % signifikansnivå Vanligt tecken-test Betingat tecken-test HB justerat vanligt teckentest HB justerat betingat teckentest Vanligt tecken-test Betingat tecken-test HB justerat vanligt teckentest HB justerat Betingad teckentest

Det individuella testets faktiska storlek, procent

1,4 0,7 0,1 0,1 9,3 3,7 0,6 0,3

Familywise error rate, FWER, procent

Samtliga 11,5 6,0 1,0 0,5 54,3 25,8 5,6 2,5

Friedman sign. 98,8 88,2 42,3 25,2 100,0 97,8 59,5 30,3

Friedman ej sign. 10,6 5,3 0,6 0,3 52,0 22,1 2,8 1,0

Antal signifikanta test, procentuell andel av urvalen

0 88,5 94,0 99,0 99,5 45,7 74,2 94,4 97,5 1 9,7 5,2 1,0 0,5 29,4 18,2 5,1 2,2 2 1,5 0,7 0,0 0,0 15,2 5,3 0,5 0,2 3 0,2 0,1 0,0 0,0 6,8 1,7 0,0 0,0 4 0,0 0,0 0,0 0,0 2,3 0,5 0,0 0,0 5 0,0 0,0 0,0 0,0 0,6 0,1 0,0 0,0

(20)

17

Tabell 5.2.3 samtliga 10 tester utförs, H

0

sann, n = 20, 2-tailed test

Tabell 5.2.4 samtliga 10 tester utförs, H

0

sann, n = 200, 2-tailed test

1 % signifikansnivå 5 % signifikansnivå Vanligt tecken-test Betingat tecken-test HB justerat vanligt teckentest HB justerat betingat teckentest Vanligt tecken-test Betingat tecken-test HB justerat vanligt teckentest HB justerat Betingad teckentest

Det individuella testets faktiska storlek, procent

0,3 0,3 0,0 0,0 4,2 1,9 0,3 0,2

Familywise error rate, FWER, procent

Samtliga 2,4 3,0 0,4 0,4 30,1 15,0 2,4 2,1

Friedman sign. 70,6 67,9 23,4 18,8 99,8 85,0 33,4 28,4

Friedman ej sign. 1,8 2,4 0,2 0,2 26,7 11,5 0,9 0,8

Antal signifikanta test, procentuell andel av urvalen

0 97,6 97,0 99,6 99,6 69,9 85,0 97,6 97,9 1 2,2 2,7 0,4 0,4 21,3 11,8 2,2 1,9 2 0,1 0,3 0,0 0,0 6,6 2,4 0,1 0,1 3 0,0 0,0 0,0 0,0 1,8 0,6 0,0 0,0 4 0,0 0,0 0,0 0,0 0,4 0,1 0,0 0,0 5 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 1 % signifikansnivå 5 % signifikansnivå Vanligt tecken-test Betingat tecken-test HB justerat vanligt teckentest HB justerat betingat teckentest Vanligt tecken-test Betingat tecken-test HB justerat vanligt teckentest HB justerat Betingad teckentest

Det individuella testets faktiska storlek, procent

0,9 0,8 0,1 0,1 4,0 4,2 0,4 0,4

Familywise error rate, FWER, procent

Samtliga 7,7 7,3 0,8 0,7 29,3 29,4 3,4 3,6

Friedman sign. 95,4 89,6 36,6 29,5 99,6 98,3 42,1 22,2

Friedman ej sign. 6,8 6,5 0,5 0,4 25,5 25,7 1,3 2,6

Antal signifikanta test, procentuell andel av urvalen

0 92,3 92,7 99,2 99,3 70,7 70,6 96,6 96,4 1 6,7 6,3 0,8 0,7 20,9 20,4 3,1 3,5 2 0,8 0,8 0,0 0,0 6,3 6,1 0,2 0,1 3 0,1 0,1 0,0 0,0 1,7 2,1 0,0 0,0 4 0,0 0,0 0,0 0,0 0,4 0,6 0,0 0,0 5 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0

(21)

18

5.3 Utvärdering av testens styrka vid falsk H0 när samtliga kombinationer testas

För att generera ett datamaterial där populationen har en relativt svag preferens för ett av objekten men är indifferenta mellan de övriga, drogs 5 slumptal från normalfördelningar med

standardavvikelsen 1. För objekt A drogs ett slumptal ur en normalfördelning med medelvärde 1,2. För objekt B, C, D och E drogs slumptalen från normalfördelningar med medelvärde 1. Därefter skapades rangtal baserat på storleken på slumptalet för respektive objekt. I det här fallet är således populationen indifferent mellan objekt B, C, D och E men har en preferens för objekt A. A ligger alltså på första plats i populationens rangordning men kommer att hamna på olika platser i de enskilda urvalens rangordningar.

Observera alltså att bokstäverna här syftar på ett specifikt objekt och inte på det objektets plats i urvalens rangordningar. Innebörden av detta är att när vi nedan redovisar resultaten av testerna mellan specifika objekt exempelvis objekt A och B kommer de att ligga på olika platser i de olika urvalsrangordningarna. I det betingade teckentestet innebär det att de utvärderas utifrån olika kolumner i P-värdes tabellen i olika urval. Och i vissa urval kommer B att ligga före A även om A rangordnas före B av hela populationen.

Tabell 5.3.1 visar andelen förkastade nollhypoteser för de olika kombinationerna av objekt vid våra olika test. Här ska vi alltså förkasta nollhypotesen för de fyra kombinationer av objekt där A ingår men inte förkasta den för de övriga kombinationerna. På de fyra övre raderna är den huvudsakliga slutsatsen att samtliga tester är relativt svaga med en så svag preferens i populationen, men att de ökar med större urvalsstorlek. De HB justerade testerna är givetvis svagare. Jämförelsen mellan det vanliga och det betingade teckentestet försvåras av att deras storlek under nollhypotesen avviker. Går vi till de sanna nollhypteserna på de sista 6 raderna ser vi att HB-justerade testen förkastar en betydligt lägre andel sanna nollhypoteser än signifikansnivån vilket förklaras av deras justeringar uppåt av P-värdena. Det vanliga teckentestet förkastar ungefär samma andel här som deras storlek när samtliga objekt var lika populära i populationen. Det betingade teckentestet förkastar dock något fler vilket beror på beroendet mellan de olika betingade testerna.

(22)

19

Tabell 5.3.1 Andel förkastade nollhypoteser, 1,2-1-1-1-1, n=20

1 % signifikansnivå 5 % signifikansnivå Jämförelse av objekt: Vanligt teckentest Betingat teckentest HB justerat teckentest HB justerat betingat teckentest Vanligt teckentest Betingat teckentest HB justerat teckentest HB justerat betingat teckentest A B 0,6 0,6 0,1 0,1 6,8 3,0 0,6 0,5 A C 0,6 0,6 0,1 0,1 6,6 3,0 0,6 0,5 A D 0,6 0,7 0,1 0,1 6,8 3,0 0,6 0,5 A E 0,6 0,6 0,1 0,1 6,7 3,0 0,6 0,5 B C 0,3 0,4 0,1 0,1 4,2 2,2 0,3 0,3 B D 0,3 0,4 0,0 0,1 4,1 2,2 0,3 0,3 B E 0,3 0,4 0,0 0,0 4,2 2,2 0,3 0,3 C D 0,2 0,4 0,0 0,0 4,2 2,1 0,2 0,3 C E 0,3 0,4 0,0 0,1 4,1 2,2 0,3 0,3 D E 0,3 0,4 0,0 0,1 4,2 2,2 0,3 0,3

Tabell 5.3.2 Andel förkastade nollhypoteser, 1,2-1-1-1-1, n=60

1 % signifikansnivå 5 % signifikansnivå Jämförelse av objekt: Vanligt teckentest Betingat teckentest HB justerat teckentest HB justerat betingat teckentest Vanligt teckentest Betingat teckentest HB justerat teckentest HB justerat betingat teckentest A B 3,1 2,7 0,4 0,4 9,2 9,8 1,7 1,5 A C 3,1 2,7 0,4 0,4 9,1 9,7 1,7 1,5 A D 3,0 2,7 0,4 0,4 9,1 9,7 1,7 1,5 A E 3,0 2,7 0,4 0,4 9,1 9,7 1,7 1,5 B C 0,6 1,0 0,0 0,1 2,7 4,7 0,3 0,4 B D 0,6 1,0 0,0 0,1 2,8 4,7 0,3 0,5 B E 0,6 1,0 0,0 0,1 2,7 4,7 0,3 0,4 C D 0,6 1,0 0,0 0,1 2,7 4,7 0,3 0,5 C E 0,6 1,0 0,1 0,1 2,7 4,7 0,3 0,4 D E 0,6 1,1 0,0 0,1 2,7 4,7 0,3 0,4

Tabell 5.3.3 Andel förkastade nollhypoteser, 1,2-1-1-1-1, n=200

1 % signifikansnivå 5 % signifikansnivå Jämförelse av objekt: Vanligt teckentest Betingat teckentest HB justerat teckentest HB justerat betingat teckentest Vanligt teckentest Betingat teckentest HB justerat teckentest HB justerat betingat teckentest A B 14,9 12,8 3,9 3,7 32,1 29,2 9,6 9,4 A C 15,2 13,0 4,0 3,7 32,3 29,2 9,7 9,5 A D 15,0 12,8 4,0 3,6 32,2 29,1 9,7 9,4 A E 15,1 12,9 4,0 3,7 32,3 29,2 9,7 9,5 B C 0,9 1,9 0,1 0,2 4,0 7,4 0,4 1,0 B D 0,9 1,9 0,1 0,2 4,0 7,3 0,4 1,0 B E 0,8 1,8 0,1 0,2 4,0 7,3 0,4 1,0 C D 0,9 1,8 0,1 0,2 4,0 7,4 0,4 1,0 C E 0,9 1,9 0,1 0,2 4,0 7,4 0,4 1,0 D E 0,9 1,8 0,1 0,2 4,0 7,4 0,4 1,0

(23)

20

Hur faller de olika testmetoderna ut när populationen har en ganska stark preferensordning för de olika objekten. För att besvara den frågan gör vi en simulering där vi använder slumptal med standardavvikelsen 1 och medelvärdena A 1,50; B 1,25; C 1,00; D 0,75; E 0,50 för att generera rangordningarna. Här ska således alla nollhypoteser förkastas. Resultaten redovisas i tabell 5.3.4 till 5.3.6 för urvalsstorlekarna 20, 60 respektive 200. Och än en gång får vi tänka på att bokstäverna svarar mot populationens rangordning av objekten, i de enskilda urvalen varierar rangordningarna. Med så här starka preferenser i populationen är det dock ganska ovanligt att objekten hamnar allt för långt från sin position i populationen i urvalets rangordning. Vid urvalsstorleken 60 hamnande objekt A på första plats i 87,7 procent av urvalen medan objekt D enbart hamnade först i 0,5 av urvalen och E återfanns aldrig på första plats. 98,4 procent av urvalen hade objekt A på någon av de två fösta platserna. I det här fallet kommer således objekt A ganska ofta, men inte alltid, att utvärderas utifrån p-värdena i kolumnerna för objektet på första plats i urvalets rangordning. Dessa resultat redovisas i tabellerna 5.2.4 till 5.2.6 för de tre olika urvalsstorlekarna.

Den huvudsakliga slutsatsen här är att det vanliga teckentestet har betydligt större styrka när vi testar objekt som ligger långt ifrån varandra i rangordningen men är väldigt svagt när vi testar objekten som ligger intill varandra. Det betingade teckentestet har lite av samma effekt men inte alls lika uttalad. Vid en första tanke kanske man skulle tänka att skillnaderna borde försvinna helt p.g.a. av betingningen men det är ju inte populationens rangordning som vi betingar på utan urvalets. Det är bara i de urval där objekt A kommer på första och objekt B på andra plats som det betingade testet väger ner just deras P värde. Slutsatsen av detta är alltså att det betingade testet är starkare än det vanliga teckentestet om vi testar objekt på platserna intill varandra i populationens

rangordning medan det vanliga är starkare än det betingade när vi testar objekt som ligger långt ifrån varandra i populationens rangordning.

Ser vi till den genomsnittliga styrkan ter det sig som att det betingade testet har en aning större styrka än det vanliga. Jämförelsen är inte alldeles lätt att göra då storleken på testerna också varierar men även vid urvalsstorleken 200 där storleken är ganska lika mellan testen är det betingade testet starkare. Dessutom ökar naturligtvis styrkan i alla testen med urvalsstorleken. Tabellerna 5.3.7 till 5.3.9 redovisar resultat från en population där det finns en strikt men väldigt svag preferensordning. Vi ser att samtliga test då får en väldigt låg styrka.

(24)

21

Tabell 5.3.4 Andel förkastade nollhypoteser, 1,5-1,25-1-0,75-0,5, n=20

1 % signifikansnivå 5 % signifikansnivå Jämförelse av objekt: Vanligt teckentest Betingat teckentest HB justerat teckentest HB justerat betingat teckentest Vanligt teckentest Betingat teckentest HB justerat teckentest HB justerat betingat teckentest A B 0,8 4,4 0,2 1,2 8,2 12,4 0,8 3,0 A C 3,5 7,2 0,9 2,1 21,3 18,8 3,5 6,6 A D 11,0 10,7 3,7 3,0 42,4 26,2 11,0 10,5 A E 25,8 16,1 10,9 4,8 65,6 36,0 25,8 16,0 B C 0,8 2,7 0,2 0,6 8,3 9,1 0,8 2,7 B D 3,5 5,5 0,9 1,3 21,2 16,0 3,5 5,5 B E 11,1 11,1 3,7 3,2 42,4 27,0 11,1 10,8 C D 0,8 2,8 0,2 0,7 8,3 9,4 0,8 2,8 C E 3,5 7,8 0,9 2,3 21,3 19,8 3,5 7,0 D E 0,8 4,9 0,2 1,4 8,3 13,2 0,8 3,2 Medel 6,2 7,3 2,2 2,1 24,7 18,8 6,2 6,8

Tabell 5.3.5 Andel förkastade nollhypoteser, 1,5-1,25-1-0,75-0,5, n=60

1 % signifikansnivå 5 % signifikansnivå Jämförelse av objekt: Vanligt teckentest Betingat teckentest HB justerat teckentest HB justerat betingat teckentest Vanligt teckentest Betingat teckentest HB justerat teckentest HB justerat betingat teckentest A B 4,9 17,0 1,4 6,5 13,0 34,7 4,7 15,5 A C 27,9 40,8 12,5 21,2 48,3 62,8 26,9 39,8 A D 68,0 70,9 44,9 47,1 84,5 87,6 65,1 65,3 A E 93,4 87,7 78,9 65,3 98,1 96,4 90,8 81,5 B C 4,9 21,7 1,4 9,0 13,2 33,8 4,7 20,8 B D 27,9 47,3 12,4 26,5 48,2 68,4 27,0 45,5 B E 68,2 71,1 45,1 47,5 84,7 87,7 65,2 65,6 C D 4,9 21,5 1,3 9,0 13,1 33,7 4,7 19,7 C E 27,9 40,8 12,5 21,4 48,2 62,9 26,8 39,4 D E 4,9 17,4 1,4 6,6 13,1 35,1 4,7 15,7 Medel 33,3 43,6 21,2 26,0 46,4 60,3 32,1 40,9

Tabell 5.3.6 Andel förkastade nollhypoteser, 1,5-1,25-1-0,75-0,5, n=200

1 % signifikansnivå 5 % signifikansnivå Jämförelse av objekt: Vanligt teckentest Betingat teckentest HB justerat teckentest HB justerat betingat teckentest Vanligt teckentest Betingat teckentest HB justerat teckentest HB justerat betingat teckentest A B 26,3 53,0 13,0 41,6 47,4 69,3 30,4 64,1 A C 91,0 95,3 78,7 90,5 97,2 98,3 91,4 96,6 A D 99,9 100,0 99,7 99,8 100,0 100,0 99,9 100,0 A E 100,0 100,0 100,0 100,0 100,0 100,0 100,0 100,0 B C 26,2 63,9 13,1 52,4 47,4 78,5 30,2 71,2 B D 91,0 97,5 78,7 94,4 97,2 99,2 91,7 97,9 B E 99,9 99,9 99,7 99,8 100,0 100,0 99,9 100,0 C D 26,1 63,9 13,1 53,9 47,4 78,5 30,1 72,2 C E 91,0 95,3 78,6 90,5 97,3 98,3 91,5 96,7 D E 26,2 53,1 13,0 41,8 47,5 69,4 30,3 64,5 Medel 67,8 82,2 58,7 76,5 78,1 89,1 69,5 86,3

(25)

22

Tabell 5.3.7 Andel förkastade nollhypoteser, 1,1-1,05-1-0,95-0,9, n=20

1 % signifikansnivå 5 % signifikansnivå Jämförelse av objekt: Vanligt teckentest Betingat teckentest HB justerat teckentest HB justerat betingat teckentest Vanligt teckentest Betingat teckentest HB justerat teckentest HB justerat betingat teckentest A B 0,3 0,4 0,0 0,1 4,4 2,2 0,3 0,3 A C 0,3 0,4 0,1 0,1 4,8 2,3 0,3 0,3 A D 0,4 0,5 0,1 0,1 5,5 2,4 0,4 0,4 A E 0,6 0,6 0,1 0,1 6,5 2,8 0,6 0,4 B C 0,3 0,4 0,0 0,1 4,4 2,1 0,3 0,3 B D 0,4 0,4 0,1 0,1 4,8 2,2 0,4 0,3 B E 0,5 0,5 0,1 0,1 5,6 2,5 0,5 0,4 C D 0,3 0,4 0,0 0,1 4,2 2,1 0,3 0,3 C E 0,3 0,5 0,0 0,1 4,8 2,4 0,3 0,3 D E 0,3 0,5 0,0 0,1 4,3 2,5 0,3 0,3 Medel 0,4 0,5 0,1 0,1 4,9 2,4 0,4 0,3

Tabell 5.3.8 Andel förkastade nollhypoteser, 1,1-1,05-1-0,95-0,9, n=60

1 % signifikansnivå 5 % signifikansnivå Jämförelse av objekt: Vanligt teckentest Betingat teckentest HB justerat teckentest HB justerat betingat teckentest Vanligt teckentest Betingat teckentest HB justerat teckentest HB justerat betingat teckentest A B 0,7 1,2 0,1 0,1 3,1 5,4 0,3 0,6 A C 1,2 1,4 0,1 0,1 4,2 5,8 0,5 0,7 A D 1,9 1,7 0,2 0,2 6,2 6,8 1,0 0,8 A E 3,1 2,2 0,4 0,3 9,1 8,5 1,6 1,1 B C 0,7 1,1 0,1 0,1 3,2 4,8 0,3 0,5 B D 1,1 1,3 0,1 0,1 4,2 5,4 0,5 0,6 B E 1,9 1,7 0,2 0,2 6,2 7,0 1,0 0,8 C D 0,7 1,1 0,1 0,1 3,1 4,8 0,3 0,4 C E 1,1 1,4 0,1 0,2 4,2 6,0 0,6 0,6 D E 0,7 1,2 0,1 0,1 3,1 5,7 0,3 0,6 Medel 1,3 1,4 0,1 0,2 4,7 6,0 0,7 0,7

Tabell 5.3.9 Andel förkastade nollhypoteser, 1,1-1,05-1-0,95-0,9, n=200

1 % signifikansnivå 5 % signifikansnivå Jämförelse av objekt: Vanligt teckentest Betingat teckentest HB justerat teckentest HB justerat betingat teckentest Vanligt teckentest Betingat teckentest HB justerat teckentest HB justerat betingat teckentest A B 1,4 3,0 0,2 0,5 5,6 9,4 0,7 1,7 A C 3,4 4,3 0,6 0,8 10,7 12,9 1,9 2,7 A D 7,7 6,0 1,6 1,3 19,5 17,5 4,5 4,0 A E 15,0 8,3 4,0 1,9 32,1 22,7 9,5 5,9 B C 1,4 2,8 0,2 0,4 5,6 9,7 0,7 1,5 B D 3,4 4,0 0,6 0,7 10,7 12,9 1,8 2,5 B E 7,6 6,0 1,6 1,2 19,5 17,5 4,5 4,0 C D 1,4 2,7 0,2 0,4 5,6 9,6 0,7 1,6 C E 3,4 4,3 0,6 0,8 10,6 13,0 1,8 2,8 D E 1,4 3,1 0,2 0,5 5,6 9,7 0,7 1,8 Medel 4,6 4,5 1,0 0,9 12,5 13,5 2,7 2,9

(26)

23

5.4 Utvärdering av strategi att endast testa intilliggande objekt, H0 sann

I detta avsnitt kommer vi att utvärdera en teststrategi som innebär att man, efter att ha rangordnat objekten efter deras genomsnittliga rangtal i urvalet, testar alla intilliggande objekt. Vi testar ettan mot tvåan, tvåan mot trean, trean mot fyran och slutligen fyran mot femman. Med en sådan strategi blir således antalet tester lika med antalet objekt minus ett. I vårt fall utförs således fyra stycken tester. Om vi använder ett vanligt teckentest blir styrkan i testet väldigt låg då vi alltid testar de objekt som ligger intill varandra. Men det innebär också att risken att felaktigt förkasta en korrekt nollhypotes blir väldigt liten. Det individuella testet får en väldigt liten storlek.

Vi utvärderar tre alternativa testmetoder. Det vanliga teckentestet samt det betingade teckentestet med eller utan HB-justering. För det vanliga teckentestet finns här inga skäl att HB-justera eftersom valet av objekt eliminerar problemet med FWER. Valet av objekt ger ju det enskilda testet en väldigt liten storlek. För det betingade teckentestet innebär betingningen i detta fall alltid att p-värdet justeras nedåt, en HB-justering kommer att öka p-värdet igen. I det här fallet blir FWER ca 4 gånger så stor som det individuella testets storlek. En fördel med den här strategin är att antalet test är litet. Därmed är FWER inte lika hög i det icke justerade betingade teckentestet och HB-justeringen ger inte lika kraftig neddragning av testets styrka eftersom vi inte behöver göra en lika stor justering.

Tabell 5.4.1 Endast intilliggande objekt testas, n = 20, 2-tailed test

1 % signifikansnivå 5 % signifikansnivå Vanligt teckentest Betingat teckentest HB justerat betingat teckentest Vanlig teckentest Betingat teckentest HB justerat betingat teckentest

Det individuella testets faktiska storlek, procent

0,01 0,33 0,09 0,36 1,89 0,78

Familywise error rate, FWER, procent

Samtliga 0,0 1,3 0,4 1,4 7,3 3,0

givet Friedman sign 1,2 23,1 11,2 13,0 37,6 20,8

givet Fridman ej sign 0,0 1,2 0,3 0,9 5,8 2,1

Antal signifikanta test, procentuell andel av urvalen

0 100,0 98,7 99,6 98,6 92,7 97,0

1 0,0 1,3 0,4 1,4 7,1 2,9

2 0,0 0,0 0,0 0,0 0,2 0,0

3 0,0 0,0 0,0 0,0 0,0 0,0

(27)

24

Tabell 5.4.2 Endast intilliggande objekt testas, n = 60, 2-tailed test

1 % signifikansnivå 5 & signifikansnivå Vanligt teckentest Betingat teckentest HB justerat betingat teckentest Vanlig teckentest Betingat teckentest HB justerat betingat teckentest

Det individuella testets faktiska storlek, procent

0,02 0,73 0,15 0,18 3,33 0,74

Familywise error rate, FWER, procent

Samtliga 0,1 2,9 0,6 0,7 12,7 2,9

givet Friedman sign 2,5 29,8 11,3 7,0 49,6 19,5

givet Fridman ej sign 0,0 2,6 0,5 0,4 10,8 2,0

Antal signifikanta test, procentuell andel av urvalen

0 99,9 97,1 99,4 99,3 87,3 97,1

1 0,1 2,9 0,6 0,7 12,0 2,9

2 0,0 0,0 0,0 0,0 0,6 0,0

3 0,0 0,0 0,0 0,0 0,0 0,0

4 0,0 0,0 0,0 0,0 0,0 0,0

Tabell 5.4.3 Endast intilliggande objekt testas, n = 200, 2-tailed test

1 % signifikansnivå 5 % signifikansnivå Vanligt teckentest Betingat teckentest HB justerat betingat teckentest Vanlig teckentest Betingat teckentest HB justerat betingat teckentest

Det individuella testets faktiska storlek, procent

0,03 0,90 0,14 0,34 4,32 0,92

Familywise error rate, FWER, procent

Samtliga 0,1 3,6 0,6 1,4 15,9 3,6

givet Friedman sign 3,3 35,8 12,7 11,8 54,8 22,2

givet Fridman ej sign 0,1 3,2 0,5 0,8 13,9 2,6

Antal signifikanta test, procentuell andel av urvalen

0 99,9 96,4 99,4 98,6 84,1 96,4

1 0,1 3,5 0,6 1,3 14,7 3,5

2 0,0 0,1 0,0 0,0 1,2 0,1

3 0,0 0,0 0,0 0,0 0,1 0,0

References

Related documents

Po¨ angen p˚ a godk¨ anda duggor summeras och avg¨ or slutbetyget.. L¨ osningarna skall vara v¨ almotiverade och

En tentand som f˚ att f¨ arre ¨ an 9 skrivningspo¨ ang f˚ ar addera intj¨ anade bonuspo¨ ang till sin skrivningspo¨ ang s˚ a l¨ ange summan av bonuspo¨ ang och skrivningspo¨

Vidare visar kartlägg- ningen att andelen företagare bland sysselsatta kvinnor i Mål 2 Bergslagen inte skiljer sig nämnvärt från det nationella genomsnittet.. Däremot är andelen

Förekomsten av mycket hygroskopiska föreningar i aerosoler kan påskynda processen för bildandet molndroppar, medan närvaron av mindre hygroskopiska ämnen kan förlänga den tid som

Since the Monte Carlo simulation problem is very easy to parallelize PenelopeC was extended with distribution code in order to split the job between computers.. The idea was to

Vi är skeptiska till mervärdet med ursprungsgarantier för värme då det i praktiken inte finns någon risk för "dubbelräkning" av förnybar värme i de mer än 500 lokala

Sin e the absolute value of the B latti e magnetization is plotted rather than its real value the ompensation point will appear in the interse tion between the

Grundat i erfarenheter från församlingars vardag och med inspiration från Latour och andra tänkare diskuterar Jonas Ideström om hur teologisering handlar om att både urskilja och