• No results found

Den empiriska studien: material och metod

5.3 Använda statistiska mått

I detta avsnitt redovisas vilken typ av statistiska beräkningar som används i resultatredovisningen samt de villkor som skall vara uppfyllda för att olika typer av statistiska beräkningar skall kunna göras.

5.3.1 Skalnivåer i den numeriska analysen

De numeriska variablerna (se avsnitt 5.2.3 ovan) representerar olika mätnivåer, olika typer av skalor, vilket har betydelse för vilken typ av statistiska mått som kan användas. Se t.ex. Undheim (1988: 38-41) för en noggrannare beskrivning av detta.

Det finns huvudsakligen tre olika skalor. Numeriska variabler, vars sifferkoder enbart representerar kategorier, t.ex. variabeln ’ålandsfö’ dvs. ÅLANDSFÖDD ELLER INTE. Här har ”Ja” = 1 (kodat som en etta) och ”Nej” = 2 (kodat som en tvåa) ingen direkt matematisk relevans utan avgörande är att olika kategorier ges olika numeriska koder. Variabeln ’ålandsfö’ representerar en nominalskala liksom många av variablerna för bakgrundsinformation i undersökningen såsom variab- lerna för kön, skoltyp, linjetyp m fl.

De flesta variablerna av attitydkaraktär i denna undersökning representerar data där svaren klassificeras med hjälp av kategorier som utmärker en rangordning. Kategorierna ”Helt enig” = 1, ”Mer enig än oenig” = 2, ”Varken enig eller oenig” = 3, ”Mer oenig än enig” = 4 och ”Helt oenig” = 5 representerar ett kontinuum där varje högre värde på skalan representerar en större oenighet med påståendet än föregående lägre skala. Variabler av denna typ representerar en ordinalskala.

Slutligen finns intervallskalor som inte bara är rangordnade utan där avstånden mellan varje steg på skalan är identiska. Dessa värden har i allmänhet direkt matematisk relevans (och har därför inte getts några beskrivande etiketter i den aktuella studien), såsom variablerna för antalet år respondenterna läst olika språk i skolan i den aktuella undersökningen. Intervallskalor med en nollpunkt som utgångsläge kallas ratio-skalor eller kvotskalor.

5.3.2 Grundläggande statistiska mått på olika skalnivåer

I den aktuella undersökningen används dels enkla frekvensredovisningar (eller korstabulerade sådana) av variablerna, dvs. antal svar redovisas i absoluta tal och i procent för de olika kategorierna en variabel kan anta. Vidare ges olika mått på

den centrala tendensen i fördelningarna och i någon mån på spridningen (Undheim, 1988: 56ff).

Vid numeriska variabler som uttrycker nominalskalor är det inte relevant att ange andra mått på den centrala tendensen än typvärdet (på engelska mode) som anger vilken kategori som är vanligast förekommande. Vid ordinalskalor kan även medianen användas. Medianen anger vad den mellersta respondenten angivit för svar då samtliga svar ordnats i följd från det lägsta värdet till det högsta (eller tvärtom). Vid intervallskalor kan också (det aritmetriska) medelvärdet (på engelska mean) användas vilket ger en ytterligare bild av fördelningen. Också om medianen är relativt låg kan medelvärdet vara högt t.ex. om några individer urskiljer sig med speciellt höga värden (och tvärtom).

I den föreliggande undersökningen redovisas ofta alla de här måtten på central tendens, men inte vid nominalskalor. Däremot redovisas ofta medelvärdet för attitydfrågorna och för frågorna om språkförmåga trots att dessa strikt taget inte är intervallskalor utan ordinaldito. Det går inte vid en Likertskala t.ex. (se avsnitt 3.1 ovan) att hävda att avstånden mellan varje steg är identiskt stora men det är rimligt att påstå att dessa variabler närmar sig en intervallskala. En diskussion om huruvida intervallmått kan användas för dylika har också pågått (Wingstedt, 1998: 328). Därför har även medeltalet ofta angetts för dessa variabler. Dessa medeltal skall ändå tolkas med viss försiktighet men anger ändå en central tendens.

Ibland har även ett mått kallat nettoattityd använts. Detta skapas genom att summan av %-enheterna för de negativa attityderna ’mer oenig än enig’ och ’helt oenig’ subtraheras från summan av %-enheterna för de positiva attityderna ’mer enig än oenig” och ’helt enig’ medan gruppen ’varken enig eller oenig’ lämnas obeaktad. Är måttet positivt finns det en övervikt positiva attityder, dvs. respon- denter som håller med om påståendet och är det negativt finns det en övervikt av negativa attityder, dvs. respondenter som inte håller med om påståendet.

Vidare har som nämndes ovan variablerna ’kantäfin’ dvs. KAN TÄNKA SIG FINLAND’, ’kantäsve’ dvs. KAN TÄNKA SIG SVERIGE och ’kantätre’ dvs. KAN TÄNKA SIG TREDJE LAND respektive de sammanslagna subjektiva kompetensvariablerna för språken engelska, finska, tyska och franska skapats genom att ta medelvärdet av varje respondents svar på de tre respektive fyra variabler som utgör grunden till de nya variablerna. Dessa har skapats för att förenkla behandlingen av variablerna men även dessa variabler bör tolkas med en viss försiktighet.

Vid signifikansberäkningar m.m. har endast mått som är giltiga för ordinalnivån använts vid dessa variabler och när de sammanslagna variablerna (skapade med hjälp av medeltal) har använts för sådana har också signifikansberäkningar m.m. gjorts på de enskilda variablerna som kontroll.

I studien redovisas få spridningsmått. Oftast anges bara det minsta svarsvärdet, dvs. minimumet, och det största, dvs. maximumet.

5.3.3 Signifikans- och korrelationsberäkningar

I föreliggande undersökning har det varit relevant att jämföra svaren för olika delgrupper (delurval) med varandra för att se om det är rimligt att hävda att de skillnader som föreligger i frekvensfördelningarna för olika variabler mellan grup- perna är signifikanta eller inte, dvs. i grunden systematiska och inte beroende av slumpen. Det har t.ex. varit fråga om att utröna om attityderna skiljer sig åt mellan det finska urvalet och de informanter som inte har någon förälder som talar finska med dem eller att se om föräldrarnas ursprung, dvs. huruvida dessa är födda på Åland eller inte har någon relevans för hur respondenterna i de olika grupperna upplever olika frågor.

En signifikant skillnad mellan grupperna föreligger när det rent matematiskt är mycket osannolikt att en existerande skillnad som kan ses i fördelningarna (för en variabel) mellan grupperna skulle uppkomma rent slumpmässigt. Olika signifi- kansnivåer brukar användas. Vanliga är 0,05-nivån (eller 5-procentsnivån), 0,01- nivån (1-procentsnivån) och 0,001-nivån (eller 1-promillesnivån) men i vissa undersökningar anges den exakta uträknade signifikansnivån. I denna undersök- ning används de tre angivna nivåerna. Den sistnämnda uttrycker att sannolikheten för att den befintliga skillnaden mellan gruppernas svar skulle ha uppkommit slumpmässigt mellan grupperna är endast en promille och påvisar alltså att det är mycket sannolikt att grupperna verkligen skiljer sig åt (i attityder m.m.). Vid 0,05- nivån finns en 5 procentig chans eller risk att skillnaden har uppkommit slump- mässigt men det är fortfarande mycket sannolikt att den faktiskt påvisar att grupperna skiljer sig systematiskt åt, dvs. tänker olika eller har olikartade attityder till samma fenomen (Undheim, 1988: 135ff).

För variabler på olika skalnivåer är det nödvändigt att använda olika typer av signifikansberäkningar. Då både den beroende variabeln, dvs. den vi tror påverkas av den andra variabeln, och denna, som kallas den oberoende variabeln (Norušis, 1990: 348) är variabler på nominalnivå är det gängse signifikanstestet kallat Chi-2 eller Chi-kvadrat. Det bygger på jämförelser mellan observerade och förväntade frekvenser. Den observerade fördelningen är den vi har i de olika grupperna (som ses vid en korstabulering), medan den förväntade är den fördelning vi hade haft om grupperna betett sig exakt lika, om inga skillnader fanns mellan grupperna i den oberoende variabeln, dvs. svaren fördelade sig över den beroende variabelns kategorier på ett likadant sätt. Dessa förväntade frekvenser beräknas alltså med reguladetri, dvs. proportionellt utgående från antalet i de olika grupperna (den oberoende variabeln) och fördelningen för de båda grupperna tillsammans. Är skillnaderna mellan de observerade och de förväntade observationerna stora har vi att göra med signifikanta skillnader (Norušis, 1990a: 248ff).

För Chi2-prövningar gäller att man måste se till att de förväntade värdena i för många celler eller rutor inte blir alltför små. I allmänhet anges som en tumregel att inga förväntade värden får vara mindre än 1 och högst 20 % av de förväntade värdena (rutorna) får vara under fem. Ibland blir det nödvändigt att slå ihop vissa underkategorier för att kunna genomföra testet.

Beroende variabler som innehåller data på ordinalnivå har testats för signifi- kanta skillnader med s.k. icke-parametriska test. De test som har använts är teck- enrangtest, Mann-Whitney U-testet och Kolmogorov-Smirnov Z-testet (Undheim, 1988: 148-149; Norušis, 1990a: 444-445, 1990b: 217-231).

För data på integralnivå har One-way Anova-testet använts. Det baserar sig på en jämförelse av medeltalen, varför det inte lämpar sig för data av ordinalkaraktär (Norušis, 1990b: 206-215; Aronsson, 1994: 127-134).

Korrelation innebär samband eller samvariation mellan variabler. Korrelationen kan vara såväl positiv som negativ. Vid positiv korrelation följs variablerna åt så att höga respektive låga värden för den ena systematiskt följs åt av höga respektive låga värden för den andra. Vid negativ korrelation finns istället en systematisk tendens till att höga värden på den ena variabeln ger låga på den andra och tvärtom. Korrelationen anges med värden mellan –1 och 1. Vid en total positiv korrelation är värdet 1 och vid en total negativ korrelation är värdet –1. I den aktuella studien har korrelationer mellan vissa variabler med data på ordinalnivå beräknats. För dylika korrelationsberäkningar lämpar sig Spearmans rangkorrela- tionskoefficient (Undheim, 1988: 82-86; Aronsson, 1994: 92-93).

5.3.4 Faktoranalys

Faktoranalys är ett sätt att finna mera grundläggande dimensioner, eller strukturer som förklarande faktorer bakom flera variabler som på olika sätt är relaterade till varandra. Faktoranalys utförs i flera steg så att först korrelationsmatrisen för alla de variabler man vill studera utförs. Detta innebär att alla parvisa korrelationer mellan de olika variablerna uträknas. Med hjälp av olika test kan man studera om en faktoranalys är på sin plats och genomförbar. Efter detta sker en extraktion, dvs. de nödvändiga faktorerna som kan beskriva gruppen av variabler söks. De faktorer som hittas kan roteras eller transformeras för att göra dem mer begripliga. Samtidigt kan man se hur stor del av variationen i data som förklaras med dessa faktorer (Norušis, 1990b: 312-315).

Faktoranalys kan vara både explorativ (ungefär undersökande) då man inte på förhand vet vilka typer av grundläggande strukturer man söker och konfirmativ, dvs. bekräftande då man testar hypotesen att vissa underliggande strukturer kan förklara variationen i variablerna (Kim & Mueller, 1978: 9-11). I denna studie har explorativ faktoranalys med hjälp av principiell komponentanalys utförts för de sju samhörighetsvariablerna i avsnitt 6.5.2.4 för grundskolelevernas del.

Kapitel 6

Resultatredovisning av svaren på