• No results found

Statistisk analys av en genetisk studie av typ 2 diabetes

N/A
N/A
Protected

Academic year: 2022

Share "Statistisk analys av en genetisk studie av typ 2 diabetes"

Copied!
47
0
0

Loading.... (view fulltext now)

Full text

(1)

Statistisk analys av en genetisk studie av typ 2 diabetes

Ingrid Haneklaus

U.U.D.M. Project Report 2002:P2

Examensarbete i matematisk statistik, 20 poäng

Handledare: Tom Britton och Holger Luthman, Karolinska Institutet Examinator: Tom Britton

Februari 2002

Department of Mathematics

Uppsala University

(2)

Sammanfattning

I detta arbete har vi använt genetiska data från individer i ett isolerat område på Sardinien. För varje individ finns bl.a. genetiska data för vissa markörer på kromosomerna, varje markör utmärker en viss plats. Vi har undersökt hur den genetiska faktorn påverkar diabetes och till diabetes relaterade sjukdomar. Detta har vi undersökt med kopplingsanalys. Med hjälp av denna metod kan man se om det finns någon koppling mellan sjukdomen och någon av markörerna, d.v.s. om markörens plats i genomet har någon påverkan på sjukdomen.

Resultaten visade att det finns svag koppling till vissa områden på några kromosomer. Vi fann starkast signifikans till ett område på kromosom 5. Men studien visar också att det är svårt att finna stark koppling till en speciell gen hos individerna i detta datamaterial.

Abstract

In this master thesis we have used genetic data from individuals of an isolated area of Sardinia. For each individual there is data from many markers on the chromosomes, each marker is located on a specific locus on the chromosome. We have studied how the genetic factor influences diabetes and other phenotypes related to diabetes. The analysis was performed using linkage analysis. This method determines if there is linkage between the disease and any of the markers, i.e. if the locus of the marker has any influence on the disease.

The analysis showed moderate linkage to some areas of some of the chromosomes. The most significant area was located on chromosome 5. The study also showed that it is hard to find highly significant linkage to any particular gene in the present data set.

(3)

Tack till

Jag vill tacka mina handledare på Karolinska Institutet i Stockholm, Holger Luthman och Ingrid Kockum, för att de hjälpt mig att förstå hur en genetisk studie genomförs. Jag vill även tacka Tom Britton som har varit min handledare på Matematiska Institutionen vid Uppsala Universitet, för att ha hjälpt mig med den matematiska delen av arbetet och gett mig vägledning om hur ett examensarbete ska utformas.

(4)

Innehållsförteckning

1 Introduktion ... 4

2 Diabetes ... 5

3 Introduktion till genetik... 6

3.1 Gener ... 6

3.2 Överkorsning ... 7

3.3 IBS eller IBD... 9

4 Datamaterial ... 10

4.1 Från SAS till Arexis (filhantering)... 11

4.2 Kontroll av data ... 11

4.2.1 zGenStat ... 11

4.2.2 SibError ... 12

5 Kopplingsanalys ... 13

5.1 Mappningsfunktioner ... 16

5.2 Signifikanstest ... 18

5.3 Log-odds-ratio ... 19

6 Allegro... 23

6.1 Ett exempel... 27

7 Resultat... 32

Bilaga 1 - Diagram………..………...……….34

Bilaga 2 - Linkageformat……….……….44

Referenser………..…46

(5)

1 Introduktion

Antalet personer som får diabetes ökar hela tiden. Det finns flera orsaker, men en av de mest bidragande är att allt fler lider av övervikt. Övervikten beror i sin tur på för mycket fet mat och för lite motion. Det finns två olika typer av diabetes beroende på i vilken ålder sjukdomen bryter ut, typ 1 som även kallas ungdomsdiabetes och typ 2 som bryter ut först senare i livet och kallas åldersdiabetes. Förutom livsstil påverkas uppkomsten av diabetes också av ärftliga faktorer, d.v.s. vissa individer bär anlag för sjukdomen vilket gör att den lättare bryter ut.

Detta arbete syftar till att undersöka den ärftliga delen av diabetes, d.v.s. vilka gener som påverkar diabetes och hur mycket. I undersökningen ingår familjer från Sardinien, där minst ett av barnen i vuxen ålder har fått diagnosen typ 2 diabetes. Vi har tittat på hur syskonpar i familjerna har ärvt generna från föräldrarna.

I varje cell i kroppen finns 23 kromosompar, varav 22 kallas autosomala. Det 23:e paret är ett könskromosompar, som bestämmer vilket kön barnet får. Kvinnor har två s.k. X-kromosomer och män har en X-kromosom och en Y-kromosom. På kromosomerna, som är uppbyggda av DNA, finns generna. Generna bestämmer hur vi ska se ut och hur vår kropp ska fungera. Den egenskapen som en gen ger hos en individ kallas fenotyp, t.ex. ögonfärg. Hur generna ärvs bestäms under produktionen av könsceller, då sker s.k. överkorsningar mellan kromosomerna så att varje könscell får vissa gener från individens mamma och andra från individens pappa, vilket gör att könscellerna inte nödvändigtvis blir identisk med någon av föräldrarnas könsceller.

För att se vilka gener som kan ha inverkan på diabetes använde vi oss av kopplingsanalys.

Med kopplingsanalys kan man se om det finns en koppling mellan sjukdomen och en speciell gen. Vi använde en ickeparametrisk metod, som till skillnad från en parametrisk metod inte kräver vetskap om hur fördelningen för testet ser ut, och till hjälp hade vi ett genetiskt statistiskprogram, Allegro. Analyserna som utfördes var enpunktsanalyser, där endast en viss gen analyseras, och flerpunktsanalyser som även använder punkterna runtom den aktuella genen i analysen. Undersökningen har endast innefattat de autosomala kromosomparen. För att analysera könskromosomerna krävs andra metoder.

Vi har undersökt sex olika fenotyper som alla är kvalitativa. Utöver diabetes utgör dessa fenotyper som i sin tur påverkar diabetes.

AER – hur mycket/lite albumin levern filtrerar ut i blodet.

hTG – hur mycket/lite triglycerider (blodfett) det finns i blodet.

HT – visar om blodtrycket är högt eller lågt.

lHDL – hur mycket/lite av det ”goda kolesterolet” som finns i blodet.

UR – hur mycket/lite urinsyra det finns i urinen.

NIDDM – visar om individen har diabetes eller inte.

Efter att ha undersökt hela genuppsättningen för ca 770 individer för de sex fenotyperna fann vi viss koppling för fem av fenotyperna.

På kromosom 1 och 3 hittade vi koppling för diabetes (NIDDM). På kromosom 5 gav Allegro koppling för högt värde på triglycerider (hTG). Det fanns även en viss koppling till högt triglyceridvärde på kromosom 8. Koppling till fenotypen AER fann vi på kromosomerna 4, 8 och 13, och på kromosom 22 fanns det koppling till högt blodtryck (HT).

Vi fann ingen koppling till fenotypen UR på genomet.

(6)

2 Diabetes

Diabetes är en av de största folksjukdomarna. I hela världen finns ca 130 miljoner diabetiker.

Detta antal kommer troligtvis att öka, bl.a. beroende på att allt fler blir överviktiga. Detta i sin tur beror av att vi rör oss mindre och att vi äter mer fet mat.

När sjukdomen först upptäcktes, på 600-talet före Kristus, kallades den ”honungsurin”. Flera hundra år senare fick sjukdomen sitt nuvarande namn, diabetes.

Det finns två sorters diabetes, typ 1 och typ 2. Typ 1 kallas även ungdomsdiabetes och brukar bryta ut före 35 års ålder. Typ 2 varianten uppkommer senare i livet. Undersökningar av enäggstvillingar visar att typ 2 diabetes är mer ärftligt än typ 1.

Symtomen på sjukdomen är ökad törst, ökad mängd urin och trötthet. Avmagring och dimsyn kan också förekomma. Båda formerna av diabetes ger ökad risk för slaganfall och hjärtattacker. Diabetes kan också leda till blindhet.

Vid typ 1 slutar bukspottkörteln helt att tillverka insulin, cellerna har förstörts av kroppens eget immunförsvar. Vid typ 2 har tillverkningen bara minskat. Insulinet behövs för att transportera socker in i kroppens celler. Om det saknas eller finns för lite insulin stannar sockret kvar i blodet. Detta medför att sockerhalten i blodet blir för hög och även att cellerna inte får någon energi. Om cellerna inte får den energi de behöver förbränner de kroppsfett. Då bildas ketoner, vilket kan ge syraförgiftning. Syraförgiftning kan leda till magont, illamående och kräkningar. För att minska sockerhalten filtreras sockret ut med urinen och urinen blir

”söt”. (Därav namnet honungsurin.)

Namnet diabetes, som betyder rinna igenom, kommer av att då sockerhalten i blodet når en viss gräns måste det överflödiga sockret filtreras bort. Detta sker med urinen. En diabetiker som ofta har för mycket socker i blodet måste filtrera bort mycket socker och detta ökar mängden urin. Kroppen kan då liknas vid ett rör som vätskan rinner igenom. Diabetes kan också bero på att cellerna är insulinresistenta. Då är cellerna okänsliga för insulin. Insulinet kan inte användas för att transportera in sockret i cellerna och p.g.a. detta stiger sockerhalten i blodet.

Med rätt behandling kan diabetiker leva ett normalt liv. Det är viktigt att tillföra kroppen rätt mängd insulin. Insulinet kan injiceras med sprutor eller tas som tabletter. Det är också viktigt att äta rätt. För att hålla blodsockerhalten på en jämn nivå är det bra att äta varierad kost och se till att sprida ut måltiderna över dagen.

(7)

3 Introduktion till genetik

3.1 Gener

Generna finns på kromosomerna i cellens kärna, och är uppbyggda av DNA. Människan har 22 par autosomala kromosomer, och ett könskromosompar.

En kromosom består av två DNA-strängar som är snurrade runt varandra som en spiral, även kallad dubbelhelix.

Figur 1: Två DNA-strängar som är snurrade runt varandra, de bildar på så sätt en dubbelhelix.

I varje position av DNA-strängen finns en av fyra nukleotider: Guanin, Cytosin, Adenin och Tymin (förkortas G, C, A och T). Varje kromosom består av en kromatid och en centromer.

Ett kromosompar består av två kromosomer som tillsammans kallas systerkromatider. De två kromatiderna är sammankopplade med centromererna.

Kromosompar

centromer

systerkromatider

Figur 2: Ett kromosompar består av två systerkromatider och en

centromer.

En kromosom består av ca 130 miljoner nukleotider. En gen, som endast är en liten del av kromosomen, består av ca 1000 nukleotider. Genen bestämmer vilka proteiner som ska bildas i cellen. Allel är ett annat namn för en variant av en gen som ger en viss egenskap och varje gen har en väldefinierad plats som kallas lokus. I varje cell i kroppen finns 23 kromosompar.

Varje par (förutom könskromosomerna) består av två kromosomer som har samma genetiska lokus och struktur, den ena kommer från mamman och den andra kommer från pappan, de två kromosomerna sägs vara homologa. Om en individ har lika alleler, för ett visst lokus, på de båda systerkromatiderna säger man att den är homozygot för lokuset, motsatsen kallas

(8)

heterozygot. Ett exempel är genen för ögonfärg. Om ett barn har fått anlag för bruna ögon av mamman och blå ögon från pappan är barnet heterozygot för det lokuset. Om det i stället skulle ha fått anlagen för bruna ögon av båda föräldrarna är barnet homozygot. Begreppet genotyp specificerar genuppsättningen. Genotypen bestämmer sedan, eventuellt med andra faktorer, individens tillstånd, detta kallas fenotyp. Blå ögon är ett exempel på en fenotyp.

Vid varje celldelning i kroppen duplikerar sig krosomerna så att den nya cellen blir en exakt kopia av den gamla cellen, detta kallas mitos.

3.2 Överkorsning

Under meiosen (se Figur 3a), tillverkning av könsceller, paras de homologa kromosomerna ihop och dupliceras. De bildar ett par med två systerkromatider. De homologa paren samlar ihop sig till s.k. tetrader, ett kromosompar från individens mamma och ett från pappan. Sedan delas de homologa paren upp i två nya celler, så att det blir ett kromosompar i varje cell.

Slutligen delas även dessa celler upp i två nya celler med en kromosom från varje par. Vid varje meios bildas fyra nya könsceller med en enkel kromosomuppsättning i varje cell.

Figur 3a: Bild på meios (Campbell, 1999, sid 231)

(9)

Då de homologa kromosomparen bildar en tetrad kan det ske slumpmässiga överkorsningar mellan kromosomparen (se Figur 3b). Detta gör att kromosomerna får nya kombinationer av alleler och att avkommornas könceller inte blir identiska med föräldrarnas.

Figur 3b: Bild på meios med överkorsning (Campbell, 1999, sid 234) Eventuella överkorsningar sker under metafasen (metaphase).

Gener som ligger nära varandra på kromosomen skiljs sällan åt vid överkorsning, men när avståndet ökar mellan generna ökar också chansen för att det sker en överkorsning mellan dem. Gener som ligger på olika kromosomer kan ses som oberoende av varandra, d.v.s.

sannolikheten för överkorsning på en kromosom är inte beroende av om det skett en överkorsning på en annan kromosom. Mer om detta kan t.ex. läsas i Gonick L, Wheelis M, (1996) och Haines J, Pericak-Vance M, (1998).

(10)

3.3 IBS eller IBD

För varje gen ärver barnen en allel från mamman och en från pappan, till kromosomerna i kromosomparen. Syskonen i en familj kan sinsemellan antingen ärva samma allel eller olika alleler från föräldrarna.

Vid kopplingsanalys studeras hur allelerna delas av syskonen. Genom att bestämma hur allelerna har ärvts kan man bestämma vilken allel som ger uttryck för en viss fenotyp. I vårt fall har vi tittat på hur syskonpar har ärvt sina alleler. Syskon kan dela alleler IBS (Identity- By-State) eller IBD (Identity-By-Descent). Alleler som delas IBS är lika alleler men de kommer inte nödvändigtvis från samma förälder. För att allelen ska vara IBD måste den komma från samma förälder och även från samma kromosom hos den föräldern d.v.s. från samma mor- eller farförälder. En allel som är IBD är även IBS, men det omvända behöver inte gälla. Exemplet i Figur 4 visar hur syskon kan dela alleler IBS och IBD givet föräldrarnas genotyper. Män brukar symboliseras med kvadrater och kvinnor med cirklar. Familjen i Figur 4 består av mamma, pappa och två söner.

IBS eller IBD

ac ab

1. ac ac 2. ac aa 3. ac ab 4. bc aa

IBS IBD 2 2 1 1 1 0 0 0

Figur 4: Ett exempel där vi vet föräldrarnas genotyper. Eftersom varje syskon ärver en allel från mamman och en från pappan finns det fyra olika kombinationer för hur syskonen kan ha ärvt allelerna. Figuren visar hur många alleler som ärvts IBS resp IBD för vart och ett av de fyra möjliga syskonkonfigurationerna.

Det blir fyra olika kombinationer för hur syskonen kan ärva allelerna. I första fallet har båda syskonen allelerna a och c, det betyder att båda allelerna delas IBS. Genom att titta på hur föräldrarna ser ut och att vi vet att en allel kommer från mamman och en kommer från pappan kan vi se att båda allelerna även delas IBD, vilket kommer av att c-allelen måste komma från pappan och a-allelen måste komma från mamman. I fall 3 delas a-allelen IBS men den kommer inte från samma förälder så den delas inte IBD. Det första barnet har fått a-allelen från mamman och det andra barnet har fått sin a-allel från pappan. Alla individer, oavsett om de är släktingar eller inte kan dela 0, 1 eller 2 alleler IBS.

(11)

4 Datamaterial

Materialet kommer från ett visst isolerat område på Sardinien. Området har tills helt nyligen varit genetiskt homogent, d.v.s. isoleringen har gjort att det har inte kommit in så mycket nya genetiska anlag. Detta gör det lättare att undersöka hur genetiska sjukdomar har ärvts.

Datamaterialet bestod av 2496 personer, varav 1469 kontrollpersoner. De som inte var kontrollpersoner bestod av 323 familjer. I vår undersökning har vi tittat på hur olika kombinationer av syskonpar i familjerna har ärvt anlag från föräldrarna. I de 323 familjerna fanns det 876 syskon och 151 andra släktingar. Av syskonen hade 775 typ 2 diabetes.

Undersökningen omfattar familjer där minst ett av barnen som vuxen har fått diagnosen typ 2 diabetes och både föräldrar och mor-farföräldrarna är födda på Sardinien. I materialet finns endast barnens genuppsättning, med undantag av några enstaka föräldrar.

I beräkningarna används endast de syskon som är sjuka.

I materialet finns förutom värden på alla fenotyper även identitetsnummer, födelseår, längd, vikt och BMI-värdet för individen. BMI betyder Body Mass Index och är ett mått som visar om individen är överviktig eller underviktig. Värdet beräknas enligt:

2

2 m

kg längd

vikt =

BMI > 30 visar på övervikt. Övervikt har visat sig vara relaterat till diabetes, många som har diabetes lider också av fetma.

Vi har valt att endast använda fenotyper med kvalitativa värden, d.v.s. där det går att bestämma om en person är sjuk eller frisk utifrån ett fastställt gränsvärde. Om individen är sjuk bestäms sedan beroende på om dennes mätvärde är över eller under gränsvärdet. För vissa fenotyper är individen sjuk om värdet överstiger gränsvärdet och frisk om värdet underskrider detta, för andra fenotyper gäller det omvända. Värdet 0 står för frisk och 1 för sjuk. Alla fenotyperna har någon trolig påverkan på diabetes, antingen direkt eller indirekt.

Fenotyper:

AER – hur mycket albumin som njuren släpper ut. Albunim är en stor molekyl, om njuren inte klara av att hålla kvar en så stor molekyl, är filtreringen dålig och njuren är i dåligt skick.

Albuminvärdet testas i blodet.

HT – högt blodtryck (hypertension). Diabetes ökar risken för högt blodtryck. Vid diabetes höjs blodsockerhalten, för att få ner halten späs blodet ut med vätska och volymen blir större.

Detta gör att trycket ökar.

lHDL – lågt värde av ”det goda kolesterolet”. Lagom mycket kolesterol är bra för kroppen.

Kolesterolet finns i cellvägar och cellmembran. Om det finns för mycket kolesterol i blodet kan det leda till hjärt och kärlsjukdomar. HDL hjälper till att transportera bort överflödigt kolesterol från cellerna till levern där det bryts ner. Höga HDL-värden är bra.

hTG – högt triglyceridvärde. Triglycerider är blodfetter som används som bränsle i kroppen, för mycket blodfetter ökar risken för hjärt och kärlsjukdomar.

NIDDM – diabetes. Om individen har diabetes.

(12)

UR – Urinsyra. Urinsyran visar hur mycket aminosyror det finns i urinen. Mycket aminosyror betyder att njurens filtrering inte fungerar, d.v.s. att den släpper ut för mycket ämnen.

Vi har gjort analyser för varje fenotyp för sig, d.v.s. en individ räknas som sjuk för varje enskild fenotyp oberoende av de andra fenotyperna.

4.1 Från SAS till Arexis (filhantering)

Innan själva analysen kördes krävdes en hel del databashantering. Nedan kommer en kort av beskrivning av vilka filhanteringsformationer vi utförde.

Alla data fanns i en SAS-databas, men för att lättare kunna analysera materialet skulle allt läggas in i den nya Arexisbasen, från den kan man sedan exportera filer i s.k. linkageformat (se Bilaga 2 – Linkageformat). Linkageformatet behövs för att kunna använda de olika programmen vi använt. För att kunna lägga in det i Arexisbasen var vi först tvungna att ändra formatet. Detta gjordes i Excel. Från SAS-basen exporterades datan till Excel, där vi ändrade formatet, som sedan importerades till Arexisbasen.

Vi började med att lägga in familjerna och individerna, d.v.s. varje familj fick ett nummer och varje individ fick ett personligt identitetsnummer. Sedan lade vi in alla markörer och alla individernas genotyper. Slutligen importerade vi de fenotyper vi valt att använda i analysen.

Sedan exporterades data i Linkageformat.

4.2 Kontroll av data

För att kontrollera att exporteringen från SAS-format till Arexis-format blev rätt utförd, så att vi fått med all data och att allt hamnat på rätt ställe, använde vi zGenStat och SibError. Vi har också kontrollerat kvaliteten på materialet och tagit bort delar som inte innehåller tillräcklig information för att kunna göra en bra analys.

4.2.1 zGenStat

zGenStat använde vi för att bl.a. kontrollera att släktskapet stämde i familjerna, att barnen hade rätt föräldrar och syskonen verkligen var syskon, d.v.s. att det var teoretiskt möjligt att barnen kan ha en viss genuppsättning givet vilka gener föräldrarna har och att syskonen kan dela dessa alleler. Vi kontrollerade också att varje individ har rätt antal alleler.

I zGenStat kan man göra ett homozygositetstest, det är ett test som ger förväntade antalet heterozygota respektive homozygota individer och det observerade antalet heterozygota och homozygota individer, för varje markör. Antalet förväntade homozygota beräknas genom att allelfrekvensen för varje markör kvadreras.

Homozygositettestet för kromosom 11:

Observed Expected Observed Expected Marker Homozygotes Homozygotes Heterozygotes Heterozygotes P<

D11S1984 81 79,02 349 350,98 0,8049

D11S2362 106 108,17 339 336,83 0,8105

D11S1999 100 89,58 358 368,42 0,2195

ATA34E08 78 69,92 234 242,08 0,2729

D11S2371 145 140,29 300 304,71 0,631

D11S2002 72 83,30 293 281,70 0,1588

D11S2000 62 57,22 269 273,78 0,4871

D11S1998 160 151,26 302 310,74 0,386

Tabell 1: Utskrift från homozygositetstest för kromosom 11.

(13)

P-värdet är beräknat med Pearsons c2-test, som testar antalet heterozygota mot antalet homozygota. Testet har utförts enligt Pearsons c2-test (se Kap 5.2 om Signifikanstest), nu är N antalet heterozygota + antalet homozygota, d.v.s. antalet individer, och R är antalet homozygota individer. p är här andelen förväntade homozygota, vilket ger ett p-värde med signifikans enligt c2–fördelningen med en frihetsgrad.

För vissa markörer fanns det ett stort bortfall, d.v.s. att det saknas mätvärden från många individer. Eftersom det är svårt att göra bra analyser för dessa markörer tog vi bort dem ur materialet. De markörer som hade data för färre än 186 individer, 30 % av det största antalet individer, togs bort. Vi tog även bort markörer med ett p<0,0001, ty dessa markörer har inte signifikanta fördelningar för homozygota och heterozygota.

4.2.2 SibError

SibError är ett annat program som kan användas för att kontrollera så att familjestrukturerna stämmer, d.v.s. att det föräldrarna teoretiskt sett kan vara föräldrar till barnen givet barnens genotyper. Programmet beräknar antalet alleler som syskonen delar IBD och jämför sedan med det förväntade antalet alleler. Detta kan göras för ett stort antal markörer. Teststatistikan är approximativt normalfördelad under nollhypotesen, d.v.s. ingen koppling (se Kap 5 om Kopplingsanalys). Låt Z vara det observerade antalet alleler delade IBD. E(Z) är då väntevärdet och Var(Z) är variansen vilket ger att teststorheten är:

) (

) (

Z Var

Z E T = Z -

Detta gör att man kan beräkna p-värdet och upptäcka signifikans med normalfördelningen.

För att få största tillförlitlighet är det bäst med oberoende markörer, men då markörerna ofta är beroende (d.v.s. de ligger på samma kromosom) kan man lösa problemet genom att använda avstånden mellan markörerna. Avstånden måste vara omgjorda till rekombinationsfaktorer (se Kap 5.1 om Mappningsfunktioner).

Syskon som delar alla alleler antas vara homozygota tvillingar. Vi hittade två tvillingpar i vårt material. För varje par tog vi bort en individ, detta p.g.a. att båda individerna har exakt samma genuppsättning och om båda skulle vara med skulle det ge en överrepresentation för de generna.

(14)

5 Kopplingsanalys

Kopplingsanalys används för att se hur två lokus är kopplade till varandra. Om de två lokusen som ska analyseras ligger på olika kromosomer är de inte kopplade, d.v.s. det är lika stor sannolikhet att allelerna på lokusen har ärvts från samma förälder som att den ena kommer från mamman och att den andra kommer från pappan. Om lokusen i stället ligger nära varandra är det större sannolikhet att allelerna kommer från samma förälder, d.v.s. kopplingen mellan två lokus ökar ju mindre avståndet är mellan dem.

För att kunna utföra en kopplingsanalys måste avståndet, m, mellan två lokus bestämmas.

Avståndet definieras som det förväntade antalet överkorsningar mellan dem under meiosen.

Avståndet mäts i Morgan, en Morgan definieras som det avstånd som ger 1 förväntad överkorsning.

Markörer används för att räkna överkorsningar. Varje markör finns vid ett visst lokus på kromosomen, och utgör en del av DNA-strängen som är lätt att känna igen. Sedan kan man titta på om det skett några överkorsningar mellan två markörer. Detta ser man genom att titta på om den ena markören kommer från mamman och den andra kommer från pappan. Då har det skett ett udda antal överkorsningar mellan markörerna. Om det är ett jämt antal överkorsningar ser det ut som den är ickerekombinant. En kromosom som det inte skett några överkorsningar på kallas ickerekombinant. Den är identisk med den ena förälderns ena kromosom. Om kromosomen är rekombinant har det skett minst en överkorsning. Figur 5 visar skilnaden mellan en rekombinant och en ickerekombinant kromosom (mellan två markörer).

Ickerekombinant - Rekombinant

Markör 1

Markör 2

Ickrekombinant kromosom

Rekombinant kromosom

Figur 5: Bilden visar delar av kromosomer mellan två markörer. Den grå färgen symboliserar att den delen kommer från individens pappa och den vita delen visar att den kommer från mamman.

På den rekombinanta kromosomen har det skett en överkorsning, d.v.s. den första markören kommer från mamman och den andra kommer från pappan.

Alla överkorsningar sker mellan kromosomer som inte är systerkromatider (se Figur 6), d.v.s.

vid meiosen måste överkorsningar ske mellan mammans och pappans kromosomer och inte mellan pappans två homologa duplicerade kromosomer eller mammans kromosomer. Det betyder att antalet överkorsningar på ett kromosompar är lika med antalet överkorsningar på hela tetraden.

(15)

En Tetrad

systerkromatider systerkromatider

1 2 3 4

Figur 6: Två homologa duplicerade kromosomer (se meios Figur 3a) ger två kromosompar som tillsammans bildar en tetrad. Eventuella överkorsningar kommer inte att ske mellan systerkromatider, d.v.s.

inte mellan kromatid 1 och kromatid 2 eller kromatid 3 och kromatid 4. En överkorsning kan i stället ske mellan t.ex. kromatid 1 och kromatid 3.

Om det inte sker någon överkorsning kommer alla nya könsceller vara ickerekombinanta.

Ingen överkorsning

Markör 1

Markör 2

Figur 7: Vid varje meios bildas fyra könsceller, om det inte skett någon överkorsning kommer delarna mellan de två aktuella markörerna antingen helt komma från pappan eller helt från mamman.

Grått symbiloserar att delen kommer från pappan och vitt från mamman.

Det ger fyra ickerekombinanta kromosomer. Två stycken som kommer från pappa och två som kommer från mamma (se Figur 7).

Om det i stället sker ett udda antal överkorsningar, måste den ena systerkromatiden i paren ha ett udda antal och den andra ha ett jämt antal. Det ger att hälften av kromosomerna blir rekombinanta och den andra hälften blir ickerekombinanta. Sannolikheten att få en

(16)

rekombinant kromosom är då ½. Figur 8 illustrerar hur det kan se ut då det sker en överkorsning.

Udda antal överkorsningar

Markör 1

Markör 2

Figur 8: Här har det skett en överkorsning. Det ger att det blir två rekombinanta kromosomer och två ickerekombinanta.

Vid varje meios bildas då två rekombinanta och två ickerekombinanta. Om det sker ett jämt antal överkorsningar så blir alla kromosomerna antingen rekombinanta eller alla ickerekombinanta (se Figur 9a och Figur 9b), båda varianterna är lika sannolika så sannolikheten för att få en rekombinant kromosom är även i detta fall ½.

Jämt antal överkorsningar - alla rekombinanta

Markör 1

Markör 2

Figur 9a: Här har det skett två överkorsningar, alla kromosomer är rekombinanta.

(17)

Jämt antal överkorsningar - alla ickerekombinanta

Markör 1

Markör 2

Figur 9b: Här har det skett fyra överkorsningar, alla är ickerekombinanta.

I exemplet (Figur 9b) där alla blir ickerekombinanta har det skett fyra överkorsningar, men markör 1 och markör 2 på varje kromosom kommer fortfarande från samma förälder, de är därför ickerekombinanta för dessa markörer. Om det sker minst en överkorsning mellan två lokus är sannolikheten för rekombination ½. Alltså är sannolikheten att få en rekombinatant könscell ½.

Detta ger att rekombinationsfaktorn q, som är sannolikheten för rekombination, kan beräknas enligt (Sham P.,1998, sid 54):

q = p 2 1

där p är sannolikheten för minst en överkorsning. Kan även skrivas om med p = 1-p0: q =

(

1 0

)

2 1 -p

där p0 är sannolikheten för att det inte sker någon överkorsning.

Sannolikheten för att det ska ske en överkorsning växer med avståndet. Avståndet mellan två markörer kan skattas med hjälp av mappningsfunktioner.

5.1 Mappningsfunktioner

Mappningsfunktioner gör om avståndet mellan lokus till rekombinationsfaktorn q. Det finns flera olika mappningsfunktioner. De bygger på samma rekombinationsfaktor, men har olika värden på p0.

En är Morgans mappningsfunktion. (Sham P., 1998, sid 54). Den kan användas för små avstånd, 0<m<1/2, där m är avståndet mellan två lokus mätt i Morgan. Den bygger på att det endast sker en överkorsning i intervallet, och att sannolikheten minskar med avståndet.

Avståndet m är det förväntade antalet överkorsningar på en kromatid. En överkorsning på en

(18)

byta segment med varandra. Det ger att det förväntade antalet överkorsningar på hela tetraden är 2m. Och detta i sin tur ger att p0 = 1-2m.

q =

(

1 0

2

1 -p

)

= m

Om det är längre avstånd mellan lokusen kan man använda sig av Haldane´s funktion.

Den bygger på att överkorsningar sker enligt en Poissonprocess med intensitet 1, d.v.s. att det i genomsnitt sker en överkorsning per enhet. Poissonprocessen har inget minne, så för varje punkt på kromosomen är det lika stor sannolikhet för överkorsning, oberoende vad som hänt innan.

Mappningsavståndet, m, är definierat som det förväntade antalet överkorsningar per kromatid, vilket ger att det förväntade antalet överkorsningar per kromosompar är 2m. Det ger:

p = 0

( )

! 0

2 0

2 m

e-m

= e-2m

q=

(

1 0

)

2

1 - p = 2 e-2m

- 1 och inversen

m = ln

(

1 2q

)

2

1 - .

För att enkelt kunna beräkna antalet överkorsningar måste föräldrarna vara informativa, d.v.s.

de måste vara dubbelt heterozygota för det lokus som ska undersökas.

Dubbelt heterozygot

ab 12

cd 34

ad 24

d 4 b

2 c 3 a

1

Figur 10: Exemplet visar en familj med mor- och farföräldrar, mamma, pappa och en son. Föräldrarna är dubbelt heterozygota, d.v.s.

de har inte lika alleler på någon utav platserna. Bokstäverna anger tillståndet vid en markör och siffrorna tillståndet vid en annan markör.

I exemplet i Figur 10 är föräldrarna dubbelt heterozygota. Bokstäverna står för första allelen och siffrorna står för nästa allel. I det här fallet är det lätt att se vilka alleler som kommer från vilken förälder. Om mamman i stället hade haft a och 1-alleler på båda sina kromosomer kan det vara svårt att bestämma vilken av dessa alleler som barnet fått. Och det blir ännu svårare

(19)

ha ärvt allelerna, den ena från mamman och den andra från pappan. I exemplet har det, vid bildandet av mammans könsceller, skett en överkorsning mellan mormors och morfars kromosomer. Detta ger att barnet, från mamman, får anlag både från mormor och morfar, medans barnet endast får anlagen från farfar från pappas sida.

5.2 Signifikanstest

Vid kopplingsanalys är nollhypotesen, H0, att det inte finns någon koppling. Med detta menas att aktuell markör ligger långt från alla sjukdomsrelaterade gener, d.v.s. att det inte finns någon koppling mellan markören och sjukdomslokuset. Under H0 gäller att, rekombinationsfaktorn q = q0 = ½. För att visa på koppling måste q vara signifikant mindre än ½. q finns i intervallet [0, ½]. Detta följer av att om det är långt mellan lokusen som ska undersökas är det lika stor sannolikhet att det skett en överkorsning som att det inte skett en överkorsning. Vilket ger att det största värdet för q är ½. Och då avståndet är mindre mellan lokusen minskar q p.g.a. att sannolikheten för att det ska ske en överkorsning minskar med avståndet. Det finns olika metoder för att beräkna signifikans.

Om man från materialet kan beräkna antalet rekombinanta och antalet ickerekombinanta kan man kontrollera nollhypotesen genom att använda rekombinationsfrekvensen, som är en skattning av q (Sham P., 1998 sid 63). Rekombinationsfrekvensen, f, är andelen observerade rekombinanta individer, vilket ger att f = R/N. R är antalet rekombinanta och N är antalet individer. Ju mindre f blir ju mindre sannolikt är det att H0 är sann. Under ett visst värde på f, som beror på signifikansnivån, förkastas H0.

En annan metod är Pearsons c2-test. Testet kan användas vid en undersökning med n oberoende försök, där varje försök kan utfalla på r olika sätt med resp. sannolikhet p1, p2,…, pr. En hypotes H0 kan sedan sättas upp för att undersöka sannolikheterna. Som teststorhet används (Blom G., 1998, sid 136):

T=

å

i=r

(

-

)

i i i

np np x

1

2

Testet är enkelsidigt och har r-1 frihetsgrader, vilket ger att H0 förkastas om T > c2(r-1).

Testet kan användas för att kontrollera andelen rekombinanta. I det fallet är r = 2, , och ½ eftersom q ½.

R x1 = R

N

x2 = - p1 = p2 = =

Teststatistikan är:

T =

( ) ( )

2 2 2

2 2 2

N N R N N

N

R- + - -

=

( )

N R N-2 2

För R/N < ½ gäller signifikans enligt c2(1)-fördelningen. (Andelen rekombinanta bör aldrig överstiga ½. Om detta sker kan det vara något fel på antingen beräkningarna eller på materialet.) Pearsons c2-test använde vi för att kontrollera att andelen homozygota individer i vårt materiel stämde överens med det förväntade antalet homozygota. (se Kap 4.2.1 om zGenStat).

(20)

5.3 Log-odds-ratio

Ett annat sätt att testa signifikans vad gäller rekombinant och ickerekombinant är att använda

”likelihooden”. Med likelihooden kan man sedan definiera en LOD-funktion (log-odds-ratio), som används vid kopplingsanalys.

Låt R (antalet rekombinanta) vara en stokastisk variabel. Rekombination sker med sannolikheten q och försöket upprepas N oberoende gånger vilket ger att R Î Bin(N, q) . Likelihooden blir då:

( )

q

L = çç ÷÷ø ö è æ

R

N q 1R

(

-q

)

N-R

Detta ger ”log-likelihoodfunktionen”:

( )

q

L

ln = +

÷÷øö ççèæ

R

ln N Rlnq +

(

N-R

) (

ln1-q

)

För nollhypotesen gäller att q = q0 = ½, det ger

( )

0

lnLq =L

( )

1 2 = lnççèæ ÷÷øö+

R

N Nln

( )

1/2

Och för ML-skattningen, då q = R/N ˆ

( )

ln L = +

÷÷øö ççèæ

R

ln N

( )

÷

ø ç ö èæ - -

÷+ ø ç ö è æ

N R R

N N

Rln R ln 1

Då q < ½ gäller att ˆ 2

(

lnL

( )

qˆ -lnL

( )

q0

)

är asymptotiskt c2-fördelad med 1 frihetsgrad (Sham P., 1998, sid 64).

Likelihoodfunktionen kan sedan användas för att ta fram en LOD-funktionen, som är en loglikelihoodkvot. Av tradition används 10-logaritmen. Den definieras som:

( )

x

z =

( )

( )

÷÷øö

çç è æ

0

ˆ log q

q L L x

= log10 L

( )

qˆx -log10L

( )

q0

där x motsvarar en viss position, lokus, på kromosomen. Det lokuset jämförs sedan med nollhypotesen då q = q0 = ½, d.v.s. ingen koppling. Då LOD-värden för flera familjer beräknas brukar man säga att det finns koppling mellan sjukdomslokuset och den undersökta positionen om z(x)>3 (Nyholt D.R., 2000). Detta är endast en tumregel för hur man ska tolka LOD-värden, det finns olika signifikansnivåer beroende på vad man analyserar.

Här används andelen rekombinanta och ickerekombinanta för att ta fram ett LOD-värde, men man kan även beräkna det med hjälp av hur barnen i familjer delar alleler IBD. Om man har tillgång till syskon eller andra släktrelationer kan man använda sig av en bättre analysmetod.

Då vi gjort våra beräkningar har vi använt hur syskonparen i familjen delar alleler IBD. (För att en allel ska delas IBD måste båda syskonen ha denna allel och den måste komma från

(21)

Alleldelningen för 0, 1 resp 2 alleler IBD är under nollhypotesen

(

P0( )0 ,P1( )0 ,P2( )0

)

= ( .25, 0.5, 0.25). Låt x0, x1, x2 vara de observerade antalet syskonpar med respektive antal alleler IBD, då blir de skattade sannolikheterna för andelen delade alleler

(

0,Pˆ1,Pˆ2

)

=

(

x0 n,

där n= x0 +x1 +x2. Då beräknas LOD-värden på följande sätt: Pˆ x1 n,x2 n

)

( )

( ) ( ) ( )

(

, ,

)

log

( (

0.25,,0.50,,0.25

) )

, ˆ , ˆ ˆ

log 0 0 1 2

2 0 1 0 0

2 1 0

L

n x n x n x L P

P P L

P P P

LOD= L =

Om vi t.ex. har ett datamaterial där antalet syskonpar är 100, x0= 10, x1=30 och x2=60, ger det att

(

Pˆ0,Pˆ1,Pˆ2

)

=

(

0.1,0.3,0.6

)

. Enligt Haines J., Pericak-Vance M., 1998, sid 284 blir därför:

18 , 25 12

, 0 5 , 0 25 , 0

6 , 0 3 , 0 1 ,

log 0 10 30 60

60 30 10

÷÷ø= ççè ö

= æ LOD

LOD-värdet blir större för markörer nära sjukdomslokuset, d.v.s. där det finns koppling mellan sjukdomen och markören. Det blir så eftersom alla individer som undersöks är sjuka och om merparten individer har samma allel vid en viss markör är det troligt att sjukdomsgenen ligger nära markören.

I vårt material har vi bara barnens genotyper. Detta medför att det exakta antalet alleler som delas IBD inte alltid kan beräknas, utan i stället måste skattas. LOD-funktionen går att använda även fast inte all information om föräldrarna finns. Från barnens genuppsättning kan man ta fram alla möjliga kombinationer av genuppsättningar som föräldrarna kan ha. Sedan beräknar man sannolikheten för rekombination hos barnen, beroende på föräldrarnas genotyp.

Bayes sats kan användas för att beräkna sannolikheterna för föräldrarnas olika varianter av genotyper givet barnens genotyper.

Bayes sats (Blom G., 1984, sid 36):

( ) ( ( ) ) ( ) ( )

( ) ( )

=

å

= Ç

j

j j

i i i

i pBA p A

A p A B p B

p B A B p

A

p .

P

(

Ai B

)

, som är sannolikheten för att föräldrarna ser ut på ett visst sätt givet barnens genotyper, beräknas eftersom vi inte vet hur föräldrarna ser ut. P

(

Ai B

)

beräknas med Bayes sats, där P

( )

BAj lätt beräknas eftersom barnen ärver, oberoende av varandra, en allel från vardera föräldern och detta görs med samma sannolikhet för båda föräldrarna. skattas med hela populationens allelfrekvenser för alla möjliga .

(

Ai

P

)

Ai

Ett enkelt exempel för att illustrera:

(22)

B a y e s S a t s

?

?

1 2 1 3

Figur 11: Ett exempel där vi vet vilka alleler barnen har vid en viss markör, men vi vet inte hur föräldrarna ser ut. Vi använder Bayes sats för att beräkna sannolikheten för att föräldrarnas alleler ser ut på ett visst sätt.

I Figur 11 har barn 1 allel 1 och 2 och barn 2 har allel 1 och 3. Antag att det bara finns tre möjliga alleler för det här lokuset och att allelfrekvenserna för dessa alleler är 0.3 för allel 1, 0.2 för allel 2 och 0.5 för allel 3. Det finns då två olika varianter på genuppsättninger som föräldrarna kan ha, antingen har den ena allel 1 på båda kromosomerna och den andra allel 2 och 3, eller så har den ena föräldern allele 1 och 2 och den andra har 1 och 3. Första fallet (m=1-1, p=2-3) betecknas här A1 och det andra fallet (m=1-2, p=1-3) A2 och B = (b1=1-2, b2=1-3). Det har ingen inverkan om vi byter plats på m och p, d.v.s. det spelar ingen roll vilken av föräldrarna som har vilka alleler bara det finns möjlighet att barnen kan ha de bestämda allelerna.

( ) ( )

0,2 0,5 0,018

1 3 2 , 0 3 , 0 3 2 , 1

1 1 ÷÷øö* * =

ççèæ

*

*

= -

= -

=

= p m p

A p

( ) ( ) ( )

14

12 3 2 , 1 1 3 1 , 2

1 2 2

1

1 = p b = - b = - m= - p= - = =

A B p

( ) ( )

0,3 0,5 0,036

1 2 2 , 0 3 , 1 0 3 2 1 , 2

1 1 ÷÷øö* * =

ççèæ

*

*

÷÷ø* ççè ö

=æ -

= -

=

= p m p

A p

( ) ( ) ( )

116

12 3 1 , 2 1 3 1 , 2

1 2 4

1

2 = p b = - b = - m= - p= - = =

A B p

(

BA1

p

)

och p

(

BA2

)

blir olika p.g.a. att då gäller vet vi inte vilken av mammans 1-alleler som barnen har fått, det enda vi vet är att de har fått en 1-allel från mamman och en utav pappans alleler. Då i stället gäller vet vi att barn 1 måste ha fått 1-allelen av pappan och 2- allelen från mamman och att barn 2 har fått allel 1 från mamman och allel 3 från pappan.

A1

A2

Vi kan nu beräkna sannolikheten för att m=1-1 och p=2-3 betingat på hur barnen ser ut.

( ) ( ) ( )

( )

1

( )

1 1 4 0,10184 01,01816 0,036 32

1 =

* +

*

= *

=

å

i p BAi p Ai

A p A B B p

A p

Sannolikheten att föräldrarna ser ut på det här sättet givet barnens genotyper är alltså 2/3.

(23)

Vi summerar sedan antalet alleler som delas IBD för de olika föräldramöjlgheterna, , och viktar med

Ai

(

A B

p i

)

vilket ger andelen alleler som delas IBD. Dessa andelar kan sedan användas för att beräkna LOD-värdet för familjen. Med stora och många familjer kan det bli svårt att beräkna LOD-värdet för hand, därför använde vi ett program som heter Allegro.

(24)

6 Allegro

För utförandet av kopplingsanalysen har vi använt det genetiska statestikprogrammet Allegro.

Programmet beräknade koppling för 285 markörer utspridda på kromosompar 1 till 22.

Könskrosomerna har vi inte tagit med i analysen, eftersom dessa kromosomer kräver en speciell analys.

Följande presentation är baserad på Gudbjartsson D., Jonasson K., Frigge M., Kong A.

Allegro är ett program som är utvecklat för att klara av genetiska statistiska analyser, det är snabbt och kräver inte så mycket minne. Det är baserat på samma funktioner som GeneHunter (se http://linkage.rockefeller.edu/soft/gh/), men algoritmerna har förbättrats och metoderna är snabbare. Allegro kan beräkna LOD-värden, (log-odds-ratio), dels parametriska och dels LOD-värden baserade på hur allelerna delas IBD. För att kunna beräkna parametriska LOD- värden krävs att det finns en modell, d.v.s. att man har vetskap om hur fördelningen för testet ser ut. Det är inte alltid fallet och då kan man använda en ickeparametrisk metod. Vi har använt den ickeparametriska metoden, som är baserad på hur allelerna delas IBD.

Programmet klarar av stora och många familjer och kan även använda många markörer.

En arvsvektor, v, beräknas för att se hur generna ärvts från föräldrarna till barnen.

Arvsvektorn, v, beräknas för varje markör. Vektorn har längd 2m, där m står för non- founders, i vårt fall barnen, och består endast av 0:or och 1:or. Varje individ har två alleler för varje markör, en från mamman och en från pappan. De första två siffrorna avser första individen, nästa två avser individ nummer två o.s.v.. Om pappans allel kommer från farfar står det 1 på första platsen, och om den kommer från farmor står det en 0:a, på andra platsen kan man läsa av från vilken av mammans föräldrar allelen kommer, d.v.s. det står 1 om allelen kommer från morfar och 0 om den kommer från mormor.

Ett exempel:

Släktträd

cd ab gh ef

ac fh

ah ch Barn 1 Barn 2

Figur 12: Släktträdet ger information om vilka alleler de tre generationerna har och hur de har ärvt. (Fyrkanter är män och cirklarna är kvinnor.)

I släktträdet ovan (Figur 12) finns fullständig information om genotyperna för mor-far- föräldrar, föräldrar och barn. I det här fallet blir arvsvektorn för barnen:

(25)

v = (0, 1, 1, 1 )

De två första positionerna i v står för det vänstra barnet och de två sista för det högra barnet.

Första siffran är 0 eftersom allel a kommer från farmor. Andra siffran är 1 eftersom den allelen kommer från morfar. För det andra barnet kommer c från farfar (ger 1) och h från morfar (ger 1).

Antalet alleler som syskonen delar IBD kan lätt beräknas med hjälp av v, om syskonen har samma siffra på samma position (första eller andra) delar de den allelen IBD. I Figur 12 delar barnen 1 allel IBD.

Det finns olika sätt i Allegro att dela upp syskonen i grupper för att beräkna IBD. En variant som vi har använt är att dela upp dem i par, vi tar med alla syskonpar där båda syskonen är sjuka. Då det finns tre eller fler syskon som är sjuka kommer varje syskon att vara med i flera syskonparkombinationer.

För senare analys måste man ha en ”scoringfunktion”, för paruppdelningen gäller:

Spair=

å ( )

q p

pq v S

,

Vi summerar över alla par (p,q) med sjuka syskon i en viss familj. är antalet alleler som delas IBD av syskon p och q. S

Spq

pair ger då antalet alleler som alla de olika syskonparkombinationer i familjen delar IBD. I exemplet ovan delar syskonparet 1 allel IBD, d.v.s. allelen som betecknats med ett h. Spair beräknas för varje vektor v.

En individ får antingen sin mormors eller sin morfars allel från mamman med 50 % chans vardera. De olika syskon ärver alleler oberoende av varandra. Chansen att två syskon fått sin mammas allel från samma morförälder är således 0,5. Exakt samma resonemang gäller för pappans gen. Detta gör att Spq =IBDÎBin

(

n=2,p=0,5

)

.

Om antalet IBD-delade alleler blir större än det förväntade kan man misstänka att det finns en koppling med sjukdomen vid den markören, eftersom alla är sjuka. d.v.s. om många individer har samma allel vid en viss markör och dessa individer också är sjuka är det troligt att en sjukdomsallel ligger nära markören. På så sätt kan man koppla en sjukdom till en plats på genomet.

Det finns många olika typer av kopplingsanalyser. Vi har använt enpunkts- och flerpunktsanalyser. Vid enpunktsanalyser analyseras endast en markör åt gången, men det är egentligen en tvåpunktsanalys eftersom man då analyserar både markören och sjukdomslokuset. Flerpunktsanalysen tar även med de markörerna som ligger runt den aktuella markören i beräkningarna.

För flerpunktsanalysen definieras NPL (non-parametric linkage):

NPL =

å å

i i i

iZi

g g

Där Zi=

i i

Si

s m -

och Z =i

( ) ( )

i

v

k

i g Z v

v p

i

å

,

(26)

i summerar över alla familjer och Si =Spair för familj i. mi är väntevärdet för Si och si är standardavvikelsen.Z i är det förväntade värdet av och är den standardiserade formen av . (Med standardiserad form menas att har väntevärde 0 och standardavvikelse 1.)

Zi Zi

Si Zi Zi

1 summeras över alla vektorer vi. är en vikt som kan beräknas med avseende på antalet sjuka syskon för varje familj. Vi har dock valt att vikta alla familjer lika, d.v.s. vi har satt g för alla familjer.

gi

=

i

Eftersom antalet alleler varje syskonpar delar IBD, Spq, är likafördelade Bin

(

n= p2, =0,5

)

under nollhypotesen och parvis oberoende (hur många IBD ett syskonpar delar är oberoende av hur många ett annat syskonpar av de sjuka syskonen delar, även om de har en gemensam individ) gäller:

m = i E

( )

Spair = ççèæ

å

÷÷øö =

q p

q

Sp

E

,

,

å ( )

q p

q

Sp

E

,

, = antalet syskonpar*n*p = antalet syskonpar

2

s = i Var

( )

Spair = Varççèæ

å

÷÷øö =

q p

q

Sp ,

,

å ( )

q p

q

Sp

Var

,

, = antalet syskonpar*n*p*(1-p)

= antalet syskonpar / 2

I exemplet i Figur 12 finns det två syskon som är sjuka i familjen, d.v.s. ett syskonpar. Vilket ger att m=1 och s = 12

För att beräkna Zibehövs p

(

vgk

)

som är sannolikheten för en viss arvsvektor v för en familj givet en viss genotyp gk vid lokus k. p

(

vgk

)

kan beräknas med hjälp av Bayes sats enligt:

( ) ( ) ( ) ( )

p

( )

g v

g p

v p v g g p

v

p k

k k

k = µ

Detta gäller eftersom p

( )

v 2n

2

= 1 för alla v, där n är antalet syskon.

(

g v

p k

)

kan beräknas med hjälp av allelfrekvenserna enligt:

( ) åÕ

gk v = i=f ai

p

2

1

p

där f avser founder (föräldrarna) och ai står för allel nummer i och p är allelfrekvensen för de olika allelerna. Summationen går över alla möjliga alleluppsättnigar som föräldrarna kan ha.

Sannolikheten för att föräldrarna och barnen har just de allelerna vid detta lokus som visas i Figur 12 givet arvsvektorn v kan således beräknas enligt:

( )

f a c f h

i a

k v i

g

p =

åÕ

p =p p p p

= 2

1

.

Denna beräkning blev enkel eftersom vi vet vilka alleler föräldrarna har. Om vi inte vetat

(27)

Om IBD informationen är komplett, d.v.s. man har all information om hur syskonen delar allelerna IBD, är Z= Z och NPL är under nollhypotesen approximativt normalfördelat med väntevärde 0 och varians 1. Men då man inte vet allt om IBD delningen blir variansen mindre än 1 (Gudbjartsson D., Jonasson K., Frigge M., Kong A.). Genom att införa linjära- och exponentiella sannolikhetsmodeller för arvsvektorn v kan man lösa problemet med att man inte säkert vet variansen. Modellerna ger snarlika NPL värden.

Den linjära modellen ser ut på följande sätt:

( )

vid

p =

[ ( ) ]

þý ü îí

ì -

+

i i i i i i

v c S

s m 1 dg

Och den exponentiella modellen beräknas enligt:

( )

vid

p =

( ) [ ( ) ]

þý ü îí

ì -

i i i i i i

i

v r S

c s

m d exp dg

där ri(d) är en normaliseringskonstant som ser till att

å

p(vid)=1. Och ci är är sannolikheten för arvsvektorn vi under nollhypotesen som är

ni

22

1 , där är antalet syskon i familj i. Detta följer av att under nollhypotesen har alla v-vektorer samma sannolikhet och det finns

olika vektorer. d är en faktor som visar den genetiska effekten, den är 0 under nollhypotesen. Den visar hur alleldelningen ser ut. Positivt värde på d, som betyder att fler alleler delas IBD än förväntat, gör att v-vektorer med många IBD får stor sannolikhet.

Negativt värde, som i sin tur betyder att det är färre IBD än förväntat, gör i stället att vektorer med många IBD får liten sannolikhet.

ni

ni

22

I våra beräkningar har vi valt att använda den linjära modellen.

Allegro beräknar LOD-värden enligt:

LOD =

( )

(

0

)

ˆ log10

= d

d g p

g p

=

( )

( )

å

=

i i

i

g p

g p

0 ˆ log10

d d

( ) ( )

( ) ( ) å å

å

=

=

i i

v i i i

v i i i

i pv g p v

v p g v p

0 ˆ log10

d d

( ) ( )

( ) ( )

å å å

=

i i

v i i i

v i i i

i pv g c

v p g v

p

log10

=

å å ( ) ( )

+

å

i v i i

i i

i g pv c

v p

i

log 1

log10 dˆ 10

Med den linjära modellen kan LOD-funktionen skrivas:

(28)

LOD=

å (

+

)

i

i iZ g dˆ 1 log10

dˆ är det d som maximerar p

(

gd

)

som definieras av:

( )

gd

p =

å ( ) ( )

vi

v p v g

p d

När d maximeras måste p

( )

vd ³0 vara satisfierat för samtliga familjer och samtliga v eftersom alla arvsvektorer måste vara möjliga. Detta kan ibland begränsa skattningen d som annars skulle kunna bli .

ˆ

¥

±

LOD-värdet för givet lokus är c2-fördelade med en frihetsgrad. För att bestämma signifikans har vi använt följande gränser:

Nominell koppling ( p<0.05) LOD>=0.5875 Suggestive koppling (p<0.00074) LOD>=2.2 Signifikant koppling (p<0.000022) LOD>=3.6

p-värdena ovan har valts enligt Lander E och Kruglyak L, 1995, där hänsyn har tagits till att många test på genomet utförs simultant. En motivering för hur LOD-värdena erhållits följer nedan.

Eftersom testet endast är signifikant då 0 < q < 0,5 har det endast en svans, så under nollhypotesen gäller att 2ln10*LOD är c2

( )

1 -fördelad med sannolikheten ½ och 0 med sannolikheten ½ (Nyholt D.R., 2000). LOD-värdet för respektive p-värde beräknas med

(

LOD

) ( )

P * 1 2

2

1 2 ³

=

(

c ln10*LOD

)

.

Då p-värdet är 0,00074 blirP

(

c2

( )

1 > x

)

=2*0,00074=0,00148 och det i sin tur ger att

(

2

( )

1 < x

)

=1-0,00148=0,99852 c2

P c . Från -fördelningen fås att x = 10,10333 och LOD-

värdet kan sedan beräknas:

2 , 2 19399 , 10 2 ln 2

10333 ,

10 = »

= LOD

Det är viktigt att kontrollera tecknet på d. Om den är negativ betyder det att det är mindre alleldelning än förväntat, men det kan ge höga värden på LOD utan att det tyder på koppling.

6.1 Ett exempel

För att göra beräkningarna enkla använder vi endast en familj. I familjen finns det fyra syskon och tre av syskonen är sjuka (har diabetes). Barnens genuppsättning ser för en viss markör ut på följande sätt (Barnen markerade med grått är sjuka):

References

Related documents

Den egna insulinproduktionen räcker då inte längre till: man går ned i vikt och får kanske syror i urinen (något som sällan förekommer vid

läkemedelsbehandling kommer framför allt att vara till fördel för de personer som nydiagnostiseras med DMT2, eller de som ännu inte har börjat med

Vid telefonbaserad patientundervisning i syfte att utveckla egenvårdskapacitet fann forskarna fyra evidenta faser i undervisningen, de var att skapa en bild av patientens kunskap

Fyra (3%) deltagare från interventionsgruppen lämnade inte blodprov för HbA1c värde vid tolv månaders kontrollen. Studien bedömdes även av författarna ha bra power med

D1S80 – exempel på genetisk markör för studier av människa.. Bioresursdagar för gymnasielärare Uppsala 18-19

Resultatet av denna studie visar att det finns individer som har kunskap om DMT2 vilket bidrar till att de kan hantera sin sjukdom, men det finns också personer som inte tar ansvar

egenvårdshandlingar kan utföras och hur sjuksköterskan kan stötta patienterna till.. Med tanke på att insjuknandet av T2DM ökar blir det viktigt att sjuksköterskan kan identifiera

Det är också en tendens att de patienterna som inte har en indikation på recepten har större följsamhet om man tittar procentmässigt, men det är inte heller statistiskt