• No results found

Infogande (insertion) och borttagande (deletition) av nukleotider (gemen- samt indel) är olika typer av mutationer som ofta påträffas inom alla organ- ismers DNA. Indeler kan hittas i alla delar av DNA sekvensen. Om en indel sker i en proteinkodande region kommer det att leda till en förskjutning i läsramen om den inte är tre nukleotider lång (eller en multipel av tre baser). Om proteinet behåller sin funktionalitet kommer det att leda till ett tillskott till eller förlust av en del av proteinsekvensen, detta kallas en ”protein- indel”. Denna avhandling fokuserar på protein-indeler. Termen indel syftar här således främst på protein-indeler.

För decennier sedan så visade ett antal indel-studier påverkan av indeler på proteiners struktur, funktion, och interaktion (Pascarella & Argos, 1992; Romero et al., 2006; Chan et al., 2007; Hormozdiari et al., 2009; Zhang et

al., 2011a; Zhang et al., 2011b). Man började även använda indeler som

evolutionära markörer. Detta beror på att det är låg sannolikheten att två delar av DNA kan integreras till samma region av värd-DNA med samma sekvens. Det är också mer sällsynt med homoplasi för indeler, och de är lättare att identifiera än substitutioner. De här anledningarna visar att indeler är viktiga evolutionära markörer (Rokas & Holland, 2000). Även om man har känt till indelmutationer i sekler så är förståelsen för evolutionen av in- deler fortfarande begränsad och oklar (Benner et al., 1993; Wolf et al., 2007). Dessutom så har det begränsade utbudet av bioinformatiska verktyg för att analysera indeler gjort att kunskapen utvecklas långsamt. Därför är första målet med min forskning att utveckla verktyg för att studera indeler.

Här utvecklar jag SeqFIRE (”Sequence Feature and Indel Region Ex- tractor”), ett bioinformatiskt verktyg för automatiskt identifiering och extra- hering av indelregioner och evolutionärt bevarade block från multipla prote- insekvensinpassningar. Programmet har två moduler: (i) ”Indel Region Mo-

dule” för att identifiera och extrahera indeler från proteininpassningar och

rapportera indelerna i en lista, vilket är behändigt för fortsatt analys, och (ii) ”Conserved Blocks Module” för att identifiera evolutionärt bevarade block i proteininpassningen och att producera en inpassning med endast bevarade block i en följd, vilket lätt kan användas för fortsatt fylogenetisk analys. SeqFIRE är skriven av en standard modul i programmeringsspråket Python. Därför är det är lätt att bygga in och använda SeqFIRE i procedurer utan krav på att behöva använda något annat programpaket. Användare kan bruka programmet fristående eller som en web-applikation. Programmet har ett

användarvänligt web-gränssnitt för ovana användare, och alla parametrar kan justeras manuellt (Artikel I).

Det andra målet med min forskning är att använda verktyget för att under- söka indeler i växter, djur och svampar. För att göra en systematisk sökning efter indeler så startade jag med att identifiera 299 orthologa enkelkopia- proteiner som är längre än 250 aminosyror. 4 707 indeler identifierades och extraherades med hjälp av den fristående versionen av SeqFIRE. En femte- del (901) av alla indeler klassificerades som enkla indeler, resten (3 806) var komplexa indeler. Detta visar att komplexa indeler är den vanligaste typen av indeler i eukaryota proteom. Fördelningen av enkla och komplexa indeler visar ett mönster av exponentiellt sönderfall. Detta betyder att korta indeler (1–7 aminosyror) hittas oftare i proteomet än långa indeler. De vanligaste indelerna är en enkel aminosyra, vilka alla är enkla indeler. Jag observerade ett förhållande mellan antalet enkla och komplexa indeler och längden på proteinet som har indelet. Förhållandet visade sig ha en linjär korrelation. Klassificeringen av enkla indeler baserat på ett känt fylogenetiskt träd visade fyra typer av indel: (i) homoplastiska indeler (homoplasy indel), inkongru- enta med den kända fylogenin, (ii) klad-definierande indeler (clade-defining indel; CDI), indeler som stämmer med det kända trädet, (iii) allena indeler (singleton indel), hittas endast i ett taxon, och (iv) tvetydiga indeler (am- biguous indel), oklara indeler på grund av saknad taxon. Analysen av allena indeler visar på en klar skevhet mot infogande, vilket (i medeltal) är ungefär 2,31 gånger så vanliga som borttagande av aminosyror.

Sextionio CDIer (7,7% av de enkla indelerna) blev identifierade. Fördel- ningen av CDIer visar att 16 CDIer stödjer de djupa förgreningarna av su- pergrupper bland eukaryoter. Alla grenar i svampkladen stödjs av indeler (totalt 40 indeler), och alla grenar bland de gröna växterna stödjs av indeler (totalt 13 indeler). Förvånande så finns det ingen indel som stödjer någon gren i djurkladen. Den tydliga skevheten i mönstret av CDIer bland enkla indeler kan inte förklaras av skillnader i genomkomplexitet, livscykel eller evolutionär hastighet.

Nästa mål är att expandera sökningen efter CDIer till de komplexa in- delerna, vilket är huvud delen av indelerna. Jag delade in de komplexa inde- len baserat på antalet varianter de bestod av. Resultatet visar att de komplexa indelerna har mellan två och 31 varianter. Komplexa indeler med två varian- ter kallas ”två-variants komplexa indeler”. Om komplexa indeler har tre varianter kallas de ”tre-variants komplexa indeler”. Detta system användes med alla komplexa indeler upp till 31-variant komplexa indeler. Både två- variants komplexa indeler och enkla indeler har endast två lägen. Så båda kombinerades och kallas ”bi-alleliska indeler” och de andra komplexa in- delerna kallas ”multi-alleliska indeler”.

Analyser av bi-alleliska indeler med tidigare metod (Artikel II) bekräftar mönstret från enkel indel profilen, särskilt bland de allena indelerna. Resul- taten visar samma distributionsmönster som de allena indelerna bland enkla

indeler. Infogande:borttagande förhållandet (I:D ratio) av något komplexa allena indeler är 2,66 (2,31 bland enkla allena indeler). Båda bekräftar att infogande är vanligare än borttagande, åtminstone dubbelt så vanligt. Bland multi-alleliska indeler består omkring tre fjärdedelar av tre-variants till nio- variants komplexa indeler. Andelen homoplastiska indeler bland dessa är desutom färre än CDIer. För att minska effekten av brus (från homoplastiska indeler) så behölls bara de tre-variants komplexa indelerna upp till nio- variants komplexa indelerna i datasättet. Indelerna i det nya datasättet kallas ”något komplexa indeler”.

1 010 CDIer hittades i sökningen av ”något komplexa indeler” (tidigare endast 69 indeler). Profilmönstret från det nya datasetet med CDIer bekräftar mönstret från CDIer baserade på enkla indeler (Artikel II). Det vill säga, de flesta CDIerna (omkring 50%) stödjer grenar i svamp-kladen och alla grenar är stöda av minst en indel. Den näst största gruppen CDIer (omkring 29%) stödjer grenar i Archaeplastida-kladen och även här är alla grenar stödda av minst en indel. Endast djur-kladen avviker från den tidigare iakttagelsen. Omkring 12% av CDIerna stödjer grenar i djurgrupper. Detta bekräftar att komplexa indeler är en resurs av CDIer.

Det sista målet var att utnyttjade informationen från de något komplexa CDIerna för att rekonstruera de tidiga förgreningarna av Metazoa-fylogenin. Det nya datasetet baserades på 42 orthologa proteiner från de 35 tidigare använda proteomen plus fyra nya arter: Amphimedon queenslandica (svampdjur), Nematostella vectensis (sjöanemon), Hydra magnipapillata (hydra) och Mnemiopsis leidyi (kammanet). Totalt identifierades 34 CDIer i det nya datasättet. Indelträdet byggdes från kvalitativ data av de 34 CDIerna. Indelträdet indikerar att M. leidyi (fylum Ctenophora) är den tidigaste för- greningen i Metazoa. Trichoplax adhaerens är systergrupp till Bilateria vil- ket är stött av en CDI. Dessutom, även om det inte har starkt stöd, så indike- rar indelträdet att Cnidaria är parafyletiskt.

Sammanfattningsvis: jag utvecklade programmet SeqFIRE för att arbeta med protein indeler och även för att förbereda inpassningar för fylogeniana- lys med benchmark mjukvara. Indelprofilen i denna forskning är den första systematiska sökningen av proteinindeler i evolutionära studier. Profilerna kommer användas för att förbättra inpassningsalgoritmer och för att öka riktigheten av indelmodeller. Slutligen visar jag potentialen med att använda indeler som kraftfulla evolutionära markörer genom en rekonstruktion av en kvalitativ indelfylogeni. Det trädet är ett viktigt led i att förstå de tidiga för- greningarna i Metazoernas fylogeni.

บทสรุปบทสรุป

(Summary in Thai)(Summary in Thai)

อินเซอชั่น (insertion) และดีลีชั่น (deletion) คือ การกลายพันธุ์ (mutation) ชนิดหนึ่งที่พบได้บ่อย

ในดีเอ็นเอ (DNA) ของสิ่งมีชีวิตทุกชนิด และสามารถเรียกการกลายพันธุ์ทั้งสองชนิดนี้โดยรวมว่า

“อินเดล” (indel) โดยปกติอินเดลสามารถเกิดขึ้นได้ทุกบริเวณในดีเอ็นเอ ถ้าอินเดลปรากฏอยู่ในส่วน

ที่มีรหัสสําหรับการสังเคราะห์โปรตีน (coding sequence) ก็จะส่งผลให้ความยาวของโปรตีนนั้น

เปลี่ยนแปลงไป เราจะเรียกอินเดลที่ปรากฏในโปรตีนประเภทนั้นว่า “โปรตีนอินเดล” (protein indel)

การศึกษาวิจัยนี้เน้นการศึกษาอินเดลที่เกิดขึ้นในโปรตีนเท่านั้น ดังนั้น คําว่าอินเดลที่ปรากฏต่อไปนี้

จึงหมายถึง โปรตีนอินเดล นั่นเอง

ในช่วงทศวรรษที่ผ่านมา นักวิจัยได้ศึกษาโปรตีนอินเดลในแง่มุมต่างๆ มากมาย ทั้งบทบาทของ

อินเดลต่อโครงสร้าง หน้าที่ และ interaction ของโปรตีน (Pascarella & Argos, 1992; Romero et al.,

2006; Chan et al., 2007; Hormozdiari et al., 2009; Zhang et al., 2011a; Zhang et al., 2011b)

นอกจากนี้ มีงานวิจัยจํานวนมากรายงานว่าอินเดลเป็น marker ที่ดีในการศึกษาวิวัฒนาการสิ่งมีชีวิต

โดยทางทฤษฎีแล้ว สาเหตุที่อินเดลมีคุณสมบัติเป็น marker ที่ดีเนื่องจากอินเดลมีโฮโมเพลซี (homo-

plasy) ค่อนข้างน้อย นั่นหมายความว่า โอกาสที่ดีเอ็นเอสองเส้นที่มีขนาดเท่ากัน มีลําดับเบสเหมือน

กัน จะแทรกเข้าไปในโครโมโซมสิ่งมีชีวิตสองชนิดในตําแหน่งที่ตรงกันทุกประการนั้นพบได้ยากมาก

และโอกาสที่อินเดลที่เกิดขึ้นจะกลับคืนสู่สภาพเดิมก่อนการกลายพันธุ์หรือที่เรียกว่า reversible นั้น

เป็นไปได้น้อยมาก เหตุนี้จึงทําให้ อินเดลมีศักยภาพในการใช้เป็น marker ทางวิวัฒนาการที่ดี (Rokas

& Holland, 2000) ถึงแม้ว่า นักวิจัยศึกษาอินเดลมาเป็นเวลานาน ในหลากหลายแง่มุม แต่ความรู้

ในด้านวิวัฒนาการของอินเดลกลับมีน้อยมาก (Benner et al., 1993; Wolf et al., 2007) ที่เป็นเช่นนี้

ส่วนหนึ่งอาจเนื่องมาจากเครื่องมือทางชีวสารสนเทศ (bioinformatic tools) ที่ เหมาะสมต่อการศึกษา

อินเดลมีอยู่น้อยมาก ดังนั้น การพัฒนาเครื่องมือเพื่อใช้สําหรับศึกษาอินเดลจึงเป็นวัตถุประสงค์แรก

ของงานวิจัยนี้

ด้วยเหตุนี้ ผู้วิจัยจึงพัฒนาโปรแกรมคอมพิวเตอร์ชื่อ SeqFIRE (อ่านว่า ซีค-ไฟ-เออ) ซึ่งย่อมาจาก

Sequence Feature and Indel Region Extractor ตัวโปรแกรมประกอบด้วยโมดูล (module) หลัก 2

โมดูล นั่นคือ (1) Indel Region Module สําหรับบ่งชี้ (identify) และแยก (extract) ส่วนของอินเดล

ออกจาก sequence alignment และสร้างเป็นรายการ (indel list) ว่าพบอินเดลจํานวนเท่าใด มีลักษณะ

เป็นอย่างไร เพื่อความสะดวกในการวิเคราะห์ข้อมูลเพิ่มเติม และ (2) Conserved Block Module

สําหรับบ่งชี้ว่าและแยกส่วนของ conserved block ออกจาก alignment แล้วรายงานผลออกมาใน

รูปแบบต่างๆ ที่สะดวกต่อการวิเคราะห์ข้อมูลต่อไป เช่น นำลําดับโปรตีนมาจัดเรียง alignment ใหม่

โดยนําส่วนของ conserved block ชิ้นต่างๆ มาวางเชื่อมต่อกันเป็น alignment ที่มีแต่ conserved

blocks เพื่อใช้สําหรับนําไปวิเคราะห์ทางไฟโลจีนีติก (phylogenetic analysis) ด้วยโปรแกรมทั่วๆ

ไปได้ง่าย เป็นต้น

โปรแกรม SeqFIRE ถูกพัฒนาขึ้นจากภาษาไพธอน (Python language) ผู้ใช้สามารถดาวน์โหลด

โปรแกรมมาใช้งานในเครื่องคอมพิวเตอร์ของตัวเอง (standalone) หรือจะใช้งานผ่านเว็บไซต์ (web

application) www.seqfire.org/ ก็ได้ นอกจากนี้ ผู้ใช้สามารถปรับพารามิเตอร์ (parameter) ได้ทุกค่า

เพื่อให้สอดคล้องกับข้อมูลที่ต้องการวิเคราะห์ และสามารถนำโปรแกรมไปเชื่อมโยง (pipeline) กับ

ระบบงาน (process) ต่างๆ ได้อย่างง่ายดาย

หลังจากที่โปรแกรมหรือเครื่องมือถูกพัฒนาขึ้นมาแล้ว ผู้วิจัยจึงพยายามใช้เครื่องมือที่สร้างขึ้นมา

เพื่อวิเคราะห์ข้อมูลให้เกิดความเข้าใจเบื้องต้นเกี่ยวกับโปรตีนอินเดลที่ปรากฎในโปรตีโอมของยูคาร์ริ

โอตหลายเซลล์ (multicellular eukaryotes) ที่มีข้อมูลโปรตีโอมเป็นจํานวนมากกว่ากลุ่มอื่น นั่นคือ

พืช สัตว์ และเชื้อรา โดยผู้วิจัยได้สร้างชุดข้อมูลอินเดล (indel dataset) จากโปรตีนออร์โธลอก

(orthologous protein) ซึ่งมีต้นกําเนิดมาจากบรรพบุรุษเดียวกัน มีเพียงสำเนา (copy) เดียวภายใน

โปรตีโอม และความยาวของโปรตีนต้องไม่ต่ํากว่า 250 กรดอะมิโน ซึ่งผู้วิจัยคัดกรองโปรตีโอม

จนในที่สุดพบ โปรตีนออร์โธลอกจํานวนทั้งสิ้น 299 โปรตีน จากโปรตีโอมของสิ่งมีชีวิตจํานวน 35

ชนิด จากนั้นจึง ใช้โปรแกรม SeqFIRE เพื่อแยกโปรตีนอินเดลออกจากโปรตีนออร์โธลอกได้จำนวน

ทั้งสิ้น 4,707 อินเดล โปรแกรม SeqFIRE สามารถจำแนกอินเดลเบื้องต้นด้วยความซับซ้อนของ

อินเดลออกเป็น 2 ชนิดหลัก คือ (1) อินเดลเชิงเดี่ยว (simple indel) ซึ่งเป็นอินเดลที่มีสองสภาพ

(state) คือ present หรือ absent จำนวน 901 อินเดล (19%) และ (2) อินเดลเชิงซ้อน (complex indel)

หรืออินเดลที่มีหลายสภาพ (multistate) จำนวน 3,806 อินเดล (81%) สัดส่วนดังกล่าวแสดง

ให้เห็นว่าอินเดลเชิงซ้อน เป็นอินเดลที่พบได้มากที่สุดในโปรตีโอมของยูคาร์ริโอต (eukaryotes) การ

วิเคราะห์ข้อมูลทําให้ทราบว่าอินเดลส่วนใหญ่มักจะมีความยาว (หรือขนาด) อยู่ระหว่าง 1-7 กรด-

อะมิโน แต่อินเดลที่พบได้มากที่สุด คือ อินเดลที่มีขนาด 1 กรดอะมิโน จำนวนของอินเดลจะแปรผัน

ตรงตามความยาวของโปรตีนที่บรรจุอินเดลเหล่านั้นไว้ เนื่องจากอินเดลเชิงซ้อนมีความซับซ้อนมาก

และยังไม่มีวิธีวิเคราะห์ที่เหมาะสม ทําให้ผู้วิจัยเลือกศึกษาอินเดลเชิงเดี่ยวซึ่งมีปริมาณมากพอที่จะ

วิเคราะห์ให้เห็นแนวโน้มบางอย่างได้เป็นอันดับแรก ดังนั้น ผู้วิจัยจึงนําอินเดลเชิงเดี่ยวมาเทียบกับ

ไฟโลจีนีของพืช เชื้อรา และสัตว์ที่ทราบแบบแผนวิวัฒนาการแล้ว (known phylogeny) ผล

การวิเคราะห์ พบว่า ในอินเดลเชิงเดี่ยวทั้งหมดสามารถจําแนกออกเป็นชนิดต่างๆ ได้ 4 ชนิด คือ (1)

ซิงเกิลตอนอินเดล (singleton indel) คือ อินเดลที่ปรากฏอยู่ในลําดับโปรตีนของสิ่งมีชีวิตเพียง

ตัวอย่างเดียวในชุดข้อมูล อินเดลประเภทนี้มีจํานวน 550 อินเดล ซึ่งถือว่ามีปริมาณมากที่สุดใน

จํานวนอินเดลเชิงเดี่ยวทั้งหมด (2) clade defining indel (CDI) คือ อินเดลที่สอดคล้องกับ

รูปแบบการแตกกิ่งของไฟโลจีนี พบเพียง 69 อินเดล (3) โฮโมพลาสติกอินเดล (homoplastic indel)

คือ อินเดลที่ไม่สอดคล้องกับแบบแผนการแตกกิ่งของไฟโลจีนี พบจำนวน 87 อินเดล และ (4)

อินเดลคลุมเครือ (ambiguous indel) คือ อินเดลที่ไม่สามารถจําแนกเป็นประเภทต่างๆ ได้

เนื่องจากข้อมูลไม่เพียงพอ มีจำนวน 195 อินเดล

การวิเคราะห์ซิงเกิลตอนอินเดลพบว่าอินเดลประเภทอินเซอชั่นมีปริมาณมากกว่าดีลีชั่นถึง 2.31

เท่าโดยเฉลี่ย และพบการกระจายตัวของสิ่งมีชีวิตที่มีสัดส่วนของอินเซอชั่นต่อดีลีชั่นมากกว่า 4.0 ได้

ทั่วไปในไฟโลจีนี เมื่อพิจารณา CDI ทั้ง 69 อินเดล พบว่าเป็น CDI ที่สอดคล้องกับวิวัฒนาการของ

ยูคาร์ริโอตกลุ่มหลักๆ (supergroup) จำนวน 16 อินเดล เป็นอินเดลที่สนับสนุนวิวัฒนาการของ

เชื้อราจำนวน 40 อินเดล และมีอินเดลที่สนับสนุนการวิวัฒนาการของพืชและสาหร่ายสีเขียว (Ar-

chaeplastida) จำนวน 13 อินเดล ที่น่าแปลกใจคือไม่พบ CDI ที่สนับสนุนการวิวัฒนาการของสัตว์

เลย ที่เป็นเช่นนี้ อาจเป็นเพราะการวิวัฒนาการของสัตว์ที่กินเวลาสั้นกว่าสิ่งมีชีวิตกลุ่มพืชและเชื้อรา

ผู้วิจัยคาดว่า ถ้าลดจํานวนข้อมูลลงให้เหลือแต่สัตว์ชนิดต่างๆ จะช่วยให้พบโปรตีนออร์โธลอกที่มี

อินเดลที่สนับสนุนการวิวัฒนาการของสัตว์ได้ อย่างไรก็ตาม ผลการศึกษา CDI ก็ชี้ให้เห็นว่าอินเดล

มีศักยภาพในการนํามาใช้เป็น marker ทางวิวัฒนาการได้

วัตถุประสงค์ถัดมาจึงเป็นการค้นหา CDI จากเชิงซ้อนซึ่งทําได้ยาก เนื่องจากรูปแบบ (pattern)

ของอินเดลกลุ่มนี้มีความซับซ้อนมากกว่ารูปแบบของอินเดลเชิงเดี่ยวมาก ดังนั้น ผู้วิจัยจึงเริ่มต้นจาก

การจำแนกอินเดลเชิงซ้อนออกเป็นกลุ่มตามจํานวนรูปแบบที่พบในอินเดลแต่ละตัว พบว่าสามารถ

แบ่งอินเดลเชิงซ้อนออกเป็นกลุ่มได้ 30 กลุ่ม ตั้งแต่กลุ่มที่มีรูปแบบเพียง 2 แบบ เรียกว่า “อินเดล

เชิงซ้อนสองสภาพ” (two-state complex indel) ในกรณีที่อินเดลเชิงซ้อนมีจํานวนรูปแบบเท่ากับ 3

แบบ ก็จะเรียกว่า “อินเดลเชิงซ้อนสามสภาพ” (three-state complex indel) เป็นเช่นนี้ไปจนกระทั่ง

ถึงอินเดลเชิงซ้อนสามสิบเอ็ดสภาพ (31-state complex indel) แต่เนื่องจากอินเดลเชิงซ้อนสองสภาพ

และอินเดลเชิงเดี่ยวต่างก็มีรูปแบบเพียงแค่ 2 แบบเท่านั้น ผู้วิจัยจึงรวมอินเดลทั้งสองชนิดนี้เข้า

ด้วยกันและเรียกชื่อใหม่ว่า “อินเดลสองสภาพ” (bi-state indel) ส่วนอินเดลที่เหลือจะเรียกว่า

“อินเดลหลายสภาพ” (multi-state indel)

เมื่อวิเคราะห์การกระจายตัวของซิงเกิลตอนอินเดล ในอินเดลสองสภาพตามวิธีการใน Paper II

พบว่า การกระจายตัวของซิงเกิลต้อนอินเดลมีแบบแผนเช่นเดียวกันทั้งในอินเดลสองสภาพและใน

อินเดลเชิงเดี่ยว สัดส่วนของอินเซอชั่นต่อดีลีชั่นที่พบในอินเดลสองสภาพเท่ากับ 2.66 เท่า (ใกล้เคียง

กับสัดส่วนในอินเดลเชิงเดี่ยว 2.31 เท่า) เมื่อพิจารณาอินเดลหลายสภาพที่เหลือ (ตั้งแต่อินเดลเชิง-

ซ้อนสามสภาพจนถึงสามสิบเอ็ดสภาพ) พบว่า จํานวนอินเดลเชิงซ้อนสามสภาพจนถึงอินเดล-

เชิงซ้อนเก้าสภาพมีประมาณร้อยละ 75 ของอินเดลหลายสภาพ จึงน่าจะเป็นตัวแทนของอินเดล-

หลายสภาพได้ ดังนั้น ผู้วิจัยจึงเตรียมชุดข้อมูลสําหรับค้นหา CDI โดยทำการรวมอินเดลสองสภาพ

เข้ากับอินเดลเชิงซ้อนสามสภาพจนถึงอินเดลเชิงซ้อนเก้าสภาพ และเรียกว่า “อินเดลซับซ้อนต่ํา”

(slightly complex indel)

การเปรียบเทียบ CDI จากอินเดลซับซ้อนต่ํา พบปริมาณ CDI จำนวน 1,010 อินเดล (จากเดิมเคย

พบเพียง 69 อินเดลจากอินเดลเชิงเดี่ยวใน Paper II) และรูปแบบการกระจายตัวของ CDI ที่พบใหม่

ยังสอดคล้องกับ CDI ที่พบในอินเดลเชิงเดี่ยวอีกด้วย กล่าวคือ CDI ที่สนับสนุนวิวัฒนาการของ

เชื้อราจะมีปริมาณมากที่สุด (~50%) รองลงมาคือ CDI ที่สนับสนุนวิวัฒนาการของพืชและสาหร่าย-

สีเขียว (~29%) แต่เราพบ CDI ที่สนับสนุนวิวัฒนาการของสัตว์เป็นจํานวนร้อยละ 12 นั่นแสดงว่า

อินเดลเชิงซ้อนเป็นแหล่ง CDI ที่สําคัญ

และวัตถุประสงค์สุดท้ายของงานวิจัยนี้ คือ การใช้ประโยชน์จาก CDI เพื่อทดสอบไฟโลจีนี

ของสัตว์ซึ่งยังคงมีความคลุมเครือ โดยเฉพาะอย่างยิ่งวิวัฒนาการของสัตว์ที่ไม่มีสมมาตรแบบครึ่งซีก

(non-bilaterial animals) ดังนั้น ผู้วิจัยจึงค้นหาโปรตีนที่บรรจุ CDI ที่สนับสนุนกลุ่มสิ่งมีชีวิตที่มี

สมมาตรครึ่งซีก (13 อินเดล) และสนับสนุนกลุ่มสิ่งมีชีวิตในอาณาจักรสัตว์ (40 อินเดล) ทั้ง 53

อินเดล ปรากฏว่าอินเดลทั้งหมดบรรจุอยู่ในโปรตีนจำนวน 42 โปรตีน ดังนั้น ผู้วิจัยจึงเตรียมข้อมูล

ชุดใหม่ด้วยโปรตีนจํานวน 42 ชนิด และค้นหาโปรตีนออร์โธลอกเพิ่มเติมในโปรตีโอมสิ่งมีชีวิตทั้ง 4

Related documents