Eduard Kejnovský + Roman Hobza EVOLUČNÍ GENOMIKA III. EVOLUCE GENOMŮ OBSAH 1.Velikost genomu 2. Extrémní genomy 3. Změny ve velikosti genomu 4. Nekódující DNA a velikost genomu 5 .Topografie genomu 6. Genomové projekty VELIKOST GENOMU savci ptáci plazi obojživelníci ryby kostnaté ryby chrupavčité ostnokožci korýši hmyz měkkýši červi plísně rostliny řasy houby grampozitivní bakterie gramnegativní bakterie mykoplazmata 106 107 108 109 1010 1011 Velikosti genomů Velikosti genomů a paradox hodnoty C GENOM = celková genetická informace organizmu (geny i negenové oblasti/repetice) Paradox hodnoty C = velikost genomu organizmu není v korelaci s komplexitou organizmu např. jednobuněčná měňavka (Amoeba dubia) má 200x větší genom než člověk Podisma pedestris 18,000 Mb Drosophila melanogaster 180 Mb 100x Klíčem k řešení paradoxu hodnoty C jsou opakující se úseky DNA (repetice) Genomy jsou repetitivní a dynamické drosophila_200 Frittilaria asyriaca 130Gb Amoeba dubia 670Gb Velikosti genomů a paradox hodnoty C Proč se genomy nezbaví repetitivní DNA? Jaké síly udržují repetitivní DNA? Jaká je role repetitivní DNA? člověk 3Gb Klíč k řešení paradoxu hodnoty C se nachází v negenových oblastech velikost genomu podíl genů podíl TE velikost genomu Hlavní komponenty eukaryotického genomu Kódující části genů: - u prokaryot tvoří většinu genomu - u eukaryot méně, člověk 24 000 genů – 1.5% Introny: - původně považovány za příčinu C-paradoxu, - tvoří většinu genů Pseudogeny: - klasické, retropseudogeny, - 19000 člověk, 14000 myš, 51 kur, 33 kvasinka, 176 drosophila Mobilní elementy: - LTR, nonLTR – SINE, LINE, DNA transposony- MITE Numt, Nupt: - inzerce promiskuitní DNA “Triumphs as well as failures of nature's past experiments appear to be contained in our genome” - Susumu Ohno „The majority of the genome consisted of now-extinct genes“ - Susumu Ohno Velikosti genomů a „zbytečná DNA“ „The evolution of the large-scale features of the genome is one of the most difficult, perharps the most difficult, question in evolutionary biology“ - Maynard Smith Velikosti genomů prokaryot •Bakteriální genom: 6´105 ->107 (=0.6-10Mb) • nejmenší známý: Mycoplasma genitalium (480 genů kódujících proteiny, 3 rRNA geny, 37 tRNA genů) • •Procesy ovlivňující velikost bakteriálního genomu: • Genová duplikace, malé delece a inzerce, transpozice, horizontální přenos, ztráta genů v parazitických liniích, atd. Velikost genomů prokaryot je zhruba úměrná počtu genů Velikosti genomů prokaryot EXTRÉMNÍ GENOMY Minimální velikost genomu Co je život? Strategie: 1. odstranění či inaktivace genů 2. syntéza minimálního genomu „One day a scientist will drop gene number 297 into a test tube, then number 298, then 299… and presto: what was not alive a moment ago will be alive now. The creature will be as simple as life can be. But it will still be life. And humans will have made it, in an ordinary glass tube, from off-the-shelf chemicals…“ - Hayden, 1999: “Minimální” genom – Mycoplasma 580 kb genom/ 480 genů pro proteiny/ 37 genů pro tRNA 2209 inzercí transpozonů/ ve 140 genech 1354 míst, kde inzerce nebyla letální 265-350 genů nepostradatelných (glykolýza) 180-215 genů postradatelných 100 genů má neznámou funkci!!! různý vliv inzercí podle polohy inzerce v genu “Minimální” genom: Bacillus subtilis život s 271 geny 4100 genů 192 genů zcela nepostradatelných na bohatém prostředí: zpracování informace, buněčná stěna, energie 79 genů podstatných Jen 4% genů má neznámou funkci PNAS 100, 4678-4683 (2003). Minimální velikost genomu: (a) Analytický přístup •(Mushegian a Koonin, 1996): •Srovnání kompletních bakteriálních genomů: E. coli H.influenzae M.genitalium 1,146 1,129 889 18 10 239 1 [Překrývající se ortologní geny (239)] + [přesun neortologních genů] – [geny specifické pro parazitické bakterie nebo funkční redundance] = 256 genes •Translation •Replication •Transcription •Recombination and DNA repair •Chaperone-like proteins •Anaerobic metabolism •Lipid or cofactor biosynthesis •Transmembrane transporter •Some unknown function •(Itaya, 1995): •Knock-out 79 náhodně vybraných genů Bacillus subtilis: - -pouze 6 letálních, 73 je postradatelných • à 7.5% (6/79) genomu je nepostradatelných - •- B.subtilis genome: 4.2´106bp ´ 7.5% = 3.2´105bp • Průměrná velikost genu je 1.25kb, takže minimální velikost genomu » 254 genů Minimální velikost genomu: (b) Experimentální přístup Největší prokaryotické genomy Pseudomonas aeruginosa (bakterie): - 5500 genů - přes 6 Mb - přirozeně rezistentní k antibiotikům (ochranný obal) - R-faktor, žije ve společenství jiných bakterií, konjugace - lidský patogen (kožní n., močové, dýchací a trávicí cesty) - - Nostoc punctiforme (sinice): - 7432 ORF - 8.9 Mb - repetice, transpozony - fotoautotrofní, také fakultativně heterotrofní - možnost symbiózy s rostlinami i houbami Repetice N.p. •Eukaryotický genom: 8.8´106~ 6.9´1011 • (8.8Mb – 670Gb) •Nejmenší známý: Saccharomyces cerevisiae •Největší známý: Amoeba dubia Velikosti genomů eukaryot Velikosti eukaryotických genomů NEjsou úměrné počtu genů nebo komplexitě organizmu ZMĚNY VE VELIKOSTI GENOMU Zvětšení genomu •celkové zvětšení: polyploidizace (duplikace celého genomu) •duplikace části genomu, zmnožení počtu chromosomů •duplikace genů a skupin genů • •amplifikace transpozonů •inzerce virové DNA •inzerce organelové DNA •expanze (mikro)satelitů Vzrůstající komplexita živých forem byla doprovázena vzrůstem velikosti genomů a počtu genů Evoluční síly ovlivňující velikost genomu Změny ve velikosti genomů: plynulé nebo skoky? Plynulost: - savci, ptáci, kostnaté ryby - postupná akumulace nebo delece, malé segmenty DNA - normální distribuce velikostí genomů v těchto skupinách - podíl jedinečných sekvencí konstantní, mění se spolu se změnou velikosti genomu, je dán velikostí intronů Skoky (kvantové změny): - bezobratlí, rostliny (50% nahosemenných je polyploidní), vyjímečně obratlovci - polyplodizace, přidatná replikace některého chromosomu, kryptopolyploidizace (koordinovaná replikace všech repeticí v genomu – Chironomus) - kvantové rozdíly mezi blízkými příbuznými, velké rozdíly ve velikostech genomů Růst velikosti genomu: Polyplodizace Chyba v meioze vede k diploidním gametám Fúze diploidní a haploidní gamety vede k triplodnímu jádru, triploidní organizmus je však sterilní Celkové zvětšení genomu •Polyploidizace (duplikace celého genomu): • Autopolyploidie: multiplikace jedné základní sady chromosomů, jeden organizmus, chyba při meioze (růže…) • • Allopolyploidie: kombinace geneticky odlišných sad chromosomů (pšenice…) • • Kryptopolyploidie: dávná polyplodizace, organizmus se jeví jako diploidní, přestavby – delece, translokace…, kvasinka, obratlovci, obilniny, odhalení až sekvenací • •Duplikace části genomu: • chromosomů - polysomie (trisomie), většinou letální, genová imbalance, evolučně irelevantní • genů nebo skupin genů Polyploidní plodiny - tetraploidi: kukuřice, bavlna, brambor, zelí - hexaploidi: pšenice, chrysantéma - oktoploidi: jahodník Genom kvasinky: Polyploidizace nebo duplikace segmentů? •54 nepřekrývajících se duplikovaných oblastí •50 z nich si zachovalo stejnou orientaci vzhledem k centroméře •nebyla nalezena žádná triplikovaná oblast, přičemž 7 oblastí by bylo očekáváno dle Poissonova rozložení •příbuzné druhy bez duplikace – Kluveromyces waltii a Ashbya gossypii •457 genových párů – 17% se vyvíjí rychleji než jejich homology u K. waltii Duplikace jsou výsledkem tetraploidie spíše než postupných regionálních duplikací Polyploidizace v linii obratlovců •Duplikace genomu před 450 mil let napomohla vzrůstu komplexity a diverzifikaci obratlovců S. Ohno: - dvě genomové duplikace u obratlovců – hypotéza „2R“ (2 rounds) - některé genové rodiny mají 4 členy u obratlovců a jednu u bezobratlých - srovnání ježovky (bezobratlý) s obratlovci (člověkem, myší a rybou Fugu) - v genomu člověka dlouhé segmenty ve čtyřech kopiích podél všech chromosomů Polyploidizace u rostlin Arabidopsis: - duplikace před 200 a 80 mil. let - možná i více než 4 genomové duplikace - asi 60% genomu leží v duplikovaných segmentech - 50% genů v nich je konzervováno Počet genů a evoluce duplikovaného genomu ABCDEFGHIJKLM NOPQRSTUVWXYZ a b c d e f g h i j k l m n o p q r s t u v w x y z ABCDEFGHIJKLM NOPQRSTUVWXYZ a b c d e f g h i j k l m n o p q r s t u v w x y z AB DEF HI KLM N PQ TUV X Z b c e g h j k m n o p r s t v w x y I KLM N PQ TUV X Z b c e g h j k m s t v w x y n o p r AB DEF H I KLM N PQ TUV X Z AB D e’ g h j k m s t v w x y n o p r bc E’F H 26 genes, 2 chomosomes 26 genes, 2 chomosomes Tetraploidizace Ztráta genů 52 genes, 4 chomosomes Translokace Crossing over 36 genes, 4 chomosomes Vzrůst počtu genů, potlačení šumu a biologická komplexita Prokaryota/eukaryota: Potlačení šumu - separace transkripce a translace, jaderná membrána a histony Obratlovci: Potlačení šumu – metylace genů, mobilních elementů a duplikátů prokaryota eukaryota obratlovci Mechanizmy zvětšení genomů •Duplikativní (retro)transpozice •Nerovnoměrný (unequal) crossing-over •Replikační klouzání (Replication slippage) •Genová amplifikace (rolling circle replication) NEKÓDUJÍCÍ DNA a VELIKOST GENOMU Teorie úlohy nekódující DNA: adaptivní role vs. sobecká DNA - Jaké evoluční síly produkují „zbytečnou“DNA? - Jaká je role „zbytečné“DNA? - Proč selekce toleruje „zbytečnou“ DNA? Adaptivní role: - vliv nadbytečné DNA na fenotyp - vliv na velikost jádra a buňky - ochrana kódujících sekvencí před mutacemi - pufrování koncentrace regulačních proteinů Sobecká DNA (junk DNA): Parazitické sekvence, mobilní elementy, fixace genetickým driftem, velikost genomu je tolerovatelné maximum závisející na ekologických a vývojových potřebách organizmu Genomová obezita u rostlin – jednosměrný proces? Teorie sobecké DNA (Dawkins, 1976) -jediným cílem DNA je se replikovat Dva modely: - pouze růst genomů - růst i zmenšování genomů Limity růstu genomů: - fitness hostitele - mechanizmy potlačující amplifikaci – metylace - mechanizmy odstraňování repeticí – rekombinace - BARE – 42x více solo LTR než vnitřních částí - rekombinace uvnitř i mezi elementy - selekce na kratší LTR, solo LTR nejdelší Big Bang v genomu kukuřice •- polyploidizace •- amplifikace TE (6 mil let) •- inzerce do mezigenových oblastí PNAS 98, 8163-8164 (2001) Závislost velikosti genomu na zaměpisné šířce a nadmořské výšce - korelace mezi velikostí genomu a teplotním režimem - větší genomy nebo polyploidi: - arktické lososovité ryby - zooplankton arktických jezer (Daphnia, Bosmina) - rostliny v polárních oblastech - populace v teplých oblastech jsou diploidní Obsah DNA je proměnlivý i v rámci jedince Zvýšení obsahu DNA - endopolyploidie a polytenie: - drosophila - polytenní chromosomy ve slinných žlázách - Daphnia - tkáňově-specifické rozdíly v ploidii, 2-2048C, vliv na morfologii hlavy indukovanou predátorem - Bombyx mori – 1 000 000 ploidní buňky žláz - hedvábí - korelace ploidie a velikosti buňky - - - Snížení obsahu DNA v somatických buňkách: - nematoda, bičíkovci, dvoukřídlí, - např. Cyclops strenuus – somatické b. mají 5% obsahu DNA oproti oplozenému vajíčku - vysvětlení z hlediska sobecké DNA – delece DNA ze slepé somatické linie a ne ze zárodečné linie - změna obsahu DNA během života jako odpověď na stimuly – Lamarckismus Daphnia pulex Bombyx mori Cyclops strenuus Vliv velikosti genomu na fenotyp Velikost genomu koreluje s: + - velikostí jádra - velikostí buňky (nucleotypic effect) - dobou mitózy a meiózy - minimální generační dobou - velikostí semen - odpovědí letniček vůči CO2 - dobou vývoje embrya u mloků - - - rychlostí bazálního metabolismu u obratlovců (negativní korelace) (malý genom ptáků a netopýrů - rychlý metabolismus při letu, velký genom ryb - estivace za hypoxických podmínek) - morfologickou komplexitou mozků u žab a mloků (negativní korelace) TOPOGRAFIE GENOMU Uspořádání genů v genomech fig5 Přestavby pořadí genů u bakterií (Watanabe et al. 1997) Syntenie - konzervativita pořadí genů A B C1 C2 D E A B C E druhy I. II. III. • konzervativita genů • rozdílné mezigenové sekvence Makro- vs. mikro- kolinearita - konzervativita v dlouhých úsecích - mikrostruktura více dynamická, mix s jinými geny - polyploidie urychlí evoluci mikrostruktury - změny již u prvních generací syntetického alotetraploida u Brassica (Bancroft, 2001) Nedávná divergence: A. thaliana vs. Capsella rubella: divergence před 6.2-9.8 mil. let Dávná divergence: A. thaliana vs. tomato: divergence před 150mil. let Rychlá evoluce oblasti rezistence k patogenu - gen „RPP5“ – rezistence k Perenospora parasitica - - rozdíly mezi A.t. ekotypy Lansberg erecta a Columbia - - většinou pseudogeny - tandemové duplikace a nerovnoměrný crossing-over je mechanizmem rychlé evoluce Lansberg erecta Columbia (Bancroft, 2001) Arabidopsis thaliana Počty chromosomů u různých druhů Ch1Ct1 Extrémisté: mravenec Myrmecia pilosula – 1 pár, samec 1 chromosom kapradina Ophioglossum reticulatum – 630 párů Různé počty chromosomů u blízce příbuzných druhů jelínků Muntiacus různé druhy: Evoluce pohlavních chromosomů A A alela determinující pohlaví proto X proto Y potlačení rekombinace a akumulace repetitivní DNA X Y X Y X 0 S. latifolia savci hmyz ztráta chromosomu Y degenerace chromosomu Y Lidský chromosom Y: „Sál plný zrcadel“ PAR1 PAR2 Palindromy: • 3 000 000 bází dlouhé • 99.9% identita Homologní oblasti mezi X a Y Duplikativní přenos z X Palindromy •Objev palindromu je zajímavý ve světle objevů na lidském chromosomu Y •Osekvenován euchromatin Y, nejzajímavějšími sekvencemi obří palindromy o vysoké identitě svědčí o genové konverzi (Y nemá partnera tak se páruje sám se sebou) •My jsme našli opdobné struktury v mladých sex chromosomech •Popiseujeme v popularním článku ve Vesmíru Recyklace pohlavních chromosomů u drozofily První Y chromosom: „original Y“: - vymizel před více než 60 mil. lety Druhý Y chromosom: „ancestral Y“: - párování B chromosomu s X chromosomem ~ před 60 mil let - získání úžitečných genů z autosomů - degenerace Třetí Y chromosom: „neo Y“ - fúze X s autosomem - připojení ancestrálního Y na A, recovery - opět degenerace neo-Y Silenka širolistá: model pro studium mladých pohlavních chromosomů člověk (Homo sapiens): 300 mil let silenka širolistá (Silene latifolia): 10 mil let Degenerace chromosomu Y již v časných fázích jeho evoluce Akumulace repeticí na mladém chromosomu Y (CAA)n •Jaká DNA se akumuluje na Y? Zjistili jsme, že promiskuitní plastidová DNA •Dovolte odbočku: organely byly původně volně žijící bakterie, po endosymbioze (vznik eukaryotické b.) přenos genů do jádra •U člověka také akumulace mitochondriální DNA na Y Degenerace genů na chromosomu Y: Více repetitivní DNA v genech na chromosomu Y • Co bylo dříve? Akumulace repeticí nebo degenerace genů? B chromosomy - parazité Definice: přidatné postradatelné chromosomy přítomné v některých jedincích některých populací určitých druhů, které zřejmě vznikly z A chromosomů Vlastnosti B chromosomů: 1. postradatelnost 2. původ z A chromosomů, odlišnost od A chromosomů 3. nerekombinují 4. neúčastní se meiózy, nemendelovská dědičnost Historie: Wilson (1906) - „extra“ chromosomy u hmyzu Metapodius Stevens (1908) - u brouka Diabrotica Kuwada (1915) – kukuřice Rozšíření: 10 druhů hub, 1300 rostlin, 500 živočichů Převaha u určitých taxonů – Compositae, Graminae, Liliaceae, Orthoptera, např. u hmyzu Orthoptera ~ u 10-15% druhů B chromosomy - parazité Vznik: aneuploidie, ze sex chromosomů (i naopak), z jiných druhů Počet: - vyjímečně více než 3-4 B chromosomy, rozdíly mezi populacemi i mezi jedinci - extrémy: 50 u Pachyphytum fittkaui, 34 u kukuřice, 26 u Fritillaria japonica, 24 u myši Apodemus peninsulae - mitoticky stabilní – stejný počet v buňkách téhož jedince Velikost a struktura: - velikost průměrných chromosomů, extrémy – největší (ryba Astyanax scabripinnis) nebo nejmenší (myš Reithrodontomys megalotis) - metacentrické nebo akrocentrické, heterochromatické, - obsahují repetice, satelitní DNA, rDNA, transpozony (mikrodisekce a PCR), nerekombinují Chování v meióze: - nepárujíc se s partnerem, univaletní, segregují přednostně k určitému pólu, podobnost s pohlavními chromosomy, MSCI, Srovnání lidských a myších chromosomů člověk myš Od evoluční divergence došlo k četným přestavbám, které umístily bloky genů do různých kombinací. Inverze v genomech člověka a šimpanze Člověk: červená-žlutá-zelená Šimpanz a gorila: červená-zelená-žlutá Velikost inverzí Počet inverzí Chromosomové přestavby fig4 fig3 (Introduction to Genetic Analysis. 7th ed) Griffiths, Anthony J.F.; Gelbart, William M.; Miller, Jeffrey H.; Lewontin, Richard C. rekombinace mezi repeticemi zlom a znovuspojení •Isochory: bloky genomové DNA (stovky kb-Mb) s charakteristickým GC-obsahem, ostrý přechod •- fragmentace genomové DNA na fragmenty 30-100kb -separace fragmentů podle obsahu bází -shlukování do skupin s diskrétními GC-obsahy, u člověka typy L1, L2, H1, H2 a H3 (GC nejbohatší, tvoří jen 3% ale obsahuje 25% genů) -Mozaiková struktura genomu obratovců a rostlin Izochorový model organizace genomu klasický model lidská MHC oblast Původ izochor: 1. Výsledek mutací? 2. Výsledek selekce? 3. Genová konverze? GENOMOVÉ PROJEKTY První genomové projekty - začátek éry genomiky 1977: první kompletní genom (virus) - bakteriofág phiX174 (5 386 bp) Sanger et al., Nature 265, 687-695. 1995: první kompletní genom autonomního organizmu - bakterie Haemophilus infuenzae (1.38 Mb) Fleischmann et al., Science 269, 496-512. 1996: první eukaryotický organizmus - kvasinka Saccharomyces cerevisiae Goffeau et al., Science 274, 563-567. Genomové projekty 2000: Drosophila melanogaster (137 Mb/13 500 genů) 1996: Saccharomyces cerevisiae (12 Mb/ 6548 genes) 1998: Caenorhabditis elegans (97 Mb/19 099 genů) Mus musculus (3 300 Mb) 2000: Arabidopsis thaliana (125 Mb/25 500 genů) Genomové sekvenační projekty duben 2008 762 ukončených projektů: 53archea 626 bakterie 83 eukaryota Ukončené eukaryotické genomy: protozoa: Plasmodium falciparum (23 Mb) fungi: Saccharomyces cerevisiae (12 Mb) Neurospora crassa (43 Mb) nematodes: Caenorhabditis elegans (97 Mb) insects: Drosophila melanogaster (137 Mb) Anopheles gambiae ( 278 Mb) fish: Ciona intestinalis (117 Mb) mammals: Homo sapiens (2900 Mb) Mus musculus (3300 Mb) Rattus norvegicus (2750 Mb) plants: Arabidopsis thaliana (115 Mb) Oryza sativa (420 Mb) 975 probíhajících projektů: 1749 prokaryota 935 eukaryota 89 archea http://www.genomesonline.org/ Jak zjistit stav genomových projektů 2654 bakteriálních 166 eukaryotických 147 archea Kompletní: (2967) Rozečtené: (7682) Genomové sekvenační projekty Kompletní genomy Bakterie/eukaryota/archea Kompletní/nekompletní Sekvenační centra Objem dat v databázích roste exponenciálně Počet přečtených genomů Objem dat v databázích roste exponenciálně Počet bází 1014bp The International Nucleotide Sequence Database Collaboration (INSDC; http://www.insdc.org) Genbank - sekvence DNA, veřejně přístupná SRA –sequence read archive – NGS data SWISS-PROT - sekvence proteinů, popis funkce, struktury domén dbEST - sekvence cDNA z různých organizmů REBASE - restriktázy a metylázy PEDANT - kompletní nebo parciální sekvence genomů PDB - 3D koordináty makromolekulárních struktur REPBASE – repetitivní sekvence Hlavní databáze Sekvenování lidského genomu Sekvenování primátů - the genome sequences of human, chimpanzee, Indian rhesus macaque, orangutan, Chinese rhesus macaque and cynomolgus macaque are published, - sequencing of several more primate species (marked by asterisks) is underway. Nature Biotechnology 29, 983–984 (2011) Co dělá člověka člověkem?