Eduard Kejnovský (Zdeněk Kubát) + Roman Hobza EVOLUČNÍ GENOMIKA IV. EVOLUCE GENŮ OSNOVA 1. Definice genu, historie 2. Struktura genu 3. Vznik nových genů 4. Velikosti genů 5. Introny – staré nebo mladé Definice genu = základní jednotka genetické informace zapsaná v NK - Podle šíře definice: 1. všechny sekvence DNA potřebné k syntéze proteinu nebo RNA, tedy i regulační a signální sekvence (nejširší) - 2. transkribované sekvence (nezahrnuje regulační oblasti) - 3. úseky přímo kódující peptid (nejužší) nebo pořadí bází ve funkčních molekulách RNA Typy genů (širší definice): Geny strukturní, geny pro RNA a geny-regulační sekvence Historie konceptu genu Klasické období genetiky - Mendel, Bateson: buněčné elementy, faktory určující vlastnosti - Boveri, Sutton (1902-3): chromozomová teorie dědičnosti (chromozomy se přenášejí při mitóze a meióze) - Bateson (1905): hrachor, vazba genů (odporuje Mendlovým zákonům) - Johansen (1909): zavedl pojem „gen“ (Hugo de Vries - pangen) - Morgan (1910) (Lock, 1906): geny jsou uspořádány lineárně na chromozomech, vazbové skupiny - Sturtevant (1913): První genetická mapa D. melanogaster - Dobzhansky a další (20. léta): cytologické pokusy s X-rays, indukce zlomů, přestaveb, důkaz genů na chromozomech - Griffith (1928): transformační experimenty u bakterií – přenos genů - Muller (20.- 30. léta): geny jsou neviditelné body na chromozomech (dědičnost, rekombinace, mutace, funkce) - Neoklasické období genetiky - 40. léta: geny mohou být rozděleny rekombinací na segmenty – geny mají délku (DNA či proteiny?) - Avery, MacLeod a McCarthy (1944): substancí zodpovědnou za transformaci je DNA - Hershey a Chaseová (1952): genetickou informaci nese DNA (multiplikace bakteriofága zajištěna DNA) - Beadle a Tatum (1941): „one gene – one enzyme“ (souvislost mezi geny a proteiny) - Watson a Crick (1953): struktura DNA - Crick (1958): centrální dogma MB a teorie proteosyntézy - Meselson a Stahl (1958) semikonzervativní replikace - Jacob a Monod (1961): mRNA, operonová teorie - Nirenberg, Khorana, Ochoa (1966) genetický kód - 60. léta: gen – RNA – polypeptid - Moderní genetika - Cohen (1973): rekombinantní molekuly DNA (genové inženýrství) - složené geny (1977, Philip Sharp + Richard Roberts, NC 1993) - smRNA (1998, Andrew Fire + Craig Mello, NC 2006) - genomově-centrický pohled (např. Heng 2009, BioEssays) STRUKTURA GENU Geny prokaryot jsou uspořádány do operonů Genetická informace u prokaryot je velice kompaktní File:Gene structure prokaryote 2 annotated.svg Yeast, ~1% of genes have ORFs<100 aa Hledání genů u prokaryot •ORF (otevřené čtecí rámce) •start kodon je následován nejméně 60 AK, poté stop kodon •homologie se známými ORF • •Signální sekvence •Transkripce - konsensus promotorové a terminační sekvence •Translace - vazebné místo na ribozóm: Shine-Dalgarnova • sekvence • •Rozdíly v obsahu bazí mezi kódující a nekódující sekvencemi DNA - obsah GC, tzv. codon bias Yeast, ~1% of genes have ORFs<100 aa Komplikace u eukaryot •Složené geny (split genes) •- introny a exony, •- obratlovci - délka genu 30kb/1-2kb je kódující •- např. gen pro dystrophin 2.4 Mb, desítky exonů, introny až 32kb •Velké genomy - u rostlin až 110 000 Mb (Fritillaria assyriaca) •Většina DNA je nekódující •- introny, regulační oblasti, “junk” DNA •- asi 1.5% kódující (člověk) •Složitá regulace genové exprese (modifikace chromatinu, metylace DNA, RNAi, alternativní sestřih) •Regulační sekvence mohou být daleko od start kodonu gen exon 1 exon 2 intron ATG promotor polyadenylační signál Obecné schéma eukaryotického genu CAAT box TATA box startovací nukleotid vedoucí sekvence File:Gene structure eukaryote 2 annotated.svg Složený gen Gen Exon 1 Exon 2 Exon 3 Intron 1 Intron 2 transkripce sestřih RNA DNA primární transkript mRNA Exon 1 Exon 2 Exon 3 exon – expressed sequence intron – intervening sequence Genetická informace u eukaryot je fragmentována Jak se hledají geny? - otevřené čtecí rámce (ORF) - obsah a distribuce nukleotidů, „genové rysy“ - používání kodonů - hranice exon-intron - promotory, regulační sekvence - homologie v databázích, EST „Many message problem“ u eukaryot ORF: Alternativní sestřih Exon 1 Exon 2 Exon 3 transkripce alternativní sestřih RNA DNA primární transkript mRNA Exon 1 Exon 2 Exon 3 Exon 4 Exon 1 Exon 2 Exon 4 Protein A Protein B exitrony = introny bez stop kodonů Struktura promotoru mutace v kritických místech blokují transkripci Geny v genech a jiné podivnosti • překrývající se geny: 5 kb Neurofibromatosis type I gene intron 27 OMGP EVI2B EVI2A • geny uvnitř jiných genů: • pseudogeny: GTTTATGGTA met val ….. Gen A val tyr gly ……….. Gen B Geny (transkripce v opačné orientaci) Pseudogeny Definice: - sekvence podobná genu, nekóduje funkční produkt - nefunkční relikt původně funkčního genu Problém definice: - pseudogen může plnit důležitou funkci (nekódující RNA, regulační sekvence, stabilita RNA svého homologa), - komplikují mol-biol. studie Vznik: (a) duplikace a degenerace jedné kopie – „non-processed“ (b) retrotransposice – „processed“ pseudogen - člověk má 19 000 pseudogenů, pravidlo 50:50 microRNAs – 22bází siRNAs – small-interferring, 20-25 bází piRNAs – PIWI-interacting RNA snoRNAs – small nucleolar RNA snRNAs – small nuclear RNA exRNAs – extracellular RNA scaRNAs – small Cajal body-specific RNA Nekódující RNA long ncRNAs – delší než 200 bp, role v regulaci transkripce, některé translatovanaé, Xist and HOTAIR. Periodicita sekvencí uvnitř genů • Krátké úseky 8-20bp se v genech často opakují • Periodicita vznikla před vznikem genetického kódu a odráží původní mechanizmus autoreprodukce krátkých úseků NK • Periodicita vznikla v době existence genetického kódu a odráží jeho vlastnosti. Její význam: - obrana proti častému výskytu stop-kodonů – 300bp/0.82% bez stop, když dekanukleotid necháme 30x opakovat à 60% bez stop - vznik nových genů posunovou mutací – ORF ve druhém čtecím rámci je vyšší při periodicitě - obrana proti častému zahajování transkripce mimo geny, jinak by s určitou pravděpodobností docházelo k zahajovaní transkripce - nerovnoměrné používání synonymních kodonů, kodony a hojnost tRNA, nikoli maximalizace ale optimalizace rychlosti syntézy proteinů, pro každý protein jiná VZNIK NOVÝCH GENŮ Každý gen vzniká z genu (nebo de-novo) - geny jsou si podobné, duplikace a postupná divergence genů, genealogické stromy - - genové rodiny a nadrodiny - - počet genů u eukaryot: 10 000 – 40 000 - - počet základních modulů malý: stovky-max tisíce vzájemně nepříbuzných exonů, nejmenší jsou genové moduly - - Ale některé geny vznikají de-novo z „junk DNA“ !!! (a) Přeskupování exonů: (b) Duplikace genů: (c) Retrotranspozice: (d) Fúze a štěpení genů: + Vznik nových genů Evoluce genovou duplikací - duplikace je základem diverzifikace - zrod nových genů u rostlin, kvasinky a drosophily je 10x pomalejší než u C. elegans - poločas rozpadu genů delší u rostlin, duplikáty přetrvávají, mechanizmy retence duplikátů? (Ohno, 1970) •Duplikace části genu: duplikace domén/vnitřní části genu à zvýšení funkce nebo nová funkce prostřednictvím nových kombinací •Duplikace celého genu (genová rodina) stejná kopie: zvýšení dávky genu, rozrůznění kopií: nové funkce •Duplikace klastru genů - disperzní x tandemové kopie – rychlost asymetrické evoluce, často u rostlin zůstávají v tandemu - v nerekombinujících oblastech – rychlejší evoluce Evoluce genovou duplikací - Antikvariát Radhošť Genová duplikace: pseudogenizace, neofunkcionalizace, subfunkcionalizace Klasický model Ohno: Moderní pohled: Geny exprimované v embryu Pseudogeny Geny exprimované v plodu Geny exprimované v dospělosti Globinová genová rodina – vznik duplikací a-globinové geny b-globinové geny e x2 yx1 ya2 ya1 a2 a1 q Gg Ag yb d b Výsledek obrázku pro evolution of genes Mechanizmy duplikace genů 1.nerovnoměrný crossing-over (různé chromosomy) 2.nerovnoměrná výměna mezi sesterskými chromatidami 3.duplikace při replikaci 4.mechanismus otáčivé kružnice Původ nových genů: Přeskupování exonů (exon shuffling) • exony různých genů jsou spojeny dohromady za vzniku nového genu • exon může být duplikován za vzniku nové exon-intronové struktury • kombinace domén různých proteinů – mozaikový protein Mechanizmy: Ektopická rekombinace Nelegitimní rekombinace Vznik nového genu na příkladu AFGP 1 2 3 4 5 6 5’ 3’ Ancestral trypsinogen gene 1 6’ 5’ 3’ Thr Ala Ala Gly 1 6’ 5’ 3’ Delece 4x duplikace + přidání spacerové sekvence Vnitřní duplikace + přidání intronové sekvence 1 5’ 1 2 3 4 5 6 7 37 38 39 40 41 3’ 6’ … Antifreeze glycoprotein gene (AFGP) Spacer: Gly - brání zmrznutí tělních tekutin, růstu krystalků ledu - vznikl před 10 mil let, první zamrznutí polárních oblastí - vznik z trypsinogenu, zachován 5’ a 3’ konce (sekrece) - amplifikace (Thr-Ala-Ala)n, kde n=4-55 - konvergentní evoluce – antarktický a arktický Antarktický AFGP 10 mil let: Antarktické ryby Notothenioidei Řád Ostnoploutví Arktický AFGP: vznikl de-novo před 13-18 miliony let AFGP vznikl tandemovou duplikací původně nekódující DNA a ziskem regulačních sekvencí (žádná homologie nebo syntenie k trypsinogenu) Treskovité ryby: Původ genu Jingwei + Sfinx retrotranspozicí do intronu - vznik před 2 mil let, drosophila - základem yellow emperor - duplikace a retro-včlenění Adh - Adh terminační signál - degenerace exonů na 3’konci - nová kombinace exonů - - pohádka o princezně Jingwei: reinkarnace utonulé princezny v krásného ptáka podobně jako odhalení fungujícího genu v původně objeveném pseudogenu Gen Sfinx: rRNA gen+ATP syntázový řetězec F Původ genu SETMAR – „recyklace“ transposonu Histon metyltransferáza + transpozáza - zrušení stop - vznik nového stop - exonizace - degenerace TIRu - vznik intronu - DNA vazebná doména Tn zachována - TIR místa v genomu - - 50 mil let Mnohonásobný vznik transkripčních faktorů začleněním transpozázy u obratlovců Cosby et al., 2021 Mnohonásobný vznik transkripčních faktorů začleněním transpozázy u obratlovců Cosby et al., 2021 Long terminal repeats power evolution of genes and gene expression programs in mammalian oocytes and zygotes (Franke et al., 2017) Původ nových genů: Horizontální přenos - vertikální (sexualita) a horizontální přenos (mezi druhy) - bakterie - konjugace, transdukce a transformace - vířníci pijavenky (Bdelloidea) – z bakterií, hub, řas, prvoků - vnitrobuněčný parazitismus (Wolbachia) - DNA transposony - endosymbióza – promiskuitní DNA - GMO organizmy si budou vyměňovat geny s ne-GMO Místo stromu života lépe mluvit o pavučině života Přírodní genetické inženýrství je časté, dokonce i mezi evolučně vzdálenými taxony Horizontální genový přenos u bakterií Metody studia přímé: Subtraktivní hybridizace Microarrays nepřímé: Zastoupení kodonů (codon bias) GC obsah Konzervativní pořadí genů Vysoká homologie se vzdáleným druhem Původ nových genů: Štěpení a fúze genů (na základě studia ortologů) >> - častější fúze než štěpení - štěpení u termofilů Větší genom – více fúzí Napomáhají Helitrony vzniku nových genů? Řízená evoluce a design nových genů - tvorba rekombinantních proteinů - mix klonovaných genů - fragmentace a self-priming PCR - cephalosporinase enzym - rezistence k moxalactamu - Citrobacter, Enterobacter aj. - 0.75ug/ml --- 200ug/ml (250x) VELIKOSTI GENŮ Počty exonů jsou nejvyšší u savců Počet exonů Délka genu (kb) Velikosti intronů Homo sapiens Arabidopis thaliana Drosophila melanogaster Caenorhabditis elegans 3 000bp 160bp 1 400bp 370bp Dystrofinový gen – obří gen 79 exonů, nejdelší známý gen 8 promotorů, exprese ve svalech a mozku 2.5 Mb dlouhý (0.1% genomu), 14kb mRNA delece: Duchenne MD nebo Becker MD Poloha Xp21, 1:3500 u mužů INTRONY – STARÉ NEBO MLADÉ Hypotézy původu intronů „Intron first“: - původní organizmy obsahovaly introny - prokaryota je ztratila „Intron late“: - původní organizmy introny neobsahovaly - eukaryota je získala Význam intronů: 1. Introny užitečné nejsou, ale organizmy se jich nedokáží zbavit 2. Introny mají funkční význam pro organizmy, jsou užitečné Introny byly v genech již na počátku (“intron first”) • studium vnitřní periodicity genů – stejné motivy v exonech i v sousedních intronech • malá pravděpodobnost dlouhých úseků bez stop-kodonů, • evoluční výhoda enzymatického aparátu, který vystřihne oblasti se stop-kodony a sestaví dlouhou mRNA Introny byly do genů vloženy až dodatečně (“intron late”) • Existuje řada různých intronů lišících se mechanizmem vystřihování z RNA – vznikaly nezávisle • Distribuce intronů v rámci fylogenetických stromů svědčí o dodatečném vložení spíše než o opakovaném nezávislém vymizení „Introns first“ versus „introns late“ Polohy intronů u paralogů nejsou v homologických místech Reverzní transkripce a invaze Duplikace a invaze Introny jsou genomovými parazity • Šíří se pouze v rámci genomu, vertikální přenos, aby nezabíjeli buňku, před translací se vystřihnou • • schopnost samosestřihu • • Splicesom – komplex kódovaný buňkou, původně parazitickými introny, kódují enzymy pro šíření v rámci genomu Introny jsou užitečné pro organizmy 1. Zvyšují evoluční potenciál organizmu - souvisí se vznikem eukaryot, v pozadí adaptivní radiace eukaryot - nenáhodná distribuce, oddělují funkční domény proteinů - snižuje pravděpodobnost rekombinace v exonech (doménách) - stavebnicový charakter genů urychluje evoluci nových proteinů 2. Souvisí s existencí histonů - oblasti v kontaktu s histony nepřístupné - introny zpřístupňují regulační oblasti 3. Snižují riziko nelegitimní rekombinace - paralogy a riziko nelegitimní rekombinace - včlenění intronů do různých míst diferencuje geny, snižuje riziko NR LTR retrotransposon Non-LTR retrotransposon Inverted repeats Direct repeats Exons Introns Geny na chromosomu Y degenerují, mají delší introny Marais et al (CurrBiol 2008)