FYLOGEOGRAFIE A KOALESCENCE 6579 Koalescence Osud jednotlivých kopií genů v populaci ® genové stromy Genetree LF1ca4e9_Kopie_Paroubek_03a d6aa2ff3-f2e2-4053-80b1-6293c3dd033.jpg Chimp with Cracker image by Gypsy48 File:Male silverback Gorilla.JPG Species trees vs. gene trees: gen A LF1ca4e9_Kopie_Paroubek_03a d6aa2ff3-f2e2-4053-80b1-6293c3dd033.jpg Chimp with Cracker image by Gypsy48 File:Male silverback Gorilla.JPG Species trees vs. gene trees: gen B Poly1 Fylogenetické vztahy 2 dceřinných populací mtDNA: polyfylie parafylie reciproční monofylie Ancestrální polymorfismus a sortování linií bariéra polyfylie Ancestrální polymorfismus a sortování linií parafyletická fáze Ancestrální polymorfismus a sortování linií reciproční monofylie druh A druh B Ancestrální polymorfismus a sortování linií druh A druh B • Problém: „incomplete lineage sorting“ je většinou obtížné odlišit od důsledků toku genů nekompletní sortování linií recentní tok genů Wrightův-Fisherův model (drift): • konstantní velikost populace o N jedincích • náhodné párování • počet potomků jednotlivých jedinců náhodný (Poissonovo rozdělení) • Hardyho-Weinbergova rovnováha • nepřekrývající se generace • každý jedinec současně samec i samice • možné i samooplození • gen selektivně neutrální • populace není geograficky strukturovaná Koalescence1 Koalescence2 Koalescence3 koalescence MRCA vzorku most recent common ancestor Kingmanova koalescence: • vzorek k genových kopií z celkového počtu N (uvažujeme haploidní stav) • pravděpodobnost, že 2 kopie pocházejí ze stejného předka v předchozí generaci je rovna 1/N • geometrické rozdělení – aproximace exponenciálním rozdělením Analogie procesu koalescence: příklad švábů v krabici pravděpodobnost srážky = k(k – 1)/4N (/2N v případě haploidie) • zajímá nás pouze genealogie kopií, které zanechaly potomky do současnosti [JFC Kingman in 2002] Sir John F.C. Kingman Koalescence3 Koalescence5 • čím menší počet zbývajících kopií, tím se proces koalescence zpomaluje (pro velká k ~ 4N, pro 2 kopie ~ 2N) • splynutí posledních n kopií zabere (1 – 1/n)/(1 – 1/k) Þ prvních 90% kopií splyne během 9% celkového času, zbývajících 91% času se čeká na splynutí posledních 10 kopií! • jestliže 100 linií, pravděpodobnost, že 101. linie přidá hlubší kořen je pouze 0,02% Þ přidání další genové kopie pravděpodobně nepovede k hlubší (starší) koalescenci Kingmanova koalescence: Koal_Simtree2 Koal_simtree přidání dalších sekvencí pravděpodobně nepovede k hlubší koalescenci ... s klesajícím počtem volných kopií se proces zpomaluje ... Koalescence5 50 genových kopií, 10 náhodně vybraných: v tomto případě 10 kopií stačí k nalezení nejhlubšího kořene koalescenčního stromu Koalescence je ovlivněna různými faktory, např.: • mutací • rekombinací • selekcí • změnami velikosti populace Þ koalescenční teorii lze použít k odhadu těchto parametrů Selekce_tree neutrální recentní balancující selective sweep Vliv selekce na tvar koalescenčního stromu pozitivní selekce vede ke dřívější koalescenci balancující selekce vede k pozdější koalescenci Vliv změn velikosti populace na tvar koalescenčního stromu rostoucí populace: koalescence se postupně zpomalují zmenšující se populace: koalescence se postupně zrychlují Genové vs. druhové stromy ještě jednou: •dlouhé intervaly mezi speciačními událostmi ® genové a druhové stromy stejné •krátké intervaly mezi speciačními událostmi ® genové stromy mohou být jiné než druhové •protože odhadujeme divergenci mezi sekvencemi a ne mezi druhy, jsou naše odhady nutně nadhodnocené •nesrovnalosti mezi genovými a druhovými stromy lze minimalizovat použitím markerů s nízkou Ne, např. mtDNA nebo chromozom Y Fylogeografie John C. Avise • studuje principy a procesy ovlivňující geografické rozložení genealogických linií • svým způsobem propojuje mikroevoluční procesy (populační genetika) s makroevolucí (fylogeneze) • většinou vnitrodruhové studie nebo blízce příbuzné druhy Phylogeography: The History and Formation of Species macMST Mus macedonicus Mustela erminea mouse • Minimum Spanning Tree (MST) • Mimum Spanning Network (MSN) • Median-joining network Recentní expanze: • rychlé rozšíření jednoho haplotypu • akumulace malého počtu mutací • hvězdicová struktura Změny velikosti populace • Tajimův test (Tajima’s D) • rozdělení párových rozdílů (mismatch distribution) • koalescence, ML nebo BA, MCMC • Bayesian Skyline Plots 1. Tajimův test (Tajima’s D) • založený na porovnání haplotypové diverzity a nukleotidové diverzity • primárně jde o test selektivní neutrality, ale může indikovat i růst populace nebo bottleneck • silně záporné hodnoty indikují populační expanzi – převládá „mladý“ polymorfismus, kdy se vytvořily nové haplotypy, ale nukleotidová diverzita je stále nízká • programy Arlequin, DnaSP • podobně Fu’s test 2. Mismatch distribution • párová srovnání všech sekvencí ® histogram Divergence (%) Divergence (%) Divergence (%) Sekvence navzájem velmi podobné Sekvence navzájem velmi odlišné Směs podobných a odlišných sekvencí párové rozdíly rostoucí stabilní • test shody skutečného rozdělení s teoretickou predikcí: • Harpending’s raggedness index (Harpending 1994) • sum of squared deviations • doba expanze/bottlenecku: t = 1/2u, kde u je mutační frekvence pro celou sekvenci • můžeme odhadnout i velikost populace před a po expanzi Mismatch Fig2 3. ML a bayesiánské odhady • MCMC • srovnání modelu stabilní velikosti a modelu exponenciálního růstu/redukce populace pomocí LRT s 1 stupněm volnosti • program Fluctuate: • parametr růstu g • ML i BA přístup 4. Bayesian Skyline Plot (BSP) LTT LTT stabilní populace exponenciálně rostoucí populace • rozložení genealogických linií v čase • BSP vychází z tohoto postupu • programy BEAST a Tracer 4. Bayesian Skyline Plot (BSP) kat_I Možné výsledky fylogeografických studií (Avise 2000) •Kategorie I: •zřetelně odděleníé alopatrické linie •bariéry toku genů nebo nízká disperze •rozdíly díky sortování linií nebo akumulaci nových mutací Apteryx australis Image1 (3) Kiwi2 kat_II •Kategorie II: •sympatrické, ale jasně hluboce oddělené linie Þ •sekundární kontakt dříve oddělených populací •Kategorie III: •alopatrické, málo oddělené linie •blízce příbuzné ale geograficky lokalizované haplotypy •populace v nedávném historickém kontaktu •ale: tok genů dostatečně nízký → drift a „lineage sorting“ → divergence populací •často: –na větší škále Kategorie I –na menší škále Kategorie III • • • • př.: Geomys pinetis •Kategorie IV: •sympatrické, málo oddělené linie •silný tok genů •absence geografických bariér nebo •recentní expanze Anguilla rostrata Náhodná disperze larev Panmiktické agregace během tření •Kategorie V: •kombinace III a IV •málo oddělené linie •některé linie značně rozšířeny (zřejmě ancestrální), jiné (nové) geograficky omezeny •jako vhodné znaky je nutné vybrat privátní haplotypy • Genetické důsledky ledových dob Chorthippus parallelus Chorthippus_parallelus_F •Refugia (iberské, apeninské, balkánské) • •V refugiích malé populace relativně dlouhou dobu • •Linneage sorting (případně mutace) • •Následné šíření → vnitrodruhové hybridní zóny • •Ale některé druhy měly i severská refugia! Genealogické konkordance Ryby JV USA rybystrom rybymap Genealogické konkordance (shody na různých úrovních) •Různé části sekvence genu • •Více sekvencí (genů) od stejného druhu • •Více druhů ve stejné oblasti • •Podpora biogeografických oblastí (více druhů, více oblastí) concj b a1 a2 c1 c2 A A B A C a b c a a b c c a2 a1 b c1 c2 B A C disperze vikariance a1 a2 b1 b2 c A A B B C a a b a1,a2 B A C b1,b2 c geografická struktura v: mtDNA ANO autozomy ano chr. Y ano demografická autonomie ANO geografická struktura v: mtDNA NE autozomy ano chr. Y *** demografická autonomie *** geografická struktura v: mtDNA (u samic) ANO autozomy ne chr. Y ne demografická autonomie ANO geografická struktura v: mtDNA NE autozomy ne chr. Y ne demografická autonomie NE Vztah mezi genetickou strukturou populace, pohlavně-specifickou disperzí a režimy toku genů (Avise 2000) samičí disperze a tok genů nízké --------------------------------à vysoké Nested Clade Analysis (NCA) Alan R. Templeton • clade distance (Dc): měří, jak daleko se klad rozšířil • nested clade dist. (Dn): měří, do jaké míry změnil klad svoji polohu ve vztahu ke kladu, ze kterého vzniknul Nested Clade Analysis (NCA) Ambystoma tigrinum • programy GeoDis, TCS lokální procesy → zdánlivé expanze… Nested Clade Analysis (NCA) Problémy: • absence evolučního modelu • simulace: vysoké procento „false positives“ (>75%; Petit 2008) markery: • mtDNA • Y • mikrosatelity Control region ?Malá (15-20 kb), kruhová molekula ? ?Bez intronů ? ?Minimum nekódujících oblastí ? ?Dědí se jen po jednom rodiči (po matce) ? ?Nerekombinuje ? ?V buňce jen jeden typ v mnoha kopiích ? ?Neutralita (různé varianty v populaci mají stejnou fitness) Proč je mtDNA výhodná? ... a proč ty otazníky? Problémy pro populační genetiku: •Neutralita • •Mezidruhový přenos • •Nukleární pseudogeny • •Biparentální dědičnost • •Rekombinace • • Neutralita? • vliv variant mtDNA na fitness (experimentální důkazy): - myš (Mus) - octomilka (Drosophila) - člověk • Mezidruhový přenos: • zajíci ve Španělsku: - existence mtDNA Lepus timidus u druhů L. granatensis, L. castroviejoi a L. europaeus - L. timidus však vymizel na konci posledního glaciálu - několikanásobný přenos různých mtDNA linií - „mtDNA capture“ • Jaderné pseudogeny mitochondriálního původu = NUMT (Nuclear Mitochondrial DNA) • kopie segmentů mtDNA integrované do jaderné DNA • ztráta funkce • molekulární fosilie • podobnost s původní sekvencí ® riziko amplifikace namísto mtDNA Þ problém!! • výskyt různý u různých skupin i u různých druhů téže skupiny • např. u 7 druhů kočkovitých šelem: numt > 12,5 kb • člověk: 27 numt v linii po oddělení od společného předka se šimpanzem • Jak odhalit numt? - ultracentrifugace - použití tkání s velkým množstvím mitochondrií (např. svaly) - long-range PCR - RT-PCR - elektronická PCR (u druhů se známým genomem) • Rekombinace mtDNA • nutné podmínky: - biparentální dědičnost - fúze mitochondrií - existence proteinového aparátu pro rekombinaci: existuje i u člověka • biparentální dědičnost: - navzdory mýtům, mitochondrie otce obvykle přeneseny do zygoty – tam jsou označeny a následně zlikvidovány (u savců značení provádí jaderné geny otce) - u někt. druhů „paternal leakage“: Mus, Drosophila, Parus, Homo Zbývá zodpovědět: •Frekvence biparentální dědičnosti • •Frekvence rekombinací • •Jen somatické tkáně? • •Dědičnost rekombinantních molekul • •Rekombinace s nukleárními pseudogeny? • •Mechanismus biparentální dědičnosti a rekombinace • •Výjimečné události u živočichů? •