Fylogenetická evoluční analýza Fylogeneze • Vývoj nových druhů procesem evoluce Fylogenetika • Věda zkoumající fylogenezi, příbuzenské vztahy a vývoj organismů Fylogenetická analýza • Tvorba fylogenetického stromu popisujícího evoluční vztahy mezi organismy Fylogeneze Fylogenetická data Fylogenetická data jsou získávána zkoumáním charakteristických znaků studovaných organismů ^ > Morfologické znaky (tvar) V • Mnoho přechodových forem • Fosilní pozůstatky můžou být nekvalitní, neposkytují požadovná data nebo se vůbec nedochovaly potřebné informace >Sekvence nukleotidů nebo aminokyselin • Stejná sada znaků u všech organismů -> lze porovnat i velmi vzdálené životní formy Molekulární fylogenetická data • DNA sekvence (nejčastěji) • Obsahuje více informací (tiché mutace, kódující vs. nekódující oblasti) • Pro velmi blízce příbuzné sekvence u savců je vhodná mitochondriální DNA • Sekvence proteinu • Pro vzdáleně příbuzné organismy • Sekvence proteinů se zachovává během evoluce déle než sekvence DNA 5 Molekulární fylogenetická data • Jediný experiment může poskytnout informace o mnoha znacích. Každá nukleotidová AAGACGGCACCGACAACGACTACAACGACGCCGTCGTGGTGATCAACTGGCCGCTCGGCT pOZÍCe V Sekvencí tTlUŽe AGGATGGTACCGACATGGACTACAACGACTCCATCGTCATCCTGAACTGGCCGCTGGGCT být pOVaŽOVáľia Za GGGACGGCAACGGC-TGGAC — CAAGGGCGCCTACACCGCCACGAACTGA---------- jeden ZNAK, který Se ACGACGTGCCCGGAACCTATGGCAATAACTCCGGC-TCGTTCAGTGTCAATATTGGAAAG Vyskytuje Ve ČTYŘECH rozdílných STAVECH. • Jednotlivé stavy jsou jednoznačné a nezaměnitelné (A x C x G x T). Na rozdíl od morfologických znaků (tvar), u nichž existuje mnoho přechodových forem. • Molekulární data se dají snadno převést do „číselné" formy. Vhodné pro matematické a statistické analýzy. Proteinové sekvence x DNA sekvence * Pro fylogenetickou analýzu využívány PŘEVÁŽNĚ DNA sekvence. DNA poskytuje mnohem více fylogenetických informací než protein. .O,-Ab- Ih -Leu .A^p-Arg. Tjché mutace -GGAGCCATATTAGATAGA- GGAGCAATTTTTGATAGA Variabilita uspořádání genomu j-1 j " j w | " | " \ 1 (kódující x nekódují oblasti) PCR, automatické sekvencování Gly-Ala - lle - Phe- A$p -Arg- velmi informativní pro selekci synonymních a nesynonymních mutací pro identifikaci pozitivní (adaptabilní) či negativní selekce. Proteinové sekvence x DNA sekvence • ALE, mnoho případů, kdy je lépe pracovat s proteinovými sekvencemi: • pro studium velmi odlišných (vzdálených) skupin organismů (buď pomalu vyvíjející nt sekvence (rRNA) nebo PROTEINOVÉ sekvence (např. mezi bakteriemi a eukaryonty). • DNA sekvence mohou být „biased" - preferential codon usage • odlišný kód mitochondriální DNA (nutnost přeložení do AA sekvencí) • vyšší poměr "signal-to-noise" ve fylogenetické analýze (menší pravděpodobnost nesprávného/náhodného přiložení) Fylogenetický strom (fylogram) > Terminálni (externí) uzly (A, B, C, D) - současné taxony (geny) > Interní uzly (E, F) - společný předek > Větve (1, 2, 3, 4, 5) • Vnitřní větve (3) • Periferní větve (1, 2, 4, 5) • Délky větví jsou úměrné velikosti změny v průběhu evoluce Typy fylogenetických stromů BEZ KOŘENE > Není známý společný předek > Neobsahuje informace o průběhu evoluce S KOŘENEM > Kořen - společný předchůdce všech taxonů > Obsahuje informace o průběhu evoluce Bacteria Archaea Eucaryota Spirochetes Proteobacterá Cyancbacteria fítnctomyces Anmals Fi ■ p.ii Fkgelbtes Trchomonads Mcrosporidia Diplcmcnads wikipedia.org 10 Fylogenetický strom (fylogram) Vlastnosti fylogenetického stromu • Topologie - způsob, jak se strom větví, určení vztahu mezi studovanými sekvencemi (topologie je známá pro každý vytvořený strom, různé typy zápisu, např. ((A,(C,D)),B)); nebo ((A:0.5,(C:0.2,D:0.4):0.7):0.1,B:1):0.8; • Délka větve - lineární kombinace mutační rychlosti a casu • Délka větve fylogenetického stromu má biologický význam (Delší větev -buď se vyvíjela nezávisle delší dobu (vnitrní vetve) nebo na ni v čase mezi divergencemi (uzly) působila vyšší mutační rychlost (např. vlivem selekce či následkem změn v populační dynamice) • Délka stromu (tree length) - součet délek všech větví • Délka od kořene ke špičce (root-to-tip length) - nejdelší vzdálenost od kořene k terminálnímu uzlu Typy fylogenetických stromů FYLOGRAM > rozvětvený diagram (strom), který naznačuje fylogenezi (postupný vývoj) > délka jednotlivých větví je úměrná velikosti změny v průběhu evoluce KLADOGRAM > všechny větve mají stejnou délku > ukazuje společné předky, ale ne množství změn, které od té doby taxony prodělaly monofyletická skupina - zahrnuje VŠECHNY větve (potomky) a jejich nejmladšího předka parafyletická skupina skupina - nezahrnuje VŠECHNY větve od společného předka Typy fylogenetických stromů GENOVÝ > Srovnání genů > Vnitřní uzly představují rozdělení původního genu (mutace) Mutace předchází separaci. Mutation Mutatioo DRUHOVY > Srovnání morfologických dat > Vnitřní uzly představují rozdělení původního druhu (separace) 15 „Genový" strom x „druhový strom" Mutace a vznik nového druhu se s největší pravděpodobností neodehrají současně. Mutace předchází separaci - v populaci se nacházejí obě alely genu Po rozdělení populací může dojít ke ztrátě jedné alely. TIME Konstrukce fylogenetických stromů Alignment ortologních sekvencí > Homologní geny • Geny odvozené od společného předka * Ortologní x Paralogní geny (Nový gen vznikl speciací x duplikací) Určení vzdáleností mezi sekvencemi > Metody: Distanční metody, UPGMA (Unweighted Pair Group Method), Metoda nejmenších čtverců, Metoda minimální evoluce, Neighbor-Joining, Maximální parsimonie, Maximální věrohodnost Zobrazení fylogenetických stromů -A i-D —C B o < A D C ■B • Fylogram - zobrazuje topologii a délky větví, čte se od kořene ke spickam • Fylogram ve vějířovém zobrazení (využívá se pro velké stromy), čte se od středu k okraji • Kladogram-zobrazuje jenom topologii, zobrazené délky větví jsou jen uživatelská volba bez biologického významu Tvorba evolučních stromů • „Alignmenť sekvencí - nezbytný pro vytvoření stromu. Vyhodnocení rozdílů mezi jednotlivými nukletidovými sekvencemi, většinou „multiple alignmenť. BclA C^TCAACGG^GAAGTCSaACSSCTC&CCGTICACSSTCAACTICSSGAICGTCGTGT 325 BclB CGA-CATCTTCAAGAAGAC---------------------CIACITCGGGCIGGTCGGAT 670 BclD CGCTGAGCGCGGGCGATACCG-------------------TGTGGCTGGGCTGGCTGGGC 804 BclC GGA-TATTTTTAAAAAATC---------------------TTATTTCGGTAITATTGGCT 754 * * * * ** * * BclA -CGGAAGACGGCCACGACAGCGACTACAACGACGGCATCGTCGTGCTCCAGTGGCCGATC 384 BclB ^GGAAGATGGCGGCGATGGCGACTACAACGACGGCATCGCGATCCTGAACTGGCCGCTG 729 Ec1ľ GCGGAAGATGGTGCCGATGCGGATTATAATGATGGCATTGTTATTCIGCAGTGGCCGATT 864 BclC -CTGAAGATGGTGCGGATGATGATTATAACGATGGCATCGTGTTTCTGAACTGGCCGCTG 813 * ***** ** ** ** ** ** ** ***** * * ** * ****** * 70 Guide tree vs. Phylogenetic tree Guide tree • Vypočítán na základě matice vzdáleností (distance matrix) vytvořené podle skóre pairwise alignmentů • Výstupem je .dnd soubor • Slouží pro vytvoření alignmentů, NEMÁ fylogenetický význam Phylogenetic tree • Vypočítán na základě vytvořeného MSA • Vzdálenosti mezi sekvencemi jsou vypočteny a uloženy jako .ph soubor • Následně je možno je využít pro konstrukci fylogenetického stromu (soubory .nj, .ph, .dst) pomocí zvolené metody (nj, phylip, dist) .nj soubor .dst soubor DIST = percentage divergence (/100) Length = number of sites used in comparison lvs. 2 DIST = 0.6491 length = 114 lvs. 3 DIST = 0.6842 length = 114 lvs. 4 DIST = 0.9298 length = 114 lvs. 5 DIST = 0.9035 length = 114 lvs. 6 DIST = 0.9386 length = 114 lvs. 7 DIST = 0.9825 length = 114 ^^*2vs. 3 DIST = 0.3772 length = 114 2vsT 4 DI3T- tj.yizy "length = 114 2 vs. 5 DIST = 0.8947 length = 114 2 vs. 6 DIST = 0.9123 length = 114 2 vs. 7 DIST = 0.9386 length = 114 3 vs. 4 DIST = 0.9123 length = 114 3 vs. 5 DIST = 0.9386 length = 114 3 vs. 6 DIST = 0.9298 length = 114 3 vs. 7 DIST = 0.9474 length = 114 4 vs. 5 DIST = 0.9211 length = 114 4 vs. 6 DIST = 0.9035 length = 114 4 vs. 7 DIST = 0.9649 length = 114 5 vs. 6 DIST = 0.9561 length = 114 5 vs. 7 DIST = 0.9211 length = 114 6 vs. 7 DIST = 0.9649 length = 114 Neighbor-joining Method Saitou, N. and Nei, M. (1987) The Neighbor-joining Method: A New Method for Reconstructing Phylogenetic Trees. Mol. Biol. Evol., 4(4), 406-425 This is an UNROOTED tree Numbers in parentheses are branch lengths Cycle 1 Cycle 2 Cycle 3 Cycle 4 SEQ: SEQ: SEQ: SEQ: 2( 0.17807) joins SEQ: 1( 0.34101) joins Node: 5( 0.44298) joins SEQ: 4( 0.44518) joins SEQ: 0.19912) ( 0.13706) 0.47807) 0.45833) Cycle 5 (Last cycle, trichotomy): Node Node Node 1( 0.12171) joins 4 ( 0.01864) joins 5 ( 0.02083) 7 PAUL 0.000 0.649 0.684 0.930 0.904 0.939 0.982 RSI IL 0.649 0.000 0.377 0.912 0.895 0.912 0.939 CVIIL 0.68 we can start with AB or CD, result will be the same ■- B dAu = [dab+ (r^-r^)]/2=[0.4+(0.67 5- 0.775)]/2 = 0.15 dBU = [dAB+ (r'B-rÁ)]/2 = [0.4+(0.775 -0.675)]/2=0.25 0.15 0.25 Jak převést „multiple alignment" na strom? Neighbor-joining methods'119' matrix A B C B 0.40 C 0.35 0.45 D 0.60 0.70 0.55 reduction of matrix: dcu = [ (<3ac — cIua) + (dsc dou = t ( X) * Wagnerova parsimonie (reverzibilita změn) * Dollova parsimonie (povoluje znaku vzniknout jen jednou, paralelní a konvergentní získáni znaku není povolené) * Caminova-Sokalova parsimonie (změny ireverzibilní) * Vážená parsimonie (ne všechny znaky jsou stejně informativní) * Generalizovaná parsimonie (zobecnění uvedených typů, přirazení „costs" všem možným typům změn) Jak převést „multiple alignment" na strom? Character-based methods - diskrétní metody • Metody maximální věrohodnosti - maximum likelihood method. • Maximalizuje věrohodnostní funkci (likelihood function) • Nalezne hodnoty parametrů funkce, které nejlépe vysvětlují data -pravděpodobnost, že budeme pozorovat vstupní data při daném stromu a modelu s danými parametry je nejvyšší dosažená • Ve fylogenetické rekonstrukci věrohodnostní funkce počítá pravděpodobnost konkrétní evoluční historie (strom) při konkrétním nastavení substitučního modelu, resp. posuzují se jednotlivé hypotézy o evoluční historii zkoumaných taxonů z hlediska pravděpodobnosti, že jsou v souladu se získanými daty, výsledek - maximálně pravděpodobný odhad • Tři součásti - vstupní data, evoluční model, fylogenetický strom s topologií i délkou větví Algoritmy ML • Heuristiky-zkracují čas analýzy tím, že prohledávají jenom část vytvořených stromů • Modifikují počáteční strom a hodnotí, nakolik změna ovlivnila věrohodnost stromu • Stochastický proces • Výměna nejbližšího souseda - nearest neighbour interchange (NNI) • Vyřezání a přesunutí podstromu - subtree pruning and regrafting (SPR) • Rozdělení a spojení stromu - tree bisection and reconnection (TBR) • Přijímají vylepšení původního stromu • Lezení do kopce - hill climbing (vylepšování věrohodnosti) • obdobně jako u modelování - může se dostat do lokálního optima • Je potřeba pustit analýzu vícekrát s různými počátečními náhodnými čísly a zkontrolovat, zda se výsledné stromy liší (obdoba Monte Carlo přístupu) Jak převést „multiple alignment" na strom? Character-based methods - diskrétní metody • Bavesian inference (Bavesovská statistika) • Výpočet pravděpodobnosti na základě specifikovaného modelu a na základě toho, co jsme o charakteru dat zjistili • Základ - strom s danou topologií a délkami větví, model nukleotidových substitucí a rozložení substitučních frekvencí mezi jednotlivými nukleotidy • Princip přístupu jako u ML • VÝHODY - menší časová náročnost, strom zohledňující fylogenetický signál v datasetu, možnost použít i pro smíšený dataset • Různé substituční modely (modely evoluce sekvencí) Jukes - Cantor model (JC) p,= . a a a a a a a a a a a a . f s illlll * I 4 4 4 4 I nejjednodušší model, stejné pravděpodobnost záměny jakéhokoli nukleotidu v jiný Kimura's 2-parameter model (K2P) (J) ^ —* (J) Transitions Transversions Transitions .pap p . P a a p . p Pap-. zohledňuje pravděpodobnost záměny v rámci purinvých/anebo pyrimidinových bází: tranzice 1, transverze 2 Felsenstein 1981;s model (F81) Některé typy substitucí můžou být častější než jiné proto, že jsou ve zkoumaných sekvencích početnejší. Tento model uvažuje nestejné frekvence pro všechny 4 nukleotidy P| = Kca nGa KjV. nAa . »xGa jt , c- jcAa 7tca 7iTa L7tAa nca nQa f = [icA nc nG Kj] 7i je průměrná frekvence báze i v porovnávaných sekvencích General time-reversible model (GTR) Nejobecnějsi model, všech 6 typů substituci má rozdílnou frekvenci lícCl KGb p, = nAc iccť nj f = [7CA KQ KQ KT] Pro vysvětlení Bayesovského teorému • dopuručuji shlédnout pěkné video: https://www.youtube.com/watch?v=5NMxiOGL39M Software pro fylogenetickou analýzu • T-Rex (Tree and reticulogram REConstruction) - is dedicated to the reconstruction of phylogenetic trees, reticulation networks and to the inference of horizontal gene transfer (HGT) events. T-REX includes several popular bioinformatics applications such as MUSCLE, MAFFT, Neighbor Joining, NINJA, BioNJ, PhyML, RAxML, random phylogenetic tree generator and some well-known sequence-to-distance transformation models. It also comprises fast and effective methods for inferring phylogenetic trees from complete and incomplete distance matrices as well as for reconstructing reticulograms and HGT networks (Reference: Alix, C. et al. 2012. Nucl. Acids Res. 40 (W1): W573-W579). • Phyloqeny.fr - is a simple to use web service dedicated to reconstructing and analysing phylogenetic relationships between molecular sequences.lt includes multiple alignment (MUSCLE, T-Coffee, ClustalW, ProbCons), phylogeny (PhyML, MrBayes, TNT, BioNJ), tree viewer (Drawgram, Drawtree, ATV) and utility programs (e.g. Gblocks to eliminate poorly aligned positions and divergent regions) (Reference: A. Dereeper et al,. 2008. Nucl. Acids Res. 36 (Web Server lssue):W465-9). Also available here. • FastME provides distance algorithms to infer phylogenies. FastME is based on balanced minimum evolution, which is the very principle of NJ. FastME improves over NJ by performing topological moves using fast, sophisticated algorithms. The first version of FastME only included Nearest Neighbor Interchange (NNI). The new 2.0 version also includes Subtree Pruning and Regrafting (SPR), while remaining as fast as NJ and providing a number of facilities: distance estimation for DNA and proteins with various models and options, bootstrapping, and parallel computations. (Reference: Lefort V. et al. Molecular Biology & Evolution 32(10): 2798-800, 2015). • PhyML - has been widely used because of its simplicity and a fair compromise between accuracy and speed. In the meantime research on PhyML has continued, and new algorithms and methods have been implemented in the program. (Reference: V. Lefort et al. Molecular Biology and Evolution, msx149, 2017). • RAxML (Randomized Axelerated Maximum Likelihood) is a program for sequential and parallel Maximum Likelihood based inference of large phylogenetic trees (Reference: Stamatakis, A. 2006. Bioinformatics 22:2688-2690). • ProtTest (David Posada, University of Vigo, Spain) - estimates the empirical model of aminoacid substitution that fits the data best among 64 candidate models. PROTTEST calculates AIC, AlCc and BIC values, and obtain a rank of model fits, model-averaged parameter estimates, or measures of parameter importance. Mac OSX, Windows and Linux versions are available for downloading. • Phylemon2 - a suite of web-tools for molecular evolution, phylogenetics and phylogenomics (Reference:Sanchez, R. et al. 2011.Nucl. Acids Res. 39/suppl_2/W470) • POWER (PhylOgenetic Web Repeater) - allows users to carry out phylogenetic analysis on most programs of PHYLIP package repeatedly. POWER provide two pipelines to process the analysis. One of them includes multiple sequence alignment (MSA) at the beginning of the pipeline whereas the other begin phylogenetic analysis with aligned sequence. Very user friendly. (Reference: C.-Y. Lin. et al. 2005. Nucl. Acids Res. 33: W553-W556). • Phylodendron - phylogenetic tree printer (D.G. Gilbert, Indiana Univ.) - very useful in visualizing *.dnd file from aligments and saving the results as .GIF, .PS or .PDF files. N.B. The font style and size can be altered in the .PDF output format. • Phylogenetic tree prediction - GeneBee service (Belozersky Institute of Physico-chemical Biology, Moscow State University, Russia) Software pro fylogenetickou analýzu • IQ-TREE http://www.iqtree.org • maximum likelihood • Implementované všechny substituční modely, podporu uzlu počítá nejen pomocí • bootstrapové analýzy Software pro fylogenetickou analýzu PHYLIP PHYLIP (the PHl'Logeny /nference Package) is a package of programs for inferring phylogenies (evolutionary trees). It is available free over the Internet, and written to work on as many different kinds of computer systems as possible. The source code is distributed (in C): and executables are also distributed. In particular, already-compiled executables are available for Windows (95 98 NT 2000 me xp Vista), Mac OS X, Mac OS 8 and 9, and Linux systems. Complete documentation is available on documentation files that come with the package. • PHYLIP - PHYLogeny /nference Package http://evolution.genetics.washington.edu/phylip.html Software pro fylogenetickou analýzu iflü n ■ n Iiiiiiii1! grj^ *c* DA MBE III Ted i e- le MVS* % Phylogeny Programs á -v. ff Phylojtny http://evolution.genetics.washington.edu/phylip.html Software pro fylogenetickou analýzu Phylogenetic Analysis by Maximum Likelihood (PAML) Introduction PAML is a package of programs for phylogenetic analyses of DNA or protein sequences using maximum likelihood. It is maintained and distributed for academic in fi ' if i ll II ]_'. I * ~iln i if "i" ijjji 'il "~T C source codes are distributed for UNIX Linux Mac OSX, and executables are pro\idedfor MS ^'indows. PANEL is not good for tree making. It may be^sed to estimate parameters and test hypotheses to study the evolutionary process, when you have reconstructed trees using ^Ttrr-rr-wnm5 ilirh n3 VW~V*^Wf\ TP MOLPHY, PhyML, RaxML, etc. http://abacus.gene.ucl.ac.uk/software/paml.html ...... ■ ■ ■ ■ ■ a http://macclade.org/index.html MacClade