Fylogenetická evoluční analýza Fylogeneze = vývoj druhu (vývoj nových druhů) procesem evoluce. Fylogenetika = věda zkoumající fylogenezi, příbuzenské vztahy a vývoj organismů. Evoluce bioinformatika 24/04/17 Fylogeneze 1 Modern spedes 1 t 1 1 1 1 í i Í 1 1 1 1 \ 1 4 Fylogeneze yyyyv v v nezahrnuje pouze y i y i y t y podobnosti a rozdíly U W w W mezi organismy Y Y Y Y (taxonomie)... Vy V J TIME Y ...ale také jejich 1 evoluční vztahy. AncMtsr Fylogenetická data • Fylogenetická data jsou získávána zkoumáním charakteristických znaků studovaných organismů. Prvotně používány MORFOLOGICKÉ znaky. Problém - fosilní pozůstatky většinou NEKVALITNÍ, neposkytují žádané informace nebo se VŮBEC nedochovají. 2 Molekulární fylogenetická data Jediný experiment může poskytnout informace o mnoha znacích. Každá nukleotidová AAGACGGCACCGACAACGACTACAACGACGCCGTCGTGGTGATCAACTGGCCGCTCGGCT pOZÍCe V SekveľlCÍ mUZe AGGATGGTACCGACATGGACTACAACGACTCCATCGTCATCCTGAACTGGCCGCTGGGCT být pOVaŽOvána Za GGGACGGCAACGGC-TGGAC—CAAGGGCGCCTACACCGCCACGAACTGA---------- jeden ZNAK, který Se ACGACGTGCCCGGAACCTATGGCAATAACTCCGGC-TCGTTCAGTGTCAATATTGGAAAG vyskytuje Ve ČTYŘECH rozdílných STAVECH. Jednotlivé stavy jsou jednoznačné a nezaměnitelné (A x C x G x T). Na rozdíl od morfologických znaků (tvar), u nichž existuje mnoho přechodových forem. Molekulární data se dají snadno převést do „Číselné" formy. Vhodné pro matematické a statistické analýzy. Proteinové sekvence x DNA sekvence Pro fylogenetickou analýzu využívány PŘEVÁŽNĚ DNA sekvence. DNA poskytuje mnohem více fylogenetických informací než protein. •oy-Aia-li*-uu-AspArg- Tiché mutace ggagccatattagataga- Variabilita uspořádání genomu -ggagcáatttttgataga- (kódující x nekódují Oblastí) -Giy.Ab. ik .Phe.a^.Arg- pCR automatické sekvencování Fylogenetický strom Cíl fylogenetické analýzy - fylogenetický strom popisující evoluční vztahy mezi studovanými organismy. Současné taxony (geny) = terminální (externí) uzly, vrcholy Interní uzly = rozdělení společného „předka" Délky větví = úměrné velikosti změny v průběhu evoluce Periferní větve Větve \ Vnitrní vetve / Terminálni ici iiiiiiaiiii (externí) uzly il nadu Interní uzly Fylogenetický strom (strom) Fylogenetický strom —^^^^faniwl Mdu Fylogenetický strom BEZ KOŘENE (unrooted). Není známý nejstarší společný předek (bod). Vypovídá pouze o příbuzenských vztazích mezi geny, ne o „cestě" kterou se evoluce ubírala. Fylogenetický strom S KOŘENEM (rooted). Nutný alespoň jeden gen, který je méně příbuzný s A,B,C,D, než jsou tyto geny mezi sebou navzájem = „outgroup" Fylogenetický strom „Genový" strom x „druhový strom" • Genový strom - odvozen ze srovnání ortologních genů. Předpokládá se, že bude přesnější než strom získaný pomocí morfologických dat. • Genový strom ^ druhový strom. Genový strom - vnitřní uzly představují rozdělení původního GENU (mutace). Druhový strom - vnitřní uzly představují rozdělení populace původního DRUHU do dvou skupin (geografická izolace). 24/04/17 „Genový" strom x „druhový strom" • Mutace a vznik nového druhu se s největší pravděpodobností \ -*-Muwlen neodehrají současně. TIME • Mutace předchází separaci - v populaci se / nacházejí obě alely genu. /Á Po rozdělení populací může V/" \ / dojít ke ztrátě jedné alely. Alíele lOi! „Genový" strom x „druhový strom" A B c 6 24/04/17 Tvorba evolučních stromu „Alignment" sekvencí - nezbytný pro vytvoření Stromu. Vyhodnocení rozdílů mezi jednotlivými nukletidovými sekvencemi, většinou „multiple alignment". BclA CSAICAACSSCAASAASTCS BclB CER.-CAIClICaAGAAGAC- BclD :;:I3 3C3C333C3ÄTACC3- BclC GGA-TATTTTTAAAAAATC---------------------TTATTTCSSTÄTTATTSKľT 754 BclA -C'3CAAGÄCGGCCACEÄIľAGCXa05CÄACGÄÍľGGCAľCGICGľGCTCCÄGTGGCCGÄrC 3B4 BclB -K^GAÄGATGGCGGCGÄTGGCGACTACAÄCGACGGCAICGCGAICCTGAACTGGCCGCTG 729 BclD GCGQUCfcrGGTGCCGÄTGCGGATTAiaÄTGATGGCATTGTTÄTTCTGCAGTGGCCGATT B64 Jak převést „multiple alignment" na strom? • Neexistuje „nejlepší metoda". Několik metod je používáno souběžně, žádnou nelze označit za lepší než ostatní. 7 24/04/17 Jak převést „multiple alignment" na strom? Distanční matice. Slouží k určení délky větví. Multiple alignment I AGGcElAJČlCAT/ÍGkTdŤtc 3c|aJw 2 AGGC|AjkAqAjCAT>lCpTqAJ:C 3 AG G CCAAGACAT AGC TG TCC 4 AG G CAAAGACAT ACC TG TCC 4/20 Distance matrix Jak převést „multiple alignment" na strom? • Neighbor-joining method-„spojování sousedních objektů" (Saitou a Nei 1987). Využívá distanční matici. (A) T ha starting point fer th* Ml^borjolnlng math od (B) Removal of two sequences from the star 8 1 8 \ / 1 ®—®< , 2 3 (a) Í \ 5 (c) 2 2—1 3 V / ®—®-7 -> 5 i >—3 ' 8 V / ®-® /s \ k 7 6 (d) (e) (f) The Neighbor-joining Method: A New Method for Reconstructing Phylogenetic Trees1 Naruya Saitou2 and Masatoshi Nei Jak převést „multiple alignment" na strom? • Neighbor-joining method - „spojování sousedních objektů" (Saitou a Nei 1987). Využívá distanční matrici. + Jednoduché = rychlé + Vhodné pro velké soubory dat + Vhodné pro prvotní analýzu Informace z alignmentu velmi zredukována Poskytuje pouze jeden výsledný strom (unrooted) 24/04/17 Jak převést „multiple alignment" na strom? • Unweighted Pair Group Method with Arithmetic Mean • - Využívá distanční matrici. Ultrametrická metoda, očekává, že všechny terminálni konce jsou stejně vzdálené od počátku (molekulární hodiny) - všecny linie se vyvíjejí stejnou rychlostí... Výsledkem je "rooted" tree Jak převést „multiple alignment" na strom? preciznější metody • Metody maximální úspornosti - maximum parsimony method. Předpokládá (správně???), že evoluce jde nejkratší možnou cestou, tj. správný fylogenetický strom je ten, který požaduje minimum nukleotidových změn, aby bylo dosaženo daného rozdílů mezi sekvencemi. + Preciznější Větší nároky na manipulaci s daty Čím vice sekvencí, tím více topologií stromů je nutné vyzkoušet 5 sekvencí = 15 stromů, 10 sekvencí = 2 027 025 stromů 10 24/04/17 Jak převést „multiple alignment" na strom? • Parsimonie: Fitchova parsimonie Wagnerova parsimonie (reverzibilita změn) Dollova parsimonie („novinka" může zaniknout) Caminova-Sokalova parsimonie (změny ireverzibilní) Vážená parsimonie Generalizovaná parsimonie • Metoda maximální pravděpodobnosti • Metoda minimální evoluce Jak převést „multiple alignment" na strom? preciznější metody • Metoda maximální pravděpodobnosti (maximum likehood) statistická metoda - vyhodnocuje pravděpodobnost pro jednotlivé modely- (více mutací v interních větvích snižují pravděpodobnost navrhovaného modelu - podobná maximum parsimony method (např. umožňuje odlišné rychlosti evoluce) • Bayesian inference založena na Monte Carlo metodě 11 24/04/17 Software pro fylogenetickou analýzu • BioNJ (Neighbor-joining method) • PAUP - Phylogenetic Analysis Using Parsimony http://paup.csit.fsu.edu/index.html Software pro fylogenetickou analýzu PHYLIP PHYLIP (the PHTLogeay /nference Package) is a package of programs for inferring phylogenies (evolutionary trees). It is available free over the Internet, and written to work on as many different kinds of computer systems as possible. The source code is distributed (in C), and executables are also distributed. In particular, already-compiled executables are available for Windows (95 '98/NT '2000 me/xp/VistaX Mac OS X: Mac OS 8 and 9: and Linux systems. Complete documentation is available on documentation files that come with the package. • PHYLIP - PHYLogeny /nference Package Methods that are available in the packagsinchide parsimony, distance matrix, and likelihood methods http://evolution.genetics.washington.edu/phylip.html 12 Software pro fylogenetickou analýzu Phylogenetic Analysis by Maximum Likelihood (PAML) Introduction PAML is a package of programs for phylogenetic analyses of DNA or protein sequences using maximum likelihood It is maintained and distributed for academic mi fiai ifi 1l~TTTT~ti Hhcag"3ClfcANSI C source codes are distributed for UNIX Linux Mac OSX, and executables are provided for MS Windows. PAML is not good for tree making. It may be^sed to estimate parameters and test hypotheses to study the evolutionary process, when you have reconstructed trees using ^"~-r"muni ilirll mPf1"1"-"'^ IP MOLPHY, PhyML, RaxML, etc. http://abacus.gene.ucl.ac.uk/software/paml.html : : : : : : http://macclade.org/index.html MacClade Software pro fylogenetickou analýzu Portal pro ML a Bl • Maximum likelihood tree (PhyML, R Ax ML) • Bayesian tree (Mr.Bayes, BEAST). https://www.phylo.org/portal2/loginlinput.action TCIPRES SCIENCE GATEWAY CI PRES Home Toolkit Help How to Cite Us Missing results? The CIPRES Science Gateway now offers BEAST2 and PhyloBayes send us the job handle, MPI, along with RAxML, MrBayes and other codes. and we may be able to ■ ■_First Time Users: Please review the XSEDE Primer and our Fair Use Policy._ 24/04/17 Postradiational modifications Phosphorylation -Ser, Thr, Tyr -Control protein activty and structure, as well as protein-protein and protein/nucleic acid interactions -Kinases phosphorylate, phosphatases dephosphorylate -Kinases are major drug targets 14 24/04/17 Glycosylation -Ser, Thr, Asn -regulated by glycosyl transferases -Control protein structure,stability, and trafficking. Regulate protein activity. OH O-glykosylace A/-glykosylace Acetylation -N-terminus, Lysine side chains -Affects chromatin structure and gene expression Carboxylation -most common is Y -carboxy-glutamate -Vitamin K, C02, 02 dependent, ex. Prothrombrin H02C. X02H ^ Ca2+localized blood ^ tnrombrin ^ ^, ..■ „ at membrane clotting Vitamin K dependent process; Warfarin inhibits turnover of Vitamin K by epoxide reductase and prevents clotting 15 24/04/17 Hydroxylation -Pro, Lys -Proline hydroxylation is important in transcriptional control and protein structure. -Hydroxylation and subsequent crosslinking of lysine residues in collagen cause conformational restriction and stabilize the coil-coil structure. OH NH2 HOJ o r h s Thiol oxidation r -AAA/* 2QI_I -caused by reactive oxygen species f -unclear whether this has natural regulatory activity /WW* Sulfatace Prenylace Myristoylace SUMOylace — vfce Vas navede domacf ukol— 16