>gi|5835135|ref|NC_001644.1| Pan paniscus mitochondrion, complete genome GTTTATGTAGCTTACCCCCTTAAAGCAATACACTGAAAATGTTTCGACGGGTTTATATCACCCCATAAAC AAACAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAAGCATCCGTCCCGTGAG TCACCCTCTAAATCACCATGATCAAAAGGAACAAGTATCAAGCACACAGCAATGCAGCTCAAGACGCTTA GCCTAGCCACACCCCCACGGGAGACAGCAGTGATAAACCTTTAGCAATAAACGAAAGTTTAACTAAGCCA TACTAACCTCAGGGTTGGTCAATTTCGTGCTAGCCACCGCGGTCACACGATTAACCCAAGTCAATAGAAA CCGGCGTAAAGAGTGTTTTAGATCACCCCCCCCCCAATAAAGCTAAAATTCACCTGAGTTGTAAAAAACT CCAGCTGATACAAAATAAACTACGAAAGTGGCTTTAACACATCTGAACACACAATAGCTAAGACCCAAAC TGGGATTAGATACCCCACTATGCTTAGCCCTAAACTTCAACAGTTAAATTAACAAAACTGCTCGCCAGAA CACTACGAGCCACAGCTTAAAACTCAAAGGACCTGGCGGTGCTTCATATCCCTCTAGAGGAGCCTGTTCT GTAATCGATAAACCCCGATCAACCTCACCGCCTCTTGCTCAGCCTATATACCGCCATCTTCAGCAAACCC TGATGAAGGTTACAAAGTAAGCGCAAGTACCCACGTAAAGACGTTAGGTCAAGGTGTAGCCTATGAGGCG GCAAGAAATGGGCTACATTTTCTACCCCAGAAAATTACGATAACCCTTATGAAACCTAAGGGTCGAAGGT GGATTTAGCAGTAAACTAAGAGTAGAGTGCTTAGTTGAACAGGGCCCTGAAGCGCGTACACACCGCCCGT CACCCTCCTCAAGTATACTTCAAAGGATATTTAACTTAAACCCCTACGCATTTATATAGAGGAGATAAGT CGTAACATGGTAAGTGTACTGGAAAGTGCACTTGGACGAACCAGAGTGTAGCTTAACATAAAGCACCCAA CTTACACTTAGGAGATTTCAACTCAACTTGACCACTCTGAGCCAAACCTAGCCCCAAACCCCCTCCACCC TACTACCAAACAACCTTAACCAAACCATTTACCCAAATAAAGTATAGGCGATAGAAATTGTAAATCGGCG CAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTACACCCAAGCATAATACAGCAAGGACTAACCCC TGTACCTTTTGCATAATGAATTAACTAGAAATAACTTTGCAAAGAGAACTAAAGCCAAGATCCCCGAAAC CAGACGAGCTACCTAAGAACAGCTAAAAGAGCACACCCGTCTATGTAGCAAAATAGTGGGAAGATTTATA GGTAGAGGCGACAAACCTACCGAGCCTGGTGATAGCTGGTTGTCCAAGATAGAATCTTAGTTCAACTTTA AATTTACCTACAGAACCCTCTAAATCCCCCTGTAAATTTAACTGTTAGTCCAAAGAGGAACAGCTCTTTA GACACTAGGAAAAAACCTTATGAAGAGAGTAAAAAATTTAATGCCCATAGTAGGCCTAAAAGCAGCCACC AATTAAGAAAGCGTTCAAGCTCAACACCCACAACCTCAAAAAATCCCAAGCATACAAGCGAACTCCTTAC GCTCAATTGGACCAATCTATTACCCCATAGAAGAGCTAATGTTAGTATAAGTAACATGAAAACATTCTCC TCCGCATAAGCCTACTACAGACCAAAATATTAAACTGACAATTAACAGCCCAATATCTACAATCAACCAA MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE CZ.1.07/2.2.00/15.0204 PF_72_100_grey_tr ubz_cz_black_transparent 1_1 fylogenetický strom = fylogenie (phylogeny): s kořenem, bez kořene větve (branches, edges): vnější, vnitřní, centrální uzly (nodes, vertices): vnitřní, terminální (externí) dichotomie, polytomie OTU, HTU topologie Definice základních pojmů: 1_1 dráha linie spojuje dva terminální uzly spojuje terminální uzel s kořenem Definice základních pojmů: 1_2 Definice základních pojmů: http://www.almob.org/content/figures/1748-7188-2-8-1-l.jpg http://www.vizachero.com/R1b1/R1bSplits.png Kolik existuje stromů? počet elektronů ve viditelném vesmíru (Eddingtonovo číslo) > Avogadrova konstanta*) *) 6,022 141 79×1023 mol−1 Jaké typy dat můžeme použít? DATA Distance Diskrétní znaky Imunologie DNA-DNA hybridizace Binární Vícestavové neseřazené ACGTTAGCT seřazené A®B®C 11010010011 ABCDEF Typy dat Nukleotidové a proteinové sekvence: H_sapiens MTPMRKINPLMKLINHSFIDLPTPSNISAWWNFGS P_troglod ATGACCCCGACACGCAAAATTAACCCACTAATAAA pozice (site) = znak báze = stav znaku retroelementy: SINE (Alu, B1, B2), LINE mikrosatelity, SNP Typy dat Grafika1 Problém homologie sekvencí Problém homologie sekvencí Pozor, ani jednotlivá místa v sekvenci DNA nejsou vzájemně zcela nezávislá! 1.3.tif DNA databáze: EMBL (European Molecular Biology Laboratory) – European Bioinformatics Institute, Hinxton, UK: http://www.ebi.ac.uk/embl/ GenBank – NCBI (National Center for Biotechnology Information), Bethesda, Maryland, USA: http://www.ncbi.nlm.nih.gov/Genbank/ DDBJ (DNA Data Bank of Japan) – National Institute of Genetics, Mishima, Japan: http://www.ddbj.nig.ac.jp/ Správa databází: většinou balíky programů Sybase nebo ORACLE výstupy: ASCII (American Standard Code for Information Interchange) Práce se sekvencemi Práce se sekvencemi Proteinové databáze: SWISS-PROT – University of Geneve & Swis Institute of Bioinformatics: http://www.expasy.ch/sprot/ a http://www.ebi.ac.uk/swissprot/ PIR (Protein Information Resource) – NBRF (National Biomedical Research Foundation, Washington, D.C., USA) & Tokyo University & JIPID (Japanese International Protein Information Database, Tokyo) & MIPS (Martinsried Institute for Protein Sequences, Martinsried, Germany): http://www-nbrf.georgetown.edu/ PRF/SEQDB (Protein Resource Foundation) – Ósaka, Japan: http://www.prf.or.jp/en/os.htm PDB (Protein Data Bank) – University of New Jersey, San Diego & Super-computer Center, University of California & National Institute of Standards and Technology: http://www.rcsb.org/pdb/ FASTA: >H_sapiens ATGACCCCAATACGCAAAATTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGACCTCCCCACCC CATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGCCTGATCCTCCAAATCACCAC AGGACTATTCCTAGCCATACACTACTCACCAGACGCCTCAACCGCCTTTTCATCAATCGCCCACATCACT CGAGACGTAAATTATGGCTGAATCATCCGCTACCTTCACGCCAATGGCGCCTCAATATTCTTTATCTGCC TCTTCCTACACATCGGGCGAGGCCTATATTACGGATCATTTCTCTACTCAGAAACCTGAAACATCGGCAT ... >P_troglod ATGACCCCGACACGCAAAATTAACCCACTAATAAAATTAATTAATCACTCATTTATCGACCTCCCCACCC CATCCAACATTTCCGCATGATGGAACTTCGGCTCACTTCTCGGCGCCTGCCTAATCCTTCAAATTACCAC AGGATTATTCCTAGCTATACACTACTCACCAGACGCCTCAACCGCCTTCTCGTCGATCGCCCACATCACC CGAGACGTAAACTATGGTTGGATCATCCGCTACCTCCACGCTAACGGCGCCTCAATATTTTTTATCTGCC TCTTCCTACACATCGGCCGAGGTCTATATTACGGCTCATTTCTCTACCTAGAAACCTGAAACATTGGCAT ... >P_paniscus ATGACCCCAACACGCAAAATCAACCCACTAATAAAATTAATTAATCACTCATTTATCGACCTCCCCACCC CATCCAATATTTCCACATGATGAAACTTCGGCTCACTTCTCGGCGCCTGCCTAATCCTTCAAATCACCAC AGGACTATTCCTAGCTATACACTACTCACCAGACGCCTCAACCGCCTTCTCATCGATCGCCCACATTACC CGAGACGTAAACTATGGTTGAATCATCCGCTACCTTCACGCTAACGGCGCCTCAATACTTTTCATCTGCC TCTTCCTACACGTCGGTCGAGGCCTATATTACGGCTCATTTCTCTACCTAGAAACCTGAAACATTGGCAT ... Formáty souborů: GenBank: ORIGIN 1 tgaaatgaag atattctctt ctcaagacat caagaagaag gaactactcc ccaccaccag 61 cacccaaagc tggcattcta attaaactac ttcttgtgta cataaattta catagtacaa 121 tagtacattt atgtatatcg tacattaaac tattttcccc aagcatataa gcaagtacat 181 ttaatcaatg atataggcca taaaacaatt atcaacataa actgatacaa accatgaata 241 ttatactaat acatcaaatt aatgctttaa agacatatct gtgttatctg acatacacca 301 tacagtcata aactcttctc ttccatatga ctatcccctt ccccatttgg tctattaatc 361 taccatcctc cgtgaaacca acaacccgcc caccaatgcc cctcttctcg ctccgggccc 421 attaaacttg ggggtagcta aactgaaact ttatcagaca tctggttctt acttcagggc 481 catcaaatgc gttatcgccc atacgttccc cttaaataag acatctcgat ggtatcgggt 541 ctaatcagcc catgaccaac ataactgtgg tgtcatgcat ttggtatttt tttattttgg 601 cctactttca tcaacatagc cgtcaaggca tgaaaggaca gcacacagtc tagacgcacc 661 tacggtgaag aatcattagt ccgcaaaacc caatcaccta aggctaatta ttcatgcttg 721 ttagacataa atgctactca ataccaaatt ttaactctcc aaacccccca accccctcct 781 cttaatgcca aaccccaaaa acactaagaa cttgaaagac atatattatt aactatcaaa 841 ccctatgtcc tgatcgattc tagtagttcc caaaatatga ctcatatttt agtacttgta 901 aaaattttac aaaatcatgc tccgtgaacc aaaactctaa tcacactcta ttacgcaata 961 aatattaaca agttaatgta gcttaataac aaagcaaagc actgaaaatg cttagatgga 1021 taattttatc cca // Formáty souborů: PHYLIP (“interleaved” format): 6 1120 H_sapiens ATGACCCCAA TACGCAAAAT TAACCCCCTA ATAAAATTAA TTAACCACTC P_troglod ATGACCCCGA CACGCAAAAT TAACCCACTA ATAAAATTAA TTAATCACTC P_paniscus ATGACCCCAA CACGCAAAAT CAACCCACTA ATAAAATTAA TTAATCACTC G_gorilla ATGACCCCTA TACGCAAAAC TAACCCACTA GCAAAACTAA TTAACCACTC P_pygmaeus ATGACCCCAA TACGCAAAAC CAACCCACTA ATAAAATTAA TTAACCACTC H_lar ATGACCCCCC TGCGCAAAAC TAACCCACTA ATAAAACTAA TCAACCACTC ATTCATCGAC CTCCCCACCC CATCCAACAT CTCCGCATGA TGAAACTTCG ATTTATCGAC CTCCCCACCC CATCCAACAT TTCCGCATGA TGGAACTTCG ATTTATCGAC CTCCCCACCC CATCCAATAT TTCCACATGA TGAAACTTCG ATTCATTGAC CTCCCTACCC CGTCCAACAT CTCCACATGA TGAAACTTCG ACTCATCGAC CTCCCCACCC CATCAAACAT CTCTGCATGA TGGAACTTCG ACTTATCGAC CTTCCAGCCC CATCCAACAT TTCTATATGA TGAAACTTTG Formáty souborů: NEXUS (PAUP*, “interleaved”): #NEXUS begin data; dimensions ntax=6 nchar=1120; format datatype=DNA interleave datatype=DNA missing=? gap=-; matrix P_troglod ATGACCCCGACACGCAAAATTAACCCACTAATAAAATTAATTAATCACTC P_paniscus ATGACCCCAACACGCAAAATCAACCCACTAATAAAATTAATTAATCACTC H_sapiens ATGACCCCAATACGCAAAATTAACCCCCTAATAAAATTAATTAACCACTC G_gorilla ATGACCCCTATACGCAAAACTAACCCACTAGCAAAACTAATTAACCACTC P_pygmaeus ATGACCCCAATACGCAAAACCAACCCACTAATAAAATTAATTAACCACTC H_lar ATGACCCCCCTGCGCAAAACTAACCCACTAATAAAACTAATCAACCACTC P_troglod ATTTATCGACCTCCCCACCCCATCCAACATTTCCGCATGATGGAACTTCG P_paniscus ATTTATCGACCTCCCCACCCCATCCAATATTTCCACATGATGAAACTTCG H_sapiens ATTCATCGACCTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCG G_gorilla ATTCATTGACCTCCCTACCCCGTCCAACATCTCCACATGATGAAACTTCG P_pygmaeus ACTCATCGACCTCCCCACCCCATCAAACATCTCTGCATGATGGAACTTCG H_lar ACTTATCGACCTTCCAGCCCCATCCAACATTTCTATATGATGAAACTTTG end; Formáty souborů: Clustal X: P_troglod ATGACCCCGACACGCAAAATTAACCCACTAATAAAATTAATTAATCACTCATTTATCGAC P_paniscus ATGACCCCAACACGCAAAATCAACCCACTAATAAAATTAATTAATCACTCATTTATCGAC H_sapiens ATGACCCCAATACGCAAAATTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGAC G_gorilla ATGACCCCTATACGCAAAACTAACCCACTAGCAAAACTAATTAACCACTCATTCATTGAC P_pygmaeus ATGACCCCAATACGCAAAACCAACCCACTAATAAAATTAATTAACCACTCACTCATCGAC H_lar ATGACCCCCCTGCGCAAAACTAACCCACTAATAAAACTAATCAACCACTCACTTATCGAC ******** ******* ***** *** **** **** ** ****** * ** *** P_troglod CTCCCCACCCCATCCAACATTTCCGCATGATGGAACTTCGGCTCACTTCTCGGCGCCTGC P_paniscus CTCCCCACCCCATCCAATATTTCCACATGATGAAACTTCGGCTCACTTCTCGGCGCCTGC H_sapiens CTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGC G_gorilla CTCCCTACCCCGTCCAACATCTCCACATGATGAAACTTCGGCTCACTCCTTGGTGCCTGC P_pygmaeus CTCCCCACCCCATCAAACATCTCTGCATGATGGAACTTCGGCTCACTTCTAGGCGCCTGC H_lar CTTCCAGCCCCATCCAACATTTCTATATGATGAAACTTTGGTTCACTCCTAGGCGCCTGC ** ** **** ** ** ** ** ****** ***** ** ***** ** ** ****** Formáty souborů: BLAST (Basic Local Alignment Search Tool) GenBank ClustalX Seřazení sekvencí (alignment): Sekvence 1 TTGTACGACGG Sekvence 2 TTGTACGACG TTGTACGACGG TTGT---ACGACGG ½½½½½½½½½½ ½½½½ ½½½ TTGTACGACG TTGTACGACG Sekvence 1 ACTTGTGCTTC Sekvence 2 ACGTGCTGCTC ACTTG-TGCTTC Path 1 ½½ ½½ ½½½½ ACGTGCTGCTC ACTTGTGCTTC Path 2 ½½ ½½½½½ ½ AC--GTGCTGCTC Seřazení sekvencí (alignment): GP = g + hl g - gap penalty h – gap extension penalty l – gap length Penalizace mezer (gap penalty): g = penalizace za výskyt mezery (1´) h = extenze za každou „pomlčku“ l = délka mezery (= počet „pomlček“) Př.: GC‒ ‒ ‒ ‒ ‒TTAA l = 5, g = -20, h = -2: GP = -20 + (-2 ´ 5) = -30 Progresivní seřazení - ClustalX 1.Seřazení dvojic sekvencí ® párové distance 2.Konstrukce „guide tree“ (NJ) 3.Seřazení všech sekvencí podle stromu I. I. II. III. 3 fáze: Problém progresivního seřazení gorila AGGTT kůň AG-TT panda AG-TT 6 druhů: tučňák A-GTT kuře A-GTT pštros AGGTT gorila AGGTT kůň AG-TT panda AG-TT tučňák A-GTT kuře A-GTT pštros AGGTT AGGTT AG-TT AG-TT AG-TT AG-TT AGGTT AGGTT A-GTT A-GTT A-GTT A-GTT AGGTT UPGMA neighbor- joining Fitch- Margoliash minimum evolution maximum parsimony maximum likelihood Bayesian a. distance znaky Typy dat Rozdělení metod výkonnost (efficiency): jak rychlá je metoda? síla (power): kolik znaků je třeba? konzistence (consistency): vede zvyšující se počet znaků ke správnému stromu? robustnost (robustness): jak metoda funguje při neplatnosti předpokladů? falzifikovatelnost (falsifiability): umožňuje testování platnosti předpokladů? Jak hodnotit jednotlivé metody? MAXIMÁLNÍ ÚSPORNOST (maximum parsimony, MP) I II III A 1 0 1 B 0 0 1 C 1 0 0 D 0 1 0 E 1 0 1 2 kroky 1 krok 2 kroky minimální počet kroků = 3 skutečný počet kroků = 5 Þ 2 extra kroky ® homoplazie William of Ockham (c. 1287 – 1347) Occamova břitva MP1 Odhad počtu kroků: Fitchův algoritmus 1. arbitrární kořen MP1 1. arbitrární kořen 2. Shora dolů: w = C, nebo T x = T y = A, nebo T z = T Odhad počtu kroků: Fitchův algoritmus MP1 1. arbitrární kořen 2. Shora dolů: w = C, nebo T x = T y = A, nebo T z = T 3. Zdola nahoru: z = T, nebo A celková délka = 3 Odhad počtu kroků: Fitchův algoritmus MP1 1. arbitrární kořen 2. Shora dolů: w = C, nebo T x = T y = A, nebo T z = T 3. Zdola nahoru: z = T, nebo A DELTRAN (DELayed TRANsformation) ACCTRAN (ACCelerated TRANsformation) celková délka = 3 Odhad počtu kroků: Fitchův algoritmus parsimony-informative and non-informative characters (sites) - invariant sites (symplesiomorphies) - singletons (autapomorphies) • • index konzistence (consistency i., CI) retenční index (retention i., RI) upravený CI (rescaled CI, RC) index homoplasie (homoplasy i., HI) RC = CI ´ RI HI = 1 - CI Problém homoplazie: m = min. no. of possible steps s = min. no. needed for explaining the tree g = max. no. of steps for any tree Metody parsimonie: Fitchova: X ® Y a Y ® X neseřazené znaky (A ® T nebo A ® G etc.) Wagnerova: X ® Y a Y ® X seřazené znaky (1 ® 2 ® 3) Dollo Dollova: X ® Y a Y ® X, potom nelze X ® Y … restriction-site and restriction-fragment data Caminova-Sokalova: X ® Y, ne Y ® X … SINE, LINE vážená (weighed, transversion): generalizovaná: matice nákladů (cost matrix) = kroková matice (step matrix) “relaxed Dollo criterion” 2.5.tif *) M je libovolně velké číslo zaručující, že bude povolena pouze jedna transformace do každého odvozeného stavu. Wagnerova Fitchova Dollova vážená (transverzní) *) Parsimonie a konzistence ((A,B),(C,D)) p>>q “správný” ((A,C),(B,D)) “chybný” Konzistence_obr „Felsensteinova zóna“ Ve Felsensteinově zóně je parsimonie nekonzistentní Parsimonie a konzistence Simulation Parsimonie a konzistence LBA dlouhé větve Konzistence_tab2 „přitažlivost dlouhých větví“ (long-branch attraction, LBA) Parsimonie a konzistence Hledání optimálního stromu 1.Exaktní metody: a) vyčerpávající hledání (exhaustive search) b) branch-and-bound BaB1 na začátku 3 taxony, postupné přidávání je-li strom delší než náhodně vybraný, algoritmus dál nepokračuje branch-and-bound Bayes1 všechny možné stromy 2. Heuristické hledání stepwise addition star decomposition branch swapping Bayes1 heuristické hledání Swap nearest-neighbor interchanges (NNI) subtree prunning and regrafting (SPR) tree bisection and reconnection (TBR) Jukes-Cantor (JC): stejné frekvence bází stejné frekvence substitucí Evoluční modely a distanční metody Báze po substituci A C G T A -¾ ¼ ¼ ¼ Původní báze C ¼ -¾ ¼ ¼ G ¼ ¼ -¾ ¼ T ¼ ¼ ¼ -¾ - a a a a - a a a a - a a a a - Q = Kimura 2-parameter (K2P): transice ≠ transverze TsTv - b a b b - b a a b - b b a b - Q = Jestliže a = b, K2P = JC - pCb pGa pTb pAb - pGb pTa pAa pCb - pTb pAb pCa pGb - Q = Jestliže pA = pC = pG = pT, F81 = JC Felsenstein (F81): různé frekvence bází - pC pG pT pA - pG pT pA pC - pT pA pC pG - Q = Hasegawa-Kishino-Yano (HKY): různé frekvence bází transice ≠ transverze General time-reversible (GTR, REV): různé frekvence bází různé frekvence jednotlivých typů substitucí Jukes-Cantor (JC) pA=pC=pG=pT a=b Felsenstein (F81) pA¹pC¹pG¹pT a=b Kimura‘s two-parameter (K2P) pA=pC=pG=pT a¹b Hasegawa-Kishino-Yano (HKY) pA¹pC¹pG¹pT a¹b Felsenstein (F84) pA¹pC¹pG¹pT a=c=d=f=1, b=(1+K/pR), e=(1+K/pY), kde pR=pA+pG pY=pC+pT Kimura’s three-substitution-type (K3ST) pA=pC=pG=pT a¹b Tamura-Nei (TrN) pA¹pC¹pG¹pT a¹b General-time reversible (GTR) pA¹pC¹pG¹pT a, b, c, d, e, f nestejné frekvence bází více než 1 typ substituce 2 typy transicí Heterogenita substitučních rychlostí v různých částech sekvence Gama Gama (Γ) rozdělení: parametr tvaru α diskrétní gama model invariantní pozice ® GTR+ Γ+I čím je a vyšší, tím jsou frekvence substitucí homogennější Porovnání modelů: Likelihood ratio test (LRT): zahnízděné modely (nested models) LR = 2(lnL2 – lnL1) c2 rozdělení, p2 – p1 stupňů volnosti Akaike information criterion (AIC): nonnested models AIC = -2lnL + 2p, kde p = počet volných parametrů lepší model ® nižší AIC Bayesian information criterion (BIC): nonested models BIC = -2lnL + plnN, kde N = velikost vzorku hierarchický LRT – ModelTest (Crandall and Posada) Porovnání modelů: dynamický LRT: LRT Porovnání modelů: Comparison Více parametrů Þ více realismu, ale … • … také více neurčitosti, protože jsou odhadovány ze stejného množství dat Porovnání modelů: chyba! Distance počítány pro každý pár taxonů, z matice distancí (nebo podobností) konstruován strom distanční metody založeny na předpokladu, že pokud bychom znali skutečné distance mezi všemi studovanými taxony, mohli bychom velmi jednoduše rekonstruovat správnou fylogenii • výhoda: velmi rychlé a jednoduché (lze i na kalkulačce) 1 10 20 30 sekvence 1: ACCCGTTAAGCTTAACGTACTTGGATCGAT sekvence 2: ACCCGTTAGGCTTAATGTACGTGGATCGAT p-distance: p = k/n = 3/30 = 0,10 Diff problém saturace: Distance pro některé modely: Dist2 Shluková analýza - UPGMA 1.Najdi min d(ij) 2.Vypočítej novou matici: d(ŠB-k) = [d(B-k)+d(Š-k)]/2 3.Opakuj 1 a 2. šimp. bonobo gorila člověk orang. šimpanz (Š) -- bonobo (B) 0,0118 -- gorila (G) 0,0427 0,0416 -- člověk (Č) 0,0382 0,0327 0,0371 -- orangutan (O) 0,0953 0,0916 0,0965 0,0928 -- Š B Č G O UPGMA (unweighted pair-group method using arithmetic means): d[(BŠČ)G] = {d(BG)+d(ŠG)+d(ČG)}/3 WPGMA: d[(BŠČ)G] = {d[(BŠ)G] + d(ČG)}/2 single-linkage (metoda nejbližšího souseda) complete-linkage (m. nejvzdálenějšího souseda) ŠB gorila člověk orang. ŠB -- gorila (G) 0,0422 -- člověk (Č) 0,0355 0,0371 -- orangutan (O) 0,0935 0,0965 0,0928 -- UPGMA a konzistence aditivní distance: dAB + dCD £ max (dAC + dBD, dAD + dBC) tj. vzdálenost mezi 2 taxony je rovna součtu větví, které je spojují ultrametrické distance: dAC £ max (dAB, dBC) A B C D A B C aditivní strom ultrametrický strom Simulation UPGMA a konzistence Algoritmická metoda Princip minimální evoluce ® minimalizuje součet délek větví S Každý pár uzlů adjustován na základě divergence od ostatních Konstrukce jediného aditivního stromu Spojení sousedů (neighbor-joining, NJ) NJ2 hvězdicový strom NJ2 hvězdicový strom nalezení nejbližších sousedů NJ2 hvězdicový strom nalezení nejbližších sousedů přepočítání distancí NJ2 S = 32,4 S = 29,5 S = 28,0 hvězdicový strom nalezení nejbližších sousedů přepočítání distancí opakování postupu ... Nevýhody distančních dat: 1.ztráta části informace během transformace 2.jakmile data transformována na distance, nelze se vrátit zpět (odlišné sekvence mohou dát stejné distance) 3. 3.nelze sledovat evoluci na různých částech sekvence 4. 4.obtížná biologická interpretace délek větví 5. 5.nelze kombinovat různé distanční matice