>gi|5835135|ref|NC_001644.1| Pan paniscus mitochondrion, complete genome GTTTATGTAGCTTACCCCCTTAAAGCAATACACTGAAAATGTTTCGACGGGTTTATATCACCCCATAAAC AAACAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAAGCATCCGTCCCGTGAG TCACCCTCTAAATCACCATGATCAAAAGGAACAAGTATCAAGCACACAGCAATGCAGCTCAAGACGCTTA GCCTAGCCACACCCCCACGGGAGACAGCAGTGATAAACCTTTAGCAATAAACGAAAGTTTAACTAAGCCA TACTAACCTCAGGGTTGGTCAATTTCGTGCTAGCCACCGCGGTCACACGATTAACCCAAGTCAATAGAAA CCGGCGTAAAGAGTGTTTTAGATCACCCCCCCCCCAATAAAGCTAAAATTCACCTGAGTTGTAAAAAACT CCAGCTGATACAAAATAAACTACGAAAGTGGCTTTAACACATCTGAACACACAATAGCTAAGACCCAAAC TGGGATTAGATACCCCACTATGCTTAGCCCTAAACTTCAACAGTTAAATTAACAAAACTGCTCGCCAGAA CACTACGAGCCACAGCTTAAAACTCAAAGGACCTGGCGGTGCTTCATATCCCTCTAGAGGAGCCTGTTCT GTAATCGATAAACCCCGATCAACCTCACCGCCTCTTGCTCAGCCTATATACCGCCATCTTCAGCAAACCC TGATGAAGGTTACAAAGTAAGCGCAAGTACCCACGTAAAGACGTTAGGTCAAGGTGTAGCCTATGAGGCG GCAAGAAATGGGCTACATTTTCTACCCCAGAAAATTACGATAACCCTTATGAAACCTAAGGGTCGAAGGT GGATTTAGCAGTAAACTAAGAGTAGAGTGCTTAGTTGAACAGGGCCCTGAAGCGCGTACACACCGCCCGT CACCCTCCTCAAGTATACTTCAAAGGATATTTAACTTAAACCCCTACGCATTTATATAGAGGAGATAAGT CGTAACATGGTAAGTGTACTGGAAAGTGCACTTGGACGAACCAGAGTGTAGCTTAACATAAAGCACCCAA CTTACACTTAGGAGATTTCAACTCAACTTGACCACTCTGAGCCAAACCTAGCCCCAAACCCCCTCCACCC TACTACCAAACAACCTTAACCAAACCATTTACCCAAATAAAGTATAGGCGATAGAAATTGTAAATCGGCG CAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTACACCCAAGCATAATACAGCAAGGACTAACCCC TGTACCTTTTGCATAATGAATTAACTAGAAATAACTTTGCAAAGAGAACTAAAGCCAAGATCCCCGAAAC CAGACGAGCTACCTAAGAACAGCTAAAAGAGCACACCCGTCTATGTAGCAAAATAGTGGGAAGATTTATA GGTAGAGGCGACAAACCTACCGAGCCTGGTGATAGCTGGTTGTCCAAGATAGAATCTTAGTTCAACTTTA AATTTACCTACAGAACCCTCTAAATCCCCCTGTAAATTTAACTGTTAGTCCAAAGAGGAACAGCTCTTTA GACACTAGGAAAAAACCTTATGAAGAGAGTAAAAAATTTAATGCCCATAGTAGGCCTAAAAGCAGCCACC AATTAAGAAAGCGTTCAAGCTCAACACCCACAACCTCAAAAAATCCCAAGCATACAAGCGAACTCCTTAC GCTCAATTGGACCAATCTATTACCCCATAGAAGAGCTAATGTTAGTATAAGTAACATGAAAACATTCTCC TCCGCATAAGCCTACTACAGACCAAAATATTAAACTGACAATTAACAGCCCAATATCTACAATCAACCAA MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE CZ.1.07/2.2.00/15.0204 PF_72_100_grey_tr ubz_cz_black_transparent FYLOGENETICKÁ ANALÝZA II. Maximální věrohodnost (maximum likelihood, ML) hod mincí 15´ ® skóre OOHHHOHOOOHOHHO: 7´ panna (hlava, H), 8´ orel (O) pravděpodobnost, že padne hlava = p, orel = (1 – p) hody nezávislé Þ pravděpodobnost výsledného skóre = (1 – p)´(1 – p)´p´p´p´(1 – p)´p´(1 – p)´(1 – p)´(1 – p)´p´(1 – p)´p´p´(1 – p) = p7(1-p)8 maximum = 0,4666 » 7/15 MaxL L = (D½H) podmíněná pravděpodobnost získání dat D při hypotéze H p = 1/2 Þ L = 3,0517.10-5 p = 1/3 Þ L = 1,7841.10-5 Þ výsledek hodů 1,7´ pravděpodobnější s pravou mincí Maximální věrohodnost ve fylogenetické analýze 1 TCAAAAATGGCTTTATTCGCTTAATGCCGTTAACCCTTGCGGGGGCCATG 2 TCCGTGATGGATTTATTTCCGCAATGCCTGTCATCTTATTCTCAAGTATC 3 TTCGTGATGGATTTATTGCAGGTATGCCAGTCATCCTTTTCTCATCTATC 4 TTCGTGACGGGTTTATCTCGGCAATGCCGGTCATCCTATTTTCGAGTATT data: strom: topologie délky větví evoluční model = hypotéza Věrohodnostní funkce: jaká je pravděpodobnost získání daných dat při dané hypotéze? L = P(D│H), kde D = matice dat H = t (topologie), n (délky větví), q (model) 1 j N 1 TCAAAAATGGCTTTATTCGCTTAATGCCGTTAACCCTTGCGGGGGCCATG 2 TCCGTGATGGATTTATTTCCGCAATGCCTGTCATCTTATTCTCAAGTATC 3 TTCGTGATGGATTTATTGCAGGTATGCCAGTCATCCTTTTCTCATCTATC 4 TTCGTGACGGGTTTATCTCGGCAATGCCGGTCATCCTATTTTCGAGTATT ML 1)L(1) = P(A) ´ P(T) ´ P(AC) ´ P(AC) ´ P(TA) ´ P(TG) 2)L(j) = P(scénář 1) + …. + P(scénář 16) 3)všechny pozice: L = L(1) ´ L(2) ´ … ´ L(j) ´ … ´ L(N) = 4)lnL = lnL(1) + lnL(2) + … + lnL(N) = x: 4 nukleotidy y: 4 nukleotidy Þ 4 ´ 4 = 16 možných scénářů Věrohodnost (ML) a úspornost (MP) A A A G Simulation Věrohodnost a konzistence Věrohodnost a konzistence Konzistence_tab “chybný” Konzistence_tab2 “správný” “long-branch repulsion” Farrisova (anti-Felsensteinova, inverzní Felsensteinova) zóna Bayesovská analýza ML: jaká je pravděpodobnost dat při dané hypotéze? bayesiánský přístup - příklad: soubor 100 kostek, ze kterých máme vybrat jednu víme, že ze 100 kostek je 80 v pořádku, ale 20 je upraveno tak, aby padala 6 pravděpodobnosti jednotlivých výsledků u pravých kostech stejné, u falešných se liší: házíme 2´ pravá falešná 1/6 1/21 1/6 3/21 1/6 3/21 1/6 4/21 1/6 4/21 1/6 6/21 ® Jaká je pravděpodobnost, že naše kostka je falešná? 1. hod: 2. hod: Aposteriorní pravděpodobnost, že naše kostka je falešná, je dána Bayesovou rovnicí: aposteriorní pravděpodobnost (posterior probability) = pr. platnosti hypotézy při získaných datech: P(H½D) a.p. je funkcí věrohodnosti P(D½H) a apriorní pravděpodobnosti (prior prob.) prior vyjadřuje náš apriorní předpoklad nebo znalost příklad se 2 hody kostkou: P(D½H) ´ P(H) P(H½D) = S[P(D½Hi)´P(Hi)] věrohodnost apriorní pravděpodobnost suma čitatelů pro všechny alternativní hypotézy apriorní pravděpodobnost (falešná) = 0.2 (20/100 falešných kostek v souboru) Pr., že dostaneme s pravou kostkou: P = 1/6 ´ 1/6 = 1/36 Pr., že dostaneme s falešnou kostkou: P = 3/21 ´ 6/21 = 18/441 P(biased| ) = P( |biased) ´ P(biased) P( |biased) ´ P(biased) + P( |fair) ´ P(fair) 18/441 ´ 2/10 = = 0.269 18/441 ´ 2/10 + 1/36 ´ 8/10 pravá falešná 1/6 1/21 1/6 3/21 1/6 3/21 1/6 4/21 1/6 4/21 1/6 6/21 ( ) ( ) ( ) ( ) ( ) [ ] å = = ) s ( B i θ P θ P θ P θ P θ P 1 , , , , , , , , , , ν ν X ν ν X X ν t t t t t Bayesovská metoda ve fylogenetické analýze: Parametry pro bayesovskou analýzu: ML odhady ® empirická BA všechny kombinace ® hierarchická BA věrohodnost apriorní pravděpodobnost suma přes všechny možné stromy aposteriorní pravděpodobnost Markovův proces: t(-1) A ® T(0) C ® T(+1) G … P stejná po celé fylogenii = homogenní Markovův proces Problém: příliš složité Þ nelze řešit analyticky, pouze numericky aproximovat řešení: metody Monte Carlo náhodný výběr vzorků, při velkém množství aproximace skutečnosti Markovovy řetězce: Markov chain Monte Carlo (MCMC) Metropolisův-Hastingsův algoritmus: Změna parametru x ® x’ 1.jestliže P(x’) > P(x), akceptuj x’ 2.jestliže P(x’) ≤ P(x), vypočti R = P(x’)/P(x) protože platí, že P(x’) ≤ P(x), musí být R ≤ 1 3.generuj náhodné číslo U z rovnoměrného rozělení z intervalu (0, 1) 4.jestliže R ≥ U, akceptuj x’, jestli ne, ponechej x Metropolisův-Hastingsův algoritmus: usměrněný pohyb robota v aréně: Bayes3 MrBayes: http://morphbank.ebc.uu.se/mrbayes/ 4 independent chains, Metropolis-coupled MCMC “burn-in” stacionární fáze (plateau) Problém apriorních pravděpodobností: subjektivnost 15 hodů mincí výsledek 5 H : 10 O maximum likelihood = 0,333 apriorní pr. = 0,5 díky apriorní pr. aposteriorní pr. posunuta doprava 30 hodů mincí výsledek 10 H : 20 O rozdíl od ML menší 6.9.tif Problém apriorních pravděpodobností: subjektivnost 6.10.tif Problém apriorních pravděpodobností: subjektivnost BaB1 Hledání optimálního stromu a měření spolehlivosti 1.Exaktní metody: a) vyčerpávající hledání (exhaustive search) b) branch-and-bound na začátku 3 taxony, postupné přidávání je-li strom delší než náhodně vybraný, algoritmus dál nepokračuje 2.Heuristický přístup: Bayes1 všechny možné stromy 2.Heuristický přístup: stepwise addition star decomposition branch swapping Bayes1 heuristické hledání 2.Heuristický přístup: a) stepwise addition b) star decomposition c) branch swapping * nearest-neighbor interchanges (NNI) * subtree prunning and regrafting (SPR) * tree bisection and reconnection (TBR) Swap Měření spolehlivosti stromů Boot bez navrácení = jackknife s navrácením = bootstrap Metody opakovaného výběru Bootstrap Měření spolehlivosti stromů Měření spolehlivosti stromů bayesovská analýza: aposteriorní pravděpodobnosti parametrický bootstrap: evoluční model Testování hypotéz Test molekulárních hodin Relative rate test (RRT): AC=BC? Linearizované stromy odstranění signifikantně odlišných taxonů 7.6.tif Relaxované molekulární hodiny umožňují změnu rychlostí podél větví Srovnání stromů Je jeden strom lepší než druhý? Testy párových pozic: winning sites test Felsensteinův z test Templetonův test Kishinův-Hasegawův test (KHT, RELL) Pro více než dva stromy: Shimodairův-Hasegawův (SH) test Jsou dva stromy signifikantně odlišné? Distance mezi stromy: partition metric quartet metric path difference metric metody inkorporující délky větví Problémy s distancemi mezi stromy Konsensuální stromy striktní konsensus zdrojové stromy striktně konsensuální strom Konsensuální stromy majority-rule zdrojové stromy většinový strom Konsensuální stromy problém s konsensuálními stromy – kombinovaná vs. separátní analýza, supermatrix vs. supertree konsensuální stromy v metodách opakovaného výběru, bayesovská analýza Fylogenetické programy alignment: ClustalX http://inn-prot.weizmann.ac.il/software/ClustalX.html konstrukce stromů: http://evolution.gs.washington.edu/phylip/software.html PAUP* PHYLIP McClade ... MP MOLPHY, PHYML, TREE-PUZZLE ... ML MrBayes ... BA práce se stromy: TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html