>gi|5835135|ref|NC_001644.1| Pan paniscus mitochondrion, complete genome GTTTATGTAGCTTACCCCCTTAAAGCAATACACTGAAAATGTTTCGACGGGTTTATATCACCCCATAAAC AAACAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAAGCATCCGTCCCGTGAG TCACCCTCTAAATCACCATGATCAAAAGGAACAAGTATCAAGCACACAGCAATGCAGCTCAAGACGCTTA GCCTAGCCACACCCCCACGGGAGACAGCAGTGATAAACCTTTAGCAATAAACGAAAGTTTAACTAAGCCA TACTAACCTCAGGGTTGGTCAATTTCGTGCTAGCCACCGCGGTCACACGATTAACCCAAGTCAATAGAAA CCGGCGTAAAGAGTGTTTTAGATCACCCCCCCCCCAATAAAGCTAAAATTCACCTGAGTTGTAAAAAACT CCAGCTGATACAAAATAAACTACGAAAGTGGCTTTAACACATCTGAACACACAATAGCTAAGACCCAAAC TGGGATTAGATACCCCACTATGCTTAGCCCTAAACTTCAACAGTTAAATTAACAAAACTGCTCGCCAGAA CACTACGAGCCACAGCTTAAAACTCAAAGGACCTGGCGGTGCTTCATATCCCTCTAGAGGAGCCTGTTCT GTAATCGATAAACCCCGATCAACCTCACCGCCTCTTGCTCAGCCTATATACCGCCATCTTCAGCAAACCC TGATGAAGGTTACAAAGTAAGCGCAAGTACCCACGTAAAGACGTTAGGTCAAGGTGTAGCCTATGAGGCG GCAAGAAATGGGCTACATTTTCTACCCCAGAAAATTACGATAACCCTTATGAAACCTAAGGGTCGAAGGT GGATTTAGCAGTAAACTAAGAGTAGAGTGCTTAGTTGAACAGGGCCCTGAAGCGCGTACACACCGCCCGT CACCCTCCTCAAGTATACTTCAAAGGATATTTAACTTAAACCCCTACGCATTTATATAGAGGAGATAAGT CGTAACATGGTAAGTGTACTGGAAAGTGCACTTGGACGAACCAGAGTGTAGCTTAACATAAAGCACCCAA CTTACACTTAGGAGATTTCAACTCAACTTGACCACTCTGAGCCAAACCTAGCCCCAAACCCCCTCCACCC TACTACCAAACAACCTTAACCAAACCATTTACCCAAATAAAGTATAGGCGATAGAAATTGTAAATCGGCG CAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTACACCCAAGCATAATACAGCAAGGACTAACCCC TGTACCTTTTGCATAATGAATTAACTAGAAATAACTTTGCAAAGAGAACTAAAGCCAAGATCCCCGAAAC CAGACGAGCTACCTAAGAACAGCTAAAAGAGCACACCCGTCTATGTAGCAAAATAGTGGGAAGATTTATA GGTAGAGGCGACAAACCTACCGAGCCTGGTGATAGCTGGTTGTCCAAGATAGAATCTTAGTTCAACTTTA AATTTACCTACAGAACCCTCTAAATCCCCCTGTAAATTTAACTGTTAGTCCAAAGAGGAACAGCTCTTTA GACACTAGGAAAAAACCTTATGAAGAGAGTAAAAAATTTAATGCCCATAGTAGGCCTAAAAGCAGCCACC AATTAAGAAAGCGTTCAAGCTCAACACCCACAACCTCAAAAAATCCCAAGCATACAAGCGAACTCCTTAC GCTCAATTGGACCAATCTATTACCCCATAGAAGAGCTAATGTTAGTATAAGTAACATGAAAACATTCTCC TCCGCATAAGCCTACTACAGACCAAAATATTAAACTGACAATTAACAGCCCAATATCTACAATCAACCAA MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE CZ.1.07/2.2.00/15.0204 PF_72_100_grey_tr ubz_cz_black_transparent 15 hodů mincí: ® skóre OOHHHOHOOOHOHHO tj. 7´ panna (hlava, H), 8´ orel (O) Pravděpodobnost, že padne hlava = p, orel = (1 – p) Protože hody nezávislé Þ pravděpodobnost výsledného skóre = (1 – p)´(1 – p)´p´p´p´(1 – p)´p´(1 – p)´(1 – p)´(1 – p)´p´(1 – p)´p´p´(1 – p) = = p7(1-p)8 maximum = 0,4666 » 7/15 skóre OOHHHOHOOOHOHHO [7´ panna (hlava, H), 8´ orel (O)] Věrohodnost = podmíněná pravděpodobnost dat (výsledného skóre) při dané hypotéze: L = Pr(D│H) = Pr(7´ hlava, 8´ orel │hypotéza) Hypotéza? Např. H = mince není „cinknutá“, tj. p = 1/2 Þ L = 3,0517.10-5 Je-li mince upravena tak, aby ve 2/3 případů padl orel: p = 1/3 Þ L = 1,7841.10-5 Þ výsledek hodů 1,7´ pravděpodobnější s pravou mincí p maxL maximální hodnota věrohodnostní funkce maximálně věrohodný bodový odhad (maximum likelihood estimate, MLE) parametru hypotézy Maximální věrohodnost ve fylogenetické analýze 1 TCAAAAATGGCTTTATTCGCTTAATGCCGTTAACCCTTGCGGGGGCCATG 2 TCCGTGATGGATTTATTTCCGCAATGCCTGTCATCTTATTCTCAAGTATC 3 TTCGTGATGGATTTATTGCAGGTATGCCAGTCATCCTTTTCTCATCTATC 4 TTCGTGACGGGTTTATCTCGGCAATGCCGGTCATCCTATTTTCGAGTATT data: strom: topologie t délky větví n + evoluční model q = hypotéza L = P(D│H): D = matice sekvencí (dat), H = t (topologie) + n (délky větví) + q (model) nuisance parameters 1 j N 1 TCAAAAATGGCTTTATTCGCTTAATGCCGTTAACCCTTGCGGGGGCCATG 2 TCCGTGATGGATTTATTTCCGCAATGCCTGTCATCTTATTCTCAAGTATC 3 TTCGTGATGGATTTATTGCAGGTATGCCAGTCATCCTTTTCTCATCTATC 4 TTCGTGACGGGTTTATCTCGGCAATGCCGGTCATCCTATTTTCGAGTATT x y x y x y n1 n2 n3 n4 n5 ni = délky větví 1 j N 1 TCAAAAATGGCTTTATTCGCTTAATGCCGTTAACCCTTGCGGGGGCCATG 2 TCCGTGATGGATTTATTTCCGCAATGCCTGTCATCTTATTCTCAAGTATC 3 TTCGTGATGGATTTATTGCAGGTATGCCAGTCATCCTTTTCTCATCTATC 4 TTCGTGACGGGTTTATCTCGGCAATGCCGGTCATCCTATTTTCGAGTATT x y n1 n2 n3 n4 n5 x: 4 nukleotidy ni = délky větví y: 4 nukleotidy Þ 4 ´ 4 = 16 možných scénářů L(1) = P(y)´P(y®x)n3´P(x®C)n1´P(x®C)n2´P(y®A)n4´P(y®G)n5 L(j) = P(scénář 1) + …. + P(scénář 16) 1 j N 1 TCAAAAATGGCTTTATTCGCTTAATGCCGTTAACCCTTGCGGGGGCCATG 2 TCCGTGATGGATTTATTTCCGCAATGCCTGTCATCTTATTCTCAAGTATC 3 TTCGTGATGGATTTATTGCAGGTATGCCAGTCATCCTTTTCTCATCTATC 4 TTCGTGACGGGTTTATCTCGGCAATGCCGGTCATCCTATTTTCGAGTATT x y n1 n2 n3 n4 n5 x: 4 nukleotidy y: 4 nukleotidy Þ 4 ´ 4 = 16 možných scénářů ni = délky větví všechny pozice: L = L(1) ´ L(2) ´ … ´ L(j) ´ … ´ L(N) = lnL = lnL(1) + lnL(2) + … + lnL(N) = 1 j N 1 TCAAAAATGGCTTTATTCGCTTAATGCCGTTAACCCTTGCGGGGGCCATG 2 TCCGTGATGGATTTATTTCCGCAATGCCTGTCATCTTATTCTCAAGTATC 3 TTCGTGATGGATTTATTGCAGGTATGCCAGTCATCCTTTTCTCATCTATC 4 TTCGTGACGGGTTTATCTCGGCAATGCCGGTCATCCTATTTTCGAGTATT Hledání maximální věrohodnosti daného stromu ® např. Newtonova (Newtonova-Raphsonova) metoda https://upload.wikimedia.org/wikipedia/commons/e/e0/NewtonIteration_Ani.gif https://upload.wikimedia.org/wikipedia/commons/e/e0/NewtonIteration_Ani.gif Hledání nejvěrohodnějšího stromu: heuristické hledání stepwise addition ... např. PHYLIP star decomposition ... např. MOLPHY; neighbor-joining tree branch swapping Heuristické hledání Věrohodnost (ML) a úspornost (MP) A A A G Simulation Věrohodnost a konzistence Konzistence_tab “chybný” Konzistence_tab2 “správný” “long-branch repulsion” Farrisova (anti-Felsensteinova, inverzní Felsensteinova) zóna BAYESOVSKÁ ANALÝZA ML: Jaká je pravděpodobnost dat při dané hypotéze? bayesiánský přístup: Jaká je pravděpodobnost hypotézy při daných datech? P(H½D) Př.: soubor 100 kostek, ze kterých máme vybrat jednu víme, že ze 100 kostek je 80 v pořádku, ale 20 je upraveno tak, aby padala 6 Jaká je pravděpodobnost, že naše kostka je falešná? 2 hody: 1. hod = 2. hod = pravděpodobnosti jednotlivých výsledků: u pravých kostek stejné, u falešných se liší: pravá falešná 1/6 1/21 1/6 3/21 1/6 3/21 1/6 4/21 1/6 4/21 1/6 6/21 Thomas Bayes Aposteriorní pravděpodobnost, že naše kostka je falešná, je dána Bayesovou rovnicí: Pravděpodobnost P(H½D) se nazývá aposteriorní (posterior probability) aposteriorní pravděpodobnost je funkcí věrohodnosti L = P(D½H) a apriorní pravděpodobnosti (prior probability), která vyjadřuje náš apriorní předpoklad nebo znalost P(D½H) ´ P(H) P(H½D) = S[P(D½Hi)´P(Hi)] věrohodnost apriorní pravděpodobnost suma čitatelů pro všechny alternativní hypotézy apriorní pravděpodobnost (falešná) = 0,2 (20/100 falešných kostek v souboru) Pr., že dostaneme s pravou kostkou: P = 1/6 ´ 1/6 = 1/36 Pr., že dostaneme s falešnou kostkou: P = 3/21 ´ 6/21 = 18/441 P(biased| ) = P( |biased) ´ P(biased) P( |biased) ´ P(biased) + P( |fair) ´ P(fair) 18/441 ´ 2/10 = = 0,269 18/441 ´ 2/10 + 1/36 ´ 8/10 pravá falešná 1/6 1/21 1/6 3/21 1/6 3/21 1/6 4/21 1/6 4/21 1/6 6/21 Pro náš příklad se 2 hody kostkou: Bayesovská metoda ve fylogenetické analýze: marginální věrohodnost apriorní pravděpodobnost suma přes všechny možné stromy aposteriorní pravděpodobnost Parametry pro bayesovskou analýzu většinou kontinuální Þ P ® pravděpodobnostní hustotní funkce (probability density functions) buď ML odhady ® empirická BA nebo všechny kombinace ® hierarchická BA Markovův proces: t-1: A ® t0: C ® t+1: G … P stejná po celé fylogenii = homogenní Markovův proces Problém: výpočty příliš složité Þ nelze řešit analyticky, pouze numericky aproximovat řešení: metody Monte Carlo náhodný výběr vzorků, při velkém množství aproximace skutečnosti Markovovy řetězce: Markov chain Monte Carlo (MCMC) Metropolisův-Hastingsův algoritmus: Změna parametru x ® x’ 1.jestliže P(x’) > P(x), akceptuj x’ 2.jestliže P(x’) ≤ P(x), vypočti R = P(x’)/P(x) protože platí, že P(x’) ≤ P(x), musí být R ≤ 1 3.generuj náhodné číslo U z rovnoměrného rozělení z intervalu (0, 1) 4.jestliže R ≥ U, akceptuj x’, jestli ne, ponechej x Metropolisův-Hastingsův algoritmus: usměrněný pohyb robota v aréně: Bayes3 “burn-in” stacionární fáze (plateau) MrBayes: http://morphbank.ebc.uu.se/mrbayes/ Reverzibilní přeskokový MCMC (reversible jump MCMC): umožňuje měnit počet parametrů při každém MC kroku lze použít např. k modelování proměnlivosti evoluce mezi pozicemi v sekvenci, k výběru modelů nebo k tvorbě nehomogenních substitučních modelů (např. různé složení bází podél jednotlivých větví) Metropolis coupled MCMC (MCMCMC, MC3): 1 „chladný“ řetězec, 3 „zahřáté“ řetězce stejný výchozí bod, díky stochasticitě rychlá divergence „robotů“ Problém apriorních pravděpodobností 15 hodů mincí výsledek 5 H : 10 O maximum likelihood = 0,333 apriorní pr. = 0,5 díky apriorní pr. aposteriorní pr. posunuta doprava 30 hodů mincí výsledek 10 H : 20 O rozdíl od ML menší 6.9.tif Problém apriorních pravděpodobností 6.10.tif Stanovení apriorních pravděpodobností: bez navrácení = jackknife s navrácením = bootstrap Metody opakovaného výběru http://saunapraha.cz/wp-content/uploads/IMG_6173-300x224.jpg http://www.taxjusticeblog.org/lottery.jpg http://www.kvalitninoze.cz/images/sklady/113110_2.jpg Měření spolehlivosti stromů Boot bootstrap: Boot bootstrap: bootstrap: bayesovská analýza: aposteriorní pravděpodobnosti parametrický bootstrap: evoluční model Testování hypotéz Test molekulárních hodin: Relative rate test (RRT): AC=BC? Linearizované stromy odstranění signifikantně odlišných taxonů 7.6.tif Relaxované molekulární hodiny multiplikátor neškálovaný čas škálovaný čas (očekávaný poč. substitucí/pozici umožňují změnu rychlostí podél větví Srovnání stromů Jsou dva stromy signifikantně odlišné? Testy párových pozic: winning sites test Felsensteinův z test Templetonův test Kishinův-Hasegawův test (KHT, RELL) Pro více než dva stromy: Shimodairův-Hasegawův (SH) test Do jaké míry jsou dva stromy odlišné? Distance mezi stromy: partition metric quartet metric path difference metric metody inkorporující délky větví Problémy s distancemi mezi stromy Srovnání stromů Konsensuální stromy striktní konsensus zdrojové stromy striktně konsensuální strom majority-rule zdrojové stromy většinový strom Konsensuální stromy problém s konsensuálními stromy – kombinovaná vs. separátní analýza, supermatrix vs. supertree konsensuální stromy v metodách opakovaného výběru, bayesovská analýza Fylogenetické programy alignment: ClustalX http://inn-prot.weizmann.ac.il/software/ClustalX.html konstrukce stromů: http://evolution.gs.washington.edu/phylip/software.html PAUP* PHYLIP McClade ... MP MOLPHY, PHYML, TREE-PUZZLE ... ML MrBayes ... BA práce se stromy: TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html