nový-1 ÚVOD DO FYLOGENETICKÉ ANALÝZY II. MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE CZ.1.07/2.2.00/15.0204 PF_72_100_grey_tr ubz_cz_black_transparent Maximální věrohodnost (Maximum likelihood, ML) heterogenita substitučních rychlostí, ML a konzistence Bayesovská analýza MCMC Měření spolehlivosti stromů jackknife, bootstrap, parametrický bootstrap, permutační testy Testování hypotéz testy molekulárních hodin, srovnávání stromů, distance mezi stromy Konsensuální stromy Maximální věrohodnost (maximum likelihood, ML) • hod mincí 15´ ® skóre OOHHHOHOOOHOHHO: 7´ panna (hlava, H), 8´ orel (O) • pravděpodobnost, že padne hlava = p, orel = (1 – p) • hody nezávislé Þ pravděpodobnost výsledného skóre = (1 – p)´(1 – p)´p´p´p´(1 – p)´p´(1 – p)´(1 – p)´(1 – p)´p´(1 – p)´p´p´(1 – p) = p7(1-p)8 • maximum = 0,4666 » 7/15 MaxL L = (D½H) podmíněná pravděpodobnost získání dat D při hypotéze H p = 1/2 Þ L = 3,0517.10-5 p = 1/3 Þ L = 1,7841.10-5 Þ výsledek hodů 1,7´ pravděpodobnější s pravou mincí Maximální věrohodnost ve fylogenetické analýze 1 TCAAAAATGGCTTTATTCGCTTAATGCCGTTAACCCTTGCGGGGGCCATG 2 TCCGTGATGGATTTATTTCCGCAATGCCTGTCATCTTATTCTCAAGTATC 3 TTCGTGATGGATTTATTGCAGGTATGCCAGTCATCCTTTTCTCATCTATC 4 TTCGTGACGGGTTTATCTCGGCAATGCCGGTCATCCTATTTTCGAGTATT data: strom: topologie délky větví evoluční model = hypotéza Věrohodnostní funkce: jaká je pravděpodobnost získání daných dat při dané hypotéze? L = P(D│H), kde D = matice dat H = t (topologie), n (délky větví), q (model) Věrohodnost 1 j N 1 TCAAAAATGGCTTTATTCGCTTAATGCCGTTAACCCTTGCGGGGGCCATG 2 TCCGTGATGGATTTATTTCCGCAATGCCTGTCATCTTATTCTCAAGTATC 3 TTCGTGATGGATTTATTGCAGGTATGCCAGTCATCCTTTTCTCATCTATC 4 TTCGTGACGGGTTTATCTCGGCAATGCCGGTCATCCTATTTTCGAGTATT 1)L(1) = P(A) ´ P(T) ´ P(AC) ´ P(AC) ´ P(TA) ´ P(TG) 2)L(j) = P(scénář 1) + …. + P(scénář 16) 3)všechny pozice: L = L(1) ´ L(2) ´ … ´ L(j) ´ … ´ L(N) = 4)lnL = lnL(1) + lnL(2) + … + lnL(N) = x: 4 nukleotidy y: 4 nukleotidy Þ 4 ´ 4 = 16 možných scénářů Věrohodnost Věrohodnost (ML) a úspornost (MP) Věrohodnost A A A G Simulation Věrohodnost Věrohodnost a konzistence Věrohodnost a konzistence “chybný” “správný” “long-branch repulsion” Farrisova (anti-Felsensteinova, inverzní Felsensteinova) zóna Věrohodnost Bayesovská analýza ML: jaká je pravděpodobnost dat při dané hypotéze? bayesiánský přístup - příklad: • soubor 100 kostek, ze kterých máme vybrat jednu • víme, že ze 100 kostek je 80 v pořádku, ale 20 je upraveno tak, aby padala 6 • pravděpodobnosti jednotlivých výsledků u pravých kostech stejné, u falešných se liší: • házíme 2´ pravá falešná 1/6 1/21 1/6 3/21 1/6 3/21 1/6 4/21 1/6 4/21 1/6 6/21 ® Jaká je pravděpodobnost, že naše kostka je falešná? 1. hod: 2. hod: Aposteriorní pravděpodobnost, že naše kostka je falešná, je dána Bayesovou rovnicí: Bayesovská analýza • aposteriorní pravděpodobnost (posterior probability) = pr. platnosti hypotézy při získaných datech: P(H½D) • a.p. je funkcí věrohodnosti P(D½H) a apriorní pravděpodobnosti (prior prob.) • prior vyjadřuje náš apriorní předpoklad nebo znalost • příklad se 2 hody kostkou: P(D½H) ´ P(H) P(H½D) = S[P(D½Hi)´P(Hi)] věrohodnost prior suma čitatelů pro všechny alternativní hypotézy • apriorní pravděpodobnost (falešná) = 0.2 (20/100 falešných kostek v souboru) • Pr., že dostaneme s pravou kostkou: P = 1/6 ´ 1/6 = 1/36 • Pr. že dostaneme s falešnou kostkou: P = 3/21 ´ 6/21 = 18/441 P(biased| ) = P( |biased) ´ P(biased) P( |biased) ´ P(biased) + P( |fair) ´ P(fair) 18/441 ´ 2/10 = = 0.269 18/441 ´ 2/10 + 1/36 ´ 8/10 Bayesovská analýza pravá falešná 1/6 1/21 1/6 3/21 1/6 3/21 1/6 4/21 1/6 4/21 1/6 6/21 ( ) ( ) ( ) ( ) ( ) [ ] å = = ) s ( B i θ P θ P θ P θ P θ P 1 , , , , , , , , , , ν ν X ν ν X X ν t t t t t posterior prior likelihood summing over all possible trees Bayesovská analýza Bayesovská metoda ve fylogenetické analýze: Parametry pro bayesovskou analýzu: ML odhady ® empirická BA všechny kombinace ® hierarchická BA Bayesovská analýza Markovův proces: t(-1) A ® T(0) C ® T(+1) G … P stejná po celé fylogenii = homogenní Markovův proces • Problém: příliš složité Þ nelze řešit analyticky, pouze numericky aproximovat • řešení: metody Monte Carlo • náhodný výběr vzorků, při velkém množství aproximace skutečnosti • Markovovy řetězce: Markov chain Monte Carlo (MCMC) Změna parametru x ® x’ 1.jestliže P(x’) > P(x), akceptuj x’ 2.jestliže P(x’) ≤ P(x), vypočti r = P(x’)/P(x) protože platí, že P(x’) ≤ P(x), musí být r ≤ 1 3.generuj náhodné číslo U z rovnoměrného rozělení z intervalu (0, 1) 4.jestliže r ≥ U, akceptuj x’, jestli ne, ponechej x Metropolisův-Hastingsův algoritmus: Bayesovská analýza usměrněný pohyb robota v aréně: „vrstevnice“ arény Bayes3 MrBayes: http://morphbank.ebc.uu.se/mrbayes/ 4 independent chains, Metropolis-coupled MCMC “burn-in” stacionární fáze (plateau) Bayesovská analýza Problémy apriorních pravděpodobností! Měření spolehlivosti stromů Boot • bez navrácení – jackknife • z navrácením – bootstrap Metody opakovaného výběru • parametrický bootstrap: evoluční model • aposteriorní pravděpodobnosti Je hierarchiká struktura stromu reálná? • permutation tail probability test (PTP) • topology-dependent permutation tail prob. test (T-PTP) Měření spolehlivosti Testování hypotéz • Testování modelů: LRT, Akaike, Bayes Testy molekulárních hodin • Relative rate test (RRT): AC=BC? • linearizované stromy odstranění signifikantně odlišných taxonů • relaxované molekulární hodiny umožňují změnu rychlostí podél větví A C B Testování hypotéz Srovnání stromů Je jeden strom lepší než druhý? Testy párových pozic: • winning sites test • Felsensteinův z test • Templetonův test • Kishinův-Hasegawův test (KHT, RELL) Pro více než dva stromy: • Shimodairův-Hasegawův (SH) test Jsou dva stromy signifikantně odlišné? Distance mezi stromy: • partition metric • quartet metric • path difference metric • metody inkorporující délky větví Problémy s distancemi mezi stromy! Konsensuální stromy • striktní konsensus • majority-rule • problém s konsensuálními stromy – kombinovaná vs. separátní analýza, supermatrix vs. supertree • konsensuální stromy v metodách opakovaného výběru, bayesovská analýza Fylogenetické programy • alignment: ClustalX http://inn-prot.weizmann.ac.il/software/ClustalX.html • PAUP* • PHYLIP • McClade ... MP • MOLPHY, TREE-PUZZLE ... ML • MrBayes ... BA • práce se stromy: TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html