UVOD DO FYLOGENETICKÉ ANALÝZY II. Maximální věrohodnost (Maximum likelihood, ML) heterogenita substitučních rychlostí, ML a konzistence Bayesovská analýza MCMC Měření spolehlivosti stromů jackknife, bootstrap, parametrický bootstrap, permutační testy Testování hypotéz testy molekulárních hodin, srovnávání stromů, distance mezi stromy Konsensuální stromy Maximální věrohodnost (maximum likelihood, ML) • hod mincí 15x ® skóre OOHHHOHOOOHOHHO: 7x panna (hlava, H), 8x orel (O) • pravděpodobnost, že padne hlava = p, orel = (1 - p) • hody nezávislé => pravděpodobnost výsledného skóre = (1 - p)x(1 - p)xpxpxpx(1 - p)xpx(1 - p)x(1 - p)x(1 - p)xpx(1 - p)xpxpx(1 - p) = p7(1-p) • maximum = 0,4666 » 7/15 L = (D I H) podmíněná pravděpodobnost získání dat D při hypotéze H p = 1/2 = L = 3,0517.10-5 p = 1/3 = L = 1 J841.10-5 = výsledek hodů 1,7x pravděpodobnější s pravou mincí Věrohodnost Maximální věrohodnost ve fylogenetické analýze data: 1 TCAAAAATGGCTTTATTCGCTTAATGCCGTTAACCCTTGCGGGGGCCATG 2 TCCGTGATGGATTTATTTCCGCAATGCCTGTCATCTTATTCTCAAGTATC 3 TTCGTGATGGATTTATTGCAGGTATGCCAGTCATCCTTTTCTCATCTATC 4 TTCGTGACGGGTTTATCTCGGCAATGCCGGTCATCCTATTTTCGAGTATT strom: topologie délky větví c Věrohodnostní funkce: jaká je pravděpodobnost získání daných dat při dané hypotéze? evoluční model = hypotéza L = P(D|H), kde D = matice dat H = r(topologie), v (délky větví), #(model) 1 2 3 4 j 1 TCAAAAATGGCTTTATTCGC Věrohodnost N TTAATGCCGTTAACCCTTGCGGGGGCCATG TCCGTGATGGATTTATTTCCGCAATGCCTGTCATCTTATTCTCAAGTATC TTCGTGATGGATTTATTGCAGGTATGCCAGTCATCCTTTTCTCATCTATC TTCGTGACGGGTTTATCTCGGCAATGCCGGTCATCCTATTTTCGAGTATT 1) L(1) = P(A) x P(T) x P(AC) x P(AC) x P(TA) x P(TG) 2) L(j) = P(scénář 1) + „„ + P(scénář 16) 3) všechny pozice: L = L(1) x L(2) x ... x L(j) x ... x L(N) = N 4) InL = lnL(1) + lnL(2) + _ + lnL(N) = j=1 j x: 4 nukleotidy y: 4 nukleotidy 4 x 4 = 16 možných scénářů N Věrohodnost A A Věrohodnost (ML) a úspornost (MP) v n= 0,01 n= 0,10 n= 0,20 n= 1,00 Počet změn Parsimonie (0,2475) (0,2266) (0,20611) (0,11192) 0 100 99,99 99,83 99,31 82,17 1 0 0,00 0,00 0,00 0,00 2 0 0,0011 0,11 0,44 9,13 3 0 0,034 3,55 4 0 0,0027 n= 0,01 n= 0,10 n= 0,20 n= 1,00 Počet změn Parsimonie (0,00083) (0,00786) (0,01462) (0,04602) 0 0 0,00 0,00 0,00 0,00 1 100 99,66 96,64 92,36 66,54 2 0 0,33 3,22 6,22 21,19 3 0 0,12 0,48 8,61 4 0 0,003 0,023 2,05 5 0 0,0037 0,42 Věrohodnost Věrohodnost a konzistence Věrohodnost Věrohodnost a konzistence (anti-Felsensteinova, inverzní Felsensteinova) zóna Bayesovská analýza ML: jaká je pravděpodobnost dat při dané hypotéze? bayesiánský přístup - příklad: • soubor 100 kostek, ze kterých máme vybrat jednu • víme, že ze 100 kostek je 80 v pořádku, ale 20 je upraveno tak, aby padala 6 • pravděpodobnosti jednotlivých výsledků _ u pravých kostech stejné, u falešných se liší: pravá falešná • házíme 2x 1. hod: 2. hod: i: ® Jaká je pravděpodobnost, že naše kostka je falešná? t: 1/6 1/6 1/6 1/6 1/6 1/6 1/21 3/21 3/21 4/21 4/21 6/21 Bayesovská analýza • aposteriorní pravděpodobnost (posterior probability) = pr. platnosti hypotézy při získaných datech: P(H | D) • a.p. je funkcí věrohodnosti P(D | H) a apriorní pravděpodobnosti (prior prob.) • prior vyjadřuje náš apriorní předpoklad nebo znalost • příklad se 2 hody kostkou: Aposteriorní pravděpodobnost, že naše kostka je falešná, je dána Bayesovou rovnicí: věrohodnost P(HI D) = prior suma čitatelů pro všechny alternativní hypotézy apriorní pravděpodobnost (falešná) = 0.2 (20/100 falešných kostek v souboru) Pr., že dostaneme P = 1/6 x 1/6 = 1/36 Pr. že dostaneme P = 3/21 x 6/21 = 18/441 li s pravou kostkou: s falešnou kostkou: Bayesovská analýza pravá falešná • 1/6 1/21 • • 1/6 3/21 1/6 3/21 • • • • 1/6 4/21 1/6 4/21 1/6 6/21 P(E3 M Ibiased) x P(biased) P(biased| [\| = P(0M Ibiased) x P(biased) + P( [%] |Q| |fair) x P(fair) 18/441 x 2/10 18/441 x 2/10 + 1/36 x 8/10 = 0.269 Bayesovská analýza Bayesovská metoda ve fylogenetické analýze: posterior likelihood Pt v e\X)= pXtv,e)pb,v,o) ^ [p(x|t v, O )Pt v, O )] prior i=1 summing over all possible trees Parametry pro bayesovskou analýzu: ML odhady ® empirická BA všechny kombinace ® hierarchická BA p (x\t, v,q)= Jp (x\t, v ,q) dF (v,q) Bayesovská analýza • Problém: příliš složité => nelze řešit analyticky, pouze numericky aproximovat • řešení: metody Monte Carlo • náhodný výběr vzorků, při velkém množství aproximace skutečnosti • Markovovy řetězce: Markov chain Monte Carlo (MCMC) Markovův proces: t(-1) A ® T(0) C ® T(+1) G ... P stejná po celé fylogenii = homogenní Markovův proces Bayesovská analýza Metropolisův-Hastingsův algoritmus: Změna parametru x ® x' 1. jestliže P(x') > P(x), akceptuj x' 2. jestliže P(x') < P(x), vypočti r = P(x')/P(x) protože platí, že P(x') < P(x), musí být r < 1 3. generuj náhodné číslo U z rovnoměrného rozělení z intervalu (0, 1) 4. jestliže r > U, akceptuj x', jestli ne, ponechej x usměrněný pohyb robota v aréně 25000 kroků „vrstevnice" arény Bayesovská analýza stacionární fáze (plateau) "burn-in" MrBayes: http://morphbank.ebc.uu.se/mrbaves/ 4 independent chains, Metropolis-coupled MCMC Problémy apriorních pravděpodobností! Měření spolehlivosti stromů Metody opakovaného výběru bez navrácení-jackknife z navrácením - bootstrap Měření spolehlivosti • parametrický bootstrap: evoluční model • aposteriorní pravděpodobnosti Je hierarchiká struktura stromu reálná? • permutation tail probability test (PTP) • topology-dependent permutation tail prob. test (T-PTP) Testování hypotéz • Testování modelů: LRT, Akaike, Bayes Testy molekulárních hodin • Relative rate test (RRT): AC=BC? A B C • linearizované stromy \. odstranění signifikantně odlišných taxonů \ / • relaxované molekulární hodiny umožňují změnu rychlostí podél větví V Testování hypotéz Srovnání stromů Je jeden strom lepší než druhý? Testy párových pozic: • winning sites test • Felsensteinův z test • Templetonův test • Kishinův-Hasegawův test (KHT, RELL) Pro více než dva stromy: • Shimodairův-Hasegawův (SH) test Jsou dva stromy signifikantně odlišné? Distance mezi stromy: ^ q^rtSmtfri^ Problémy s distancemi mezi stromy! • path difference metric • metody inkorporující délky větví Konsensuální stromy • striktní konsensus • majority-rule • problém s konsensuálními stromy - kombinovaná vs. separátní analýza, supermatrix vs. supertree • konsensuální stromy v metodách opakovaného výběru, bayesovská analýza Fylogenetické programy • alignment: ClustalX http://inn-prot.weizmann.ac.il/software/ClustalX.html • PAUP* • PHYLIP • McClade ... MP • MOLPHY, TREE-PUZZLE ... ML • MrBayes ... BA • práce se stromy: TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html