Testování neutrality vs. selekce základní mírou relativního významu selekce a driftu je poměr dN/dS (w) dN (dN, Ka) = průměrný počet nukleotidových rozdílů mezi sekvencemi na 1 nesynonymní pozici měří míru rozdílnosti 2 homologních kódujících sekvencí z hlediska aminokyselin, tj. do jaké míry se liší v nesynonymních pozicích dS (dS, Ks) = průměrný počet nukleotidových rozdílů mezi sekvencemi na 1 synonymní pozici měří míru rozdílnosti 2 homologních kódujících sekvencí z hlediska tichých substitutcí, tj. do jaké míry se liší v synonymních pozicích Výpočet dN/dS: přepsáno do sekvencí aminokyselin: nesynonymní záměny substituce tj. 5 nesynonymních substitucí protože celkový počet záměn je 10 (viz 10 hvězdiček mezi sekvencemi DNA), 5 musí být synonymních buď ACT (sekvence 1), nebo ACG (sekvence 2) Þ změna z A na kteroukoli bázi způsobí záměnu aminokyseliny (např. CCT, GCT, TCT) Þ pozice 1 je nesynonymní Pozice 2: podle genetického kódu každá substituce na 2. místě kodonu je nesynonymní Pozice 3: 4 potenciální aminokyseliny lišící se ve 3. pozici – ACT, ACG, ACC, ACA ® všechny kódují stejnou aminokyselinu (threonin, T) Þ všechny substituce jsou synonymní Þ pozice 3 je synonymní (tato pozice je 4-násobně degenerovaná) pozice 4 (C v CCG): všechny substituce nesynonymní pozice 5: nesynonymní atd. Pozice 9: Pozice 9: v sekvenci 1 = 3. pozice kodonu AAC (asparagin, N), v sekvenci 2 kodon ATC (isoleucin, I) mutace v AAC ® AAT (asparagin, N), AAG, AAA (obě lysin, K) Þ C = 2-násobně degenerovaná ® 9. pozice z 1/3 synonymní a ze 2/3 nesynonymní podobně mutace C v ATC ® ATT, ATA (obě isoleucin, I), ATG (methionin, M) Þ 3-násobně degenerovaná pozice – 2/3 synonymní, 1/3 nesynonymní Þ průměr ½(1/3 synonymních + 2/3 nesynonymních) + ½(2/3 synonymních + 1/2 nesynonymních) = ½ synonymních a ½ nesynonymních Þ pozice 9 je částečně synonymní a částečně nesynonymní Interpretace dN/dS: 1. všechny nesynonymní substituce jsou neutrální: počet synonymních i nesynonymních neutrálních mutací fixovaných každou generaci = m Þ dN/dS = m/m = 1 2. část nesynonymních substitucí je neutrálních, zbytek škodlivých: dS = m v každé generaci fixace f neutrálních nesynonymních mutací Þ (1 – f) škodlivých mutací se nezafixuje dN = fm + (1 – f)0 = fm dN/dS = fm/m = f Protože f je vždy < 1, platí dN/dS < 1 Závěr: dN/dS < 1 indikuje působení purifikující selekce 3. část f mutací je neškodných a (1 – f) škodlivých; z neškodných mutací je část q prospěšných a (1 – q) neutrálních: dS = m (1 – f) se nefixuje f(1 – q) neutrálních Þ fixace frekvencí m za generaci fq prospěšných, vznik rychlostí 2Nm za generaci, pravděpodobnost fixace rovna selekčnímu koeficientu s Þ počet nesynonymních substitucí fixovaných každou generaci: dN = (1 – f)0 + f(1 – q)m + fq 2Nms Þ dN/dS = [(1 – f)0 + f(1 – q)m + fq 2Nms]/m = f(1 – q) + fq 2Ns dN/dS > 1 pokud q velká, konkrétně Závěr: dN/dS > 1 indikuje působení pozitivní selekce Pozn.: dN/dS < 1 nemusí znamenat, že pozitivní selekce nepůsobí, pouze že ji tímto způsobem nemůžeme detekovat Shrnutí: 1. dN/dS = 1: substituce aminokyselin převážně neutrální (ale: pozitivní selekce může vyrušit působení selekce purifikující) Shrnutí: 2. dN/dS < 1: purifikující selekce (ale: některé AA mohly být fixovány pozitivní selekcí, purifikující selekce ale silnější) 3. dN/dS > 1: pozitivní selekce fixovala některé AA, některé substituce mohly být způsobeny driftem (ale: purifikující selekce mohla působit, ale nebyla dost silná, aby převážila nad selekcí pozitivní) Kromě výpočtu synonymních a nesynonymních pozic a synonymních a nesynonymních substitucí nutná ještě korekce pro opakované substituce na téže pozici ® pro výpočty nutné zjednodušující předpoklady, navíc nemůžeme přesně zjistit počet opakovaných substitucí Odhad pomocí maximální věrohodnosti (maximum likelihood): simultánní odhad všech 3 kroků současně poskytuje navíc odhad doby divergence a poměr Ts/Tv Ke kvantifikaci počtu substitucí lze: rekonstruovat ancestrální sekvenci a spočítat změny na jednotlivých pozicích (výsledek bude pravděpodobně podhodnocený) bayesovský přístup: použít substituční rychlosti (v apriorních kategoriích) generovat substituční rychlosti pro jednotlivé kodony Tajimův test neutrality měření rovnováhy mutace a driftu pomocí heterozygotnosti q = 4Nem q lze odhadovat i jinými způsoby: pij = počet párových rozdílů (SNP) mezi sekvencemi i a j (... celkem n(n – 1)/2 možných párových srovnání) S = počet segregujících pozic: suma párových rozdílů v případě DNA sekvencí dělíme ještě jejich délkou 1/1 + 1/2 + ... + 1/(n – 1) počet párových srovnání při modelu nekonečných pozic a neutrální evoluci platí: Fumio Tajima (1989): Př.: * * * * 1 ACCCG AATTC CAATC CGGTT 2 AACTG AATTC GAATC CGGTT 3 AACTG AATTC CAATC CGGTT 4 ACCTG AATTC TAATC CGGAT párová srovnání: 1-2: 3 rozdíly 1-3: 2 rozdíly 1-4: 3 rozdíly 2-3: 1 rozdíl 2-4: 3 rozdíly 3-4: 3 rozdíly prům. p = (3+2+3+1+3+3)/6 = 2,5 S = 4 segregující pozice Q = 4/(1/1 + 1/2 + 1/3) = 4/1,83 = 2,186 Q = 2,5 – 2,186 = 0,314 D < 0: nadbytek polymorfismů s nízkou frekvencí vzhledem k teoretickému předpokladu Þ purifikující selekce, selective sweep (+ populační expanze!) D > 0: nadbytek polymorfismů s nízkou i vysokou frekvencí vzhledem k předpokladu Þ balancující selekce (+ redukce populační velikosti!) Signifikance? nelze použít klasické P Tajima (1989): parametrická aproximace beta rozdělením Hudson (1990): generování náhodných vzorků za předpokladu neutrality a populační stability ® hodnota P = podíl náhodných výsledků £ vypočtené D Value of Tajima's D Mathematical reason Biological interpretation 1 Biological interpretation 2 Tajima's D=0 Pi equivalent to Theta (Observed= Expected). Average Heterozygosity= # of Segregating sites. Observed variation similar to expected variation Population evolving as per mutation-drift equilibrium. No evidence of selection Tajima's D<0 Pi less than Theta (Observed0 Pi greater than Theta (Observed>Expected). More haplotypes (more average heterozygosity)than # of segregating sites. Multiple alleles present, some at low, others at high frequencies Balancing selection, sudden population contraction McDonaldův-Kreitmanův test John H. McDonald and Martin Kreitman (1991): srovnání vnitrodruhového polymorfismu a mezidruhové divergence *) substituce = u 2 druhů fixována odlišná báze Ds = počet synonymních substitucí*) na sekvenci Dn = počet nesynonymních substitucí na sekvenci Ps = počet synonymních polymorfních pozic na sekvenci Pn = počet nesynonymních polymorfních pozic na sekvenci H0: Dn/Ds = Pn/Ps Þ neutrální evoluce H1: Dn/Ds ≠ Pn/Ps Þ selekce negativní (purifikující) selekce: škodlivé mutace silně ovlivňují polymorfismus Dn/Ds < Pn/Ps, tj. poměr nesynonymní/synonymní variability mezi druhy je nižší než poměr nesynonymní/synonymní variability uvnitř druhů pozitivní selekce: prospěšně mutace se rychle šíří Þ neovlivňují polymorfismus, ale mají vliv na mezidruhovou divergenci Dn/Ds > Pn/Ps, tj. poměr nesynonymní/synonymní variability mezi druhy je vyšší než poměr nesynonymní/synonymní variability uvnitř druhů podíl substitucí fixovaných selekcí: Problémy MKT: podhodnocení a v důsledku existence mírně škodlivých mutací, odlišných mutačních rychlostí v různých částech genomu, proměnlivosti v koalescenčních historiích různých částí genomu, změn v efektivní velikosti populace ´ tyto problémy ale neznamenají, že MKT považován za nespolehlivý další potenciální problém: infinite-sites model ® často odchylky od modelu uvnitř druhů, tím větší v mezidruhových srovnáních Detekce selekce na úrovni kodonů Které kodony pod pozitivní/negativní selekcí? substituční model, fylogenetický strom, výpočet dN/dS pro každý kodon v případě sekvencí složených z více jedinců (např. viry) odhad pozitivní selekce na úrovni populace Kdy v minulosti selekce působila? dN/dS mapováno na jednotlivé větve fylogenetického stromu Působí selekce uvnitř rekombinujících fragmentů? např. program Datamonkey (http://www.datamonkey.org)