Analýza populační variability a struktury - základy populační genetiky Fylogenetika vs. populační genetika ACGTTTCT ACGTTTCT ACGATTCT ACGATTCT ACGATTGT ACGTTTCT ACGTTTCT ČAS ACGATTCT ACGATTGT ACGTTTCT ACGTTTCT mutační rychlost - datování fylogenetické vztahy mezi jednotlivými variantami selekce na úrovni kódujících sekvencí většinou nás nezajímají frekvence alel ACGATTGT ACGATTGT ACGATTGT ACGATTCT ACGTTTCT ACGTTTCT ACGTTTCT ACGTTTCT založená na frekvencích alel genetický drift, populační struktura, tok genů, efektivní velikost populace selekce – srovnání populační struktury na kódujících a nekódujících znacích Hierarchická populační struktura Druh → populace → subpopulace (demy) •Jak je variabilní daná populace a jaká je její efektivní velikost (neutrální genetická teorie: He=4Neµ/[4Neµ+1]) • •Nachází se daná populace v období demografické expanze nebo poklesu? • •Existuje mezi dvěma subpopulacemi bariéra toku genů a jak je silná? Jaká je prostorová genetická struktura? • •Vyskytují se v populacích imigranti nebo jejich potomci (hybridi)? Hlavní otázky populačně-genetické analýzy: Populačně-genetická data - v tomto kurzu omezena na diploidní kodominantní znaky (Mendelovská dědičnost) CCGATCAATGCGGCAA CCGATCACTGCGGCAA T G mikrosatelity jaderné sekvence (např. SSCP) SNPs Velké množství populačně-genetických programů Kodominantní znaky (např. mikrosatelity) – GenAlEx formát počet lokusů počet jedinců počet populací počet vzorků v 1. populaci počet vzorků v 2. populaci, atd. genotypy, tj. velikosti fragmentů u jednotlivých jedinců geografické koordináty pop1 pop2 Genepop file format – jednoduchý ASCI kód (.txt) - jednotlivé alely pro daný lokus jsou seřazeny podle velikosti a očíslovány - tj. např. 128/130 je převedeno na 10/11 Vnitropopulační variabilita •Polymorfismus •podíl polymorfních lokusů (znaků) – např. 0,8 = 4 z pěti zkoumaných mikrosatelitů mají v populaci alespoň 2 alely, z nichž ta vzácnější dosahuje frekvence alespoň 1% nebo 5% • •Počet alel (number of alleles) •počet alel na lokus • •Alelická bohatost (allelic richness) •počet alel na lokus vztažený k velikosti vzorku (metodou „rarefaction“) - FSTAT • •Pozorovaná heterozygotnost (observed heterozygosity) •průměrná četnost heterozygotů v jednotlivých lokusech • • Sample size Hardy-Weinbergova rovnováha (HWE) Alela Četnost alely 170 p 172 q Př. Jeden lokus se 2 alelami p + q = 1 p, q - zjistíme analýzou svých vzorků Genotyp Očekávaná četnost genotypu 170/170 p2 170/172 2pq 172/172 q2 = Hardy-Weinbergova rovnováha (p2 + 2pq + q2 = 1) Ø četnosti genotypů zjistíme analýzou svých vzorků Ø odchylky od očekávaných četností Þ test HWE (např. c2 test nebo exact probability test v Genepop) Očekávaná heterozygotnost (expected heterozygosity, He) při HWE He=1-(p2+q2) ..... pro 1 lokus se 2 alelami s četností p a q = rozmístění alel do genotypů v rovnovážné populaci Předpoklady HWE •náhodné párování (panmixia) •zanedbatelný efekt mutací a migrací („closed populations“) •nekonečně velká populace •Mendelovská dědičnost použitých markerů •neutrální znaky – žádná selekce • •znaky nejsou ve vazbě – kontrola na „linkage disequilibrium“ (vazebná nerovnováha; speciální test např. v Genepop) • 2 lokusy ve fyzické blízkosti (snížená pravděpodobnost rekombinace linkage disequilibrium) vs. 2 lokusy fyzicky vzdálené (pravděpodobnost rekombinace není ovlivněna linkage equilibrium) nebo Odchylky od HW rovnováhy •Test HWE – např. Genepop („exact probability tests“) – pokud jsou odchylky, tak některý předpoklad HWE nebyl splněn • •nadbytek heterozygotů = negativní asortativní páření (tj. cílené rozmnožování nepodobných jedinců) – použité lokusy mohou být výhodné v heterozygotním stavu (např. geny MHC) • •nedostatek heterozygotů •inbreeding (postihuje všechny lokusy stejně) •vnitřní struktura („Wahlundův efekt“) •nulové alely (jen na některých lokusech bude deficit heterozygotů) - FreeNA Null alleles nnulové alely (mutace v primerových sekvencích) → vyšší proporce „homozygotů“ TTCAGGCACACACATCTCTAGCTTCGA TTCAGGCACACATCTCTAGCTTTGA x PCR OK no PCR Příklad – stanovení variability populace Jedinec Locus 1 Locus 2 Locus 3 Locus 4 Průměr Ind 1 170/170 223/227 116/116 316/316 Ind 2 170/172 223/225 112/112 316/316 Ind 3 172/172 223/225 112/112 316/316 Ind 4 170/172 223/227 112/112 316/316 Počet alel 2 3 2 1 2 Ho 0,5 1,00 0 0 0,375 p 0,5 p = 0,5 0,75 1,00 q 0,5 q = 0,25 r = 0,25 0,25 0 He 0,5 0,625 0,375 0 0,375 He=1-(p2+q2) He=1-(p2+q2+r2) Polymorfismus = 0,75 Proč analyzovat genetickou variabilitu? Efektivní velikost populace (Ne) •Ne = velikost ideální populace (náhodné páření, rovnoměrný poměr pohlaví), která ztrácí genetickou diverzitu stejnou rychlostí jako aktuální populace (vlivem náhodného driftu) •ovlivněna genetickou a věkovou strukturou, poměrem pohlaví, intenzitou inbreedingu atd. < Ne •vývoj genetické variability v malých populacích závisí na Ne více než na N → rychlé změny v alelických frekvencích při malém Ne • Použití údajů o genetické variabilitě •neutrální genetická teorie: •q = xNeµ • •He=4Neµ/[4Neµ+1] • •„mutation-drift equilibrium“ aj. assumptions • •srovnání různých populací a jejich Ne (He, AR atd.) – význam např. v ochranářském managementu br05f01 počet mutací typ genetického markeru Programy pro analýzu vnitropopulační genetické variability a pro základní popis dat •GenAlEx – konverze formátů, Ho, He, HWE • •Genepop – LD, HWE • •FSTAT – allelic richness • •FreeNA – null alleles Mutation-drift equilibrium •vznik nových alel – mutace (stepwise mutation model vs. infinite allele model) • •ztráta alel – genetický drift • • Genetický drift Random_sampling_genetic_drift.gif •Náhodné změny ve frekvencích alel •Intenzita driftu závisí na velikosti populace •Specifické případy – founder effect, bottleneck pop_lidi Mezipopulační variabilita Hierarchická populační struktura Druh → populace → subpopulace (demy) •klasický populačně-genetický přístup = jednotlivé populace jsou předem známy (např. chceme zjistit úroveň genetických rozdílů mezi dvěma lokalitami = populacemi) • •Bayesiánské shlukování = populace nejsou definovány, při analýze jsou hledány shluky jedinců v HWE a jednotliví jedinci jsou k těmto shlukům (= populacím) přiřazováni (s určitou pravděpodobností) • Kodominantní znaky (např. mikrosatelity) – GenAlEx formát počet lokusů počet jedinců počet populací počet vzorků v 1. populaci počet vzorků v 2. populaci, atd. genotypy, tj. velikosti fragmentů u jednotlivých jedinců geografické koordináty pop1 pop2 Genetická struktura populací drift, mutace •Drift → diferenciace subpopulací díky změnám frekvencí (až fixaci) alternativních alel • • •Mutace mohou zvýšit diferenciaci • • 1/1 1/1 1/1 1/1 1/1 1/1 1/2 1/2 1/1 1/1 1/2 2/2 2/2 1/2 1/2 2/2 1/1 1/1 2/2 2/2 2/2 2/2 2/2 2/2 1/2 1/2 1/2 1/2 drift Migrace (genový tok) - působí proti diferenciaci subpopulací 1/3 2/4 Vliv populační struktury na heterozygotnost •Wahlundův princip • •Dvě izolované subpopulace s fixovanými alelami • •Subpopulace v HW, celkově v populaci však nedostatek heterozygotů 1/1 1/1 1/1 1/1 1/1 1/1 1/1 1/1 1/1 2/2 2/2 2/2 2/2 2/2 2/2 2/2 2/2 2/2 2/2 Wahlundův princip - příklad •Jezero Bunnersjöarna (severní Švédsko) – „brown trout“ •2 alely na jednom znaku 170/170 170/172 (= Ho) 172/172 Total p 2pq (=He) Přítok 50 0 (0) 0 50 1.000 0.000 Odtok 1 13 (0.26) 36 50 0.150 0.255 Celé jezero (expected) 51 (33.1) 13 (0.13) (48.9) 36 (18.1) 100 0.575 0.489 Ryman et al. 1979 p2 = 0.5752 q2 = 0.4252 Factorial correspondence analysis - each locus as one variable, reduction of number of variables - Genetix – orientační zjištění strukturovanosti populace - individuals vs. populations Genetix F-statistiky •Wright, Nei FIS, FST, FIT • •Popisují heterozygotnost (odchylky od HW) na různých měřítkách • • wright-sewall9 Sewall Wright 1889 - 1988 Masatoshi Nei *1931 Odhad vlivu populační struktury na genetický make-up populace • 3 úrovně (T, S, I) • x subpopulací (x = 1 až k; zde k = 3) • každá subpopulace má Nx jedinců • 1/1, 1/2, 1/3 – odlišný symbol • př. I1-13 = 13. jedinec z první subpopulace Koncept heterozygotnosti HI – průměrná pozorovaná heterozygotnost jedince v subpopulaci HS - očekávaná heterozygotnost jedince v subpopulaci za předpokladu náhodného páření HT - očekávaná heterozygotnost jedince v celé populaci za předpokladu náhodného páření Hx = pozorovaná heterozygotnost v subpopulaci x pi,x2 = frekvence i-té alely v subpopulaci x průměrná oček. heterozygotnost v populaci (tj. průměr ze všech subpopulací) Ø pouze pro dvě alely na jednom lokusu (Wright 1931) Ø pro více alel je výpočet složitější (Nei 1987) po = frekvence alely v celé populaci F statistiky Snížení heterozygotnosti jedince kvůli nenáhodnému páření v subpopulaci (~ HWE) Snížení heterozygotnosti vlivem rozdělení populace na subpopulace (Wahlundův efekt) Celkový koeficient inbreedingu FIT - měří redukci heterozygotnosti jedince ve vztahu k celkové populaci (1-FIT)= (1-FST)(1-FIS) Weir & Cockerham (1984) f, θ , F Korekce na velikost vzorku a počet subpopulací Výpočet F statistik - příklad Subpopulace 1 (N1=40) Subpopulace 2 (N2=20) Lokus 1/1 1/2 2/2 p1(j) 1/1 1/2 2/2 p2(j) p0(j) Pozn. Loc I 10 20 10 0.5 5 10 5 0.5 0.5 H.-W. rovnováha Loc II 16 8 16 0.5 4 4 12 0.3 0.4 deficit heterozygotů Loc III 12 28 0 0.65 6 12 2 0.6 0.625 přebytek heterozygotů Loc IV 0 0 40 0.0 20 0 0 1.0 0.5 alternativně fixované alely Výpočet alelových frekvencí Pozorovaná heterozygotnost Očekávaná heterozygotnost Wrightova F-statistika Lokus H1 (j) H2 (j) HI (j) HS (j) HT (j) FIS (j) FST (j) FIT (j) Loc I 0.5 0.5 0.5 0.5 0.5 0.0 0.0 0.0 Loc II 0.2 0.2 0.2 0.46 0.48 0.565 0.042 0.583 Loc III 0.7 0.6 0.65 0.4675 0.46875 -0.39 0.0027 -0.387 Loc IV 0.0 0.0 0.0 0.0 0.5 --- 1.0 1.0 Průměr 0.058 0.261 0.300 Průměrná frekvence alely A v celé populaci Výpočet FST - příklad Ryman et al. 1979 V důsledku bariéry toku genů je heterozygotnost o 72.8% nižší než by byla v panmiktické populaci 170/170 170/172 (= Ho) 172/172 Total p 2pq (=He) Přítok 50 0 (0) 0 50 1.000 0.000 Odtok 1 13 (0.26) 36 50 0.150 0.255 Celé jezero (expected) 51 (33.1) 13 (0.13) (48.9) 36 (18.1) 100 0.575 0.489 „Permutation“ test významnosti FST 0,80 % simulovaných hodnot větších než skutečné Fst p = 0,008 (tj. významný rozdíl) Fst = 0,072 Fst = 0,0013 35.40 % simulovaných hodnot větších než skutečné Fst p = 0,354 (tj. nevýznamný rozdíl) 1. Skutečné populace Reálné Fst 2. Sloučení jedinců 3. 1000 x náhodně vytvořené populace 1000 x nasimulované Fst za nepřítomnosti bariéry Global vs. pairwise indices Zdroje chyb při analýze Fst Absolutní hodnoty závisí na heterozygotnosti !!! (např. nelze srovnávat alozymy s mikrosatelity) Nutno standardizovat: FST´ = FST/FSTmax (Hedrick 2005) – např. GenAlex Nutno korigovat na přítomnost nulových alel (většinou uměle zvyšují Fst – zvýšení homozygotnosti) - FreeNA 1/1 1/1 3/5 1/1 1/5 1/5 2/5 4/5 1/2 2/2 2/2 2/2 1/3 2/4 1/1 1/1 3/3 1/1 1/1 1/1 2/2 4/4 1/2 2/2 2/2 2/2 1/3 2/4 Global vs. pairwise indices Programy pro analýzu F-indexů •GenAlEx – jednoduchý výpočet (+ Hedrickova korekce) • •Genetix – permutační testy • •FSTAT – dtto • •FreeNA – korekce FST na nulové alely F statistiky Snížení heterozygotnosti jedince kvůli nenáhodnému páření v subpopulaci (~ HWE) Snížení heterozygotnosti vlivem rozdělení populace na subpopulace (Wahlundův efekt) Celkový koeficient inbreedingu FIT - měří redukci heterozygotnosti jedince ve vztahu k celkové populaci (1-FIT)= (1-FST)(1-FIS) Weir & Cockerham (1984) f, θ , F Korekce na velikost vzorku a počet subpopulací Populační struktura - shrnutí Kontinuální populace (gene flow) Izolované populace (no gene flow) Ne ¯ Genetický drift ¯ Genetická diverzita (AR, He, ...) ¯ Populační struktura (FST) ¯ > 3. Population assignments •Klasické problémy populační genetiky • •Populace dány, jedinci předem zařazeni do populací, zajímají nás vlastnosti populací (F-statistiky) → ad (1) nebo (2) – •Populace sice definovány, ale chceme k nim přiřadit jedince neznámého původu (GeneClass2) • •Kryptická populační struktura = předem není dáno nic → chci zjistit klastry (tj. přirozené populace) a rozřadit individua do klastrů (STRUCTURE) • 1.vnitropopulační variabilita – deskriptivní statistiky 2.popis populačně-genetické struktury, bariéry toku genů Population assignment tests § program GeneClass (Piry et al. 2004) § počítá pravděpodobnost, že se určitý genotyp může vyskytovat v určité předem definované populaci – identifikace recentních migrantů nebo zvířat neznámého původu (pytláctví) § může kombinovat data z různých genetických markerů Závisí na míře genetických rozdílů mezi populacemi 5 microsatellite loci Fst = 0.14 99.9% assigned correctly 5 microsatellite loci Fst = 0.04 90.2% assigned correctly Příklad: Zařazení šimpanzů chovaných v zajetí do poddruhů •Kryptická populační struktura • •Neznámý počet skupin (klastrů) • •Úroveň jedince • •Vytvořit klastry a současně k nim přiřadit jedince • •K dispozici máme individuální genotypy (případně i souřadnice) • • •Data: msat (jiné kodominantní lokusy, SINE), AFLP • Individual-based assignments (= STRUCTURE) mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 Bayesian clustering approach STRUCTURE - Pritchard et al. 2000 •Neznámý počet populací charakterizovaných různými frekvencemi alel → počet populací a frekvence zjišťuji •Současně přiřazuji individua do populací •Lokusy, které nejsou ve vazbě, HW uvnitř subpopulací (např. mikrosatelity, SNPs) •Model se snaží vyložit HW nebo vazebnou nerovnováhu zavedením populační struktury Bayesian clustering approach STRUCTURE - Pritchard et al. 2000 •Neznámý počet populací charakterizovaných různými frekvencemi alel → počet populací a frekvence zjišťuji •Současně přiřazuji individua do populací •Lokusy, které nejsou ve vazbě, HW uvnitř subpopulací (např. mikrosatelity, SNPs) •Model se snaží vyložit HW nebo vazebnou nerovnováhu zavedením populační struktury •Místo přímého výpočtu – odhad pomocí Markov chain Monte Carlo nutno opakovat několik běhů pro každý model Program STRUCTURE - Bayesiánský přístup recentní migranti hybrid? Q-values (pravděpodobnost přiřazení k danému clusteru) K7 „Barplot“ pro K = 7 Proporce genomu každého jedince náležející určitému „clusteru“ „Admixture“ model – umožňuje zařazení jedince do více klastrů K (number of clusters) 7? 10? Stanovení počtu „přirozených“ subpopulací K=5 Další úpravy výsledků ze STRUCTURE •Structure Harvester – příklad • •CLUMPP – podobnost výsledku běhů pro stejná K; permutace jednotlivých analýz pro stejná K • •DISTRUCT – vizualizace, grafická úprava barplotů • Alternativní vizualizace výsledků ze STRUCTURE „forced clustering“ Zobrazení hierarchické struktury mezi populacemi •Q-values pro celé populace (ne jedince) NewHYBRIDS STRUCTURE NEWHYBRIDS 4. Prostorová genetika („landscape genetics“; „spatial genetics“) •klasická populační genetika •test Isolation-by-distance (např. Genepop) •prostorové autokorelační analýzy (např. GenAlex) • •individual-based models •vychází z Bayesian clustering approach (typu STRUCTURE) – •do modelování genetické informace přidává i geografické koordináty •např. programy BAPS, TESS, Geneland (automaticky stanovují nejlepší počet populací K) Isolation by distance •rozumné geografické měřítko (závisí na schopnosti disperze) • •musí být ustanovena rovnováha mezi migrací a driftem • •island model • •IBD (isolation-by-distance) nebude • –u velmi recentně izolovaných populací – –u zcela izolovaných populací – –při značné migraci • • Isolation by distance Crotaphytus collaris Hutchinson & Templeton 1999 desítky tisíc let nejsou bariéry rovnováha mezi driftem a migrací postglaciálně fragmentace vliv driftu postglaciálně nejsou bariéry vliv migrace postglaciálně vzrůstající fragmentace vliv driftu na velkých měřítkách rovnováha na malých měřítkách Detekce IBD •korelace mezi maticí genetických a geografických vzdáleností • •Mantelův test • •např. Genepop Příklad: IBD u netopýrů rodu Pipistrellus (výpočet geografických vzdáleností v GenAlex) Spatial models – individual-based approach tesselation, Voronoi polygons - do modelu se jako další proměnné zadávají prostorové souřadnice - - počet klastrů je většinou odhadován jako jeden z parametrů modelu (vs. STRUCTURE) Př.: Geneland Best K=4 R platform Posterior probability maps STRUCTURE vs. BAPs Robustní podpora genetické struktury K = 7 Srovnání vlastností jednotlivých „individual-based assignment“ programů