Typy populačně-genetických dat a jejich základní analýza Fylogenetika vs. populační genetika ACGTTTCT ACGTTTCT ACGATTCT ACGATTCT ACGATTGT ACGTTTCT ACGTTTCA ČAS ACGATTCT ACGATTGT ACGTTTCT ACGTTTCT - mutační rychlost - datování - fylogenetické vztahy mezi jednotlivými variantami - selekce na úrovni kódujících sekvencí - většinou nás nezajímají frekvence alel ACGATTGT ACGATTGT ACGATTGT ACGATTCT ACGTTTCA ACGTTTCT ACGTTTCA ACGTTTCT - založená na frekvencích alel - relativně recentní procesy: genetický drift, populační struktura, tok genů, efektivní velikost populace - selekce – srovnání populační struktury na kódujících a nekódujících znacích Laboratorní techniky (= typy genetických markerů) Př.: chromozóm 1 „single-locus“ (PCR, microarrays) „multi-locus“ (dominantní znaky) Typy populačně-genetických dat Jedinec Marker 1 Marker 2 Ind_1 170/172 133/136 Ind_2 168/172 133/139 Ind_3 168/168 136/139 Jedinec Marker 1 Marker 2 Ind_1 A/T C/T Ind_2 A/T T/T Ind_3 T/T C/T Jedinec Marker 1 Marker 2 Ind_1 +/- -/- Ind_2 +/+ +/+ Ind_3 -/- +/- Jedinec Marker 1 Marker 2 Ind_1 + - Ind_2 + + Ind_3 - - mikrosatelity SNPs SINE AFLP •Jak je variabilní daná populace a jaká je její efektivní velikost • •Nachází se daná populace v období demografické expanze nebo poklesu? • •Existuje mezi dvěma subpopulacemi bariéra toku genů a jak je silná? Jaká je prostorová genetická struktura? • •Vyskytují se v populacích imigranti nebo jejich potomci (hybridi)? • •Jaká je příbuzenská struktura populace a došlo v ní k inbreedingu? Populačně-genetická analýza Populačně-genetická data - v tomto kurzu omezena na diploidní kodominantní znaky (Mendelovská dědičnost) CCGATCAATGCGGCAA CCGATCACTGCGGCAA T G mikrosatelity jaderné sekvence (např. SSCP) SNPs Velké množství populačně-genetických programů Kodominantní znaky (např. mikrosatelity) – GenAlEx formát počet lokusů počet jedinců počet populací počet vzorků v 1. populaci počet vzorků v 2. populaci, atd. genotypy, tj. velikosti fragmentů u jednotlivých jedinců geografické koordináty pop1 pop2 Genepop file format – jednoduchý ASCI kód (.txt) - jednotlivé alely pro daný lokus jsou seřazeny podle velikosti a očíslovány - tj. např. 128/130 je převedeno na 10/11 Vnitropopulační variabilita •Polymorfismus •podíl polymorfních lokusů (znaků) – např. 0,8 = 4 z pěti zkoumaných mikrosatelitů mají v populaci alespoň 2 alely, z nichž ta vzácnější dosahuje frekvence alespoň 1% nebo 5% • •Počet alel (number of alleles) •počet alel na lokus • •Alelická bohatost (allelic richness) •počet alel na lokus vztažený k velikosti vzorku (metodou „rarefaction“) - FSTAT • •Pozorovaná heterozygotnost (observed heterozygosity) •průměrná četnost heterozygotů v jednotlivých lokusech • • Sample size Hardy-Weinbergova rovnováha (HWE) Alela Četnost alely 170 p 172 q Př. Jeden lokus se 2 alelami p + q = 1 p, q - zjistíme analýzou svých vzorků Genotyp Očekávaná četnost genotypu 170/170 p2 170/172 2pq 172/172 q2 = Hardy-Weinbergova rovnováha (p2 + 2pq + q2 = 1) Ø četnosti genotypů zjistíme analýzou svých vzorků Ø odchylky od očekávaných četností Þ test HWE (např. c2 test nebo exact probability test v Genepop) Očekávaná heterozygotnost (expected heterozygosity, He) při HWE He=1-(p2+q2) ..... pro 1 lokus se 2 alelami s četností p a q = rozmístění alel do genotypů v rovnovážné populaci Předpoklady HWE •náhodné párování (panmixia) •zanedbatelný efekt mutací a migrací („closed populations“) •nekonečně velká populace •Mendelovská dědičnost použitých markerů •neutrální znaky – žádná selekce • •znaky nejsou ve vazbě – kontrola na „linkage disequilibrium“ (vazebná nerovnováha; speciální test např. v Genepop) • 2 lokusy ve fyzické blízkosti (snížená pravděpodobnost rekombinace linkage disequilibrium) vs. 2 lokusy fyzicky vzdálené (pravděpodobnost rekombinace není ovlivněna linkage equilibrium) nebo Odchylky od HW rovnováhy •Test HWE – např. Genepop („exact probability tests“) – pokud jsou odchylky, tak některý předpoklad HWE nebyl splněn • •nadbytek heterozygotů = negativní asortativní páření (tj. cílené rozmnožování nepodobných jedinců) – použité lokusy mohou být výhodné v heterozygotním stavu (např. geny MHC) • •nedostatek heterozygotů •inbreeding (postihuje všechny lokusy stejně) •vnitřní struktura („Wahlundův efekt“) •nulové alely (jen na některých lokusech bude deficit heterozygotů) - FreeNA Null alleles nnulové alely (mutace v primerových sekvencích) → vyšší proporce „homozygotů“ TTCAGGCACACACATCTCTAGCTTCGA TTCAGGCACACATCTCTAGCTTTGA x PCR OK no PCR Příklad – stanovení variability populace Jedinec Locus 1 Locus 2 Locus 3 Locus 4 Průměr Ind 1 170/170 223/227 116/116 316/316 Ind 2 170/172 223/225 112/112 316/316 Ind 3 172/172 223/225 112/112 316/316 Ind 4 170/172 223/227 112/112 316/316 Počet alel 2 3 2 1 2 Ho 0,5 1,00 0 0 0,375 p 0,5 p = 0,5 0,75 1,00 q 0,5 q = 0,25 r = 0,25 0,25 0 He 0,5 0,625 0,375 0 0,375 He=1-(p2+q2) He=1-(p2+q2+r2) Polymorfismus = 0,75 Genetická variabilita (He) jako ukazatel efektivní velikosti populace (Ne) •neutrální genetická teorie: He=4Neµ/[4Neµ+1] • •mutation-drift equilibrium • br05f01 Čím je populace větší, tím má vyšší genetickou variabilitu Efektivní velikost populace (Ne) •Ne = velikost ideální populace (náhodné páření, rovnoměrný poměr pohlaví), která ztrácí genetickou diverzitu stejnou rychlostí jako aktuální populace (vlivem náhody) •ovlivněna genetickou a věkovou strukturou, poměrem pohlaví, intenzitou příbuzenského křížení atd. http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://m1.aimg.sk/tahaky/g_18977_4811.jpg http://m1.aimg.sk/tahaky/g_18977_4811.jpg http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://m1.aimg.sk/tahaky/g_18977_4811.jpg http://m1.aimg.sk/tahaky/g_18977_4811.jpg http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://m1.aimg.sk/tahaky/g_18977_4811.jpg http://m1.aimg.sk/tahaky/g_18977_4811.jpg http://m1.aimg.sk/tahaky/g_18977_4811.jpg Efektivní velikost populace (Ne) •Ne = velikost ideální populace (náhodné páření, rovnoměrný poměr pohlaví), která ztrácí genetickou diverzitu stejnou rychlostí jako aktuální populace (vlivem náhody) •ovlivněna genetickou a věkovou strukturou, poměrem pohlaví, intenzitou příbuzenského křížení atd. < Ne •vývoj genetické variability v malých populacích závisí na Ne více než na N • http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://m1.aimg.sk/tahaky/g_18977_4811.jpg http://m1.aimg.sk/tahaky/g_18977_4811.jpg http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://m1.aimg.sk/tahaky/g_18977_4811.jpg http://m1.aimg.sk/tahaky/g_18977_4811.jpg http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/2/23/Female.svg/120px-Female.svg.png http://m1.aimg.sk/tahaky/g_18977_4811.jpg http://m1.aimg.sk/tahaky/g_18977_4811.jpg http://m1.aimg.sk/tahaky/g_18977_4811.jpg Důsledky poklesu Ne He=4Neµ/[4Neµ+1] Pokles pozorované variability (He – odhadnuta z tzv. genetických znaků) = pokles Ne Pokles adaptivní variability „Budoucnost je v genech ...“ •Změny prostředí (např. klima, patogeny, aj.) → přizpůsob se nebo zmiz! •Vysoká genetická variabilita znamená, že je zde více genetických variant, z nichž některé mohou být vhodné pro nové podmínky •Populace s vyšší genetickou variabilitou mají „více losů v loterii“ (= adaptivní potenciál) • • • • • • • Dryas octopetala v Alpách, Německo. Photo: Steve Smith Low genetic diversity is also a problem for the future, because genetic variation can help populations adapt to new conditions. Currently, climate change is forcing species to adapt to new conditions, or else move away. Higher genetic diversity means there are more genetic alternatives that might be suited to the new conditions. In a way, possessing higher genetic diversity provides a population with more 'tickets in the lottery’ so that by chance, one of the gene variants will be suited to the new conditions. Genetická struktura populací drift, mutace •Drift → diferenciace subpopulací díky změnám frekvencí (až fixaci) alternativních alel • • •Mutace mohou zvýšit diferenciaci (nebo ne – homoplázií) • • AA AA AA AA AA AA aa Aa AA aa Aa AA aa Aa Aa aa AA AA aa aa aa aa aa aa Aa Aa Aa Aa drift Migrace (genový tok) - působí proti diferenciaci subpopulací AB ac Vliv populační struktury na heterozygotnost •Wahlundův princip • •Dvě izolované subpopulace s fixovanými alelami • •Subpopulace v HW, celkově v populaci však nedostatek heterozygotů AA AA AA AA AA AA AA AA AA aa aa aa aa aa aa aa aa aa aa Wahlundův princip - příklad •Jezero Bunnersjöarna (severní Švédsko) – „brown trout“ •2 alely na jednom znaku 170/170 170/172 (= Ho) 172/172 Total p 2pq (=He) Přítok 50 0 (0) 0 50 1.000 0.000 Odtok 1 13 (0.26) 36 50 0.150 0.255 Celé jezero (expected) 51 (33.1) 13 (0.13) (48.9) 36 (18.1) 100 0.575 0.489 Ryman et al. 1979 p2 = 0.5752 q2 = 0.4252 Výpočet FST – snížení heterozygotnosti v důsledku bariéry mezi subpopulacemi Ryman et al. 1979 V důsledku bariéry toku genů je heterozygotnost o 72.8% nižší než by byla v panmiktické populaci 170/170 170/172 (=Ho) 172/172 Total p 2pq (=He) Přítok 50 0 (0) 0 50 1.000 0.000 Odtok 1 13 (0.26) 36 50 0.150 0.255 Celé jezero (expected) 51 (33.1) 13 (0.13) (48.9) 36 (18.1) 100 0.575 0.489 Factorial correspondence analysis - each locus as one variable, reduction of number of variables - Genetix – orientační zjištění strukturovanosti populace - individuals vs. populations Bayesian clustering approach STRUCTURE - Pritchard et al. 2000 ... Když předem strukturu neznáme •Neznámý počet populací charakterizovaných různými frekvencemi alel → počet populací a frekvence zjišťuji •Současně přiřazuji individua do populací •Lokusy, které nejsou ve vazbě, HW uvnitř subpopulací (např. mikrosatelity, SNPs) •Model se snaží vyložit HW nebo vazebnou nerovnováhu zavedením populační struktury K7 „Barplot“ pro K = 7 „Proporce genomu“ každého jedince náležející určitému „clusteru“ STRUCTURE – když předem strukturu neznáme Existuje i jednodušší „non-admixture model“ Alternativní vizualizace výsledků ze STRUCTURE „forced clustering“ Zobrazení hierarchické struktury mezi populacemi Bartáková et al. 2013 •Q-values pro celé populace (ne jedince) Bartáková et al. 2013 Example: Microsatellite data Example: ddRAD data Sekvenování podél restrikčních míst (Enriched libraries by restriction enzymes) Fragmetace gelogenomové DNA pomocí restrikčních enzymů Ligace sekvenačních adaptorů na výsledné fragmenty Následná sekvenace podél restrikčních míst Celogenomové scany genetické variablility Hledání SNPs, populační genomika (např. RAD-SEQ) apod. ddRAD sequencing ddRAD library o tuto sekvenci nám jde! sekvenační primery Illumina adapter Illumina adapter identifikace vzorku (jedince) Data analysis in ddRADseq program Skewer program iPyrad - stovky až desítky tisíc lokusů Output files •"alleles" - complete data •"snps" - only variable positions •"usnps" - random selection of 1 SNP/locus Phylogeny of concatenated data Fig. 4. Maximum likelihood phylogenetic tree (RAxML) inferred from the concatenated dataset of 66,577 loci (503,746 SNPs) genotyped by the ddRAD approach. Black dots show nodes with the maximum bootstrap support (BP=100). Bars on the right side show delimitations of MOTUs from the branch-cutting of this ML tree and from the InfoMap clustering based on the coancestry matrix (shown in Fig. 5). Coancestry matrix Next analyses ... •STRUCTURE •multi-species coalescence - species (MOTU) delimitations •GWAS ("genome-wide association studies") •and many others, depending on the aims of research