Bi6589 Laboratorní a bioinformatické metody rostlinné biosystematiky Jednotlivé sekvence – obvykle známe historii a původ Mikrosatelity – délkový vs. sekvenční polymorfismus NGS – mnoho sekvencí náhodně vybraných z celého genomu Sekvenační data Next Generation Sequencing (NGS) Masivně paralelní sekvenování Souhrnný termín zahrnující principiálně odlišné technologie, které však umožňují masivní paralelní sekvenování celého genomu nebo jeho částí. Kritické kroky NGS 1)příprava vzorků/knihoven (amplifikace DNA; přidání sekvenačních adaptorů/linkerů/bar kódů) 2)generování clusterů (typicky zmnožení DNA fragmentu poté, co linker hybridizuje s pevnou složkou pro můstkovou PCR; mostová amplifikace) 3)sekvenování (různé přístupy, které generují sekvence s různou délkou čtení, chybovostí a finální cenou 4)analýza dat (generováno obrovské množství informací; 1 vzorek > milion sekvencí) Next Generation Sequencing (NGS) Illumina (mostová amplifikace klastrů, dNTP s reverzibilními blokátory) Roche/454 (emulzní PCR, pyrosekvenování) SMRT (Singel Molecule Real Time) Ion Torrent SOLiD cPAL Oxford Nanopore a další Next Generation Sequencing (NGS) Přehled sekvenačních přístupů (technologií) https://youtu.be/fCd6B5HRaZ8 Next Generation Sequencing (NGS) Princip illuminy 1)Příprava vzorků 2)Generování clusterů 3)Sekvenování a) doplnění dNTP s reverzibilním fluorescenčním blokátorem; b) odečtení fluorescenčního signálu; c) odštěpení blokátoru; d) pokračování syntézy řetězce. Gridové výpočetní a úložné centrum vzniklo propojením individuální výpočetních clustrů jednotlivých institucí. Virtuální organizace Metacentrum https://wiki.metacentrum.cz/ Je otevřené všem akademickým pracovníků, zaměstnancům a studentům vědeckovýzkumných institucí v České republice. Hlavní cíl: využití dostupných výpočetních zdrojů pro řešení velmi náročných výpočetních úloh, jejichž zvládnutí je nad možností samostatného pracoviště v ČR. Výhody Disponuje špičkovou výpočetní kapacitou Počítače se samovolně nevypínají/restartují!!! Spolehlivější uložení a sdílení dat Umožňuje mezinárodní spolupráci vědeckých týmů Virtuální organizace Metacentrum https://wiki.metacentrum.cz/ Virtuální organizace Metacentrum Analýza dat - software ipyrad (s výhodou využívaný na fylogenetické analýzy; dokáže pracovat s různými ploidními úrovněmi) STACKS (vhodný na populační analýzy) Liší se v algoritmu shlukování, uživatelským komfortem/podporou, časovou náročností, atd. Způsoby shlukování sekvencí Mapování na referenční genom De novo analýza dat (bez referenčního genomu) Analýza dat - ipyrad Analýza dat - ipyrad Analýza dat - ipyrad Následné analýzy a vizualizace Analýza dat - ipyrad Heatmapa NeigborNet STRUCTURE Degenerované báze (ambiguous character/bases) představují problém při výpočtu distanční matice Několik možností, jak s nimi naložit: 1)berou se jako úplně jiný znak (tzn.: Y není ani C, ani T, ale samostatný znak). Např. P distance 2)mohou být jedna i druha báze (tzn.: Y může být jak C, tak T). Tento přístup snižuje diskriminaci a stahuje hybridy k rodičům (= hybrid je jak rodič-1, tak současně rodič-2). Toto dělá v R např.: dist.ml 3)jsou důsledkem sekvenčního polymorfizmu=konsenzu mezi dvěma sekvenčně odlišnými alelami. Degenerovaná báze znamená, že nese příslušný podíl informace (v Y je 1/2 C a 1/2 T). Hybridi jsou z poloviny rodic-1 a z druhé poloviny rodic-2. Toto dělá v R např.: dist.p 4)degenerovaný kód může být i ignorován, ale pak vznikají fatální chyby (ztráta variability). Distanční matice a degenerované báze Vizualizace distanční matice Heatmapa Vizualizace distanční matice Heatmapa Algoritmus založený na spojování sousedů do fylogenetické sítě. Umožňuje vizualizaci konfliktních nebo alternativních evolučních scénářů, které zahrnují např. genové rekombinace, hybridizace a horizontální přenos genů. Vstupní soubor: matice vzdáleností Software: SplitsTree NeigborNet Jak číst NeigborNet zobrazení Čím delší společná větev, tím více shodných znaků; může to být důsledek evolučního stáří skupiny nebo, že se nekříží s jinými taxony Čím více čar, tím více alternativních scénářů Čím víc se čáry od sebe vzdalují, tím více si alternativní scénáře odporují Minimum rozdílů mezi jedinci téže populace = pravděpodobně klony Velmi odlišní jedinci téže populace = intenzivní genový tok mezi populacemi nebo důsledky hybridizace Čím delší individuální větev, tím více jedinečných znaků Software umožňující studovat genetickou strukturu populace/populací: •zda jsou populace odlišné •kde se nacházejí hybridní zóny (které populace jsou smíšené) •kteří jedinci patří do které populace •kteří jedinci jsou migranti/hybridi apod. Na základě detekce rozdílů ve frekvenci alel v datech, je jedinec s určitou pravděpodobností přiřazen k nějaké skupině (clusteru). STRUCTURE neukazuje, který výsledek je správný, ale které rozdělení jedinců do clusterů je nejpravděpodobnější. Vstupní soubor: lokusy s alelami Burnin/Iterace (rozrůznění počátečního datasetu/vlastní MCMC výpočet): 100 000/100 000 STRUCTURE Bayesovský přístup (MCMC: Markov Chain Monte Carlo) STRUCTURE Příklad: 3 teplé řetězce prohledávají krajinu (skáčou z místa na místo) a zavolají 1 studený řetězec v případě, že je výsledek lepší (vyšší místo) než je aktuální poloha studeného řetězce. = náhodné rozřazení jedinců do clusterů; odhadnuty dílčí genetické frekvence pro každou skupinu; přerozdělení jedinců do clusterů atd. Prohledávání adaptivní krajiny: čím výše se algoritmus dostane, tím lépe výsledek odpovídá datům K1 K2 K3 K4 Jak číst STRUCTURE analýzu Počítač se snaží rozdělit vzorky do tolika skupin (K), kolik po něm chceme. Poté spočítá k jednotlivým rozdělením (K) i jejich pravděpodobnosti s jakou mohou nastat. kPlot Pravděpodobnost s jakou mohou jednotlivé rozdělení (K) nastat; zde je nejpravděpodobnější K3 Co sloupec, to jeden vzorek. Barva znázorňuje procentické přiřazení (0-100%) do některé ze skupin (clusteru); hybridi, pak mají barvy kombinované. Malé barevné podíly jsou dost často artefakty metody. Změny barev u různých K nic neznamenají. K1 K2 K3 K4 Ve STRUCTURE analýze se „odlupují“ nejdříve skupiny, které jsou nejlépe definované (s charakteristickými znaky) Analýza pak naznačuje i fylogenetické dělení. Nicméně! Analýza nedává jednoznačné odpovědi – někdy mohou být stejně pravděpodobné různá K, tedy např. pravděpodobnost K2=K3. Někdy v rámci jednoho K vyjde více alternativních rozdělení. Je to Bayesovská analýza a je potřeba být při interpretaci opatrný. Vždy je potřeba přihlížet k tomu, zda výsledek není biologický/genetický nesmysl. Analýzu mohou ovlivnit nestejně početné skupiny taxonů, málo početné skupiny taxonů, přítomnost hybridů, absence rodiče/ů hybrida. L.genistifolia L.angustissima L.vulgaris Jak číst STRUCTURE analýzu Alignment: ISCT95 (2n+4n); BSCT93; sample filter: 25 Model: admixture; allele: corelated; without population info K: 1-4, 10 opakování Burn-in: 100 00; MCMC iterations: 100 000 Za určitých okolností mohou dávat smysl (být biologicky pochopitelné) více K Alignment: ISCT95 (2n+4n); BSCT93; sample filter: 25 Model: admixture; allele: independent; without population info K: 1-4, 10 opakování Burn-in: 100 000; MCMC iterations: 100 000 Evanno analýzy STRUCTURE výstupů VUL NeighborNet zorbazení (software Splitstree) Alignment: ISCT95 (2n+4n); BSCT93; sample filter: 25 Matrix calculation: dist.p (R package phangorn) Jaderné sekvence Alignment: ISCT95 (2n+4n); BSCT93; sample filter: 25 Matrix calculation: dist.p (R package phangorn) Heatmapa: phylo.heatmap (R package phytools) Paleta: inferno Jaderné sekvence