Genetika a taxonomie virů Katedra parazitologie Přírodovědecká fakulta JU České Budějovice MVDr. Jana Kvičerová, Ph.D. 2.-3.12. 2024 Zásady odběru vzorků pro izolaci nukleových kyselin virů Druhy vzorků (tkání): • krev • trus / stolice • moč • sliny • stěry • orgány (slezina, ledviny, játra, plíce, srdce, mozek) V humánní medicíně: - krev - stolice - stěry U zvířat: - krev - trus - orgány (postmortálně) Zásady odběru vzorků pro izolaci nukleových kyselin virů Obecné zásady odběru vzorků pro izolaci NK virů: - vzorky co nejčerstvější in vivo – není problém post mortem – co nejdříve - včasné zpracování (krev na sérum – co nejdříve) či fixace/konzervace - sterilní odběr (sterilní nástroje, sterilní zkumavky, případně prostředí flowboxu) - použití rukavic (vždy), případně respirátoru - (biohazard boxy) Zásady odběru vzorků pro izolaci nukleových kyselin virů Krevní sérum: - odběr plné žilní krve, její vysrážení a centrifugace - centrifugace 5-10 min při 1500 otáčkách/min - odebrat sérum (tj. žlutavou tekutinu vyloučenou na povrch) - umístění séra do sterilní mikrozkumavky a zamrazení → odstranění krevních elementů, fibrinogenu, a většiny koagulačních faktorů Orgány a zásady jejich odběru (Mus musculus) Sterilně vyjmout: 1. slezina, 2. ledviny, 3. játra, 4. srdce, 5. plíce, 6. mozek Média pro fixaci vzorků tkání pro virovou diagnostiku • bez fixačního média (tzv. nasucho) – u čerstvých odběrů výhody: finanční, časová úspora při odběru, bez nutnosti eliminace média před izolací nukleových kyselin nevýhody: nutnost okamžitého zamrazení • RNAlater výhody: bez nutnosti okamžitého zamrazení (např. při odběrech vzorků v terénu v delší vzdálenosti od laboratoře) nevýhody: finanční, časové, nutnost eliminace před izolací NK • DNA/RNA Shield výhody: bez nutnosti okamžitého zamrazení (např. při odběrech vzorků v terénu v delší vzdálenosti od laboratoře), lze uchovávat až 30 dní při pokojové teplotě (!) nevýhody: finanční, časové, nutnost eliminace před izolací NK RNAlater DNA/RNA Shield DNA/RNA Shield Organismus, který chci fylogeneticky charakterizovat (měl bych vědět proč) Izolace DNA / RNA, PCR, sekvenování Vyhledání homologických sekvencí pro další taxony (měl bych vědět, pro které) Vytvoření alignmentu Fylogenetická analýza zvolenou metodou To hlavní a podstatné: interpretace fylogenetických vztahů vlastní sekvence 1 vlastní sekvence 2 vlastní sekvence 3 1. nalezení vhodných sekvencí (databáze) a doplnění matice 2. příprava matice: alignment outgroup 1 outgroup 2 vlastní sekvence 1 vlastní sekvence 2 vlastní sekvence 3 ingroup sekvence A ingroup sekvence B ingroup sekvence C ingroup sekvence D fylogenetická analýza matice prohledávání databáze multiple alignment identifikace příbuzenských vztahů mezi sekvencemi Fylogenetická analýza Databáze GenBank www.ncbi.nlm.nih.gov Databáze GenBank – PubMed → vyhledávání publikací www.ncbi.nlm.nih.gov Databáze GenBank – PubMed → vyhledávání publikací www.ncbi.nlm.nih.gov Databáze GenBank – Submit (BankIt, Sequin, SRA…) → vkládání sekvencí (po přihlášení heslem a uživatelským jménem) www.ncbi.nlm.nih.gov → vkládání sekvencí (po přihlášení heslem a uživatelským jménem) Databáze GenBank – Submit (BankIt, Sequin, SRA…) Databáze GenBank – Taxonomy → vyhledávání sekvencí podle názvu taxonu (viru) www.ncbi.nlm.nih.gov Databáze GenBank – Taxonomy → vyhledávání sekvencí podle názvu taxonu (viru) www.ncbi.nlm.nih.gov Databáze GenBank – Taxonomy → vyhledávání sekvencí podle názvu taxonu (viru) www.ncbi.nlm.nih.gov rod Orthohantavirus (Elliovirales: Hantaviridae) - ssRNA - negativní polarita - segmentovaný genom (S, M a L segment) - M segment → reassortment - zoonotický potenciál Databáze GenBank – Taxonomy → vyhledávání sekvencí podle názvu taxonu (viru) www.ncbi.nlm.nih.gov Databáze GenBank – Taxonomy → vyhledávání sekvencí podle názvu taxonu (viru) www.ncbi.nlm.nih.gov Databáze GenBank – Taxonomy → vyhledávání sekvencí podle názvu taxonu (viru) www.ncbi.nlm.nih.gov Databáze GenBank – Taxonomy → získávání a stahování sekvencí (data mining) www.ncbi.nlm.nih.gov Databáze GenBank – Taxonomy → získávání a stahování sekvencí www.ncbi.nlm.nih.gov Co lze zjistit: - druh viru - sekvenovaný lokus - Accession number - (hostitel) - (tkáň hostitele) - (lokalita sběru) - (datum sběru) Databáze GenBank – Taxonomy → získávání a stahování sekvencí (data mining) www.ncbi.nlm.nih.gov Lze zjistit: - nukleotidovou sekvenci - aminokyselinovou sekvenci Databáze GenBank – Taxonomy → stahování sekvencí (formát FASTA) www.ncbi.nlm.nih.gov Taxonomie virů Jak zjistím, které taxony potřebuji v datasetu? Jak zjistím druhy virů, které se nacházejí v dané čeledi / řádu? → ICTV (International Committee on Taxonomy of Viruses) www.ictv.global Taxonomie virů Jak zjistím, které taxony potřebuji v datasetu? Jak zjistím druhy virů, které se nacházejí v dané čeledi / řádu? → ICTV (International Committee on Taxonomy of Viruses) www.ictv.global Taxonomie virů Jak zjistím, které taxony potřebuji v datasetu? Jak zjistím druhy virů, které se nacházejí v dané čeledi / řádu? → ICTV (International Committee on Taxonomy of Viruses) www.ictv.global Databáze GenBank – Taxonomy → stahování sekvencí (formát FASTA) www.ncbi.nlm.nih.gov Dataset pro fylogenetické analýzy reprezentativní výběr taxonů do datasetu, tentýž gen čeleď čtverečků čeleď koleček čeleď trojúhelníků čeleď kosočtverců outgroup Výběr outgroupu pro fylogenetické analýzy Výběr outgroupu (tj. kořene) - požadavky na outgroup: • sekvence stejného genu jako u taxonů v datasetu • vzdálenější, ale příbuzný organismus (outgroup musí být out-group) (neměl by ale být příliš vzdálený) 1. Praktická úloha – tvorba datasetu Postup: 1. Vyhledat sekvence TÉHOŽ GENU (tj. například L segment či jeho synonymum, RNA dependent RNA polymerase) virů rodu Orthohantavirus dataset musí být VŽDY složen ze sekvencí stejného genu 2. Vyhledané a vybrané sekvence ve formátu FASTA zkopírovat pod sebe (Ctrl+C, Ctrl+V) do Poznámkového bloku 3. Pokud je v GenBanku k danému druhu viru více sekvencí téhož genu, vybíráme: - nejdelší sekvenci / sekvence - sekvence pocházející z různých hostitelů - sekvence pocházející z různých geografických oblastí 4. Vybrat vhodný outgroup a vložit ho do datasetu www.ncbi.nlm.nih.gov 1. Praktická úloha – tvorba datasetu Hantavirový genom: L segment = RNA dependentní RNA polymeráza (RdRp) GenBank: RdRp, RNA-dependent RNA polymerase, segment L, L gene M segment = glykoproteiny G1 a G2 (Gn a Gc) GenBank: Gc protein, M polyprotein, glycoprotein gene, glycoprotein precursor S segment = nukleokapsidový protein N GenBank: nucleocapsid protein, nucleoprotein S, nucleoprotein gene www.ncbi.nlm.nih.gov www.ncbi.nlm.nih.gov Tvorba datasetu pro fylogenetické analýzy www.ncbi.nlm.nih.gov Úprava datasetu pro fylogenetické analýzy Alignment → seřazení sekvencí obsažených v datasetu Alignment → různé programy, různé algoritmy BioEdit Clustal W T-Coffee MUSCLE MegAlign – součást balíčku DNASTAR MAFFT – online SeaView – možnost konkatenace konkatenovaný alignment = spojený alignment 2 a více různých genů → další možnosti alignování: - využití „předalignovaných“ souborů z databází - alignování zohledňující sekundární strukturu Alignování za pomoci sekundární struktury oat A UAAACUAU C A C U G CG C CUUA A U AG C G G U G GCUU G G G G G A U UG C C A G C UA G U G C A A A C A G A C C U CU A A C G C C U C C U G C G U U GC C C U A U GUA U G U A UG G G A G C G U A G G G G G C G U U U G G U U U U A GCU G G A C U G C A AU G G C UU C C UU C C AUUU U UGCU U U U AUAGCA U GUGUUACCC AG UU UA ACG UC U GGCUUAU GGUUUGGU G C A G C C G C UC G U C G C U U U GC U C GU U G UGU U A G C A U U GUA A U U CCU G C U G U G A G G G G C G G C G G U G G U U CCGCU UGGCCGUGGCUUAGUGUGU C UGuG U G U A AUGU G A AGCACGCUGAG UG U A U G GA C C A UGU A AG G C G G C AGU U C A AUCAAACU U CA U AUAGGCCUGUUA A CA A GA AA GGGUGAC C AC U A C U U CAA U U G G U G U U G A U A A U A A UG A U GU U G UGG U G U AG U G U U A U U A U C G G C G C C A A UGCAUCCU GA C C U o I II III IV 5 67 ENERGY = -168.2 IIIa IIIb x Alignování za pomoci sekundární struktury o A U A A A CUA U C A C U G U G C A U A A U A A G C A G U G GCUUG G G G G A C UG C C A G C U A G U G C A U G G G C C U UC C G C U G G C U A U U A C IU U G A G U U G U C U C G U G U GU A C A C A U G C G U G G U G G U GG U U G UG U A U U A GUU U GU G A AU A C A C G U G U G U G U CC A C G A G U U G A U G A UG G U G G U A G C A A UG G C G G U UG G U U G G U G U A C U G G AC T G C AA U G G C U U C C C U U U A A U G U A G C U G U U A U GG C G U G UG U U A C C C A U U U GG C G U U U A G C U A C G U A U GG U U C GG U G U G U U G U G C UG U GUCGU TG CUG U UGU CUA CC G GC T T A TCU UGCC CC UG G GCC UCC UC UAC A A GUG UG C UGA A A UGUA UA U G U A GUA G UGU GG UGG AGG U GAU GGG G UG UGGG AU UGGU G U UA U UGG GA GA UGAUG GCA GC A G G C G U G G U C C A C C U AA C C G U GG C U U A G U GU G C U G T A GT T A C U G U AA A A G A G C A C G C U A G G U G G A C C U C G UU G UG GCGCAACAACCG U AG U GCCGTG U TIU U UGGCUUGCCAAGUG U GGGA UG UACACC U CUU GCUG A C GACAU U AU UGUC A U UCAUUUUCCU G A C C U o1 2 3 4 5 6 ENERGY = -229.4 o A U A A A C U AU C A C U G CG C C U A AU A A G C A G U G GCUUG G G A G A G UG C C AGC U A A C AG UG U C U G A U G U U GUGU G U GUGU G U G U G U GG U UG G U G C U GC U GC U G C U G C U G C C UC U G G C G G U A G U U G U GG U GG U U UC U U CC U GU U C A U C G G C G U U A G A U U G C A AU G G C U U C U C U UUAAU G U A GC C UUG A U AUGGC G U A U G U UA G C C GU U A G U U G A C G U U U GG C U U G U GG U U U U G U G U U G C C A G U U G U U G U U G U U G U U G U U G U U G U U G U U GU C U G U C C U CCU U A A UGU G A G U U G U C U U G U G G U G G C C U A C U A C U U G CG A A C C A G UC A G U C G C A CU U G UU U U G A A U G U AU U G U G UC G U U U G U G C U G C U G C U G G U G G UG G U G G U G G A C U A C U G A G A C G A C G A G G A CC A UG A G G U GG C G A C G A C G A C G A C G A C G A C G A C G A CGUCG A C G C A G G G U U C A C U U GAC C G U GG C U U A G U G U G U G UU U C C AU G UA U G GU A CUGU U A G A A G C A C GC U A A G U G A A C C G U GA A A GGCGAUGCA U G U G U G UG U G C G A AUGCCAUGUGCCAGUCAA U CUA UU UG C GC CU GCGUGC U U GCGUGUGUGUGU G UGCGCGCUCGCGU G C G A G G CU A AC G U C U C GG G C C G A A CU A C A A CU C UCA G U U G U G U U U G G U CUU G A U A U AC U A U C AUUUUUUCC U G A C C U o 1 2 3 4 5 67 8 9 10 11 12 ENERGY = -264.5 MAFFT https://mafft.cbrc.jp/alignment/server/index.html Alignment → ořezání (trimování) alignmentu na jednotnou délku (začátek i konec) Alignment → ořezání (trimování) alignmentu na jednotnou délku (začátek i konec) Alignment → vymazání tzv. gapů, které nejsou informativní Alignment Ořezávání alignmentu: Geny nekódující protein – ořezáváme v nukleotidovém formátu Geny kódující protein – ořezáváme v aminokyselinovém formátu (aby nedošlo k porušení čtecího rámce) Alignment Alignment Ukládání alignmentu: - v různých formátech, v závislosti na účelu dalšího použití FASTA (.fas) – možnost otevření jak v programu alignmentu, tak v textové podobě (Poznámkový blok) – možnost mazání či přidávání nových sekvencí do již zalignovaného souboru (→ usnadnění práce) PHYLIP (.phy) – pro maximum likelihood analýzy (PhyML, RAxML apod.) NEXUS (.nex) – pro Bayesovskou analýzu (MrBayes) a analýzy maximum parsimony (PAUP) Úloha – tvorba a úprava alignmentu v programu BioEdit: - načíst dataset, který mám uložený jako .txt, do programu BioEdit - Accessory Application – ClustalW Multiple alignment - Run ClustalW – OK → načte sekvence a porovnává každou s každým, řadí dle podobnosti - převod do aminokyselin pomocí Ctrl+T, zpět do nukleotidů také Ctrl+T - ořezat začátek a konec alignmentu na vhodnou délku - zkontrolovat alignment, vymazat gapy - uložit alignment ve formátech FASTA a PHYLIP (File – Save As) 2. Praktická úloha – alignment Fylogenetické analýzy Fylogenetická analýza = klasifikace organismů založená na evoluční historii Účel: - zjišťování příbuznosti a vztahů mezi organismy / taxony - evoluční interpretace fylogenetických vztahů - taxonomie - koevoluce → pro pozorovaná data hledáme adekvátní vysvětlení Výstup: grafické zobrazení pomocí fylogenetického stromu (fylogramu) fylogenetické vztahy vnitrodruhové vztahy (populační genetika) mezidruhové vztahy Fylogenetické analýzy GAATCATCCC GACCAAACCTA GAATCATCCC GACCAAACCTA ? Fylogenetické analýzy Fylogenetický strom A B C D E F Z A-F taxony Z outgroup (kořen) uzel (node) větev (branch) skupina (klastr) A (group, cluster, clade) skupina (klastr) B, sesterská skupina ke skupině A dvojcestné větve (dichotomie) uspořádání větví = topologie Zobrazení fylogenetických stromů A B C D E F Z ZAKOŘENĚNÝ, S DÉLKOU VĚTVÍ ZAKOŘENĚNÝ, BEZ DÉLKY VĚTVÍ NEZAKOŘENĚNÝ NEWICK FORMÁT (A ((B C) ((D (E F))(G (H (I J)))))) Zobrazení fylogenetických stromů n počet taxonů ve stromu n-2 uzlů 2n-3 větví Fylogenetický strom zakořeněných stromů je více než nezakořeněných Fylogenetický strom Zdroje fylogenetické informace gen A gen B gen C gen A gen C gen B genom genom GAATCATCCGGACCAAACTTA GAATCATCCCGACCAAACCTA amplikonová data z NGS „multilokusové“ informace (RFLP, RAPD, AFLP, mikrosatelity) pořadí genů sekvence nukleotidů Nativní vs. trvalé preparáty Požadavky na fylogenetická data: - informativnost (tj. přiměřená variabilita mezi taxony) - nezávislost - homologie - dostatečné množství Fylogenetická data Nativní vs. trvalé preparáty Informativnost (přiměřená variabilita mezi taxony): Fylogenetická data Nativní vs. trvalé preparátyFylogenetická analýza Několik přístupů (algoritmů): → pro pozorovaná data hledáme adekvátní vysvětlení • parsimonie → co nejúspornější uspořádání dat MP (Maximum parsimony) – počet substitucí • pravděpodobnostní přístup → co nejpravděpodobnější uspořádání dat na základě daných předpokladů ML (Maximum likelihood) – počet substitucí „na pozici“ BI (Bayesian inference) je nutné „znát“ (stanovit) model, jak probíhá evoluce → výběr vhodného modelu molekulární evoluce Evoluční modely: → korekce na opakované substituce Organismus, který chci fylogeneticky charakterizovat (měl bych vědět proč) Izolace DNA / RNA, PCR, sekvenování Vyhledání homologických sekvencí pro další taxony (měl bych vědět, pro které) Vytvoření alignmentu Fylogenetická analýza zvolenou metodou To hlavní a podstatné: interpretace fylogenetických vztahů Nativní vs. trvalé preparátyMaximální parsimonie (MP) Maximální parsimonie (Maximum parsimony, MP) - pracuje s délkou stromu a hledá nejkratší kladogram (tj. co nejúspornější uspořádání dat) Znaky (pozice alignmentu): - neinformativní (konstantní) - variabilní neinformativní - variabilní informativní → délka stromu je množstvím všech změn na všech pozicích alignmentu → sestavení všech stromů L = li  k i = 1 Délka stromu Počet pozic Délka stromu pro danou pozici Nativní vs. trvalé preparáty 1 2 3 1 2 3 1 2 3 1 2 3 4 4 4 3 taxony → 1 nezakořeněný strom 4 taxony → 3 nezakořeněné stromy → a pak to prudce roste... počet možných kombinací roste jako faktoriál n Maximální parsimonie (MP) Například: • Výchozí strom z libovolných 3 taxonů • Sestavení tří možných stromů s přidáním 4. taxonu • Z každého stromu vzniklého v předešlém kroku se postaví pět dalších stromů přidáním 5. taxonu • Pokračujeme až do přidání posledního taxonu Nativní vs. trvalé preparáty 2,027,02510 135,1359 10,3958 9457 1056 155 34 13 No. trees No. taxa Maximální parsimonie (MP) Nativní vs. trvalé preparáty Maximální parsimonie (Maximum parsimony, MP) → sestavení co nejkratšího stromu (výchozího) → jeho následné zlepšování pomocí přeskupování větví (branch swapping) heuristické metody (různé algoritmy) Výhody MP: - jednoduchá, pochopitelná, rychlá - minimální množství předpokladů o evoluci - dobře prostudována matematicky Problémy MP: - předpoklad parsimonie je zcela jistě nesprávný pro sekvence s rychlou evolucí Maximální parsimonie (MP) Nativní vs. trvalé preparáty - pojem pravděpodobnost nelze definovat, je značně subjektivní R.A. Fischer (evoluční biolog) → likelihood pro biologická data Thomas Bayes (matematik) → pravděpodobnost pravděpodobnost (probability) = věrohodnost (likelihood) Joseph Felsenstein – přišel na to, že Fischerův přístup by šel napasovat na fylogenetiku (kniha „Inferring Phylogenies“) máme data (tj. pozorovaný jev) → chceme ho adekvátně vysvětlit (hypotéza) → pravděpodobnost mezi daty a fylogenezí Pravděpodobnostní metody pravděpodobnost vs. věrohodnost (probability) (likelihood) vysvětlení (hypotéza) pozorovaný jev (data) • někdo skládal mince aby to bylo hezké, a takhle to dopadlo. • roztrhl se pytlik s mincemi a takhle to padlo náhodu • spodní strana mince je těžsí a pod stolem jsou magnety probability(H|D) že tato hypotéza způsobila tato data likelihood probability(D|H) že se objeví takováto data, pokud nastane předpokládaná hypotéza Pravděpodobnostní metody Nativní vs. trvalé preparáty Fylogenetika → hledáme hypotézu s maximální věrohodností v likelihoodu jsou délky větví velmi důležité Hypotéza = topologie vč. délky větví a modelu → vezmu data, prohledávám topologie, délky větví v každé topologii na každé úrovni najdu nejvěrohodnější a z nich vyberu ten nejvěrohodnější (na nejvyšší úrovni) Model: - evoluce na jednotlivých pozicích je nezávislá - evoluce v jednotlivých liniích je nezávislá Pravděpodobnostní metody G A C T C A T C C...m G C A T C A T T C G C A T C A T G C G C A T T A T T C G G A T C A T T C Nativní vs. trvalé preparátyEvoluční modely Výběr vhodného evolučního modelu: různé volně stažitelné nebo online běžící programy, např. SMS: Smart Model Selection www.atgc-montpellier.fr/sms/ T A G C frekvence nukleotidů (base composition) transition probabilities rychlost substitucí na různých pozicích matice (distribution of rates) A -> G A -> C T -> C ......... ..... AAAGGCTTATAA Evoluční modely SMS: Smart Model Selection www.atgc-montpellier.fr/sms/ Nativní vs. trvalé preparáty Maximální věrohodnost (Maximum likelihood, ML) → hledání hypotézy s maximální věrohodností Maximální věrohodnost (ML) A TG C data model topologie (včetně délky větví) matice hypotéza Nativní vs. trvalé preparáty Maximální věrohodnost (Maximum likelihood, ML) → hledání hypotézy s maximální věrohodností - evoluce na jednotlivých pozicích je nezávislá - evoluce v jednotlivých liniích je nezávislá Maximální věrohodnost (ML) G A C T C A T C C...m G C A T C A T T C G C A T C A T G C G C A T T A T T C G G A T C A T T C Výhody ML: → jednoznačně lepší, pravděpodobnější stromy než MP Nevýhody ML: - hledání ML stromu je „optimality criterion“ proces – stejný problém jako u MP - nastavení parametrů analýzy, výběr vhodného modelu - výpočetně náročná (hledání nejlepší kombinace modelu a stromu) - časově náročná Nativní vs. trvalé preparátyMaximální věrohodnost (ML) → různé programy - volně stažitelné, online běžící, součást balíčků (např. Geneious) PhyML – zdarma, běží poměrně rychle a efektivně RAxML → načítá soubory ve formátu PHYLIP (.phy) PhyML Maximální věrohodnost (ML) PhyML Maximální věrohodnost (ML) PhyML Maximální věrohodnost (ML) PhyML Maximální věrohodnost (ML) Bayesovská analýza (Bayesian Inference, BI) → načítá soubory ve formátu NEXUS (.nex) Bayesovská analýza (BI) Thomas Bayes Bayesovská analýza (BI) Mr. Bayes Bayesovská analýza (BI) Mr. Bayes Bayesovská analýza (BI) Mr. Bayes Bayesovská analýza (BI) Mr. Bayes Vizualizace a úprava fylogenetických stromů TreeView - vizualizace stromu ve formátu .tre vytvořeného fylogenetickým programem - možnost vizualizace různých typů stromů (s délkou větví, bez délky větví) - možnost zobrazení statistických podpor uzlů - možnost nastavení outgroupu / outgroupů a zakořenění stromu - možnost uložení ve formátu .emf umožňujícím grafické úpravy v dalších programech - možnost tisku hrubého, graficky neupraveného stromu Vizualizace a úprava fylogenetických stromů Finální grafické úpravy fylogenetických stromů: FigTree Adobe Illustrator - vizualizace hrubého, graficky neupraveného stromu, ve formátech .emf, .ai nebo .pdf - možnost textových úprav (názvy taxonů, velikost a typ písma) - možnost barevných úprav a vkládání obrázků Odkazy • https://www.ncbi.nlm.nih.gov • https://ictv.global • https://mafft.cbrc.jp/alignment/server/index.html • https://phylipweb.github.io/phylip/software.html • https://molbiol-tools.ca/Phylogeny.htm