Bi6589 Laboratorní a bioinformatické metody rostlinné biosystematiky Jednotlivé sekvence – obvykle známe historii a původ Mikrosatelity – délkový vs. sekvenční polymorfismus NGS – mnoho sekvencí náhodně vybraných z celého genomu Sekvenační data Sekvence Dědičnost! Jaderné: ITS, ETS, geny (introny) Chloroplastové: TrnL – TrnF, rbcL, matK, ndhF Sekvence Ribosomal DNA array and organization of intergenic spacer (IGS) in Brassica oleracea based Ribosomal DNA array and organization of intergenic spacer (IGS) in Brassica oleracea based on Tremousaygue et al. [31] and the present study. Diagram shows position of 45S IGS region in on Tremousaygue et al. [31] and the present study. Diagram shows position of 45S IGS region in between 25S and 18S rDNA subunits. TTS, transcription termination site; NTS, non-transcribed between 25S and 18S rDNA subunits. TTS, transcription termination site; NTS, non-transcribed spacer; TIS, transcription initiation site and ETS, external transcribed spacer. spacer; TIS, transcription initiation site and ETS, external transcribed spacer. Primery obvykle v konzervativních sekvencích – přepisována a studována variabilní (nekódující) část HOMOLOG = dva geny evolučně příbuzné Dva homologní segmenty DNA mohou mít společný původ na základě: 1)speciační události (mezi druhy+ obvykle mají stejnou funkci) = ORTOLOG 2)duplikace genu (uvnitř jednoho druhu; obvykle jinou funkci) = PARALOG 3) 3)Gen získaný horizontálním přenosem= XENOLOG 4) ANALOG = Gen s obdobnou funkcí, ale bez společného evolučního předka Sekvence HOMOLOG = dva geny evolučně příbuzné Dva homologní segmenty DNA mohou mít společný původ na základě: 1)speciační události (mezi druhy+ obvykle mají stejnou funkci) = ORTOLOG 2)duplikace genu (uvnitř jednoho druhu; obvykle jinou funkci) = PARALOG 3) 3)Gen získaný horizontálním přenosem= XENOLOG 4) ANALOG = Gen s obdobnou funkcí, ale bez společného evolučního předka Sekvence Concerted Evolution PARADOX: některé jednotky/geny se vyskytují v mnoha kopiích, přesto si udržují podobnou sekvenci (např.: 45S rDNA, 5S rDNA). Jednotlivé jednotky se nevyvíjejí nezávisle, ale koordinovaně! Sekvence Sekvence Databáze •https://www.ncbi.nlm.nih.gov/ • •Prohledávání databáze (věrohodnost sekvencí/autorů) •Nahrávání/stažení sekvencí •Porovnávání vaší sekvence s databází atd. • •BLAST (Basic Local Alignment Search Tool) •http://blast.ncbi.nlm.nih.gov/Blast.cgi • Databáze NCBI IUPAC nukleotidové kódy Sekvence Podobnost sekvencí (distanční matice) •Zarovnání (alignment) sekvencí •Vstupní formát (doporučený FASTA) • •>EU143268.1 Cirsium palustre sequence •GGTGAACCTGCGGAAGGATCATTGTCGAAGCCTGCACAGCAGAACGACCCGTGGACACGTAATCACAGCCGGGCGTCGAGGGGGTCGGGCGTCAGCTC GGTGCCCGCGATGCCTCGTCGACGTGCGTCCATGATGCTTCGTTTTGAAGCGTCGTGGATGTTGCGTCGGCACCTAAACAAACCCCGGCACGGCATGTG CCAAGGAAAACAAAA • •Kódující vs. nekódující sekvence (= nutnost řešit synonymní x nesynonymní mutace) •Substituce penalizovány •Mezery povoleny, ale penalizovány (za otevření mezery, za zvětšování mezery) • •=> hledá se nejlepší skóre mezi sekvencemi Distanční matice •Evoluční vzdálenost (distance) mezi párem sekvencí se obvykle měří počtem nukleotidových (nebo aminokyselinových) substitucí vyskytujících se mezi nimi. • •Distance jsou •1) zásadní pro studium molekulární evoluce •2) užitečné pro fylogenetické rekonstrukce a odhad časů divergence. • •Distance a)Nukleotidové substituční modely (nejjednodušší p-distance = počet rozdílů/počet všech nukleotidů; ostatní řeší rychlost různých typů substitucí). b)Aminokyselinové substituční modely c)Synonymní a nesynonymní substituční modely • • Distanční matice Sekvence Tvorba fylogenetických stromů •Fylogeneze je historický proces, který popisuje vývoj genů/druhů. • •Fylogenetické vztahy genů nebo organismů jsou obvykle prezentovány ve formě stromu. • •Kořen stromu = společný předek sdílený všemi taxony; pomáhá ilustrovat evoluční vztahy mezi taxony • •Délka větve = reprezentuje množství evolučních změn • •Klady = monofyletické entity složené z předka a všech jeho potomků. Všechny taxony sdílejí jedinečné vlastnosti, které jsou odvozeny od společného předka • • • Tvorba fylogenetických stromů Tvorba fylogenetických stromů Větvení ilustruje pouze evoluční vztahy jednotlivých taxonů, resp. pořadí divergence. Neobsahuje parametr času ani množství změn. A B C D E F G H I kladogram Tvorba fylogenetických stromů V chronogramu jsou délky větví úměrné času a délky cesty od kořene ke špičce jsou stejné. Ve fylogramu odvozeném jsou délky větví úměrné počtu substitucí podél větví a délky cesty od kořene ke špičce jsou obvykle nestejné. chronogram fylogram •Hierarchické shlukování •Výpočetně nenáročné •Postupuje/shlukuje od nejpodobnějších sekvencí k nejméně podobným •Vyžaduje distanční matici jako zdroj dat = distanční metody: NJ, UPGMA, Minimum evolution (ME) • •Heuristické shlukování •algoritmus typicky obsahuje možnost volby pokračování výpočtu, tj. vytvoří se náhodný strom, spočítají se evoluční změny, prohodí se dvě větve, spočítají změny atd. Celé se to opakuje s mnoha stromy a vybere se ten nejlepší. •Znakové metody = snaží se o minimalizaci počtu změn znakového stavu (Maximum Parsimony (MP), Maximum Likelihood (ML)) nebo o maximalizaci pravděpodobnosti pozorovaných dat (Bayesian Inference (BI)) • • Tvorba fylogenetických stromů •Založeno na převzorkovávání vstupního datasetu • •Náhodný (i opakovaný) výběr sloupců • •Zadává se počet replikací • •Zjišťujeme odlišnosti nových stromů od původního • •Bayesian Inference (posteriorní pravděpodobnosti místo bootstrapu; vyjadřují míru pravděpodobnosti/spolehlivosti uzlu) • • Bootstrap (stanovení spolehlivosti stromu) A C C C C G T T A T T C C C G G T A A C T C T C C G T A A C T G T C G A C A A T A G A C C A C A A T A G A C G A T A A C C C T C A C T C C C C C A C T C T C G C C C A T T C T T C C G C A T T C C T G C G C A A A C C A C C G C A A A C T A G C •Datace stromu • •Kombinace 1)Molekulárních hodin = informace o rychlosti mutací, vyjádřená v jednotkách substitucí za rok 2)Fosilního záznamu, který poskytuje kalibrační body (víme, kdy došlo ke štěpení taxonů = lokalizace události na časové ose) • • • Tvorba fylogenetických stromů