SINE, LINE, etc. (Shedlock et al. 2004, TREE; Ray et al. 2007, MolEcol) •Transposable elements • •Vytváří kopie (většinou) • •Kopie integrovány na nová místa v genomu • •Obvykle nejsou specificky odstraňovány • •Molekulární fosílie – neexistují homoplasie !!! • •Nesmírně početné • •Člověk – víc jak polovina genomu (ost. druhy – 40-90%) • Objev DNA transpozonů u kukuřice: Barbara McClintock Barbara McClintock, 1947 Barbara McClintock Typy transposabilních elementů •Kódující své proteiny, autonomní, 1-10 kb –DNA transposony (cut-and-paste) –transposasa –Retrotransposony (copy-and-paste) –LINE 1-2 proteiny, kopie přes RNA –LTR retrotransposony 5-6 proteinů, také přes RNA – •Nekódují proteiny, neautonomní, 100-1000 bp paraziti předešlých, např. SINE (člověk Alu – více než 1 milion kopií) – nejčastěji používané v populačních a fylogenetických studiích • • LINE – mechanismus transpozice •Kopie přes RNA • •Reversní transkriptáza • •Mašinerii využívají SINE (jsou to „paraziti“), Alu (SINE) a L1 (LINE) se stejně rychle množí DNA RNA Zpět na DNA Nové místo v genomu • LTR retrotransposony – opět přes RNA, složitější proces Velmi nízké riziko homoplázií → SINE = vhodné fylogenetické markery (spíše historicky, před rozvojem levného sekvenování) „single-locus marker“ - PCR amplifikace daného úseku a elektroforéza SINE prezence/absence SINE (nikoliv póly elektroforézy) Neexistují zpětné mutace = výhoda oproti sekvenačním datům - jednoduchý mutační model (jednosměrné a nevratné mutace) http://www.talkorigins.org/faqs/molgen/fig4.gif http://www.izun.eu/sites/default/files/uvodniky/10-2012/hroch2.jpg http://upload.wikimedia.org/wikipedia/commons/a/ae/Physeter_macrocephalus1.jpg http://www.biolib.cz/IMG/GAL/44616.jpg Příklad aplikace: kytovci vs. sudokopytníci (hroch je bratr velryby) Obsah obrázku osoba, venku, slon, Sloni a mamuti Popis byl vytvořen automaticky Norihiro Okada „Incomplete lineage sorting“ •80 Mya •ILS (incomplete lineage sorting) – nesoulad mezi lokusy •předek placentálních savců se rozdělil na tři linie simultánně během krátké doby STRONG (Screening of Transposons Obtained by Next-Generation Sequencing) •bílé šipky - ILS na základě dvou SINE •pelikáni a volavky jsou blízce příbuzní, ale zároveň probíhal tok genů mezi předky volavek a ibisů Waterbird phylogeny as revealed by results of the STRONG method. (A) The STRONG method. This method uses a collection of NGS reads (left) to search for orthologs from the genome database of an outgroup species (middle) and assess the presence/absence of retroposons by PCR (right). Gray shading denotes retroposons, and horizontal arrows above the solid lines indicate PCR primers. (B) Waterbird phylogeny as determined by retroposon insertion analysis. Gray lines indicated by open arrowheads denote nodes where ILS was detected based on data for two retroposon insertions. (C) Inconsistent retroposon insertions among the three phylogenetic hypotheses. Nine and six loci supported the close relationship between the pelican + heron clade and between the ibis + heron clade, respectively, whereas no insertions supported the pelican + ibis clade. (D) Proposed evolutionary scenario for the pelican, heron, and ibis lineages. Pelicans and herons are phylogenetically closely related, but gene flow might have occurred between the heron and ibis lineages. Fig1 A/A G/G Single nucleotide polymorphisms (SNPs) Single nucleotide polymorphisms (SNPs) SNPs : nuclear genome (consensus) SNPs = single-locus genetic markers •SNPs (single nucleotide polymorphisms) – sekvenční polymorfismus • •kodominantní – je možné odlišit heterozygota (např. A/T) od homozygota (např. A/A) Př.: chromozóm 1 CAAGTA TGGACG CATGTA TGCACG CAAGTA TGGACG CAAGTA TGGACG A/T A/A Příklad diagnostického SNP znaku Fig1 transice A ↔ G transition: Pu®Pu or Py®Py transversion: Pu®Py or Py®Pu - fixovaný polymorfismus (homozygoti) = diagnostické SNPs - využití např. při studiu hybridizací (hybridi = heterozygoti) Značení heterozygotů N = A, C, G, T V = G, A, C D = G, A, T H = A, T, C B = G, T, C R = A, G Y = C, T M = A, C K = G, T S = G, C W = A, T A/A G/G Využití SNPs znaků •obdobné jako u mikrosatelitů •identifikace druhu (nebo genetické skupiny) - studium hybridizace (+ introgrese částí genomu) •fylogeografie •populační genetika (genetická variabilita a struktura, tok genů, identifikace jedinců a vztahů mezi nimi, populační velikost a její změny atd.) •mutace ve funkčních genech – i záměna jedné aminokyseliny může mít fatální dopad na fenotyp •genome-wide genotyping – asociace s fenotypem Výhody •početné a rozšířené v genomu (v kódujících i nekódujících oblastech) – milióny lokusů •1 SNP cca každých 300-1000 bp (mezi blízce příbuznými druhy) •Mendelovská dědičnost (vs. mtDNA) •evoluce je dobře popsatelná relativně jednoduchým mutačním modelem (vs. microsatelity) •jsou analyzovány kratší fragmenty DNA – neinvazivní genetika Nevýhody •„ascertainment bias“ – výběr informativních znaků se provádí na základě jen malého počtu jedinců a nemusí být reprezentativní •nízká variabilita na lokus (většinou jen 2 alely) •pro populační genetiku je vyžadován větší počet lokusů (4-10 krát více než u mikrosatelitů) Metody analýzy 1.Nalezení lokusů („ascertainment“) 2.Genotypizace 1. Nalezení SNPs (1) CATS loci = comparative anchor tagged site loci (= cross amplification) (2) Genomická knihovna = naštěpení genomu + klonování (náhodný výběr klonů – 1 SNP každých 300-1000 bp) V současné době: Next-generation sequencing – sekvenování genomu více jedinců a hledání polymorfismů, např. tzv. RAD sequencing (viz další přednášky) Ascertainment bias A-----T------C G-----A------G A-----T------C G-----A------C G-----A------C G-----A------G A-----T------C A-----T------C A-----T------C A-----T------C A-----T------C A-----T------C Analýza 3 jedinců u druhu (populace) 1 Tři polymorfní (informativní) SNPs Polymorfismus daných SNPs je druhově (populačně) specifický Druh (populace) 1 Druh (populace) 2 Ind. 1 Ind. 2 Ind. 3 2. SNPs genotyping = zjištění genotypu daného jedince SNPs genotyping – sekvenování? Je drahé a nejasné u heterozygotů C T C/T Heterozygoti? Sekvenování z obou stran – are you really sure? A/C T/G SNPs genotyping – klonování a následné sekvenování? - rozdělení dvou alel (či více u duplikovaných genů) každý klon obsahuje jen jednu alelu vector = plasmid insert = only one PCR product ligation, transformation Ex.: heterozygote = two diff. alleles izolace vektorů obsahujících insert sekvenování insertů !!! klonování – cca 800 Kč !!! sekvenování 1 klonu – cca 100 Kč PCR vytváří substituční chyby, které jsou vizualizovány klonováním (!) TTCAGGTCTCGTAGCTTCGA TTCAGGTCTCCTAGCTTCGA TTCAGGTCTCGTAGCTTCGG TTCAGGTCTCCTAGCTTCGA TTCAGGTCTCGTAGCTTCGA TTCAGGTCTCCTAGCTTCGA TTCAGGTCTCGTAGCTTCGA TTCAGGTCTCCTAGCTTCGA TTCAGGTCTCGTAGCTTCGA TTCAGGTCTCCTAGCTTCGA TTCAGGTCTCGTAGCTTCGA TTCAGGTCTCCTAGCTTCGA TTCAGGTCTCGTAGCTTCGA TTCAGGTCTCCTAGCTTCGA TTCAGGTCTCGTAGCTCCGA TTCAGGTCTCCTAGCTTCGA TTCAGGTCTCGTAGCTTCGA TTCAGGTCTCCTAGCTTCGA TTGAGGTCTCGTAGCTTCGA TTCAGGTCTCCTAGCTTCGA ... před PCR = heterozygot G/C PCR artefakty (= šum při standardním sekvenování, ale velmi jasné při sekvenování klonů) SNPs genotypizace 1.„Old standards“ (PCR-based) •RFLP: PCR + štěpení + standardní elfo •DGGE, TGGE, SSCP: PCR + nestandardní elfo •původně diagnostika geneticky podmíněných chorob, např. cystická fibróza • 2.„New methods“ (nejsou založeny na standardní PCR) •HRM: high-resolution melting (real-time PCR) •real-time PCR se specifickými sondami (TaqMan, molecular beacon) •ASPE: allele-specific primer extension • SBE: single base extension • SNP microarrays (GeneChip method) • • PCR-RFLP (restriction fragments length polymorphism) Restrikční místa • každá restrikční endonukleáza štěpí DNA na specifické sekvenci = restrikční místo • enzymy rozpoznávají 4-6 bp dlouhou palindromatickou sekvenci (eg GAATTC) Palindrome Restriction site Fragment 1 Fragment 2 SNP genotypizace – „old standards“ „Jelenovi pivo nelej“ „A dál vidí lítat netopýry potentát i lid i vláda“ Běžné restrikční enzymy EcoRI – Eschericha coli – 5 prime overhang Pstl – Providencia stuartii – 3 prime overhang SmaI restriction enzyme recognition site.svg SmaI – blunt end „sticky ends“ „blunt ends“ SNP genotypizace – „old standards“ PCR-RFLP CCGATCAATGCGGCAA GGCTAGTTACGCCGTT CCGATCACTGCGGCAA GGCTAGTGACGCCGTT štěpení restrikční endonukleázou Alela A Alela C neštěpí - neumožní nalézt novou variantu daného SNP (odliší pouze 2 formy daného znaku: +/- ) SNPs genotyping – „old standards“ electroforetické metody detekce mutací •Thermal gradient gel electrophoresis (TGGE) •Denaturing gradient gel electrophoresis (DGGE) •Single-strand conformation polymorphism (SSCP) • •= specifické elektroforetické metody založené na odlišné mobilitě stejně dlouhých fragmentů s různou DNA sekvencí Denaturing gradient gel electrophoresis (DGGE) (TGGE – podobné, ale gradient teploty) dgge Krátké PCR fragmenty (200-700 bp) jsou separovány v denaturačním gradientu (PAGE = polyakrylamidový gel) → v určitém bodě začně DNA denaturovat („melting point“) – závisí na sekvenci, tj. každá sekvence denaturuje při jiné koncentraci močoviny Denaturované fragmenty putují v gelu pomaleji Po obarvení lze vidět rozdílné pozice PCR produktů v závislosti na jejich sekvenci DGGE v bakteriální metagenomice http://www.biomedcentral.com/content/figures/1471-2164-11-488-1-l.jpg http://www.envirologek.com/orange/uploads/dgge-figure.png Dnes rychle nahrazováno HTS („high-throughput sequencing“ Single strand conformation polymorphism (SSCP) Homo1 Homo2 + - !!! non-denaturing PAGE Hetero radioisotopes silver-staining fluorescent dyes (SYBR gold) Allele 1 - C ...CGCTTCAGG ... ...GCGAAGTCC... ...CGCTTAAGG ... ...GCGAATTCC... Allele 2 - A heating - denaturation snap-cooling ® partial renaturation sequence-specific ssDNA conformations Použití automatických sekvenátorů (denaturující polymer POP7 – ssDNA, např. mikrosatelity – jeden značený primer) Vysoká citlivost, dobře kontrolovatelné parametry elektroforézy CTTTCTTTCTTTCTTTCTTTCTTTCTTTCTTT CTTTCTTTCTTTCTTT GAAAGAAAGAAAGAAAGAAAGAAAGAAAGAAA primer primer GAAAGAAAGAAAGAAA primer primer Msat paternita - Sekerak + - 125 bp 131 bp HEX HEX Použití automatických sekvenátorů Proč nevyužít nedenaturující elektroforézu? - well controlled electrophoresis - - two fluorescent labels - high sensitivity e.g. CAP (conformation analysis polymer) Allele 1 Allele 2 FAM... CGCTTCAGG ... ... GCGAAGTCC ...HEX FAM... CGCTTAAGG ... ... GCGAATTCC ...HEX • MHC Class II (DQA gene) 2 3 1 2 1 2 1 4 Analýza elektroforetogramů •např. GeneMapper (Applied Biosystems) •specifický „Size+Conformation Standard“ pro každou teplotu (konformace závisí na teplotě) •srovnání více vzorků •umožňuje detekci krátkých odlišných sekvencí s více SNPs (užitečné např. pro genotypizaci MHC, tj. vysoce variabilních genů) •opět rychle nahrazováno „hight-throughput sequencing“ SNP genotypizace – „new methods“ 1.high-resolution melting temperature (HRMT) 2. real-time PCR se specifickými sondami (TaqMan, molecular beacon) 3.ASPE: allele-specific primer extension 4. SBE: single base extension 5.Alelově-specifická hybridizace = nejsou založeny na standardní PCR mohou využívat tzv. microarrays („SNP chips“) 1. High-resolution melting temperature (HRMT) Krok 1: real-time PCR = nárůst fluorescence Krok 2: měření rychlosti denaturace po PCR = pokles fluorescence (závislý na konkrétní sekvenci) SANY0264zmenseny HRMT-popis2.JPG HRMT-popis.JPG HRMT genotypizace Detekce heterozygotů - velmi levná a jednoduchá metoda – v podstatě jen qPCR - vhodná na genotypizace jednoduchých SNP u velkého množství vzorků 2. Real-time PCR se specifickou sondou 1) TaqMan sondy 2) Molecular Beacons („maják“) real-time PCR sondy specifické pro jednotlivé alely 3. ASPE: allele-specific primer extension CCGATCAATGCGGCAA CCGATCAATGCGGCAA T G • dvě PCR (každá se specifickými primery k danému SNP) • 3’ terminální nukleotid na primerech je komplementární k SNP nukleotidu • alelově-specifická amplifikace je umožněna vysoce specifickou polymerázou Úspěšná PCR Žádný PCR produkt ASPE: allele-specific primer extension (automatizovaná verze) • existují optimalizované multiplexy pro modelové druhy (např. člověk 1536 SNPs) • fluorescenční detekce (např. Illumina nebo LGC Genomics) Kompetitive Alelle Specific PCR Cena analýzy (2020) LGC Genomics cost ABI Taqman® Assay by Design SNP assay design costs (validation) £1,620.00 £6,750.00 Genotyping cost £701.50 £388.80 Total £2,321.50 £7,138.80 Small scale study of 15 SNPs genotyped over 96 samples where no Assay on Demand (an alternative type of assay from ABI) SNP exists https://www.biosearchtech.com/support/resources/starting-a-genotyping-project 4. SBE: single base extension CCGATCAATGCGGCAA CCGATCACTGCGGCAA T G - pouze jeden dideoxynukleotid je přidán k primeru - detekce různými metodami T G + - (A) Detekce SBE produktů kapilární elektroforézou + - kapilární elektroforéza SNaPShot Multiplex Kit (ThermoFisher Scientific) „multiplex version“ – různě dlouhé primery, aby bylo možné odlišit různé lokusy (B) Detekce SBE produktů přes „microarray“ (tj. hybridizace) CCGATCACTGCGGCAA G tag – specifický pro každý lokus 1. 2. 3. 4. multicolor detection (using of 5’ oligonucleotide tags on SBE primers) tag-complementary probe – specifická sonda pro každý lokus multiplex PCR Illumina Infinium Bead Chip cca 300 000 SNP loci from 200 ng of DNA 5. Alelově specifická hybridizace Microarrays – SNPs chips Target (genomická DNA rozštěpená restrikčními enzymy) Probe (specifická sonda pro každou alelu) Microarray SNP Genotyping … ACT GGT CAT … (G) … ACT GTT CAT … (T) probes …ACTG?TCAT… …ACTG?TCAT… …ACTG?TCAT… Individual 1 Individual 2 Individual 3 targets G/G T/T G/T Detekce: např. Thermo Fisher Scientific (Affymetrix) - 10 tisíc – 1 milión SNP znaků najednou – „chip technology“ - např. Mouse Diversity Genotyping Array – 623 tisíc SNPs (je známa pozice každého z nich na genomu) - je možné si navrhnout vlastní Array Může být silný „ascertainment bias“ Využívá Illumina Infinium technologii (single base extension) Použití pro nemodelové druhy („cross-genotyping“) DSC_5565 https://encrypted-tbn2.gstatic.com/images?q=tbn:ANd9GcRtnPlK9dqm7DunHdesEsqptdG_ejIeeVnkAZk9EqDz5mq G2K_d Studium kontaktní zóny Mus minutoides ve východní Africe jedinec 1 jedinec 2 1620 informativních lokusů z 5598 lokusů na chromozómu 1 (60 SNPs fixovaných pro dané subpopulace v celém genomu) Dnes široká škála komerčních možností SNP genotyping pro nemodelové druhy – př. Illumina No. of loci: 3 000 – 1 milión 48-384 48 Samples/day 288 288 384