Polymerase chain reaction (PCR) MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE CZ.1.07/2.2.00/15.0204 PF_72_100_grey_tr ubz_cz_black_transparent Sekvencování Typy genetických markerů Př.: chromozóm 1 „single-locus“ „multi-locus“ Typy genetických markerů •dominantní markery – odliší pouze přítomnost (či nepřítomnost) daného znaku; tj. neodliší obě jeho formy na homologních chromozómech • •kodominantní markery – identifikace homologních alel, tj. je možno rozlišit homozygotní a heterozygotní stav (umožňují stanovit frekvenci alel) Typy genetických markerů Single locus Codominant PCR assay Overall variability Nuclear multilocus Minisatellite DNA fingerprints No No No High RAPD No No Yes High AFLP No No Yes High Nuclear single locus Alozymy Yes Yes No Low-medium Mikrosatelity Yes Yes Yes High SINE (LINE) Yes Yes Yes Low SNPs (sekvence) Yes Yes Yes Low-high Multi-locus genetic markers •Mnoho znaků náhodně rozmístěných v genomu – celogenomový scan Øminisatellite DNA fingerprinting ØRAPD (randomly amplified polymorphic DNA) ØAFLP (amplified fragment length polymorphism) •presence vs. absence = dominantní znaky (neodliší heterozygota) • Př.: chromozóm 1 Single-locus genetic markers •kodominantní – možno stanovovat frekvence alel (= lze odlišit homo- a heterozygota) • •allozymy a jiné funkční geny - MM • •mikrosatelity – délkový polymorfismus • •SNPs (single nucleotide polymorphisms) – sekvenční polymorfismus • •SINE, LINE Př.: chromozóm 1 Mikrosatelity Mikrosatelity jsou stále nejpoužívanější markery v molekulární ekologii Mikrosatelity •VNTR („variable number of tandem repetitions“), SSR („simple sequence repeats“) •jednotlivé alely se liší délkou • TTCAGGCACACACATCTCTAGCTTCGA 27 bp TTCAGGCACACATCTCTAGCTTTGA 25 bp genotyp diploidního jedince: 25/27 Mikrosatelity •1-6 (nejč. 2-4) bp motiv •početné po celém genomu •vysoká úroveň polymorfismu (běžně 15 alel v populaci) •Mendelovská dědičnost (autosomy) - kodominance •ideální pro studium populační struktury a příbuzenských vztahů Mikrosatelity - postup analýzy • •Izolace DNA • •PCR • •Detekce → elektroforéza • → sekvenátor, fragmentační analýza CTTTCTTTCTTTCTTTCTTTCTTTCTTTCTTTCTTTCTTTCTTTCTTTCTTT CTTTCTTTCTTTCTTTC CTTTCTTTCTTTCTTTCTTTCTTTCTTTCTTTCTTT CTTTCTTTCTTTCTTTCTTTCTTT CTTTCTTTCTTTCTTTCTTTCTTTCTTTCTTTCTTT tools_1a lox8uka gelloadingphoto lox8uka pcr pahylkresleny CTTTCTTTCTTTCTTTCTTTCTTTCTTTCTTT CTTTCTTTCTTTCTTT GAAAGAAAGAAAGAAAGAAAGAAAGAAAGAAA primer primer GAAAGAAAGAAAGAAA primer primer elektroforéza: agaróza (20 bp) → PAGE (4 bp) → kapilára (1 bp) tools_1a detektor laserový paprsek Kapilární eletroforéza ~ Fragmentační analýza Msat paternita - Sekerak směr elektroforézy Stanovení délky PCR fragmentů srovnáním se známým standardem ROX NED 300 bp 350 bp 340 bp 326.66 bp 342.61 bp Genotyp mikrosatelitu na lokusu NED = 326/342 nebo 327/343 Čas 298 304 302 294 296 „stutters“ – chyby v důsledku „sklouznutí“ polymerázy při PCR - často odlišují mikrosatelity od nespecifických PCR produktů - rozdíl mezi alelou a „stutter“ je délka repetice (zde 2 bp) Genotyp 298/304 - alely a jejich stuttery jsou černě (rozdíl mezi nimi je 2 bp) - bílé píky jsou tzv. „mínus A-alely“ a jejich stuttery = výsledek jiné chyby polymerázy, a to nepřidání koncového adeninu - rozdíl mezi černým a sousedním bílým píkem je 1 bp (tj. chybějící adenin) - pattern daného lokusu je vždy specifický a často záleží na PCR podmínkách 162 174 173 171 169 161 159 157 172 170 160 158 Genotyp 162/174 Srovnání různých jedinců – analýzy příbuznosti Msat paternita - Sekerak Elektroforetogramy čtyř různých heterozygotů 3 bp repetice PCR produkty 125-134 bp + - Ind. 1 Ind. 2 Ind. 3 Ind. 4 směr elektroforézy 125/131 131/134 125/134 131/137 Př. Analýza příbuzenských vztahů Msat paternita - barvy Genotyp (bp) Matka: 125/131 Otec: 131/134 Potomek 1: 125/134 Potomek 2: 131/137 Sledovaný otec mohl zplodit potomka 1, ale zcela jistě není otcem potomka 2 + - ? Různé značení různých znaků • •Snížení časových a finančních nákladů •= „multiplex set“ •Až 4 různé barvy (+ 5. barva jako velikostní standard) – analýza až 4 lokusů o stejné velikosti alel • 3LOKCELE Mikrosatelity - omezení •nalezení lokusů (navržení primerů) je pracné a nákladné u volně žijících druhů (genomová knihovna, klonování, screening, sekvencování) TTCAGGCACACACATCTCTAGCTTCGA Př.: chromozóm 1 „flanking regions“ – ohraničují repetici a zde musí být navrženy primery pro PCR Restriction, enrichement, cloning, and sequencing Genomic DNA after restriction and enrichement sequencing of inserts (repetitive DNA + flanking regions primer design and polymorphism testing isolation of vectors containing inserts screening for repetitions by hybridisation Každý klon obsahuje jednu sekvenci vector = plasmid Enriched genomic library ligation, transformation Mikrosatelity - omezení n„cross-amplification“ – úspěšnost klesá s fylogenetickou vzdáleností n nnulové alely (mutace v primerových sekvencích) → vyšší proporce „homozygotů“ TTCAGGCACACACATCTCTAGCTTCGA TTCAGGCACACATCTCTAGCTTTGA x PCR OK no PCR Mikrosatelity – budoucnost (?) n„next-generation sequencing“ – velice rychlá sekvenace stovek tisíců fragmentů z jakéhokoliv genomu n nvyhledání repetitivních sekvencí vhodným softwarem a navržení primerů n nidentifikace nových mikrosatelitů rychle, elegantně a relativně levně (1500 EUR) Teoretické mutační modely – analýzy vyžadující údaj o podobnosti alel Dva extrémy •IAM – infinitive allele model Při mutaci ztráta nebo získání libovolného počtu opakování. Vzniká nová alela, která doposud v populaci nebyla - každá alela vznikne pouze jednou a pak už se nemění. Není možno určit podobnost (similarity) alel • • •SMM – stepwise mutation model (Mutace způsobeny pouze ztrátou nebo získáním jediného opakování motivu. Mutací může vzniknout alela, která je již v populaci přítomna – tzv. homoplázie. Je možno odhadnout podobnost alel. CTTTCTTTCTTTCTTTCTTTCTTTCTTTCTTT CTTTCTTTCTTTCTTT CTTTCTTT CTTTCTTTCTTTCTTT CTTTCTTTCTTTCTTTCTTT CTTTCTTTCTTTCTTTCTTTCTTT CTTTCTTTCTTTCTTTCTTTCTTTCTTT CTTTCTTTCTTTCTTTCTTTCTTT Indels •inzerce nebo delece 1bp či delších úseků – použití pouze pro modely vyžadující „identity“ (nepoužitelné pro modely vyžadující „similarity“ TTCAGGCACACACATCTCTAGCTTCGA TTCAGGCACACACACATCTCTAGCTTCGA SMM model – možno kvantifikovat podobnost alel 27 bp 29 bp TTCAGGCACACACATCTCGTAGCTTCGA TTCAGGCACACGACATCTCTAGCTTCGA TTCAGGCACACCATCTCTAGCTTCGA TTCAGGCACACACATCTCTAGTTCGA 28 bp 28 bp 26 bp 26 bp „Indels“ – pouze pro analýzy, kde je vyžadována „identity“ a nikoliv podobnost Proč je tolik alel? (microsatellite instability) • • •Nerovnoměrný (Unequal) crossing-over (díky špatnému alignmentu) • • •Sklouznutí polymerázy při replikaci Slip-strand mispairing (při replikaci nejprve polymeráza sklouzne a vyrobí odlišný počet opakujícího se motivu mikrosatelitu, při alignmentu je pak část opakování vykloněna mimo dvoušroubovici, flanking regions tedy párují) Bias (skutečná data) •Kratší mikrosatelity (s malým počtem opakování motivu) mají zřejmě tendenci se spíše prodlužovat (slabě převládají adice nad delecemi) • •Delší mikrosatelity se spíše zkracují (náchylnější k velkým delecím) • •Delší mikrosatelity rychleji mutují (díky více opakováním je vyšší pravděpodobnost pro sklouznutí polymerázy (SSM) – mají více alel) Mikrosatelity - závěry •Mechanismy evoluce mikrosatelitů stále nepříliš objasněny • •Stepwise mutation model SMM platí jen omezeně • •= nevýhoda v populační genetice (jsou rychle nahrazovány jinými markery, např. SNPs) • •= tolik nevadí při identifikaci jedinců a analýzy příbuznosti (paternity) SINE, LINE, etc. (Shedlock et al. 2004, TREE; Ray et al. 2007, MolEcol) •Transposable elements • •Vytváří kopie (většinou) • •Kopie integrovány na nová místa v genomu • •Obvykle nejsou specificky odstraňovány • •Molekulární fosílie – neexistují homoplasie !!! • •Nesmírně početné • •Člověk – víc jak polovina genomu (ost. druhy – 40-90%) • Objev DNA transpozonů u kukuřice: Barbara McClintock Barbara McClintock, 1947 Barbara McClintock Typy transposabilních elementů •Kódující své proteiny, autonomní, 1-10 kb –DNA transposony (cut-and-paste) –transposasa –Retrotransposony (copy-and-paste) –LINE 1-2 proteiny, kopie přes RNA –LTR retrotransposony 5-6 proteinů, také přes RNA – •Nekódují proteiny, neautonomní, 100-1000 bp paraziti předešlých, např. SINE (člověk Alu – více než 1 milion kopií) – nejčastěji používané v populačních a fylogenetických studiích • • LINE – mechanismus transpozice •Kopie přes RNA • •Reversní transkriptáza • •Mašinerii využívají SINE (jsou to „paraziti“), Alu (SINE) a L1 (LINE) se stejně rychle množí DNA RNA Zpět na DNA Nové místo v genomu • LTR retrotransposony – opět přes RNA, složitější proces Velmi nízké riziko homoplázií → SINE = ideální fylogenetické markery „single-locus marker“ - PCR amplifikace daného úseku a elektroforéza SINE Neexistují zpětné mutace = výhoda oproti sekvenačním datům Příklad aplikace: kytovci vs. sudokopytníci (hroch je bratr velryby) Fig1 A G Single nucleotide polymorphisms (SNPs) SNPs : nuclear genome (consensus) Kolik SNPs se vyskytuje u člověka? •mutační rychlost je ~2.5 x 10-8 mutací / místo / gen •~150 mutací/diploidní genom/generace •6.3 milliard lidí na světě = 945,000,000,000 mutací v současném světě •3 miliardy nukleotidů = každý nukleotid je zmutovaný 315 krát • Příklad informativního SNP znaku Fig1 transice A ↔ G transition: Pu®Pu or Py®Py transversion: Pu®Py or Py®Pu Využití SNPs znaků •identifikace druhu (nebo genetické skupiny) - studium hybridizace • •fylogeografie • •populační genetika (genetická variabilita, identifikace jedinců a vztahů mezi nimi, populační velikost a její změny atd.) Výhody •početné a rozšířené v genomu (v kódujících i nekódujících oblastech) – milióny lokusů •1 SNP cca každých 300-1000 bp •Mendelovská dědičnost (vs. mtDNA) •evoluce je dobře popsatelná jednoduchým mutačním modelem (vs. microsatellites) •jsou analyzovány kratší fragmenty DNA – neinvazivní genetika Nevýhody •„ascertainment bias“ – výběr znaků se provádí na základě jen malého počtu jedinců a nemusí být reprezentativní •nízká variabilita na lokus (většinou jen 2 alely) •pro populační genetiku je vyžadován větší počet lokusů (4-10 krát více než u mikrosatelitů) Metody analýzy 1.Nalezení lokusů („ascertainment“) 2.Genotypizace Nalezení SNPs CATS loci = comparative anchor tagged site loci (= cross amplification) Genomic library = genome restriction + cloning Next-generation sequencing – analýza více jedinců a hledání polymorfismů hapmapfig2 Identifikace různých genotypů u různých jedinců (= homologních chromozómů, tj. variabilita alel) SNPs genotyping = zjištění genotypu daného jedince SNPs genotyping – sekvenování? Je drahé a nejasné u heterozygotů C T C/T Heterozygotes? Bi-directional sequencing – are you really sure? AC GT SNPs genotyping – klonování a následné sekvenování? - separation of two (or more in duplicated genes) alleles each clone contain the only allele vector = plasmid insert = only one PCR product ligation, transformation Ex.: heterozygote = two diff. alleles isolation of vectors containig inserts sequencing of inserts !!! cloning – 1000 Kč !!! sequencing 1 clone – 150 Kč PCR is making substitution errors that are visualised by cloning TTCAGGTCTCGTAGCTTCGA TTCAGGTCTCCTAGCTTCGA TTCAGGTCTCGTAGCTTCGG TTCAGGTCTCCTAGCTTCGA TTCAGGTCTCGTAGCTTCGA TTCAGGTCTCCTAGCTTCGA TTCAGGTCTCGTAGCTTCGA TTCAGGTCTCCTAGCTTCGA TTCAGGTCTCGTAGCTTCGA TTCAGGTCTCCTAGCTTCGA TTCAGGTCTCGTAGCTTCGA TTCAGGTCTCCTAGCTTCGA TTCAGGTCTCGTAGCTTCGA TTCAGGTCTCCTAGCTTCGA TTCAGGTCTCGTAGCTCCGA TTCAGGTCTCCTAGCTTCGA TTCAGGTCTCGTAGCTTCGA TTCAGGTCTCCTAGCTTCGA TTGAGGTCTCGTAGCTTCGA TTCAGGTCTCCTAGCTTCGA ... před PCR = heterozygot G/C SNPs genotyping 1.Old standards (PCR-based) •RFLP, DGGE, TGGE, SSCP •původně detekce geneticky podmíněných chorob, např. cystická fibróza • 2.New methods (not based on standard PCR) •real-time PCR se specifickými sondami (TaqMan, molecular beacon) •ASPE: allele-specific primer extension • SBE: single base extension • SNP microarrays (GeneChip method) • • PCR-RFLP (restriction fragments length polymorphism) Enzyme Site Recognition • Each enzyme digests (cuts) DNA at a specific sequence = restriction site • Enzymes recognize 4- or 6- base pair, palindromic sequences (eg GAATTC) Palindrome Restriction site Fragment 1 Fragment 2 SNP genotyping - old standards Common Restriction Enzymes EcoRI – Eschericha coli – 5 prime overhang Pstl – Providencia stuartii – 3 prime overhang SNP genotyping - old standards PCR-RFLP CCGATCAATGCGGCAA GGCTAGTTACGCCGTT CCGATCACTGCGGCAA GGCTAGTGACGCCGTT cutting by restriction endonuclease Allele A Allele C no cut - neumožní nalézt novou variantu daného SNP (odliší pouze 2 formy daného znaku: +/- ) SNPs genotyping – old standards Methods of mutation detection •Thermal gradient gel electrophoresis (TGGE) •Denaturing gradient gel electrophoresis (DGGE) •Single-strand conformation polymorphism (SSCP) • •= special electrophoresis methods based on differences in mobility of different DNA sequences • Denaturing gradient gel electrophoresis (DGGE) (TGGE – podobné, ale gradient teploty) dgge The small (200-700 bp) genomic fragments are run on a low to high denaturant GRADIENT acrylamide gel Each fragments move according to molecular weight, but as they progress into more denaturing conditions, each (depending on its sequence composition) reaches A POINT where the DNA BEGINS TO MELT They retard, and we will see shift in mobility We will see different shifts in mobility for differing products www.leveninc.com/cftr_ex.gif cftr_ex 1- normal homozygote 3- homozygous mutations will yield one band on a different position 2, 4, 5, 6 – heterozygous mutations will yield 4 bands (2 homozygous and 2 heterozygous) NOT ALL BANDS ARE SEEN !!!!! Detekce nových mutací – např. v diagnostice genetických chorob nebo při analýzách MHC Single strand conformation polymorphism (SSCP) Homo1 Homo2 + - !!! non-denaturing PAGE Hetero radioisotopes silver-staining fluorescent dyes (SYBR gold) Allele 1 ...CGCTTCAGG ... ...GCGAAGTCC... ...CGCTTAAGG ... ...GCGAATTCC... Allele 2 heating - denaturation snap-cooling ® partial renaturation sequence-specific ssDNA conformations Použití automatických sekvenátorů (denaturing polymer POP7 – ssDNA, e.g. microsatellites) Well controlled electrophoresis parameters, high sensitivity CTTTCTTTCTTTCTTTCTTTCTTTCTTTCTTT CTTTCTTTCTTTCTTT GAAAGAAAGAAAGAAAGAAAGAAAGAAAGAAA primer primer GAAAGAAAGAAAGAAA primer primer Msat paternita - Sekerak + - 125 bp 131 bp Použití automatických sekvenátorů Why not non-denaturing electrophoresis? - well controlled electrophoresis - - two fluorescent labels - high sensitivity CAP (conformation analysis polymer) – Applied Biosystems Allele 1 Allele 2 FAM... CGCTTCAGG ... ... GCGAAGTCC ...HEX FAM... CGCTTAAGG ... ... GCGAATTCC ...HEX • MHC Class II (DQA gene) – mice HZ 2 3 1 2 1 2 1 4 1 hour, ~ 100 Kč/4 samples incl. PCR Information about all alleles (vs. cloning-sequencing) Advantages of CE-SSCP •high throughput (when using 4, 16, or 96 -capillary sequencer) – time and money saving •no need of gel preparation and autoradiography •distinction of two DNA strains by two colour-labeling (usually FAM and HEX) •potential of multiplexing – not yet used !!! Disadvantages •need for electrophoresis optimisation (running temperature, sieving matrix, dilution of samples) •„complex“ patterns in some sequences • DAB1 and DAB3 genes MHC Class II Rhodeus sericeus Disadvantages •need for electrophoresis optimisation (running temperature, sieving matrix, dilution of samples) •„complex“ patterns in some sequences •alleles with the same pattern may rarely occur •it is necessary to test several run temperatures • • 18°C 22°C 25°C 35°C Rupicapra rupicapra – MHC Class II DRB gene, individual SR18t Data analysis •GeneMapper (Applied Biosystems) •different „Size Standard“ for each temperature •alignement of more samples Applications 1)Genotyping of codominant markers (e.g. single copy MHC genes) • MHC Class II (DQA gene) – mice HZ 2 3 1 2 1 2 1 4 ... even shape of the peaks is important !!! Applications 1)Genotyping of codominant markers (e.g. single copy MHC genes) 2)Identification of number of genes (e.g. duplicated MHC genes) sscp SSCP of three individuals: - different alleles - same alleles Carpodacus erythrinus – MHC Class I (Promerová et al. 2009) Seven peaks in one colours = = At least four amplifed copies !!! • Individual with genotype 1/2 Cloned allele 1 Cloned allele 2 Cloned PCR artefact MHC Class II (DQA gene) – mice HZ Detection of PCR artefacts during cloning of heterozygotes SNP genotyping – new methods 1. real-time PCR se specifickými sondami (TaqMan, molecular beacon) 2.ASPE: allele-specific primer extension 3. SBE: single base extension 4. SNP microarrays (GeneChip method) = not based on standard PCR (1) Real-time PCR se specifickou sondou 1) TaqMan sondy 2) Molecular Beacons („maják“) (2) ASPE: allele-specific primer extension CCGATCAATGCGGCAA CCGATCAATGCGGCAA T G • dvě PCR se specifickými primery • 3’ terminální nukleotid na primerech je komplementární k SNP nukleotidu • alelově-specifická amplifikace je umožněna vysoce specifickou polymerázou Úspěšná PCR Žádný PCR produkt ASPE: allele-specific primer extension (automatizovaná verze) • existují zoptimalizované multiplexy pro modelové druhy (např. člověk 1536 SNPs) • fluorescenční detekce (Illumina) (3) SBE: single base extension CCGATCAATGCGGCAA CCGATCACTGCGGCAA T G - pouze jeden dideoxynukleotid je přidán k primeru - detekce různými metodami T G + - Detection or SBE products + - electrophoresis in a capillary SNaPShot Multiplex Kit (Applied Biosystems) „multiplex version“ – různě dlouhé primery, aby bylo možné odlišit různé lokusy Microarray detection of SBE products CCGATCACTGCGGCAA G tag – specific for each locus 1. 2. 3. 4. multicolor detection (using of 5’ oligonucleotide tags on SBE primers) tag-complementary probe - specific for each locus (4) Microarray analysis of SNPs (whole genome approach – „chip technology“) Target Probe Microarray SNP Genotyping … ACT GGT CAT … (G) … ACT GTT CAT … (T) probes …ACTG?TCAT… …ACTG?TCAT… …ACTG?TCAT… Individual 1 Individual 2 Individual 3 targets G/G T/T G/T Detekce: Affymetrix, Illumina aj. 10 – 500 tisíc SNP znaků najednou – „chip technology“ BeadArray (Illumina) Použití u příbuzných druhů je možné, ale je tam velmi silný „ascertainment bias“