Bioinformatická analýza mutací Kamila Réblová Sekvenování Archivace: vznik primárních databází Rozvoj nástrojů pro data mining: ·rozvoj bioinformatických nástrojů (např. strukturní a predikční metody) ·vznik odvozených databází Klasifikace Analýza Archivace sekvenčních dat (databáze), snadná manipulace, dostupnost NCBI (National Center for Biotechnology Information) -> GenBank http://www.ncbi.nlm.nih.gov/Genbank/ EBI (European Bioinformatics Institute) -> European Molecular Biology Laboratory (EMBL)-Bank http://www.ebi.ac.uk/embl/ DNA Data Bank of Japan (DDBJ) https://www.ddbj.nig.ac.jp/index-e.html Primární (sekvenční) databáze nukleových kyselin: > > > Formáty sekvencí: >sp|P00439|PH4H_HUMAN Phenylalanine-4-hydroxylase OS=Homo sapiens GN=PAH PE=1 SV=1 MSTAVLENPGLGRKLSDFGQETSYIEDNCNQNGAISLIFSLKEEVGALAKVLRLFEENDV NLTHIESRPSRLKKD EYEFFTHLDKRSLPALTNIIKILRHDIGATVHELSRDKKKDTVPW FPRTIQELDRFANQILSYGAELDADHPGFKD PVYRARRKQFADIAYNYRHGQPIPRVEYM EEEKKTWGTVFKTLKSLYKTHACYEYNHIFPLLEKYCGFHEDNIP QLEDVSQFLQTCTGF RLRPVAGLLSSRDFLGGLAFRVFHCTQYIRHGSKPMYTPEPDICHELLGHVPLFSDRSF A QFSQEIGLASLGAPDEYIEKLATIYWFTVEFGLCKQGDSIKAYGAGLLSSFGELQYCLSE KPKLLPLELEKTAIQ NYTVTEFQPLYYVAESFNDAKEKVRNFAATIPRPFSVRYDPYTQR IEVLDNTQQLKILADSINSEIGILCSALQKIK Fasta formát IUPAC nucleotide code Large-scale DNA sequencing projects: 1953 - Odhalena struktura DNA… ??? 1965 – přečtena sekvence tRNA kvasinky 1974 – přečtena sekvence genomu bakteriofága ΦX174 (5,375 bp) 1988-1990 – založen Human Genome Project (HGP) (probíhá 1990-2000/2003) První organismy: 1995 – Haemophilus influenzae (1,830,140 bp) (epiglotitida, meningitida) 1996 – Saccharomyces cerevisiae (12,068,000 bp) 1998 – Caenorhabditis elegans (100,000,000 bp) Large-scale DNA sequencing projects: 1953 - Odhalena struktura DNA, J. Watson, F. Crick, R. Franklin 1965 – přečtena sekvence tRNA kvasinky 1974 – přečtena sekvence genomu bakteriofága ΦX174 (5,375 bp) 1988-1990 – založen Human Genome Project (HGP) (probíhá 1990-2000/2003) První organismy: 1995 – Haemophilus influenzae (1,830,140 bp) (epiglotitida, meningitida) 1996 – Saccharomyces cerevisiae (12,068,000 bp) 1998 – Caenorhabditis elegans (100,000,000 bp) Human Genome Project Consortium (2001) "A physical map of the human genome” Nature 409:934–41 2001 – Lidský genom (3,200,000,000 bp) Dideoxy neboli ‘Sangerova metoda’ 1977 – zavedena Sangerova metoda (Nobelova cena 1980) HGP Celera Company Sequencing strategies. (Left) The hierarchical shotgun (HS) strategy involves decomposing the genome into a tiling path of overlapping BAC clones, performing shotgun sequencing on and reassembling each BAC, and then merging the sequences of adjacent clones. The method has the advantage that all sequence contigs and scaffolds derived from a BAC belong to a single compartment with respect to anchoring to the genome. (Right) Whole-genome shotgun (WGS) strategy involves performing shotgun sequencing on the entire genome and attempting to reassemble the entire collection. With the WGS method, each contig and scaffold is an independent component that must be anchored to the genome. In general, many scaffolds may not be anchored without directed efforts. (Contigs are contiguous blocks of sequence; scaffolds are sets of contigs joined by paired reads from both ends of a plasmid insert.) > Původně gelová elektroforéza a radioaktivní značení => fluorescenčních značení dideoxynukleotidtrifosfátů v kombinaci s kapilární elektroforézou. Takto značené oligonukleotidy jsou detekovány laserem > > > dATP dGTP dCTP dTTP ddATP ddGTP ddCTP ddTTP DNA polymerase I e.g. The concentration of ddATP should be 1% of the concentration of dATP. Sangerova metoda > Genom Proteom > > > > > Mikrobiom 1:10? 10:1 ( bakterie ca. 1 kg) 3,2 mld párů bází Proteom je soubor proteinů, které jsou produkované z genomu daného organismu Je dynamický, zavisí na věku, ale také typu tkáně a stavu oragnismu. 2% genomu → proteiny zbytek – “junk” DNA - Non-coding = tRNA, rRNA, Transpozony Co ovlivňují? - 3D strukturu DNA - Chromosomalní uspořádání, regulace procesů v buňky (dělení) > Hierarchichal shotgun sequencing: > Whole genome shotgun sequencing > člověk octomilka známé protein-kódující geny ? ? 3 200 000 000 párů bází 23 párů chromozómů Délka DNA= 1 metr > Hierarchichal shotgun sequencing: > Whole genome shotgun sequencing > člověk octomilka známé protein-kódující geny 20-25 tis 13 tis 3 200 000 000 párů bází 23 párů chromozómů Délka DNA= 1 metr > Hierarchichal shotgun sequencing: > Whole genome shotgun sequencing > > > člověk octomilka známé protein-kódující geny 20-25 tis 13 tis 178 191 23 017 95-100% lidských genů podléhá sestřihu, min. 2 transkripty. transkripty 3 200 000 000 párů bází 23 párů chromozómů Délka DNA= 1 metr > > Next (second) generation sequencing – rozvoj od 2005 454 sequencing – pyrosequencing Illumina – sequencing by synthesis/bridge amplification SOLiD - Sequencing by Oligonucleotide Ligation and Detection Third generation - Oxford nanopore technology (ONT) ‘Next’ = not Sanger Method Aviti MGI Nové platformy ·Fragmentace (fyzikálně např. sonikace, nebo enzymaticky (DNAázy, Transpozáz) nebo chemicky (tepelné štěpení dvojmocnými ionty)) ·Úprava konců – end repair (zarovnání), fosforylace, dATP ·Ligace adaptoru, ktere predstavuji „primery“ ·Vychytání úseků pomocí hybridizačních song ·Amplifikace Capture seq. (Použití sond, které vychytají cílené geny - sequence capture) > > AVITI a MGI Cirkularizace DNA > https://www.youtube.com/watch?v=xUVdJN0m38c Tif fily -> bcl file (intensity)-> Fastq fily Fastq file C G A T Primární data Primární sekvence Kvalita readu Sekvence readu Info o běhu NGS Phred 10 – 90% base call accuracy Phred 20 – 99% base call accuracy Phred 30 – 99.99% base call accuracy Phred 40 – 99.999% base call accuracy Analýza (mutací) variant v sekvencích 1.Mapování readů na referenční genom (hg19, hg38, T2T) sam file – textový soubor, bam file je jeho binární verze Pro každý vzorek - R1.fastq a R2.fastq (tisíce - miliony readů) 2. Úprava bam souboru Indexování, realignment indelů, odstranění duplikátů 3. Variant calling – statistické testy, porovnává nalezené rozdíly vůči referenci výsledek: vcf file – soubor nalezených genetických variant Nastavení pro bioinformatickou proceduru např: •Treshold for allele frequency – 0,2 = 20% (for germline) •Mapping quality – 30 •Base quality – phred score •Počet mismatchů v readu •aj. 4. Anotace … u kodujících úseků přeloží do proteinové sekvence. Zjistí četnost dané varianty proti databázím, např: 1000genomů, Clinvar, Gnomad…) Přidá info z Omimu Výsledný soubor -> xls file > Proteinové sekvence???? > > > > > Proteinové sekvence Proteinové sekvence jsou odvozeny přepisem kódujících DNA sekvencí (CDS) 5' 3' atgcccaagctgaatagcgtagaggggttttcatcatttgaggacgatgtataa Čtecí rámec začíná atg (Met) u většiny druhů a končí stop kodonem (taa, tag or tga). Každý region DNA má 6 čtecích rámců > > > > > Proteinové sekvence Proteinové sekvence jsou odvozeny přepisem kódujících DNA sekvencí (CDS) 5' 3' atgcccaagctgaatagcgtagaggggttttcatcatttgaggacgatgtataa 1 atg ccc aag ctg aat agc gta gag ggg ttt tca tca ttt gag gac gat gta taa M P K L N S V E G F S S F E D D V * 2 tgc cca agc tga ata gcg tag agg ggt ttt cat cat ttg agg acg atg tat C P S * I A * R G F H H L R T M Y 3 gcc caa gct gaa tag cgt aga ggg gtt ttc atc att tga gga cga tgt ata A Q A E * R R G V F I I * G R C I Čtecí rámec začíná atg (Met) u většiny druhů a konční stop kodonem (taa, tag or tga). Každý region DNA má 6 čtecích rámců, 3 v každém směru > > > Další zdroje proteinových sekvencí • přímé sekvenování Edmanova degradace (odbourávání aminokyselin z N-konce a jejich identifikace) • Proteinové sekvence + MS/MS Edman’s chemistry The chemical reactions that yield the hydrolized N-terminal labeled amino acid are shown in fig 1. Each cycle includes essentially 3 steps: 1- Coupling of the phenylisothiocyanate (PITC, Edman reagent) to the alpha-amine of the polypeptide chain under basic conditions to form a phenylthiocarbamyl (PTC) moiety. 2- Cleavage under mild acidic conditions generate a free amino terminus on the polypeptide and an anilinothiazolinone (ATZ) adducted amino acid. 3- The latter is extracted and further converted to a more stable phenylthiohydantoin (PTH) derivative. The resulting PTH residue is analyzed by HPLC and retention times compared to that of standards PTH amino acids. „nepřímé“ sekvenování MS/MS experimenty Získaná spektra se porovnávají vůči databázi DNA Nanopore sequencing > pore-forming proteins, such as an engineered version of CsgG > ??? https://www.youtube.com/watch?v=RcP85JHLmnI&ab_channel=OxfordNanoporeTechnologies • CAG – at least 10 diseases (Huntington disease, spinal and bulbar muscular atrophy, dentatorubral-pallidoluysian atrophy and seven SCAs) • CGG – fragile X, fragile X tremor ataxia syndrome, other fragile sites (GCC, CCG) • CTG – myotonic dystrophy type 1, Huntington disease-like 2, spinocerebellar ataxia type 8, Fuchs corneal dystrophy • GAA – Friedreich ataxia • GCC – FRAXE mental retardation • GCG – oculopharyngeal muscular dystrophy • CCTG – myotonic dystrophy type 1 • ATTCT – spinocerebellar ataxia type 10 • TGGAA – spinocerebellar ataxia type 31 • GGCCTG – spinocerebellar ataxia type 36 • GGGGCC – C9ORF72 frontotemporal dementia/amyotrophic lateral sclerosis • CCCCGCCCCGCG – EPM1 (myoclonic epilepsy) > Repeat expansions cause many neurologic diseases Detekce expanzi pomocí nanoporového sekvenování > markedly different sizes of pathogenic expansions are suggested by the varying sized triangles Lokalizace expanzí v genu > Expanze repetic CTG v genu DMPK – myotonicka dystrofie > Expanze repetic CTG v genu DMPK – myotonicka dystrofie > > > > > > Zpřesněný basecalling Zpřesněný basecalling Zpřesněný basecalling Základní basecalling Základní basecalling Problém při basecallingu repetitivních oblastí > Protein Nanopore sequencing??? Main issues ?? Unlike 4 nucleotides that make up DNA, proteins are composed of 20 amino acids, each with a different charge and virtually 100s of potential post-translational modifications [2]. Moreover, it has proved difficult to control the translocation of peptides across a nanopore as enzymes capable of ratcheting the peptide at a controlled rate have been difficult to identify and conjugate with existing nanopores. •Mutace/varianty (odchylky od referenčnÍ sekvence) NGS: panel genů Exom → WES – whole exom sequencing (2% genomu) Genom → WGS – whole genome sequencing Sekvenování identifikuje (známé) varianty nebo odhalí nové (jsou skutečně kauzální???) mutační databáze: germinální mutací (HGMD), somatické (COSMIC) Specializované: (PAHdb, Leiden, IARC TP53 Database – somatické/germinální) Je nalezená mutace popsaná???? > Human Gene Mutation Database (HGMD) – databáze mutací lidských genů v kódujích oblastech. (vychází z primárních dat, manuální a Automatické prohledávání) > Jak rozlišit mezi: Bežnou variantou [single nucleotide polymorphisms (SNPs)] a kauzální mutací? Co když mutace není popsaná? Přístupy studia efektů missense mutací: •Funkční analýzy (exprese proteinu, stabilita, specifické charakteristiky) časově a finančně náročné •Automatické in silico programy (SIFT, PolyPhen, SNPs3D, FODLX..) rychlé a spolehlivost průměrně 70 % •Strukturní analýza pomocí molekulového modelování časově a finančně středně náročné, podhled do mechanismu účinky na atomární úrovni, je to ale stále predikce Automatické analýzy missense mutací pomocí bioinformatických nástrojů SIFT - Sorting Tolerant From Intolerant (http://sift.jcvi.org) SIFT assumes that important positions in a protein sequence have been conserved throughout evolution and therefore substitutions at these positions may affect protein function. Using sequence homology, SIFT predicts the effects of all possible substitutions at each position in the protein sequence. Úspěšnost predikce pro skupinu kauzálních mutací 69%. Falešně pozitivní 19 %. Polyphen -2 > > Falešně pozitivní ~ 20 %. Úspěšnost predikce 73% Automatické analýzy missense mutací pomocí bioinformatických nástrojů PolyPhen-2 uses eight sequence-based and three structure-based predictive features Structural features. Three additional features were selected for proteins with known 3D structures: 1) the accessible surface area of the wild-type amino acid residue, 2) the change in the hydrophobic propensity in the form of “knowledge-based potential”, and 3) crystallographic B-factor reflecting conformational mobility of the wild-type amino acid residue15. FOLDX (http://foldx.embl.de/) Automatické analýzy missense mutací pomocí bioinformatických nástrojů Empirical force field that was developed for the rapid evaluation of the effect of mutations on the stability, folding and dynamics of proteins and nucleic acids (a . . . l) are relative weights of the different energy terms used for the free energy calculation Výpočty na lokálním PC ne přes web rozhraní nyní. Lze měnit počáteční nastavení: T(K), c(M)… Změna celkové volné energie G = Gmut-Gwt Gmut - free energy difference between the folded and unfolded states Zahrnuje interakce mezi molekulou a rozpoustedlem – obvykle dva prispevky – polarni a nepolarni Interakce elektrostaticke, příspěvek daný vodikovými vazbami, entropicky term a term vyjadrujici clashes FOLDX (http://foldx.embl.de/) Automatické analýzy missense mutací pomocí bioinformatických nástrojů ΔΔG(change) = ΔG(MT) - ΔG(WT) ΔΔG(change) > 1kcal/mol: the mutation is destabilizing ΔΔG(change) < -1 kcal/mol: the mutation is stabilizing Úspěšnost predikce 60% Konsensus mutačních programů….. např. Varsome MetaRNN and MetaRNN-indel are pathogenicity prediction scores for human nonsynonymous SNVs (nsSNVs) and non-frameshift (NF) indels. They integrated information from 28 high-level annotation scores (16 functional prediction scores including SIFT, Polyphen2_HDIV, Polyphen2_HVAR, MutationAssessor, PROVEAN, VEST4, M-CAP, REVEL, MutPred, MVP, PrimateAI, DEOGEN2, CADD, fathmm-XF, Eigen and GenoCanyon, 8 conservation scores including GERP, phyloP100way_vertebrate, phyloP30way_mammalian, phyloP17way_primate, phastCons100way_vertebrate, phastCons30way_mammalian, phastCons17way_primate and SiPhy, and 4 allele frequency information from the 1000 Genomes Project, ExAC, gnomAD exome, and gnomAD genome) and produce an ensemble prediction model with a deep recurrent neural network (RNN). The final prediction is the likelihood of a nsSNV or NF indel being pathogenic. > Predikční nástroje na sestřihové varianty - nejčastěji rozhraní exon/intron > Small nuclear RNAs (snRNAs) are critical components of the spliceosome that catalyze the splicing of pre-mRNA. > Predikční nástroje na rozhraní exon/intron – sestřihové varianty > SPLICE AI Strukturní analýza pomocí molekulového modelování Nutná podmínka – xray nebo nmr struktura! Visualizační program: VMD, PYMOL > 3D struktury proteinů – databáze PDB > Databáze nukleových kyselin Vytvářejí sít kontaktů s okolními aminokyselinami H-bonding, stacking, salt bridges Mutace narušuje strukturu proteinu změna náboje, polarity velikost aminokyseliny narušení struktury proteinu vede k destabilizaci proteinu, unfoldingu příp. agregaci Mutace ve funkčních místech proteinu (např. vazbu ligandu/kofaktoru, příp. vazba specifických iontů součást konformace aktivního místa) Fe3+ Obr. PAH Ukazatele kauzality 1. Kauzální mutace uvnitř proteinu, polymorfismy spíš na povrchu 2. Kauzální mutace: wt mutace častěji vytváří vodíkové vazby a jiné kontakty Hodnocené znaky: - Specifické kontakty postraními řetězci AA - Výskyt AA v aktivním místě - Zanořenost AA v proteinu - změna objemu AA - změna náboje - změna polarity - Konzervovanost AA - Přítomnost helix/turn breakers Examples of disease caused by structure destabilizing factors: In silico analysis of mutations bonds of wild-type side-chains are shown purple, and bonds of the mutant side-chains are yellow. L226P F234S Causal mutations: R382L G60D F411I > > > > > > L226P F234S R382L G60D C91Y F411I a) This mutant introduces a proline into an a-helix, resulting in the loss of a main-chain hydrogen bond, as well as loss of hydrophobic interactions of the side-chain. B) Loss of hydrophobic interactions. A large buried non-polar side-chain is replaced by a small polar one, reducing the burial of non-polar area on folding. A cavity is also created, and there is a small gain in polar–polar energy c) Loss of a salt-bridge. R382 forms a salt-bridge (charge–charge interaction) in the wild-type protein, lost in this mutant. (d) Buried charge. G60D introduces a charge group into the interior of the protein. It also causes over-packing. (e) Over-packing. C91Y introduces a bulky side-chain into the interior of the protein, resulting in substantial over-packing. f) Cavity formation. F411I replaces a large buried non-polar side-chain with a smaller one, creating an internal cavity. There is also a loss of hydrophobic interaction.