ARCHAICKÁ DNA Paleogenetika = studium vymřelých organismů prostřednictvím archaické DNA (aDNA, ancient DNA) zdroje aDNA: zuby, kosti (kost skalní). muzejní exponáty atd. ale také např. vaječné skořápky, koprolity, rozžvýkaná březová kůra, půda, proteinové obaly hnid vší šatních další zdroje: keratin, chitin, osteokalcin, kolagen, hemoglobin, pigmenty, rostlinné polysacharidy ® proteomické metody = paleoproteomika Výhoda: nedochází k fragmentaci proteinů Þ větší časové škály Nevýhoda: proteiny neposkytují tolik informací jako DNA Prezentace aplikace PowerPoint Temporal bone Images, Stock Photos & Vectors | Shutterstock Šest rad, jak mít stále čistou hlavu. Bez vší - iDNES.cz První sekvence aDNA: zebra kvaga (Equus quagga) 150 let (Higuchi et al. 1984) egyptská mumie: 2400 let (Pääbo 1985). Zebra kvaga – Wikipedie http://thumbs.dreamstime.com/z/cartoon-egyptian-mummy-21823531.jpg http://www.geneticliteracyproject.org/wp/wp-content/uploads/2012/09/rainbow-DNA.jpg http://upload.wikimedia.org/wikipedia/commons/9/93/Mummy-UpperClassEgyptianMale-SaitePeriod_Rosicru cianMuseum.png The future of ancient DNA: Technical advances and conceptual shifts - Hofreiter - 2015 - BioEssays - Wiley Online Library The Hype Cycle of Ancient DNA | The Molecular Ecologist Stáří aDNA: většinou max. tisíce až desítky tisíc let mamut z permafrostu: 1,10 – 1,65 mil. let proteinové sekvence: 2019: nosorožec, 1,77 mil., Dmanisi 2016: pštros, 3,8 mil., Laetoli analýza proteinů vzorků až z rané jury human cell Diagram | Quizlet Lysosomes and its functions | Biology Ease Degradace DNA ihned po zániku buňky: ®fragmentace ®poškození blokující replikaci DNA ®poškození způsobující inkorporaci nesprávných bází Fragmentace: většinou < 100 bp Délky fragmentů se zmenšují zhruba exponenciálně Pruvost et al. (2007): 2 cca. 3200 let staré vzorky téhož jedince pratura (Bos primigenius): 1)1947, muzejní sbírky, 54 let ® žádná použitelná aDNA 2)2004 ® autentická aDNA To znamená, že 99 % DNA degradováno během pár desítek let Þ rychlost rozkladných procesů byla v muzejním prostředí více než 70´ vyšší než v průběhu předchozích ~3200 let v půdě! Blokující poškození: Blokování postupu DNA polymerázy při PCR modifikace nukleotidů příčné vazby (crosslinks): v rámci jednoho řetězce mezi řetězci téže molekuly mezi různými molekulami mezi DNA a proteinem Repair of DNA interstrand crosslinks: molecular mechanisms and clinical relevance - The Lancet Oncology Inkorporace chybného nukleotidu: Figure S4.3. Patterns of ancient DNA damage in non-UDG-treated shotgun | Download Scientific Diagram Kontaminace Macholán, Živa 2014 PRÁCE SE SOUBORY DNA databáze: EMBL (European Molecular Biology Laboratory) – European Bioinformatics Institute, Hinxton, UK: http://www.ebi.ac.uk/embl/ GenBank – NCBI (National Center for Biotechnology Information), Bethesda, Maryland, USA: http://www.ncbi.nlm.nih.gov/Genbank/ DDBJ (DNA Data Bank of Japan) – National Institute of Genetics, Mishima, Japan: http://www.ddbj.nig.ac.jp/ Proteinové databáze: SWISS-PROT – University of Geneve & Swis Institute of Bioinformatics: http://www.expasy.ch/sprot/ a http://www.ebi.ac.uk/swissprot/ PIR (Protein Information Resource) – NBRF (National Biomedical Research Foundation, Washington, D.C., USA) & Tokyo University & JIPID (Japanese International Protein Information Database, Tokyo) & MIPS (Martinsried Institute for Protein Sequences, Martinsried, Germany): http://www-nbrf.georgetown.edu/ PRF/SEQDB (Protein Resource Foundation) – Ósaka, Japan: http://www.prf.or.jp/en/os.htm PDB (Protein Data Bank) – University of New Jersey, San Diego & Super-computer Center, University of California & National Institute of Standards and Technology: http://www.rcsb.org/pdb/ FASTA: >H_sapiens ATGACCCCAATACGCAAAATTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGACCTCCCCACCC CATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGCCTGATCCTCCAAATCACCAC AGGACTATTCCTAGCCATACACTACTCACCAGACGCCTCAACCGCCTTTTCATCAATCGCCCACATCACT CGAGACGTAAATTATGGCTGAATCATCCGCTACCTTCACGCCAATGGCGCCTCAATATTCTTTATCTGCC TCTTCCTACACATCGGGCGAGGCCTATATTACGGATCATTTCTCTACTCAGAAACCTGAAACATCGGCAT ... >P_troglod ATGACCCCGACACGCAAAATTAACCCACTAATAAAATTAATTAATCACTCATTTATCGACCTCCCCACCC CATCCAACATTTCCGCATGATGGAACTTCGGCTCACTTCTCGGCGCCTGCCTAATCCTTCAAATTACCAC AGGATTATTCCTAGCTATACACTACTCACCAGACGCCTCAACCGCCTTCTCGTCGATCGCCCACATCACC CGAGACGTAAACTATGGTTGGATCATCCGCTACCTCCACGCTAACGGCGCCTCAATATTTTTTATCTGCC TCTTCCTACACATCGGCCGAGGTCTATATTACGGCTCATTTCTCTACCTAGAAACCTGAAACATTGGCAT ... >P_paniscus ATGACCCCAACACGCAAAATCAACCCACTAATAAAATTAATTAATCACTCATTTATCGACCTCCCCACCC CATCCAATATTTCCACATGATGAAACTTCGGCTCACTTCTCGGCGCCTGCCTAATCCTTCAAATCACCAC AGGACTATTCCTAGCTATACACTACTCACCAGACGCCTCAACCGCCTTCTCATCGATCGCCCACATTACC CGAGACGTAAACTATGGTTGAATCATCCGCTACCTTCACGCTAACGGCGCCTCAATACTTTTCATCTGCC TCTTCCTACACGTCGGTCGAGGCCTATATTACGGCTCATTTCTCTACCTAGAAACCTGAAACATTGGCAT ... Formáty souborů: GenBank: ORIGIN 1 tgaaatgaag atattctctt ctcaagacat caagaagaag gaactactcc ccaccaccag 61 cacccaaagc tggcattcta attaaactac ttcttgtgta cataaattta catagtacaa 121 tagtacattt atgtatatcg tacattaaac tattttcccc aagcatataa gcaagtacat 181 ttaatcaatg atataggcca taaaacaatt atcaacataa actgatacaa accatgaata 241 ttatactaat acatcaaatt aatgctttaa agacatatct gtgttatctg acatacacca 301 tacagtcata aactcttctc ttccatatga ctatcccctt ccccatttgg tctattaatc 361 taccatcctc cgtgaaacca acaacccgcc caccaatgcc cctcttctcg ctccgggccc 421 attaaacttg ggggtagcta aactgaaact ttatcagaca tctggttctt acttcagggc 481 catcaaatgc gttatcgccc atacgttccc cttaaataag acatctcgat ggtatcgggt 541 ctaatcagcc catgaccaac ataactgtgg tgtcatgcat ttggtatttt tttattttgg 601 cctactttca tcaacatagc cgtcaaggca tgaaaggaca gcacacagtc tagacgcacc 661 tacggtgaag aatcattagt ccgcaaaacc caatcaccta aggctaatta ttcatgcttg 721 ttagacataa atgctactca ataccaaatt ttaactctcc aaacccccca accccctcct 781 cttaatgcca aaccccaaaa acactaagaa cttgaaagac atatattatt aactatcaaa 841 ccctatgtcc tgatcgattc tagtagttcc caaaatatga ctcatatttt agtacttgta 901 aaaattttac aaaatcatgc tccgtgaacc aaaactctaa tcacactcta ttacgcaata 961 aatattaaca agttaatgta gcttaataac aaagcaaagc actgaaaatg cttagatgga 1021 taattttatc cca // Formáty souborů: PHYLIP (“interleaved” format): 6 1120 H_sapiens ATGACCCCAA TACGCAAAAT TAACCCCCTA ATAAAATTAA TTAACCACTC P_troglod ATGACCCCGA CACGCAAAAT TAACCCACTA ATAAAATTAA TTAATCACTC P_paniscus ATGACCCCAA CACGCAAAAT CAACCCACTA ATAAAATTAA TTAATCACTC G_gorilla ATGACCCCTA TACGCAAAAC TAACCCACTA GCAAAACTAA TTAACCACTC P_pygmaeus ATGACCCCAA TACGCAAAAC CAACCCACTA ATAAAATTAA TTAACCACTC H_lar ATGACCCCCC TGCGCAAAAC TAACCCACTA ATAAAACTAA TCAACCACTC ATTCATCGAC CTCCCCACCC CATCCAACAT CTCCGCATGA TGAAACTTCG ATTTATCGAC CTCCCCACCC CATCCAACAT TTCCGCATGA TGGAACTTCG ATTTATCGAC CTCCCCACCC CATCCAATAT TTCCACATGA TGAAACTTCG ATTCATTGAC CTCCCTACCC CGTCCAACAT CTCCACATGA TGAAACTTCG ACTCATCGAC CTCCCCACCC CATCAAACAT CTCTGCATGA TGGAACTTCG ACTTATCGAC CTTCCAGCCC CATCCAACAT TTCTATATGA TGAAACTTTG Formáty souborů: NEXUS (PAUP*, “interleaved”): #NEXUS begin data; dimensions ntax=6 nchar=1120; format datatype=DNA interleave datatype=DNA missing=? gap=-; matrix P_troglod ATGACCCCGACACGCAAAATTAACCCACTAATAAAATTAATTAATCACTC P_paniscus ATGACCCCAACACGCAAAATCAACCCACTAATAAAATTAATTAATCACTC H_sapiens ATGACCCCAATACGCAAAATTAACCCCCTAATAAAATTAATTAACCACTC G_gorilla ATGACCCCTATACGCAAAACTAACCCACTAGCAAAACTAATTAACCACTC P_pygmaeus ATGACCCCAATACGCAAAACCAACCCACTAATAAAATTAATTAACCACTC H_lar ATGACCCCCCTGCGCAAAACTAACCCACTAATAAAACTAATCAACCACTC P_troglod ATTTATCGACCTCCCCACCCCATCCAACATTTCCGCATGATGGAACTTCG P_paniscus ATTTATCGACCTCCCCACCCCATCCAATATTTCCACATGATGAAACTTCG H_sapiens ATTCATCGACCTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCG G_gorilla ATTCATTGACCTCCCTACCCCGTCCAACATCTCCACATGATGAAACTTCG P_pygmaeus ACTCATCGACCTCCCCACCCCATCAAACATCTCTGCATGATGGAACTTCG H_lar ACTTATCGACCTTCCAGCCCCATCCAACATTTCTATATGATGAAACTTTG end; Formáty souborů: Clustal: P_troglod ATGACCCCGACACGCAAAATTAACCCACTAATAAAATTAATTAATCACTCATTTATCGAC P_paniscus ATGACCCCAACACGCAAAATCAACCCACTAATAAAATTAATTAATCACTCATTTATCGAC H_sapiens ATGACCCCAATACGCAAAATTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGAC G_gorilla ATGACCCCTATACGCAAAACTAACCCACTAGCAAAACTAATTAACCACTCATTCATTGAC P_pygmaeus ATGACCCCAATACGCAAAACCAACCCACTAATAAAATTAATTAACCACTCACTCATCGAC H_lar ATGACCCCCCTGCGCAAAACTAACCCACTAATAAAACTAATCAACCACTCACTTATCGAC ******** ******* ***** *** **** **** ** ****** * ** *** P_troglod CTCCCCACCCCATCCAACATTTCCGCATGATGGAACTTCGGCTCACTTCTCGGCGCCTGC P_paniscus CTCCCCACCCCATCCAATATTTCCACATGATGAAACTTCGGCTCACTTCTCGGCGCCTGC H_sapiens CTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGC G_gorilla CTCCCTACCCCGTCCAACATCTCCACATGATGAAACTTCGGCTCACTCCTTGGTGCCTGC P_pygmaeus CTCCCCACCCCATCAAACATCTCTGCATGATGGAACTTCGGCTCACTTCTAGGCGCCTGC H_lar CTTCCAGCCCCATCCAACATTTCTATATGATGAAACTTTGGTTCACTCCTAGGCGCCTGC ** ** **** ** ** ** ** ****** ***** ** ***** ** ** ****** Formáty souborů: Line 1 begins with a '@' character and is followed by a sequence identifier and an optional description (like a FASTA title line). Line 2 is the raw sequence letters. Line 3 begins with a '+' character and is optionally followed by the same sequence identifier (and any description) again. Line 4 encodes the quality values for the sequence in Line 2, and must contain the same number of symbols as letters in the sequence. FASTQ: Formáty souborů: HWUSI-EAS100R the unique instrument name 6 flowcell lane 73 tile number within the flowcell lane 941 'x'-coordinate of the cluster within the tile 1973 'y'-coordinate of the cluster within the tile #0 index number for a multiplexed sample (0 for no indexing) /1 the member of a pair, /1 or /2 (paired-end or mate-pair reads only) Illumina sequence identifiers: @HWUSI-EAS100R:6:73:941:1973#0/1 BLAST (Basic Local Alignment Search Tool): Nucleotide BLAST: nucleotide ® nucleotide blastx: nucleotide ® protein tblastn: protein ® nucleotide Protein BLAST: protein ® protein megablast blastn discontiguous megablast BLAST Sekvence conversion: Complementary Sequence Conversion Tool GenBank: původně Los Alamos National Laboratory 90´s ® NCBI (National Center for Biotechnology Information) 20 000 přímých podání, 200 000 hromadných podání denně každých 10 měsíců zdvojnásobení počtu GenBank Seřazení sekvencí: Sekvence 1 TTGTACGACGG Sekvence 2 TTGTACGACG TTGTACGACGG TTGT---ACGACGG ½½½½½½½½½½ ½½½½ ½½½ TTGTACGACG TTGTACGACG Sekvence 1 ACTTGTGCTTC Sekvence 2 ACGTGCTGCTC ACTTG-TGCTTC Path 1 ½½ ½½ ½½½½ ACGTGCTGCTC ACTTGTGCTTC Path 2 ½½ ½½½½½ ½ AC--GTGCTGCTC GP = g + hl g - gap penalty h – gap extension penalty l – gap length Gap penalty: g = penalizace za výskyt mezery (1´) h = extenze za každou „pomlčku“ l = délka mezery (= počet „pomlček“) Př.: GC‒ ‒ ‒ ‒ ‒TTAA l = 5, g = x, h = 5x Progresivní seřazení - ClustalX 1.Alignment of sequence pairs ® pairwise distances 2.Construction of „guide tree“ (NJ) 3.Alignment of all sequences according to the guide tree I. I. II. III. 3 phases: Další programy: Clustal Omega – online MUSCLE, MAFFT, Geneious programy pro seřazení součástí mnoha populačněgenetických balíků Align-free methods Chan & Ragan, Biology Direct (2013)