ARCHAICKÁ DNA


Paleogenetika = studium vymřelých organismů
prostřednictvím archaické DNA (aDNA, ancient DNA)
zdroje aDNA: zuby, kosti (kost skalní). muzejní exponáty atd.
ale také např. vaječné skořápky, koprolity, rozžvýkaná březová kůra,
půda, proteinové obaly hnid vší šatních
další zdroje: keratin, chitin, osteokalcin, kolagen, hemoglobin, pigmenty,
rostlinné polysacharidy ® proteomické metody
= paleoproteomika
Výhoda: nedochází k fragmentaci proteinů Þ větší časové škály
Nevýhoda: proteiny neposkytují tolik informací jako DNA
Prezentace aplikace PowerPoint Temporal bone Images, Stock Photos & Vectors | Shutterstock Šest
rad, jak mít stále čistou hlavu. Bez vší - iDNES.cz

První sekvence aDNA: zebra kvaga (Equus quagga)
150 let (Higuchi et al. 1984)
egyptská mumie: 2400 let (Pääbo 1985).
Zebra kvaga – Wikipedie http://thumbs.dreamstime.com/z/cartoon-egyptian-mummy-21823531.jpg
http://www.geneticliteracyproject.org/wp/wp-content/uploads/2012/09/rainbow-DNA.jpg
http://upload.wikimedia.org/wikipedia/commons/9/93/Mummy-UpperClassEgyptianMale-SaitePeriod_Rosicru
cianMuseum.png

The future of ancient DNA: Technical advances and conceptual shifts - Hofreiter - 2015 - BioEssays
- Wiley Online Library


The Hype Cycle of Ancient DNA | The Molecular Ecologist
Stáří aDNA:
většinou max. tisíce až desítky tisíc let

mamut z permafrostu: 1,10 – 1,65 mil. let
proteinové sekvence:
2019: nosorožec, 1,77 mil., Dmanisi
2016: pštros, 3,8 mil., Laetoli
analýza proteinů vzorků až z rané jury

human cell Diagram | Quizlet Lysosomes and its functions | Biology Ease
Degradace DNA ihned po zániku buňky:
®fragmentace
®poškození blokující replikaci DNA
®poškození způsobující inkorporaci nesprávných bází

Fragmentace:
většinou < 100 bp


Délky fragmentů se zmenšují zhruba exponenciálně


Pruvost et al. (2007):
2 cca. 3200 let staré vzorky téhož jedince pratura (Bos primigenius):
1)1947, muzejní sbírky, 54 let ® žádná použitelná aDNA
2)2004 ® autentická aDNA
To znamená, že 99 % DNA degradováno během pár desítek let
Þ rychlost rozkladných procesů byla v muzejním prostředí více než 70´ vyšší než v průběhu
předchozích ~3200 let v půdě!

Blokující poškození:
Blokování postupu DNA polymerázy při PCR
modifikace nukleotidů
příčné vazby (crosslinks):
v rámci jednoho řetězce
mezi řetězci téže molekuly
mezi různými molekulami
mezi DNA a proteinem
Repair of DNA interstrand crosslinks: molecular mechanisms and clinical relevance - The Lancet
Oncology

Inkorporace chybného nukleotidu:


Figure S4.3. Patterns of ancient DNA damage in non-UDG-treated shotgun | Download Scientific
Diagram


Kontaminace
Macholán, Živa 2014


PRÁCE
SE SOUBORY


DNA databáze:
 EMBL (European Molecular Biology Laboratory) – European Bioinformatics Institute,
               Hinxton, UK: http://www.ebi.ac.uk/embl/
 GenBank – NCBI (National Center for Biotechnology Information), Bethesda,
               Maryland, USA: http://www.ncbi.nlm.nih.gov/Genbank/
 DDBJ (DNA Data Bank of Japan) – National Institute of Genetics, Mishima, Japan:
               http://www.ddbj.nig.ac.jp/
Proteinové databáze:
 SWISS-PROT – University of Geneve & Swis Institute of Bioinformatics:
          http://www.expasy.ch/sprot/ a http://www.ebi.ac.uk/swissprot/
 PIR (Protein Information Resource) – NBRF (National Biomedical Research Foundation,
          Washington, D.C., USA) & Tokyo University & JIPID (Japanese International Protein
          Information Database, Tokyo) & MIPS (Martinsried Institute for Protein Sequences,
          Martinsried, Germany): http://www-nbrf.georgetown.edu/
 PRF/SEQDB (Protein Resource Foundation) – Ósaka, Japan:
          http://www.prf.or.jp/en/os.htm
 PDB (Protein Data Bank) – University of New Jersey, San Diego & Super-computer
          Center, University of California & National Institute of Standards and Technology:
          http://www.rcsb.org/pdb/

FASTA:
>H_sapiens
ATGACCCCAATACGCAAAATTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGACCTCCCCACCC
CATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGCCTGATCCTCCAAATCACCAC
AGGACTATTCCTAGCCATACACTACTCACCAGACGCCTCAACCGCCTTTTCATCAATCGCCCACATCACT
CGAGACGTAAATTATGGCTGAATCATCCGCTACCTTCACGCCAATGGCGCCTCAATATTCTTTATCTGCC
TCTTCCTACACATCGGGCGAGGCCTATATTACGGATCATTTCTCTACTCAGAAACCTGAAACATCGGCAT
...
>P_troglod
ATGACCCCGACACGCAAAATTAACCCACTAATAAAATTAATTAATCACTCATTTATCGACCTCCCCACCC
CATCCAACATTTCCGCATGATGGAACTTCGGCTCACTTCTCGGCGCCTGCCTAATCCTTCAAATTACCAC
AGGATTATTCCTAGCTATACACTACTCACCAGACGCCTCAACCGCCTTCTCGTCGATCGCCCACATCACC
CGAGACGTAAACTATGGTTGGATCATCCGCTACCTCCACGCTAACGGCGCCTCAATATTTTTTATCTGCC
TCTTCCTACACATCGGCCGAGGTCTATATTACGGCTCATTTCTCTACCTAGAAACCTGAAACATTGGCAT
...
>P_paniscus
ATGACCCCAACACGCAAAATCAACCCACTAATAAAATTAATTAATCACTCATTTATCGACCTCCCCACCC
CATCCAATATTTCCACATGATGAAACTTCGGCTCACTTCTCGGCGCCTGCCTAATCCTTCAAATCACCAC
AGGACTATTCCTAGCTATACACTACTCACCAGACGCCTCAACCGCCTTCTCATCGATCGCCCACATTACC
CGAGACGTAAACTATGGTTGAATCATCCGCTACCTTCACGCTAACGGCGCCTCAATACTTTTCATCTGCC
TCTTCCTACACGTCGGTCGAGGCCTATATTACGGCTCATTTCTCTACCTAGAAACCTGAAACATTGGCAT
...
Formáty souborů:

GenBank:
ORIGIN
        1 tgaaatgaag atattctctt ctcaagacat caagaagaag gaactactcc ccaccaccag
       61 cacccaaagc tggcattcta attaaactac ttcttgtgta cataaattta catagtacaa
      121 tagtacattt atgtatatcg tacattaaac tattttcccc aagcatataa gcaagtacat
      181 ttaatcaatg atataggcca taaaacaatt atcaacataa actgatacaa accatgaata
      241 ttatactaat acatcaaatt aatgctttaa agacatatct gtgttatctg acatacacca
      301 tacagtcata aactcttctc ttccatatga ctatcccctt ccccatttgg tctattaatc
      361 taccatcctc cgtgaaacca acaacccgcc caccaatgcc cctcttctcg ctccgggccc
      421 attaaacttg ggggtagcta aactgaaact ttatcagaca tctggttctt acttcagggc
      481 catcaaatgc gttatcgccc atacgttccc cttaaataag acatctcgat ggtatcgggt
      541 ctaatcagcc catgaccaac ataactgtgg tgtcatgcat ttggtatttt tttattttgg
      601 cctactttca tcaacatagc cgtcaaggca tgaaaggaca gcacacagtc tagacgcacc
      661 tacggtgaag aatcattagt ccgcaaaacc caatcaccta aggctaatta ttcatgcttg
      721 ttagacataa atgctactca ataccaaatt ttaactctcc aaacccccca accccctcct
      781 cttaatgcca aaccccaaaa acactaagaa cttgaaagac atatattatt aactatcaaa
      841 ccctatgtcc tgatcgattc tagtagttcc caaaatatga ctcatatttt agtacttgta
      901 aaaattttac aaaatcatgc tccgtgaacc aaaactctaa tcacactcta ttacgcaata
      961 aatattaaca agttaatgta gcttaataac aaagcaaagc actgaaaatg cttagatgga
     1021 taattttatc cca
//
Formáty souborů:

PHYLIP (“interleaved” format):
6 1120
H_sapiens    ATGACCCCAA TACGCAAAAT TAACCCCCTA ATAAAATTAA TTAACCACTC
P_troglod    ATGACCCCGA CACGCAAAAT TAACCCACTA ATAAAATTAA TTAATCACTC
P_paniscus   ATGACCCCAA CACGCAAAAT CAACCCACTA ATAAAATTAA TTAATCACTC
G_gorilla    ATGACCCCTA TACGCAAAAC TAACCCACTA GCAAAACTAA TTAACCACTC
P_pygmaeus   ATGACCCCAA TACGCAAAAC CAACCCACTA ATAAAATTAA TTAACCACTC
H_lar        ATGACCCCCC TGCGCAAAAC TAACCCACTA ATAAAACTAA TCAACCACTC
             ATTCATCGAC CTCCCCACCC CATCCAACAT CTCCGCATGA TGAAACTTCG
             ATTTATCGAC CTCCCCACCC CATCCAACAT TTCCGCATGA TGGAACTTCG
             ATTTATCGAC CTCCCCACCC CATCCAATAT TTCCACATGA TGAAACTTCG
             ATTCATTGAC CTCCCTACCC CGTCCAACAT CTCCACATGA TGAAACTTCG
             ACTCATCGAC CTCCCCACCC CATCAAACAT CTCTGCATGA TGGAACTTCG
             ACTTATCGAC CTTCCAGCCC CATCCAACAT TTCTATATGA TGAAACTTTG
Formáty souborů:

NEXUS (PAUP*, “interleaved”):
#NEXUS
begin data;
dimensions ntax=6 nchar=1120;
format datatype=DNA interleave datatype=DNA missing=? gap=-;
matrix
P_troglod   ATGACCCCGACACGCAAAATTAACCCACTAATAAAATTAATTAATCACTC
P_paniscus  ATGACCCCAACACGCAAAATCAACCCACTAATAAAATTAATTAATCACTC
H_sapiens   ATGACCCCAATACGCAAAATTAACCCCCTAATAAAATTAATTAACCACTC
G_gorilla   ATGACCCCTATACGCAAAACTAACCCACTAGCAAAACTAATTAACCACTC
P_pygmaeus  ATGACCCCAATACGCAAAACCAACCCACTAATAAAATTAATTAACCACTC
H_lar       ATGACCCCCCTGCGCAAAACTAACCCACTAATAAAACTAATCAACCACTC
P_troglod   ATTTATCGACCTCCCCACCCCATCCAACATTTCCGCATGATGGAACTTCG
P_paniscus  ATTTATCGACCTCCCCACCCCATCCAATATTTCCACATGATGAAACTTCG
H_sapiens   ATTCATCGACCTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCG
G_gorilla   ATTCATTGACCTCCCTACCCCGTCCAACATCTCCACATGATGAAACTTCG
P_pygmaeus  ACTCATCGACCTCCCCACCCCATCAAACATCTCTGCATGATGGAACTTCG
H_lar       ACTTATCGACCTTCCAGCCCCATCCAACATTTCTATATGATGAAACTTTG
end;
Formáty souborů:

Clustal:
P_troglod  ATGACCCCGACACGCAAAATTAACCCACTAATAAAATTAATTAATCACTCATTTATCGAC
P_paniscus ATGACCCCAACACGCAAAATCAACCCACTAATAAAATTAATTAATCACTCATTTATCGAC
H_sapiens  ATGACCCCAATACGCAAAATTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGAC
G_gorilla  ATGACCCCTATACGCAAAACTAACCCACTAGCAAAACTAATTAACCACTCATTCATTGAC
P_pygmaeus ATGACCCCAATACGCAAAACCAACCCACTAATAAAATTAATTAACCACTCACTCATCGAC
H_lar      ATGACCCCCCTGCGCAAAACTAACCCACTAATAAAACTAATCAACCACTCACTTATCGAC
           ********    *******  ***** ***  **** **** ** ****** * ** ***
P_troglod CTCCCCACCCCATCCAACATTTCCGCATGATGGAACTTCGGCTCACTTCTCGGCGCCTGC
P_paniscus CTCCCCACCCCATCCAATATTTCCACATGATGAAACTTCGGCTCACTTCTCGGCGCCTGC
H_sapiens  CTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGC
G_gorilla  CTCCCTACCCCGTCCAACATCTCCACATGATGAAACTTCGGCTCACTCCTTGGTGCCTGC
P_pygmaeus CTCCCCACCCCATCAAACATCTCTGCATGATGGAACTTCGGCTCACTTCTAGGCGCCTGC
H_lar      CTTCCAGCCCCATCCAACATTTCTATATGATGAAACTTTGGTTCACTCCTAGGCGCCTGC
           ** **  **** ** ** ** **   ****** ***** ** ***** ** ** ******
Formáty souborů:

Line 1 begins with a '@' character and is followed by a sequence identifier and
an optional description (like a FASTA title line).
Line 2 is the raw sequence letters.
Line 3 begins with a '+' character and is optionally followed by the same sequence identifier (and
any description) again.
Line 4 encodes the quality values for the sequence in Line 2, and must contain the same number of
symbols as letters in the sequence.
FASTQ:
Formáty souborů:

HWUSI-EAS100R
the unique instrument name
6
flowcell lane
73
tile number within the flowcell lane
941
'x'-coordinate of the cluster within the tile
1973
'y'-coordinate of the cluster within the tile
#0
index number for a multiplexed sample (0 for no indexing)
/1
the member of a pair, /1 or /2 (paired-end or mate-pair reads only)
Illumina sequence identifiers:
@HWUSI-EAS100R:6:73:941:1973#0/1

BLAST (Basic Local Alignment Search Tool):
Nucleotide BLAST: nucleotide ® nucleotide
blastx: nucleotide ® protein
tblastn: protein ® nucleotide
Protein BLAST: protein ® protein
megablast
blastn
discontiguous megablast

BLAST


Sekvence conversion:
Complementary Sequence Conversion Tool
GenBank:
původně Los Alamos National Laboratory
90´s ® NCBI (National Center for Biotechnology Information)
20 000 přímých podání, 200 000 hromadných podání denně
každých 10 měsíců zdvojnásobení počtu

GenBank


Seřazení sekvencí:
Sekvence 1 TTGTACGACGG
Sekvence 2 TTGTACGACG
TTGTACGACGG TTGT---ACGACGG
½½½½½½½½½½ ½½½½   ½½½
TTGTACGACG TTGTACGACG
Sekvence 1 ACTTGTGCTTC
Sekvence 2 ACGTGCTGCTC
ACTTG-TGCTTC
   Path 1 ½½ ½½ ½½½½
ACGTGCTGCTC
ACTTGTGCTTC
   Path 2 ½½ ½½½½½ ½
AC--GTGCTGCTC
GP = g + hl
g - gap penalty
h – gap extension
penalty
l – gap length
Gap penalty:
g = penalizace za výskyt mezery (1´)
h = extenze za každou „pomlčku“
l = délka mezery (= počet „pomlček“)
Př.: GC‒ ‒ ‒ ‒ ‒TTAA
l = 5, g = x, h = 5x

Progresivní seřazení - ClustalX
1.Alignment of sequence pairs ® pairwise distances
2.Construction of „guide tree“ (NJ)
3.Alignment of all sequences according to the guide tree
I.
I.
II.
III.
3 phases:

Další programy:
Clustal Omega – online
MUSCLE, MAFFT, Geneious
programy pro seřazení součástí mnoha populačněgenetických balíků

Align-free methods
Chan & Ragan, Biology Direct (2013)