Výpočetní metody v bioinformatice a systémové biologii

Týden 2 - Sběr a příprava sekvencí ZNF - 22. 2. 2022

CVIČENÍ

Skompletovat soubory s členy proteinové podrodiny ZNF (zinc-finger protein) u živočichů, které jsou schopny vázat se na PQS (potential quadruplex sequence) tvořící G-kvadruplexy (G4). Hledat budeme na základě:

    informací z článku
    názvu
    sekvenční podobnosti
    obsahu sekvenčních motivů
    strukturní podobnosti

  VSTUP:
    informace o PG4-ZNF z článku Kumar et al. (2011) a informace o ZNF (viz odkaz výše)

  VÝSTUP:
    multifasta soubor znf[1-2]_animals.fa (1-PG4 vážoucí úzký výběr, 2-ZNF)
    pokusit se najít informace o sekvencích, na které se vážou, zejména znf2

1. Sběr sekvencí

  • vyhledejte sekvence z článku podle názvu a vytvořte první verzi souborů znf1 pro člověka a myš
  • analyzujte počet ZNF domén, identifikujte C2H2 motivy
  • sekvence zarovnejte pomoci clustalo, podle potreby upravte soubor
  • vytvorte novy soubor (znf_core) kde bude jenom oblast max 4 zinkovych prstu kolem nejlepe zarovnane oblasti, sekvence s vice skupinami prstu muzete rozdelit na vice casti, seznamte s takto zarovnanymi sekvencemi (mview, jalview, consensus, cons (EMBOSS))
  • od této chvíle se budem omezovat na počet domén a typ motivů typické pro PG4-ZNF a organismy
    • Homo sapiens
    • Mus musculus
    • Danio rerio
    • Drosophila melanogaster
    • Caenorhabditis elegans
    • Saccharomyses cerevisiae
  • všechny další ZNF proteiny vyhovující předchozímu omezujícímu kritériu (vyhovuje reg.vyrazu) sbírejte jako znf2
  • Ve FASTA hlavičce si poznamenáme nejdůležitější vlastnosti (>originalID Gene_NAME SPECIES:Mmu PDB:1AXY DNAMX:M12345 atd) a PDB struktury či matice budem soustřeďovat ve svých souborech (znf.pdb; znf.mx)
  • Veďte si něco jako laboratorní deník se zápisy klíčových postupů a příkazů, které jste použili ke každému týdnu a mějte jej připraven k nahlédnutí (podle vkusu můžete zvýšit reprodukovatelnost vašich postupů použitím robustnějšího systému (GIT + GNU make, snakemake nebo nextflow)
  • Příklad zápisu v deníku:
    • ### 1.3.2010
    • # získány sekvence z NCBI/Nucleotides s názvem obsahujícím ZNF+číslo a uloženy do souboru znfxy.fa (celkem 23 sekvencí)
    • # vytvoření vícenásobného zarovnání sekvencí příkazem
      • clustalo --option1 --option2 znfxy.fa > znfxy.aln
    • # zobrazení zarovnání
      • clustalx znfxy.aln
CSHL Sequence and Genome Analysis
Starší kuchařka pro některé základní postupy analýzy sekvencí a genomů

2. užitečné WWW

NCBI https://www.ncbi.nlm.nih.gov/

PDB https://www.rcsb.org/ nebo https://www.ebi.ac.uk/pdbe/

JASPAR http://jaspar.genereg.net/

UCSC GB http://www.genome.ucsc.edu/

3. užitečné NÁSTROJE

EMBOSS https://www.bioinformatics.nl/cgi-bin/emboss/

zarovnani sekvenci CLUSTALO, MAFFT

zobrazení a editace  zarovnání Mview, Jalview, EMBOSS (showalign, cons)

perl one-liners https://bioinformaticsreview.com/20151208/perl-one-liners-for-bioinformaticians/