Výpočetní metody v bioinformatice a systémové biologii

Týden 2 - Sběr a příprava sekvencí ZNF, zjišťování konsenzuální sekvence - 26. 2. 2024

CVIČENÍ

Skompletovat soubory s členy proteinové podrodiny ZNF (zinc-finger protein) u člověka, které jsou schopny vázat se na PQS (potential quadruplex sequence) tvořící G-kvadruplexy (G4) a ostatních ZNF. Vytvořit z těchto souborů:

- regulární výraz pro identifikaci Zn motivů a ty spočítat

- vícenásobné zarovnání pro celé proteiny (resp. úsek s definovaným počtem motivů), individuální motivy

- z těch následně konsenzuální sekvenci (konsenzus)

  VSTUP:
 
    multifasta soubor znf_animals.fa

VÝSTUP

  regulární výraz

  tabulka s počty

  zarovnaný multifasta soubor (*.FASTA, *.ALN, *.MSF,...)

  konsenzus (*.FASTA)

Poznámky k analýze sekvencí

  • postupně vytvořte co nejpřesnější regulární výraz pro identifikaci C2H2 ZF (stačí začít s něčím jako "C...?C.+H....?.?H" a později po vytvoření zarovnání případně upřesnit) a použití nejlépe s příkazem grep/egrep.
  • analyzujte počet ZNF domén, identifikujte C2H2 motivy
  • vytvořte nový soubor (znf_core ###) kde bude jenom oblast max 4 zinkových prstů kolem nejlépe zarovnané oblasti, sekvence s více skupinami prstů. Cílem bude hodnotit evoluční a funkční příbuznost proteinů, redukce na 4 oblasti eliminuje problémy s přítomností dalších domén a rozličnou délkou proteinů.
    Týden 11 - Booleovské sítě - metody analýzy
  • Rozdělte na více částí (jednotlivé ZF motivy) a každý zarovnat jako zvláštní sekvenci (soubor znf_motifs). V obou  předchozích případech zvažte použití "grep -o" Zde nás spíš než evoluce zajímá struktura a funkce ZNF motivu. Výsledky použijete ke spřesnění regulárního výrazu.
  • sekvence _core i _motifs zarovnejte pomoci clustalo (případně jinak, např. CLUSTALX, MAFFT, MUSCLE)
  • Seznamte s takto zarovnanymi sekvencemi (mview, jalview, MEGA), sestrojte jednoduchý fylogenetický strom (fasttree + newicktops) ###
  • Sestrojte konsenzus ###, např. pomoci příkazů cons nebo consambig (EMBOSS)
  • Ve FASTA hlavičce si poznamenáme nejdůležitější vlastnosti (např. >originalID Gene_NAME SPECIES:Mmu PDB:1AXY DNAMX:M12345 atd)
  • Konfrontujte konsenzuální sekvence a regulární výraz pro daný motif ###
  • Veďte si něco jako laboratorní deník se zápisy klíčových postupů a příkazů, které jste použili ke každému týdnu (podle vkusu můžete zvýšit reprodukovatelnost vašich postupů použitím robustnějšího systému (GIT + GNU make, snakemake a podobně)
  • Příklad zápisu v deníku:
    • ## 1.3.2010
    • # získány sekvence z NCBI/Nucleotides s názvem obsahujícím ZNF+číslo a uloženy do souboru znfxy.fa (celkem 23 sekvencí)
    • # vytvoření vícenásobného zarovnání sekvencí příkazem
      • clustalo --option1 --option2 znfxy.fa > znfxy.aln
    • # zobrazení zarovnání
      • clustalx znfxy.aln
CSHL Sequence and Genome Analysis
Starší kuchařka pro některé základní postupy analýzy sekvencí a genomů

2. užitečné WWW

NCBI https://www.ncbi.nlm.nih.gov/

PDB https://www.rcsb.org/ nebo https://www.ebi.ac.uk/pdbe/

JASPAR http://jaspar.genereg.net/

UCSC GB http://www.genome.ucsc.edu/

3. užitečné NÁSTROJE

EMBOSS https://www.bioinformatics.nl/cgi-bin/emboss/

zarovnani sekvenci CLUSTALO, MUSCLE, MAFFT

zobrazení a editace  zarovnání Mview, Jalview, EMBOSS (showalign, cons)

perl one-liners https://bioinformaticsreview.com/20151208/perl-one-liners-for-bioinformaticians/