Týden 2 - Sběr a příprava sekvencí ZNF, zjišťování konsenzuální sekvence - 26. 2. 2024
CVIČENÍ
Skompletovat soubory s členy proteinové podrodiny ZNF (zinc-finger protein) u člověka, které jsou schopny vázat se na PQS (potential quadruplex sequence) tvořící G-kvadruplexy (G4) a ostatních ZNF. Vytvořit z těchto souborů:
- regulární výraz pro identifikaci Zn motivů a ty spočítat
- vícenásobné zarovnání pro celé proteiny (resp. úsek s definovaným počtem motivů), individuální motivy
- z těch následně konsenzuální sekvenci (konsenzus)
VSTUP:
multifasta soubor znf_animals.fa
VÝSTUP
regulární výraz
tabulka s počty
zarovnaný multifasta soubor (*.FASTA, *.ALN, *.MSF,...)
konsenzus (*.FASTA)
Poznámky k analýze sekvencí
- postupně vytvořte co nejpřesnější regulární výraz pro identifikaci C2H2 ZF (stačí začít s něčím jako "C...?C.+H....?.?H" a později po vytvoření zarovnání případně upřesnit) a použití nejlépe s příkazem grep/egrep.
- analyzujte počet ZNF domén, identifikujte C2H2 motivy
- vytvořte nový soubor (znf_core ###) kde bude jenom oblast max 4
zinkových prstů kolem nejlépe zarovnané oblasti, sekvence s více
skupinami prstů. Cílem bude hodnotit evoluční a funkční příbuznost proteinů, redukce na 4 oblasti eliminuje problémy s přítomností dalších domén a rozličnou délkou proteinů.
Týden 11 - Booleovské sítě - metody analýzy
- Rozdělte na více částí (jednotlivé ZF motivy) a každý zarovnat jako zvláštní sekvenci (soubor znf_motifs). V obou předchozích případech zvažte použití "grep -o" Zde nás spíš než evoluce zajímá struktura a funkce ZNF motivu. Výsledky použijete ke spřesnění regulárního výrazu.
- sekvence _core i _motifs zarovnejte pomoci clustalo (případně jinak, např. CLUSTALX, MAFFT, MUSCLE)
- Seznamte s takto zarovnanymi sekvencemi (mview, jalview, MEGA), sestrojte jednoduchý fylogenetický strom (fasttree + newicktops) ###
- Sestrojte konsenzus ###, např. pomoci příkazů cons nebo consambig (EMBOSS)
- Ve FASTA hlavičce si poznamenáme nejdůležitější vlastnosti (např. >originalID Gene_NAME SPECIES:Mmu PDB:1AXY DNAMX:M12345 atd)
- Konfrontujte konsenzuální sekvence a regulární výraz pro daný motif ###
- Veďte si něco jako laboratorní deník se zápisy klíčových postupů a příkazů, které jste použili ke každému týdnu (podle vkusu můžete zvýšit reprodukovatelnost vašich postupů použitím robustnějšího systému (GIT + GNU make, snakemake a podobně)
- Příklad zápisu v deníku:
- ## 1.3.2010
- # získány sekvence z NCBI/Nucleotides s názvem obsahujícím ZNF+číslo a uloženy do souboru znfxy.fa (celkem 23 sekvencí)
- # vytvoření vícenásobného zarovnání sekvencí příkazem
- clustalo --option1 --option2 znfxy.fa > znfxy.aln
- # zobrazení zarovnání
- clustalx znfxy.aln
2. užitečné WWW
NCBI https://www.ncbi.nlm.nih.gov/
PDB https://www.rcsb.org/ nebo https://www.ebi.ac.uk/pdbe/
JASPAR http://jaspar.genereg.net/
UCSC GB http://www.genome.ucsc.edu/
3. užitečné NÁSTROJE
EMBOSS https://www.bioinformatics.nl/cgi-bin/emboss/
zarovnani sekvenci CLUSTALO, MUSCLE, MAFFT
zobrazení a editace zarovnání Mview, Jalview, EMBOSS (showalign, cons)
perl one-liners https://bioinformaticsreview.com/20151208/perl-one-liners-for-bioinformaticians/