Týden 2 - Sběr a příprava sekvencí ZNF - 22. 2. 2022
CVIČENÍ
Skompletovat soubory s členy proteinové podrodiny ZNF (zinc-finger protein) u živočichů, které jsou schopny vázat se na PQS (potential quadruplex sequence) tvořící G-kvadruplexy (G4). Hledat budeme na základě:
informací z článku
názvu
sekvenční podobnosti
obsahu sekvenčních motivů
strukturní podobnosti
VSTUP:
informace o PG4-ZNF z článku Kumar et al. (2011) a informace o ZNF (viz odkaz výše)
VÝSTUP:
multifasta soubor znf[1-2]_animals.fa (1-PG4 vážoucí úzký výběr, 2-ZNF)
pokusit se najít informace o sekvencích, na které se vážou, zejména znf2
1. Sběr sekvencí
- vyhledejte sekvence z článku podle názvu a vytvořte první verzi souborů znf1 pro člověka a myš
- analyzujte počet ZNF domén, identifikujte C2H2 motivy
- sekvence zarovnejte pomoci clustalo, podle potreby upravte soubor
- vytvorte novy soubor (znf_core) kde bude jenom oblast max 4 zinkovych prstu kolem nejlepe zarovnane oblasti, sekvence s vice skupinami prstu muzete rozdelit na vice casti, seznamte s takto zarovnanymi sekvencemi (mview, jalview, consensus, cons (EMBOSS))
- od této chvíle se budem omezovat na počet domén a typ motivů typické pro PG4-ZNF a organismy
- Homo sapiens
- Mus musculus
- Danio rerio
- Drosophila melanogaster
- Caenorhabditis elegans
- Saccharomyses cerevisiae
- Homo sapiens
- všechny další ZNF proteiny vyhovující předchozímu omezujícímu kritériu (vyhovuje reg.vyrazu) sbírejte jako znf2
- Ve FASTA hlavičce si poznamenáme nejdůležitější vlastnosti (>originalID Gene_NAME SPECIES:Mmu PDB:1AXY DNAMX:M12345 atd) a PDB struktury či matice budem soustřeďovat ve svých souborech (znf.pdb; znf.mx)
- Veďte si něco jako laboratorní deník se zápisy klíčových postupů a příkazů, které jste použili ke každému týdnu a mějte jej připraven k nahlédnutí (podle vkusu můžete zvýšit reprodukovatelnost vašich postupů použitím robustnějšího systému (GIT + GNU make, snakemake nebo nextflow)
- Příklad zápisu v deníku:
- ### 1.3.2010
- # získány sekvence z NCBI/Nucleotides s názvem obsahujícím ZNF+číslo a uloženy do souboru znfxy.fa (celkem 23 sekvencí)
- # vytvoření vícenásobného zarovnání sekvencí příkazem
- clustalo --option1 --option2 znfxy.fa > znfxy.aln
- # zobrazení zarovnání
- clustalx znfxy.aln
2. užitečné WWW
NCBI https://www.ncbi.nlm.nih.gov/
PDB https://www.rcsb.org/ nebo https://www.ebi.ac.uk/pdbe/
JASPAR http://jaspar.genereg.net/
UCSC GB http://www.genome.ucsc.edu/
3. užitečné NÁSTROJE
EMBOSS https://www.bioinformatics.nl/cgi-bin/emboss/
zarovnani sekvenci CLUSTALO, MAFFT
zobrazení a editace zarovnání Mview, Jalview, EMBOSS (showalign, cons)
perl one-liners https://bioinformaticsreview.com/20151208/perl-one-liners-for-bioinformaticians/