Výpočetní metody v bioinformatice a systémové biologii

Týden 3 - mapování výskytu v genomech, anotace - 27. 2. 2023


Budeme pokračovat další analýzou "zinkových prstů". Cílem celé hodiny bude zobrazit si výskyty zinkových prstů v genomech v prohlížeči genomu IGV, potažmo UCSC Genome Browser.

Měli bychom v této chvíli mít vícenásobné zarovnání proteinových sekvencí v oblasti ZNF (soubory *_core.aln) u živočichů a rostlin (celé proteiny jsme zarovnávali jenom kvůli odhalení pozic se zinkovým prstem a vygenerování regulárního výrazu pro ně).

U rostlin bylo možné (se zvyšující spolehlivostí a citlivostí) hledat třema způsoby:

  • klíčová slova
  • hledání skrz sekvenční podobost a BLAST
  • regulární výraz a PROSITE
  • (sekvenční podobnost a PSI-BLAST (případně HMMER))(letos neuskutečněno)

Pokud nemáte vlastní soubor pro rostliny (to byste letos naopak mít měli, protože to bylo součástí hodnoceného úkolu), můžete použít můj soubor z materiálů kurzu v ISu vygenerován relativně přímočarým a přitom účinným způsobem:

  • Na PROSITE - ScanProsite/Option 2 - Submit MOTIFS https://prosite.expasy.org/scanprosite/použit vzor x(30)-K-x-[FY]-x-C-x(2,4)-C-x-K-x-[FY]-x(5)-L-x(2)-H-x(3)-H-x(3,5)-K-x-[FY]-x-C-x(2,4)-C-x-K-x-[FY]-x(5)-L-x(2)-H-x(3)-H-x(30)
  • Nastaveno omezení na taxon 33090 (zelené rostliny).iz např. https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi = zahrnout i TrEMBL, hledání "no greedy, no overlap" a výstup do textu
  • Ve vygenerovaném FASTA souboru smazány některé sekvence, zejména řas, které na první pohled vypadají jako duplicitní
  • Pokud zarovnáváte pomoci CLUSTALX, porovnejte rozdíly zarovnání s iteracemi (kvalitnější, ale časově náročnější) a bez

1. Zmapovat výskyt v genomech, vytvořit si vlastní anotační data a zobrazit je v genomových prohlížečích. Podobně jako při vyhledávání, zde máme několik možností jak postupovat (ne všechny jsou přístupné pro všechny genomy). Může se hodit

  • Využít BLAT ve spojení s proteinovými sekvencemi. Nasledujte vygenerované odkazy k vizualizaci poobných proteinu v rámci genomu.
  • Pro externí použití (např. v IGV a jinde) lze stopu z GB exportovat jako BED. Lze se ale i úplně vyhnout vizualizaci, vygenerovat PSL soubor, případně konvertovat na BED, SAM GFF3 (např. psl2bed z balíku BEDOPS, bed12tobed6 z BEDTOOLS nebo psl2sam z baliku SAMTOOLS nebo konverze na GFF skriptem v R využívající knihovnu rtracklayer). Výhodou tady taky je, že ke zjištění podobnosti stačí konsenzuální sekvence.
  • Využít UCSC TableBrowser ve spojitosti s názvy (někdy pochybnosti s názvoslovím), RefSeq ID, případně ENSEMBL stable Transcript ID (dívejte sa na položku name v tabulce zvolené anotace nebo jinou, podle toho co poradí 'lookup'). Generujte BED nebo GTF soubor a konvertujte na GFF3 a dál dle potřeby. Zkuste pro zajímavost ENST ID získat konverzí z našich RefSeq Peptide Accession Number pomoci systému BioMart na stránkách Ensembl.

2. Prohlédnout si anotaci v genomovém prohlízeči IGV

ZDROJE GENOMOVÝCH SEKVENCÍ A ANOTACÍ

NCBI Genomes

Phytozome

UCSC Genome Browser


3. ÚKOL na další týden:

Do cvičení: Zprovoznit si a seznámit se s programy PyMol a MolStar (Mol*)