Výpočetní metody v bioinformatice a systémové biologii

Týden 4 - mapování výskytu v genomech, anotace - 22. 3. 2021

Budeme pokračovat další analýzou "zinkových prstů". Měli bychom v této chvíli mít vícenásobné zarovnání proteinových sekvencí v oblasti ZNF (soubory *_core.aln) u člověka, myši a rostlin (celé proteiny jsme zarovnávali jenom kvůli odhalení pozic se zinkovým prstem a vygenerování regulárního výrazu pro ně).

U rostlin bylo možné (se zvyšující spolehlivostí a citlivostí) hledat třema způsoby:

klíčová slova
hledání skrz sekvenční podobost a BLAST
regulární výraz a PROSITE
sekvenční podobnost a PSI-BLAST (případně HMMER)

Pokud nemáte vlastní soubor pro rostliny, můžete použít můj soubor z materiálů kurzu v ISu vygenerován relativně přímočarým a přitom účinným způsobem:

Na PROSITE - ScanProsite/Option 2 - Submit MOTIFS https://prosite.expasy.org/scanprosite/použit vzor x(30)-K-x-[FY]-x-C-x(2,4)-C-x-K-x-[FY]-x(5)-L-x(2)-H-x(3)-H-x(3,5)-K-x-[FY]-x-C-x(2,4)-C-x-K-x-[FY]-x(5)-L-x(2)-H-x(3)-H-x(30)
Nastaveno omezení na taxon 33090 (zelené rostliny).iz např. https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi = zahrnout i TrEMBL, hledání "no greedy, no overlap" a výstup do textu
Ve vygenerovaném FASTA souboru smazány některé sekvence, zejména řas, které na první pohled vypadají jako duplicitní
Pokud zarovnáváte pomoci CLUSTALX, porovnejte rozdíly zrovnání s iteracemi (kvalitnější, ale časově náročnější) a bez

1. Zmapovat výskyt v genomech, vytvořit si vlastní anotační data a zobrazit je v genomových prohlížečích. Podobně jako při vyhledávání, zde máme několik možností jak postupovat (ne všechny jsou zpřístupněny pro všechny genomy). Může se hodit https://bioinformatics-core-shared-training.github.io/cruk-autumn-school-2017/ChIP/Materials/Lectures/Lecture7_Useful_software_utilities_%20for_computational_genomics_SS.pdf

Využít BLAT ve spojení s proteinovými sekvencemi. Vygenerujte PSL soubor, případně konvertujte na BED, SAM GFF3 (např. psl2bed z balíku BEDOPS, bed12tobed6 z BEDTOOLS nebo psl2sam z baliku SAMTOOLS nebo konverze na GFF skriptem v R využívající knihovnu rtracklayer). Výhodou je, že ke zjištění podobnosti stačí konsenzuální sekvence.
Využít UCSC TableBrowser ve spojitosti s RefSeq ID, případně ENSEMBL stable Transcript ID (dívejte sa na položku name v tabulce zvolené anotace nebo jinou, podle toho co poradí 'lookup'), generujte BED nebo GTF soubor a konvertujte na GFF3 a dál dle potřeby. Zkuste ENST ID získat konverzí z našich RefSeq Peptide Accession Number pomoci systému BioMart na stránkách Ensembl.
u rostlin zkusíme cestu přes Phytozome a BLAST. Zarovnáním ke genomovým sekvencím pomocí programu BLAST získáte výstup, který lze následně použít za pomoci některého ze skriptů blast2gff.pl nebo blast2gff.py)
v UCSC GB zvolit Arabidopsis a použít UCSC/Tools/TableBrowser (V UCSC Genome Browser je jenom ReMap 2020 Regulatory Atlas s omezením informací, mapování názvu genu funguje)?

2. Prohlédnout si anotaci v genomovém prohlízeči IGV

ZDROJE GENOMOVÝCH SEKVENCÍ A ANOTACÍ

NCBI Genomes

Phytozome

UCSC Genome Browser

3. ÚKOL na další týden:

Pripravit se na praci s IGV https://software.broadinstitute.org/software/igv/ mit anotacni soubor k nekteremu z genomu (idealne asi dvojici clovek, arabidopsis), ktery soubor nam rika, kde v genomu jsou geny kodujici protein se zinkovym prstem

Zprovoznit si a seznámit se s programy PyMol a MolStar (Mol*)

Předchozí

Následující

Výpočetní metody v bioinformatice a systémové biologii
- Nyní studovat
  
  Týden 1 - Úvod - 1. 3. 2021
- Nyní studovat
  
  Týden 2 - Sběr a příprava sekvencí ZNF - 8. 3. 2021
- Nyní studovat
  
  Týden 3 - hledání u rostlin, zjišťování konsenzuální sekvence - 15. 3. 2021
- Nyní studovat
  
  Týden 4 - mapování výskytu v genomech, anotace - 22. 3. 2021
- Nyní studovat
  
  Týden 5 - mapování anotace na strukturu proteinu - 29. 3. 2021
- Nyní studovat
  
  Týden 6 - diskuse zadání hodnoceného úkolu, konec 1.části - 12. 4. 2021
- Nyní studovat
  
  Týden 7 - Biologické sítě a genová ontologie
- Nyní studovat
  
  Týden 8 - Integrace dat prostřednictvím biologických sítí
- Nyní studovat
  
  Týden 9 - Analýza genové exprese a integrace dat
- Nyní studovat
  
  Týden 10 - Booleovské sítě - základní principy
- Nyní studovat
  
  Týden 11 - Booleovské sítě - metody analýzy
- Nyní studovat
  
  Týden 12 - Booleovské sítě s částečnou informací

Operace

Prohlédnout vše

Interaktivní osnova

Týden 4 - mapování výskytu v genomech, anotace - 22. 3. 2021

Operace