Výpočetní metody v bioinformatice a systémové biologii

Týden 1 - Úvod - 15. 2. 2022

Úvodní informace ke kurzu podá doc.Šafránek a dr.Lexa. První týden probíhá online v MS Teams skupině, do které snad IS všechny přihlásil. Pokud ne, pište e-mail.

V první části kurzu věnované bioinformatické analýze biologických sevencí a struktur (1 + 4 + 1 týden) si procvičíme manipulaci s daty týkajícími se určité rodiny proteinů - konkrétně transcripčních faktorů na bázi zinkového prstu (zinc finger).

K práci si vyčleňte adresář na vhodném počítači, kde budete postupně shromažďovat mezivýsledky své práce.

Co Vás dalších 5 týdnů čeká:

1. Skompletovat soubory s členy proteinové podrodiny ZNF (zinc-finger protein) u živočichů, které jsou nebo mohly by být schopny se vázat na PQS (potential quadruplex sequence) tvořící G-kvadruplexy (G4). Hledat budeme na základě:

  • informací z článku
  • názvu
  • sekvenční podobnosti
  • obsahu sekvenčních motivů
  • strukturní podobnosti

  VSTUP:

  VÝSTUP:

  • multifasta soubor znf[1-2]_animals.fa (1-PG4 vážoucí úzký výběr, 2-ZNF)
  • pokusit se najít informace o sekvencích, na které se vážou, zejména znf2


2. Najít příbuzné proteiny u rostlin, sestrojit vícenásobné zarovnání, porovnat s rodinou v bodě 1.

  VSTUP: znf_animals.fa

  VÝSTUP:

  • multifasta soubor znf_plants.fa
  • znf_animals.fasta (zarovnané)
  • znf_plants.fasta (zarovnané)

  NÁSTROJE: ?


3. Zmapovat výskyt v genomech, vytvořit si vlastní anotační data a zobrazit je v genomových prohlížečích.

  VSTUP: multifasta soubory znf_animals.fa a znf_plants.fa

  VÝSTUP:

  • GFF3 soubory anotující ZNF geny
  • pohledy na vybrané úseky genomu

  NÁSTROJE: ?


4. Zjistit které geny/proteiny by mohli být ortology, vycházejíc z:

  • polohy v genome
  • metodou "best reciprocal hits"

  VSTUP: znf_animals.fa, znf_plants.fa

  VÝSTUP: tabulka a graf/diagram ortologů

  NÁSTROJE: ?


5. Analyzovat vazbu jednotlivých členů rodiny na DNA, vycházejíc z analýzy sekvence a struktury


PROJEKT

Sesbírejte sekvence, které tvoří širší rodinu virů, do které patří SARS-CoV-2 (minimálně 15 sekvencí, maximálně 5 SARS-CoV-2). Zvolte vhodnou vědeckou publikaci či jiný podobný zdroj informací k celkové orientaci. Sestrojte vícenásobné zarovnání sekvencí, identifikujte konsenzuální sekvenci, ORF v ní a polohu S proteinu. Vytvořte sbírků primárních sekvencí S proteinu, zarovnejte je a sestrojte fylogenetický strom. Rozdílnost aminokyselin na jednotlivých pozicích namapujte na strukturu.

Odevzdávejte/prezentujte soubory se sekvencemi, skripty potřebné k řešení a obrázky zarovnání a vizualizace na struktuře.


HODNOCENÍ

  • Aktivita ve cvičeních - 20 bodů (4 x 5b) - viz Odevzdavarna
  • Projekt - 20 bodů + 10b obhajoba projektu na zkousce.

Seznámení se s výpočetní infrastrukturou na FI

  • nymfe87-105 - stroje v učebnách (fakultne VPN, puttySSH, SSH, aisa.fi.muni.cz, sekundarne heslo)
  • biolinux.fi.muni.cz - mnoho instalovaných nastrojů, virtuální stroj s pár GB paměti, pristup s fakultním loginem, mapuje se /home FI
  • hedron.fi.muni.cz - můj stroj v kanceláři, relativně výkonný, 32GB RAM, 4-jadrovy Intel core i7 (8 vláken), přístup pod uživatelem studentx99 přes port 222 (ssh -X studentx99@hedron.fi.muni.cz -p 222). Vytvořte si v /home/studentx99 vlastní adresář. Přenos souborů pomocí scp (puttySCP).