Týden 1 - Úvod - 15. 2. 2022
Úvodní informace ke kurzu podá doc.Šafránek a dr.Lexa. První týden probíhá online v MS Teams skupině, do které snad IS všechny přihlásil. Pokud ne, pište e-mail.
V první části kurzu věnované bioinformatické analýze biologických sevencí a struktur (1 + 4 + 1 týden) si procvičíme manipulaci s daty týkajícími se určité rodiny proteinů - konkrétně transcripčních faktorů na bázi zinkového prstu (zinc finger).
K práci si vyčleňte adresář na vhodném počítači, kde budete postupně shromažďovat mezivýsledky své práce.
Co Vás dalších 5 týdnů čeká:
1. Skompletovat soubory s členy proteinové podrodiny ZNF (zinc-finger protein) u živočichů, které jsou nebo mohly by být schopny se vázat na PQS (potential quadruplex sequence) tvořící G-kvadruplexy (G4). Hledat budeme na základě:
- informací z článku
- názvu
- sekvenční podobnosti
- obsahu sekvenčních motivů
- strukturní podobnosti
VSTUP:
VÝSTUP:
- multifasta soubor znf[1-2]_animals.fa (1-PG4 vážoucí úzký výběr, 2-ZNF)
- pokusit se najít informace o sekvencích, na které se vážou, zejména znf2
2. Najít příbuzné proteiny u rostlin, sestrojit vícenásobné zarovnání, porovnat s rodinou v bodě 1.
VSTUP: znf_animals.fa
VÝSTUP:
- multifasta soubor znf_plants.fa
- znf_animals.fasta (zarovnané)
- znf_plants.fasta (zarovnané)
NÁSTROJE: ?
3. Zmapovat výskyt v genomech, vytvořit si vlastní anotační data a zobrazit je v genomových prohlížečích.
VSTUP: multifasta soubory znf_animals.fa a znf_plants.fa
VÝSTUP:
- GFF3 soubory anotující ZNF geny
- pohledy na vybrané úseky genomu
NÁSTROJE: ?
- polohy v genome
- metodou "best reciprocal hits"
VSTUP: znf_animals.fa, znf_plants.fa
VÝSTUP: tabulka a graf/diagram ortologů
NÁSTROJE: ?
5. Analyzovat vazbu jednotlivých členů rodiny na DNA, vycházejíc z analýzy sekvence a struktury
PROJEKT
Sesbírejte sekvence, které tvoří širší rodinu virů, do které patří SARS-CoV-2 (minimálně 15 sekvencí, maximálně 5 SARS-CoV-2). Zvolte vhodnou vědeckou publikaci či jiný podobný zdroj informací k celkové orientaci. Sestrojte vícenásobné zarovnání sekvencí, identifikujte konsenzuální sekvenci, ORF v ní a polohu S proteinu. Vytvořte sbírků primárních sekvencí S proteinu, zarovnejte je a sestrojte fylogenetický strom. Rozdílnost aminokyselin na jednotlivých pozicích namapujte na strukturu.
Odevzdávejte/prezentujte soubory se sekvencemi, skripty potřebné k řešení a obrázky zarovnání a vizualizace na struktuře.
HODNOCENÍ
- Aktivita ve cvičeních - 20 bodů (4 x 5b) - viz Odevzdavarna
- Projekt - 20 bodů + 10b obhajoba projektu na zkousce.
Seznámení se s výpočetní infrastrukturou na FI
- nymfe87-105 - stroje v učebnách (fakultne VPN, puttySSH, SSH, aisa.fi.muni.cz, sekundarne heslo)
- biolinux.fi.muni.cz - mnoho instalovaných nastrojů, virtuální stroj s pár GB paměti, pristup s fakultním loginem, mapuje se /home FI
- hedron.fi.muni.cz - můj stroj v kanceláři, relativně
výkonný, 32GB RAM, 4-jadrovy Intel core i7 (8 vláken), přístup pod uživatelem studentx99 přes port 222 (ssh -X studentx99
.fi.muni.cz -p 222). Vytvořte si v /home/studentx99 vlastní adresář. Přenos souborů pomocí scp (puttySCP).@hedron