IV108 Bioinformatika II

1. týden - Sekvence, teorie informace a explorativní programování na cmdline 13. 9. 2021

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2021/IV108/um/IV108-01-2021-full.pdf
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2021/IV108/um/entropy-12-00034.pdf

-> přístup k počítači s Linuxem (biolinux.fi.muni.cz)

- z Linuxu příkazem ssh -X username@hostname

- z Windows kombinací nástrojů Xming a putty

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2021/IV108/um/linux_cmd.png

V hodině vyřešte Task B (data jsou v materiálech kurzu jako Yeast Genome Annotation).

sed

Úkol 1, termín 20.9.2021 za 5b (ŘEŠENÍ NAJDETE V DISKUSNÍM FÓRU PŘEDMĚTU)

________________________

1) ČETBA

Přečtěte výšeuvedený "Entropy paper" a napište několika větami co bylo v článku pro Vás nové nebo zajímavé+proč - řekneme si pak navzájem příští týden.

2) CVIČENÍ

Použijeme soubor všech proteinů Arabidopsis thaliana ATH1.fa (materialy kurzu).

Za pomoci některého z Vám blízkého interaktivního jazyka (bash+sed+awk+..., Perl, R, Python) vytvořte jednoduché příkazy (1 nebo několik navazujících). Kde to je možné, využijte regulární výrazy spustitelné z příkazové řádky transformující soubor ATH1.fa s nasledovnými výstupy:

1) Přeformátuje soubor tak, aby v hlavičce bylo pořadové číslo sekvence v souboru a jenom identifikátor oddělené podtržítkem (např. >2_At1g01020.1)

2) Tabulka s ID sekvence a její délkou oddělené tabulátorem

3) Všechny n-tice za sebou jdoucích aminokyselin (n-gramy), každá na zvláštní řádek (n je volitelny parametr). n-gram je libovolný podřetězec délky n, např. ze sekvence MASALL můžeme vytvořit 3 4-gramy: MASA, ASAL, SALL.

4) Pět nejčastěji se vyskytujících n-gramů s frekvencí.