IV108 Bioinformatika II

1. týden 17. 9. 2019

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2019/IV108/um/IV108-01-2019b-pdfjam.pdf
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2019/IV108/um/entropy-12-00034.pdf

V hodině vyřešte Task B (data jsou v materiálech kurzu jako Yeast Genome Annotation).

Úkol 1 (1b), termín 30.9.2019

Použijeme soubor všech proteinů Arabidopsis thaliana ATH1.fa (materialy kurzu).

Vytvořte jednoduché skripty (1 nebo několik navazujících) využívající regulární výrazy v Perlu spustitelné z příkazové řádky s nasledovnými výstupy:

1) Přeformátuje soubor tak, aby v hlavičce bylo pořadové číslo sekvence v souboru a jenom identifikátor oddělené podtržítkem (např. >2_At1g01020.1)

2) Tabulka s ID sekvence a její délkou oddělené tabulátorem

3) Všechny n-tice za sebou jdoucích aminokyselin (n-gramy), každá na zvláštní řádek

4) Pět nejčastěji se vyskytujících n-gramů s frekvencí