IV108 Bioinformatika II

1. týden 13. 9. 2021

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/IV108-01-2020.pdf
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/entropy-12-00034.pdf

V hodině vyřešte Task B (data jsou v materiálech kurzu jako Yeast Genome Annotation).

Úkol, termín 30.9.2019 (pro rok 2020 zatim neaktualni!)

Použijeme soubor všech proteinů Arabidopsis thaliana ATH1.fa (materialy kurzu).

Vytvořte jednoduché skripty (1 nebo několik navazujících) využívající regulární výrazy v Perlu spustitelné z příkazové řádky s nasledovnými výstupy:

1) Přeformátuje soubor tak, aby v hlavičce bylo pořadové číslo sekvence v souboru a jenom identifikátor oddělené podtržítkem (např. >2_At1g01020.1)

2) Tabulka s ID sekvence a její délkou oddělené tabulátorem

3) Všechny n-tice za sebou jdoucích aminokyselin (n-gramy), každá na zvláštní řádek

4) Pět nejčastěji se vyskytujících n-gramů s frekvencí