IV108 Bioinformatika II
1. týden 13. 9. 2021
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/IV108-01-2020.pdf
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/entropy-12-00034.pdf
V hodině vyřešte Task B (data jsou v materiálech kurzu jako Yeast Genome Annotation).
Použijeme soubor všech proteinů Arabidopsis thaliana ATH1.fa (materialy kurzu).
Vytvořte jednoduché skripty (1 nebo několik navazujících) využívající regulární výrazy v Perlu spustitelné z příkazové řádky s nasledovnými výstupy:
1) Přeformátuje soubor tak, aby v hlavičce bylo pořadové číslo sekvence v souboru a jenom identifikátor oddělené podtržítkem (např. >2_At1g01020.1)
2) Tabulka s ID sekvence a její délkou oddělené tabulátorem
3) Všechny n-tice za sebou jdoucích aminokyselin (n-gramy), každá na zvláštní řádek
4) Pět nejčastěji se vyskytujících n-gramů s frekvencí