1. týden - Sekvence, teorie informace a explorativní programování na cmdline 13. 9. 2021
-> přístup k počítači s Linuxem (biolinux.fi.muni.cz)
- z Linuxu příkazem ssh -X username
- z Windows kombinací nástrojů Xming a putty
V hodině vyřešte Task B (data jsou v materiálech kurzu jako Yeast Genome Annotation).
________________________
1) ČETBA
Přečtěte výšeuvedený "Entropy paper" a napište několika větami co bylo v článku pro Vás nové nebo zajímavé+proč - řekneme si pak navzájem příští týden.
2) CVIČENÍ
Použijeme soubor všech proteinů Arabidopsis thaliana ATH1.fa (materialy kurzu).
Za pomoci některého z Vám blízkého interaktivního jazyka (bash+sed+awk+..., Perl, R, Python) vytvořte jednoduché příkazy (1 nebo několik navazujících). Kde to je možné, využijte regulární výrazy spustitelné z příkazové řádky transformující soubor ATH1.fa s nasledovnými výstupy:
1) Přeformátuje soubor tak, aby v hlavičce bylo pořadové číslo sekvence v souboru a jenom identifikátor oddělené podtržítkem (např. >2_At1g01020.1)
2) Tabulka s ID sekvence a její délkou oddělené tabulátorem
3) Všechny n-tice za sebou jdoucích aminokyselin (n-gramy), každá na zvláštní řádek (n je volitelny parametr). n-gram je libovolný podřetězec délky n, např. ze sekvence MASALL můžeme vytvořit 3 4-gramy: MASA, ASAL, SALL.
4) Pět nejčastěji se vyskytujících n-gramů s frekvencí.