IV108 Bioinformatika II

1. týden 21.9.2016 18. 9. 2018

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/1433/podzim2018/IV108/um/IV108-01-2018.pdf
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/1433/podzim2018/IV108/um/entropy-12-00034.pdf
Úkol 1 (1b), termín 2.10

Použijeme soubor všech proteinů Arabidopsis thaliana https://www.fi.muni.cz/~lexa/ATH1.fa

Vytvořte jednoduché skripty (1 nebo několik navazujících) využívající regulární výrazy v Perlu spustitelné z příkazové řádky s nasledovnými výstupy:

1) Přeformátuje soubor tak, aby v hlavičce bylo pořadové číslo sekvence v souboru a jenom identifiktor oddělené podtržítkem (např. >2_At1g01020.1)

2) Tabulka s ID sekvence a její délkou oddělené tabulátorem

3) Všechny n-tice za sebou jdoucích aminokyselin (n-gramy), každá na zvláštní řádek

4) Pět nejčastěji se vyskytujících n-gramů s frekvencíŘEŠENÍ bodů 3 a 4 Z ÚKOLU 1:

head teaching/iv108/data/ATH1.fa | grep -v "^>" | grep -v "^$" | perl -pe "s/(.+)[^\*]\n/\$1/" | perl -pe "s/\*//" | perl -pe "while(<STDIN>){while(length(\$_)>3){\$_=~s/^(.)(..)/\$2/; print \"\$1\$2\n\";}}"

head teaching/iv108/data/ATH1.fa | grep -v "^>" | grep -v "^$" | perl -pe "s/(.+)[^\*]\n/\$1/" | perl -pe "s/\*//" | perl -pe "s/^(.)(.)(.)(.+)/\$1\$2\$3\$4\$2\$3\$4\$3\$4/" | perl -pe "s/(...)/\$1\n/g"

head teaching/iv108/data/ATH1.fa | grep -v "^>" | grep -v "^$" | perl -pe "s/(.+)[^\*]\n/\$1/" | perl -pe "s/\*//" | perl -pe "while(<STDIN>){while(length(\$_)>3){\$_=~s/^(.)(..)/\$2/; print \"\$1\$2\n\";}}" | perl -pe "%s=();while(<STDIN>){chop();\$s{\$_}++;}; foreach \$key (keys %s){print \"\$key \$s{\$key}\n\";}" | sort -nr -k 2