Týden 7
Cviceni k stringologii a podobnosti.
Cilem bude seznamit Vas s nekolika nastroji pro vyhledavani podobnych retezcu znaku v textech ci genomech. U nekterych si vyzkousite instalaci, jine budou jiz nainstalovany predem. Krome seznamovani zamerime cviceni na porovnani casove a pametove narocnosti jednotlivych metod, na konci cviceni odevzdejte vyplnenou tabulku, kde na radcich budou nastroje, ve sloupcich pouzite datove sady a v polich tabulky cas a prostor nutny pro vypocet. K monitorovani doby vypoctu muzete pouzit funkce "time" a "top" bezne pristupne s prikazove radky systemu s OS Linux.
Pracujte ve dvou.
Pro numericke experimenty pouzijte genomova data ze stranky ftp://ftp.ncbi.nlm.nih.gov/genomes/ nebo priklady programu MUMmmer (http://www.no.embnet.org/manuals/mummer/examples/) a pro urcite srovnani sbirku textu romanu Jacka Londona napr. z projektu Gutenberg (www.gutenberg.org), pripadne dalsich autoru, aby vysledny soubor byl radove velikosti desitek Mbp/MB.
Pokuste se zjistit narocnost vyhledani vsech podobnosti retezce o delce cca 10 znaku a 100 znaku v prislusnem genomu/textovem souboru. Pokud to software umoznuje, pouzijte nastaveni, ktere vrati jenom nekolik nejlepsich vysledku a nastaveni, kteremu budou odpovidat desitky az stovky podobnych retezcu. V mnohych pripadech je prvni uloha rychlejsi nebo ma nizsi pametove naroky.
Seznam nastroju k testovani: textove editory a procesory, grep, agrep, CGC findpatterns/EMBOSS fuznuc, SimString, BLAST, BLAT, MUMmer, Primex,..
OSNOVA CVICENI:
1. Pripravte si datove soubory pro srovnavaci studie (4 typy dotazu, 2 soubory k prohledavani).
2. Instalujte simstring. Pracujte s grep, agrep, simstring, vyplnte cast tabulky.
3. Pracujte s programy BLAST a BLAT (sformatujte prohledavany text pro oba programy), vyplnte dalsi cast tabulky.
4. Seznamte se s programem MUMmer. Dokoncit studii a tabulku.
5. a) srovnejte dva pribuzne genomy z FTP serveru NCBI nebo jejich odpovidajicich si casti a vygenerujte vizualizaci.
PS: /usr/local/share/MUMmer3.22/
b) Naleznete v jednom z genomu vsechna presna opakovani nukleotidu o delce >100bp, nekolik takovych opakovani vizualizujte.
perl -n -e "while(s/.(...)/\$1/){print \"\$1\n\"}" < track.txt
perl -n -e "while(s/([acdefghiklmnpqrstvwyACDEFGHIKLMNPQRSTVWYZ])//){print \"\$1\"};print\"\n\"" < track.txt
perl -p -i -e "s/ /\n/g"