IV107 Bioinformatika I Přednáška 4 Katedra informačních technologií Masarykova Univerzita Brno Jaro 2011 aculty-logc Před týdnem Existují techniky pro manipulaci, modifikaci, kopírování a detekci DNA, RNA a proteinů. ► rekombinace a klonování DNA ► PCR ► hybridizace DNA a RNA ► měření aktivity proteinů ► DNA čipy, microarray, proteinové čipy ► zjišíování sekvence Outline Anotace sekvence a genů Anotace genomů Identifikace genů Homologie a podobnost Bioinformaticke databazy faculty-logo Sekvence DNA >P12345 Yeast chromosomel GATTACAGATTACAGATTACAGATTACAGATTACAG ATTACAGATTACAGATTACAGATTACAGATTACAGA TTACAGAT TACAGAT TACAGAT TACAGAT TACAGAT TACAGATTAGAGATTACAGATTACAGATTACAGATT ACAGATTACAGATTACAGATTACAGATTACAGATTA CAGATTACAGATTACAGATTACAGATTACAGATTAC AGATTACAGATTACAGATTACAGATTACAGATTACA GATTACAGATTACAGATTACAGATTACAGATTACAG ATTACAGATTACAGATTACAGATTACAGATTACAGA TTACAGATTACAGATTACAGATTACAGATTACAGAT faculty-logo Anotovaná sekvence DNA >P12345 Genl - protein alkoholdehydrogenáza TATA TATAAA CGAT TGACGATGACGAT start ATG exonl TACAGATTACAGAT TACAGAT TAAGATGT intron1 CAGATTACAGATTACAGATTACACAGATTCA exon2 AGATTACAGATTACAGATTACAGA stop TAA >P12346 Proteinl MASAQSFYLLDHNQNQNFDDHLAVDIVMILSHERFMN faculty-logO Anotace genomu Anotace genomu Anotace genomu http://www.ensembi.org/ facuity-iogo Způsoby identifikace genů in silico ► Experimentální metody (cDNA, EST) ► Komparativní metody + Selekční tlak + Druh zachovaných mutací ► Strukturní metody (GeneMark, GeneScan.GeneID) ► Detekce charakteristických signálů Identifikace genů podle charakteru mutací Využití známé struktury genů ► intergenová DNA ► geny + kódující protein statistika sekvence ► ORF exon/intron (u eukaryotů) promotor ► RNA geny (rRNA, tRNA, jiné) U prokaryotů 95-100% spolehlivost, u složitějších eukaryotů 90% na úrovni bazí, 70% na úrovni exonů/intronů ► existence intronů ► větší genomy ► nízká hustota genů (<30%; 3% u Horno sapiens) ► alternativní splicing (zhruba u poloviny genů) ► velké množství repetitivních sekveních ► občasný překryv genů aculty-logc □ gi - ■* -li* ^Q^O Struktura genu (prokaryotická) aculty-logc Vztah transkripce a translace u prokaryotů aculty-logc Struktura genu (eukaryotická) Typické sekvence v eukaryotických genech Enhancer Promotor + vazební místo transkripčního faktoru (aktivátor, represor) TATA-box 5'-UTR + Začátek transkripce Kódující oblast + Začátek translace (často ATG) *■ exony *■ introny donor (ag/GTaagt) akceptor (cAG/gt) ► lariat (CU[AG]A[CU]) + terminátor translace (stop kodon = UAG—UAA—UGA) 3'-UTR + polyadenylačnísignál (AATAAA) jacuity-iogc terminátor transkripce Sestřih mRNA □ S ~ = -š = -O^O SekvenCní logo intronu detaily sestřihu Identifikace genu podle struktury Úspěšnost identifikace genů .i. Gůigo et al, Genome Biology (2006) facůlty-logO Příbuzné geny mají podobnou funkci i sekvenci Rost studoval proteiny s rUznou sekvenCní podobností. Zjistil, že kdyZ je víc neZ 30% aminokyselin identických, proteiny mají velmi podobnou strukturu. aculty-logc Rost - prostor podobnosti aculty-logc Sít proteinů podle sekvenční podobnosti homoiogie Příbuznost a podobnost sekvencí ► Homologie bud je nebo není Podobnost lze kvantifikovat a stupňovat Od určitého stupně podobnosti je homologii velmi pravděpodobná. U proteinových sekvencí od cca. 30% identity. aculty-logc □ gi - ■* -li* ^Q^O Rost - "twilight zone" jaculty-logd □ gi - ■* -lit -oo^ty Podobnost sekvencí ► bez zarovnání (přiložení) např obsah n-gramů ► se zarovnáním (přiložením) + stejná délka, pozice si odpovídají + libovolná délka, pozice přiřazujeme Rozdíl mezi lokálním a globálním porovnáváním jaculty-logd □ r3> - Matice pro hodnocení podobnosti proteinových sekvencí T -1 1 5 N -3 1 0-2-2 0 D -3 0-1 -1 -2 -1 3 0 -1 -1 -1 -2 D 0 2 5 3 -1 -2 -2 -2 -2 1 -1 0 0 8 3 -I -1 2 -1 ■2 0 ■■2 0 1 0 5 3 0 -1 -1 -1 -2 0 -1 1 1 -1 2 S 1 -1 -1 -2 -1 -3 -2 -3 -2 0 -2 -1 -1 5 1 -2 -1 ■j -1 -4 -3 -3 -3 -3 -3 -'J -3 1 4 I -2 -1 -3 -1 -4 -3 -4 -3 -2 -3 -2 -2 2 2 4 I -2 0 -2 0 3 -3 -3 2 -2 -3 s -2 1 3 1 -1 2 -2 -2 - 4 -2 ■■ j -3 -3 -3 -3 -1 -3 -3 0 0 0 -1 6 2 -2 -2 -3 -2 -3 -2 -3 -2 -1 2 -2 -2 -1 -1 -1 -1 3 7 2 -3 -2 -4 -3 -2 -4 1 -3 -2 -2 -3 -3 -1 -3 -2 -3 1 2 11 C S T P A G N D E Q H R K M I L V F Y W facultý-logo Tabulka pro algoritmus dynamického programování jaculty-logd □ gi - ■* -li-* -oo^ty Tabulka pro algoritmus dynamického programování 5H,./-1 •v © ^ faculty-logo □ r3i - ■* -li"* -oo^ty Tabuika pro aigoritmus dynamickeho programovaní I S A L I G N E D o* -4 ■* -8»- 12»- 16»- 20»- 24»- 2 8»- 32»- 36 T** T -4 -1 -3* -7»- 11»- 15»- 19»- 2 3»- 27»- 31 4 Si H -8 -5 -2 -5 -9»- 13 p#- 17»- 18»- 22»- 26 J N. ** I -1 2 -4 -6 -3 -3 -5» -9 »- 13»- 17»- 21 4 S -16 -S 0 » -4 -5 -5» -8»- 12»- 16 4 1 -20 - 1 2 -1 0 -3 -7 » -8 - 11 »- 1 5 1 4 "v «V -2; - 1 6 -8 -5 i 4 » 0» -4» -a»- 1 2 4 1 4 4«* N -28 - 20 - -9 -3 0 4 6 » 2 » -2 4 1 4N -32 - 24 - 16 - 13 -7 -4 c 4 11 » (B) THI$-LI-NE- facuity-iogo □ S" - ■* -Íl* -oo^ty Tabulka pro algoritmus dynamického programování jaculty-logd □ gi - ■* -li-* -oo^ty Tabulka pro algoritmus dynamického programování jaculty-logd □ gi - ■* -li-* -oo^ty Pŕíšté Bioinformatické databázy laculty-logd □ gi - ■* -Íl* -oo^ty Outline Dodatek faculty-logo For Further Reading x faculty-logO □ gi - ■* -lit -oo^ty