IV107 Bioinformatika I -
Přednáška 4
IV107 Bioinformatika I
Přednáška 4
Anotace sekvence a genů
Anotace genomu Identifikace genů Homologie a podobnost
Příště
Bioinform atické databázy
Katedra informačních technologií Masarykova Univerzita Brno
Jaro 2009
□           rS1
:|=   -O^O
IV107 Bioinformatika I -
Přednáška 4
Před týdnem
Existují techniky pro manipulaci, modifikaci, kopírování a detekci DNA, RNA a proteinů.
►  rekombinace a klonování DNA
►  PCR
►  hybridizace DNA a RNA
►  měření aktivity proteinů
►  DNA čipy, microarray, proteinové čipy
►  zjišíování sekvence
Anotace sekvence a genů
Homologie a podobnost
Příště
Bioinformatické databázy
Outline
Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Bioinformatické databázy
IVWBioinformatikal -Přednáška 4
Anotace sekvence a genů
lomu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
□         g           -                    _=  =   >T)(\(y
IV107
Přednáška 4
Sekvence DNA                                                                                          Anotace sek
w wix v wi i ww  l^ ■ 1/ i                                                                                                                            genu
Anotace genornu Identifikace genů
>P12345  Yeast  chromosomel
Příště
GATTACAGATTACAGATTACAGATTACAGATTACAG ATTACAGATTACAGATTACAGATTACAGATTACAGA TTACAGATTACAGATTACAGATTACAGATTACAGAT TACAGATTAGAGATTACAGATTACAGATTACAGATT ACAGATTACAGATTACAGATTACAGATTACAGATTA CAGATTACAGATTACAGATTACAGATTACAGATTAC AGAT TACAGATTACAGAT TACAGAT TACAGAT TACA GATTACAGATTACAGATTACAGATTACAGATTACAG ATTACAGATTACAGATTACAGATTACAGATTACAGA TTACAGATTACAGATTACAGATTACAGATTACAGAT
Přednáška 4
Anotovaná sekvence DNA
>P12345  Genl   -  protein alkoholdehydrogenáza TATA     TATAAA
CGATTGACGATGACGAT Start    ATG
exonl    TACAGATTACAGATTACAGATTAAGATGT intronl  CAGATTACAGATTACAGATTACACAGATTCA exon2    AGATTACAGATTACAGATTACAGA Stop     TAA
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
>P12346   Proteinl MASAQSFYLLDHNQNQNFDDHLAVDIVMILSHERFMN
Anotace genomu
■iiioiiti Genes    l GC Gens                      Repeats
t
f
ChromcEon?
P25,l
p24,3
IV107Bioinformatikal -Přednáška 4
Anotace sekvence a genů
Anotace genomu nuniuiuyit; d podobnost
Příště
Bioinform atické databázy
□         g           -                    _=  =   >T)(\(y
Anotace genomu
Herno sapiens ctirnosme 6
IVWBioinformatikal -Přednáška 4
Anotace sekvence a genů
Anotace genomu nuiiiuiuyit; d podobnost
Příště
Bioinformatické databázy
□         g           -                    _=  =   >T)(\(y
Anotace genomu httpV/vwwv.ensembl.org/
IVWBioinformatikal -Přednáška 4
Features t ComparativeT DAS Sources t Repeats t Decorations?  Export t  Image size t
HelpT
Jump to region 5
: 8992G433-90311256
Band:
,   Zoom
+ -■■!
Length Chr. 6 band
RefSeq NT Gontigs
ErBembl Genes
rcRNA Genes
r| Human tilepath ebnes
*:.-:'\';,.Mb              9000 Mb             BCOSMb             30.10 Mb              90.15 Mb             9020 Mb             3025 Mb             60.31
GerelD:135233 ff]
Gj?nelD22M1[ia]
At«
LSABR[fc
LÜBE2JI   LRääU(tosene LRRHGD
■ANKKDG
WLUkJ
&relD2569[l2]
&nelD2570[11]
_&relD£1465[10]
GenelD5&52ap]
_
Length Gere legend
2895 Mb              9000 Mb             9005 Mb             90.10 Mb              90.15 Mb             9020 Mb             9025 Mb             90.31
---------------------------------------------------------------------------324.77 Kb-------------------------------------------------------Ffe-^tse slrand
■iEreemb! Novel Pseulcgene                                                     Ntetged Known Proteincoding
RNA Pseudcgene (Novel) There aiecunenlly 481 [acte switched off. use t he menus above the image to tum themon.
Anotace sekvence a genů
Anotace genomu Homologie ď podobnost
Příště
Bioinform atické databázy
•f) c\ (y
IV107 Bioinformatika I -
Přednáška 4
Anotace sekvence a genů
Způsoby identifikace genů in silico                                     ZzEL»
Experimentální metody (cDNA, EST)
Bioinformatické databázy
►  Komparativní metody
-  Selekční tlak
-  Druh zachovaných mutací
►  Strukturní metody (GeneMark, GeneScan.GeneID)
►  Detekce charakteristických signálů
IV107 Bioinformatika I -
Přednáška 4
Identifikace genů podle charakteru mutací Gene                                Intergenic
En 11 n 11 iTFTi i iniiTii imi in i titttm iiiruTi    .' 111111111111 n i "thtttt n        mi   MINIM        ^T    TT  TT
11111 u urn 1111111 u H i rn tri r^r iti*ti rrm-rn       ri:rriTssľUľm.   rrr   tt^tt
Anotace sekvence a genů
Identifikace genů Hümülügie a podobnost
Příště
Bioinform atické databázy
3 Conserved    ."Mutation  Li Gap     | Frameshift
□        g         -                 _=  =   ^<\(y
IV107 Bioinformatika I -
Přednáška 4
Využití známé struktury genů
►  intergenová DNA
►  geny
- kódující protein
►• statistika sekvence ►  ORF
►•  exon/intron (u eukaryotu) ►•  promotor
► RNA geny (rRNA, tRNA, jiné)
Anotace sekvence a genů
Identifikace genů Hemülügie a podobnost
Příště
Bioinform atické databázy
□           rS1
:|=   -O^O
IV107 Bioinformatika I -
Přednáška 4
U prokaryotů 95-100% spolehlivost, u složitějších eukaryotů 90% na úrovni baží, 70% na úrovni exonů/intronů
►  existence intronů
►  větší genomy
►  nízká hustota genů (<30%; 3% u Homo sapiens)
►  alternativní splicing (zhruba u poloviny genů) velké množství repetitivních sekveních
►  občasný překryv genů
Anotace sekvence a genů
Identifikace genů Hümülügie a podobnost
Příště
Bioinformatické databázy
□           rS1
:|=   -O^O
IV107 Bioinformatika I -
Přednáška 4
Struktura genu (prokaryotická)
RBS
5" UTR   f■         ..
Promoter        s!     1   Coding regie
5"-^------------^1--------------------
3'UTR
Anotace sekvence a genů
Identifikace genů Hümülügie a podobnost
Příště
Bioinform atické databázy
3'     DNA
3'        RNA
Start
Stop
□        gi         -         =      _^  =   ^0,0
IV107 Bioinformatika I -
Přednáška 4
Vztah transkripce a translace u prokaryotu Coupled Transcription and Translation
DNA
New Polypeptide
%^^      RNA Polymerase mRNA
Ribosome
Anotace sekvence a genů
Identifikace genů Hümülügie a podobnost
Příště
Bioinform atické databázy
□        g         -                 _=  =   ^<\(y
IV107 Bioinformatika I -
Přednáška 4
Struktura genu (eukaryotická)
Anotace sekvence a genů
upstream                   ,
enhancers TATA box\     *
Coding region
Intron 1                intron 2
Initial transcript 5' cap           (still in nucleus)
3' Poly-A tail IAAAAA
Identifikace genů
r íuiiiuiuyie a púdobnost
Příště
Bioinformatické databázy
final inRNA (in cytoplasm)
□         g           -                    _=  =   ^)c\r>
Typické sekvence v eukaryotických genech
►  Enhancer
►  Promotor
-  vazební místo transkripčního faktoru (aktivátor, represor)
► TATA-box
►  5'-UTR
-  Začátek transkripce
►  Kódující oblast
-  Začátek translace (často ATG) *■ exony
*■ introny
►•  donor (ag/GTaagt) akceptor (cAG/gt) ►  lariat (CU[AG]A[CU])
-  terminátor translace (stop kodon = UAG—UAA—UGA)
►  3'-UTR
-   polyadenylačnísignál (AATAAA)
-  terminátor transkripce
IVWBioinformatikal -Přednáška 4
Anotace sekvence a genů
Identifikace genů Hemelegie ď podobnost
Příště
Bioinformatické databázy
□        g
t\=   -O". O
Sestřih mRNA
Intron Retention (IR) Exon   /Exon\    Exon                    Form 1
GT          AG                            Form2
Cassette Exon (CE)
A   ^-<^\     A      r-             F0rm 1
Exon    /Ji^Exon^^CA    Exon ^GT    AG         GT    AG                  Form 2
Multiple Splice Sites (MS) Form 1 Exon    fx \    Exon   /\A   Exon GT GT
IV107 Bioinformatika I -Přednáška 4
Anotace sekvence a genů
Identifikace genů Hümolügie a püdübnost
příště
B i oi nf or m ati c ké databázy
S1
:|=    -O^O
Sekvenční logo intronu
exon
5'
donor
intron
tuŽiŠ
acceptor
IV107Bioinformatikal -Prednáška 4
)
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
□          r3"
detaily sestřihu
pre-mRNA   5' ■■■ApA
EjLCsedinlron in lariat ľomi
C^M^inl laus Jrfií m*f «rJ 5v™, Irti M r|J,Iŕ w—^
Spliced exons
□           rS1             -
IV107Bioinformatikal -Přednáška 4
Anotace sekvence a genů
Identifikace genů nuniuiuyit; d podobnost
Příště
Bioinform atické databázy
^) C\ Q-
Identifikace genů podle struktury
IVWBioinformatikal -Přednáška 4
Reverse strand: mirror reffection of above
Nature Reviews | Genetics
Anotace sekvence a genů
Identifikace genů Hümülügie a podobnost
Příště
Bioinform atické databázy
□         rJi           -
:|=   -O^O
Úspěšnost identifikace genů
Guigo et al, Genome Biology (2006)
□         ö
IVWBioinformatikal -Přednáška 4
Anotace sekvence a genů
Identifikace genů
nuniuiuyie a púdobnost
Příště
Bioinformatické databázy
^) C\ Q-
IV107 Bioinformatika I -
Přednáška 4
Příbuzné geny mají podobnou funkci i sekvenci
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
Rost studoval proteiny s různou sekvenční podobností. Zjistil, že když je víc než 30% aminokyselin identických, proteiny mají velmi podobnou strukturu.
□           rS1
:|=   -O^O
Rost - prostor podobnosti
□         g
IVWBioinformatikal -Přednáška 4
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
:|=   -O^O
Sít proteinů podle sekvenční podobnosti
IVWBioinformatikal -Přednáška 4
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
Proteiny přepojené podle sekvnenční podobnosti. Každý z 30727 vrcholů reprezentuje protein, každá z 1,206,654 hran podobnost. Seed Magazine, Červenec 2006
□           rS1
:|=   -O^O
Rost - "twilight zone"
- true
-false
-10      -5       0       5 Distance from HSSPthreslioli
Percentage sequence identity
15       20       25       30
']............
-5       0       5 Distance from HSS P threshold
IV107Bioinformatikal -Prednáška 4
Anotace sekvence a genů
lomu Identifikace genů Homologie a godoOnost
Příště
Bioinfomnatické dataOázy
□        g        -        =      _=  =   -o^O
IV107 Bioinformatika I -
Přednáška 4
homologie
hömo loos
ortliüloüs
paralogs            ortholog»
i
frog fí      chick a    mouse (t.   m ous e ß         chick ß     frogß
í i -chain gene
K-chain gene gynť duplication
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
early globin gene
□        g         -                 _=  =   ^<\(y
IV107 Bioinformatika I -
Přednáška 4
Pnbuznost a podobnost sekvencí
► Homologie buď je nebo není
Podobnost
lze kvantifikovat a stupňovat
Od určitého stupně podobnosti je homologii velmi pravděpodobná. U proteinových sekvencí od cca. 30% identity.
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
□           rS1
:|=   -O^O
IV107 Bioinformatika I -
Přednáška 4
Podobnost sekvencí
►  bez zarovnání (přiložení)
-   např obsah n-gramů
►  se zarovnáním (přiložením)
-  stejná délka, pozice si odpovídají
-   libovolná délka, pozice přiřazujeme
Anotace sekvence a genů
Anotace genomu Identifikace genů Homologie a godoOnost
Příště
Bioinfomnatické dataOázy
□        g
t\=  -00,0
Rozdíl mezi lokálním a globálním porovnáváním
IVWBioinformatikal -Přednáška 4
(A)   local                                                                                                                                                                                           Anotace sekvence a
genů
PI3-kinaSe  |»BHNSN|HW»[>SaLFKIp5|                                                                                                                                                                                 Anotace genomu
CAMPPK     iDLťPE^LLiattaGTiaťTJBTei                                                                                                                                                                                 Identifikace genu
Homologie a podobnost
Příště
Bioinformatické databázy
(B)   global
10                                   20                            JO                           w                          50
PI3-kinase  HaLBtJLR—LEECRI — MSSA<RPLULNWENPDIMSELLFaNNEI IFKNGCDLRSDHLT
CAMPPK    GN»AAAKKI3ÄE«ESVKEFLSKSKEI1FLKKWENP*9NISHLI1«FERIKTLGTGSFGRV«L-11                         20                           30                           40                           5»
60                                 70                           80                          90                         100                           110
P13-klnase  L9IIRIIIE--NIU5N8GLDUHLPreasIGtCVGUEVVRNSHrit1(l-I0.CKGGLKGAL.
CAMPPK    —VKHMET6NHVABKIL0KÍKVVK-----------------LKaiEHILNEKRILOiVNFPfLVKLEF
60                      70                      80                                           90                     110
120                        130                               140                         150                         160
PI3-kinase «F«5tlT-LH0«LKDKNKCEIÍ6A»--I(iLFTIiSCAGÍCVAIFILGIG|MIll«UKD-D CAMPPK    SFKONSNLTPH/FlEYVPGGEHFSHLRBJGRFSEPHARFVSAaiVLTFETLHSLDLI YHJÖLT
110      120       130      140       150       160
170                  180                  190                             200                             210                      220
PI3kinaSe   GJLFHiliFjHFLiHKliKKFGVKRERVP----------FVLTODFL------IVISFCGAttECTKIREFE
CAMPPK    PĚlLLII)»G'H--aVTlČF6lFAK-»VK6RTy»LCGTPEyLAPEIILSK6YNKAVCHBALG 170                        180                                 190                       200                     210                          220
□        gi         -         =       ^11=   -O^O
Matice pro hodnocení podobnosti proteinových sekvencí
c	9																		
s	-1	4																	
T	-1	1	s																
P	-3	-1	-i	7															
A	0	1	0	-1	4														
G	-3	0	-2	-2	0	6													
N	-3	1	0	-2	-2	0	é												
D	j	0	-1	-1	-2	-1	1	6											
E	-4	0	-1	-1	-1	-2	0	2	5										
Ö	-3	0	-1	-1	-1	-2	0	0	2	5									
H	-3	-1	-2	-2	-2	-2	1	-1	D	0	S								
R	-3	-1	-1	-2	-1	-2	Q	-2	D	1	0	3							
K	-3	0	-1	-1	-1	-2	0	-1	1	1	-1	2	b						
M	-1	-1	-1	-2	-1	-3	-2	-3	-2	0	-2	-1	-1	i					
I	-1	-2	-1	-3	-1	-4	-3	-3	-3	-3	-3	-3	-3	1	1				
L	-1	-2	-1	-3	-1	-4	-3	-4	-j	-2	-3	-2	-2	2	2	1			
V	-1	-2	0	-2	0	-3	-3	-3	-2	-2	j	-3	-2	1	3	1	']		
F	-2	-2	-2	-4	-2	-3	-3	-3	-3	-3	-1	-3	-3	0	0	0	-1	a	
Y	-2	-2	-2	-3	-2	-3	-2	-3	-2	-1	2	-2	-2	-1	-1	-1	-1	3	7
W	-2	-3	2	-4	J	■2	-1	1	3	-2	-2	■ 3	-3	-1	-3	-2	■ J	1	2   11
	C	S	T	P	A	G	H	D	E	Q	H	R	K	H	I	L	V	F	Y    W
IVWBioinformatikal -Přednáška 4
Anotace sekvence a genů
lomu Identifikace genů Homologie a podobnost
Příště
Bioinform atické databázy
^) C\ Q-
IV107 Bioinformatika I -
Přednáška 4
Tabulka pro algoritmus dynamického programování
*!	T
*2	H
"1	I
I4	S
*5	L
*E	I
*7	N
*8	E
>>1 I
s
>'3 A
a -»--s*-16.
-16
4
-24
*
-32
4
-40
4
-48
4
-56
4
-64
t
Sifi
>'4
L
ft I
S
JV
N	E
56	► -64*
	
	
	
	
	
	
	
	
y?
D
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
□        ö
:|=   -O^O
Tabulka pro algoritmus dynamického programování
y-i
M
IVWBioinformatikal -Přednáška 4
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
□        g         -                 _=  =   ^<\(y
IV107 Bioinformatika I -
Přednáška 4
Tabulka pro algoritmus dynamického programování
9* -4  -►-8"»-12»-1ó-»-20*-24»-28*-32"»-36
-4        -1       -3*   -T*-11*-15*-19-»-23*-27*-31
-8       -5      -Z       -5       -9»-1J»-l?-»-18*-22*-26
»«s,          v    -v   <v
-12        -4      -6        -3        -3        -5*>   -9^-13^-17^-21
*     * v         **   n.   >»   -s
-16        -8        0»-4        -5        -S        -5»   -8»-12»-16
\        *        'S      "V     ^                ^      «.
-20      -12          -4        -1           0        -3        -7^   -8      -11^-15
*>» \       S(\    -v
-24      -16      -8-5           1           4   *   0»  -4»   -S*-12
-28     -20     -12       -9       -3         0         4         6 ■»    2-* -2
-32      -24     -16      -13        -7-4           0          4        11»?
--ISALIGNED
Anotace sekvence a genů
Anotace genomu Identifikace genů Homologie a godoOnost
(A)                           I           S          A          L          I           G          N           E          D            (B)    THIS-LI-NE-
Bioinfomnatické dataOázy
□         gl           -           =       _^    =     ■ť^Q.O
IV107 Bioinformatika I -
Přednáška 4
Tabulka pro algoritmus dynamického programování
	I           S           A           L           1           C           N           £           P
	0000000000
	NNNNNNNNN
7	0-1          1          0-1-1-2          0       -1        -1
	ÄN *NNNNNNNN H_    "3        -2        -1         -3        -4        -3        -1           0        -2 **N    N    N    N *N            N    N    N
H	
	
I	0        -í        -5        -3           1           1 * -7        -ň        -4        -3
	N|S            NNNNNN
S	0-2           8*0-5-1           1-6-6        -4
	Nl       IN    N     N    N    N     N    N
L	0           2           0           7           4-3-5-2-9      -1Ü
	NIN    NIN    N         IN     N    N
I	0           4          0-1           9           S   »   0 ■» -8        -5      -12
	N|N     N          |N     N |N             N
N	0-3          5-2          1          6          8          6 t-i       -4
	N|N |N             N |N    N     N
E	0-3-3            Í         -4         -2            4            S         11            3
— ISňLIGNEQ
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
(A)                                  I             5             A             L             I             6             N             í             P                  (B)    THÍ5-LI-NE-
"     ľ
Bioinformatické databázy
□         ť?           -                    -=    =     ^}Q^
IV107 Bioinformatika I -
Přednáška 4
Anotace sekvence a
Tabulka pro algoritmus dynamického programování
	I           S		ALIGN	E           C
	0          0          0		0          0          0          0          0	0          0
T	0,0          1		0           0           0           0           0	0          0
H	To - ^o      o		0           0           0           0           1 s.    N»	0           0
I	iff--    0^-0		0          2          4          0          0	0          0
	*		"»      %      N.	
S	0        0 -„ 0		0    - ,0           0           4           1	0           0
	AN		- „         >          4 V	
L	O        2          0		0-^0-2        0         1	0          0
	N       "Si	N.	S-s               ----------'.	
I	0          4*0		0         2-0         0-0	0           0
	» <s		----------.    "-**»	v
N	0          0          5	-fr	1        0        0        0 -     0 "	0        1
		s^	S x	XX
E	0           0           1		4»a      o      o      a	a ?   2
r    ,	genů
)vam	Anotace genornu
	Identifikace genů
	Homologie a podobnost
(B)   IN	Příště
IS	Bioinform atické databázy
□       o        -               _=  =   ^<\(y
IV107 Bioinformatika I -
Přednáška 4
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
Příště Bioinformatické databázy
□        g         -                 _=   =   ^<\(y
IV107 Bioinformatika I -
Přednáška 4
Dodatek
For Further Reading
Outline
Dodatek
□        g         -                 _=   =   ^<\(y
IV107 Bioinformatika I -
Přednáška 4
Dodatek
For Further Reading
For Further Reading X
□        ö
:|=   -O^O