IVWBioinformatika I -Přednáška 4
IV107 Bioinformatika I
Přednáška 4
Anotace sekvence a genů
Anotace genomu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
Katedra informačních technologií Masarykova Univerzita Brno
Jaro 2010
□           rS1
:|=   -O^O
Před týdnem
IVWBioinformatika I -Přednáška 4
Anotace sekvence a genů
Anotace genomu Identifikace genů Homologie a godoOnost
Příště
Existují techniky pro manipulaci, modifikaci, kopírování a detekci DNA, RNA a proteinů.
►  rekombinace a klonování DNA
►  PCR
►  hybridizace DNA a RNA
►  měření aktivity proteinů
►  DNA čipy, microarray, proteinové čipy
►  zjišíování sekvence
□         g           -                    _=   =   >T)(\(y
Outline
Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Bioinformatické databázy
IVWBioinformatika I -Přednáška 4
Anotace sekvence a genů
lomu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
□         g           -                    _=  =   >T)(\(y
Sekvence DNA
IVWBioinformatika I -Přednáška 4
Anotace sekvence a genů
Anotace genomu Identifikace genů Homologie a godoOnost
Příště
>P12345  Yeast  chromosome1
GATTACAGATTACAGATTACAGATTACAGATTACAG
ATTACAGATTACAGATTACAGATTACAGATTACAGA
TTACAGATTACAGATTACAGATTACAGATTACAGAT
TACAGATTAGAGATTACAGATTACAGATTACAGATT
ACAGATTACAGATTACAGATTACAGATTACAGATTA
CAGATTACAGATTACAGATTACAGATTACAGATTAC
AGAT TACAGATTACAGAT TACAGAT TACAGAT TACA
GATTACAGATTACAGATTACAGATTACAGATTACAG
ATTACAGATTACAGATTACAGATTACAGATTACAGA
TTACAGATTACAGATTACAGATTACAGATTACAGAT
An otova n á sekvence DNA
IVWBioinformatika I -Přednáška 4
>P12345  Genl   -  protein alkoholdehydrogenáza TATA     TATAAA
CGATTGACGATGACGAT Start    ATG
exonl    TACAGATTACAGATTACAGATTAAGATGT intronl  CAGATTACAGATTACAGATTACACAGATTCA exon2    AGATTACAGATTACAGATTACAGA Stop     TAA
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
>P12346   Proteinl MASAQSFYLLDHNQNQNFDDHLAVDIVMILSHERFMN
□     ö
:|= -O^O
Anotace genomu
■iiiwti Senes    l GC Genes                     Repeats
CliroBEone í
p25,l
p24,3
IV107Bioinformatika I -Přednáška 4
Anotace sekvence a genů
Anotace genomu Homologie a podobnost
Příště
Bioinformatické databázy
□        gi         -         =       _=  =   -f)<\(y
Anotace genomu
Hao sapiens cliroiios« 6
J/

IV107Bioinformatika I -Přednáška 4
Anotace sekvence a genů
Anotace genomu Homologie a podobnost
Příště
Bioinformatické databázy
□         g           -                    -=  =   >T)(\(y
Anotace génom u http://www.ensembl.org/
IVWBioinformatika I -Přednáška 4
Features t ComparativeT DAS Sources t Repeats t Decorations?  Export t  Image size t
HelpT
Jump to region 5
: 8992G433-90311256
Lei-Qtl-i
Chr. 6 band
RelSeq NT Gontigs
Ersembl Genes
rcRNA Genes
r| Human tilepath ebnes
tofietíti            90.00 Mb            BCOSMb            30.10 Mb            90.15 Mb            9020 Mb            3025 Mb            60.31
GerelD:135233 ff]
Gj?nelD22M1[ia]
LACY1lb
LGABRR1
LGABRI
RelSeq
Length Gere legend
GíľBlD2569[12]
—_
llJbE2JI   LRäeudogere LRR4GD
&nelD2570[11]                                   Gb neÍD;58S2£pl
___    ___    ___    _fenelD5HG5j10] _i___
"ANKRDG
S9S5Mb              90.00 Mb             9005 Mb             90.10 Mb              90.15 Mb             9020 Mb
---------------------------------------------------------------------------3B4.77 Kb----------------------------------------------
9025 Mb             90.31
Ffe verses! rand
^BEnsembl Novel PseuJcgene                                                     Metged Known Proteincoding
RNA Pseudcgene (Novel) There aiecurrertly 481 [acte switched off. use t he menus above the image to turn themon.
Anotace sekvence a genů
Anotace genornu Hümülügie ď podobnost
Příště
Bioinformatické databázy
Způsoby identifikace genů in silico
►  Experimentální metody (cDNA, EST)
►  Komparativní metody
-  Selekční tlak
-  Druh zachovaných mutací
►  Strukturní metody (GeneMark, GeneScan.GeneID)
►  Detekce charakteristických signálů
IVWBioinformatika I -Přednáška 4
Anotace sekvence a genů
Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
■=   =   -00,0
Identifikace genů podle charakteru mutací
IVWBioinformatika I -Přednáška 4
Gene
Intergenic
Anotace sekvence a genů
Identifikace genů Hümülügie ď podobnost
Příště
Bioinformatické databázy
D Conserved    1" Mutation  [J Gap   ■ Frameshift
□         rS           -                    _=   =   ^<\(y
Využití známé struktury genů
IVWBioinformatika I -Přednáška 4
►  intergenova DNA
►  geny
- kódující protein
►• statistika sekvence ►  ORF
►•  exon/intron (u eukaryotu) ►•  promotor
► RNA geny (rRNA, tRNA, jiné)
Anotace sekvence a genů
Identifikace genů Hemülügie ď podobnost
Příště
Bioinformatické databázy
□        S1
:|=   -O^O
IVWBioinformatika I -Přednáška 4
U prokaryotů 95-100% spolehlivost, u složitějších eukaryotů 90% na úrovni baží, 70% na úrovni exonů/intronů
►  existence intronů
►  větší genomy
►  nízká hustota genů (<30%; 3% u Homo sapiens)
►  alternativní splicing (zhruba u poloviny genů) velké množství repetitivních sekveních
►  občasný překryv genů
Anotace sekvence a genů
Identifikace genů Hümülügie ď podobnost
Příště
Bioinformatické databázy
□           rS1
:|=   -O^O
Struktura genu (prokaryotická)
RSÍ                                3'UTR
5" UTR   f■        ..
Promoter        sľ   1   Coding regie
5'   M^^^^^^^^H  3'       RNA
t             \
Start                    Stop
□       ö        -
IV107Bioinformatika I -Prednáška 4
DNA
Anotace sekvence a genů
Identifikace genů Hümülügie ď podobnost
Příště
Bioinformatické databázy
:|=   -O^O
Vztah transkripce a translace u prokaryotů
IVWBioinformatika I -Přednáška 4
Coupled Transcription and Translation
DNA
New Polypeptide
%^^      RNA Polymerase mRNA
Ribosome
Anotace sekvence a genů
Identifikace genů Hümülügie ď podobnost
Příště
Bioinformatické databázy
C
□         gi           -                    _=  =   ^<\(y
Struktura genu (eukaryotická)
IVWBioinformatika I -Přednáška 4
final inRNA (in cytoplasm)
Anotace sekvence a genů
upstream enhancers TATA box
Coding region
Intron 1                intron 2
Initial transcript 5' cap           (still in nucleus)
3' Poly-A tail IAAAAA
Identifikace genů
r íuiiiuiuyie a púdobnost
Příště
Bioinformatické databázy
□        g         -                 _=  =   ^)c\r>
Typické sekvence v eukaryotických genech
IVWBioinformatika I -Přednáška 4
Anotace sekvence a genů
►   t n n a nee r                                                                                                        Mom««» go*
►  Promotor
+ vazební místo transkripčního faktoru (aktivátor,
represor) »- TATA-box
►  5'-UTR
-  Začátek transkripce
►  Kódující oblast
-  Začátek translace (často ATG) *■ exony
*■ introny
►•  donor (ag/GTaagt)
►•  akceptor (cAG/gt)
►  lariat (CU[AG]A[CU]) »- terminátor translace (stop kodon = UAG—UAA—UGA)
►  3'-UTR
•• polyadenylačnísignál (AATAAA)
Příště
Bioinformatické databázy
Sestřih m RNA
Intron Retention (IR)
Exon   /ExorK    Exon                    Form 1
GT          AG                            Form2
Cassette Exon (CE)
A ^-<^\   A      r-               Form 1     I
Exon    /^\   txon~-y^\     Exon
^GT    AG        GT    AG                  Form 2
Multiple Splice Sites (MS)
Form 1
_Exon_AA.   Exon /^   Exon     Fom2
Form 3 Form 4
GT GT
IV107Bioinformatika I -Prednáška 4
Anotace sekvence a genů
Identifikace genu
rioiiioioyio d púdobnost
Příště
Bioinformatické databázy
9
l\=   -00,0
Sekvenční logo intronu
IV107Bioinformatikal -Přednáška 4
i
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
□          f5"
detaily sestřihu
pre-mRNA   5' iBSSaB»!
pGpUp
€)
pCpUpRpApYp
5 spíice site
< ■--- :\
\=\
4©
/
OH"
V
V
ApGlf
3' splsce sřte
pCpUpRpApYp                ApGmGp       3'
[S'.5')
Splice lunciion Exůíi 1 r Exon 2
pCpUpRpApYp               ApC      Oir
caused iriiron in lariat form
C^VMyiinfj&^ntVdWBrJSi
IV107Bioinformatika I -Přednáška 4
Anotace sekvence a genů
Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
•T) C\ Qu
Identifikace genů podle struktury
Reverse strand: mirror reftection of above
Nature Reviews | Genetics
l_l              Qľ                _
IVWBioinformatika I -Prednáška 4
Anotace sekvence a genů
Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
-š  =   ^O^O
Úspěšnost identifikace genů
f   s \\\    V  *\ v'
Guigo et al, Genome Biology (2006)
IVWBioinformatika I -Přednáška 4
Anotace sekvence a genů
Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
^) C\ Q-
Príbuzné geny mají podobnou funkci i sekvenci
Rost studoval proteiny s různou sekvenční podobností. Zjistil, že když je víc než 30% aminokyselin identických, proteiny mají velmi podobnou strukturu.
IVWBioinformatika I -Přednáška 4
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
□        ö
:|=   -O^O
Rost - prostor podobnosti
□       ö
IVWBioinformatika I -Přednáška 4
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
:|=   -O^O
Sít proteinů podle sekvenční podobnosti
IVWBioinformatika I -Přednáška 4
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
Proteiny přepojené podle sekvnenční podobnosti. Každý z 30727 vrcholů reprezentuje protein, každá z 1.206.654 hran oodobnost. Seed Maaazine. Červenec^
homologie
IVWBioinformatika I -Přednáška 4
homo logs		
/"		\
orlhologs                paralügs	orlholoas \	
X          <		
frog a      chick«    mous e (7,   m ous e ß \ V     \	chickfí	frogß /
CC-chain gene                                 R-	chain gene	
^■csŕne duplication r		
early alobin gene		
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
□         rJi           -                    _=  =   -£~)<\q>
Příbuznost a podobnost sekvencí
IVWBioinformatika I -Přednáška 4
► Homologie buď je nebo není
Podobnost
lze kvantifikovat a stupňovat
Od určitého stupně podobnosti je homologii velmi pravděpodobná. U proteinových sekvencí od cca. 30% identity.
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
□           rS1
:|=   -O^O
Rost - "twilight zone"
- true
-false
-10      -5       0       5 Distance from HSSPthresholi
Percentage sequence identity
10       15       20       25       30
1............
i .

~-H---■_ __   I
6       0        5
Distance from HSSP threshold
IVWBioinformatika I -Přednáška 4
Anotace sekvence a genů
lomu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
^) C\ Q-
Podobnost sekvencí
IVWBioinformatika I -Přednáška 4
►  bez zarovnání (přiložení)
►   např obsah n-gramů
►  se zarovnáním (přiložením)
►  stejná délka, pozice si odpovídají
►   libovolná délka, pozice přiřazujeme
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
□           rS1
M=   -O^O
Rozdíl mezi lokálním a globálním porovnáváním
(A) local
Pß-kinase |»bhhsn|iiwk[>[>ií<ilfmPg1
CAMPPK    |DLtP_EH|LLIl)9aGliaťTtĎFGl
(B) global
10                                 20                          30                         40                         50
PI3-kinase h«ls*ilr—leecri—bssíkrplulnuenpdihsellf««neiifkngddlr«bhli
CAMPPK    6N»AAAKKSÄESESVKEFLSKSKE6FLKK«ENP»«NISHLNFE«IKTLGTGSFGRIÍ«L-1»                    20                      30                     40                     5»
60                          70                     80                     90                    100                      110
P13-kínase  LiniRIIIE--«Iv™GL»LRHLPrai.SIGI>CVGUEVVRNSBTItia-I«CKGGLKGAL
CAMPPK     —VKH«ETGNHVAI«ILÍKSKVVK--------------LKA1E HT LNE ERI LftAVN FPFLVKLE F
60                         70                         80                                                90                       100
120                       130                             140                        150                       160
PI3-kinase ífksut-lhívilkiknkgeiíiia»—jdlftiscígícväifilgisSMIIiiibkd-ii
CAMPPK    SFKPMSMLTHVHE YVPGGEliFSHLRRI GRFSEPHARFYHAaiVLT F ETLHS LD LI Y RlETT
110      120       130      140       150       160
170      180       190                                    200                               210       220
IVWBioinformatika I -Přednáška 4
Anotace sekvence a genů
lomu Identifikace genů Homologie a gododnost
Příště
Bioinformatické datadázy
_^  =   -00,0
Matice pro hodnocení podobnosti proteinových sekvencí
c	9																	
s	-1	4																
T	-1	1	5															
P	-3	-1	-1	7														
A	0	1	0	-1	4													
G	-3	0	-2	-2	0	6												
N	-3	1	0	-2	-2	0	e											
D	-3	0	-1	-1	-2	-1	i	6										
E	-4	0	-1	-1	-1	-2	0	2	5									
Q	-3	D	-1	-1	-1	-2	0	0	2	5								
H	-3	-1	-2	-2	-2	-2	i	-1	0	0	8							
R	-3	-1	-1	-2	-1	-2	0	2	0	1	0	5						
K	-3	0	-1	-1	-1	-2	0	-1	1	1	-1	2	b					
M	-1	-1	-1	-2	-1	-3	-2	-3	-2	0	-2	-1	-1	5				
I	-1	-2	-1	-3	-1	-4	-3	-3	-3	-3	-3	-3	-3	1	'1			
L	-1	-2	-1	-3	-1	-4	-3	-4	-3	-2	-3.	-2	-2	2	2	1		
V	-1	-2	0	-2	0	-3	-3	-3	-2	-2	:■	-3	-2	1	3	I	'í	
F	-2	-2	-2	-4	-2	-3	-3	-3	-3	-3	-1	-3	-3	0	0	0	-1	6
Y	-2	-2	-2	-3	-2	-3	-2	-3	-2	-1	2	-2	-2	-1	-1	-1	-1	3     7
W	-2	-3	-2	-4	3	2	-'i	1	-3	-2	-2	- j	-3	-1	-3	-2	-3	1     2
IVWBioinformatika I -Přednáška 4
Anotace sekvence a genů
lomu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
•T) C\ Qu
Tabulka pro algoritmus dynamického programování
		y\     ľ2     >'3     >'i     ft     ft     yi     >'s     ft				
		1           S           A           L           I           G           N           E           B				
	T H [ S L I N E	OH -S l	► -B*-1ó^.-24Hŕ-32*-40«*--48-»--5ó*--ó4.»--72   ■*- Saj			
*!						
*2		T -16 x				
*1		T -24 1				
I4		T -52 1				
*5		T -40				
*fi		T -48 1				
*7		T -56 ■				
*8		-64				
IVWBioinformatika I -Přednáška 4
Anotace sekvence a genů
lomu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
□        ö
:|=   -O^O
Tabulka pro algoritmus dynamického programování
	7-1	j	
IVWBioinformatika I -Přednáška 4
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
M
SM,/-1
S:   ;
CTI
U-1   ©
5v
>l=   -00,0
Tabulka pro algoritmus dynamického programování
IVWBioinformatika I -Přednáška 4
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
(A)
I
N
O* -*  "*-a-»-12*-16-»-20*-24»-28*-32"»-36
T        -4        -1       -3*   -7*-11*-15"»-19»-23»-27"»-31
H       -8       -5      -2       -5       -«-►-l3*-l?»-18*-22*-26
4^           N.     V     ^
I      -12        -4      -6        -3        -3        -5*>   -9^-13^-17^-21
I        IS           "V     «V     >»     <V
S      -16        -8        0*-4        -5        -5        -S»  -8»-12»-16
»     *      s    -v   v          s   >»
L      -20      -12        -4        -1           O        -3        -7^   -8      -11*-15
|S(       S(\    v
I      -24      -16      -8-5           1           4   *   0»  -4»   -8*-12
N     -28     -20      -12        -9       -3          0          4          < *    2 ■*■ -2
»          *       **♦           »           *          ***       N              Ä
E      -32      -24      -16      -13        -7-4           0          4        11*7
(B)    THIS-LI-NE-I    II     I --ISALIGNED
□        g
t\=   -O". O
•CoO   ==■! =
-           ě1         n
G3NSIT/ST--
II     II     I -3N-n-STHl    (8)
£         US        1         1-1-
N     N    N t N
1-      l- ■;■ 1        a        1           I
N          Nt  S    Nt
Zl-      S-        8-        a    *■   8           6
í           E-        E-        0
Nt N t N
z-     s      s-     o
N    N     Nt        NNtNNtN
01-      6-        Z-        S-        S-        í             2             0             Z             Q
N    N    N    N    N     N    Nt      tN
1-       9-9-1             1-5-0*8             2-0
NNNNNN            NtN
£-        í-        9-        Z- * l             l             S-        S-        t-        0
N.  N ,   N „       . N f N ,   N , N s N
NtN
L-
O
N    N    N    N    N    N    N
t-             L-             0                 l-             L-             L-             0                 L                 l-             íl
NNNNNNNNN
o       o       o       o       c       o       ■:       o       ■:       3
i
(vi
Azeqejep ei-ptieujj
jsouqopod e ejĎoiowoH pueĎ eoeiüüiuepi nujoueĎ eoejouv
puaß e aou8A>|8s aoejouv
t^e^seupajd -1 e>|!ieiujQiu!0!a ZCHAI
JUBAOLUBjßOJd
0L|8>|0!LUBuÁp snuji!Joß|B ojd B>||nqBi
Tabulka pro algoritmus dynamického programování
{A)
	I            S		ALIGN	E           D
	0          0          0		0          0          0          0          0	0          0
T	0,0          1		0           0           0           0           0	0          0
H	To v ^o      o		0           0           0           0           1 s.    N»	0           0
I		_	0          2          4          0          0 *V      N      N	0          0
S	0        0 -„ 0		0    - ,0           0           4           1	0           0
	ÄN		>             * N.	
L	Q        2          0		0-^0-2        o         1	0          0
	N      X	N.	S"s               ----------.	
I	0           4*0		0         2-0         0-0	0           0
	* N		----------.    "-**»	v
N	0          0          5	■*	1        0        0        0 -     0 "	0        1
		s^	S"^	--s
E	0           0           1		4»a      o      o      o -	0         2
(B)   IN IS
IV107Bioinformatika I -Přednáška 4
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
□        ö
:|=   "O 0*0
Pří^tp                                                                             IV107 Bioinformatika ■ -
Přednáška 4
Anotace sekvence a genů
Anotace genornu Identifikace genů Homologie a podobnost
Příště
Bioinformatické databázy
Bioinformatické databázy
□        g         -                 _=   =   ^<\(y
Outline
IVWBioinformatika I -Přednáška 4
Dodatek
For Further Reading
Dodatek
□        g         -                 _=   =   ^<\(y
For Further Reading
IV107Bioinformatika I -Prednáška 4
Dodatek
For Further Reading
X
□         gi           -                    _=  =   ^<\(y