Vytáhl jsem si gen z genomové databáze, 
analyzoval jsem jeho sekvenci pomocí 
počítačového programu, odeslal jsem 
rukopis po internetu a článek mi vyšel 
v online časopisu. Celá tahle zkušenost 
ve mně zanechala jakýsi pocit prázdnoty.
Bioinformatická data
ˇ Sekvence DNA a RNA
ˇ Sekvence proteinů
ˇ Struktura proteinů
ˇ Údaje o aktivitě genů ­ DNA čip, ,,microarray"
ˇ Údaje o expresi proteinů ­ 2­D gely + MS
ˇ Údaje o struktuře DNA
ˇ Mapy interakcí mezi proteiny a DNA
ˇ Mapy interakcí mezi proteiny navzájem
ˇ Literatura
Struktura DNA ?
Specifické nukleotidy a jejich různá zvláštní opakování 
dávají molekule DNA různé vlastnosti. 
Například vyšší podíl bazí A a T znižuje počet vodíkových 
můstků mezi vlákny DNA ­ snadnější denaturace, ale i 
vazba některých proteinů, např. v procesu transkripce. 
http://www.cbs.dtu.dk/services/GenomeAtlas
/
Rozdíly ve vlastnostech mezi DNA se 
skutečným a změněným pořadím 
nukleotidů
Rozdíly ve vlastnostech mezi DNA 
kódujících a nekódujících sekvencí
DNA Landscape (program Xlandscape)
ftp://beagle.colorado.edu/pub/Landscape/xland.v.1.tar.Z
    1         1 
  1 2\1       2\1 1 2 1   1
1 2 4 4 4 2 1 4 4 4 4 4 4 2 4
a g t c c g a t c c t c t g t
DNA ­ protein
­ transkripční faktory, strukturní proteiny
TESS http://www.cbil.upenn.edu/tess/
protein ­ protein
důležité u většiny proteinů, protože jenom 
ojediněle fungují izolovaně 
Metody určování interakcí
molekulární biologie a biochemie:
­ two­hybrid test
­ co­immunoprecipitation
­ co­sedimentation
­ in­vitro binding
proteomika:
­ microarrays
­ MS of protein complexes 
(hmotnostní spektrometrie)
sek. protilátky,
fluoresc. značky
Antigen
Number of proteins 17556
Number of organisms   109
Number of interactions 46463
Number of distinct experiments describing an interaction 51915
Number of data sources (articles)  2884
Number of data sources (other)    34
DIP http://dip.doe­mbi.ucla.edu/
http://mint.bio.uniroma2.it/mint/
Other databases:
BIND: http://www.blueprint.org/bind/bind.php 
DIP: http://dip.doe­mbi.ucla.edu/ 
Intact: http://www.ebi.ac.uk/intact/ 
mips: http://mips.gsf.de/ 
PPID: http://www.anc.ed.ac.uk/mscs/PPID/cgi­bin/ppid_search.pl 
grid: http://biodata.mshri.on.ca/grid/servlet/Index 
Human protein reference database: http://www.hprd.org/ 
Visualization tools:
Osprey: http://biodata.mshri.on.ca/osprey/servlet/Index 
Cytoscape: http://www.cytoscape.org 
O th e r  a ffi n i ty  m e th o d s
C o ­ im m u n o p r e c i p i ta tio n
Y e a s t tw o ­ h i b r id
N M R  s p e c tr o s c o p y
X ­ r a y  c r y s ta l lo g r a p h y
E x p e r im e n t a l  b a s e d   o n
C o r r e l a te d  m u ta tio n s
S i m i l a r ity  o f
p h y lo g e n e ti c  tr e e s
G e n e  fu s i o n
C o n s e r v a tio n  o f
g e n e  n e i g h b o r h o o d
P h y l o g e n e ti c  p r o fil e s
G e n o m i c  d a ta
S e q u e n c e  fr o fi l e  a n d
r e s i d u e  n e i g h b o r  li s t
R e s i d u e  fr e q u e n c e s  a n d
p a i r in g  p re fe r e n c e s
P r o te in
p r i m a r y  s tr u c tu re
V a n  d e r  W a a ls
i n te r a c ti o n s
D i r e c t e l e c tr o s ta tic
i n te r a c ti o n s
S u r fa c e  p a tc h e s
3 D ­ s tr u c tu r a l
d i s ta n c e  m a tr ix
P r o te in
te r ti a r y  s tr u c tu re
C o m p u ta t io n a l  b a s e d   o n
A p p r o a c h e s
 Četnost v rozhraních
 Hydrofobicita
 Planarita
 Vyčnívavost
 Exponovaný povrch
Interagující proteiny
Matching sequences > 90%
Sequence identity > 40%
No. residues in contacts  20
PDB, June 2000 release
3704 pairs of protein chains
744 non­redundant pairs of 
interacting protein chains
615 pairs ­ training set 129 pairs ­ test set
Aminokyseliny na povrchu PDB proteinů
No. of interfacial contacts  3
Residue accessible surface area > 10%
of its nominal maximum area
615 pairs of protein chains,
341,205 residues
225,139 surface residues
42,797 interface residues
Architektura neuronové sítě
...
OutputHidden:
75 nodes
Input:
21x20=420
N/I
I
...
OutputHidden:
30 nodes
Input:
60 nodes
N/I
I
Sloupec z PSI­BLAST PSSM + 1 SAA (exponovaná plocha) pro 
každou z 20 AA (Daná AA + 19 prostorově nejbližších)
EPR Expression Profile Reliability
PVM Paralogous Verification
DPV Domain Pair Verification
http://www.russell.embl.de/interprets
/
Fylogenetické stromy
Většina metod pro konstrukci stromů je založena 
na informacích o vztazích mezi dvěma prvky 
(organizmy, sekvencemi a pod.)
­ UPGMA (metoda postupného združování párů)
­ TDM (metoda transformované vzdálenosti)
­ NRM, NJM (metody hodnotící sousedy)
­ metody založeny na pravděpodobnosti substitucí 
(v podstatě vícenásobné zarovnání sekvencí)
UPGMA
postupně se redukuje vzdálenostní matice obsahující prvky 
d(XY) tak, že nejbližší dva prvky X a Y se nahradí prvkem W, 
který je od nejbližšího společného souseda Z vzdálen 
d(WZ) = (d(XZ) + d(YZ)/2
Rozměr matice se zmenší o 1.
Délka větví fylogenetického stromu sestrojeného 
metodou UPGMA se počítá vždy pro hodnocenou 
dvojici a společného předka všech ostatních členů 
stromu. 
C
A
B
z
x
y
d(AC) = x + z d(AB) = x + y d(BC) = y + z
x = (d(AC) + d(AB) ­ d(BC))/2
COG http://www.ncbi.nlm.nih.gov/COG/
"a(A) je ortologem proteinu b(B)"
<=>
Protein a je homologem proteinu b, který plní 
v organizmu A obdobnou funkci, jakou plní 
protein b v organizmu B
­ má podobnou sekvenci
­ má podobnou regulaci
­ má podobné partnery (substrát, ligand,...)
COG je nástrojem, který podobně jako např. 
Gene Ontology dokáže propojovat na vyšší úrovni 
a tím zhodnocovat informace přicházející ze 
sekvenace různých genomů.
Čím víc ortologů známe, tím větší máme naději, že dokážeme popsat 
dosud neznámý vztah mezi proteiny. Vztahy v jednom organizmu 
můžeme často převést do jiných organizmů.
­ kolokace v genomu
­ interakce v metabolizmu
Dokážeme usuzovat na fylogenetické závislosti a příčinu absence­
přítomnosti proteinů v organizmech
­ ztráta genů
­ horizontální transfer