Vytáhl jsem si gen z genomové databáze, analyzoval jsem jeho sekvenci pomocí počítačového programu, odeslal jsem rukopis po internetu a článek mi vyšel v online časopisu. Celá tahle zkušenost ve mně zanechala jakýsi pocit prázdnoty. Bioinformatická data ˇ Sekvence DNA a RNA ˇ Sekvence proteinů ˇ Struktura proteinů ˇ Údaje o aktivitě genů ­ DNA čip, ,,microarray" ˇ Údaje o expresi proteinů ­ 2­D gely + MS ˇ Údaje o struktuře DNA ˇ Mapy interakcí mezi proteiny a DNA ˇ Mapy interakcí mezi proteiny navzájem ˇ Literatura Struktura DNA ? Specifické nukleotidy a jejich různá zvláštní opakování dávají molekule DNA různé vlastnosti. Například vyšší podíl bazí A a T znižuje počet vodíkových můstků mezi vlákny DNA ­ snadnější denaturace, ale i vazba některých proteinů, např. v procesu transkripce. http://www.cbs.dtu.dk/services/GenomeAtlas / Rozdíly ve vlastnostech mezi DNA se skutečným a změněným pořadím nukleotidů Rozdíly ve vlastnostech mezi DNA kódujících a nekódujících sekvencí DNA Landscape (program Xlandscape) ftp://beagle.colorado.edu/pub/Landscape/xland.v.1.tar.Z 1 1 1 2\1 2\1 1 2 1 1 1 2 4 4 4 2 1 4 4 4 4 4 4 2 4 a g t c c g a t c c t c t g t DNA ­ protein ­ transkripční faktory, strukturní proteiny TESS http://www.cbil.upenn.edu/tess/ protein ­ protein důležité u většiny proteinů, protože jenom ojediněle fungují izolovaně Metody určování interakcí molekulární biologie a biochemie: ­ two­hybrid test ­ co­immunoprecipitation ­ co­sedimentation ­ in­vitro binding proteomika: ­ microarrays ­ MS of protein complexes (hmotnostní spektrometrie) sek. protilátky, fluoresc. značky Antigen Number of proteins 17556 Number of organisms 109 Number of interactions 46463 Number of distinct experiments describing an interaction 51915 Number of data sources (articles) 2884 Number of data sources (other) 34 DIP http://dip.doe­mbi.ucla.edu/ http://mint.bio.uniroma2.it/mint/ Other databases: BIND: http://www.blueprint.org/bind/bind.php DIP: http://dip.doe­mbi.ucla.edu/ Intact: http://www.ebi.ac.uk/intact/ mips: http://mips.gsf.de/ PPID: http://www.anc.ed.ac.uk/mscs/PPID/cgi­bin/ppid_search.pl grid: http://biodata.mshri.on.ca/grid/servlet/Index Human protein reference database: http://www.hprd.org/ Visualization tools: Osprey: http://biodata.mshri.on.ca/osprey/servlet/Index Cytoscape: http://www.cytoscape.org O th e r a ffi n i ty m e th o d s C o ­ im m u n o p r e c i p i ta tio n Y e a s t tw o ­ h i b r id N M R s p e c tr o s c o p y X ­ r a y c r y s ta l lo g r a p h y E x p e r im e n t a l b a s e d o n C o r r e l a te d m u ta tio n s S i m i l a r ity o f p h y lo g e n e ti c tr e e s G e n e fu s i o n C o n s e r v a tio n o f g e n e n e i g h b o r h o o d P h y l o g e n e ti c p r o fil e s G e n o m i c d a ta S e q u e n c e fr o fi l e a n d r e s i d u e n e i g h b o r li s t R e s i d u e fr e q u e n c e s a n d p a i r in g p re fe r e n c e s P r o te in p r i m a r y s tr u c tu re V a n d e r W a a ls i n te r a c ti o n s D i r e c t e l e c tr o s ta tic i n te r a c ti o n s S u r fa c e p a tc h e s 3 D ­ s tr u c tu r a l d i s ta n c e m a tr ix P r o te in te r ti a r y s tr u c tu re C o m p u ta t io n a l b a s e d o n A p p r o a c h e s Četnost v rozhraních Hydrofobicita Planarita Vyčnívavost Exponovaný povrch Interagující proteiny Matching sequences > 90% Sequence identity > 40% No. residues in contacts 20 PDB, June 2000 release 3704 pairs of protein chains 744 non­redundant pairs of interacting protein chains 615 pairs ­ training set 129 pairs ­ test set Aminokyseliny na povrchu PDB proteinů No. of interfacial contacts 3 Residue accessible surface area > 10% of its nominal maximum area 615 pairs of protein chains, 341,205 residues 225,139 surface residues 42,797 interface residues Architektura neuronové sítě ... OutputHidden: 75 nodes Input: 21x20=420 N/I I ... OutputHidden: 30 nodes Input: 60 nodes N/I I Sloupec z PSI­BLAST PSSM + 1 SAA (exponovaná plocha) pro každou z 20 AA (Daná AA + 19 prostorově nejbližších) EPR Expression Profile Reliability PVM Paralogous Verification DPV Domain Pair Verification http://www.russell.embl.de/interprets / Fylogenetické stromy Většina metod pro konstrukci stromů je založena na informacích o vztazích mezi dvěma prvky (organizmy, sekvencemi a pod.) ­ UPGMA (metoda postupného združování párů) ­ TDM (metoda transformované vzdálenosti) ­ NRM, NJM (metody hodnotící sousedy) ­ metody založeny na pravděpodobnosti substitucí (v podstatě vícenásobné zarovnání sekvencí) UPGMA postupně se redukuje vzdálenostní matice obsahující prvky d(XY) tak, že nejbližší dva prvky X a Y se nahradí prvkem W, který je od nejbližšího společného souseda Z vzdálen d(WZ) = (d(XZ) + d(YZ)/2 Rozměr matice se zmenší o 1. Délka větví fylogenetického stromu sestrojeného metodou UPGMA se počítá vždy pro hodnocenou dvojici a společného předka všech ostatních členů stromu. C A B z x y d(AC) = x + z d(AB) = x + y d(BC) = y + z x = (d(AC) + d(AB) ­ d(BC))/2 COG http://www.ncbi.nlm.nih.gov/COG/ "a(A) je ortologem proteinu b(B)" <=> Protein a je homologem proteinu b, který plní v organizmu A obdobnou funkci, jakou plní protein b v organizmu B ­ má podobnou sekvenci ­ má podobnou regulaci ­ má podobné partnery (substrát, ligand,...) COG je nástrojem, který podobně jako např. Gene Ontology dokáže propojovat na vyšší úrovni a tím zhodnocovat informace přicházející ze sekvenace různých genomů. Čím víc ortologů známe, tím větší máme naději, že dokážeme popsat dosud neznámý vztah mezi proteiny. Vztahy v jednom organizmu můžeme často převést do jiných organizmů. ­ kolokace v genomu ­ interakce v metabolizmu Dokážeme usuzovat na fylogenetické závislosti a příčinu absence­ přítomnosti proteinů v organizmech ­ ztráta genů ­ horizontální transfer