4/22/2009 Predikce genů Pro zajímavost, nebude součástí zkoušky... Důležité, pravděpodobně bude u zkoušky... Molekulárně biologická data • Výkonné technologie: ^Automatické sekvencování MÄTDWeF---------- NMR spektroskopie Proteinová krystalografie Výrazný nárůst množství biologických dat. Rozdělení • Databáze: Primární Sekundám Strukturní moleki dat. lárně biologických abází Total species (5023) Viruses Eukaryota Archaea Plasmids 2105 1753 72 SS Bacteria Viraids 1010 39 Total records (3315} Viroids Plasmids 41 39 ^^H ^^^^H (^Genomové zdroje ^"Misuses Eukaryota Bacteria Archaea 324^\ 1015 chromosomes 1447 chromosomes eechromcsomes J 1771 organelles 1500 plaE-mids. 58 plas.mid5 ^^^ 39 Plasmids „Syrové" sekvence DNA 1 Identifikace a anotace genů a proteinů Gknnci hieJtasTifCTii-niit.JH^iWCMiTi dtľíAwjD-». hrp'lrv ŕlihu.v; l-,IuiH \.r\jn -M i RNflmrm lMtJi-^Ti±^vi)li/4j'icn».rVK'' tirnri' Kcf&ri MtJi-^TijM.nmi^mjLn^^íiíta^lUiícTĽ kut di u enzymu. jjy-i-T lO'lí H<-o i-l l-j li iwpv in cknrtr ir**il hatAd p Predikce genů kódujících proteiny Prokaryotické geny Nepřerušované úseky DNA mezi startovním kodonem (ATG, gtg, ttg, ctg) a stop kodonem (TAA, TGA, TAG). Eukaryotické geny Přerušovány introny. Průměrná délka exonu je 50 kodonů, některé jsou mnohem kratší. Některé introny extrémně dlouhé, geny zabírají mbp v genomové DNA. Predikce eukaryotických genů je mnohem složitější než predikce genů prokaryotických a představuje STÁLE NEVYŘEŠENÝ problém! Prokaryotické geny Prokaryotický gen = nejdelší ORF odpovídající danému úseku DNA. GTATGCTGGTGATTGTGGATGCCGTTACCCTGCTGAGCGCCTATCCGGAAGCCAGCCGTGATCCGGCCGCCCC GACCGTGATTGATGGTCGCCACCTGTATGTTGTTAGCCCGGGCGATGCCGCGCAGCTGGGCCATAACGATAGC CGTCTGTTTACCGGTCTGAGCCCGGGTGATCAGCTGCATCTGCGCGAAACCGCGCTGGCGCTGCGCGCGGAAG TGAGCGTGCTGTTTATTCGCTTTGCCCTGAAAGATGCCGGCATTGTTGCCCCGATCGAACTGGAAGTGCGTGA TGCCGCCACCGCCGTTCCGGATGCGGATGATCTGCTGCATCCGAGCTGTCGTCCGCTGAAAGATCATTATTGG CGCAGCGATGTGCTGGCGGCGGGCGCGACCACCTGTACCGCCGATTTTGCGGTGTGCGATCGTGATGGCACCG TGAGCGGTTATTTTCGTTGGGAAACCAGCATTGAAATTGCGGGCAGCCAGCCGGATACCAAACAGCCGGGCTT TAAACCGAGCAGCGATCGCAATGGCAACTTTAGCCTGCCGCCGAATACCGCCTTTAAAGCGATCTTCTATGCG AACGCGGCGGATCGTCAGGATCTGAAACTGTTTATTGATGATGCGCCGGAACCGGCCGCCACCTTTGTGGGTA ACAGCGAAGATGGTGTGCGTCTGTTTACCCTGAATAGCAAAGGTGGTAAAATTCGTATTGAAGCGAGCGCGAA CGGCCGTCAGAGCGCGACCGATGCCCGTCTGGCGCCGCTGAGCGCGGGCGATACCGTGTGGCTGGGCTGGCTG GGCGCGGAAGATGGTGCCGATGCGGATTATAATGATGGCATTGTTATTCTGCAGTGGCCGATTACCTAATGGG t|]ri l j Překlad DNA sekvence ílAtftírew*ife*í4i»i$nsaff4Sra.&-TTln*£ílĚfíss;!-."rí : ;::: sflt»mfllftliS"taJ, írtdb U C II G U U UC (Pli BFJPhen rfcfenm UCU {Sta/S) So>« UCC [SerfS] Setině UAL (TyiíT ľyicsiie UGU)Cy3.í:]Cv3teinB LUAiJLeuflJLeLcine JCAÍSwB) Serine IHft«te{£^ |uG-XDp>l$B?9 IJLJ-G [l_cu/_) Lcaňvs IJCG (Sif/SJ Semne |iít fi^ itrruij UGG CTrprW) Tc/ptDF] JvDG(TbrT)1kH»)t AACrJ.yaAi.ljLyán* ArA{AiL>rT3)Air>iirH! AGGCAifffí^AipinirK C GUU LVaUV) Villi*.■ Gl PC (V*V) Vaína íťJJ ŕAa'Al .\jiiim; fiCT (A *'A1 ŕlani rw &\Ul:AĽp,■lJ)A:;pullll.:JĽHJ ĽCUÍĽlytíhGVlhk.-SAC: lAEpTl) tapsnic. .anirl BGC (fityň> (^Ďu üUAfYavvjvaWK üüAlAarAjatantne RW5 iVti/A) ■U»«: UW(CJUt]CJMamtcB«d ĽtA(utyA:j^f«w AVitaiiFjtihiiiiiciiHál fJGG (Gíy.ft) Hyianu Překlad DNA sekvence ExPASy http://www.expasy.org/tools/dna.html ORF Finder (NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html ExPASy http://www.expasy.org/tools/dna.html i Soňrch 3*i*i-PiEH-TiFA*tl * EĚ3 The ExPASy Server require» Jjvaicripl Cd db fully functional, t air may not lee ill the infornution j v i liable farllui page if.lore information}. ŕ^b ExPASy Proteomics Server he-pasjie i Ur.iProtKnffJŕHdgí&iiHSwiti-Prolind TrEMBLI Frotcin knowteflörtasr i VlnlZon« PunnJKrvirelUfNPiulKB'SwiiS.PrawiCilei "" i PROSITE Piufein tanntes und OomáirS k SWIS5-2DPAGETvrucJii-n.-iL.iuki ul,l,j-i-.lj-iiuľu''I Ckŕfflophtreai& ' WorM-2DFAGE RtpoiKery A puMc stanOarfls.enmplant reposibay fof get based po<«muc*flata puHshed in the bnaaiue . MIAPE&HDB A fj&Hc repositofy fw HWPE. Gel electrophoresis docuneois ->l7,-,"r :__............... ■......________________________ ■ Protoomlci and ivqueno 9 na ly f\\ toal» JdVffllHNUli imdcI-Lji.srtťfiiiiritrHAkjPrtP, FinoWod, ^IMpium l Tmnjí^alW*. F3 prut3 a ram ) f c ür*\-=-Piolcin J ^^Sjmjlaflty searches l,G LAST..} : ľosl IrantůlicwaliTocMiCHlJonaitdloootonvr-eí ;'»:■■» t- Pnitiíťŕ prucmt *rtí*ř$Jt ^ SecoouJi^Bfld"fltljaiyí&utljre[oolí.JEhWss Hdti1J'i4!«f;f t c Ahgomeni tňtt Ptrftogwtetic anaffäis f Melanie i lľ:.i:;:: .1 ::■. i . : ■ ExPASy http://www.expasy.org/tools/dna.html L£lUiuuuútuuiuuU&^ . rrnnslntcA. Trín^K a raxJecufh? wquftnce to ti pfiHan «tJJence v TrírtS«l-řtjafr)liCleiOpffltiri[rSnslťiíiOnriíMTiir«rrMEÍO!iSpa(*jm; ■ Giaphtal Codon LJshdh: Annhmcr - Díolíjí tf» tcrftťi hli iň í ^Éph p r^y'.iľjiífi^iijicf)ri-£ijlrjrncliarnljlicnolnucl«oatM;qurnceír.i > iJniPrrjtKnc»wíe(lafltHí9|Sv¥Í»aPrcHand TrEHBLř Protein b)0wt«lgrta5t ■ VinlZone PůTItí »viril UnPíůtKB/Siw«.Prfl ŕfliiB "" > PROSÍTE Piufeínfamliŕí And aťmwms y SVilSS-SDPME-TwD-dinieqannainoiriiLitia-NclL-u'-i ctcc&0t*itfesi& ■ W0ÍW-2DPAGE RtpoiMory ft FJMc Stancjrcs cprMťiiľH repository f« aeitased prtHeomici flata puMsňed iní» : Secordďvdírfľeí1iar>sťuc:uretooiilSmns4 HdbViwppf p : Ahgnmenl and Phrtcgwwtic anar/sis . :.!*lan^ lľ.i::eMJiter.Snn*JMmf7.[)lw:ŕflr^ľ ExPASy http://www.expasy.org/tools/dna.html Translate is a tool which allows the translation of a nucleotide (DNA/RNA) sequence to a protein sequence. Please enter a DNA or RNA sequence in the box below (numbers a-:: :;a-.u»ipWíPľ-J;cifcnpr,ncmtr,psiípíisiw',?VT(istrts**SAisi*Nň*(;**RcíE**¥ TiLCŕ[fft*MCC*Ci*T5Í^ÍK#CňMA(lítcSÄvH*tltSS*!PmL*0*CA[;C4ftE'Mi.-r*ftr[;cvftSfcv.MMm*LrSL[;ri*H ÍWNtCítAtrOTAOiíwííGJljcwgt »*»«a( r*L ftwSQLl CE*GC*3 t»(TvTfh*ih»= 4r,TGH hi cci^jxr«^:;-, ti-i £1V ÜRA- iMOľí S > IMOT; FRrRPriFHPHCPSC AAC R CRV H U Hl A C Mi« A C H CC L »C M« Ľŕ H C i K AV A P Y L. I»M MLV1V D AM TLt. S Alf PE A3 H D P * AP TM IO Q H H LTV V^CD^Q L CH rJPĚHLFTGLP>P ODO L H L N E TaL »LHaEvSvLF m F 4 L K D AOPVA PP ELfVttD^ATAVPD^DEiLLHjiacpJrLKDHTWRSevLJAŮ^TTrjFAtPiVCCRDcr.s^-^V-bi^ib i G S Q P D T KOPGFKr B BOH »AH riLPřHTAFKAirTArpA^DňúĎiMf iDuAřii-A.ATrv4njeotifALrTLPiflKSůKiňitAa^riíítQjATDAňLApLíAtuTM'(f[L6wLSA lOCAOAOtHDCkvu.OMfiTtww It Jkv 5-AI * F. Sk» iüHHi'.F-iHHl-'RF^F'/RiHFRS^PDC H Fř F, H a P CR S Fř F, L QÍF.FfHL.OFlO 5fc*TO *HHL,RC,ŕPPHrtRP-.F H O Sk* FME-OPDUPPRSHRflSL Bt»=t F: Y E *i * G Hŕp í C H C DÄ C SV Sk« B-P A'i'W YP4CCP0FPCWFPHEHNRSRCH htCfi T P Ú N R R v R ftSRPFPlHRÍÍHhD L B AO D 3S P AAPHPHPERftrtRHmLPrfRSGPPCflHLSGCSE 5-KOr AJIS.1.PHA*PARFHAD**PHPCSPH htpT E> CTRTCpA^RHrtP'CU^iawJCCDMCiaPLSiR.PCwtWLPOrlplÉAtSfcíftMrÚB.pAt C i 6 H R P L O HHTJ 4111 ľ ftP C T I F *A O P A O PH S I Ah A t/ Pt P 41 * I G R AI IA V P AM U T TI t 1 J f Al 1 Ů*. Ql+HtlPAVlHHGGÚHtftlllIMKQf ÍHL T I 3 M í ■ T L>R F K C CIH RQa KVa I -\ AART KAffl I F CIAI AAR PIFrJACFPTKITAMCAIT LAHR k q C t T G HH H H QHIA AP I Upri F Q R T T AR«*| p d Ip HPiCÍŮOrTMFPFPRCNPíAClFpaKANKgHAHFHAÍRCHOFAfllfcrtgLTRigrCittTAIVlIltASLRC^KANM-HJVlTIPtMtHiJCRlTl G F RPC /■ P G G 'r G i h H h - H HhwI HJt«YIUHCRiriMPaLUv3Fa^F'33AP30^3HrviP^L3ÚAAFtAlVALSfe«RPFA.LA9inpLtP>LLŕHVRnntrd3LLPThLVAhlÍ9SA3> HSFPJ^RJA^A^KIALKA^I ŕS*LFaPL.llSLLfrlltP5er.YÍ^mPAlJ.ÍÉi(LYjOP^ JliWIWS/teJtOLtCJftíSAÍSTAVAAÍfcP-řJJIÍÍ^TfcpiřAiíft^KftHNtlLTjARJhJihVjIlRCJIwJPCtftPvjjPtltt JLYVPSCAA9 '6lTTT-R*RPHITL,i;*ACFJHl.A5Ctt»A1.ÍRIŕTASTIT3l ORF Finder (NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html WĚ ORF Finder (Open Reading Frame Finder) ^M iRťQHp hinciivjopínHfi.ijiingi-riiiTwi-irkifflii^í (p.isftfjuiaruiyf.i1; tool ws en ľ; rtů n ^M sepeclaitfe rnmnxm fáze m a user's sequence cmů seq'jence ateadv in Pie ds.ts.Pas H Tili [Mil imoftfioi at oprn rearing hnrncK Lranglhc! stirrjjidor nfctTnjIrvn gertenc cu F^| sequence can be sared jn wuious IcumsISi anfl searched ngainsl the sequence dslaba F^l Irm Sequn f.iwjfiftr-i1 submission sťfrwpire fl Enter CI or ACCESSION ___|fffiH| |c**] H or sequence In FASTA fonmar H FROM: TO: ^H OÉi*rt)ĚCod«a 1 3«rdard " ORF Finder (NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html | ORF Finder {Open Reading Frame Finder] inťQfiŕ h irri^i ■;( i^sen Hti.ia ng r-nuno »■ inöttj k a g/.nynCjii Anaiyr.ľ: tool »mcri rtnü!; I sekílaífc rmp,n*jT- fze in Fi uaers sequence c in a sequence a íeadv in 9» dacabas I Thiitcol idofliľieí- dl opmi rií.iítirvj F-.srmľ!. um ig Ihr sLinctiitla' nfcurmlnn; -gertefic cu I üflqirncE can be lateů m ■ňuious lotmals anfl íMrchud «tgainS Ihe sequence da la ba I Vk ORF Finriw ShOuH b* hŕiptul ir> pfeflarpng twnptele and accuralir spquwee subm ORF Finder (NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html [£. J 1 GerBark | R=:lra w 11 -|nn vil SinFľarnes | řrame from to Length -7 m 1 Sí7 E<7 - S í Fr KT» 3 »IV P HILL 34Y PE AS R P P AAP T V'O &RHLYVV&PCD1*QLCMNP&RLFT&L5.PGCPLHLRETaL1LRAEV9VLFPRF*LKP * c lv * p' ELEvRDiiT±vPriDDLiLMP6CflPLHDRTWRS0VLiA4*TTCTiDrAviCřRDGTva4Tf m'j£TSiEP*SSQPCTnůP4f nHSOSNiM F}LP^^^TAF^*lFTAPrA*I^R0&LliLFlDDAřtPA*TFvgnaEDC■.■1^LFTL^^SK5CMRleAS*^^■;RQlATDAflLAPLaACCTV^LÍftL5A ErtlÜACVHDÜl,lLÜV,rlT iwfl •■■ PlGNHPLP FPU IJ*lllr.R4(ÍTIFR4PP4PPHtl*RApRRprt|tn i.LT 4 v R ARC N 1rRiECRFKGGIHRC*rn*l*l AAR F K 4 R L F CPR L1ARPIF N AP F P TKIT AHC 4 HPÜGGGiThFPFD^GNU l.-M FPPKINKPHaHFRAPRPRGFaCIMPLiTR QFRIdiJkduiAHdlHHHdlH TIFTTFAiaCftöTHTI TIAHHKIdflreaHAF PTCHCT*lvUtt*PLI TTARhriPpn Prokaryotické geny Velmi jednoduchý přístup k predikci genů Zjednodušení vede k chybám, ale jejich množství je POMĚRNĚ MALÉ. Chyby mohou vznikat při SEKVENCOVÁNÍ DNA. Přidání/odstranění startovního a/nebo stop kodonu může vést ke ZKRÁCENÍ, PRODLOUŽENÍ nebo úplnému VYNECHÁNÍ genu. Opravdu ORF kóduje protein? ORF kóduje protein, který je podobný již dříve popsanému proteinu (prohledávání DATABÁZÍ pomocí ALIGNMENTU). ORF má typický obsah GC nebo frekvenci kodonů. Srovnání s charakteristickými vlastnostmi známých genů ze stejného organismu. Před ORF se nachází typické RBS (ribosome-binding site) nebo promotor. Translační a transkripční signální sekvence Rrftuinr ni .igniE} pra 1r;D^kr!|ni imci»fiina*l*cc- Promotor ["Ti I | *» | I nmin I I T.T..-rt; j rj I »..^..^ j I 1T_ I -C^HZr- "«■■I -■■-■ -.-.-- I '!■. L TATA box Pribnowův box Shine-Dalgarnova sekvence Prokaryota Translační a transkripční signální sekvence Regulační signály prv Inukripci ŕ»* -----------------—-------------------> l»:^r™l I ■•■■I■'■■'■■I -JS TATA box Hognessův box Promotor RNA-polymerasy II E u kary ota H íffsu üif n E i5ÍEn*l> pro rairijci (ninilpcE (gcc)gccRccAUGG Kozák sequence Sekvence Kozákové Opravdu ORF kóduje protein? ORF kóduje protein, který je podobnýjiž dříve popsanému proteinu (prohledávání DATABÁZÍ pomocí alignmentu) = nejspolehlivější ověření. Nástroje pro překlad DNA jsou propojeny s prohledáváním databází. http ORF Finder (NCBI) ://www.ncbi.nlm.nih.gov/gorf/gorf.h itml 1 View 1 1 GeriBarik v | Redraw 100 v- I SÍNFľames| Frame from to Length -7 m 1 SSI KÍ7 L Uhnul ■HLhrlYŮAhi-Ti Li - i P E - I-*'; =■ n - =-T . Z ;bhO ■ ■ &P^O**ŮLÍiMND£RLFrGL&PGDQLHLRĚr*L*LFiA»M^H m iniiniupiirmiip mn wwinmFiiii inninu i i t n 'I* rr|MmTW^