4/22/2009 Predikce genů Pro zajímavost, nebude součástí zkoušky... Důležité, pravděpodobně bude u zkoušky... Molekulárně biologická data • Výkonné technologie: ^^utomatické sekvencovánT^ MÄCDťŤeF------- NMR spektroskopie Proteinová krystalografie Výrazný nárůst množství biologických dat. Rozdělení molekulárně biologických databází • Databáze: Total species (»23) Primární Sekundární Viruses Eukaryota Archaea Plasmids 2105 1759 72 38 Bacterid ViivkIs 1010 39 Strukturní Total records (9315) Viraids Plasmids 41_39 ■■■■ C^Genomové zdroje *Síi^aea Eukaryota' Bactena Archseá 324^ 1015 chromcaomea 1447 Chromosom« ŕ*chromcaomsa j 1771 organallea 15SQ pleamida 58 plaamida Molekulárně biologická data C GCGG CG C GC CGG GC GC G G GG GG GG GG GG G G G GGGG G GGC C lilii Étflk.fci. li ÉĚéáJĚá CGGTITCGCGCAGATGCAGC GA CA iäááán GGG G GG G GG G GG G G G GG CGCCCGGGC AACAACA Ai 3Sfl 3« 370 380 39CI 4m 1 4/22/2009 Predikce genů kódujících proteiny • Prokaryotické geny • Nepřerušované úseky DNA mezi startovním kodonem (ATG, gtg, ttg, ctg) a stop kodonem (TAA, TGA, TAG). • Eukaryotické geny • Přerušovány introny. Průměrná délka exonu je 50 kodonů, některé jsou mnohem kratší. • Některé introny extrémně dlouhé, geny zabírají mbp v genomové DNA. Predikce eukaryotických genů je mnohem složitější než predikce genů prokaryotických a představuje STÁLE NEVYŘEŠENÝ problém! Prokaryotické geny Prokaryotický gen = nejdelší ORF odpovídající danému úseku DNA. GT AT GC T GGT GATT GT GGAT GCCGTTACCCTGCT GAGC GC C TAT C C GGAAGC CAGG C GT GAT CCGGCCGCCCC GAC C GT GATT GATGGT CGCCACCTGTATGTTGTTAGCCC GGGCGAT GCCGCGCAGCT GGGCCATAACGATAGG CGTCTGTTTACCGGTCT GAGC C C GGGT GAT CAGCTGCATCTGCGC GAAAC CGCGCTGGCGCTGCGCGC GGAAG TGAGCGT GCTGTTTATTCGCTTTGCCCT GAAAGAT GCCGGCATTGTTGCCCC GATC GAAC TGGAAGTGC GT GA TGCCGCCACCGCCGTTCC GGAT GC GGAT GATC TGCTGCATCCGAGCTGTCGTCCGCT GAAAGAT CATTATTGG CGCAGG GATGT GCTGGCGGCGGGCGC GAC CACCTGTACCGCCGATTTTGCGGTGTGC GAT CGT GAT GGCAC CG TGAGCGGT TATTTTCGTT GGGAAACCAGGATT GAAATT GCGGGCAGC CAGG C GGATAC CAAACAGG CGGGC TT TAAACC GAGCAGCGAT C GCAAT GGCAAC TTTAGCCTGCCGCC GAATAC CGC C T T TAAAGC GATCTTCTATGCG AAC GCGGC GGAT CGTCAGGATCT GAAAC TGTTTATTGAT GAT GC GC C GGAAC CGGCCGCCACCTTTGTGGGTA ACAGCGAAGAT GGTGTGCGTCTGTTTACCC TGAATAGGAAAGGT GGTAAAAT T C GTAT T GAAGC GAGC GC GAA CGGC CGT CAGAGCGC GAC CGAT GCCCGTCTGGCGCCGCT GAGCGC GGGCGATAC CGTGTGGCTGGGCTGGCTG GGC GCGGAAGAT GGTGCCGATGCGGAT TATAAT GAT GGCATTGTTATTCTGCAGTGGCC GAT TAC C TAAT GGG Překlad DNA sekvence 1 Tni ba ö«!i.Tlw icfscJ-íff tfllreíiiFlt&laftaX U c A B LUJíPheFJ Ptenytóanine LUCiPti&'HP ten |ttH UCL iSřr£: tf---; UCC (Sw/S) Serine UAL (TyiíVTyrame JAC n"ji.rr;Tyics»i& UCU (ClfaiCj Cvsteilt UGC)Cys.í:] Cvsteine UUA(LartJ Lei cine JCAfSwB) Serine LUG T-Ui»"-JImx.' LPCG Scňe UGG i.Trp-'rVI "7Ftnf*í.n C CUJ^mi-LI Lblcíik CUC(LeuA.] LeLciiK CCU(Pnf/P}Prari[b CCC(rmT>PnifJr» CAL jHi^-Hil- El dine CAC (H sTbhiřtdiní CGU lAig.«j fcgin no 1 hi CUAíLej-'.: Líi siří OUG [Ll-uT.) Lraone CCA (Tro/P} Prclino IX^^uAJ) -hulím CM(Ckifl]|CbÉňH CCAíArg/li Argimna A-i 4 ,vj.....,. Liu* ■"TT-1—--MicpejqisolEWK Ani iTh'.T)Thrňrrir^, iir'-i: Ifireonre JM1 ^ůsn-TI 1 Asp^ry]iiA AAC (AsfUfiJ Asparagne AEJC(üetiS}üane ALIA (tri) b»*hh: AUG (MAM) MrttňH w. UrJ W A"' i-1 T T'ii :i ii : ACG fTlífl) Thrwmme AAA( irJli] 1 jc:n: AACfJ.y3*)Lyw»e AC¥h(Aig*rj AioiiETH! AGG^ig/ífAipinirK c fiiriyj.n/)Vjinň ■'.-V j Lftj A: : RCT(HatA)Alňn ÍJAU r/fcpHJ) Aupai Iil uuiU íHSd! ,i qr. n i AsparJir. arid GGCfGVG]Gljcn rjuuvn/af/V) Vslne GLIGpiUflQVťn: '."."A Aa -.:.-.?nir.í fKG ii Ai ■Li|;:iii->: ÜAA iTJutj Guramic actí íK\filKliuF>ein;BiÉt::mí uLňifJli-.fJiUjTine GGG (Gty.fi) GJyiJni! Překlad DNA sekvence ExPASy http://www.expasy.org/tools/dna.html ORF Finder (NCBI) http://www.ncbi.nim.nih.gov/gorf/gorf.html ExPASy http://www.expasy.org/tools/dna.html The ExPA&y Server rcquris Javaicrij: to ba fully functional. Vau may nal iac all the inf DmuÜnn avaÜBbla far Hin paga (Um irvforniationl. E*P> HjfflSB_Hi-f..r.. ExPASy Proteomlcs Server . UniPrcHKncKrttoddfltHislSwiiiPrcHand TrEMBLh Pföttin fcňtwttttjehas* i VirjlZnrn F'jild l'JVUdlL'MiPiCJlKGSWit ?iU!Br(!i(iV ~ i PROSÍTE Piulwn fandet: and tiomairisi ► SWI5S-2DPAGE ■ Twn.dinit™niiui pn^iiuiytarndc gd cl '.'l :v cms ■ WorW-SDPAGE RspoiHory AcHJWcstanOarfls.coír^a* repository for gel based profeomics datu puMshed in *» ■ Protéci mis i and sequence a na Iv lis- tools. ^W«rTnraTnB»,h*4JLhLaiaiLTi*fiiarjun. řuprlHm. PrienjŤí^aWH. PraoParann ) ftüHA->Picnftf> T V^imilanlj searcJjBiißLAST...) Hrnu.....IlIlJffřÉTh! KHÜLKfM^ |Sr .irPi :^ Tlí I o řost Iranian ooa I nxxM i call ofl and10£K4ogy t- Prim*f|ř $lňXWt tíi4*rt"t □ SKOoda^BfldterliaiysrAiaiifetaofelEhWss MdbViflVif;! .. lij_-_,_,_^_ 2 4/22/2009 ExPASy http://www.expasy.org/tools/dna.html IJ»|i <-■ .11 >■ i >I'.\Sy CnnlKlui SíWCři^S—P**>*iiTVeUEtl * tor I^IO'I : » T^n^A.Tran^^arax^dettQJeiKetaftpraleinieqjence ■ TttrtíCtl - f*jí*tr}li(t<: In pialcin CriinsLiDon Mam nil! rMßi^S ink kap: » Grtffiííl COŮJr Lfcíg* AnahrScr - -Enobvs Ihr codrn bin's in z graphical manner » ECU lira Ith Launohci - Si* Iramc IraftsJiUnri al nuclconnJc- Miquiracír. i * Reverse Trar&Bte • TransiTles i p*oteirt sequence back 1o 4 nucleotide sequence * (ftewfset TranscnptiOT and TunalatiGii Tool * üerKWE* Oornpnresa protein 5«HrenCC Ida SWnOTKC DfyA Sequence. BBnuing Iff injjqfiíEnd Ira me 5 In HingflCDII » Labored - EiongaHon mwnswi píglim and sequence ani.>5is o* ESTs iwng Compugen- LEAOS cWers . . UnlPfo[KnowhdQata*»1$wlii-Prrt9nd TrEMBLl Pratunh™*t«Jac4>nM; ■ ViralZorn. PůdU[ůvirílUrNPiůlK6,3Yin^t;Pr«wtin!s "~ ■ PROSITE PiíX(!inřanNNiřt:arní(i(jmai^s - SWISS-2DPAGE■ TwodirTp^iwkii r^iitiilurndcgd - WofH-ZDrACE RepoiKery A pUjUt stírpftrflíí(HifHwt repository ta gel cased prtfMmc? data puMshed in tte Hnliw ■ MIAPE&alDB AjMMcrepiKltOfVfOf MW'ttiel e^cropnwesis documerts ' Proteomlci and sequence a na Iv lis- tools-SJ*IIIIIL JUUp ■ůdtbaríCWf luSnůn íAkJenie. FindHod, f IMpiUm Ifwnín(W¥i F3roti3aram ) f fr ÜHA-=-Pifflöft 1 V.SimiHiíiřř searcas/IÖLAST.. > ÍTOllUIIIIIIIJlfflT-ť- -.Cílí......lilt.ll-PHIBIUf ) řost IrarrSaUoflal rrooMicalioíi and loootogy preucUoci fr PrinfHfiř $lnXWt *rt*»rtit SKOfldai^BfldWiarvsr^jfeiookíEhviSi MdbViflvifii .. . AiigiirwritarxJPlTřhxpnelicanatřSis. ExPASy http://www.expasy.org/tools/dna.html Translate is a tool which allows the translation of a nucleotide (DNA/RNA) sequence to a protein sequence. Please enter a DNA or RNA sequence in the box below (numbers and blanks are ignored). GTATGCTGGT GATT GTGGATGCCGTTACCCTGCT GAGC GCCT ATCC GGAAGCCAGCCG TGAT CCGGCCGCC CC GACC GTGATTGATGGT CGCC ACCT GTAT GTTG TTAG CCCG GGCG ATGC CGCG CAGC TGGG CCATAACGA TAGCCG TCTG TTTACCGG TCTG AGCC CGGG TGAT CAGC TGCATCTG CGCG AAAC CGCG CTGGCGCTG CGCG CG GAAG TGAG CGTGCTGT TTAT TCGCTTTGCCCT GAAAGATG CCGG CATT GTTGCCCC GATC GAACT GGAA GTGCGT GATG CCGC CACC GCCGTTCC GGAT GCGG ATGATCTG CTGC ATCC GAGC TGTCGTCC GCTGAAAGA TC ATTATTGG CGCAGCGATGTG CTGGCGGCGGGC GCGACCAC CTGT ACCG CCGATTTT GCGGTGTGC GATC GT GATG GCAC CGTG AGCG GTTATTTT CGTT GGGAAACC AGCATTGAAATT GCGG GCAG CCAG CCGGATACC AAACAG CCGGGCTT TAAACCGAGCAG CGAT CGCAATGG CAAC TTTAGCCT GCCG CCGAATAC CGCCT TTAA AG CGAT CTTC TATG CGAACGCG GCGG ATCG TCAG GATC TGAAACTG TTTATTGATGAT GCGC CGGAACCGG CC GCCACCTT TGTG GGTAACAG CGAAGATG GTGTGCGTCTGT TTAC CCTG AATAGCAAAGGT GGTAAAATT CG TATT GAAG CGAG CGCG AACG GCCG TCAG AGCG CGAC CGAT GCCCGTCT GGCG CCGC TGAG CGCGGGCGA TACCGT GTGGCTGGGCTGGCTGGGCG CGGAAGAT GGTG CCGATGCG GATT ATAATGAT GGCATTGTTATTC TG CAGT GGCC GATT ACCT AATG GG Output format! Verbose (''Met' ''Stop'' spaces between residues'; v 1 Reset 1 or 1 TRANSLATE SEQUENCE | Translate Tool - Results of translation . 11 ■ jim-' tw, w nu p l *■ e *w * f i R n* a v i a wt n t> Wx> p)**iíUw^i*LLřfiíNrtKC p * p p i ft ■* H ft AAS RIP rJ 3 R A L PLR A A1A lift A T L A C R-R IPP L K "~ " í T AYR A R P IM P Y Yl R R Slop * R AI p 0 q-WA 0 Yi > :,iiiM..ai'.ft,ir(.i:iC.:.u'n;,iiiiHM»,ic: .:ürt-.:,-,Mi.-iHi i'......i». i|, Uri - P $koav i P u G>K PA Uli liH hrm fl P P Pi lV u tak HftV L v c L. T Slag iAK Y F vl ■IS iRLP UC rACtH;0CF1>PAfcHL!:L.L.Úi- SUwV k D Hop/. i^. -J - Strr " - K L'H ^ 0 M Ur* K Slrr " E V T H ü e m o Stop Ü ^ i ■iN K ^^ K C V b h a ■. r jLCPIRCPMCtP&iííca^í^CMiHPifíH.tcrífcfriiiASÍJií JUlfttLLA.ÜRCACCift.t'Mi.TRRF CC1.*J topV.VHft I ft L P í L C n *m (r»ucC**AtTuTA4líWí|**ÍDwrji. Í*#Paa< vPr. (wí 011cIftSCsí 4s1T vttWt»*i ACTgfi*u eC stag..)*RwC a3vtI-I£ Sir* Ü H YV ÍKOHD T Ub»S f H E R Pf f R Q RCP 9 5 AAS H tRT R írAůt AC RCR« C H Ctt L *W i*P « H CTÍ AVA D * I. MLVIVD*^TL<.aAVPEAaRDP*APT^IOQRHLVVVSFaDAAaLaMND3RLFTfiLapaDaLHLRETALALRAEVSVLF>RFALK0AaiVAPP !lÉV*D**f AVPD*DDLLNřSCHCLKDM1iW«Í()VL*AC*TTCtAĎF * VCĎRDC t VSCF« RWÉTSIÉUÉÍŮřOI KOP Cf K*í SfiUNCH ■ , i' ' i( " 11 k +11 T '.PH 'i D N ú KLf ID D I P 11 I I ■ j j l D j ■ « 1 l TLPIBKC&KI mi'i'MJl il* T D 'Hi'i'.i'i; T V tTLfiVP L 6 A I O C a O aOt h D C m\OffUT (ww 1! r..,„:F : R SJnp S a T a F in* O H H) IIP HR HH1,PRPASPATRYRPR£AAPPCHRBRBD flft 5RB^ ů í E F í H L HpTQ AHHl.RCfPŮRAHPíP HO J*»TME.DPDDPPHÍHRR3LHDpR«VBAAQ 14^8 C H C d« □ SV S*» IP AVW f pa Q C P Q F OCWF PN EH1IH SR C HMD« T P Q N RRVfi MSRPFPAHRCANMDLBADDBSDAArjHPHPERftlVRHMALPVRS&QOCRHL&OOSE MpT a« B-tP R * a P AR F R ada a D H P g S D R SwpT o i V r Ti P A A r H r P C tfcp-ŮH 1 C C O Htlifli CftF □ H C ft L P O H (t Ě Afi EUpfťH PŮ tf At HCNRPLOMMN*iiii*iCTlf HAOPAQPHClAPlAflUROtCiCRAl tAMRARf NTNf IIP kiQCkQImTi* AVlHKCCCRf PtltlIMKQPOltTl Z R . S T f. H r h, c IR RQAKVAI Al AARF KAR L F CIRL a AH UF N AC FP TKIT AH( aI TI AHH Kl & C T i' I NN Afl-IF Q QK AN K Q H AMF R AQRQ R QF A{)iaplQI.>Tn a QTC-K.OT aIV Uft AQ L R (i-PAR a i| i| ; . a TIPÍM 5 R QQ-RIT a j F RPQ a O O j r Iihii hf-D H ititwwi 1 I Hov ■ i J " « K i i AHt i1 Lr l LAi i'" Lp ^11" '•} « |l I - üFALSGA.fl^AJ'p'.AL Mop RPPALA3lfllLřPLLFRvNPIňI'5SLLPtKVAACsfi*53 NSPRlSkv.ftSAAPAStwKIAI.KAIf C C R L K L P L H • L L « L K P C C L v |« W L P AI )IÉH L u • O R K ««« *L T v P f R1H t a A V« v v AP A A) T «III , SJ=p = I □&BrjLCC3B3Si5fi1i'.AAaňI3 = Si1;irii-P a3! o AhH ins U t s ars as a v»RRCS UwSOClflPvliRRt. IlwPSCaaS r T i 5 /■ R F ^ ■ i ■ ■ ' R . ■ " ■ UppAt SR V T AS TIT SI ORF Finder (NCBI) http://www.ncbi. nlm.nih.gov/gorf/gorf.htm I ORF Finder {Open Reading Frame Finderl 6 Cfiř f indcf iO«m!n Hti.iding h-rnmo hjndefj is a .yaiirnfjil flrulyf.i1; tooJ Atuf h r ndr: I seledBfie mmrtitřTi Ute in a uséťs se4ieficf ůř iťi i íéqutVite 4Tea{fí m tne darabas I TristDol ideifljrieS- al opc?n rr-arang hnrfttrK UMnglhr; starrend ar .íEiin.ilivi' ijitm'Ii ;. ca I sňquňríffí fan !w sawd m y-a iiíují luimalí ann ^flarrhfld agairrRi Ihe sequence dfltaitia I TlieORFFir^íhíiiWbehe^inprer^ I Ihr iififiiiin ^nflufincfi r.iihmisínin r.třtjiatp. I EntErGl or ACCESSION i or sequence In FASTA format from: i (kTHrfii cgdirs is to: ORF Finder (NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html ORF Finder {Open Reading Frame Finderl ■■tw. (THF I-ii '1'v |Ofyn hliiad nq li.nv-; idr-'i i-: i íLf.irih r.i! if. iI-.'.m; i-^ol ,\r\ mr ndr. seledaSfe mimnxm s-ze in a irsers se4>encf &■ m a š&Quefica a ^&a Jy in Rte dařaba ^ This [roI idnrtihc^ al cpm rrniting hiirrKrh um ng Ihn stanoLiit] or nbrmjIrvL1 uhtm'Ii ;. CA sequence can be sared m wuiaus lürmals and searched againsl Ihe sequence daraba The ORF Findet n-oukJ be hetptii m piepan ng CornJelPj a.nd accurHe teflueftfe SufrrTi rrwlifiouina^npnnr siJimiFisian sefttfBff;_ Enter CI or FRO ml ORF Finder (NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html I View I 1 GenBank v | Redraw | 1 fin | SixFrames] Frame tiom to Length i -----1 +3 ■ 3..872 870 IsfFarrrtl U'V 0 a "H t|_ l BAY PE AS R 0 P AAP T VB G- R H l "■"V y B P í*0 a a ů l -JM N 0 £ R l F t-Tj. |_ &P COO LHLRETALALRAEV9VLF LR F alko a q LV A PI E L E vfl [)aatavp&a[)[)LLMP6CHPLkOH>/. RSr>.l^LS-ATTCTl.[JFAVCORD0r.SÍ»rR-.VĚTE.lE ^C-SŮP^TkS-PirkPS 3(J R H f rjLPPřlTAFKAlFYAPIAADRQOLKLFlDDAPIPAATFvCIlSCDCvRLFTLPPS^CC^lRlCAj^rLCROiATDARlAPLlACOTVttLCfrLGA F: L--1 ■: ; ...■ ::rtk*. JE Frnn.fi P 1 t N R P L 0 rp'l NAIIIimiOTIFRAQPAQPHCrlARAORRUTulilH ALT AYR VRIEDRFKGQIRRQAKVAIAIAARFKARLFqiRLAARPIFtlAOFPTKIT SPRPŮAŮŮŮPI&IHMHŮH TTaReMOO" ^ ŇC6I PiiJU hí:fji Took 3 4/22/2009 Prokaryotické geny • Velmi jednoduchý přístup k predikci genů Zjednodušení vede k chybám, ale jejich množství je POMĚRNĚ MALÉ. • Chyby mohou vznikat při SEKVENCOVÁNÍ DNA. Přidání/odstranění startovního a/nebo stop kodonu může vést ke ZKRÁCENÍ, PRODLOUŽENÍ nebo úplnému VYNECHÁNÍ genu. Opravdu ORF kóduje protein? • ORF kóduje protein, který je podobný již dříve popsanému proteinu (prohledávání DATABÁZÍ pomocí ALIGNMENTU). • ORF má typický obsah GC nebo frekvenci kodonů. Srovnání s charakteristickými vlastnostmi známých genů ze stejného organismu. • Před ORF se nachází typické RBS (ribosome-binding site) nebo promotor. Translační a transkripční signální sekvence Iť^uliLh-iLi nignáij pra transkripci Rcguliťm xif-näly pru M. LILI M., II- i.lL, Promotor [ ¥i | I sn | TATA box n RNA Pribnowův box Shine-Dalgarnova sekvence Prokaryota —& Translační a transkripční signální sekvence IÍL-ULiL:U"jll hi^lliih |1h. fmukripci -MB GC box ^5 TATA box Hognessův box Promotor RNA-polymerasy II Uniu k |-i:- E u kary ota (gcc)gccRccAUGG Kozák sequence Sekvence Kozákové Opravdu ORF kóduje protein? ORF kóduje protein, který je podobný již dříve popsanému proteinu (prohledávání databází pomocí alignmentu) = nejspolehlivější ověření. Nástroje pro překlad DNA jsou propojeny s prohledáváním databází. ORF Finder (NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html I View I 1 GenBank v | Redraw | 1 fiň | SixFľames] Frame Írom to Length i -----1 +3 ■ 3..872 870 nttMTi* i U'V D HIT PC ^fl HDP * *P T VID & RHLYVť3J,GDl*QLGHNDSRLFTCL3<1 G D Q L H L R"C T M,i_ 1L FJ V S v L P »RF * L K D * CIV1P ■ ELEvpDllT^vPC-lDDLLMPSCflPL^DHV/. PĚř.L--4ATTCTlD^AVCORD0^.Síi»fB■.■. ĚT&lE^iSÍJPÍ-TkiPifkPSaCRNr f: l--1 ■: ; ...■ ::ríuq. T T *.