Bi7201 Základy genomiky Přednáška 1 Úvod do bioinformatiky Jan Hejátko Laboratoř molekulární fyziologie rostlin, Oddělení Funkční Genomiky a Proteomiky, Masarykova univerzita, Brno hejatko@sci.muni.cz, www.sci.muni.cz/FGP/ FGP_logo_color §Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY §Databáze §Vyhledávání homologií §Analytické nástroje §Spektrum „on-line“ zdrojů §Vyhledávání sekvenčních motivů, otevřených čtecích rámců, restrikčních míst…. §GENOMOVÉ zdroje §PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze §Další www genomové nástroje §Schéma předmětu Osnova FGP_logo_color Schéma přednášky ¨Přednáška 1 §Úvod do bioionformatiky §Teorie základních bioinformatických nástrojů • ¨Přednáška 2 §Identifikace genů §In silico i experimentální § ¨Přednáška 3 §Přístupy reverzní genetiky l ¨Přednáška 4 §Přístupy genetiky přímé § ¢ FGP_logo_color Schéma přednášky ¨Přednáška 5 §Přístupy funkční genomiky • ¨Přednáška 6 §Protein-protein interakce a jejich analýza §Praktické aplikace funkční genomiky §Využití genomiky ve šlechtění rostlin §Individualizovaná medicína §Pokročilé biotechnologie §Význam a bezpečnost GMO ¢ FGP_logo_color §Zdrojová literatura ke kapitole I: §Plant Functional Genomics, ed. Erich Grotewold, 2003, Humana Press, Totowa, New Jersey § §Úvod do praktické bioinformatiky, Fatima Cvrčková, 2006, Academia, Praha Literatura FGP_logo_color §V širším pojetí-zkoumá STRUKTURU a FUNKCI genomů §V užším pojetí zkoumá FUNKCI jednotlivých genů - FUNKČNÍ GENOMIKA §používá zejména přístupy REVERZNÍ GENETIKY §Předpokladem je znalost genomu (sekvencí)- práce s databázemi GENOMIKA-co to je? Logo1me mut_1 mut_2 3 : 1 Přístupy „klasické“ genetiky „Reverzně genetický“ přístup ? mut4 inzerční mutageneze 5‘TTATATATATATATTAAAAAATAAAATAAAAGAACAAAAAAGAAAATAAAATA….3‘ GENOMIKA-co to je? role BIOINFORMATIKY ve FUNKČNÍ GENOMICE BIOINFORMATIKA FUNKČNÍ GENOMIKA FGP_logo_color §Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY §Databáze §Spektrum „on-line“ zdrojů §Schéma přednášky Osnova FGP_logo_color Spektrum on-line zdrojů FGP_logo_color ebi ¢EBI http://www.ebi.ac.uk/services oNCBI http://www.ncbi.nlm.nih.gov/ NCBI click here to see the Model of Entrez Databases Spektrum on-line zdrojů FGP_logo_color §Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY §Databáze §Spektrum „on-line“ zdrojů §PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze §Schéma přednášky Osnova FGP_logo_color oEMBL, http://www.ebi.ac.uk/embl/ oGenBank,http://www.ncbi.nih.gov/Genbank/GenbankSearch.html oDDBJ, http://www.ddbj.nig.ac.jp §zahrnují soubory primárních dat – sekvencí DNA a proteinů §Sekvence v databázích tzv. „Velké trojky“: §denně vzájemná výměna a zálohování dat §velká datová náročnost (kapacita i software) §září 2003 27,2 x 106 záznamů o zhruba 33 x 109 bp §srpen 2005 100 x 109 bp ze 165.000 organizmů Primární databáze FGP_logo_color §zahrnují soubory primárních dat – sekvencí DNA a proteinů §Proteinové sekvence: oPIR, http://pir.georgetown.edu/ oMIPS, http://www.mips.biochem.mpg.de oSWISS-PROT, http://www.expasy.org/sprot/ Primární databáze FGP_logo_color ostandardní nukleotidové sekvence získané kvalitním sekvencováním §Typy sekvencí v primárních databázích oESTs (Expressed Sequence Tags) oHGTS (High Throughput Genome Sequencing) - neanotované „surové“ výsledky sekvenačních projektů oreferenční sekvence anotovaných genomů oTPAs (Third Party Annotation) - sekvence anotované jinými než původními autory Primární databáze FGP_logo_color ¢GenBank (NCBI) http://www.ncbi.nlm.nih.gov/ NCBI Primární databáze FGP_logo_color Přístupový kód Primární databáze FGP_logo_color ¢PROSITE, http://www.expasy.org/prosite/ §databáze funkčních nebo strukturálních motivů získaných srovnáváním primárních dat (sekvencí) oPRINTS, http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/ Sekundární databáze - Doplnit dalsi DB (Blanka P.) FGP_logo_color ¢TRANSFAC http://www.gene-regulation.com/ gbf Sekundární databáze Scaffold/Matrix Attached Region transaction Database S/MARt DB (saffold/matrix attached region transaction database). This database collects information about S/MARs and the nuclear matrix proteins that are supposed be involved in the interaction of these elements with the nuclear matrix. http://transfac.gbf.de/SMARtDB/index.html) FGP_logo_color ¢PDB http://www.rcsb.org/pdb/ pdb Strukturální databáze FGP_logo_color §Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY §Databáze §Spektrum „on-line“ zdrojů §GENOMOVÉ zdroje §PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze §Schéma přednášky Osnova FGP_logo_color NCBI Genomové zdroje FGP_logo_color arab-ncbi Genomové zdroje FGP_logo_color Genomové zdroje FGP_logo_color Genomové zdroje FGP_logo_color oHuman Genome Browser http://genome.ucsc.edu/cgi-bin/hgGateway Genomové zdroje FGP_logo_color oTAIR, The Arabidopsis Information Resource, http://www.arabidopsis.org Genomové zdroje FGP_logo_color §Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY §Databáze §Vyhledávání homologií §Analytické nástroje §Spektrum „on-line“ zdrojů §GENOMOVÉ zdroje §PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze §Schéma přednášky Osnova FGP_logo_color oGlobální vs. lokální přiřazení §globální přiřazení pouze u sekvencí, které jsou si podobné (za cenu vnášení mezer do jedné nebo obou sekvencí) §lokální přiřazení umožní identifikaci a srovnání i v případě porovnávání pouze úseků sekvencí s významnou mírou podobnosti, např. i při záměně pořadí proteinových domén během evoluce Cvrčková, Úvod do praktické bioinformatiky §globální přiřazení se používá především v případě mnohačetného přiřazování (CLUSTALW, viz dále) Analytické nástroje FGP_logo_color oVolba správného typu přiřazení pomocí bodového diagramu (dotplot) §vynesení sekvencí proti sobě §identifikace shody v okně o dané velikosti (např. 2 bp) §„odfiltrování“ diagonál o délce menší než je mezní hodnota (threshold) Cvrčková, Úvod do praktické bioinformatiky Analytické nástroje FGP_logo_color opříklady srovnání sekvencí pomocí bodového diagramu §globálně lze srovnávat pouze sekvence A, B §ostatní sekvence prošly během evoluce záměnou domén a je nutné je porovnávat lokálně §bodový diagram lze získat pomocí srovnávání programem BLAST2 (viz dále) Cvrčková, Úvod do praktické bioinformatiky Analytické nástroje FGP_logo_color ¢BLAST http://ncbi.nlm.nih.gov/BLAST/ blast1 Analytické nástroje FGP_logo_color §Velikost vyhledávacího slova (word size): 10-11 bp, resp. 2-3 aa §Hodnocení homologie pomocí matice PAM (Point Accepted Mutation) nebo BLOSUM (BLOcks Substitution Matrix) §Primární podobnosti (seed matches) §Rozšiřování oblasti homologie doprava i doleva §Zobrazení výsledků MRKEV [delece] MRKE [záměna] MRKY [inzerce] MRAKY M R . K E V | | | : M R A K Y Matrice PAM 250 Cvrčková, Úvod do praktické bioinformatiky BLAST Basic Local Alignment Search Tool FGP_logo_color blast3 blast2 E= expectancy value §„expectancy value“ udává předpokládaný počet sekvencí se stejnou nebo lepší podobnosti při vyhledávání ve stejně velké databázi složené z náhodných sekvencí §výsledek udává frakci totožných a u proteinů i podobných pozic, příp. počet vložených mezer BLAST Basic Local Alignment Search Tool FGP_logo_color §vyhledávání podle zdroje (organismu) sekvencí, např. známých genomů mikroorganismů oV současnosti existuje celá řad specializovaných verzí programu BLAST §BLASTP •vyhledávání podobnosti k proteinu v databázi proteinových sekvencí §BLASTN •vyhledávání podobnosti k nukleotidové sekvenci v databázi nukleotidových sekvencí §BLASTX •vyhledávání podobnosti k proteinu v databázi nukleotidových sekvencí přeložených do sekvence aa •další varianty jako např. MEGABLAST pro identifikaci totožných nebo velice podobných sekvencí (vyhledává dlouhé podobné úseky nukl. sekvencí) BLAST Specializované verze FGP_logo_color §TBLASTN •vyhledávání k sekvenci nukleotidů přeložené do sekvence aa v databázi proteinů §TBLASTX •vyhledávání k sekvenci nukleotidů přeložené do sekvence aa v databázi nukleotidových sekvencí přeložených do sekvence aa oV současnosti existuje celá řad specializovaných verzí programu BLAST BLAST Specializované verze FGP_logo_color §PSI-BLAST (Position-Specific Iterated Blast) •PSI-BLAST vytváří pro každé přiřazení tzv. PSSM (position specific substitution matrix) •PSSM matice zohledňuje výskyt jedné aminokyseliny ve stejné pozici se zvýšenou frekvencí u sekvencí identifikovaných jako podobné v prvním kole pomocí BLAST, což může znamenat funkční konzervovanost •Prvním krokem je standardní BLAST, při kterém PSI-BLAST identifikuje skupinu podobných sekvencí s E hodnotou lepší než minimální hodnota (standardně 0,005) oV současnosti existuje celá řad specializovaných verzí programu BLAST BLAST Specializované verze FGP_logo_color §PHI-BLAST (Pattern-Hit InitiatedBlast) •Sekvenci motivu je třeba vložit pomocí speciálního syntaxu •[LVIMF] znamená buď Leu, Val, Ile, Met nebo Phe •Určen k identifikaci specifické sekvence, např. motivu (pattern) v sekvenci podobných proteinových sekvencí •- je oddělovník (neznamená nic) •x(5) znamená 5 jakýchkoliv aminokyselin •x(3, 5) znamená 3 až 5 jakýchkoliv aminokyselin BLAST Specializované verze oV současnosti existuje celá řada specializovaných verzí programu BLAST FGP_logo_color oPříklad vyhledávání pomocí PHI-BLAST BLAST Specializované verze FGP_logo_color §Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY §Databáze §Vyhledávání homologií §Analytické nástroje §Spektrum „on-line“ zdrojů §Vyhledávání sekvenčních motivů, otevřených čtecích rámců, restrikčních míst…. §GENOMOVÉ zdroje §PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze §Schéma přednášky Osnova FGP_logo_color ¢http://workbench.sdsc.edu/ workbench Analytické nástroje FGP_logo_color ¢http://workbench.sdsc.edu/ Analytické nástroje view FGP_logo_color ¢http://workbench.sdsc.edu/ Analytické nástroje regex FGP_logo_color ¢http://workbench.sdsc.edu/ Analytické nástroje frames FGP_logo_color ¢http://workbench.sdsc.edu/ Analytické nástroje tacg FGP_logo_color ¢http://workbench.sdsc.edu/ Analytické nástroje texshade FGP_logo_color ¢http://workbench.sdsc.edu/ Analytické nástroje tree FGP_logo_color Analytické nástroje ¢VPCR http://grup.cribi.unipd.it/cgi-bin/mateo/vpcr2.cgi vpcr1 FGP_logo_color Analytické nástroje ¢VPCR http://grup.cribi.unipd.it/cgi-bin/mateo/vpcr2.cgi vpcr FGP_logo_color §Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY §Databáze §Vyhledávání homologií §Analytické nástroje §Spektrum „on-line“ zdrojů §Vyhledávání sekvenčních motivů, otevřených čtecích rámců, restrikčních míst…. §GENOMOVÉ zdroje §PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze §Další www genomové nástroje §Schéma přednášky Osnova FGP_logo_color §TIGR (The Institute for Genomic Research, http://www.tigr.org/software/) §Recently part of the J. Craig Venter Institute Další WWW zdroje FGP_logo_color §Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY §Databáze §Vyhledávání homologií §Analytické nástroje §Spektrum „on-line“ zdrojů §Vyhledávání sekvenčních motivů, otevřených čtecích rámců, restrikčních míst…. §GENOMOVÉ zdroje §PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze §Další www genomové nástroje §Schéma přednášky Shrnutí FGP_logo_color Diskuse FGP_logo_color mut_1 mut_2 3 : 1 Přístupy „klasické“ genetiky „Reverzně genetický“ přístup ? mut4 inzerční mutageneze 5‘TTATATATATATATTAAAAAATAAAATAAAAGAACAAAAAAGAAAATAAAATA….3‘ BIOINFORMATIKA FUNKČNÍ GENOMIKA