Počítačové vyhledávání genů a funkčních oblastí na DNA Hledání genů • Geny tvoří obsahovou složku genomu -Variabilní délka - Jedinečné sekvence - Mnohdy složené z exonů a intronů - Geny pro funkční RNA • Jakým způsobem vyhledávat geny? Přístupy pro hledání genů • 1. Metody založené na hledání podobností s již popsanými geny • 2. Metody srovnávací genomiky - Srovnání více dokončených genomů • 3. Využití algoritmů a statistických metod pro analýzu sekvence - Hledání signálů • Integrované přístupy Prokaryotický versus eukaryotický gen vyžadují odlišné přístupy • Pro kary ota - malé genomy 0.5 - 10-106 bp - Vysoká hustota kódujících sekvencí (>90%) - Žádné introny (výjimky Archea, fágy) - hledání otevřených čtecích rámců - doplněno např. hledáním signálů pro vazebná místa ribozómu - Úspěšnost cca 99 % - Problémy: překrývající se ORFs, krátké geny, místa TSS a promotory • E u kary ota - Velké genomy 107 - 1010 bp - Nízká hustota kódujících sekvencí (<50%) - Struktura intron/exon - statistické modely frekvencí nukleotidů - sledování závislostí přítomných ve struktuře kodonů - Obsah GC - Přesnost dosahuje cca 50 % - Problémy: mnoho! Metody založené na podobnosti • Založené na konzervativním charakteru sekvencí s určitou funkcí • Využívají nástroje pro lokální nebo globální přiřazení sekvencí (BLAST, FASTA, LAGAN, AVID, atd.) • Nemohou identifikovat geny, které nejsou v databázi (~50% genů) • Omezení u sekvencí s nízkou podobností 1. Metody založené na hledání podobností s již popsanými geny Databáze - Proteiny -cDNA -EST Nástroje pro párové přiložení sekvencí umožňující analýzu genů - Hledání genů na základě podobnosti sekvencí proteinů • blastx • tblastn • fastX 2. Srovnávací genomika • Založené na předpokladu, že kódující sekvence jsou více konzervativní než nekódující • Dva přístupy: - intra-genomický (genové rodiny) - inter-genomický (mezi druhy) • Mnohonásobné přiložení homologických oblastí - exony - regulační oblasti • Obtížné stanovení limitů podobnosti a optimální evoluční vzdálenosti Co je srovnáváno? • Lokalizace genů v genomu • Struktura genů - Početexonů - Délky exonů - Délky intronů - Podobnost sekvencí • Vlastnosti genů - Místa sestřihu - Využití kodonů - Konzervované sekvence Proč používat přístupy srovnávací genomiky ? • Konzervovanost sekvencí v průběhu značných evolučních vzdáleností značí specifickou funkci (geny, funkční-regulační oblasti) • Ztráta konzervovanosti během krátkých evolučních vzdáleností značí adaptivní evoluci ® Vista Browser 2.0 - Netscape Reference (Base) genome: I Human July 2003 Position (gene name ar chrX:start-end): |chr1 3:69,595,433-71,312,411 Gene annotation: iRefSeq genes 3 more organisms: Color Legend Annotations: Repeats: J-Gene — LINE E Hon UTR CNS Contigs: — Contig Overlap « LTR ■ SINE RNA - DNA : Other Window resized: 1016xS03 II Fugu _l 1. Nov. 2003 chimpanzee Arachne assembly, NCBI Build 1 Version 1 (UCSC: panTrol) [LAGAN) rPOWN 2. Oct. 2003 Mouse Genome Assembly (MLAGAN) 3. Feb. 2004 Chicken Genome Assembly (UCSC: galGal2) (LAGAN) 4. FuguAug. 2002 (SLAGAN) IT*! Aut o Resize VISTA Genome Browser http://genome.lbl.gov/vista/index.shtml Human Mouse Rat Příklad srovnání lokusů a chromozómů Charakterizace rozdílů umožňuje odhalit mechanismy změn Multi-Species Comparative Analysis humnu/ macaque 0KB human/ Pig human' iabbit human/ mouse human' i at human/ ^lueken Liver Enhancer Apolipoproteiu AI gene 50/100% 50/100% 50/100% 50/100% 75% 50% Lokální versus globalizované přirazeni Local ABC L0Ca' Problém globálního přiřazení Nalezení nejefektivnější transformace jedné sekvence do druhé vyžaduje využití nových ■ ■ « jv •Bodové změny, delece •Inverze •Translokace •Duplikace •Kombinace uvedených změn Základní zdroje a přístupy • Databáze - NCBI: Genomy, Geny, Proteiny, SNPs, ESTs, Taxonomie, atd. - TIGR: databáze genomových center • Analytický software - Databázové dotazy (nalezení podobných sekvencí), algoritmy pro přiřazení, shluková analýza, vyhledávání repetic, predikce genů • Algoritmy pro dlouhá globální přiřazení - algoritmy pro lokální přiřazení s rozšířeným vkládáním mezer-citlivé, ale málo specifické pro dlouhé sekvence • BLASTZ • BLAT - algoritmy pro globální přiřazení • AVI D • LAGAN • S-LAGAN • M AVI D, M LAGAN AVID Umožňuje srovnání pouze homologních sekvencí bez duplikací, inverzí nebo translokací Pokud je aplikován na celé genomy, vyžaduje předem přípravu a identifikaci odpovídajících si regionů LAGAN (Limited Area Global Alignment) • Umožňuje srovnat mnohem delší sekvence než AVID v důsledku jiného algoritmu pro identifikaci vzájemně odpovídajících si úseků • Používá se společně s následným lokálním přiřazením dlouhých sekvencí (BLAT) - rat - mouse - rat - human Multi-LAGAN (MLAGAN) • V porovnání s LAGAN provádí navíc mnohonásobná globální přiřazení • Nejprve provede přiřazení více příbuzných genomů a následně přiřazuje genomy více fylogenetický vzdálené • Umožňuje konstrukci fylogenetických stromů na základě globálního přiřazení genomů Shuffle-LAGAN (S-LAGAN) Slouží pro globální přiřazení kompletních sekvencí genomů Detekuje genomová přeskupení a inverze Poskytuje přiřazení všech kombinací vložených sekvencí • U významných skupin organismů jsou k dispozici rozsáhlá mezidruhová srovnání - UC Santa Cruz/PennState (translated BLAT or BLASTZ) - Berkeley Genome Pipeline (BLAT/AVID) - Ensembl (Phusion/Blastn) _ \/icto (\ AHAM/QI AnAM/A\/irh 3. Predikce překládané oblasti na základě hledání signálů • Hledání otevřených čtecích rámců doplněné hledáním konzervativních signálů v transkripčních jednotkách • ORF Finder (Open Reading Frame Finder) - httD://www.ncbi.nlm.nih.aov/aorf/aorf.html ►(st start codon typical protein coding state atypical protein coding state stop codo^- -+Q RBS —^ spacer —*ť CDS y *Q gene J- isolated gene intergenic region overlapping genes series Výpočetní přístupy Klíčové jsou signály pro odhalení genů • iniciační a terminační kodony • místa sestřihu • promotory • vazebná místa pro ribozómy (RBS) • terminátory transkripce • polyadenylační místa • vazebná místa pro transkripční faktory Struktura prokaryotické transkripční jednotky promotor gen gen gen terminátor Signály - senzory ve struktuře eukaryotického genu Signály v jednoduchém strukturním genu fem gene _ 1 ATATGGTCAGTGCATATAAAATTTGTTATCATTAGAGTAATTAAAGG|"CATTTAATAACTTTTGGAATCA 70 71 ArrGGAGGTTCTCAT^BrTATCTTTTAGTCAAAATAGAAGTCATAGCTTAGAACAATCTTTAAAAGAAG 140 141 GATATTCACAAATGGCTGATTTAAATCTCTCCCTAGCGAACGAAGCTTTTCCGATAGAGTGTGAAGCATG 210 211 CGATTGCAACGAAACATATTTATCTTCTAATTCAACGAATGAATCATTAGACGAGGAGATGTTTATTTAG 280 281 CAGATTTATCACCAGTACAGGGATCTGAACAAGGGGGAGTCAGACCTGTAGTCATAATTCAAAATGATAC 350 351 TGGTAATAAATATAGTCCTACAGTTATTGTTGCGGCAATAACTGGTAGGATTAATAAAGCGAAAATACCG 420 421 ACACATGTAGAGATTGAAAAGAAAAAGTATAAGTTGGATAAAGACTCAGTTATATTATTAGAACAAATTC 490 491 GTACACTTGATAAAAAACGATTGAAAGAAAAACTGACGTACTTATCCGATGATAAAATGAAAGAAGTAGA 560 561 TAATGCACTAATGATTAGTTTAGGGCTGAATGCAGTAGCTCACCAGAAAAATTAGGCGTCTATTATATGT 630 631 AI I I I ICAGAGATAAATAAAATATTGATATAAAAGACAATAACTTTATAATAATTATAACTATTTCTAAA 700 701 TTCTGTACGAAGAATTTTCTTATAAACAAAGATTTTAGCAAATACCAGTTATGATATTCATAI I I I I IAT 770 771 TATAAAAGGATGTCTTAAGI I I I I IAGGCTTTAGGTATTCCATCCTAAAGI I I I1 M IAGCTTAAAAGTA 840 841 TCATCTACAGCAAAATTGCAAACGACAAAATTGATAAGTGCAATTAAATAAATGTTAGTAAGTGAATCAT 910 911 AATTATCCTTGCTTAAGCATTTGCTTTGTAAGGGAAGTGAGGAGGCAACTAATCG 965 rsbU gene putative promotor putative RBS starf stop terminator Metody pro vyhledávání signálů • hledání konvenční sekvence spolu s možnostmi přípustných odchylek • použití vážených matic - každá pozice vzoru signálu připouští shodu s jakýmkoli zbytkem - různé zbytky mají v každé pozici přiřazenou jinou významnost Příklad konsenzní sekvence signálu Získána výběrem nejčastěji se vyskytující báze v každé pozici mnohonásobného seřazení příslušné subsekvence našeho zájmu TACGAT TATAAT TATAAT GATACT TATGAT TATGTT konsensus sequence TATAAT konsensus (IUPAC) Vede ke ztrátě informací a získání mnoha falešně pozitivních i negativních výsledků Příklad poziční vážené matice Vyjadřuje frekvenci každé báze v každé pozici příslušné sekvence TACGAT TATAAT TATAAT GATACT TATGAT TATGTT 1 2 3 4 5 6 A 0 6 0 3 4 0 C 0 0 10 10 G 1 0 0 3 0 0 T 5 0 5 0 1 6 Skóre každého předpokládaného místa je vyjádřeno součtem hodnot z matice (převedeno na pravděpodobnosti) Nevýhody: - Je vyžadována hraniční hodnota - Předpokládá nezávislost sousedících bází Příklad signálu RBS (vazebné místo pro ribozóm) Příklad signálu: místo sestřihu (myš) Analýza sekvence predikovaného genu • Důležité je posouzení charakteru sekvence - délka - obsah GC - statistické modely modely frekvencí nukleotidů - frekvence využití kodonů The Human Codon Usage Table GGG 17.08 0.25 Arg AGG 12.09 0.22 Trp TGG 14.74 1.00 Arg CGG 10.40 0.19