Manipulace se sekvenčními daty Získání a manipulace se sekvencemi Databases 1 Entrez SRS Re tri val System i DNA NCBI-GenBANK DDBJ EBI-EMBL Protein PIR SWISŠPROT EXPASY, PDB Information Sequnece, Pdb, Image Softwares T GCG SeqWEB Vector NTI JGenoMAX CLC Workbench GenBANK GCG FASTA Staden Image Formats v. ) Sequence Converter Typy jednoduchých bioinformatických analýz 1. Přístup k datům 2. Manipulace se sekvenčními daty 3. Výpočetní analýza sekvencí 4. Manipulace se sekvencemi proteinů 1. Přístup k datům Přístup k nukleotidovým databázím ♦ NCBI ♦ EBI Přístup k proteinovým a strukturním databázím < PDB Zobrazení záznamů v databázích Získávaní dat Konverze formátů Editace Sdílení dat v základních databázích t> NCBI Bdnk '• http://www. ncbi. nlm.nih. gov/ National Center for Biotechnology Information (NCBI) DDBJ D D BÜ ■ http://www. ddbj. nig. ac.jp/ National Institute of Genetics (NIG) EMBLi http://www.ebi.ac.uk embl European Bioinformatics Institute (EBI) European Bioinformatics Institute ExPASy: http://tw.expasy.org Expert Protein Analysis System Zápis sekvence Sekvence - zápis posloupnosti jednoznačných znaků odpovídajících jednotlivým zbytkům (monomerům), které se nacházejí v odpovídající posloupnosti v dané makromolekule ♦ DNA nebo RNA od 5£-konce k 3-konci ♦ protein od N-konce k C-konci ■ používají se jednopísmenové kódy dle pravidel IUPAC Standardní kódy pro sekvence nukleových kyselin podle IUB/IUPAC A adenosin C cytidin G guanidin T thymidin U uridin R G/A (puRin) Y T/C (pYrimidin) K G/T (nukleosid s Keto skupinou) M A/C (nukleosid s aMino skupinou) S G/C (silná = strong vazba) W A/T (slabá = Weak vazba) B G/T/C (not A) D G/A/T (not C) H A/C/T (not G) V G/C/A (not T) N A/G/C/T (jakýkoli) - mezera (gap) neurčené délky Standardní kódy pro sekvence aminokyselin podle IUB/IUPAC A alanin B kys. asparagová nebo asparagin C cystein D kys. asparagová E kys. glutamová F fenylalanin G glycin H histidin I isoleucin K lysin L leucin M metionin N asparagin P prolin Q glutamin R arginin S serin T treonin U selenocystein V valin W tryptofan Y tyrosin Z kys. glutamová nebo glutamin X jakákoli aminokyselina * translační stop (terminační kodon) mezera (gap) neurčené délky Běžné formáty sekvencí http://orion.sci.muni.cz/kqmb/bioinformat/seq samples.htm ■ FASTA ■ Genbank ■ EMBL ■ GCG ■ PIR ■ ASN1 ■ IG(lntelligenetics) ■ Text Formáty sekvencí obsahující mnohonásobná přiložení ■ Multi FASTA ■ Phylip ■ PAUP/NEXUS ■ Clustal ■ MSF PLAIN SEQUENCE FORMAT Obsahuje pouze IUPAC znaky Obsahuje jedinou sekvenci Příklad AACCTGCGGAAGGATCATTACCGAGTGCGGGTCCTTTGGGCCCAA CCTCCCATCCGTGTCTATTGTACCCTGTTGCTTCGGCGGGCCCGC CGCTTGTCGGCCGCCGGGGGGGCGCCTCTGCCCCCCGGGCCCGTG CCCGCCGGAGACCCCAACACGAACACTGTCTGAAAGCGTGCAGTC T GAG T T GAT T GAATGCAATCAGT TAAAACT T TCAACAAT GGAT C T FASTA FORMAT Může obsahovat více sekvencí Začíná specifickým záhlavím („>") Příklad: >U03518 Aspergillus awamori internal transcribed spacer 1 (ITS1) AACCTGCGGAAGGATCATTACCGAGTGCGGGTCCTTTGGGCCCAACCTCCCATCCGTGTCTATTGTACCC TGTTGCTTCGGCGGGCCCGCCGCTTGTCGGCCGCCGGGGGGGCGCCTCTGCCCCCCGGGCCCGTGCCCGC CGGAGACCCCAACACGAACACTGTCTGAAAGCGTGCAGTCTGAGTTGATTGAATGCAATCAGTTAAAACT TTCAACAATGGATCTCTTGGTTCCGGC EMBL FORMAT Začíná řádkem s jedinečným identifikátorem (ID), následuje anotace". Sekvence zašíná symboly SQ a sekvence je ukončena „//" Může obsahovat více sekvencí Příklad: ID AA03518 standard; DNA; FUN; 237 BP. XX AC U03518; XX DE Aspergillus awamori internal transcribed spacer 1 (ITSl) and 18S DE rRNA and 5.8S rRNA genes, partial sequence. XX SQ Sequence 237 BP; 41 A; 77 C; 67 G; 52 T; 0 other; aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc 60 tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg 120 ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc 180 tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc 237 GENBANK FORMAT Začíná řádkem LOCUS Začátek sekvence je vyznačen ORIGIN a sekvence je ukončena „//" Příklad: LOCUS DEFINITION AAU03518 237 bp DNA PLN Aspergillus awamori internal transcribed spacer 1 rRNA and 5.8S rRNA genes, partial sequence. U03518 U03518.1 Gl 1235658 41 a 77 c 67 g 52 t 04-FEB-1995 (ITS1) and 18S ACCESSION VERSION BASE COUNT ORIGIN 1 aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc 61 tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg 121 ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc 181 tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc // Poznámka k používaným fontům ■ Proporcionální fonty ♦ Arial, Times ♦ Kazdy znak jma sirka ♦ Nevhodné ■ Neproporcionální fonty ♦ Vhodné k použití ♦ Všechny znaky stejná šíka ♦ Courier, Monospaced ■ K editaci jsou vhodné editory, které neukládají informace o formátu textu (Notepad, vývojářské editory - PSPad, aj.) ■ Některé formáty jako např. GCG obsahují vnitřní kontrolní součty gaattttttt Surová data - elektroforetogramy ze sekvenování v kapiláře Různé formáty ♦ *.abi ♦ *.ab1 ♦ *.scf Prohlížeče ♦ Chromas ♦ ABIView ♦ Ridom Trace Edit Export FASTA Prostý text Lipl-íl.abl - Chromas El File Edit Options Help y Y a -+N 04 Open Save Export Print Next Find Sample: Lipl-il Base 132 inn no 120 130 TCCCCG TG CCGCG GTCCATCACA CTCAACACCACATAAGGl P P V r P P R r S P 1 c- T H L S N T T P T H * K G A S P R A A G V P H H H T Q T H H H I E R G C A . ! RMom TiAf í Edit 0*»_aieCSa_j> (Wirt 0 Ht. «Ilm. H . QiO 466 QJOl: «. Wi MBQ: 16 97) □ Efc £dt £pbcns » ffi a * II * M4rll fäcaodwjiaswjesr.ibJ [c:V*otKaw < h v G C G T A T ji ji x. = a a I., : • '. i 7 Quaky: 21 [C] ' Setactod: a Jednoduché formáty sekvencí mají omezení a neobsahují ■ Data o expresi genů ■ Variace a polymorfismy ■ WWW odkazy na další informace ■ Specifické informace o klonech 2. Manipulace se sekvenčními daty • Přepis a překlad podle ústředního dogmatu • Replikace • Transkripce • Translace - genetický kód • Převod informace mezi řetězci • Reverse-complement • Hledání motivů • Přesné • Podobné • Sekvenční přiložení • Párové • Mnohonásobné • Spojování, rozdělování • Klon ování in silico Konverze formátů sekvencí UNIX-GCG ♦ To Genbank, To Fasta.... From Genbank, From Fasta... READSEQ, SEQRET ■ http://www.ebi.ac.uk/Tools/sfc/readseq/ SMS-The Sequence Manipulation Suite v2 ♦ http://www.bioinformatics.org/sms2/ EMBLto FASTA ♦ GenBankto FASTA ♦ Reverse Complement Filter DNA / Protein Assembly/ kompletace a sestavení ^^^=---- -—-- — reads <- -► Pokrytí oblastí >x-násobnou redundancí Identifikace překryvů, sekvenční přiložení a rekonstrukce sekvence Překrývající se čtení • Sort all /c-mers in reads (k ~ 24) • Find pairs of reads sharing a k-mer • Extend to full alignment - throw away if not >95% similar TACATAGATTACACAGATTACT GA <4-II I I I I I I I I I I I I I I I I I I II -► TAGT TAGATTACACAGATTACTAGA Mapování Vytvoření sekvenčního přiložení z jednotlivých čtení 1 AbA 11ALAL AbA 11AL1 bA TAlg_ WAďAďAlgAWATTGA TABATTACACAlBATTACTBA gAaAggAejLejLajLTTjLegajL TAGATTACACA8ATTACT8A TA« WACACAOAWAWaA TAOATTAGAGAOATTAGTOA Odvození konsensní sekvence TAGATTACACAGATTACTGA TTGATGGCGTAA CTA TAGATTACACAGATTACTGACTTGATGGCGTAAACTA TAG TTACACAGATTATTGACTTCATGGCGTAA CTA TAGATTACACAGATTACTGACTTGATGGCGTAA CTA TAGATTACACAGATTACTGACTTGATGGGGTAA CTA t TAGATTACACAGATTACTGACTTGATGGCGTAA CTA Derive multiple alignment from pairwise read alignments Derive each consensus base by weighted voting Hledaní motivu Hledání slov = uspořádaná množina znaků GAATTC GARYTC GAAN(1-50)TTC Standardní příklady hledání ■ Reštrikční místa Repetice přímé ♦ Obrácené (vlásenky se smyčkou) Konsenzní vzory Uživatelem definované vzory ■ Otevřené čtecí rámce Reštrikční analýza in silico Reštrikční endonukleázy třídy II ♦ Sekvenčně specifické endonukleázy, které štěpí DNA v rozpoznávaných sekvencích ♦ Přehled dostupný v databázi REBASE- Restriction Enzyme Database http://rebase.neb.com/rebase/rebase.html Sekvence rozpoznávacích míst Producent enzymu Reference Komerční dostupnost ♦ Sekvence genů ♦ Krystalografická data Citlivost k metylaci ♦ REBpredictor - predikce rozpoznávací sekvence u nových enzymů ♦ Rebase genomes - identifikace genů pro RE v genomech Software pro reštrikční mapování Konstrukce restrikčních map na základě analýzy sekvence DNA-vyhledání restrikčních míst ♦ Nezbytný předpoklad pro klonování ♦ Interpretace RFLP polymorfizmu ♦ Simulace výsledků gelové elektroforézy restrikčních fragmentů ■ Virtuální klonování ■ Vytvoření kvalitní grafiky ilustrující reštrikční mapy ♦ RestrictionMapper (http://www.restrictionmapper.org/) ♦ WebCutter (http://www.firstmarket.com/cutter/cut2.html) ♦ NEB Cutter v2.0 (http://tools.neb.com/NEBcutter2/) ♦ EMBOSS Restrict (http://bioweb.pasteur.fr/seqanal/interfaces/restrict.html) ♦ Restriction Maps (http://arbl.cvmbs.colostate.edu/molkit/mapper/index.html) pDRAW32 (h tt p ://w ww. acac I o n e. co m/) Výsledky reštrikční analýzy in silico ■ Enzymy - výstup tabulka ♦ kompletní sada ♦ komerční sada ♦ které sekvenci neštěpí ♦ které štěpí - počet a pozice rozpoznávacích míst ■ Lineární nebo kružnicová mapa sekvence se znázorněním pozice restrikčních míst ♦ Grafika ♦ Identifikace ORF a translace do proteinu NEB Cutter http://tools.neb.com/NEBcutter2/ *4yj @j http://tooli.neb.... p - §0 ^ NEB cutter & @ HEirflhGtiiic EoLabs» NEBc utter Circular Sequence: L0S752 Help Comments Display: GC=51%, AT=49% NEB single cutter restriction enzymes Main non-overlappinjr: min. 100 aa ORFs Cleavage code — I I blunt end cut \ I 5' extension ^ I 3' extension T I cuts 1 strand — Enzyme name code — Available from NEB Has other supplier Not commercially available *: cleavage affected by CpG meth. It: cleavage affected by other meth. (enz.name): amb i guous s i te ORFs: a: 286 aa b: 133 aa c: 118 aa WARNING: Not all enzymes shown See linear display ~~^*PluTI ^Sfol "-*NarI v*Kas 1 BstAPIvNdeI Eco0109I "*AatII^*ZraI Sspl LXmnl L*BcgI Seal Vyhledání otevřených čtecích rámců ■ ORF (Open Reading Frame) Sada překládaných kodonů mezi iniciačním a terminačním kodonem ■ Výsledek je závislý na použitém genetickém kódu ♦ U prokaryot, které nemají introny je základem hledání genů ♦ U eukaryot zpravidla využíváme analýzu sekvencí komplementární DNA (cDNA) ORF Finder (Open Reading Frame Finder) http://www.ncbi.nlm.nih.gov/qorf/qorf.html <- -> O ft D www.ncbi.nlm.nih.gov/gGrf/ ORF Finder {Open Reading Frame Finder) PubMed Entrez BLAST OMIM Taxonomy Structure The ORF Finder (Open Reading Frame Finder) is a graphical analysis tool which finds all open reading frames of a selectable minimum size in a user's sequence or in a sequence already in the database. This tool identifies all open reading frames using the standard or alternative genetic codes. The deduced amino acid sequence can be saved in various formats and searched against the sequence database using the WWW BLAST server. The ORF Finder should be helpful in preparing complete and accurate sequence submissions. It is also packaged with the Sequin sequence submission software. Enter Gl or ACCESSION or sequence in FASTA format OrfFind Clear AF513857 FROM: Genetic codes NCBI I Tools for data mining GenBank sequence submission support and software FTP site download data and software 11 Bacterial Code Translace in silico ■ 6 možných čtecích rámců ■ Vymezené oblasti - exony ■ Jaký genetický kód? ♦ Databáze genetických kódů v NCBI ♦ http://www.ncbi.nlm.nih.qov/Taxonomv/Utils/wp rintqc.cqi EMBOSS Transeq http://www.ebi.ac.uk/Tools/st/emboss transeq http://www.ebi.ic.,,. •* § Ö EMBOSS Tranieq < Sequen., a & ® EMBL-EB! Services Research Training Industry About us 1^1 Input fern i 1 Web services j Help & Documentation Share i * Feedback Tools > Sequence.Trans|at|on > EMBOSS Transeq EMBOSS Transeq EMBOSS Transeq translates nucleic acid sequences to their corresponding peptide sequences, It can translate to the three forward and three reverse frames, and output multipie frame translations at once, STEP 1 - Enter your input sequence Enter or paste a set of|DNA/RNA v| sequences in any supported format: Or, upload a file: Procházet. 2 3 F (Forward three frames) -1 -2 -3 R (Reverse three frames) 6 (AN six frames) CODON TABLE Standard Code ost users and. for that reason, are not visible. Příklady translace in silico Translate Tool - Results of translation Open reading frames are highlighted in recj Please select one of the following frames 5'3' Frame 1 1 1 z c c AKS us i r r f ampldt cgams qgmi g ywle t e ikri lt emns drtvgt i vt rve vd kddprfdkpt kpigpfytkeeveelqke qpdsvfkedagrgyrkwasplpqsile hqli qt ladgkniviacggggipvikkent ye gvea 53' Frame 2 y- snklnrtvt qrrqc hwilwqchrv—ai gwklksiaf-lk-1 vie l-aqs l hvhk-1 kmihdlit qlnqlvlfirkkklkn ykkks qt qs lkkmqdwiek-lrhhylnly-nts-f kl-qtvkilsl hawavfql - kkk Z fmkvlk 53' Frame 3 inpts-ieq-hnagnaigylwcnvt gydrllvgn-nqs hfn-ne---nc rhnrytcgsr- R-5TI—PH-rNW5FLYERRS-RITKRTARL5L-RRCRTWL-KSSCVTTrSIYTRrPVHS nfs rr-kychcmrwwrys s ykkrkyl-rc-s Příklady translace in silico EMBOSS Sixpack Input Form | Web services | Help & Documentation Tools > Sequence .Translation > EMBOSS Sixpack Results for job emboss_sixpack-l20141006-192122-0940-32029869-oy Result Summary Tool Output Submission Details Download Sixpack File DÍEDSS 001 LL IQQAKSH5DTT P A M P L D T Fl Y * 5NKLNB.TVTQRRQCHWI1 72 IlTPTS*IEQ*HNňGNAIGYl F3 1 TtattA^TccaACAaGCTAAatCGAACaGTGACACA&C^ 60 ----.----i----.----i----.----1----.----i----.----1----.----1 1 AataaTtAgigtTGTtCGa.TrtaGCrTGtCACTGTGTTGCGGCCGrrACGGTAaCCTATGa 60 XNIWCALDFLSVVGAIGNSV F6 XIIGVL*ISCHCLAPLAMPY FS * * DLLS FRVTVCRRCHWQ IS F4 CGAMSQGMI GYWLETEIHRI Fl VVQCHRV* iAIGWRrLKSIAF T2 WCNVTGYDRLIVGN*NQ5HF F3 61 TGTGGT&CAaTGTCACAGGGTArGATAGGCTATTGGTTGGA^rGAiiArCAATCGCATT 120 ----.----i----.----i----.----1----.----i----.----1----.----1 61 ACACCACGTTACAGTGTCCCArACrATCCGATAaCCA&CCTTTGACrrrAGTTA&CGTAA 120 QPAIDCPIIP*QNSVSILRM F6 KHH1TVPYSL5NTPFQF±DC F5 TTCH*LTHYAIPQF5FDIAN F4 Další typy analýz sekvencí DNA Analýza využití kodonů Klonování in silico, konstrukce vektorů Návrh sekvencí oligonukleotidů ■ primery pro PCR ■ primery pro sekvenování ■ hybridizační sondy Párové přiložení sekvencí, stanovení identity podobnosti Mnohonásobné přiložení sekvencí Klonování in silico, konstrukce vektorů ■ Kombinace segmentů sekvencí ♦ známé/neznámé funkce ■ Plazmidy ♦ přebírané z databáze ♦ zpravidla známé funkce ■ Inzerty - obvykle nové sekvence ♦ charakterizované reštrikční mapou ♦ charakterizované sekvencí DNA ♦ charakterizované funkcí ■ Nomenklatura pro konstrukty není stanovena Clone Manager (Sci-Ed Software) http://www.scied.com/pr cmbas.htm [W1 Clone Manager □ E File View Clone Map Primer Align Discover Operations. Window Help a m m iii s ^ =■ o\ m « @ ^ = iz" sa I s1 SYNPUC18V(2686bpi) x 5^ 2 minutes 72 °C 7_ I .' s ^ninnhnir^i'nritir^ ,„' i- 1 ; " N DNAPOL PCR - Syntéza obou řetězců u specifické sekvence 5' 3' TTGAGAAAGGAATAAGCAGAATTCGTTCCAAAAAGAATGAGCTGTTGTTTGCAGAAATCGAGTATATGC AACTCTTTCCTTATTCGTCTTAAGCAAGGTTTTTCTTACTCGACAACAAACGTCTTTAGCTCATATACG 3' I 5' Přímý (forward) dNTPs I 3 pnmer 3 ^ TTGAGAAAGGAATAAGC ~ DNAPOL -► AACTCTTTCCTTATTCGTCTTAAGCAAGGTTTTTCTTACTCGACAACAAACGTCTTTAGCTCATATACG 3' 5' 5' 3' T T GAGAAAGGAAT AAGC AGAAT T CGT T CCAAAAAGAAT GAGC TGTTGTTT GC AGAAATCGAGT AT AT GC <-DNAPOL " TCTTTAGCTCATATACG i / wy 5' ^ dNTPs Zpětný (reverse) primer 5' 3' T T GAGAAAGGAATAAGCAGAAT T CGT T CCAAAAAGAAT GAGC T GT TG dNTPs TTGAGAAAGGAATAAGCAGAATTCGTTCCAAAAAGAATGAGCTGTTGTTTGCAGAAATCGAGTATATGC AACTCTTTCCTTATTCGTCTTAAGCAAGGTTTTTCTTACTCGACAACAAACGTCTTTAGCTCATATACG TTGAGAAAGGAATAAGCAGAATTCGTTCCAAAAAGAATGAGCTGTTGTTTGCAGAAATCGAGTATATGC AACTCTTTCCTTATTCGTCTTAAGCAAGGTTTTTCTTACTCGACAACAAACGTCTTTAGCTCATATACG Výběr vhodné strategie před návrhem primem K čemu jsou primery určeny ♦ Standardní end-point PCR ♦ Sekvenování ♦ Detekce jednonukleotidových polymorfizmu (SNP) nebo variací ♦ Studium metylace ♦ Real-time PCR ♦ Sondy pro microarray ♦ Degenerovaná PCR ♦ Multiplex PCR ■ Z jakých dat vycházíme ♦ Jednoduchá sekvence DNA / proteinu ♦ Sekvenční přiložení DNA/proteinu ♦ GenBank ID/Gene ID/rsSNP ID Pravidla pro design primeru pro PCR ■ Relativně snadná výpočetní záležitost -prohledávání sekvence a identifikace krátkých sekvencí splňujících určitá kritéria ♦ Délka primeru ♦ Obsah G+C ♦ Teplota Tm ♦ Specificita ♦ Komplementarita příměrových sekvencí ♦ Sekvence 3'-konce Jedinečnost primem ■ Na jedinečnost primem a jeho hybridizační vlastnosti (annealing) má vliv délka primeru a velikost templátové DNA ♦ Délka (17-28 bází dlouhé) ■ Možná hybridizační místa primeru by se také neměla nacházet na DNA tvořících případné kontaminace vzorků Templátová DNA 5'...TCAACTTAGCATGATCGGGTA...GTAGCAGTTGACTGTACAACTCAGCAA...3' V Primer 1 5' -TGCTAAGTTG-3' Není jedinečný! Primer2 5' —CAGTCAACTGCTAC-3' Jedinečný! Zastoupení bází Zastoupení bází ovlivňuje vlastnosti hybridizace a reasociace primeru Žádoucí je náhodná distribuce bází bez oblastí bohatých na AT nebo GC Obvyklý obsah G+C, který poskytuje stabilní hybridy je 40-60 %, ale závisí také na obsahu G+C templátu Templátová DNA 5'...TCAACTTAGCATGATCGGGCA...AAGATGCACGGGCCTGTACACAA...3' Teplota Tm (Melting temperature) ♦ mají Tm teplotu 50 - 65 °C T = 0,3 x rPrimer + 0,7 x TProdukt - 25 am m kde Tm Primer Je hodnota Tm nejméně stabilního páru primer-matrice a Tm Produkt je hodnota Tm amplifikačního produktu. Orientačně lze vypočítat Ta podle vztahu: Tm = 2(A+T) + 4(G+C) f a = Tm — 5 °C Vnitřní sekvence a struktura primeru nejsou komplementární navzájem na 3'-koncích, takže nevytvářejí navzájem nebo samy se sebou duplexy neobsahují vnitřní sekundární struktury ♦ Chybně navržená dvojice primerů, která vytváří stabilní duplex na 3'-konci: 5- ATTCAACCGTTCAAACAAGCCC 3' 3' GTTCGGCCTACCTTTATTTCTC 5' Správně navržená dvojice primerů, která vytváří pouze málo stabilní duplex na 5'-konci; na 3'-konci je G nebo C zaručující stabilní párování s templátem: 5' CGAAATAAGACTAGTAAAGC 3' I I I I I I I 3' CCTTACTCCACGCCTAATACAATCC 5' Chybně navržený primer, vytvářející vlásenku: 51 TTTTTCAAGG-III C 3' AAAAGAGAT-" Hairpin 3" GGGAAA—i I I I I I 5' TATCTAGGACCTTA-J 3' GGGAA-^ III A 5' TATCTAGGACCTTA--1 Self-Dimer S bp 3' GGGAAAATTC C AGGATC TAT 5' I I I I I I I I 5 1 TATC TAGGAC C TTAAAAGGG 3 1 4 bp 31 GGGAAAATTC C AGGATC TAT 51 I I I I 5 1 TATC TAGGAC C TTAAAAGGG 3 1 Dimer forward primer 5' TATC TAG GACCTTAAA AGGG 3' I I I I I 3' C ATGGAAAC G TAGGAGAC 5' reverse primer GC svorky a 3 - koncová stabilita ■ GC svorka ♦ Přítomnost G nebo C mezi posledním 4 bázemi na 3'-konci primem ♦ Zásadní pro zvýšení prevence falešného prodlužování a zvýšení specifičnosti primeru ♦ >3 G nebo C v blízkosti 3'-konce jsou však nežádoucí Maximální 3'-koncová stabilita ♦ Maximalizace AG posledních 5 bází na 3'-konci primeru. Jedinečnost primeru ♦ na matricové DNA nemají falešná vazebná místa Nesprávně navržený primer s falešnými vazebnými místy , 5'(1 029) AAGGCTAGAGAAAAATATGG (1 048)3' na templatOVe UNA. 3'(948)tttcttacccttttt-tacc (966)5' 5'(1 029) AAGGCTAGAGAAAAATATGG (1 048)3' II II I II MIMI 3'(1191) tttgtattgcattatatacc (1210)5' 5'(1 029) AAGGCTAGAGAAAAATATGG (1 048)3' II I I I I I I I I I I 3'(395) tccatttttctttttatctt (414)5' Správně navržený primer, který nemá falešná vazebná miSta na tem plátU. 5Y2476) CCTAACATAATCCGCACCTCATTCC (2452)3' I I I I I I I I III 3'(787) taaatctattagtttacacataacc (811)5' 5Y2476) CCTAACATAATCCGCACCTCATTCC (2452)3' I I I I I I I I I I 3'(3211) caattgt aact at aactgcgtt atc (3235)5' 5'(2476) CCTAACATAATCCGCACCTCATTCC (2452)3' I I I I I I I I I I 3'(1194) gt attgcattat at acctctgtt ag (1218)5' 5Y247G) CCTAACATAATCCGCACCTCATTCC (2452)3' I I I I I I I I II I 3'(1469) at attgta-tat acg aact aaatct (1492)5' Kdy je primer ještě primerem? Pro návrh primem se obvykle používá specializovaný software Melting Tempera ture [21 -mer] i Graph Zoom Options i [lover]' foMKHfrl I Dot display mode (26S6) |pos: I 20 j Tm: | 64.5 |50 |40 |5 Bar graph mode TM 1 Lower Primer False Priming Sites ! HB M13MP18 Lover Primer - Ml 3MP1 8 :631 OL19 (positive strand) Priming efficiency of the perfect match is 428 (above the threshold) Priming efficiency : 428 (above the threshold) 5'(6328) GGTTTTCCCflGTCRCGRCG (6310)3' I I I I I I I I I I I I I I I I I I I 3'C6328) ccacMagggtccigtgctgc (6310)5' Priming efficiency : 205 (above the threshold) 5'(6328) GGTTTTCCCflGTCRCGRCG I I I I I I I I I I I I I 3'(626) agcaaatggtc—tgctgc (610)5' Priming efficiency : 1 94 (above the threshold) 5'(6328) GGTTTTCCCflGTCRCGRCG 5310)3' II I IIIIII I I I I 3'(808) gtaatatggtcagtcctgc (790)5" Priming efficiency : 1 85 (above the threshold) 5'(6328) GGTTTTCCCflGTCRCGRCG 6310)3' I II MINIM III 3'(5125) tctcragtggtccigtg-tgc: (5108)5' Priming efficiency: 121 5'(6328) GGTTTTC-CCRGTCflCGRCG !6310)3' Mill MM I I II I 3'(5989) agaaaagtggtc-gctctgc (5971)5" Lover Primer - Ml 3MP1 8 :6310L19 (negative strand) Priming efficiency of the perfect match is 428 (above the threshold) Priming efficiency : 76 GGTTTTCCCflGTCRCGRCG I I II II I Mil, 3'(5744) ccaaaaagcgggaaactgc (5762)5' I Current Olino i pCBIu3.seq Sequence Length: 1842 Current Oligo (+ strand) 5- CCCGCCTG ATG A ATGCTC ATC 3-Length: 21-mer 5' Position: AG (25 °c): Degeneracy: P.E.*: 1373 72.1 °c -42.7 kcal/it 492 5.30 nmol/a260 34.0 /íg/a2ě0 Current Oligo (- strand) 5- G ATG AGC ATTC ATC AGGCGGG 3' P.E.*: 537 4.so nmol/A260 31 .7 rg/A2Ě0 1/E: 1 Selected Primers 1 pCBIu3.seq pCBIu3:269U21 Upper Primer 5- CGGCGCC AG ATCTGGT ACCC A 3' Length: 21-mer 5" Position: 269 Tm: 76.9 °C AG (25 °c): Degeneracy: P.E.*: -46.1 kcal/mo I 2 nmol/a260 i rg/*260 pCBIu3:817L21 Lover Primer 5' T ACCGGGTTGG ACTC A AG ACG 3' Length: 21-mer 3" Position: s17 AG (25 °c): Degeneracy: P.E.*: 69.5 °c -41.4 kcal/m 502/502 4.s9 nmol/a260 32.0 rg/a260 Optimal Annealing Temperature: 58 3° (Max: 72.0°) Position and Length Trn [°C] GC [%] P.E." Product 1352 88.0 51 .3 Upper Primer 37 21 72.2 47.6 452 Lower Primer 1368 21 79.9 57.1 506 Product Tiy, Primers Trr - Upper Primer Try difference: 15.8 7.6 Concentration Upper Primer 200.0 nl-1 Lover Primer 200.0 nM Monovalent Cation 50.0 mM Free Mu,[2+1 0.7 mM Terminal stability of "the Löwer Primer is too high. Total Ha[+] Equivalent: 135.8 Počítačový návrh primem Umoňuje řada molekulárně biologických programů Některé jsou volně dostupné na internetu Primer3 Primer3Plus PrimerZ ♦ PerIPrimer ♦ BioTools ♦ WebPrimer Kalkulátory vlastností primem ♦ IDT Oligo Analyzer (http://eu.idtdna.coiri/SciTools/SciTools.aspx?cat=DesiqnAnalvze) BioMath (http://www.promeaa.com/biomath/calc11 .htm) ♦ PrimerBlast UCSC In-Silico PCR ♦ AutoDimer Oligo Calculator QJigo Cg\c: Oligonucleotide Properties Calculator Enter Oligonucleotide Sequence Below OD calculations are for single-stranded DNA orRNA Nucleotide base codes 5' modification (ifany) 3' modification (ifany) Select molecule ssDNA cC EC nM Primer mM Salt (Na+) Measured Absorbance at 260 nanometers calculate Swap Strands BLAST mfoW Physical Constants Me Itirg Temperature (T^) Calculations Length: C Molecular Weight: GC content: 1 ml of a sol'n with an Absorbance of is microMolar^ and contains at 260 nm micrograms. Thermodynamic Constants Conditions: 1 M NaClat 25"C at dH 7. RlnK cal/("K*mol} deltaG Kcal/mol Deprecated Hairointaelf dimerizatiori calculations 5 t [Minimum base pairs required for single primer self-dimerization) 4 T (Minimum base pairs required for a hairpin) deltaH deltas °C (Basic) "C [Salt Adjusted) "C [Nearest Neighbor) Kcal/mol cal/[°K*mol) Check Self-Complementarity Citation: Kibbe WA. 'OligoCalc: an online oligonucleotide properties calculator'. (2007) Primer 3 (http://frodo.wi.mit.edu/primer3/input.htm) Primer3 Input (version 0.4.0) - Mozilla Firefox Soubor Úpravy Zobrazení Historie Záložky Nástroje Nápověda T C X ^ (\v http://rroďo" . wi. mit. edu/pNrrier3/input. htm ' £1" Google \v PMmeľ3 Input (version 0.4.0) PrilTlSr^ (v. 0.4.0) Pick primers from a DNA sequence. Checks for mispiiming in template. disclaimer Piimer3 Home Printer3i>ms interface cautions FAQ/wna Paste source sequence below (5'->3', string of ACGTNacgtn -- other letters treated as N -- numbers and blanks ignored). FASTA format ok. Please N-out undesirable sequence (vector, ALUs, LLNEs, etc.) or use a Mispnrning Library (repeat library): NONE >SA44kkj001 [org=Staphylococcus aureus] [strain=CCM 885] [clone = 7/IV] Staphylococcus aureuss < EcoRI-clone from common 44 kin Smal fragment gaattcaaaaccagcaaaagctgtgaaaaagccattaccaagtaaagataatttggctatattgtatggagaaggatttcatatttgtaaaggcgI aattatttggaaaacatcgacatggtgaagattgtctgttctgtttagaagttttaagtgattaatcaagcacactcaaatagtgttataattat aaatgaatatggtttggataagtctgagacaatgcatgtttcaggctttaattgtgtataaagttttggtgattgcataagagatggcggtacta aatgttattattaagtgtgcacgcagtatcattagttataaaatgtagctgttaaaagtcaaaaatacatcgaatgtagttaggcatataatataQ JĽ 0 Pick left primer, or use left primer below: D Pick hybridization probe (internal oligo), or use oligo below: 0 Pick right primer, or use right primer below (5' to 3' on opposite strand): Pick Primers Reset Form Sequence Id: Targets: Hotovo A string to identify your output. E.g. 50,2 requires primers to sun^ui^ [ and ]: e.g. ...ATCT[CCCC]TCAT.. E.g. 50,2 requires primers to surround the 2 bases at positions 50 and 51. Or mark the source sequence with . U1C £ □cllCS 0.1 positions JU dllU. Jl. IlldllL uic i means that primers must flank the central CCCC. @Primer3 Input (version 0.4.0) - Mozilla Firefox Soubor Úpravy Zobrazení Historie Záložky Nástroje Nápověda T O ťíí ( W http: //frodo, wi, mit, edu/prirner3/iriput, htm \v Primer3 Input (version 0.4.0) Pick Primers Reset Form Sequence Id: Targets: Excluded Regions: Product Size Ranges A string to identify your output. E.g. 50,2 requires primers to surround the 2 bases at positions 50 and 51. Or mark the source sequence with [ and ]: e.g. ...ATCT[CCCC]TCAT.. means that primers must flank the central CCCC. E.g. 401,7 68,3 forbids selection of primers in the 7 bases starting at 401 and the 3 bases at 68. Or mark the source sequence with < and >: e.g. ...ATCTTCAT.. forbids primers in the central CCCC. 1 50-250 1 00-300 301-400 401-500 501-600 601-700 701-850 851-1 000 Number To Return Max Repeat Mispiirning Max Template Mispiirning Max 3' Stability 9.0 12.00 Pair Max Repeat Mspriming 24.00 12.00 Pair Max Template Mispriming 24.00 Pick Primers Reset Form General Priineľ Picking Conditions Primer Size Min: Primer Tm Min: Product Tm Min: Primer GC% Mb: Hotovo 57.0 20.0 Opt: Opt: Opt: Opt: 20 60.0 Max: Max: Max: Max: 27 63.0 Max Tm Difference: 100.0 Table of thermodynamic parameters: Breslauer et al. 1986 v"| 80.0 Primer3 Output (p rime r3_resu Its. cgi release 0.4.0) - Mozilla Firefox 5oubor Úpravy Zobrazení Historie Záložky Nástroje Nápověda T C X ťfr (\V http://frodo" . wi. mit. edu/cgi-bin/primer3-web-cgi-bin-0,4,0/prinner3_results. cgi fy T 41" Google j j W Priměr3™GuIpíjr(příměr3^^ PRIMER PICKING RESULTS FOR SA44kfci001 [oug=Staphylococcus aureus] [stuain=CCM SS5] [clone=7/IV] Staphylococcus aure No niispuiniing library specified Using 1-based sequence positions OLIGO start len tin gc% any 3' seq LEFT PRIMER 159 2 5 57.21 32.00 6.00 2.00 AATCAAGCACACTCAAATAGTGTTA RIGHT PRIMER 42 9 2 5 58.40 3 6.00 4.00 3.00 AACTCCTATGAAGACAACCTTTTTC SEQUENCE SIZE: 2052 INCLUDED REGION SIZE: 2052 PRODUCT SIZE: 271, PAIR ANY COMPL: 5.00, PAIR 3' COMPL: 3.00 TARGETS (start, len)*: 200,200 1 GAATTCAAAACCAGCAAAAGCTGTGAAAAAGCCATTACCAAGTAAAGATAATTTGGCTAT 61 ATTGTATGGAGAAGGATTTCATATTTGTAAAGGCGAATTATTTGGAAAACATCGACATGG 121 TGAAGATTGTCTGTTCTGTTTAGAAGTTTTAAGTGATTAATCAAGCACACTCAAATAGTG >>>>>>>>>>>>>>>>>>>>>> 181 TTATAATTATAAATGAATATGGTTTGGATAAGTCTGAGACAATGCATGTTTCAGGCTTTA >>> ***************************************** 241 ATTGTGTATAAAGTTTTGGTGATTGCATAAGAGATGGCGGTACTAAATGTTATTATTAAG ************************************************************ 301 TGTGCACGCAGTATCATTAGTTATAAAATGTAGCTGTTAAAAGTCAAAAATACATCGAAT ************************************************************ 3 61 GTAGTTAGGCATATAATATAAAAAGAGTTTTCAATTACTCAATAGAAAAAGGTTGTCTTC *************************************** <<<<<<<<<<<<<<<< <1 UN I___S Hotovo Primer3Plus - rozšířené rozhraní (2007) Primer 3 http://www.bioinformatics.nl/cqi-bin/primer3plus/primer3plus.cqi ^^y^C?) B. http://www,bioinf... P ' § Ď — Prirner3Plus ° II B llwsawl Q & ® Main General Settings Advanced Settings Internal Oligo Penalty Weights Sequence Quality" P rime r3 Plus P rim er3M an ager Help. pick primers from a DNA sequence Source Code Task: Deflection Select primer pairs to detect the given template sequence. Optional^ targets and 'snciuded'excludedregicnz can be specified. Pick Primers Reset Form Sequence Id: Paste source sequence below Or upload sequence file: Procriazet... Upload File Mark selected region: Clear Save Sequence Excluded Regions: Targets: Included Region: 0 Pick left primer or use left primer bel < I } □ Pick hybridization probe (internal oligo) or use oligo below. 0Pick right primer or use right primer below (5"->3' on opposite strand). ^,90% Primer Z: streamlined primer design for promoters, exons and human SNPs http://qenepipe.nqc.sinica.edu.tw/primerz/beqinDesiqn.do Oligo j>j Oligo 7 Demo - Human elF-4E.seq File Edit Analyze Search Se[ect Change View Window Help a, a* & Seq uence File: Human elF-4E.seq DNA Sequence Selected Oligo Position Length # Feature Location Sequence Length: 1868 nt IE S Forward Primer 997 22 1 source 1-13.1850 Reading Frame: +1 IE □ Reverse Primer 1061 21 Current Oligo Length: 21 nt IE □ Upper Oligo 956 21 Position: 956 0 Lower Oligo — — H> W 49.1°C | IE PCR Product [35,- -]nt 2*0 ,400 ,4*0 |3GU i6O0 |6*0 |7O0 |t*jj |EUU |EOJ ijTT^.I | I| IU3U | I ILU | I IOJ | liLU | linj | 900 ,S*0 ,1000 ,10*0 ,1100 ,11*0 ,1300 ,12*0 ,1JO0 ,12*0 ,1400 ,14*0 ,1*00 ,1*SO ,1600 ,1640 ,1700 ,17*0 ,1300 pos: tm: ,950 ,960 ,970 ,980 ,990 ,1000 ,1010 ,1020 ,1030 .1030 ,1050 ,1060 ,1070 ,1030 ......i.........i.........i.........i.........i.........i.........i.........i.........i.........i.........i.........i.........i.........i..... TGGCATTTCTATACTTTACAGG.............................. ACATACAGATTTTAC CTATCC......................... ATTACCATTAAITACATACAGATTTTACCTATCCACAATAGTCAGAAMCAACTTC TAATGGTAATTAATGTATGTCTAAAATGGATAGGTGTTATCAGTCTTTTGTTGAAC C GTAAAGATATGAAATGTC CTTTTTTTTAAGACAACAAGGTAAAATACGTCTTC GTATAAAAC GAC CAAACTTTCTAATACTAC GTA CGACCAAACTTTCTAATACTA ITINYIQILPIHHSQKTTUHFYTLQEKKFCCSILCRSIFCWFERL-CI 1L ^eady.. PCR Primer Mapping - UCSC In-Silico PCR http://qenome.ucsc.edu/cqi-bin/hqPcr?db=mm9 Genomes Tables Gene Sorter Session UCSC In-Silico PCR Genome: Mouse Assembly: Forward Primer: Reverse Primer: Jul. 2007 v TGCACCACCAaCTGCTT GGATGCAGGGATGATG' submit Max Product Size: 50000 Min Perfect Match: 18 Min Good Match: 18 Flip Reverse Primer: □ About In-Silico PCR In-Silico PCR searches a sequence database with a pair of PCR primers, using an indexing strategy for fast performance. Configuration Options Genome and Assembly - The sequence database to search. Forward Primer - Must be at least 15 bases in length. Reverse Primer - On the opposite strand from the forward primer. Minimum length of 15 bases. Mas Product Size - Maximum size of amplified region. Min Perfect Match - Number of bases that match exactly on 3' end of primers. Minimum match size is 15. Min Good Match - Number of bases on 3' end of primers where at least 2 out of 3 bases match. Flip Reverse Primer - Invert me sequence order of the reverse primer and complement it. Output When successful, the search returns a sequence output file in fasta format containing all sequence in the database mat lie between and include the primer pair. The fasta header describes me region in the database and the primers. The fasta body is capitalized in areas where the primer sequence matches the database sequence and in lower-case elsewhere. Here is an example: >chr22:31000551+31001000 TAACAGAT T GAT GAT GCAT GAAAT GGG CCCATGAGTGGCTCCTAAAGCAGCTGC TtACAGATIGAT GAT GCAT GAAAT GGGgggt ggc c aggggt ggggggt ga ga.ctgcagsga.asggcagggctggttca.tascaagc:t.ttgtgcgtccca.a. tatgacagctgaagttttccaggggctgatggtgagccagtgagggtaag Výsledky Výběr optimálního páru primem Sekvence primem Délka primerů a hodnota Tm Velikost produktu Posouzení sekundárních struktur Podmínky reakce Alternativní primery Pokročilý návrh primem ■ Alelově specifické primery ■ Molekulární diagnostika ■ Vícenásobné detekce - primery pro multiplex PCR ♦ Zajištění kompatibility primem v reakci ■ Konsenzní primery ♦ Pro klonování ♦ Pro PCR-RFLP (např. 16S rRNA) ♦ Vyžaduje identifikaci konzervativních oblastí na základě mnohonásobných přiložení sekvencí (multiple alignment) ■ Primery pro modifikaci konců produktů PCR Modifikace konců DNA, Připojení sekvencí prostřednictvím 5£-konců primerů Cílová sekvence 3' 5' Denaturace j a připojení primerů 1 a 2 Primer 1 GCGC AAQC?> Hiná\\\ 5' gcgcaJagctt —I 3' cgcgttcg|^a j PCR Target region 3' 0řTAAGCCGG 5' Primer 2 5" Eco Rl GJftATTCGGCC cttaagccgg „sticky foot" Přidávané sekvence ♦ RE místa ♦ Promotory ♦ Terminátory ♦ Translační signály Zdroje pro návrh multiplex PCR ■ NCBI/ Primer-BLAST ■ MultiPLX (http://bioinfo.ebc.ee/multiplx/) ■ PrimerStation (http://ps.cb-k.u-tokvo.ac.ip/index.html) ♦ Lidský genom ♦ Specifikace exonů ♦ Vyloučení variabilních oblastí se SNP ■ Oligo Explorer (http://www.qenelink.com/tools/ql-oe.asp) ♦ Posouzení dimerů primerů v multiplexovém uspořádání Webové zdroje pro design primem pro real-time PCR ■ NCBI Probe Database RTPrimerDB ■ Primer Bank ■ qPrimerDepot PCR-QPPD ■ PerIPrimer Komerční databáze (např. ROCHE,...) NCBI Probe ) ri >v/probe/^tati sties/ p' §0 H Statistics - Probe - NCBI CID IS Ntfil Resources v How To ^ Probe F'obe LinitE Advanced Sign nto NSB Help ÄThc iitaimaöcri an Helvied iH= re-Tin Ina -sensit*-: fc-ul, due ta tJic Inpie ingnvErnmEntnjndrs, the InrcrmnUnn mevriol de upTodnte, £"rd Die nuenQfrnajr natüc efct pk pendln nquHea until approprtslIons- an; tna^ad. Far updates regarding gownrre-in speralltg i:alui ia= u3a gov Welcome to Probe Database The NC3I Prabe Database is a public registry of nucleic acid reagents designe: For use in a v*da variety of biomedical research applications, tngetfie information on reagent distributors, probe effectiveness, and computed sequence similarities. Number of PnobeOB entries by experimental application. with Application Probes Genctvoing 10.Hm.414 Gene Expression 3.923.495 Gene Silencing 491.719 SNP Discovery 309.174 Genome Maoomg 288,650 Number of ProbeDE entries by probe type. Probe Types Frobes Seguenca-specfic Oligonutectba i!3SO) 4.503.564 Mkraarrav Element (micraarray') 2r508,311 Bead Micca-av Element 2.476,994 Ta:Man Sa-e- EKiMessicn fTaqMan; 2,911,944 Primsr Set (primer set) 335,292 DMA Micas Element-CDMA rracroarravl 748,193 Subnnhdb = r:*erina Default Prabe Tvoe (genericl 591,499 Raieguenc:nq Amc-con ■-■.SA]- 430,191 Lang Range Primers fLcna Rancs Primers) 302,929 Simple Sequence Repeats i'SSR'i 201,225 Small Hmvm RNA fshRfWJ 270,511 Small Interfering RNA fsiRPIA^ 177,534 Další technologie vyžadující návrh oligonukleotidů Real-time PCR ♦ TaqMan ♦ Molecular Beacons Primer extension Sekvenování ♦ Sangerovo sekvenování ♦ Pyrosekvenování Ligázová řetězová reakce Microarrays 4. Manipulace se sekvencemi proteinů • Výpočet molekulové hmotnosti a Pl • Mutageneze • Predikce sekundárních struktur • Alignment struktur • Vizualizace struktur Nejčastěji používané softwarové balíky pro manipulaci se sekvencemi a jejich analýzu Accelrys GCG Package (Accelrys Inc., San Diego, CA) Vector NTI® (Life Technologies, Carlsbad, CA) CLC Genomics Workbench (CLC bio, Cambridge, MA) The Bioinformatics Toolbox rozšíření pro MATLAB® Hitachi DNASIS® MAX Sequence Analysis Software (Helixx Technologies, Inc., Canada) DNASTAR Lasergene (DNASTAR, Inc., Madison, Wl) Příklad software Vector NTI i ř Vector NTI - [pBR322] File Edit View Molecule Analyze Gel DB List Tools Window Help -Ifflx BD 1—j JJ iß) Ca a| ď| »1 Si| m w hTG J A ffn? (OG y iE" DNA Plasmi ATCC 37017 length: 43 storage ty form: Giro □ €3 Function CDS (3 Miscfe Promos RBS [2 S 0 s s 151 CTTGGTTATG CCGGTACTGC CGGGCCTCTT GCGGGATATC GTCCATTCCffl * I GAACCAATAC GGCCATGACG GCCCGGAGAA CGCCCTATAG CAGGTAAGGP ACAGCATCGC CAGTCACTAT GGCGTGCTGC TAGCGCTATA TGCGTTGATG TGTCGTAGCG GTCAGTGATA CCGCACGACG ATCGCGATAT ACGCAACTAC CAATTTCTAT GCGCACCCGT TCTCGGAGCA CTGTCCGACC GCTTTGGCCG 251 UJ Ready 200 bp-1200 bp 1201 bp [cd