Manipulace se sekvenčními daty Typy jednoduchých bioinformatických analýz 1. Přístup k datům a konverze formátů 2. Konverze dat, hledání 3. Výpočetní analýza sekvencí 4. Sestavení celogenomových sekvencí 5. Manipulace se strukturními daty 6. Návrh oligonukleotidů 1. Přístup k datům Přístup k nukleotidovým databázím NCBI EBI ♦ DDBJ Přístup k proteinovým a strukturním databázím PDB Zobrazení záznamů v databázích Získávaní dat Konverze formátů Editace Ziskäni a manipulace se sekvencemi Databases 1 Entrez SRS Retriva I System DNA Protein NCBI-GenBANK PIR DDBJ SWISSPROT EBI -EMBL EXPASY , PDB Information Sequnece, Pdb, Image Softwares I GCG SeqWEB Vector NTI GenoMAX CLC Workbench GenBANK GCG FASTA Staden Image Formats Sequence Converter Sdílení dat v základních databázích 1 NCBI GS!"! Bdi! k'. http://www. nebi. nlm.nih. gov/ "National Center for Biotechnology Information (NCBI) ■ ■ E M B L'. httP://www. ebi. oc. uk European Bioinformatics Institute (EBI) EMBL European Bioinformatics Institute DDBJ O D BÜ'. http://www. ddbj. nig. oc.jp/ ■■■■■■■■■■■■■■■■v National Institute of Genetics (NIG) ExPASy: http://tw.exPasy.org Expert Protein Analysis System Zápis sekvence ■ Sekvence - zápis posloupnosti jednoznačných znaků odpovídajících jednotlivým zbytkům (monomerům), které se nacházejí v odpovídající posloupnosti v dané makromolekule ♦ DNA nebo RNA od 5'-konce k 3ť-konci ♦ 5' CAAACGTCGTCTATCAGCATTAG 3' ♦ protein od N-konce k C-konci ♦ (NH2-) KRRLSALGPGGLTRR (-COOH) ■ používají se jednopísmenové kódy dle pravidel IUPAC Standardní kódy pro sekvence nukleových kyselin podle IUB/IUPAC A adenosin C cytidin G guanidin T thymidin U uridin R G/A (puRin) Y T/C (pYrimidin) K G/T (nukleosid s Keto skupinou) M A/C (nukleosid s aMino skupinou) S G/C (silná = Strong vazba) W A/T (slabá = Weak vazba) B G/T/C (not A) D G/A/T (not C) H A/C/T (not G) v G/C/A (not T) N A/G/C/T (jakýkoli) - mezera (gap) neurčené délky Využití zápisu s degenerovanými nukleotidy TACGGT TATAAT TATAAT GATACT TATGAT TATATT Konsenzní sekvence: TATAAT TATRNT Standardní kódy pro sekvence aminokyselin podle IUB/IUPAC A alanin B kys. asparagová nebo asparagin C cystein D kys. asparagová E kys. glutamová F fenylalanin G glycin H histidin I isoleucin K lysin L leucin M metionin N asparagin P prolin Q glutamin R arginin S serin T treonin U selenocystein V valin W tryptofan Y tyrosin Z kys. glutamová nebo glutamin X jakákoli aminokyselina * translační stop (terminační kodon) mezera (gap) neurčené délky Běžné formáty sekvencí http://orion.sci.muni.cz/kgmb/bioinformat/sea samples.htm ■ Prostý text ■ FASTA ■ FASTQ ■ Genbank ■ EMBL ■ GCG ■ PIR ■ ASN1 ■ Výstupní data sekvenování: ABI, AB1, SCF, SFF, BAM, SAM, FASTF aj. Formáty sekvencí obsahující mnohonásobná přiložení ■ Multi FASTA ■ Phylip ■ PAUP/NEXUS ■ Clustal ■ MSF AACCTGCGGAAGGATCATTACCGAGTGCGGGTCCTTTGGGCCCAA CCTCCCATCCGTGTCTATTGTACCCTGTTGCTTCGGCGGGCCCGC CGCTTGTCGGCCGCCGGGGGGGCGCCTCTGCCCCCCGGGCCCGTG CCCGCCGGAGACCCCAACACGAACACTGTCTGAAAGCGTGCAGTC T GAGT T GAT T GAAT GCAATCAGTTAAAACT TT CAACAAT GGAT CT FASTA FORMAT Může obsahovat více sekvencí Začíná specifickým záhlavím („>") Příklad: >U03518 Aspergillus awamori internal transcribed spacer 1 (ITS1) AACCTGCGGAAGGATCATTACCGAGTGCGGGTCCTTTGGGCCCAACCTCCCATCCGTGTCTATTGTACCC TGTTGCTTCGGCGGGCCCGCCGCTTGTCGGCCGCCGGGGGGGCGCCTCTGCCCCCCGGGCCCGTGCCCGC C G GAGAC C C CAACAC GAACAC TGTCTGAAAG FastQ FORMAT Obsahuje informaci o kvalitě stanovení sekvence Příklad: @HWUSI-EAS10 0R:6:73:941:1973#0/1 GAT T T GGGGT T CAAAGCAGTAT CGAT CAAATAGTAAAT CCAT T T GT T CAACT CACAGT T T + !''*((((*** + ))%%% + +) (%%%%).1***- + *'')) **55CCF»»»CCCCCCC65 Nejnižši kvalita nejvyšši kvalita !"#$%&X)*+r-/0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]Vabcdefghijklmnopqrstuvwxyz{|}~ EMBL FORMÁT Začíná řádkem s jedinečným identifikátorem (ID), následuje anotace . Obsahuje mnoho různých deskriptorů Sekvence začíná symboly SQ a sekvence je ukončena „//" Může obsahovat více sekvencí Příklad: ID XX AC XX DE DE XX SQ AA03 518 U03518; standard; DNA; FUN; 237 BP Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S rRNA and 5.8S rRNA genes, partial sequence. Sequence 2 37 BP; 41 A; 7 7 C; 67 G; 52 T; 0 other; aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc GENBANK FORMAT Začíná řádkem LOCUS Obsahuje mnoho různých deskriptorů Začátek sekvence je vyznačen ORIGIN a sekvence je ukončena „//" Příklad: LOCUS AAU03518 237 bp DNA PLN 04-FEB-1995 DEFINITION Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S rRNA and 5.8S rRNA genes, partial sequence. ACCESSION U03518 VERSION U03518.1 GI 1235658 BASE COUNT 41 a 77 c 67 g 52 t ORIGIN 1 aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc 61 tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg 121 ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc 181 tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc // CLUSTAL/MUSCLE FORMAT Začíná řádkem s definicí Vkládá mezery do sekvence tak, aby při mnohonásobném přiložení byly identické zbytky nad sebou Příklad: Můo r-rllú_thĚrrt«úc et i tOTCO&Ů/'}.-. Aitirtiúntfe^degĚrisit JÍC4_-_r"nů, 5 Amtionife>LdegensLÍ_lí]C4_-_rna, 31 Candidatu s_Desul f a rudi s_úuda atúi\ Candidůtu S_DeSu"l fů rudl S_úudúxVÍútúr,_ ..........GTTTGATCaGGCTUGGAtAAACGCTGGCGGCGTGCCTAACACATGCAA 50 .......AGMTTTCňTCtTŮGaCAÍiGACGAACGaúGCGÚCÍTÚCCTAACACATCCAA 53 -------AGGGTTTGATCaGGaCAGGAtGAACGCTGGCGGCGTGCCTAACACATGCAA 53 MPl04t_-_DAuD_RS007a0 TTTATGGAGAGTTTCATCCTGGCTCAÍGAtlGAACGCTGGCGGCGTGCCTAACACATGCAA 60 MPlŮ4tl_-_DAUti_flSŮĚ92Ů TTTATGCAGACTTTCATCtTGGCTCAÍGAtlGAACGCTGGCGGCÍTGCCTAACACATCCAA 60 4***4 4***.********i***********-********************4***4***4 HOú rtllú_thĚrrtBúC et i cn_ATCC_39Ů/'3_-_ rria. 40 Airitiontfex_degensU jCjC4_-_rnu, 5 Aintiúnifex_degĚri£Íi_lí]fl4_-_rria, 31 Cand Ldatu s_Desu"l fů rudi s_auóa* viator_MPlŮ4C_-Cand Ldatu s_Desul f o rudí s.auda* viator_MPia4tl_- GTCGAGCGGTCTTTAATTÍGGGAAATCTTCGÍATKAACCGATTAAACATAGCGGCCGAC 11Ů GTCGAGCGGGCTT......GTCAGGGCCTTGTGT----CaGGCAA&TTGAGCGGCGG AC 103 GTCGAGCGGGCTT......GTCAGGGCCTTGTGT----CCTGGCAAGTTGAGCGGCŮ6AC 103 .ĎAUD_I1SB07M G TCGTGCGA—TTG AGAGGTGAGCATCTCACTT----CTCAA......GAGCGGCGGAC 107 .DAUD_RC0Ů920 G TCGTGCG A— TTGAGAGGTGAGCATCTCACTT----CTCAA------GAGCGGCCGAC 107 ii*4 *-*■ 1*4»-* m*4>'*4> Poznámka k používaným fontům ♦ Všechny znaky stejná šíka cttaa.aaa.aa. ♦ Courier, Monospaced ■ K editaci jsou vhodné editory, které neukládají informace o formátu textu (Notepad, vývojářské editory - PSPad, aj.) ■ Některé formáty jako např. GCG obsahují vnitřní kontrolní součty ■ Proporcionální fonty ♦ Arial, Times ♦ Každý znak - jiná šířka ♦ Nevhodné pro zápis gaattttttt sekvence ■ Neproporcionální fonty ♦ Vhodné k použití Surová data - elektroforetogramy ze sekvenování v kapiláře ■ Různé formáty ♦ *.abi ♦ *.ab1 ♦ *.scf ■ Prohlížeče Chromas Lite ♦ ABIView ♦ Ridom Trace Edit ■ Export ♦ FASTA ♦ Prostý text □ Formáty z NGS vyžadují zpracování Lipl-il.abl - Chromas File Edit Options Help g£ H V 3 -+N Sample: Lipl-il Base 132 Op en Save Export Print Next Find 10 0 110 120 130 T C C C C G T G C C G CG G T C CATC Á C C T C A A C A C C A C A T A A G G C G C A G P V S o P ^ c P R P A ,5 T T L _ N T S T Q H H «.G* R A I ir L J i Qp| líc, r v; JaJ»«4»í_A87S0_16Si »1 [C Vfoonw l_ceteu»_All778_16Sr.abl (C:\progtav |jyA.ř>*.»l [CVragta l3cJ«us_A2W»J6Sf.«bI lC:\Ptoff«:S»J«í»068.»cCStJ) [ClDotaj F30tó.»cCSa.ríx*<:onb9 [C:\Doiuiiertey t3BjraO-A23?45J6Sf *bl [C^P»o<»«nim l|3c_»odov_A4»68J69.«bl [C:\fVojr«« f^A>y*opiv A:5654_:6Sf.4M (CPragra Qc_»odov_A«3868.l$5r.íbl [CVrOřW < Posíwi: 9 Quaky: 24(C) Selected: 0 Jednoduché formáty sekvencí mají omezení a neobsahují Data o expresi genů Variace a polymorfismy WWW odkazy na další informace Specifické informace o zdroji sekvence (organismu, klonech, ...) Informace o kvalitě Konverze formátů sekvencí UNIX-GCG ♦ To Genbank, To Fasta.... ♦ From Genbank, From Fasta... READSEQ, SEQRET ■ http ://www. ebi. ac. u k/Too ls/sf c/readsea/ SMS - The Sequence Manipulation Suite v2 ♦ http://www.bioinformatics.org/sms2/ ♦ EMBLto FASTA ♦ GenBank to FASTA ♦ Reverse Complement ♦ Filter DNA / Protein Nucleic Acid Sequence Massager http://www.attotron.com/cybertory/analysis/seqMassager.htm 2. Manipulace se sekvenčními daty • Převod informace mezi řetězci • Reverse-complement • Hledání motivů • Přesné • Podobné • Přepis a překlad podle ústředního dogmatu • Transkripce • Translace - genetický kód • Sekvenční přiložení • Párové, stanovení identity a podobnosti • Mnohonásobné, identifikace konzervativních motivů • Assembly - kompletace a sestavení genomů • Spojování, rozdělování • Restrikční štěpení • Klonování in silico, konstrukce vektorů a rekombinantní DNA pro přípravu proteinů Převod informace mezi řetězci Nástroj Reverse Complement http://www.bioinformatics.org/sms2/rev comp.html >Sample sequence 1 5' C CRGGATAT 6AT C T KC G 3' Hledání motivů v sekvencích Hledání slov = uspořádaná množina znaků GAATTC GARYTC GAAN(1-50)TTC Standardní příklady hledání ■ Reštrikční místa ■ Repetice ♦ prime ♦ Obrácené (vlásenky se smyčkou) ■ Konsenzní vzory ■ Uživatelem definované vzory ■ Otevřené čtecí rámce ■ Základ pro hledání genů a funkčních oblastí Reštrikční analýza in silico Reštrikční endonukleázy třídy II ♦ Sekvenčně specifické endonukleázy, které štěpí DNA v rozpoznávaných sekvencích ♦ Přehled dostupný v databázi REBASE- Restriction Enzyme Database http ://rebase. neb .com/rebase/rebase. html Sekvence rozpoznávacích míst Producent enzymu ♦ Reference ♦ Komerční dostupnost ♦ Sekvence genů ♦ Krystalografická data ♦ Citlivost k metylaci ♦ REBpredictor - predikce rozpoznávací sekvence u nových enzymů ♦ Rebase genomes - identifikace genů pro RE v genomech Software pro reštrikční mapování Konstrukce restrikčních map na základě analýzy sekvence DNA-vyhledání restrikčních míst ♦ Nezbytný předpoklad pro klonování ♦ Interpretace RFLP polymorfizmu ♦ Simulace výsledků gelové elektroforézy restrikčních fragmentů Virtuální klonování Vytvoření kvalitní grafiky ilustrující reštrikční mapy ♦ RestrictionMapper (http://www.restrictionmapper.org/) ♦ WebCutter (http://www.firstmarket.com/cutter/cut2.html) ♦ NEB Cutter v2.0 (http://tools.neb.com/NEBcutter2/) ♦ EMBOSS Restrict (http://bioweb.pasteur.fr/seqanal/interfaces/restrict.html) ♦ Restriction Maps (http://arbl.cvmbs.colostate.edu/molkit/mapper/index.html) ♦ pDRAW32 (http://www.acaclone.com/) Výsledky reštrikční analýzy in silico ■ Enzymy - výstup tabulka ♦ kompletní sada ♦ komerční sada ♦ které sekvenci neštěpí ♦ které štěpí - počet a pozice rozpoznávacích míst ■ Lineární nebo kružnicová mapa sekvence se znázorněním pozice restrikčních míst ♦ Grafika ♦ Identifikace ORF a translace do proteinu NEB Cutter http://tools.neb.com/NEBcutter2/ http://took.neb.... p - § Ö NEB cutter \nvf.™.i.Mf BbLabs.. NEBc utter Circular Sequence: LOS752 Help Comments Display: - XEB single cutter restriction enzymes - Mam non-overlapping, min. 100 aa ORFs GC=51%, AT=49% — Cleavage code — I I blunt end cut \ I 5' extension ^ I 3' extension T I cuts 1 strand — Enzyme name code Available from NEB Has other supplier Not commercially available *: cleavage affected by CpG meth. #: cleavage affected by other meth. (enz.nameli: ambiguous site WARNING: Not all enzymes shown See linear display *Tspr1I *AvaI *Smal BamHI ■Xbal -*SalI *AccI -*HincII Sbfl PstI ElfuAI BspMI SphI Hindlll Vyhledání otevřených čtecích rámců ORF (Open Reading Frame) Sada překládaných kodonů mezi iniciačním a terminačním kodonem Výsledek je závislý na použitém genetickém kódu U prokaryot, které nemají introny je základem hledání genů U eukaryot zpravidla využíváme analýzu sekvencí komplementární DNA (cDNA) ORF Finder (Open Reading Frame Finder) https://www.ncbLnlm.nih.gov/orffinder/ H ORF Finder -> C D www.ncbi.nlm.nih.gQv/gorf/ ORF Finder (Open Reading Frame Finder) PubMed Entrez BLAST Taxonomy Structure The ORF Finder (Open Reading Frame Finder) is a graphical analysis tool which finds all open reading frames of a selectable minimum size in a user's seguence or in a seguence already in the database. This tool identifies all open reading frames using the standard or alternative genetic codes. The deduced amino acid seguence can be saved in various formats and searched against the seguence database using the WWW BLAST server. The ORF Finder should be helpful in preparing complete and accurate seguence submissions. It is also packaged with the Sequin seguence submission software. Enter Gl or ACCESSION or sequence in FASTA format OrfFind Clear AF513857 FROM: TO: Genetic codes 11 Bacterial Code □ >bac TCGC GGT( TTCT CTTT NCBI I Tools for data mining GenBank sequence submission support and software FTP site download data and software Translace in silico ■ 6 možných čtecích rámců ■ Vymezené oblasti - exony ■ Jaký genetický kód? ♦ Databáze genetických kódů v NCBI ♦ http://www.ncbi.nlm.nih.gov/Taxonomv/Utils/wp rintqc.cqi EMBOSS Transeq http://www.ebi.ac.uk/Tools/st/emboss transeq s -ittp: ebi.ac... P' gß EMBL-EBI EMBOSS Transeq < Sequen.. Services Research Training Industry About us EMBOSS Transeq Input form j Web services j Help & Documentation Sequence Translation > EMBOSS Transeq EMBOSS Transeq EMBOSS Transeq translates nucleic acid sequences to their corresponding peptide sequences. It can translate to the three forward and three reverse frames, and output multiple frame translations at once. STEP 1 - Enter your input sequence Enter or paste a set of [DNA/RNA v/| sequences in any supported format Or. upload a file: Procházet... 2 3 F (Forward three frames) -1 -2 -3 R (Reverse three frames) 6 (All six frames) CODON TABLE Standard Code ost users and, for that reason, are not visible. \ 100% - Příklady translace in silico rn ExPASy * Bioinformatfcs Resource Portal Translate Tool - Results of translation Open reading frames are highlighted in red. Please select one of the following frames S31 Frame 1 LLZCCAKSNSETTFAMPLDT CGAMSQGMIGYWLET EINRILT EMKS DRTVGTIVT RVEVD KDDPRFDHPT KPIGPFYT KE EVE E LQKE QPDSVFKE DAGRGYRKWAS PLPQSILE HQLI QT LADGKHIVIACGGGGIPVIKKENT YE GVEA ff3' Frame 2 Y- SNKLNRTVTQRRQGHWILWQGHRV—AIGWKLKSIAF- LK-1VIE L - AQS L HVWK-1 KMIHDLIT QLNQLVLFIRKKKLKNYKKNS QT QS LKKMQDWIEK-1 at. r. Y1HL Y-NT S-F KL - C T VKI LSI HAWAVFCI - KKK - FMKVLK Frame 3 INP TS-IEJQ-HNAGNAIGYLWCNVT GYDRL L VGN-NQS HFN-NE---NC RHNRYT C GS R- R-STI — FN-TMW5 FLYERRS-RIT KRTARLS L-RRC RTffL-KS S CVTTT SIYTRTPVNS NFS RR-KYC HCMRWWRYS S YKKRKYL-RC-S Příklady translace in silico EMBOSS Sixpack Input form Web services Help & Documentation Tools > Sequence Translation > EMBOSS Sixpack Results for job ernboss_sixpack-l2Q141006-192122-0940-32029869-oy Result Summary Tool Output Submission Details Download Sixpack File EMBOSS 001 LL IQQA.KSH5DTT P A M P L D T Fl Y*SNKLNRIVTŮRRQCHWIL F2 IHPTS*IEQ*HNAGNAIGY1 F3 1 Ttatt^Tcc^CAaGCTAÄutCGÄACaGTGaCACAAOBCCGGa^TGCCArTGGÄTACT SO ----.----i---------1----.----1----.----i----.----1----.----i 1 AataaTl^igigtTGTtCGirrtaGCTTGtCÄCTGTGTTGCGGCCGrTÄCGGTAACCTATGa 60 XNIWCALDFLSVVGAI GIJSV F6 XI1GVL*ISCHCLAPLAMPY F5 **DLL5FRVTVCRRCHWQIS F4 CGAMSQGMI GYWLETEIHRI Fl VVQCHRV* ^AIGWKLKSIAF F2 WCNVTGYD^LIVGN * N Q 5 H F F3 61 TGTGGTGCAATGTCACAGGGTATGATAGGCTATTGGTTGGAAAGrGAAATCAATCGCATT 120 ----.----i----:----1----.----i----.----i----.----1----.----i 61 ACACCÄCGTTACAGTGTCCCATACTArCCGATÄACCAACCTTTGACTTrAGrTAGCGTAA 120 QPAIDCPIIP*QNSVSILRM F6 KBH1TYPYSLSNTPFQF*DC F5 TTCH*LTflTAI PQFSFDIAN F4 Manuální translace dle gentického kódu STANDARDNÍ GENETICKÝ KÓD Aminokyseliny = FFLLSSSSYY**CC*WLLLLPPPPHHQQRRRRIIIMTTTTNNKKSSRRWWAAAADDEEGGGG Q f a r»4- otari. JXL Bázel = UUUUUUUUUUUUUUUUCCCCCCCCCCCCCCCCAAAAAAAAAAAAAAAAGGGGGGGGGGGGGGGG Báze2 = UUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGG Baze3 = UCAGUCÄGUCÄGUCAGUCÄGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAG Rámec +1 DNA: AT G GAT GTA AAA GAA ATT AAT TAA mRNA: Proteir l : M D Rámec +2 DNA: A TGG AT G TAA AAG AAA TTA ATT AA mRNA: Protein: W M * Klonování in silico, konstrukce vektorů ■ Kombinace segmentů sekvencí ♦ známé/neznámé funkce ■ Plazmidy ♦ přebírané z databáze ♦ zpravidla známé funkce ♦ regulační sekvence pro expresi ■ Inzerty - obvykle nové sekvence ♦ charakterizované reštrikční mapou ♦ charakterizované sekvencí DNA ♦ charakterizované funkcí ■ Nomenklatura pro konstrukty není stanovena Clone Manager (Sci-Ed Software) http://www.scied.com/pr cmbas.htm [W1 Clone Manager File View Clone Map Primer Align Discover Operations Window Help D ď B H) SVNPUC18V [2686bps] a \S\ m £ ^ i=. ó\ U ^ @ ^ I '2' ™ _^ s x ^ -' Peil Afllll SapI Gsal BseYI AlwNI Narl Sfol B5tAPI Ndel .PfOl EcoOlÜ&I Aatll Zral Apol EcoRI Banll Eco53kI Sací Acc65I Kpnl Aval Srnal Xrnal BarnHI Xbal AccI Hindi Sali BspMI Sbfl Psü SphI Hind III Sspl Ahdl Bsal BsrFI Bpml NrneAIII Map RMap Sequence Features Info Xrnnl Assembly/ kompletace a sestavení Resekvenování vs. de novo sekvenování Next-generation DNA sequencing ,., CATTCAGTAG ... ... AGCCATTAG ... GGTAGTTAG GGTAAACTAG TATAATTAG CGTACCTAG Genomic DNA millions-billions of reads -30-1000 nucleotides Resequencing De novo assembly Align reads to reference genome and identify variants Construct genome sequence from overlaps between reads Princip assembly ^^^=---- -—-- — reads M- -► Pokrytí oblastí >x-násobnou redundancí Identifikace překryvů, sekvenční přiložení a rekonstrukce sekvence De novo assembly • Nezávislé na referenčním genomu • Parametry • Délka čtení • Pokrytí genomu (coverage) • Velké množství dostupných algoritmů • Znakové metody • Grafové metody • Výpočetně náročné Princip hledání překryvů Vytvoření všech /c-merů ve čteních, (např. k ~ 24) Roztřídění čtení do skupin, které sdílejí /c-mer Přiložení párů, které sdílejí /c-mer Mapování a rozšíření sekvenčních přiložení TACA TAGAT TACACAGAT TAC T GA II I I I I I I I I I I I I I I I I I I II TAGT TAGATTACACAGATTAC TÁGA k-mer size optimum Mapování Vytvoření sekvenčního přiložení z jednotlivých čtení TA19 TTAďAďAgATTATTďA Repetice jsou příčinou rozdělení genomů do kontigů RPT A1 RPT A2 Čtení z mnoha podobných repetic vedou k vytvoření kontigů s pozměněnou strukturou Kontig tvořený jedinečnou sekvencí, ohraničený repetitivními sekvencemi Grafové metody využité v de novo sestavení • Dva přístupy OLC (overlap layout consensus) DBG (de Bruijn graph) • Graf je vygenerován s použitím čtení a jejich překryvů • OLC • vrcholy (uzly) sestavené sekvence • hrany mezi vrcholy reprezentují překryvy • optimální průchod - každý vrchol je navštíven pouze jednou • DBG • vrcholy (uzly) jsou překryvy • hrany mezi vrcholy reprezentují unikátní sekvenci každého čtení • optimální průchod - každá hrana je navštívena pouze jednou Příklady assemblerů Znakové • SSAKE • VCAKE G raf o vé OLC (overlap layout consensus) • Celera • Edena • Newbler • SMRT Analysis DBJ (de Bruijn graph) • EULER • Velvet • SOAPdenovo • ALLPATHS-LG • MIRA • SPADES • A5-miseq Znázornění repetic v grafu • Krátká čtení, hlavní příčina omezení kompletního sestavení • Stejná sekvence se vyskytuje v genomu vícekrát • Délka čtení není schopna překlenout tuto repetici • Pokrytí může indikovat multiplicitu Příklad de Bruijnova grafu plasmidu Příklad de Bruijnova grafu u mikrobiálního genomu (lllumina) Hybridní assembly a bridging Kombinace krátkých čtení (lllumina, lonTorrent) a dlouhých čtení (PacBio, Nanopore) umožňuje hybridní assembly Dlouhá čtení: hledání cesty mezi repeticemi Repeat region in unbridged graph Consensus read sequence Semi-global long read alignment ~ -- Remove ends aligning J l to single-copy contigs \y Multiple sequence J I alignment \/ Consensus Path finding Bridged graph Odvození konsensní sekvence, identifikace jednonukleotidových polymorfismů TAGAT TACACAGAT T AC T GA TTGATGGCGTAA CTA TAGATTACACAGATTACTGACTTGATGGCGTAAACTA TAG TTACACAGATTATTGACTTCATGGCGTAA CTA TAGATTACACAGATTACTGACTTGATGGCGTAA CTA TAGATTACACAGATTACTGACTTGATGGGGTAA CTA ▼ TAGATTACACAGATTACTGACTTGATGGCGTAA CTA Derive multiple alignment from pairwise read alignments Derive each consensus base by weighted voting 3. Výpočetní analýza sekvencí • Počet residuí • Frekvence residuí • Analýza využití kodonů • Design oligonukleotidů a primem Analýza využití kodonů (codon usage) Využití synonymních kodonů ♦ není náhodné ♦ je rozdílné u různých genomů, které mají určité preferované kodony pro určité aminokyseliny ♦ může být problémem při expresi rekombinantních proteinů Databáze využití kodonů http://www.kazusa.or.ip/codon/ The Human Codon Usage Tahle Glľ 0G0 17.08 0 25 Aľ9 j AGG j 12.09 I 0.22 III TOG 14.74 1.00 Arg CGG 10.40 0.19 Slil 0GA : 19.51 : 0.26 Arg Iaoa I 11.75 j 0.21 End TGA 2.64 0.61 i Arg i COA 5.63 0.10 Slil OG1 j 15.66 j 0.18 Ser j AOT j 10.18 j 0.14 C'fi 101 9.99 0.42 j Arg j COI 5.16 0.09 Ďlv OGC 24.94 O.ii 5(r AOC 18 54 025 cw IGC 13.86 0 58 Arg COC 10 82 0.19 Olu . GAG . 38.82 . 0.59 IľS AAG i i 79 0 60 End IAO 0.73 0 17 Gin CAO 3295 i 0.73 Gl« GAA 27 51 041 Ivs AAA 22 32 040 End IAA 095 0.22 : Gin :CAA : 11.94 i 0.27 Asp OAT : 21 45 : 0.44 Asn i AAT i 16.45 i 0.44 il> lAI 11 80 0 42 His CAI 9.56 0.41 Asp OAC : 27 06 0 56 Asn AAC 21 30 :0 56 IAC 16 48 0 58 Hl! CAC 14 00 0.59 Uli OTO 28 60 : 0 48 Mel ATO 2186 100 Leu IIO 11 45 0 12 le» CTG 3993 043 Ml OIA 6 09 0 10 lit AIA 605 0 14 Leu IIA 5 55 006 le« CIA 642 0.07 uii : on : 10.50 0.17 lit All 1 5.05 0.55 Phe IIT 15.56 0.43 j Leu j CTT 11.24 0.12 Uli j 0TC j 15.01 j 0.25 lit jATC j 22.47 j 0.52 Phe IIC 20.72 0.57 ; Leu ; CTC ; 19.14 ; 0.20 All i OCO i 7.27 i 0.10 Ihr i ACS i 6.80 i 0.12 Ser ICO 4.58 0.06 ; Pro ; CCO ; 7.02 ; 0.11 All . OCA . 15.50 j 0.22 Ihr . ACA .15.04 . 0.27 ser ICA 10.96 0.15 j Pro j CCA j 17.11 i 0.27 All j OCT j 20.23 j 0.28 Ihr j ACT i 13.24 i 0.23 ser ICI 13.51 0.18 j Pro j CCT j 18.03 i 0.29 All I 0CC I 28.45 I 0.40 Ihr JAGG I 21.52 ! 0.38 Ser ICC 17.57 0.23 i Pro i CCC i 20.51 0.55 Navrhování sekvencí primerů pro PCR Štandardní primery Modifikované oligonukleotidy na 5'-konci pro klonování Oligonukleotidy jako hybridizační sondy pro real-time PCR ♦ specifičnost ♦ jedinečnost PCR : Polymerase Chain Reaction rzí—r 30 - 40 cycles of 3 steps : Step 1 : denaturation I minut 94 °C ' %0nnnnTľínnUT^^ y St 2 : annealing 45 seconds 54 °C v i ' N i s -, 3wJJRujmiaiuiuiiiiuĽiili 5- * p 3 : extension ,1*1 ivv * / 0 -1-1 ' I I ' V ■ľ I 2 minutes 72 °C onlv dXTP's PCR - Syntéza obou řetězců u specifické sekvence 5' 3' T TGAGAAAGGAATAAGCAGAAT TCGT TCCAAAAAGAATGAGC TGT TGT T TGCAGAAATCGAGTATATGC AACTCTTTCCTTATTCGTCTTAAGCAAGGTTTTTCTTACTCGACAACAAACGTCTTTAGCTCATATACG Přímý (forward) cintps I primer $ ^ ^ TTGAGAAAGGAATAAGC ~ DNAPOL -► AAC TC T T TCC T TAT TCGTC T TAAGCAAGGT T T T TC T TAC TCGACAACAAACGTC T T TAGC TCATATACG T TGAGAAAGGAATAAGCAGAAT TCGTTCCAAAAAGAATGAGC TGT TGT T TGCAGAAATCGAGTATATGC <-DNAPOL " TC T T TAGC TCATATACG ^ dNTPs Zpětný (reverse) primer 5' 3' T TGAGAAAGGAATAAGCAGAAT TCGTTCCAAAAAGAATGAGC TGT TGT T TGCAGAAATCGAGTATATGC AAC TC T T TCC T TAT TCGTC T TAAGCAAGGT T T T TC T TAC TCGACAACAAACGTC T T TAGC TCATATACG T TGAGAAAGGAATAAGCAGAAT TCGTTCCAAAAAGAATGAGC TGT TGT T TGCAGAAATCGAGTATATGC AAC TC T T TCC T TAT TCGTC T TAAGCAAGGT T T T TC T TAC TCGACAACAAACGTC T T TAGC TCATATACG Výběr vhodné strategie před návrhem primerů ■ K čemu jsou primery určeny ♦ Standardní end-point PCR ♦ Sekvenování ♦ Detekce jednonukleotidových polymorfizmu (SNP) nebo variací ♦ Studium metylace ♦ Real-time PCR ♦ Sondy pro microarray ♦ Degenerovaná PCR ♦ Multiplex PCR ■ Z jakých dat vycházíme ♦ Jednoduchá sekvence DNA / proteinu ♦ Sekvenční přiložení DNA / proteinu GenBank ID/Gene ID/rsSNP ID Pravidla pro design primeru pro PCR ■ Relativně snadná výpočetní záležitost -prohledávání sekvence a identifikace krátkých sekvencí splňujících určitá kritéria ♦ Délka primeru ♦ Obsah G+C ♦ Teplota Tm ♦ Specificita ♦ Komplementarita příměrových sekvencí ♦ Sekvence 3'-konce Jedinečnost primem ■ Na jedinečnost primem a jeho hybridizační vlastnosti (annealing) má vliv délka primem a velikost templátové DNA Délka (17-28 bází dlouhé) ■ Možná hybridizační místa primem by se také neměla nacházet na DNA tvořících případné kontaminace vzorků Templátová DNA 5' ...TCAACTTAGCATGATCGGGTA...GTAGCAGTTGACTGTACAACTCAGCAA...3' OLLDWJOM, DV1D91DW3X9VD 0LL9V XD9X V Primerl 5' -TGCTAAGTTG-3' Není jedinečný! Primer2 5' -CAGTCAACTGCTAC-3' Jedinečný! Zastoupení bází ■ Zastoupení bází ovlivňuje vlastnosti hybridizace a reasociace primeru ■ Žádoucí je náhodná distribuce bází bez oblastí bohatých na AT nebo GC ■ Obvyklý obsah G+C, který poskytuje stabilní hybridy je 40-60 %, ale závisí také na obsahu G+C templátu Templátová DNA 5' ... TCAACTTAGCATGATCGGGCA... AAGATGCACGGGCCTGTACACAA... 3' Teplota Tm (Melting temperature) mají Tm teplotu 50 - 65 °C T = 0,3 x rPrimer + 0,7 x rProdukt - 25 am m kde Tm Primer je hodnota Tm nejméně stabilního páru primer-matrice a Tm Produkt je hodnota Tm amplifikačního produktu. Orientačně lze vypočítat Ta podle vztahu: Tm = 2(A+T) + 4(G+C) a= Tm — 5 °C Vnitřní sekvence a struktura primeru nejsou komplementární navzájem na 3'-koncích, takže nevytvářejí navzájem nebo samy se sebou duplexy neobsahují vnitřní sekundární struktury Chybně navržená dvojice primem, která vytváří stabilní duplex na 3'-konci: 5. ATTCAACCGTTCAAACAAGCCC 3' 3' GTTCGGCCTACCTTTATTTCTC 5' Správně navržená dvojice primem, která vytváří pouze málo stabilní duplex na 5'-konci; na 3'-konci je G nebo C zaručující stabilní párování i ttmplátem; 5' CGAAATAAGACTAGTAAAGC 3' I I I I I I I 3' CCTTACTCCACGCCTAATACAATCC 5' Chybně navržený primer, vytvářející vlásenku: 5'TTTTTCAAGG-III C 3'AAAAGAGAT^ Hairpin 3' GGOAAAn 5' T ATC T AGG A j'. VTM^ 3' G.G. A"^ I I I A 5' TATCTAGGACCT7A-J Self-Dimer 8 top 3 1 GGGAAAATTCCAGGATCTAT I I I I I I I I 5' TATC TAGGAC C TTAAAAGGG 3' 4 top 31 GGGAAAATTCCAGGATCTAT I I I I 5' TATCTAGGACCTTAAAAGGG 3' Dimer forward primer 5' TATC TAG GAC C TTAAAAGGG 3' I I I I I 3' C ATGGAAAC G TAGGAGAC 5' reverse primer GC svorky a 3 - koncová stabilita ■ GC svorka ♦ Přítomnost G nebo C mezi posledním 4 bázemi na 3'-konci primem ♦ Zásadní pro zvýšení prevence falešného prodlužování a zvýšení specifičnosti primem ♦ >3 G nebo C v blízkosti 3'-konce jsou však nežádoucí ■ Maximální 3'-koncová stabilita ♦ Maximalizace AG posledních 5 bází na 3'-konci primem. Jedinečnost primeru na matricové DNA nemají falešná vazebná místa Nesprávně navržený primer s falešnými vazebnými místy na templátové DNA! s^io^aaggctagagaaaaa^^ 3'(948) tttcttacccttttt-tacc (966)5' 5'(1029) aaggctagagaaaaatatgg (1048)3' ii ii ii iii I i i 3'(1191) tttgtattgcattatatacc (1210)5' 5'(1029) aaggctagagaaaaatatgg (1048)3' i i I i i I i i I i i i 3'(395) tccatttttctttttatctt (414)5' Správně navržený primer, který nemá falešná vazebná místa na templátui b^^cctaacat^tccgcacctcattcc^b^t 3'(787) taaatct attagttt acacataacc (811)5' 5'(2476) cctaacataatccgcacctcattcc (2452)3' I I I I I I I I I I 3'(3211) caattgt aact ataactgcgtt atc (3235)5' 5'(2476) cctaacataatccgcacctcattcc (2452)3' I I I I I I I I I I 3'(1194) gtattgcattatat acctctgtt ag (1218)5' 5'(2476) cctaacataatccgcacctcattcc (2452)3' I I I I I I I I II I 3'(14g9) atattgta-tatacgaactaaatct (1492)5' Kdy je primer ještě primerem? Pro návrh primem se obvykle používá specializovaný software □ Melting Temperature [21 (2686) Graph Zoom Options rCGCGCGTTTCGGTGRTGRCG- rCOCOCOTTTCGOTGRTORCGOTGRRRrtCCTCTGRCRCflTG R u s u n UK Dct display mode mer] |p°s: I =IGCGCGCflflRGCCflCTflCTGCCRCTTT' GGRGRCTGTGTRCGTCGRGGGCCTCTGCCflG' GTCGRGGGCCTCTGCI GTGTRCGTCGRGGGCCTCTGC S D T C S S R Bar graph mode I'--: hli.' Lower Primer False Priming Sites HB M13MPI8 Lover Primer - Ml 3MP18:631 OL1 9 (positive stranj) Priming efficiency of the perfect match is 423 (above the threshold) Priming efficiency : 428 (above the threshold) 5(6328) i j 0 T T T T Ü C C H G T C R C G H Ü G (6310)3' lllllllllllllllllll 3'(6328) ccaaaagggtcagtgctgc (6310)5' Priming efficiency : 205 (above the threshold) 5 (6328) GGTTTTCCCRGTCflCGflCG (6310)3' III I I I I IIIIII 3-(626) agcaacitggt.c— tgctgc (610)5' Priming efficiency : 194 (above the threshold) 5 (6328) GGTTTTCCCflGTCflCGfiCG (6310)3' II I M M I I I IUI 3 (808) gtaatatggtcagt.cc.tgc (790)5' Priming efficiency : 185 (above the threshold) 5'(6328) GGTTTTCCCRGTCflCGflCG (6310)3' i n 1111 r I f I III 3'(5125) tctaagtggtcagtg-tgc (5108)5' Priming efficiency : 121 5 (6328) GGTTTTC-CCflGTCflCGflCG (6310)3' inn mi i nil 3'(5989) agaaaagtggtc-gctctgc (5971)5' Lover Primer - Ml 3MP18:6310L19 (negative strand) Priming efficiency of the perfect match is 428 (above the threshold) Priming efficiency : 76 5'(6328) GGTTTTCCCflGTCACGACG (6310)3' IIIIII I Mil 3'(5744) ccaaaaagcgggaaactgc (5762)5' Current Oligo pCBlu3.seq Sequence Length : 1842 ' 5' CCCGCCTGATGAATGCTCATC 3' Length: 21-mer 5" Position: 1373 Tm: 72.1 °C AG (25 °C): -42 7 kcal/mol Degeneracy: 1 P.E.*: 492 1/E: 5.30 Irlli.rl / A 34.0 /*g/A260 Current Oligo (- strand) 5' GATGAGCATTCATCAGGCGGG 3' P.E.»: 537 1/E: 4.80 i.ri!i. 1 / A 31.7/ig/A260 Selected Primers B pCBIu5.seq 5' CGGCGCCAGATCTGGTACCCA 3' Length: 5' Position: Tm: AG (25 ">C): Degeneracy: P.E.»: 1 II: 21-mer 269 76.9 "C -46.1 kcal/mol 1 542/542 5.12 nmol/A260 33.1 /*g/A260 pCBIu3 :817L21 Lover Printer 5' TACCGGGTTGGACTCAAGACG 3' Length: 3' Position: Tm: AG (25 °C): Degeneracy: P.E.»: 1/E: 21-mer 817 69.5 °C -41.4 kcal/mol 1 502/502 4.89 nmol/A26G 32.0 ;/., / A. PCR pCBlu.seq ■ 111 -1 Optimal Annealing Temperature: 58.5" (Max: 72.0*) Position and Length Tm m GC [■?■] P.E.« Product 1352 88.0 51.3 Upper Primer 3? 21 72.2 47.6 452 Lover Primer 1368 21 79.9 57.1 506 Product Tm Primers Try - Upper Primer Tr, difference: 15.8 7.6 Concentration Upper Primer nM Lover Primer 200.0 nM Monovalent Cation 50.0 mM Free Mg[2+] 0 7 mM Terminal stability of the Lover Primer is too high. Total Na[+] Equivalent: 155 8 Počítačový návrh primerů Umoňuje řada molekulárně biologických programů Některé jsou volně dostupné na internetu Primer3 Primer3Plus PrimerZ PerIPrimer ♦ BioTools WebPrimer Kalkulátory vlastností primerů IDT Oligo Analyzer (http://eujdtdnaxom/SciTools/SciTools.aspx?cat=DesiqnAnalvze) ♦ BioMath (http://wwwpromeqa.coiTi/bioiTiath/calc11 .htm) PrimerBlast UCSC In-Silico PCR AutoDimer Oligo Calculator Oligo Cdc: Oligonucleotide Properties Calculator Enter Oligonucleotide Sequence Below OD calculations are for single-stranded DNA orRNA Nucleotide base codes. Reverse Complement Stran;l(5 to j; is: 5' modification (if any} 3' modification (ifany) Select molecule ssDNA t 5C 5C nM Primer mM Salt(Na+) Measured Absorbance at 260 nanometers calculate Physical Constants Swap Strands ] BLAST ~][ tnfoM ) Melting Temperature [T^J Calculations Length: C Molecular Weight: i GC content: 1 ml of a sol'n with an Absorbance of is microMolar^ and contains at260 nm micrograms. Thermodynamic Constants Conditions: 1 M NaCIat 25°C at oH 7, RlnK deltaG cal/["K*mol) Kcal/mol deltaH deltas °C [Basic) DC [Salt Adjusted) °C [Nearest Neighbor) Kcaiymol caU(DK*mol) Deprecated HairDin/selfdimerization calculations 5 t (Minimum base pairs required for single primer self-dimerization) 4 t (Minimum base pairs required for a hairpin) j Check Self-Complementarity Citation: Kibbe WA. 'OligoCalc: an online oligonucleotide properties calculator'. (2007) Primer 3 http://primer3.sourceforqe.net/webif.php Primer3 Input (version 0.4.0) - Mozilla Firefox Soubor Úpravy Zobrazení Historie Záložky Nástroje Nápověda O íŕŕ [ http://Frodo.wi.rnit.edu/primer3/input,htm Ö T Í1T Google W Primer3 Input (version 0.4.0) Pl"imGr3 (v. 0.4.0) Pick primers from a DNA sequence. Checks for lmspiimms in template. disclaimer Primer3 Home Primer3plus interface cautions FAQ/WIKI Paste source sequence below (5'->3', string of ACGTNacgtn -- other letters treated as N — numbers and blanks ignored). FASTA format ok. Please N-out undesirable sequence (vector, ALUs, LLNEs, etc.) or use a Misprirning Library (repeat library): NONE |v| >SA44k£i001 [org=Staphylococcus aureus] [strain=CCM 885] [clone=7/IV] Staphylococcus aureuss EcoRI-clone from common 44 kb Smal fragment GAATTCAAAACCAGCAAAAGCTGTGAAAAAGCCATTAC C AAGTAAAGATAATTTGGC TATATTGTATGGAGAAGGATTTC ATATTTGTAAAGGCG AATTATTTGGAAAAC ATC GAC ATGGTGAAGATTGTC TGTTC TGTTTAGAAGTTTTAAGTGATTAATC AAGC AC AC TC AAATAGTGTTATAATTAT AAATGAATATGGTTTGGATAAGTCTGAGAC AATGCATGTTTC AGGC TTTAATTGTGTATAAAGTTTTGGTGATTGC ATAAGAGATGGC GGTACTA AATGTTATTATTAAGTGTGC AC GC AGTATC ATTAGTTATAAAATGTAGC TGTTAAAAGTC AAAAATACATC GAATGTAGTTAGGC ATATAATATA [J fti mi im 1 0 Pick left primer, or use left primer below: □ Pick hybridization probe (internal oligo), or use oligo below: 0 Pick right primer, or use right primer below (51 to 3' on opposite strand): Pick Primers Reset Form Sequence Id: Targets: A string to identify your output. E.g. 50,2 requires primers to surround the 2 bases at positions 50 and 51. Or mark the source sequence with [ and ]: e.g. ...ATCT[CCCC]TCAT.. means that primers must flank the central CCCC. 0 Hotovo Primer3 Input (version 0.4.0) - Mozilla Firefox 5oubor Úpravy Zobrazení Historie Záložky Nástroje Nápověda T C X ťfr (\V http://Frodo , wi, mit, edu/primer3/input, htm T C1T Google W Primer3 Input (version 0.4.0) P Pick Primers Reset Form Sequence Id: Targets: Excluded Regions: Product Size Ranges A string to identify your output. E.g. 50,2 requires primers to surround the 2 bases at positions 50 and 51. Or mark the source sequence with [ and ]: e.g. ...ATCT[CCCC]TCAT.. means that primers must flank the central CCCC. E.g. 401,7 68,3 forbids selection of primers in the 7 bases starting at 401 and the 3 bases at 68. Or mark the source sequence with < and >: e.g. ...ATCTTCAT.. forbids primers in the central CCCC. 150-250 1 00-300 301-400 401-500 501-600 601-700 701-850 851-1 000 Number To Return Max Repeat Misprirning Max Template Misprirning 12.00 12.00 Max 3' Stability Pair Max Repeat Mispiitning Pair Max Template Misprirning 9.0 24.00 24.00 Pick Primers Reset Form General Primer Picking Conditions Primer Size Min: 18 Primer Tm Min: Product Tm Min: 57.0 60.0 Primer GC% Mm: 20.0 Hotovo Opt: 20 Opt: Opt: Opt: Max: 27 Max: Max: Max: 63.0 Max Tm Difference: 100.0 Table of thermodynamic parameters: Breslauer et al. 1986 80.0 Primer3 Output (primer3_results.cgi release 0.4.0) - Mozilla Firefox Soubor Úpravy Zobrazení Historie Záložky Nástroje Nápověda " C? X ( http://frodo.wi.rnit.edU/cgi-bin/primer3-web-cgi-bin-0.4.0/prirmer3_results.cgi ' 3' Google P \V Primer3 Output (primer3_results.cgi. PRIMER PICKING RESULTS FOR SA44kto001 [org=Staphylococcus aureus] [strain=CCM 885] [clone=7/IV] Staphylococcus aure No mispr iining library specified Using 1-basecl sequence positions OLIGO start len _tm LEFT PRIMER 159 25 57.21 RIGHT PRIMER 429 25 58.40 SEQUENCE SIZE: 2052 INCLUDED REGION SIZE: 2052 gc% any 3' seq 32 .00 3 6.00 6.00 4.00 2.00 A ATC A AGC AC AC TC AAATAGTGTTA 3.00 AAC TC C TATGAAGAC AAC C TTTTTC PRODUCT SIZE: 271, PAIR ANY COMPL: 5.00, PAIR 3' COMPL: 3.00 TARGETS (start, len)*: 200,200 1 GAATTCAAAAC C AGC AAAAGC TGTGAAAAAGCC ATTAC C AAGTAAAGATAATTTGGC TAT 61 ATTGTATGGAGAAGGATTTC ATATTTGTAAAGGC GAATTATTTGGAAAAC ATC GACATGG 12 1 TGAAGATTGTC TGTTC TGTTTAGAAGTTTTAAGTGATTAATC AAGC AC AC TC AAATAGTG >>>>>>>>>>>>>>>>>>>>>> 181 TTATAATTATAAATGAATATGGTTTGGATAAGTC TGAGAC AATGC ATGTTTCAGGCTTTA ^r^^r ***************************************** 2 41 ATTGTGTATAAAGTTTTGGTGATTGC ATAAGAGATGGC GGTAC TAAATGTTATTATTAAG ************************************************************ 3 01 TGTGC AC GC AGTATC ATTAGTTATAAAATGTAGC TGTTAAAAGTC AAAAATAC ATC GAAT ************************************************************ 3 61 GTAGTTAGGC ATATAATATAAAAAGAGTTTTC AATTAC TC AATAGAAAAAGGTTGTCTTC *************************************** <<<<<<<<<<<<<<<< J Hotovo Primer3Plus - rozšířené rozhraní (2007) Primer 3 http://www.bioinformatics.nl/cqi-bin/primer3plus/primer3plus.cqi included excluded regions can be specified. Main General Settings Advanced Settings Internal Oligo Peualtv Weights Sequence Quality J I— - - - - - Sequence Id L3 A http://www.bioinf... p * § Ö -EL Prirner^PluE. & & ® P rime r3 Plus Primer3Mana£er Help pick primers from a DNA sequence About Source Code Task: Detection Pick Primers Reset Form Paste source sequence below Or upload sequence file: Procházet... Upload File Mark selected region: <> [J {} Clear Save Sequence Excluded Regions: Targets: Included Region: < I { 0 Pick left primer or use left primer below. < □ Pick hybridization probe (internal oligo) or use oligo below 0Pick right primer or use right primer below (5"->3' on opposite strand). ^90% ' J Primer Z: streamlined primer design for promoters, exons and human SNPs http://qenepipe.nqc.sinica.edu.tw/primerz/beqinDesiqn.do MJM2 P - § Ö HistQ X Primer Z /arioWatch PrimerZ QualiSeq Affyrmation SeqTool A high performance bioinformatics pipeline for large-scale human genomic variation studies ncbi 37.3 / &aemt>iv72 / dBSNP :3? Home DB Info Blog About Us Help FAQ History NCBI 37.3 Switch to NCBI 36.3 Information 1 Main Menu » Document » Help 1 Release Notes Primer Z: streamlined primer design for promoters, exons and human SNPs Tsai, M.F., Lin, Y.J., Cheng, Y.C., Lee, K.H., Huang, C.C., Chen, Y.T. and Yao, Adam (2007) PrimerZ: streamlined primer design for promoters, exons and human SNPs, Nucleic Acids Research, doi:10.1093/nar/gkm383 Full Text Species » 2013.07.03 Update Ensembl database to release 72. » 2013.05.22 Fix bug of masking indel snp. » 2013.03.05 Update Ensembl database to release 70. hjiTian Query By Primer for Promoter regions and exons (NCBI) Gene Name (NCBI Official Symbol) Maximum Genes : 200 Input Genes OUpload a File Proi Result Preview ex. ACE Mack CNPc Upload Parameters Oligo M Oligo 7 Demo - Human elF-4E.seq □IDS] File Edit Analyze Search 5e[ect Change View Window Help as id & f^l= Sequence □SB File: Human elF-4E.seq DMA Sequence Selected Oligo Position Length # Feature Location Sequence Length: 1868 nt m B Forward Primer 997 22 1 source -18..1850 Reading Frame: +1 m ■ Reverse Primer 1061 21 Current Oligo Length: 21 nt m s Upper Oligo 956 21 Position: 956 JT) B Lower Oligo ... ... ID tm: 49.1 "C ID PCR Product [85,- -]nt 1 ,50 ,100 ,150 ,.200 ,250 ,2O0 ,240 ,400 ,450 ,500 ,550 ,600 ,650 ,700 ,750 ,SO0 ,äiO ,500 ,950 ,1000 ,1050 ,1100 ,1150 ,1200 ,1250 ,1200 ,1240 , UOO ,1450 ,1500 ,1550 ,1600 ,1650 ,1700 ,1750 ,1300 pos: tm: ,950 ,960 970 9S0 ,990 ,1000 ,1010 1020 ,1030 ,1040 ,1050 ,1060 ,1070 1030 ......1.........1.........1.........1.........1.........1.........1.........1.........1.........1.........1.........1.........1.........1..... TGGCATTTCTATACTTTACAGG.......> > > > ►........t , , » t , , , t , , ACATACAGATTTTAC CTATC C .......... ATTAC CATTAATTACATACAGATTTTAC CTATC CACAATAGTCAGAAAACAACTTGGCATTTCTATACTTTACAGGAAAAAAAATTCTGTTGTTC CATTTTATGC AGAAGCATATTTTGCTGGTTTGAAAGATTATGATGCAT TAATGGTAATTAATGTATGTCTAAAATGGATAGGTGTTATCAGTCTTTTGTTGAACC GTAAAGATATGAAATGTC CTTTTTTTTAAGACAACAAGGTAAAATACGTCTTCGTATAAAAC GAC CAAACTTTCTAATACTAC GT.A 4h4hhhhhhhh4hhh4hhhhhhhh4hhh4hhh4hhhh4hh .............. C GAC CAAACTTTCTAATACTA ITINYIQILPIHCTSQKTTWHFYTLQEKKFCCSILCRSIFCWFERL-CI Ready. PCR Primer Mapping - UCSC In-Silico PCR http://qenome.ucsc.edu/cqi-bin/hqPcr?db=mm9 Home Genomes Tables Gene Sorter Session UCSC lu-Silico PCR Genome: Mouse Assembly: Forward Primer: Reverse Primer: Jul. 2007 v TGCACCACCAaCTGCTT G GAT G CAG G GAT GAT G submit Max Product Size: 50000 Min Perfect Match: |l8 Min Good Match: 18 Flip Reverse Primer: □ About In-Silico PCR In-Silico PCR searches a sequence database with a pair of PCR primers, using an indexing strategy7 for fast performance. Configuration Options Genome and Assembly - The sequence database to search. Forward Primer - Must be at least 15 bases in length. Reverse Primer - On the opposite strand from the forward primer. Minimum length of 15 bases. Max Product Size - Maximum size of amplified region. Min Perfect March - Number of bases that match exactly on 3' end of primers. Minimum match size is 15. Min Good Match - Number of bases on 3' end of primers where at least 2 out of 3 bases match. Flip Reverse Primer - Invert the sequence order of the reverse primer and complement it. Output When successful, the search returns a sequence output file in fasta format containing all sequence in the database that He between and include the primer pair. The fasta header describes the region in the database and the primers. The fasta body is capitalized in areas where the primer sequence matches the database sequence and in lower-case elsewhere. Here is an example: >clir22:31000551+31001000 TAACAGATTGATGATGCATGAAAIGGG CCCATGAGTGGCT C CTAAAGCAGCTGC T tACAGAT rGAT GAT GCAT GAAAT GGGgggt ggc c aggggt ggggggt ga gactgcagagaaaggcagggctggttcataacaagctttgtgcgtcccaa tat.gacagctgaagtt.ttccaggggctgat.ggtgagccagtgagggt.aag Výsledky Výběr optimálního páru primerů Sekvence primerů Délka primerů a hodnota Tm Velikost produktu Posouzení sekundárních struktur Podmínky reakce Alternativní primery Pokročilý návrh primem ■ Alelově specifické primery ■ Molekulární diagnostika ■ Vícenásobné detekce - primery pro multiplex PCR ♦ Zajištění kompatibility primem v reakci ■ Konsenzní primery ♦ Pro klonování ♦ Pro PCR-RFLP (např. 16S rRNA) ♦ Vyžaduje identifikaci konzervativních oblastí na základě mnohonásobných přiložení sekvencí (multiple alignment) ■ Primery pro modifikaci konců produktů PCR Modifikace konců DNA, Připojení sekvencí prostřednictvím 5'-konců primeru Cílová sekvence 3' 5' Denaturace 1 a připojení primeru 1 a 2 Primer 1 ? GCGCAAQC7> H/ndlll 5' GCGCAAGCTT 3' CGCGTTCGAA 3' 3' [ PCR Target region 3' 0rTAAGCCGG 5' Primer 2 „sticky foot" 5' Eco Rl GAATTCGGCC CTTAAGCCGG Přidávané sekvence RE místa Promotory Terminátory Translační signály Zdroje pro návrh multiplex PCR NCBI/ Primer-BLAST MultiPLX (http://bioinfo.ebc.ee/multiplx/) PrimerStation (http://ps.cb-k.u-tokvo.ac.ip/index.html) ♦ Lidský genom ♦ Specifikace exonů ♦ Vyloučení variabilních oblastí se SNP Oligo Explorer (http://www.qenelink.com/tools/ql-oe.asp) ♦ Posouzení dimerů primerů v multiplexovém uspořádání Webové zdroje pro design primerů pro real-time PCR ■ NCBI Probe Database ■ RTPrimerDB ■ Primer Bank ■ qPrimerDepot ■ PCR-QPPD ■ PerIPrimer ■ Komerční databáze (např. ROCHE,...) Nejčastěji používané softwarové balíky pro manipulaci se sekvencemi Accelrys GCG Package (Accelrys Inc., San Diego, CA) Vector NTI® (Life Technologies, Carlsbad, CA) CLC Genomics Workbench (CLC bio, Cambridge, MA) The Bioinformatics Toolbox rozšíření pro MATLAB® Hitachi DNASIS® MAX Sequence Analysis Software (Helixx Technologies, Inc., Canada) DNASTAR Lasergene (DNASTAR, Inc., Madison, Wl) Uqene (http://uqene.net/) freeware