Digitalizace úvod do problematiky Martin Krčál VIKBB42 Knihovnické procesy a služby Brno, 14. dubna 2011 Otázka na úvod * Jak získáme elektronický dokument? > Digitalizace * převod info z analogové do digitální (elektronické) podoby * formy informace vtextové vobrazové vzvukové vjejich kombinacích Proč digitalizujeme * dostupnost informací * úspora místa * ochrana a archivace * vyhledávání Základní pojmy Rozlišení * rozdělení obrazu na síť pixelů * pixel = jedna barva * větší hustota (rozlišení) = větší kvalita = větší velikost souboru * základní jednotka dpi (dots per inch) * tisková kvalita od 300 dpi * na web od 75 dpi Barevná hloubka * počet barev použitých při skenu * černobílé skeny: čb nebo stupně šedi * barevné skeny: 24-bitů+ * zdravé oko vnímá okolo 4 mld. odstínů barev * * Barevná hloubka - počty barev Druh obrazu Počet bitů Počet barev černobílý (bitonální, monochromatické) 1 21 = 2 stupně šedi (grayscale) 8 28 = 256 odstínů šedi 8-bitový barevný (color) 8 28 = 256 16-bitový (high color) 16 216 = 65 536 24-bitový (true color) 24 224 = 16 777 216 32-bitový (super true color) 32 232 = 4 294 967 296 48-bitový (deep color) 48 248 = 281 474 976 710 656 Komprese * zmenšení velikosti souboru * druhy komprese vztrátová – vypuštění některých pixelů (např. podprahové), větší komprese zmenšuje soubor, ale snižuje kvalitu, trvalá a nevratná (JPG, MP3, MPEG, AAC) vbezztrátová – převod na matematický algoritmus, okolní barvy se dopočítávají, není tak účinná jako ztrátová, ale je vratná (GIF, PNG, TIFF, WMA Lossless, RealAudio Lossless, některé video kodeky – HuffyUV, Lagarith) OCR * Optical Character Recognition * automatické rozpoznávání textu vobrazová předloha vanalýza znaků vporovnání s DB (znaky, slova) * kvalita OCR vpřesnost rozpoznání vkvalita předlohy * OCR pro národní jazyky * Nástroje - funkce * profi i free nástroje, home verze * ručně psané písmo – problémy * podpora národních jazyků * zachování layoutu a formátování vpísmo, velikost, odstavce, obrázky * označení bloků k rozpoznání * ukládání jako PDF s txt vrstvou * dávkové zpracování * serverové verze OmniPage Omnipage * nyní verze 18 * různé licence vStandard, Professional, Enterprise * 123 jazyků vvč. češtiny, nemá český interface * přesnost 99% * propojení se zařízeními a SW vKindle, MS Office * propojení na cloud úložiště vEvernote a Dropbox Readiris Readiris * nyní verze 12 * 120 jazyků (vč. češtiny) * spolupracuje s MS Office * konverze do PDF * více info na Grafika.cz Abby Fine Reader Abby Fine Reader * verze 11 * 189 jazyků (včetně češtiny) * stejné funkce jako konkurence * serverová verze * více info na Grafika.cz * PDF Transformer 3.0 vpřevod PDF do editovatelné podoby * Free OCR * FreeOCR * OCR zdarma pro Windows * verze 3.0 * vychází z Tesseract OCR Engine * nemá české podklady * horší kvalita výstupu * solidní výsledky na podporované jazyky vENG, GER, SPA, POR, NDL, ITA Online služby * OnlineOCR v32 jazyků včetně češtiny vdobrá kvalita, zachování v layoutu, výstupy do DOC, XLS, TXT vomezení (odpadnou po registraci) * NewOCR v29 jazyků včetně češtiny vposloupnost odkazů, ale nezachová layout, dobrá kvalita vlimity: obrázky 5MB, PDF (20MB) vbez registrace Online služby * Free OCR v29 jazyků včetně češtiny vdobrá kvalita, asi nejlepší vobrázky 5MB, jednostránkové PDF vcapcha ScanTaylor * opensource * komplexní nástroj pro úpravu dokumentů * otáčení, spojování, odstraňování částí stránek, OCR * nepodporuje PDF – PDF-TO-TIFF Články k nástrojům * http://extrawindows.cnews.cz/prehled-softwaru-rozpoznavani-textu-ocr-jak-na * http://extrawindows.cnews.cz/prehled-softwaru-rozpoznavani-textu-ocr-jak-na?page=0,1 Výstupní formáty Výstupní formáty * grafické vJPG, TIFF, PNG, GIF, BMP * textové vTXT, RTF, PDF, DjVu JPG (JPEG) * Joint Photographic (Expert) Group * nejrozšířenější formát * ztrátová komprese (0-100%) * malé soubory * vhodné na web * BMP * bitová mapa (bit map) * složen z bodů * neumožňuje kompresi TIFF * Tagged Interchange File Format * podobný BMP * ztrátová komprese GIF * Graphics Interchange Format * v minulosti velmi populární * využití u animovaných obrázků * uchová max. 256 barev * bezztrátová komprese TXT * Plain Text * text bez formátování vpouze odstavce * zpracuje jakýkoliv program pracující s textem RTF * Rich Text Format * prostý text se základním formátováním * Microsoft PDF * Portable Document Format * Adobe * komerční Adobe Acrobat * prohlížení Reader * volně dostupné programy vPDFCreator, PDFill PDF Tools a další vkancelářské balíky: Open Office, MS Office 2010,… v DjVu * konkurence PDF * otevřený formát * vhodný pro text, obrázky, kresby * rozdělení do vrstev vvýběr vhodné komprese = efektivnější komprese = malé soubory * více info: http://djvu.org Hardware pro digitalizaci Skenery * kvalita skenování * zvolit vhodný skener pro konkrétní druh dokumentu!!! * Ruční a tužkové skenery * Ruční a tužkové skenery * problémy s kvalitou a přesností * chyby při OCR (nejen) českých textů * výhoda - přenosnost zařízení * novější integrovaný disk Plochý skener * Plochý skener * stolní skener * relativně kvalitní * nízká cena vv multifunkcích již okolo 1000Kč * formát A4 * velkoformátové skenery * odrážení světla na CCD snímač včím tmavší, tím menší odraz světla = určení barvy Rotační skener * Rotační skener * bubnový skener * profesionální využití * kvalitní výstup * nelze použít na knihy vupínání na válec * extrémně drahé vstovky tisíc až mil. Kč * 3D skener * tvorba 3D modelů * Knižní skener * http://www.youtube.com/watch?v=-oOXXpxzETA Knižní skener * fotografické skenery * komplexní systémy vvč. PC a SW * robotické skenery votáčení stránek vextrémně drahé Více info o skenerech * Skenery a skenování vhttp://www.sout-prelouc.cz/stranky/polygrafie_grafika_drobek/dokumenty/maturita10/graf_18_sken.pdf Postup digitalizace Výběr a příprava dokumentů * vytipování dokumentů k digitalizaci * různá kritéria výběru * prohlédnutí a volba zařízení pro digitalizaci vzáleží na typu dokumentu vdigitalizace VŠKP na MU – rozřezání vvyčištění, narovnání listů, svorky,… vkvalita předlohy * Stanovení pravidel * workflow = jednotný postup při digitalizaci, pravidla digitalizace * uplatnění zejména v projektech a při vícenásobném skenování * kvalita, rozlišení, komprese, formát,… * záleží na typu dokumentu Digitalizace * provedení převodu * dle pravidel * kontrola na výstupu Uložení do repozitáře * zvolit vhodný archiv * metadata * vhodný formát * zálohování Využití digitalizace * Kde se digitalizace využívá??? * * > Použité zdroje * http://www.exon.cz/sluzby/digitalizace-dokumentu#postup-digitalizace * http://www.posam.cz/CLANEK/12647731569780/Skenovani_%28digitalizace%29_dokumentu.htm * http://kisk.phil.muni.cz/wiki/Digitalizace_dokument%C5%AF Závěr •Děkuji Vám za pozornost billboard Martin Krčál krcal@fss.muni.cz