Digitální knihovny 1. Digitalizace. 2. Referenční model DL Miroslav Bartošek Ústav výpočetní techniky MU Knihovnicko-informační centrum MU FI MU 2020 M.Bartošek - Digitální knihovny 2 obecný rámec a architektura DL intelektuální vlastnictví & ekonomika vícejazyčný přístup k informacím metadata interoperabilita globální vyhledávání zdrojů zobecněný model dokumentu dlouhodobé uchovávání digitální informace budování sbírek digitalizace born digital harvesting Obsah přednášky FI MU 2020 M.Bartošek - Digitální knihovny 3 1. Digitalizace o rekapitulace základních pojmů o zajímavé digitalizační projekty o Google Books, Národní digitální knihovna, Manuscriptorium o DKF-MU, DML-CZ 2. Referenční model DL o Kahn-Wilenského architektura o FEDORA o DL.org 3. Literatura a DÚ 1. Digitalizace FI MU 2020 M.Bartošek - Digitální knihovny 4 1. Digitalizace FI MU 2020 M.Bartošek - Digitální knihovny 5 Konverze obsahu informačních zdrojů zapsaných na analogovém médiu do digitální formy Proč digitalizovat? 1. ochrana 2. lepší přístup Klíč k úspěchu: – digitalizovat jen to, co stojí za to – motivem informační potřeba, ne technologie – standardy, standardy, … 0 1 1 1 0 0 1 1 0 0 0 1 0 0 1 0 1 0 1. Digitalizace FI MU 2020 M.Bartošek - Digitální knihovny 6 – Technické prostředky – konverze (skenner, d-fotoaparát, grabber, …) – prezentace (monitor, tiskárna) – úprava a archivace (počítač, vnější paměti) – SW nástroje – úprava dat (grafické editory, OCR, …) – zobrazení (zobrazovací SW, plug-in) – správa a přístup (DL, DB, repozitář) – Organizace – projekt (co-jak-kdy-kde) – standardy (dig-formáty, metadata, parametry) – lidé – finanční zdroje 1. Digitalizace FI MU 2020 M.Bartošek - Digitální knihovny 7 Video Audio Text Obraz video data zvuk data text data obraz data úprava dat, OCR metadata Digitální knihovna skener digitální fotoaparát formáty dat (TIFF, MPEG) deskriptivní, technická, strukturální počítač a SW nástroje digitální úložiště (HDD, pásky, cloud) SW systém 1.1 Základní pojmy rekapitulace FI MU 2020 M.Bartošek - Digitální knihovny 8 1.1 Základní pojmy FI MU 2020 M.Bartošek - Digitální knihovny 9 • Pixel • Rozlišení • Barevná hloubka • Bodové a fyzické rozměry • Komprese (zmíníme jen toto, vše ostatní studenti FI znají) • Teorie barev a barevná schemata (RGB, CMYK) • Rastrová a vektorová grafika • (Grafické) souborové formáty 1.1 Komprese FI MU 2020 M.Bartošek - Digitální knihovny 10 Redukce velikosti digitálního obrazového souboru Dva typy kompresí: – bezztrátová komprese lossless • nedochází ke ztrátě info (po dekompresi vznikne soubor zcela identický s výchozím souborem před kompresí) • sekvence bitů nahrazeny matematickými formulemi • často využívána při bitonálním skenování textů • např. komprese ve formátu GIF či PNG – ztrátová komprese lossy • ztráta určité informace – v závislosti na stupni komprese • využíváno průměrování pixelů a odstranění některé méně významné (z vizuálního hlediska) informace • typicky pro barevné obrázky s postupnými barevnými přechody • např. komprese JPEG (je výkonnější než bezztrátová) 1.1.1 Komprese – Huffmanovy kódy FI MU 2020 M.Bartošek - Digitální knihovny 11 • Příklad bezztrátové komprese • Kódovací schéma proměnlivé délky • Přidělení kódů hodnotám dle frekvence jejich výskytu • Př. Obrázek s bit-hloubkou 3 (2**3 = 8 barev) barva frekv. Huff-kód barva frekv. Huff-kód 4 0.45 1 2 0.06 0001 5 0.21 01 7 0.04 00001 3 0.12 0011 1 0.02 000000 6 0.09 0010 0 0.01 000001 Bit-hloubka = 0.45*1 + 0.21*2 + 0.12*4 + 0.09*4 + 0.06*4 … = 2.33 n • Entropie H = - Σpi * log2pi (H = - 2.28 pro n=3) i=0 • Lze využít i pro text (EN: nejvyšší frekvence ETAOINSHRDLU) (nic nového pod sluncem – viz kódování Morseovky: E = · , T = − , A = · − , I = · · ) 1.2 Organizace digi-projektu FI MU 2020 M.Bartošek - Digitální knihovny 12 Zdroje instituce Cíle a výsledky Procesy Management Wheel 1.2 Digitalizační workflow FI MU 2020 M.Bartošek - Digitální knihovny 13 FI MU 2020 M.Bartošek - Digitální knihovny 14 Standardy, parametry – ukázka FI MU 2020 M.Bartošek - Digitální knihovny 15 Guidelines for Digital Imaging Projects – University of Illinois at Urbana-Champaign 1.3 Zajímavé digi-projekty FI MU 2020 M.Bartošek - Digitální knihovny 16 1.3.1 Google Books • Google = prohledávač webu, GB = prohledávač obsahu knih • 2004, Frankfurtský veletrh (Google Print) • Odhad: 130 mil knižních titulů – všechny naskenovat, OCR, hledání v textu • Spolupráce – Knihovní projekt – skenování knih z fondu knihoven (financuje Google) • Michigan, Stanford, Harward, Oxford, New-York public library, … – Partnerský program – spolupráce s vydavateli a autory • Zviditelnění produkce, vyšší obrat • Podíl na výnosech z reklamy • Nové výkonné technologie (skenery, postupy, SW) • 3 kategorie knih z hlediska jejich skenování a zpřístupnění – Volně přístupné (public domain) – skenovány, volný přístup k plným textům – Chráněné – se souhlasem – skenovány, omezený přístup (snippets, limited preview) – Chráněné – bez souhlasu – sken, jen search+bibliografické informace, možnost opt-out FI MU 2020 M.Bartošek - Digitální knihovny 17 1.3.1 Google Books • Nejednoznačný postoj k GB – Akademici: fuj, komerční projekt, nízká kvalita skenů/OCR/metadat – Knihovny: příznivé přijetí – otevření a zpřístupnění knižního bohatství – Non-english země: ohrožení neanglických jazyků a kultur, jazykový imperialismus (FR, EU) – Vydavatelé: GB je nelegální a okrádá nás • Žaloby na Google – porušování autorských/vydavatelských práv (2005) – American Association of Publishers, Authors Guild – dohoda 2008, kompenzace, spory dál – 2015-2016 US Nejvyšší soud – Google zákon neporušuje • Spolupráce NK ČR s GB (od 2011 – historické a vzácné fondy do 1800, cíl 200K svazků) • 2015 – 25 miliónů titulů (Integrace GB do obecného Google Search) • GB – patrně nejrozsáhlejší celosvětový digitalizační program (kvalita pokulhává) – Kromě knih i populární časopisy (magazines) • http://books.google.com , http://books.google.cz FI MU 2020 M.Bartošek - Digitální knihovny 18 1.3.2 Národní digitální knihovna • Projekt Národní digitální knihovny (NK+MZK, IOP EU) 2013-19 – digitalizace bohemikální produkce 19.-21.století – 50 miliónů stran do roku 2019 (2016/09 37 mil, 3 mil volně přístupné) – robotické skenery různých typů/značek až > 3000 stran/hod – DL http://kramerius.nkp.cz/ FI MU 2020 M.Bartošek - Digitální knihovny 19 http://www.youtube.com/watch?v=cmhIJOqepVU Digitalizační centrum MZK http://youtu.be/Yj7VGefZSDQ 1.3.2 Národní digitální knihovna • Digitalizační centrum MZK • Velkoformátový robotický skener 4DigitalBooks DL 3003 (formát až A2) FI MU 2020 M.Bartošek - Digitální knihovny 20 skenování map http://www.ndk.cz/ 1.3.3 Manuscriptorium • Digitální knihovna historických fondů (knihovny, muzea, kláštery, zámky) – Rukopisy, inkunábule (prvotisky 1450-1499), raně novověké tisky, listiny, mapy – Volně přístupné • Původně národní projekt (NK ČR + AiP Beroun), později celoevropský – 2003 Memoriae Mundi Series Bohemica – 2005 Cena UNESCO Jikji (Memory of the World) – Softwarová platforma pro EU – ENRICH – Manuscriptorium (EU) – subagregátor Europeany pro oblast historických fondů • Definice standardů, vývoj šetrných skenovacích zařízení • Manuscriptorium pro školy (Příběhy z Kostnice, Dalimilova kronika, …) • Přes 8 miliónů obrazů • http://www.manuscriptorium.com FI MU 2020 M.Bartošek - Digitální knihovny 21 1.3.3 Manuscriptorium • Memoria-BetterLight 6000 (AiP Beroun) – robustnost konstrukce – šetrná manipulace – filtrace zbytkového IR/UV záření FI MU 2020 M.Bartošek - Digitální knihovny 22 FI MU 2020 M.Bartošek - Digitální knihovny 23 Liber Viaticus kolem r. 1360 Knihovna NM Manuscriptorium Cestovní breviář biskupa a kancléře Karla IV Jana ze Středy FI MU 2020 M.Bartošek - Digitální knihovny 24 Vyšehradský kodex cca 1085, korunovace Vratislava II. „Korunovační klenot“ Nejstarší a nejcennější rukopis v ČR (NK ČR) 1.3.4 DKF-MU • Digitální knihovna fotografií MU • Projekt ÚVT MU od 2004 – sběr, organizace, uchování, vyhledávání a zpřístupnění fotografií – Historie MU (skenované fotografie) a současnost MU (born-digital) • Fotokolekce – Archiv MU Lidé na MU, Čestné doktoráty, Medaile MU, Budovy, … – Rektorát MU MU-události, U3V, ČKR, Galerie uměleckých děl MU, … – Fakulta informatiky FI-události, FI-historie 1994-2003, FI-Studentské akce – ÚVT MU, … FI MU 2020 M.Bartošek - Digitální knihovny 25 FI MU 2020 M.Bartošek - Digitální knihovny 26 http://dkf.ics.muni.cz FI MU 2020 M.Bartošek - Digitální knihovny 27 FI MU 2020 M.Bartošek - Digitální knihovny 28 1.3.5 DML-CZ • Česká digitální matematická knihovna • Matematická literatura publikovaná na území ČR od 19. století do současnosti (časopisy, knihy, sborníky, osobnosti). Součást EuDML. • Projekt 2005-2009 – Matematický ústav AV ČR – Masarykova univerzita – Karlova univerzita • Digitální knihovna a služba v plném provozu od 2010 (ÚVT MU) – 40 tisíc dokumentů, 450 tisíc stran, 17 tisíc autorů – 98 % v režimu otevřeného přístupu – Technologie: Metadatový editor + DSpace • http://dml.cz FI MU 2020 M.Bartošek - Digitální knihovny 29 FI MU 2020 M.Bartošek - Digitální knihovny 30 2. Referenční modely DL FI MU 2020 M.Bartošek - Digitální knihovny 31 2. Význam referenčních modelů FI MU 2020 M.Bartošek - Digitální knihovny 32 Obecná architektura a obecný rámec (framework) = referenční model důležitý pro: – ustanovení jednotného slovníku (pojmy) – formalizaci představ o funkcích a fungování DL, tj. • komponenty • funkce • vztahy – identifikaci potřebného middleware (podpůrné globální infrastruktury) DL: Library Science x CompSci x síťové IS 2. Referenční model FI MU 2020 M.Bartošek - Digitální knihovny 33 • RM = abstraktní rámec (model) pro pochopení důležitých vztahů mezi entitami v určitém prostředí, a pro vývoj konzistentních standardů či specifikací podporujících dané prostředí. • RM je založen na malém počtu sjednocujících pojmů a může být využit i pro vzdělávací účely a objasnění standardů nespecialistům. • RM není přímo navázán na žádné konkrétní standardy, technologie či implementační detaily. Jeho cílem je poskytnout obecnou jednoznačnou sémantiku, kterou lze využít mezi různými implementacemi. 2.1. Kahn-Wilenského architektura FI MU 2020 M.Bartošek - Digitální knihovny 34 2.1 Kahn-Wilenského architektura FI MU 2020 M.Bartošek - Digitální knihovny 35 První koncepční (neformální) model DL (hodně obecná úroveň, nejde do příliš velkých detailů) • R.Kahn, R.Wilenski: A Framework for Distributed Digital Object Services, Uni Berkeley, projekt CS-TR, ARPA, 1995 http://www.cnri.reston.va.us/home/cstr/arch.html • W.Arms: Key Concepts in the Architecture of the Digital Library, D-Lib Magazine, July 1995, http://www.dlib.org/dlib/July95/07arms.html • W.Arms, Ch.Blanchi, E.Overly: An Architecture for Information in DLs, D-Lib Magazine, February 1997, http://www.dlib.org/dlib/february97/cnri/02arms1.html • rozpracováno v řadě technických zpráv na Cornell Univ • využito při implementaci systémů DSpace, Fedora aj. 2.1 Základní komponenty DL FI MU 2020 M.Bartošek - Digitální knihovny 36 • digitální objekt obsah – data – metadata • identifikační systém identifikace – identifikátory – globální resoluční systém • repozitář správa – úložiště – RAP • služby funkce – deposit, registration, storage, search, retrieval, access, presentation, preservation … 2.1 Digitální objekt FI MU 2020 M.Bartošek - Digitální knihovny 37 • DO = základní samostatně použitelná informační jednotka DL • digitální objekt : a metadata - identifikátor globálně jednoznačný (handle) - fixní metadata autor, název, … (nezávislá na repoz.) - provozní metadata vlastnosti DO, log (spravuje repoz.) data - 1-n bit-sekvencí digitální materiál (i ve vícero formách) - množina DO složený DO - množina identifikátorů meta-objekt metadata data obsah 2.1 Základní DO FI MU 2020 M.Bartošek - Digitální knihovny 38 Př 1: DO=kniha metadata – … data – text knihy ve formátu ASCII – (text ve formátu HTML) – (text ve formátu PDF) Př 2: DO=knihy od X v PDF metadata • … data • text knihy1 v PDF • text knihy2 v PDF • … Př 3: DO=stránka knihy metadata • … data • strana X ve formátu ASCII • strana X ve formátu XML • strana X jako obr. GIF 2.1 Složený DO, Meta-DO FI MU 2020 M.Bartošek - Digitální knihovny 39 složený DO Meta-DO Př 1: DO=kniha metadata • … data • DO pro 1.stranu • DO pro 2.stranu • … Př 1: DO=hudební skladba metadata • … data • id DO partitury v repozitáři R1 • id DO zvukové nahrávky v R2 • id DO televizní záznam v R3 2.1 Repozitář FI MU 2020 M.Bartošek - Digitální knihovny 40 repozitář = úložiště digitálních objektů (glob.jedn.identifikátor) Řízení přístupu k DO: • metadata : vlastnosti objektu (autorská práva, podmínky zpřístupnění DO, technické vlastnosti, bibliograf. , admin.data) transakční záznam (historie transakcí s DO v repozitáři) • protokol (Repository Access Protocol) RAP ACCESS_DO, DEPOSIT_DO, ACCESS_REF DL = mnoho repozitářů Handle-systém : (globální distrib.resoluce: DO >> množina repozitářů) 2.1 Repozitář FI MU 2020 M.Bartošek - Digitální knihovny 41 2.1 Komponenty DL FI MU 2020 M.Bartošek - Digitální knihovny 42 => obraz DOUser interface4. display => digital object=> Repository - RAPUser interface => repository ID=> Handle systemUser interface3. retrieve => handle=> ItemUser interface2. select => list of items=> Search systemUser interface1. search 2.2. FEDORA FI MU 2020 M.Bartošek - Digitální knihovny 43 2.2. FEDORA DL systém FI MU 2020 M.Bartošek - Digitální knihovny 44 • Flexible • Extensible • Digital • Object • Repository • Architecture – rozpracování a konkrétní implementace KWA – open-source SW pro implementaci DL – kvalitní/flexibilní/robustní repozitář = základ DL Cornell University University of Virginia Nemá nic společného s Fedorou od Red Hat 2.2 Výzvy při implementaci DL FI MU 2020 M.Bartošek - Digitální knihovny 45 • Spravovat digitální zdroje jako by byly všechny stejné (univerzálnost) • Prezentovat digitální zdroje jako by byly jedinečné a neomezovat jejich použití v jakémkoliv kontextu (specializovanost) Protichůdné požadavky – jak je naplnit oba? 1. Koncept „chování“ DO (univerzálnost + specializace) 2. Webové služby (distribuované řešení v prostředí webu) 2.2 FEDORA – klíčové rysy FI MU 2020 M.Bartošek - Digitální knihovny 46 flexibilita, rozšiřitelnost, interoperabilita – jak nejlépe toho dosáhnout ? – architekturou s čistým a modulárním oddělením • dat • rozhraní • mechanismů chování (prováděcích programů) http://www.fedora-commons.org 2.2 Základní prvky architektury FI MU 2020 M.Bartošek - Digitální knihovny 47 1. digitální objekt a) obsah • data (datastreams) • metadata b) chování (disseminátory) • definice chování • mechanismus chování 2. repozitář – správa DigObjektů – přístup k DigObjektům Persistent ID (PID) Disseminators System Metadata Datastreams kontejner, který sdružuje současně data a chování ! 2.2 Chování DO FI MU 2020 M.Bartošek - Digitální knihovny 48 Persistent ID (PID) Service Definition Metadata System Metadata Datastreams Persistent ID (PID) Service Binding Metadata System Metadata Datastreams Data Object Behaviour Definition Object Behaviour Mechanism Object 3 typy DO: datový, definice-chování, mechanismus-chování Persistent ID (PID) Disseminators System Metadata Datastreams Web Service 2.3 Model DL.org FI MU 2020 M.Bartošek - Digitální knihovny 49 2.3 Referenční model DL.org FI MU 2020 M.Bartošek - Digitální knihovny 50 Výstup z dlouholetých evropských výzkumných iniciativ v DL – DELOS Network of Excellence on Digital Libraries 2004-2008 http://www.delos.info – DL.org Coordination Action projekt EC 2008-2011 Digital Library Interoperability, Best Practices & Modelling Foundations http://www.dlorg.eu Cíle: – podpora výzkumu v oblasti DL (týmy, workshopy, školy, …) – integrace výzkumných poznatků – referenční model DL – porozumění napříč komunitami – šíření výsledků a vzdělávání v DL 2.3 Ref.model - dokumenty FI MU 2020 M.Bartošek - Digitální knihovny 51 Sada dokumentů – Digital Library Manifesto – Digital Library Reference Model – Digital Library Technology and Methodology Cookbook – Digital Library Conformance Checklist Digital Library Reference Model (velmi obsáhlý) http://www.dlorg.eu/index.php/outcomes/reference-model Stručné booklety: – DL Reference Model in Nutshell (stručný, 16 str.) http://www.dlorg.eu/uploads/Booklets/booklet21x21_nutshell_web.pdf – Digital Library Manifesto http://www.dlorg.eu/uploads/Booklets/booklet21x21_manifesto_web.pdf – Digital Library Cookbook http://www.dlorg.eu/uploads/Booklets/booklet21x21_cookbook.pdf 2.3 DELOS – vize DL FI MU 2020 M.Bartošek - Digitální knihovny 52 • Digital libraries should enable any citizen to access all human knowledge anytime and anywhere, in a friendly, multi-modal, efficient, and effective way, by overcoming barriers of distance, language, and culture and by using multiple Internet-connected devices 2.3 Referenční model - ukázky FI MU 2020 M.Bartošek - Digitální knihovny 53 • DL Reference Model in Nutshell (16 str.) http://www.dlorg.eu/uploads/Booklets/booklet21x21_nutshell_web.pdf DL – systémy a hráči FI MU 2020 M.Bartošek - Digitální knihovny 54 Další slídy jsou již jen pro ilustraci, není třeba je studovat a znát! DL - domény FI MU 2020 M.Bartošek - Digitální knihovny 55 – pojmenované skupiny pojmů a vztahů – hierarchicky seskupeny DL - domény FI MU 2020 M.Bartošek - Digitální knihovny 56 Doména „resource“ FI MU 2020 M.Bartošek - Digitální knihovny 57 Resource - pojmy a vztahy společné všem entitám - zahrnuje všechny typy informačních objektů (user, functionality, policy, …) Doména „content“ FI MU 2020 M.Bartošek - Digitální knihovny 58 Doména „user“ FI MU 2020 M.Bartošek - Digitální knihovny 59 Doména „functionality“ FI MU 2020 M.Bartošek - Digitální knihovny 60 Doména „policy“ FI MU 2020 M.Bartošek - Digitální knihovny 61 Doména „quality“ FI MU 2020 M.Bartošek - Digitální knihovny 62 Doména „architecture“ FI MU 2020 M.Bartošek - Digitální knihovny 63 Literatura a DÚ FI MU 2020 M.Bartošek - Digitální knihovny 64 Doplňková literatura FI MU 2020 M.Bartošek - Digitální knihovny 65 • Google Books http://www.ics.muni.cz/zpravodaj/articles/609.html • Digital Library Manifesto – DL.org http://www.dlorg.eu/uploads/Booklets/booklet21x21_manifesto_web.pdf • Digital Library Reference Model in a Nutshell – DL.org http://www.dlorg.eu/uploads/Booklets/booklet21x21_nutshell_web.pdf Úkol – vyzkoušet si – Digitální knihovna fotografií MU http://dkf.ics.muni.cz (přístupné jen ze sítě muni.cz) – Česká digitální matematická knihovna http://dml.cz – Manuscriptorium http://www.manuscriptorium.com