Formáty a dlouhodobé uložení: Identifikace, extrakce a validace Brno, 2. 5. 2017Zbyšek Stodůlka Informační balíčky Funkční celky digitálního archivu Příjem • služby a funkce k balíčkům SIP (od tvůrců, tj. původců nebo od vnitřních prvků) • zajišťuje: a) příjem balíčku SIP b) příprava obsahu na uložení a správu v archivu c) provedení kontroly kvality balíčku SIP d) vytváření archivního informačního balíčku AIP e) výběr popisných informací z balíčku AIP f) sladění aktualizací funkčních celků archivní uložení a správa dat Výstupní datové formáty dokumentů v digitální podobě § 23 vyhlášky č. 259/2012 Sb. (1) Výstupním datovým formátem dokumentů v digitální podobě se rozumí a) datový formát výstupu z elektronického systému spisové služby, b) datový formát dokumentu ukládaného ve spisovně, která je součástí elektronického systému spisové služby, c) datový formát pro předávání do digitálního archivu. (2) Výstupním datovým formátem statických textových dokumentů a statických kombinovaných textových a obrazových dokumentů je datový formát Portable Document Format for the Long-term Archiving (PDF/A, ISO 19005). (3) Výstupním datovým formátem statických obrazových dokumentů je a) datový formát Portable Network Graphics (PNG, ISO/IEC 15948), b) datový formát Tagged Image File Format (TIF/TIFF, revize 6 – nekomprimovaný), c) datový formát Joint Photographic Experts Group File Interchange Format (JPEG/JFIF, ISO/IEC 10918). Výstupní datové formáty dokumentů v digitální podobě (4) Výstupním datovým formátem dynamických obrazových dokumentů je a) datový formát umožňující uložení komprimovaných dat kódovaných podle standardu Moving Picture Experts Group Phase 2 (MPEG-2, ISO/IEC 13818), b) datový formát umožňující uložení komprimovaných dat kódovaných podle standardu Moving Picture Experts Group Phase 1 (MPEG-1, ISO/IEC 11172), c) datový formát Graphics Interchange Format (GIF). (5) Výstupním datovým formátem zvukových dokumentů je a) datový formát umožňující uložení komprimovaných dat kódovaných podle standardu MPEG-1 Audio Layer II nebo MPEG-2 Audio Layer II (MP2), b) datový formát umožňující uložení komprimovaných dat kódovaných podle standardu MPEG-1 Audio Layer III nebo MPEG-2 Audio Layer III (MP3), c) datový formát Waveform audio format (WAV), modulace Pulse-code modulation (PCM). (6) Výstupním datovým formátem pro databáze je datový formát Extensible Markup Language Document (XML), kde součástí předávaného dokumentu v datovém formátu XML je popis jeho struktury pomocí schématu XML nebo Document Type Definition (DTD), o kterém veřejnoprávní původce vede dokumentaci. (7) Výstupním datovým formátem metadat, jimiž jsou opatřovány dokumenty v elektronickém systému spisové služby, je datový formát Extensible Markup Language Document (XML) podle schématu XML pro výměnu dokumentů a jejich metadat mezi elektronickým systémem spisové služby stanoveného národním standardem nebo datový formát Extensible Markup Language Document (XML) podle schématu XML pro vytvoření datového balíčku SIP stanoveného národním standardem, který obsahuje metadata podle schématu XML pro zaznamenání popisných metadat uvnitř datového balíčku SIP stanoveného národním standardem. SIP (NSESSS) Identifikace formátů • k rozpoznání formátů datových souborů při příjmu (ingestu) do digitálního archivu • předpoklad pro další úkony: a) extrakci metadat b) migraci do formátu 1) pro dlouhodobé uložení (dle uchovávací strategie) nebo 2) při vytváření objektů v rámci modulu pro přístup (datové balíčky DIP v jiném formátu – např. TIFF -> JPG) • využití i předchozích částech životního cyklu dokumentu – např. v eSSL (příjem na podatelně, převod do výstupního formátu při vyřízení/uzavření atd.) Identifikace formátů Metody: • dle přípony (extension) • dle obsahu (signatures) PRONOM PRONOM • vyvíjí Národní archiv Velké Británie • od roku 2002 • v současnosti 1493 formátů • celosvětová akceptace • https://www.nationalarchives.gov.uk/PRONOM/default.htm • využívají programy: DROID, FIDO, Sigfried aj. DROID • Digital Record Object Identification • vyvíjí Národní archiv Velké Británie • identifikace pomocí : 1) přípony (extension) 2) obsahu (signature) pomocí tzv. magického čísla Magické číslo • hodnota typická pro daný souborový formát Magické číslo Extrakce metadat • pro strojové zpracování • nejen technická, ale i obsahová (např. u fotografií) • dle ukládací strategie se při zpracování vytěžuje do správy dat a/nebo ukládá do datové balíčku AIP • další informace pro zpřístupnění • podporují nástroje: JHOVE, Apache Tika, ExifTool, MediaInfo atd. Apache Tika • pro formát PDF • zobrazuje: • metadata • oprávnění • text https://tika.apache.org ExifTool • výborný pro obrazové soubory (metadata standardu EXIF) • u textových souborů mj: autor datum vytvoření poslední změna statistika atd. • export možný i do TXT https://sourceforge.net/projects/exiftool/ MediaInfo • pro multimediální formáty: • video: MPEG-1/2 Video, H.263, MPEG-4, H.264/AVC, H.265/HEVC aj. • audio: MPEG Audio (i MP3), AC3, DTS, AAC, Dolby E, AES3, FLAC aj. • kontejnery: MPEG-4, QuickTime, Matroska, AVI, MPEG-PS (DVD), MPEG-TS (Blu-ray), MXF, GXF, LXF, WMV, FLV aj. • https://mediaarea.net/cs/MediaInfo Validace formátů • ověření souladu se stanovenou normou • standardizace zpracování • odhalení chyb – např. nemožnost zobrazit v budoucnu • pro různé formáty specializované programy PDF/A • formát vhodný pro dlouhodobé uložení (zejm. textu) • oproti PDF omezena možnost změnit zobrazení (zakázány skripty, šifrování atd.) • 2 úrovně požadavků • úroveň A: součástí je vždy textová vrstva, struktura aj. • úroveň B: bez textové vrstvy, pouze ztvárnění Formát Odvozeno z Změny PDF/A-1 ISO 19005:2005 PDF 1.4 - výchozí verze PDF/A-2 ISO 19005:2011 PDF 1.7 - podpora JPEG 2000 - fonty OpenType - podpora elektronického podpisu PAdES PDF/A-3 ISO 19005:2012 PDF 1.7 - vložení jiného souboru (XML, DOC, XLS aj.) • různé validátory – odlišné výsledky (http://digi.nacr.cz) PDF/A JHOVE • JSTOR/Harvard Object Validation Environment • umožňuje jak extrakci určitých metadat, tak jejich validaci • podpora více formátů: AIFF, ASCII, Bytestream, GIF, HTML, JPEG, JPEG 2000, PDF, TIFF, UTF-8, WAV a XML • pro některé formáty méně vhodný (např. PDF/A-1) • http://jhove.sourceforge.net zbysek.stodulka@nacr.cz http://digi.nacr.cz