Digitální archiv: standardy, koncepce, postupy Brno, 11. 4. 2017Zbyšek Stodůlka Digitální revoluce? • archivy, knihovny, muzea konsolidovaly svou činnost po staletí • v digitálním věku se přetváří s tím jak se mění společnost • funkce zůstává, ale mění se možnosti, které technologie nabízí • dokáží toho paměťové instituce využít? • od 70. let masivně informace v digitální podobě • s digitalizací odvětví i digital-born dokumenty • jediný originál, mnohdy nepřevoditelný do analogové podoby • např. databáze, geodata Digitální evoluce Kam s tím? • Jak data do archivu získat? • Jak se v nich orientovat? • Jak je zpřístupnit? Národní digitální archiv Otevřený archivační informační systém (OAIS) • Open Archival Information System • původně práce na standardu ukládání digitálních dat generovaných kosmickým výzkumem • referenční model pro popis procesů • od 2003 jako ISO 14721 (rev. 2012), od 9/2014 ČSN ISO 14721 Informační balíčky Informační balíčky • Vstupní informační balíček (Submission Information Package SIP): informace zaslaná tvůrcem (původcem) archivu • Archivní informační balíček (Archival Information Package AIP): informace uložená archivem • Výstupní informační balíček (Dissemination Information Package DIP): informace zaslaná uživateli na vyžádání Archivní informační balíček (AIP) ČSN ISO 14721 Funkční celky digitálního archivu Příjem • služby a funkce k balíčkům SIP (od tvůrců, tj. původců nebo od vnitřních prvků) • zajišťuje: a) příjem balíčku SIP b) příprava obsahu na uložení a správu v archivu c) provedení kontroly kvality balíčku SIP d) vytváření archivního informačního balíčku AIP e) výběr popisných informací z balíčku AIP f) sladění aktualizací funkčních celků archivní uložení a správa dat Funkční celky digitálního archivu Archivní uložení • služby a funkce k ukládání, udržování a získávání balíčků AIP • zajišťuje: a) příjem balíčků AIP od příjmu b) přidání balíčků AIP do trvalého úložiště c) správu struktury úložiště d) obnovu datových nosičů, na kterých jsou jednotky uloženy e) provádění běžných a zvláštních kontrol chyb f) poskytování balíčků AIP zpřístupnění Funkční celky digitálního archivu Správa dat • služby a funkce pro vkládání, udržování a zpřístupňování 1.popisných informací k identifikaci a popisu archivních jednotek 2.administrativních dat využívaných při správě archivu • zajišťuje: a) správu funkcí archivní databáze (údržba šablon a definic pro zobrazení a integritu) b) provádění aktualizací databáze (načítání nových popisných informací a administrativních dat) c) provádění dotazů týkajících se dat za účelem vytváření odpovědí na tyto dotazy Funkční celky digitálního archivu Správa • služby a funkce sloužící k provozu archivního systému • zajišťuje: a)nabízení a vyjednávání dohod o dodávání dat s tvůrci b)provádění kontroly vstupních dat k dodržení stanovených standardů c)údržba správy a nastavení systémového hardwaru a softwaru d)sledování a vylepšování provozu archivu Funkční celky digitálního archivu Plánování uchovávání • služby a funkce k doporučení zajištění dlouhodobé přístupnosti a srozumitelnosti informace uložené v archivu (například při zastarání původního počítačového prostředí) • zajišťuje: a) vyhodnocování obsahu archivu a pravidelné doporučení aktualizace archivovaných informací b) doporučení přesunů stávajících archivních jednotek c) příprava doporučení standardů a pravidel d) poskytování pravidelných zpráv o analýze rizik a sledování změn v technologickém prostředí e) návrh šablon informačních balíčků a podporu k jejich přizpůsobení f) vytváření plánu přesunů prototypu softwaru a plánu testování (cíle stanovuje Správa) Funkční celky digitálního archivu Zpřístupnění • služby a funkce 1. k podpoře koncových uživatelů při zjišťování existence, popisu, umístění a dostupnosti informací uložených v archivu 2. umožňující koncovým uživatelům požadovat a získávat informační produkty • zajišťuje: a) komunikaci s koncovými uživateli ve věci příjmu požadavků b) uplatnění opatření k omezení přístupu k informacím c) vytváření odpovědí v podobě výstupních informačních balíčků DIP d) předávání odpovědí koncovým uživatelům Další standardy využívané v LTP (výběr) • ČSN ISO 16363 – Systémy pro přenos dat a informací z kosmického prostoru - Audit a certifikace důvěryhodných digitálních úložišť • DIN 31644 – Information and documentation - Information und Dokumentation – Kriterien für vertrauenswürdige digitale Langzeitarchive • Dublin Core – standard metadatového popisu (http://dublincore.org) • MODS – popis a správa digitálních objektů a metadat (http://www.loc.gov/standards/mods) • PRONOM – registr formátů (http://www.nationalarchives.gov.uk/PRONOM) PREMIS • PREservation Metadata: Implementation Strategies • datový model k popisu vazeb mezi jednotlivými objekty • slovník ke standardizaci popisu vztahů • základní kategorie: a) Intelektuální entita b) Objekt c) Událost d) Práva e) Agent • v současnosti verze 3 http://www.loc.gov/standards/premis/v3 PREMIS (AIP) METS • Metadata Encoding & Transmission Standard • standard pro kódování popisných, administrativních a strukturálních metadat o objektech k jejich výměně • Struktura: a) metsHdr – hlavička metadat b) dmdSec – popisná metadata c) amdSec – administrativní metadata d) fileSec – sekce objektů e) structMap – strukturální mapa f) behaviourSec – pravidla chování • http://www.loc.gov/standards/mets METS Digitální archiv • je komplexní informační systém • je založen na detailním řízení procesů a rizik v oblasti: a)organizačního zajištění b)dlouhodobého financování c)potřebných lidských zdrojů d)popisu procesů a ukládací strategie e)analýze bezpečnostních rizik atd. Uchovávací strategie - migrace • převod obsahu do formátů se známou specifikací • předpoklad dlouhodobé udržitelnosti – např. JPEG, TIFF, PDF/A aj. Uchovávací strategie - emulace • původní technologické prostředí je vytvořeno virtuálně • technologicky náročné • vhodné pro programy eGovernment v ČR – cíle 2007 • zvýšení efektivity a transparentnosti ve veřejné správě • nástroje elektronické komunikace • síť kontaktních míst pro občany • vznik základních registrů veřejné správy • komunikační infrastruktura Spisová služba – elektronizace - během tzv. přechodného období (1. 7. 2009 - 1. 7. 2012) povinnost určených původců uvést výkon spisové služby, spisové řády a elektronické systémy spisové služby do souladu s platnou legislativou a Národním standardem pro elektronické systémy spisové služby - zahrnuje i samostatné evidence dokumentů (dříve tzv. agendové informační systémy) - samospráva zaváděla eSSl v rámci rozsáhlých projektů rozvoje eGovernmentu (např. typizovaně Vnitřní integrace úřadu) - státní správa realizovala úspěšně či neúspěšně dílčí projekty, někdy snaha o resortní koordinaci, častěji resortní roztříštěnost (podřízené organizace mnohdy bez řešení) Životní cyklus dokumentu/spisu • nepřerušen od vzniku až do uložení v archivu • registraturní pomůcky se stávají archivními pomůckami (jednací protokol, elench, index) Příjem Evidence Oběh Vyřízení Uložení Výběr Zničení Uložení archivem Dříve… Životní cyklus dokumentu/spisu Příjem Evidence Oběh Uložení Výběr Zničení Uložení archivem Vyřízení • během 20. století úpadek spisové služby • nekompletní evidenční záznam • do spisovny se ukládá podle nově sestavených soupisů – část mizí • 2004: Usnesení vlády České republiky ze dne 7. ledna 2004 č. 11, k dlouhodobému uchovávání a zpřístupňování dokumentů v digitální podobě • 2005: Při Národním archivu sestaven realizační tým digitálního archivu • 2006: Usnesení vlády České republiky ze dne 10. května 2006 č. 500, o Národním plánu zavedení elektronického zadávání veřejných zakázek pro období let 2006 až 2010, předpokládá vznik digitálního archivu; shromážděny podklady pro výběrové řízení na zpracovatele projektu • 2007: Vybrán zpracovatel projektu; práce na technologickém projektu • 2008: Dokončen technologický projekt; usnesení vlády České republiky ze dne 21. dubna 2008 č. 447, k zabezpečení plnění úkolů ve věci vybudování Národního digitálního archivu; zpracován projektový záměr pro financování z ESF • 2009: Dokončena dokumentace pro územní rozhodnutí pro hlavní pracoviště; dokončena studie proveditelnosti a CBA; dokončena objemová studie pro záložní pracoviště; připravována projektová žádost • 2010: Podání projektové žádosti • 2011: Schválení projektové žádosti, počátek realizace projektu (2011-2013), první výběrové řízení na dodávku technologií ICT, námitky uchazečů • 2012: Rozhodnutí ÚOHS, zrušení soutěže; realizace stavebně-projektové části • 2013: Druhé výběrové řízení na dodávku technologií ICT, po námitkách některých uchazečů proti vyřazení zrušení soutěže • 2014: Implementace LTP Archivematica, vývoj návazných modulů, ukončení projektu; přechod do zkušebního provozu • 2015: První skartační řízení z eSSl a uložení archiválií, rozvoj systému Projekt Národní digitální archiv Národní archiv (§ 46 odst. 3 zákona č. 499/2004 Sb., o archivnictví a spisové službě): • a) ukládá archiválie v digitální podobě náležející do jeho péče a archiválie v digitální podobě náležející do péče Archivu bezpečnostních složek, státních oblastních archivů a archivů, které nejsou digitálními archivy a neukládají archiválie v digitální podobě na základě písemné dohody v jiném digitálním archivu, • b) spravuje národní portál, • c) plní pro archivy metodickou a poradenskou funkci v oblasti předarchivní péče o dokumenty v digitální podobě a v oblasti digitalizace archiválií v analogové podobě, • d) provádí vědeckou a výzkumnou činnost na úseku životního cyklu dokumentů v digitální podobě, • e) poskytuje archivům údaje potřebné pro evidenci archiválií v digitální podobě a služby pro shromažďování a zpřístupňování popisů archiválií v digitální podobě a replik archiválií v digitální podobě, • f) vydává závazné stanovisko k žádosti o udělení oprávnění k ukládání archiválií v digitální podobě. Prostřednictvím Národního portálu zajišťuje: • a) výběr a příjem archiválií v digitální podobě a jejich metadat (§ 18b odst. 4 písm. a) AZ) • b) vedení a zpřístupňování evidence Národního archivního dědictví (§ 18b odst. 4 písm. b) AZ) • c) příjem metadat popisů původců (§ 18b odst. 4 písm. c) AZ) • d) příjem metadat popisů archivů a kulturně vědeckých institucí (§ 18b odst. 4 písm. d) AZ) • e) příjem a prezentace archivních pomůcek v digitální podobě (§ 18b odst. 4 písm. e) AZ) • f) přístup k archiváliím v digitální podobě a dokumentům v digitální podobě vzniklým jako digitální reprodukce z archiválií v analogové podobě (§ 18b odst. 4 písm. f) AZ) • g) ve spolupráci s archivem, do jehož péče archiválie v digitální podobě náleží, vytváření, správu a zpřístupnění skupin metadat obsahujících: a) základní identifikaci archiválie, b) popis archiválie, c) evidenci subjektů oprávněných k přístupu k archiválii včetně rozsahu oprávnění (§ 18c odst. 1 AZ) Národní digitální archiv v legislativě (od 2012) Národní standard pro el. systémy spisové služby • Příloha 1: Schéma XML pro výměnu dokumentů a jejich metadat mezi ERMS • Příloha 2 : Schéma XML pro zaznamenání popisných metadat • Příloha 3 : Schéma XML pro vytvoření datového balíčku SIP • Příloha 4 : Schéma XML pro zasílání údajů o rozhodnutí ve skartačním řízení a potvrzení přejímky s identifikátory digitálního archivu původci • Příloha 5 : Schéma XML pro export a import spisového a skartačního plánu Národní digitální archiv - principy • doložitelný způsobu předání od původce (autenticita) • kontrola autentizačních prvků, identifikace ev. validace formátů a vytvoření metadat pro budoucí využití • migrace do dlouhodobě udržitelného formátu • zachování původního objektu pro případnou emulaci • uchování metadat v AIP balíčku i ve správě dat (oddělené části) • komplexní zálohování úložiště, zálohy databází, transakční protokol atd. • řízení přístupu k objektům (práva uživatelů, vyhrazené počítače) včetně řízení nahlížení (Archivní portál) • splnění stavebně technických podmínek např. s využitím § 61 zákona č. 499/2004 Sb. (ochrana před účinky elektromagnetického pole a požadavek nejméně dvou plnohodnotných úložišť vzdálených od sebe vzduššnou čarou nejméně 50 km) • rychlejší zpracování díky metadatům (např. zatřídění ve spisovém plánu) a zpřístupnění badateli Schéma NDA Standardy a pravidla v NDA Národní standard pro elektronické systémy spisové služby: • Příloha 2 : Schéma XML pro zaznamenání popisných metadat • Příloha 3 : Schéma XML pro vytvoření datového balíčku SIP • Příloha 4 : Schéma XML pro zasílání údajů o rozhodnutí ve skartačním řízení a potvrzení přejímky s identifikátory digitálního archivu původci • Příloha 5 : Schéma XML pro export a import spisového a skartačního plánu Další standardy: • Dublin Core • METS • apeEAD • apeEAC-CPF • EAG2012 • SUZAP • OAI-PMH LTP + dostupnost + relativní rozšířenost + definovaný AIP + využití standardů (PREMIS, METS, BagIt atd.) + definice procesů (mikroslužeb) + přizpůsobení migračních strategií - bouřlivý vývoj a proměnlivý plán rozvoje - nepříliš kvalitní dokumentace - nestabilita - problémy s ne ASCII znaky - nutný vývoj vlastních funkcionalit digitálního archivu (příjem, správa dat, přístup, reportování atd.) - absence re-ingestu AIP nebo změny metadat (očekáváno od verze 1.5) - HW nároky Národní digitální archiv II - cíle • zvýšit robustnost, kapacitu, bezpečnost a funkcionality systému • některé dosavadní moduly nahradit novými s novými funkcionalitami • rozšířit možnosti autentizace o JIP, mojeID a datové schránky • sjednotit komunikační rozhraní mezi moduly • umožnit komunikaci s NDA přímo systémům spisové služby • zjednodušit některé akce (skartační řízení) • rozpočet: 53 mil. Kč • zahájení: listopad 2016 • plánované ukončení: září 2019 Z ERMS do digitálního archivu… Národní archivní portál Národní archivní portál Z ERMS do digitálního archivu Z ERMS do digitálního archivu •identifikace, validace • příprava zpracování (vytvoření adresářové struktury logs/metadata/objects a přesun příslušných objektů, standardizace názvu) • vytěžování metadat do správy dat (např. entita: spis, díl typového spisu, dokument) • zpracování předávání, návratová dávka s ID AIP, komponent, výsledky migrace a hash atd.) LTP Archivematica: • metadata • identifikace, validace, migrace • vytvoření AIP • distribuce k uložení • strojové výsledky zpracování Digitální archiv - AIP INTERPI zbysek.stodulka@nacr.cz http://digi.nacr.cz