Jana Kurfürstová Moravská zemská knihovna v Brně Datové formáty v knihovnictví a katalogizační pravidla ➢ Co je obsahem bibliografických záznamů? Bibliografická metadata ➢ Popisná: info o obsahu, formě a původu zdroje umožní systémům různé způsoby pořádání a prezentace a uživatelům vyhledávání a odhad relevance ➢ Strukturální: od TOC až po hierarchie u seriálů a cyklů ➢ Administrativní: lokační, o právech užití, logování změn, technické parametry (u digitálních objektů) Bibliografická metadata ➢ Co je obsahem bibliografických záznamů? ➢ Čím se vyznačují kvalitní metadata? Bibliografická metadata ➢ Kvalita metadat je určena jejich syntaktickou a sémantickou správností. ➢ Kvalitní metadata odpovídají standardům pro svůj deklarovaný formát a sdělují maximum relevantních, strojově rozlišitelných údajů o informačním objektu. ➢ Pro kvalitní metadata je zvolen vhodný formát, jehož struktura umožňuje efektivní zpracování údajů obsažených v záznamu. ➢ Klíčovou vlastností kvalitních metadat je jejich konzistentnost, tj. jednotnost rozsahu zaznamenaných údajů a způsobu zápisu každého údaje ve všech záznamech metadatového zdroje. Bibliografická metadata ➢ Co je obsahem bibliografických záznamů? ➢ Čím se vyznačují kvalitní metadata? ➢ Co ještě je užitečné v knihovnictví popisovat kromě dokumentů? ➢ Jaké znáte metadatové formáty v knihovnictví? Bibliografická metadata ➢ Dokumentace k MARC 21 ➢ MARC umožňuje zápis širokého spektra údajů, ale v praxi se setkáte s popisem zhruba následujícího takového rozsahu (další NKP materiály ke katalogizaci zde a zde) ➢ Výhody: mezinárodně rozšířeno (jednoduché přebírání) ➢ Nevýhody: zastaralost, nečitelnost/nepoužitelnost mimo obor, problematická rozšiřitelnost, nemožnost obohacení o netextová data, podpora hierarchií jen na úrovni pole-podpole, nízká granularita pro některé potřeby (např. 773$g), nepraktické řešení TOC a odkazů na ostatní objekty a entity, vazba na jazyk Metadatové formáty ➢ MODS a MADS - "hezčí" XML, používané např. v Krameriu (kde jde o konverzi z MARCu) ➢ METS - podpora zápisu složitějších struktur např. seriálů ➢ PICA - od OCLC, Nizozemsko a některé německojazyčné ➢ Dublin Core - lze používat smysluplně (DCMI iniciativa se nyní orientuje na LD), ale láká k nekonzistentnímu a neformalizovanému použití ve své nejjednodušší formě (15 základních elementů s libovolným obsahem) ➢ BIBFRAME - aplikace RDF pro sémantickou katalogizaci, používáno LOC, dobré pro nové záznamy, pochybná možnost konverze z MARCu Metadatové formáty ➢ Co je obsahem bibliografických záznamů? ➢ Čím se vyznačují kvalitní metadata? ➢ Co ještě je užitečné v knihovnictví popisovat kromě dokumentů? ➢ Jaké znáte metadatové formáty v knihovnictví? ➢ Jaký je vztah katalogizačních pravidel a metadatových formátů? Bibliografická metadata ➢ Jaký je vztah mezi kat. formáty a pravidly? ○ Pořadí pramenů popisu, způsob zápisu údajů do polí daného formátu ➢ Do 2015 AACR2 (Anglo-American Cataloguing Rules) ➢ Nyní RDA (Resource Description and Access) ○ Zohlednění FRBR a existence současné techniky :-) ○ Materiály na webu NKP - jsou jediní v ČR s přístupem k oficiální dokumentaci :-) ➢ slidy dr. Vochozkové: http://webserver.ics.muni.cz/hanan/index.htm Katalogizační pravidla ➢ International Standard Bibliographic Description ○ Pořadí prvků, interpunkce mezi nimi ○ Původně šlo o čitelnost na lístku, resp. čitelnost napříč jazyky ○ Formáty i pravidla tvořeny s ohledem na tento standard ➢ Obskurnosti jako různé systémy transkripce pro různé nelatinkové jazyky ➢ KATDotaz - co se tam zodpoví, stává se pravidlem Syntaxe dle ISBD aj. ➢ https://koha2111-intra.rbit.cz/ ➢ Zkuste v modulu katalogizace přebrat záznam ze SKC ➢ Prohlédněte si předvyplněná pole, interpunkci, dropdowny, nápovědy ➢ To, co vidíte a máte povoleno vyplňovat ve formuláři, můžete jako admin upravovat v šablonách (např. zde skryto pole 001, které se inkrementuje automaticky) Praktická ukázka Interoperabilita ➢ Z39.50 (od 70. let) ○ př. dotazu f @and @attr 1=1003 knuth @attr 1=4 @attr 5=1 computer ➢ SRU/SRW (2002, Search/Retrieve via URL/Search/Retrieve Web service) ○ nástupci, HTTP protokol, "normální" CQL ➢ V administraci AKS můžete přidávat servery, ze kterých mohou knihovníci stahovat záznamy; na wiki popsán i způsob, jak zprovoznit vlastní server. Interoperabilita ➢ OAI-PMH ○ Velmi jednoduchý protokol (6 instrukcí) ○ HTTP (GET, POST), XML (MarcXML, DC…) ○ Každý záznam má hlavičku (ID, datum poslední změny, status, příslušnost do setů) a tělo ○ Knihovní systém má OAI data provider ○ Agregátor či discovery system (SK ČR, Knihovny.cz, Summon či EBSCO discovery) má OAI harvester ○ Někdy to vázne: data provider neumí všechny instrukce, neaktualizuje datestampy, negeneruje do záznamu potřebná pole, korektně nemaže záznamy Interoperabilita ➢ různá API (application programming interface) ○ GET request: https://url.cz/api?q1=v1&q2=v2&... ○ POST request: posílá se paklík dat na konkrétní adresu (tzn. lze používat i requesty obsahující citlivější údaje) ○ Koha, Aleph (RESTful API, X-Server),..., Získej, ObálkyKnih.cz, ..., NCIP ○ Jako response může přijít XML, JSON Interoperabilita Deduplikace záznamů ➢ Knihovny.cz ➢ SK ČR ➢ Google Scholar ➢ … Co dělá deduplikace? Jak myslíte, že je toho dosaženo? Jak poznáme, že X záznamů popisuje stejný dokument? Příklady: https://github.com/JanaKurfurstova/vyukaKISK Jak to dělá SK ČR: https://www.caslin.cz/caslin/spoluprace/jak-prispivat-do-sk-cr/dodavani-dat/jak-probiha-da vkovy-import/deduplikacni-procedury Deduplikační klíče a kroky Metadatový zdroj A Metadatový zdroj B Z1_ABCD Z2_ABCD Z3_ABCD Z4_ABCDABC? ABD? ACD? BCD? Z3_ABCD Z2_ABCD : …. Z4_ABCD Z1_ABCD S1 S2 S3 lokální záznam sloučený záznam ➢ Odstrašující příklady: ○ https://www.knihovny.cz/Record/mvk.bf731271-1302-4c4d-88e2-b07b 621c2861#dedupedrecord https://www.knihovny.cz/Record/mkricany.211198#dedupedrecord ➢ Neexistuje 100 % správné řešení deduplikace: ○ moc přísná pravidla = nepřehlednost vyhledávání pro velké množství multiplicit NEBO nutnost vyhazovat na vstupu nekvalitní záznamy ○ moc benevolentní pravidla = vysoký podíl ošklivých shluků NEBO použití ve statickém prostředí s možností ručních zásahů ○ moc komplikovaná pravidla (např. podobnostní porovnávání, více kroků s více klíči) = neúnosná výpočetní náročnost NEBO použití na malých datasetech ➢ Tj. děláme, co se dá, ale část odpovědnosti vždy leží na knihovnách. Deduplikace - diskuze Indexace K čemu je indexace? ➢ https://www.knihovny.cz/Search/Advanced ➢ https://www.cochranelibrary.com/advanced-search/sear ch-manager ➢ https://isdv.upv.cz/webapp/!resdb.pta.frm Indexace nad zdeduplikovanými záznamy Metadatový zdroj A Metadatový zdroj B Z1_ABCD Z2_ABCD Z3_ABCD Z4_ABCD ABC? ABD? ACD? BCD? Z3_ABCD Z2_ABCD : …. Z4_ABCD Z1_ABCD S1 S2 S3 A: S1 A: S2 A: S3 B: Z1, Z2, Z4 B: Z3 . . . . . D: S3 DEDUPLIKACE index lokální záznam sloučený záznam INDEXACE A Z1_ABCD S2 ➢ Indexace autorů: ○ jmenovci 1 ○ jmenovci 2 ➢ Indexace titulů: ○ co byste zaindexovali zde? ○ nesmysl: příklad 1 ➢ Různé: ○ vadný rok ○ 653 smetí: příklad 1, příklad 2, příklad 3, příklad 4 Indexace - příklady ➢ Obohacování ➢ Potenciál formátu vs. jeho skutečná využívanost ➢ Maximalismus vs. minimalismus a jejich důsledky ➢ Konsolidace hodnot ano/ne? ➢ Obsahy a fulltexty ➢ A co dál? Folksonomie, AI… Indexace - diskuze Relevance ➢ Co ovlivňuje pořadí výsledků třeba v Googlu? ➢ Jak byste řekli, že to dělají Knihovny.cz? ○ Vyhledejte: Harry Potter, Návrat krále, Alois Jirásek ○ Vyhledejte: librarian, librarianship, plášť, plast ➢ Různé typy knihoven mají odlišné potřeby: ○ základní vs. velké vědecké vs. úzce specializované knihovny ○ různé potřeby nemusí jít naplnit v různém kontextu Nastavování relevance ve vyhledávačích DĚKUJI ZA POZORNOST Jana Kurfürstová kurfurstova@mzk.cz Prostor na dotazy