Jana Kurfürstová Moravská zemská knihovna v Brně Zpracování a analýza metadat Metadata v knihovnictví Zpracování metadat v discovery systémech ➢Deduplikace ➢Indexace ➢Relevance Linked Data Principy fungování federace eduID Analýza a úprava metadat s nástrojem OpenRefine Obsah bloku ➢Co je obsahem bibliografických záznamů? ➢Co ještě je užitečné v knihovnictví popisovat kromě dokumentů? ➢Jaké znáte metadatové formáty v knihovnictví? ➢Jaký je vztah katalogizačních pravidel a metadatových formátů? ➢Čím se vyznačují kvalitní metadata? Bibliografická metadata ➢Kvalita metadat je určena jejich syntaktickou a sémantickou správností. ➢Kvalitní metadata odpovídají standardům pro svůj deklarovaný formát a sdělují maximum relevantních, strojově rozlišitelných údajů o informačním objektu. ➢Pro kvalitní metadata je zvolen vhodný formát, jehož struktura umožňuje efektivní zpracování údajů obsažených v záznamu. ➢Klíčovou vlastností kvalitních metadat je jejich konzistentnost, tj. jednotnost rozsahu zaznamenaných údajů a způsobu zápisu každého údaje ve všech záznamech metadatového zdroje. Bibliografická metadata Deduplikace záznamů ➢Knihovny.cz ➢SK ČR ➢Google Scholar ➢… Co dělá deduplikace? Jak myslíte, že je toho dosaženo? Jak poznáme, že X záznamů popisuje stejný dokument? Příklady: https://github.com/JanaKurfurstova/vyukaKISK Jak to dělá SK ČR: https://www.caslin.cz/caslin/spoluprace/jak-prispivat-do-sk-cr/dodavani-dat/jak-probiha-davkovy-imp ort/deduplikacni-procedury Deduplikační klíče a kroky Metadatový zdroj A Metadatový zdroj B ABC? ABD? ACD? BCD? Z2_ABCD : …. Z4_ABCD Z1_ABCD S1 S2 S3 lokální záznam sloučený záznam ➢Odstrašující příklad: https://www.knihovny.cz/Record/mkklat.50380#dedupedrecord ➢Neexistuje 100 % správné řešení deduplikace: ○moc přísná pravidla = nepřehlednost vyhledávání pro velké množství multiplicit NEBO nutnost vyhazovat na vstupu nekvalitní záznamy ○moc benevolentní pravidla = vysoký podíl ošklivých shluků NEBO použití ve statickém prostředí s možností ručních zásahů ○moc komplikovaná pravidla (např. podobnostní porovnávání, více kroků s více klíči) = neúnosná výpočetní náročnost NEBO použití na malých datasetech ➢Tj. děláme, co se dá, ale část odpovědnosti vždy leží na knihovnách. Deduplikace - diskuze Indexace K čemu je indexace? ➢https://www.knihovny.cz/Search/Advanced ➢https://www.cochranelibrary.com/advanced-search/search-manager ➢https://isdv.upv.cz/webapp/!resdb.pta.frm Indexace nad zdeduplikovanými záznamy Metadatový zdroj A Metadatový zdroj B ABC? ABD? ACD? BCD? Z2_ABCD : …. Z4_ABCD Z1_ABCD S1 S2 S3 A: S1 A: S2 A: S3 B: Z1, Z2, Z4 B: Z3 . . . . . D: S3 DEDUPLIKACE index lokální záznam sloučený záznam INDEXACE A Z1_ABCD S2 ➢Indexace autorů: ○jmenovci 1 ○jmenovci 2 ○nesmysl ➢Indexace titulů: ○co byste zaindexovali zde? ○nesmysly: příklad ➢Různé: ○vadný rok ○653 smetí: příklad 1, příklad 2, příklad 3, příklad 4 Indexace - příklady ➢Obohacování ➢Potenciál formátu vs. jeho skutečná využívanost ➢Maximalismus vs. minimalismus a jejich důsledky ➢Konsolidace hodnot ano/ne? ➢Obsahy a fulltexty ➢A co dál? Folksonomie, AI… Indexace - diskuze Relevance ➢Co ovlivňuje pořadí výsledků třeba v Googlu? ➢Jak byste řekli, že to dělají Knihovny.cz? ○Vyhledejte: Harry Potter, Návrat krále, Alois Jirásek ○Vyhledejte: librarian, librarianship, plášť, plast ➢Různé typy knihoven mají odlišné potřeby: ○základní vs. velké vědecké vs. úzce specializované knihovny ○různé potřeby nemusí jít naplnit v různém kontextu Nastavování relevance ve vyhledávačích Linked data Semantic web ➢I have a dream for the Web in which computers become capable of analyzing all the data on the Web – the content, links, and transactions between people and computers. A "Semantic Web", which makes this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines. The "intelligent agents" people have touted for ages will finally materialize. Tim Berners-Lee (1999) ➢Předpokladem pro sémantický web jsou Linked Data ○Značkovací jazyky ○Kontrolované slovníky ○Ontologie ➢RDF (W3C) - model pro zpracování metadat v podobě grafu (tj. uzly a hrany) ○URI: povinné pro vše kromě "volných hodnot" v objektu ○Formáty: Turtle (přímo pro tento účel), XML, JSON, cokoliv… RDF a Bibframe RDF a Bibframe ➢BIBFRAME (LOC) ○Aplikace RDF pro bibliografická metadata ○příklad ➢Problematika konverzí: ○Jen mapovaní MARC, MODS, MADS, DC na RDF ○Generování pořád dalších URI, které nebudou dále nikde použity ○Upřednostňování volně tvořených hodnot místo využívání již existujících zdrojů ○S chudými daty se nedá čarovat ○Tj. výsledek by byl tak trochu fake, který splňuje formální požadavky, ale míjí se s hlavní myšlenkou. ○Více o problematice např. zde či zde SSO a eduID.cz Single Sign-On ➢Jedno přihlašování - více služeb ○Znáte "přihlásit pomocí Google/Facebook účtu", bankovní identita… ○Akademické prostředí - eduID.cz: ■Přístup k licencovaným zdrojům nasmlouvaným na školu, knihovnu, ústav… ■Nejde jen o "kdo to je?", ale i "odkud je?" a "opravdu tam pořád ještě je?" ➢SAML (Security Assertion Markup Language) ○Implementováno v nástrojích Shibboleth, SimpleSAMLphp… eduID.cz role uživatel čtenář / student / zaměstnanec instituce instituce škola / knihovna / ústav eviduje své uživatele IdP = Identity Provider poskytovatel služby zpřístupňuje obsah / SW uživatelům na základě smlouvy s jejich institucí SP = Service Provider federace autorita evidující IdP / SP eduID.cz federace federací umožňuje fungování systému na mezinárodní úrovni eduGAIN eduID.cz workflow ➢https://forms.office.com/r/ErdnQgN4Zc ➢Jaké jsou výhody federací typu eduID.cz? ○Jedny přihlašovací údaje pro více služeb. ○Pouze mateřská instituce zná přihlašovací údaje. ○Mateřská instituce nesleduje uživatele v externích službách. ○Transparentnost - veřejně vystavený rozsah údajů, které budou komunikovány ○Bezpečnost - do federace nelze jednoduše podvrhnout metadata o IdP nebo SP (leda by byl administrativní kontakt padouch), členství je podmíněno schopností bezpečné komunikace OpenRefine OpenRefine švýcarský nůž na práci se strukturovanými daty ➢Ke stažení: https://openrefine.org/download.html ➢Návody: https://docs.openrefine.org/manual/grelfunctions ➢Stáhněte si soubor, se kterým budeme pracovat: https://github.com/JanaKurfurstova/vyukaKISK/blob/main/cvicnaData.mrk ➢Předpokládaná reálná situace: ○Z knihovního systému vyexportujete MRC ○V MarcEditu zkonvertujete MRC do MRK ○S MRKem uděláte potřebné manipulace v OpenRefinu ○Výsledný MRK zkonvertujete MarcEditem opět do MRC ○MRC nahrajete do knihovního systému ○Případně se přizpůsobíte situaci v jiném prostředí… OpenRefine - možnosti ➢MarcEdit: ok na kontrolu syntaxe, validaci ISBN, hromadné úpravy bez návaznosti na zbytek záznamu ➢OpenRefine: umožní zkoumat širší souvislosti: ○Pole X je syntakticky v pořádku, ale je v něm nesmysl. ○Pole X je v rozporu s tím, co říká pole Y. ○Záznamy s nějakým společným jmenovatelem mají chybu v poli X. ○Vytvoření nového pole namapováním údajů z jiného souboru. ○OpenRefinem můžete analyzovat a čistit i jiná data (exporty z Google Analytics, systémové logy, datasety vzniklé při výzkumu atd.) ➢Dokumentace pro MARC 21 a RDA: ○https://www.loc.gov/marc/bibliographic/ ○materiály na webu Národní knihovny, https://katdotaz.nkp.cz/ ○slidy dr. Vochozkové: http://webserver.ics.muni.cz/hanan/index.htm ○kolega katalogizátor v knihovně, kde budete ➢OPATRNĚ s hromadnými úpravami! ○To, že něco jde, neznamená, že je to dobrý nápad. ○Nevidíte pramen popisu (nemáte knihu v ruce). Co když je to tam opravdu špatně? Co když si nakladatel říká pokaždé trochu jinak? ○Chybná ISBN a další identifikátory nejsou vzácnost. ○Autority jsou skvělá věc, ale automatické doplňování je hazard. ➢Co je bezpečné? ○Nalezení podezřelých či chybějících údajů a oprava v katalogizaci s knihou v ruce. ○Oprava syntaktických chyb: posuvy a chyby na konkrétních znakových pozicích, interpunkce, špatně použitá podpole. ○Doplňování opravdu jistých RDA polí. ○Sjednocování či doplňování volně tvořených klíčových slov. Úskalí hromadných úprav ➢Různé způsoby otevření MRK, kontrola v řádkové podobě ➢Příprava na překlopení, překlopení, seřazení sloupců ➢Nalezení záznamu s opakovaným polem 245. ➢Nalezení a oprava s posunutým jazykem. ➢Nalezení autorů bez autority. Nalezení nesedících roků. ➢Doplnění interpunkce do polí 26X. ➢Nalezení hudebnin zapsaných jako textový dokument. ➢Nalezení knih vydaných po r. 1989 bez ISBN. ➢Nalezení RDA záznamů bez RDA polí. Doplnění chybějících 336-338 dle typu dokumentu. ➢Cluster & merge volně tvořených klíčových slov. OpenRefine - příklady DĚKUJI ZA POZORNOST Jana Kurfürstová kurfurstova@mzk.cz Prostor na dotazy