Digitální knihovny
Interoperabilita
Miroslav Bartošek
Ústav výpočetní techniky MU
Knihovnicko-informační centrum MU
FI MU 2020 M.Bartošek - Digitální knihovny 2
obecný rámec a architektura DL
intelektuální vlastnictví
& ekonomika
vícejazyčný přístup k
informacím
metadata interoperabilita
globální vyhledávání zdrojů
zobecněný model dokumenu
dlouhodobé uchovávání digitální informace
budování sbírek
digitalizace born digital harvesting
Obsah přednášky
FI MU 2020 M.Bartošek - Digitální knihovny 3
1. Úvod a přehled
2. Protokol Z39.50
3. ZING: SRW/SRU
4. OAI – Open Archive Initiative
5. OpenURL a linkovací služby
1. Úvod a přehled
FI MU 2020 M.Bartošek - Digitální knihovny 4
1. Interoperabilita
FI MU 2020 M.Bartošek - Digitální knihovny 5
„Interoperability is the name of the game for libraries“
Klasické knihovny – kooperativní systém
– možnost lokalizovat dokumenty v jiných knihovnách
(SK, MDT, virtuální katalogy, …)
– možnost získat tyto dokumenty výpůjčkou – MVS, MMVS
(protokol, ekonomika, …)
DLs – větší možnosti ale i složitosti pro spolupráci
– řada jednotících komponent (dokumenty, metadata, protokoly)
– jak je propojit dohromady ? (efektivní intersystémová komunikace)
– standardy a protokoly ! (identifikátory, metadata, komunikace,
Z39.50, OpenURL, SDLIP, OAI-PMH,…)
1.1 Co je interoperabilita?
FI MU 2020 M.Bartošek - Digitální knihovny 6
• DL <> monolitický produkt
= dynamický systém spolupracujících komponent
– The common vision is one of tens of thousands of repositories of digital
information that are autonomously managed yet integrated into what users
view as a coherent digital library system.
C.Lynch, H.García-Molina, IITA DL Workshop, 1995
• interoperabilita : schopnost spolupráce mezi technicky
různorodými a organizačně nezávislými komponentami
– Interoperability is the ability of independent systems to exchange meaningful
information and initiate actions from each other, in order to operate together
to mutual benefit. In particular, it envisages the ability for loosely-coupled
independent systems to be able to collaborate and communicate.
ISO TC46/SC9, 2006
1.1 Co je interoperabilita?
FI MU 2020 M.Bartošek - Digitální knihovny 7
• Dva systémy jsou interoperabilní, jestliže uživatel jednoho systému může
jednoduše používat některé zdroje nebo funkce druhého systému.
(peer-to-peer komunita)
• Interoperabilita umožňuje, aby informace vytvořené v určitém kontextu
byly využitelné v jiném kontextu a to různými vysoce automatizovatelnými
způsoby. (indecs)
• Interoperabilita je schopnost dvou či více systémů nebo komponent
vyměňovat si informace a tyto informace využívat. (IEEE CS)
1.1 Co je interoperabilita?
FI MU 2020 M.Bartošek - Digitální knihovny 8
• různé úrovně interoperability
– povrchní sjednocení (přístup, vzhled, ovládání) a fyzická interoper (protokoly)
– syntaktická (omezená koherence obsahu + lidská interpretace)
– hluboká sémantická (technologie – koherentní pohled na obsah a služby)
• physical interoperability is known as the communication-level interoperability, which focuses
on infrastructure, network protocol or other application such as middleware.
• Syntactic interoperability on the other hand is the application-level interoperability that
allows multiple software components such as implementation languages, interfaces, and
execution platforms.
• Semantic interoperability is the knowledge-level interoperability with the ability to bridge
semantic conflicts arising from differences in implicit meanings, perspectives and
assumptions thus creating semantically compatible information environment based on the
agreed concepts between different entities.
Maizura Hani Bte Sarip @ Maarof, Yazrina Yahya
DL-centred architecture
FI MU 2020 M.Bartošek - Digitální knihovny 9
DL
search & presentation
DL
search & presentation
DL
search & presentation
DL
search & presentation
uživatel uživatel
User centred architecture
FI MU 2020 M.Bartošek - Digitální knihovny 10
DL
DL
search & presentation
DL
DL
uživatel uživatel
1.3 Kritéria interoperability
FI MU 2020 M.Bartošek - Digitální knihovny 11
• obecná kritéria míry interoperability:
– vysoký stupeň autonomie komponent
– nízká cena infrastruktury
– snadnost přidání nové komponenty
– snadnost používání komponenty
– celková složitost
– škálovatelnost v počtu komponent
• složitost porovnávání různých řešení vzhledem k různorodosti výchozích
předpokladů a cílů
• optimalizace jednoho kritéria -> zhoršení jiného?
1.4 Přístupy k interoperabilitě
FI MU 2020 M.Bartošek - Digitální knihovny 12
1. silné standardy
komponenty se shodnou na jednom standardu - Z39.50 , OAI (homonogenita)
2. rodiny standardů
více standardů, z nichž mohou implementátoři vybírat (viz. různá platební schémata
v e-commerce) - vyšší míra autonomie komponent
3. vnější zprostředkování
zprostředkovávací moduly (wrappers, proxies) překládající datové schémata a protokoly
do/z interních formátů komponent - příklad gateways;
- vyšší cena přidání nové komponenty (vytvoření zprostředkovatele)
4. interakce založená na specifikacích
všeobecně dostupný přesný formální popis struktury a sémantiky dat/funkcí každé
komponenty (Knowledge Interchange Format, SETL, PAISLey)
5. mobilní funkcionalita
mobilní SW agenti cestující po síti na místa, kde zpřístupní služby
- javovské aplety pro doručení nové funkcionality komponentám až v době běhu
1.5 Cena/funkcionalita a prosazení v praxi
Vztah ceny a funkcionality Příklad značkovacích jazyků
• Žádný univerzální „best point“ - metadatových standardů
(Z39.50 + MARC v knihovnách, ne jinde) - komunikačních protokolů
• HTML – OK pro web, nestačí pro DL - autentizačních schémat
• Křivka není statická (nové technologie)
FI MU 2020 M.Bartošek - Digitální knihovny 13
2. Protokol Z39.50
FI MU 2020 M.Bartošek - Digitální knihovny 14
2. Protokol Z39.50
FI MU 2020 M.Bartošek - Digitální knihovny 15
• Interoperability for search and retrieval of information with client/server
• silný mezinárodní standard (search & information retrieval)
• typický a nejdůležitější příklad „klasického přístupu“ interoperability
• jeden počítač (klient, origin) vyhledává a získává data
z jiného počítače (DB-server, target) nezávisle na:
• operačních systémech
• databázích
• dotazovacích jazycích
• aplikační oblasti
• hlavní oblasti nasazení: knihovny, vláda, muzea, …
• 4 verze: 1988 (v1), 1992 (v2), 1995 (v3), 2002 (Z39.50-2003)
• http://lcweb.loc.gov/z3950/agency/
2.1 Základní rysy Z39.50
Abstraktní databáze
– standardizované přístupové body (attribute sets)
– standardizované dotazování (queries)
– standardizované pohledy na data (record syntax)
FI MU 2020 M.Bartošek - Digitální knihovny 16
Z39.50-klient
Z39.50-server
aplikace Z39.50
origin
Z39.50
target
databáze
síť
2.1 Základní rysy Z39.50
FI MU 2020 M.Bartošek - Digitální knihovny 17
• obecnější abstrakce DB-vyhledávání než SQL
• velmi obsáhlý/složitý protokol (>200 stran specifikací)
• stavový protokol, session
• pouze komunikace mezi počítači, ne user-interface
• origin: databáze s přístupovými body (indexy)
• 11 logických sekcí - „facilities“ (každá obsahuje řadu služeb)
– initialization • result-set-delete
– explain • access control
– search • accounting/resource control
– browse • extended services
– retrieval • termination
– sort
2.2 Příklad služeb
FI MU 2020 M.Bartošek - Digitální knihovny 18
• init
spojení se serverem: inicializace, vyjednání param. spolupráce, zřízení Z-relace
• explain
zjištění detailů o serveru, jeho službách, databázích, formátech, omezeních …
• search
vyhledávání; 6 typů vyhledávacích dotazů (booleovské, ISO 8777, CCL, … , SQL)
Najdi v databázi ‘Knihy’ všechny záznamy, pro které přístupový bod ‘title’ obsahuje hodnotu
‘sen’ a přístupový bod ‘author’ obsahuje hodnotu ‘shakespeare’.
– result set (uložen na serveru -> služby nad result-set: sort, delete, …)
• present
které záznamy z result-set poslat klientovi a v jakém formátu (SUTR – simple unstructured
text, MARC, …) – služba ze sekce Retrieval
2.2 Příklad služeb
FI MU 2020 M.Bartošek - Digitální knihovny 19
• scan
procházení abecedně setříděného rejstříku (názvy, předmětová metadata, …)
• access-control
autentikační kontroly; nastavení povolených přístupů a operací (download, update(v3))
– až na úroveň jednotlivých záznamů
• extended-services
přístupové služby, které mají přetrvávat životnost jedné seance, např: uchovávání výsledků
vyhledávání (result-sets) mezi seancemi, zařazení výsledků do fronty na Email/tisk,
automatické periodické opakování dotazů – SDI, …)
client-driven protokol : klienta vysílá žádost, server odpovídá
FI MU 2020 M.Bartošek - Digitální knihovny 20
http://www.biblio-tech.com/html/z39_50_detail_diagram.html
2.3 Z39.50 nastavení
FI MU 2020 M.Bartošek - Digitální knihovny 21
Protokol je velmi složitý („dinosaurus“ ?)
– systémy nemusí implementovat všechny jeho části
– požadovaná „minimální implementace“
(sekce Initialize a Search, služba Present, Type 1 Queries)
– problém kompatibility (různé databáze mají různé schopnosti)
– standardizace různých nastavení pro různé aplikační oblasti
Atribute Sets
– společný abstraktní DB model pro použití v dané oblasti
(BIB-1 - bibliografické knihovnické systémy, DL, …)
– specifikace atributů pro vyhledávání (přístupové body, syntaxe dotazů, relace, aj.)
Profil - kterých vlastností a jakého nastavení Z39.50 bude při komunikaci používáno
pro dosažení společné funkcionality (Bath-profile)
– CIP – Catalogue interoperability Protocol
– ONE – OPAC Network Europe
– GILS – Government Information Locator Service
2.4 Ukázka komunikace
FI MU 2020 M.Bartošek - Digitální knihovny 22
akce Z-klient Z-server
• navázání spojení init-požadavek (návrh parametrů)
• vytvoření Z-relace (parametry serveru) init-odpověď
• dotaz search-požad. (param.dotazu)
• result-set (počet prvků RS) serach-odpověď
• získání výsledků present-požad. (co + formát)
• a jejich prezentace (požad.záznamy) present-odpověď
• upřesnění dotazu
• práce s result-set
• ukončení spojení close-požadavek
close-odpověď
2.5 Z39.50 – stav a výhledy
FI MU 2020 M.Bartošek - Digitální knihovny 23
• využití jako prostředníka při vyhledávání mezi heterogenními
(knihovnickými) systémy
– uživatel: rešeršní dotaz v jazyku systému A
– A-Z gateway: transformace dotazu do Z39.50
– Z-klient A: dotaz do systému B
– Z-server B: vyhledání a zaslání výsledků A
– Z-klient A: přijetí výsledků
– Z-A gateway: transformace Z39.50 dat do systému A
– systém A: prezentace výsledků uživateli
• volně dostupní Z39.50 klienti (BookWhere, paralelní vyhledávání)
• LoC: Maintenance Agency (ZIG - Z39.50 Implementator’s Group)
– Z39.50-2003 – aktuální verze
– ISO standard ISO 23950:1998
– ZING (Z39.50 Next Generation) – propojit Z39.50 s web/technologiemi
aplikace1
Z-klient
Z-server
aplikace2
DB1
DB2
3. ZING: SRW/SRU
FI MU 2020 M.Bartošek - Digitální knihovny 24
3. ZING: SRW/SRU
FI MU 2020 M.Bartošek - Digitální knihovny 25
ZING – Z39.50 International: Next Generation
– soubor vyhledávacích webových technologií
– využít 20 leté zkušenosti ze Z39.50, ale
➢ jednodušší
➢ snadno implementovatelné
➢ postavené na webových technologiích (http, XML)
• SRW - Search/Retrieve Web Service
• SRU - Search/Retrieve URL Service
• CQL - Common Query Language
• a další
Web services for search and retrieval based on Z39.50 semantics
3.1 SRW/U – rysy
FI MU 2020 M.Bartošek - Digitální knihovny 26
• low-barier solution to information retrieval
– dotazování databází a získávání výsledků (na webu)
• využití technologií XML, SOAP, HTTP, URI
• SRW – protokol nad SOAP (HTTP post + XML)
• SRU – protokol nad URL (HTTP get)
• SRW/SRU využívají obecný dotazovací jazyk CQL
– uživatel vyšle searchRetrieve požadavek obsahující dotaz
(dotaz specifikován v CQL)
– server vrátí searchRetrieve odpověď – počet vyhledaných záznamů
– uživatel si přes searchRetrieve vyžádá záznamy v XML
http://www.loc.gov/standards/sru/
3.2 SRW/U – „operace“
FI MU 2020 M.Bartošek - Digitální knihovny 27
pouze 3 operace (služby):
– explain
získání info o databázi na serveru (lokace, popis obsahu, abstraktní přístupové body,
serverem podporované vlastnosti komunikačního protokolu SRW/SRU)
– scan
získání termínů z indexu databáze pro procházení rejstříku (browse)
– searchRetrieve
zadávání vyhledávacích dotazů (formulovaných v CQL)
získávání výsledků v různých formátech (specifikovaných přes explain)
SRW – klient zabalí operaci do SOAP a pošle serveru (SOAP-request)
– server zabalí odpověď do SOAP a pošle zpět klientovi
SRU – klient zakóduje operaci do URL (přenos na server přes http-get)
– výsledek je vrácen jako XML-stream (viz SRW)
3.3 SRU – ukázka
FI MU 2020 M.Bartošek - Digitální knihovny 28
• http://z3950.loc.gov:7090/voyager
✓ vrátí XML dokument pro příkaz Explain
• http://z3950.loc.gov:7090/voyager?version=1.1&
operation=searchRetrieve&query=dinosaur
✓ vrátí počet vyhledaných záznamů (1680 – result set)
• http://z3950.loc.gov:7090/voyager?version=1.1&
operation=searchRetrieve&query=dinosaur&maximumRecords=1
✓ vrátí první z vyhledaných záznamů, v default formátu (xmlmarc)
• http://z3950.loc.gov:7090/voyager?version=1.1&
operation=searchRetrieve&query=dinosaur&startRecord=2&
maximumRecords=5&recordSchema=dc
✓ vrátí dalších 5 záznamů, ve formátu DC
• http://z3950.loc.gov:7090/voyager?version=1.1&
operation=searchRetrieve&query=title=dinosaur
✓ hledá řetěz „dinosaur“ v rejstříku „title“
3.4 searchRetrieve – odpověď
FI MU 2020 M.Bartošek - Digitální knihovny 29
1.1
1680
info:srw/schema/1/marcxml-v1.1
xml
01951cmm 2200337 a 4500
5003946
20021219133215.0
970701s1995 cau c m eng
(DLC) 97802583
3-D dinosaur adventure
[computer file].
Three-dimensional dinosaur adventure
Computer data and program.
3.5 CQL
FI MU 2020 M.Bartošek - Digitální knihovny 30
2 skupiny dotazovacích jazyků v ICT:
– mocné, expresivní, ale složité a uživatelsky nepřítulné
(SQL, XQuery)
– jednoduché, uživatelsky přívětivé – ale malá funkcionalita
(CCL, Google)
CQL
– jednoduchý a intuitivní pro jednoduché dotazy
– možnost i libovolně složitých dotazů
– uživatelsky přívětivý
3.5 CQL – příklady
FI MU 2020 M.Bartošek - Digitální knihovny 31
Jednoduché dotazy
– birds
– birds or dinosaur*
– “digital libraries”
– title=dinosaur and author=crichton
– (publYear < 1980) and ((publPlace=London) or (publPlace=Rome))
Složitější dotazy
– birds prox dinosaurs
– birds prox/distance=2/unit=sentence dinosaurs
– dc.title=dinosaur and bath.author=crichton
– author all “crichton michael”
– author any “crichton michael”
– title exact dinosaur
3.6 SRW/U x Z39.50
FI MU 2020 M.Bartošek - Digitální knihovny 32
Odlišnosti SRW/U od Z39.50
– jednodušší
– snadno implementovatelný
– web-compatible
– XML
– CQL
– bezstavový (žádná session)
ale zachováno ze Z39.50
– abstrakce a sémantika
(abstraktní přístupové body, schémata, …)
– result sets
– „explain“
4. OAI
Open Archive Initiative
FI MU 2020 M.Bartošek - Digitální knihovny 33
4. Open Archive Initiative
FI MU 2020 M.Bartošek - Digitální knihovny 34
• low-barier přístup k interoperabilitě – přes sklízení metadat
• počátek 1999
– reakce na problémy tradičního modelu vědeckého publikování (green)
– pozitivní zkušenosti s on-line repozitáři typu e-print (ArXiv, …)
– cíl: zvýšit dostupnost „vědeckých“ repozitářů s minimálními náklady
• problémy:
– mnoho repozitářů, každý má vlastní (jiné) webové rozhraní
– žádné univerzální řešení pro výměnu nebo sdílení metadat
– potřeba standardů pro interoperabilitu repozitářů
• řešení
– podzim 1999: Santa Fe - základ Open Archives Initiative
a jí vyvinutého protokolu pro sklízení metadat
• http://www.openarchives.org
4. OAI – motivace
FI MU 2020 M.Bartošek - Digitální knihovny 35
• cíl
– Cross Repository Search
(prohledat jedním dotazem víc repozitářů najednou)
• brzdy
– roztříštěnost uživatelských rozhraní
– absence automatizovaného sdílení metadat
• závěry
– při on-line prohledávání většího počtu repozitářů současně (např. pomocí
Z39.50) degraduje výsledná odezva na úroveň nejpomalejšího zdroje, je
obtížné vytvářet např. rejstříky pro procházení záznamů
– půjde se cestou předběžného sklízení metadat ze všech zdrojů do jedné DB
(souborný katalog), nad kterou budou teprve poskytovány on-line služby
– odělení rolí „poskytovatelů dat“ a „poskytovatelů služeb“
4. OAI – principy
FI MU 2020 M.Bartošek - Digitální knihovny 36
• poskytovatelé dat (data providers)
– vytváří nebo provozují repozitáře (data + metadata)
– metadata volně zpřístupňují
– mají k dispozici jednoduchý snadno implementovatelný mechanismus
pro poskytování metadat o datech v repozitáři
– o nic dalšího se již nestarají
• poskytovatelé služeb (service providers)
– automatizovaně sklízejí metadata z různých repozitářů
– ukládají metadata do své lokální DB
– budují a nabízejí nadstavbové služby nad DB
4. OAI – schéma
FI MU 2020 M.Bartošek - Digitální knihovny 37
poskytovatelé dat (školy, knihovny, muzea, archivy, …)
poskytovatelé služeb
OAI-PMH
repozitář
OAI-PMH
server
search
service
OAI-PMH
harvester
repozitář
OAI-PMH
server
repozitář
OAI-PMH
server
repozitář
OAI-PMH
server
browse
service
OAI-PMH
harvester
linking
service
OAI-PMH
harvester
uživatelé
uživatelé
4.1 Technická infrastruktura OAI
FI MU 2020 M.Bartošek - Digitální knihovny 38
3 komponenty technické infrastruktury
• metadatový standard: Open Archives Metadata Set
– povinná forma: nekvalifikovaný DC + volitelná forma (oborově specifická)
– metadatové záznamy (XML) v repozitáři podporující OAI protokol
– volitelný odkaz na vlastní dokument
• jednotné identifikační schéma: oai:arXiv:hep-th01
– jednoznačný identifikátor repozitáře OAI
– identifikátor uvnitř repozitáře
– resoluce přes centrální OAI službu s využitím OpenURL
• protokol pro sklízení metadat: OAI-PMH protokol
– jednoduchý protokol na bázi HTTP (6 příkazů)
– není to vyhledávací protokol (nekonkuruje Z39.50, ale doplňuje jej)
– veškerá data jsou přenášena ve formátu XML
4.2 Protokol OAI-PMH
FI MU 2020 M.Bartošek - Digitální knihovny 39
• definuje jen šest příkazů
• umožňuje logicky hierarchicky strukturovat metadata do sad
• podporuje časová razítka
• pracuje s jednoznačným identifikátorem záznamu
• podporuje chybová hlášení
• umožňuje přenos větších objemů dat po částech (řízení toku dat)
OAI harvester OAI repozitář
Požadavky (přes HTTP)
Metadata (v XML)
Metadata
(Dokumenty)
Metadata
Data Provider
Služba
Service Provider
OAI-PMH
4.2 Protokol OAI-PMH
FI MU 2020 M.Bartošek - Digitální knihovny 40
Příkazy OAI-PMH (verbs)
Identify - popis repozitáře (archivu)
ListMetadataFormats - které metadatové formáty repozitář nabízí (kromě DC)
ListSets - členění dokumentů v repozitáři do skupin (setů)
ListIdentifiers - seznam identifikátorů dokumentů
GetRecord - pošli jeden záznam (s daným id)
ListRecords - pošli množinu záznamů (v daném formátu)
• komunikace přes HTTP GET/POST , výsledkem = XML dokument
• parametry příkazu specifikující rozsah (archiv/set/dokument/čas)
http://archive.org/oai-script?verb=Příkaz¶metr=hodnota
4.2.1 Identify
FI MU 2020 M.Bartošek - Digitální knihovny 41
• bez parametrů
• vrací popis archivu
– název
– základní URL (baseURL)
– verze OAI protokolu
– nejstarší časové razítko v archivu
– typ podpory smazaných záznamů
– granularita časových údajů
– e-mail správce
– typ komprese
– popis (typ použitých identifikátorů, právní info, odkazy na spřátelené repozitáře)
http://www.archive.org/services/oai.php?verb=Identify
FI MU 2020 M.Bartošek - Digitální knihovny 42
4.2.2 GetRecord
FI MU 2020 M.Bartošek - Digitální knihovny 43
• vyžádá si na základě identifikátoru a požadovaného
metadatového formátu jeden konkrétní záznam
• http://www.archive.org/services/oai.php
?verb=GetRecord
&metadataPrefix=oai_dc
&identifier=oai:archive.org:texts/52190
FI MU 2020 M.Bartošek - Digitální knihovny 44
4.3 Metadatový záznam
FI MU 2020 M.Bartošek - Digitální knihovny 45
3 části
– povinná hlavička (header)
• jednoznačný identifikátor
• časové razítko (čas vzniku nebo změny záznamu)
• příslušnost k sadám
– vlastní metadata
• v libovolném formátu, ale
• musí být uložena v XML, s odkazem na namespace
• jeden z podporovaných formátů musí být nekvalifikovaný Dublin Core
– volitelné popisné údaje (about)
• údaje o původu metadat (provenance)
• údaje právních vztazích (rights)
4.3.1 Smazané záznamy
FI MU 2020 M.Bartošek - Digitální knihovny 46
• volitelná podpora předávání informací o smazaných položkách:
– žádná (no)
– dočasná (transient)
– trvalá (persistent)
• podpora informací o smazaných záznamech nezbytná pro efektivní
aktualizace databáze service providerů
4.3.2 Časová razítka
FI MU 2020 M.Bartošek - Digitální knihovny 47
• datum vzniku nebo poslední změny záznamu
• povinný údaj pro každou položku
• dvě úrovně granularity:
– RRRR-MM-DD
– RRRR-MM-DDThh:mm:ssZ
• pracuje se výhradně se světovým časem UTC/GMT (Z = Zulu)
• využití při výběrovém sklízení metadat (from – until)
– například při aktualizacích databáze service providera
– tam, kde se očekávají opakované dotazy na aktualizované záznamy
několikrát denně je vhodné aplikovat granularitu na úrovni sekund
4.3.3 Řízení toku dat
FI MU 2020 M.Bartošek - Digitální knihovny 48
• umožňuje omezit velikost předávaného souboru, „rozsekat“ jej na části
• použití u ListSets, ListIdentifiers a ListRecords
• data provider poskytne jen část seznamu a „resumptionToken“ =
poukaz na pokračování přenosu (libovolný identifikátor)
• při požadavku na pokračování se předává jen resumptionToken a
žádné další parametry
4.3.3 Řízení toku dat
FI MU 2020 M.Bartošek - Digitální knihovny 49
„chci všechny vaše záznamy“
http://www.archive.org/services/oai.php
?verb=ListRecords
&metadataPrefix=oai_dc&from=2003-01-01
„mám jich 267, ale teď vám dám jen 100“
100 záznamů + resumptionToken „ID1“
„chci další záznamy, tady je poukaz“
http://www.archive.org/services/oai.php
?verb=ListRecords
&resumptionToken=ID1
„mám jich 267, teď dám dalších 100“
100 záznamů + resumptionToken „ID2“
„chci další záznamy, tady je další poukaz“
http://www.archive.org/services/oai.php
?verb=ListRecords&
resumptionToken=ID2
„mám jich 267, tohle je posledních 67“
67 záznamů + resumptionToken „“
Service Provider
OAI harvester
Data Provider
OAI repozitář
4.4 Vyzkoušejte si OAI-PMH…
FI MU 2020 M.Bartošek - Digitální knihovny 50
• vyber si zdroj z OAI-registru (přes 2100 OAI repozitářů)
http://www.openarchives.org/Register/BrowseSites
• klikni na „Identify“
• edituj v prohlížeči URL baseURL?verb=Identify dle vzoru:
− baseURL?verb=ListMetadataFormats
− baseURL?verb=ListSets
− baseURL?verb=ListIdentifiers&metadataPrefix=oai_dc
− baseURL?verb=GetRecord&metadataPrefix=oai_dc&identifier=
− baseURL?verb=ListRecords&metadataPrefix=oai_dc& from=20070401&until=20070914
− baseURL?verb=ListRecords&metadataPrefix=oai_dc&set=
4.5 Aktuální stav
FI MU 2020 M.Bartošek - Digitální knihovny 51
Jan 2001 : OAI-PMH v 1.0 (experimentální)
– výzkumné projekty a programy
– nástroje
• OCLC-ALCME (front-end pro DB server, OAI harvester, MARC->DC,..)
• OAIB (OAI in Box) – export metadat z relační DB přes OAI-PMH
• DP9 – vystavení metadat z OAI repositářů pro web-search engines
– první poskytovatelé služeb a poskytovatelé dat
Jun 2002 : OAI-PMH Version 2 (stabilní)
– Spousta nástrojů, knihoven, služeb
– OAI repository explorer
• test implementace OAI repozitáře prostřednictvím web-formuláře
– OAIster
• „souborný katalog“ knihovních OAI zdrojů – http://oaister.worldcat.org
4.6 Nové aktivity v rámci OAI
• OAI-ORE Object Reuse and Exchange
• standard pro agregaci složených inf. objektů na webu
• ResourceSync
• synchronizace obsahu mezi různými zdroji na webu
• SignPosting
• jak se dostat strojově pomocí typovaných odkazů
Typed-Links k podstatným datům
(např. k fulltextu nebo DOI publikace, …)
FI MU 2020 M.Bartošek - Digitální knihovny 52
5. OpenURL
a linkovací služby
FI MU 2020 M.Bartošek - Digitální knihovny 53
5. Kontextově citlivé vazby
FI MU 2020 M.Bartošek - Digitální knihovny 54
• interoperabilita v oblasti resource linking
• hypertextové vazby napříč nezávislými zdroji
komerční citační DB - lokální katalog - fultext v časopise - Inet-vyhledávač
• článek dostupný v různých komerčních DB, ale jen k jedné z nich
má moje instituce zaplacený přístup – jak to udělat, aby odkaz na
dokument vedl vždy do té správné DB, do které má uživatel přístup???
• požadavek – kontextově citlivé vazby
– zohledňovat konkrétního uživatele
cíl vazby není konstantní nýbrž závisí na tom, kdo na vazbu klikl
• appropriate-copy problem
5.1 OpenURL
FI MU 2020 M.Bartošek - Digitální knihovny 55
• OpenURL a SFX (Special Effects) – výzkum na univerzitě v Ghentu (konec 90.let)
• Herbert von Sompel, Univ of Ghent
• nyní NISO-ANSI standard Z39.88-2004
• OpenURL - návrh standardu pro kódování metadat o zdroji do jeho URL
– citace článku v databázi Medline nakladatele Ebsco Publishing:
Moll, JR. Attractive electrostatic interactions. J Biol Chem. 2000 Nov 3,
275(44):34826-32. doi:10.1074/jbc.M004545200
– http://sfx1.exlibris.com/demo?sid=ebsco:medline&aulast=Moll
&auinit=JR&date=20001103&stitle=J%20Biol%20Chem&volume=275
&issue=44&spage=34826
• http://www.niso.org/standards/z39-88-2004
• http://www.exlibrisgroup.com/category/SFXOverview
5.2 Linkovací služba (SFX)
FI MU 2020 M.Bartošek - Digitální knihovny 56
• SFX - aplikační rámec nad OpenURL
• princip: oddělení popisu zdroje od poskytování vazeb
• klasická vazba:
SFX vazba:
• kooperační rámec SFX:
– linkovací služba (link resolver) propojuje (dynamicky) výchozí zdroj s cílovým zdrojem
v závislosti na tom, kdo daný zdroj požaduje (Knowledge Base o zdrojích každého zákazníka)
– producenti informačních zdrojů poskytují OpenURL-enabled zdroje
výchozí zdroj
(např. citace článku)
cílový zdroj
(např. plný text)
výchozí zdroj cílový zdroj
(kontextový !)
linkovací
služba cílový zdroj
(kontextový !)cílový zdroj
(kontextový !)
http://databaze.com/clanek35.pdf
http://linker.com/aulast=Hašek&title=Švejk
http://proquest.com/db=cz/item6589.pdf
5.3 Uživatelský scénář
FI MU 2020 M.Bartošek - Digitální knihovny 57
• uživatel: vyhledá v informačním zdroji odkaz na výchozí zdroj (jeho citaci)
a aktivuje jeho OpenURL (ta odkazuje na linkovací-službu uživatele)
• linkovací služba:
– z obdrženého OpenURL vyzvedne metadata výchozího zdroje
– podle IP adresy pozná, ze které instituce uživatel pochází
– ze své znalostní báze zjistí seznam databází předplácených danou institucí
– podle metadat z OpenURL provede vyhledání ve všech databázích instituce
(jestli někde daný dokument existuje)
– vrátí uživateli seznam relevantních cílových odkazů:
• plný text zdroje (v DB zakoupené mateřskou institucí daného uživatele)
• záznam v lokálním knihovním katalogu mateřské instituce uživatele
• seznam dalších prací autora výchozího zdroje, vyhledaný Googlem, ...
• uživatel: vybere si některý z nabídnutých relevantních cílových odkazů
Get Fulltext at MU
M.Bartošek - Digitální knihovny 58
Linking I
Source
T a r g e t s
OpenURL
Link
Server
Site
Specific
A p p r o p r i a t e T a r g e t s
Link to
referenced
work
reference
I
Context Sensitive
FI MU 2020
A&I
e-print
Full Text
Portal
Web Form
Reference
Manager
Linking e-collections
OPAC
Link
Server
Digital
collections
FI MU 2020 M.Bartošek - Digitální knihovny 59
1
2
3
FI MU 2020 60
1
2
3
FI MU 2020 61
5.4 Aktuální stav
FI MU 2020 M.Bartošek - Digitální knihovny 62
• 2005 – OpenURL 1.0
– NISO standard
– podstatné zobecnění oproti původní verzi 0.1
• řada konkurenčních komerčních řešení pro linkovací služby
– SFX (ExLibris) – na MU od 2008 – http://sfx.muni.cz
– ArticleLinker (Proquest)
– LinkSolver (Ovid)
– LinkSource (EBSCO) – na MU od 2013/10 (nahradil SFX)
• široce využívaný v praxi
• většina významných producentů EIZ
• OpenURL-enabled zdroje
Literatura
FI MU 2020 M.Bartošek - Digitální knihovny 63
Doplňková literatura
FI MU 2020 M.Bartošek - Digitální knihovny 64
OAI for Beginners – the Open Archives Forum online tutorial.
http://www.ukoln.ac.uk/metadata/oa-forum/tutorial/
Přehled rámce pro výměnu a opětovné využití digitálních objektů
v otevřených archivech OAI-ORE. Ikaros 5/2, 2009.
https://ikaros.cz/prehled-ramce-pro-vymenu-a-opetovne-vyuziti-digitalnich-
objektu-v-otevrenych-archivech-oai-ore-herbe
Interoperability as a Bench Mark in Digital Libraries. V. Gupta, M.A. Ansari.
https://ir.inflibnet.ac.in/handle/1944/1259