Introduction to Digital Libraries  and their Technologies – II. Miroslav Bartošek Institute of Computer Science MU Library and Information Centre Topics 1. Introduction to Digital Libraries (DLs) 2. Architecture of DLs 3. Identifiers  4. Metadata 5. Interoperability 6. Searching 7. Economy and Legislation 8. Digital Preservation 9. DLs@MU DLs and their Technologies 2 5. Interoperability DLs and their Technologies 3 Logo from www.ncstrl.org 5. Interoperability 5.1  Introduction 5.2  Z39.50 Protocol 5.3  OAI‐PMH 5.4  Linking Services DLs and their Technologies 4 5.1 Interoperability • “Interoperability is the name of game for libraries” • The common vision is one of tens of thousands of repositories of digital  information that are autonomously managed yet integrated into what  users view as a coherent digital library system. C.Lynch, H.García‐Molina, IITA DL Workshop, 1995 • Interoperability is ability to cooperate between technically diverse and  organizationally independent components (DLs) • Interoperability is the ability of independent systems to exchange  meaningful information and initiate actions from each other, in order to  operate together to mutual benefit. In particular, it envisages the ability  for loosely‐coupled independent systems to be able to collaborate and  communicate.   ISO TC46/SC9, 2006 DLs and their Technologies 5 DL‐centred architecture DLs and their Technologies 6 DL search & presentation DL search & presentation DL search & presentation DL search & presentation uživatel uživatel User centred architecture DLs and their Technologies 7 DL DL search & presentation DL DL uživatel uživatel 5.1 Criteria for interoperability General criteria for interoperability: – high degree of component autonomy – low infrastructure cost – ease of adding a new component – ease of use of the component – total complexity – scalability in the number of components • It is difficult to compare different solutions due to the variety of  underlying assumptions and goals • Optimizing one criterion may lead to worsening another • Main approach: strong standards DLs and their Technologies 8 5.2 Z39.50 Protocol • Interoperability for search and retrieval of information • Example of classic approach to interoperability – strong standard • One computer (client, origin) searches and retrieves data from another  computer (DB‐server, target) independently of: – operating systems – databases – query languages – application areas • main areas of deployment: libraries, government, museums, ... • 4 versions: 1988 (v1), 1992 (v2), 1995 (v3), 2002 (Z39.50‐2003) • http://lcweb.loc.gov/z3950/agency/ DLs and their Technologies 9 5.2 Z39.50 Protocol Abstract databases – Standardized access points (attribute sets) – Standardized searching (queries) – Standardized data formats (record syntax) DLs and their Technologies 10 Z39.50‐client Z39.50‐server application Z39.50 origin Z39.50 target database net 5.2 Z39.50 main features • more general database abstraction than SQL • very extensive / complex protocol (> 200 pages of specifications) • state protocol, session • only communication between computers specified, not user‐interface • 11 logical sections – "facilities" (each containing a range of services) – initialization  ‐ result‐set‐delete – explain  ‐ access control – search  ‐ accounting / resource control – browse  ‐ extended services – retrieval  ‐ termination – sort DLs and their Technologies 11 5.2 Z39.50 main features • Heavily used in library management systems – searching, record exchange & updates • outside the library area did not spread too much (too complex) • now obsolete, is not compatible with web technologies • Attempt to revitalize Z39.50 – to simplify and convert to web technologies (ZING – Z39.50 Next Generation) – SRW – Search/Retrieve Web Service – SRU – Search/Retrieve URL Service – + CQL – Common Query Language • http://z3950.loc.gov:7090/voyager?version=1.1& operation=searchRetrieve&query=title=dinosaur&maximumRecords=5& recordSchema=dc DLs and their Technologies 12 5.3 Open Archive Initiative • Interoperability in harvested‐based searching • Open Access movement ‐> thousands of repositories • Problem: How to search all repositories with one query? Cross Repository Search • 1999 Sante Fe – initial OAI meeting – http://www.openarchives.org • Solution: – to separate the roles of data providers and service providers – Data provider: looks after the repository and makes it accessible – Service provider: • harvests metadata from repositories into one database • provides services (e.g. searching)  over a harvested database – What do we need? • Protocol for Metadata Harvesting (OAI‐PMH)  DLs and their Technologies 13 5.3 OAI – diagram  DLs and their Technologies 14 Data providers (universities, libraries, archives, …) Service providers OAI-PMH repository OAI-PMH server search service OAI-PMH harvester repository OAI-PMH server repository OAI-PMH server repository OAI-PMH server browse service OAI-PMH harvester linking service OAI-PMH harvester user user 5.3 OAI Technical infrastructure DLs and their Technologies 15 Three OAI components: • Metadata standard: Open Archives Metadata Set – obligatory form (simple DC) + optional form (any, subject specific) – metadata records (XML) in a repository supporting the OAI protocol – optional link to document in repository (full text) • Unified identification: oai:arXiv:hep‐th01 – unambiguous repository identifier within OAI (prefix) – local document identifier inside the repository (suffix) • Protocol for metadata harvesting: OAI‐PMH protocol – simple protocol based on HTTP (6 commands) – it is not a search protocol (does not compete with Z39.50) – all data is transmitted in XML format 5.3 OAI‐PMH Protocol • OAI‐PMH commands (verbs): – Identify ‐ description of repository (archive) – ListMetadataFormats ‐ which metadata formats repository offers (except DC) – ListSets ‐ subdivision of documents into a repository into groups (sets) – ListIdentifiers ‐ list of document identifiers – GetRecord ‐ send one entry (with given id) – ListRecords ‐ send a set of records (in the given format) • communication via HTTP GET / POST, result = XML document • command parameters specifying range (archive / set / document / time) • http://archive‐url.xxx/oai‐script?verb=Command¶metr=value DLs and their Technologies 16 5.4 Linking Services • Interoperability in resource linking • Problem:  The article exists in many (paid, not freely available) databases. How to  make a link in the article’s bibliographic citation, so that a user is directed to the correct database (which his parent institution subscribes)? Appropriate Copy Problem • Solution: – OpenURL standard – and Linking Services Framework • Based on research at the Gent University (Herbert von Sompel) DLs and their Technologies 17 5.4 OpenURL Standard • NISO‐ANSI standard Z39.88‐2004 • OpenURL ‐ standardized format for encoding a description of a resource within a Uniform  Resource Locator (URL) • Example: • Article bibliographic citation in EBSCO MEDLINE database:  Moll, JR. Attractive electrostatic interactions. J Biol Chem. 2000 Nov 3,  275(44):34826‐32. doi:10.1074/jbc.M004545200 – Corresponding OpenURL: http://sfx1.exlibris.com/demo?sid=ebsco:medline&aulast=Moll &auinit=JR&date=20001103&stitle=J%20Biol%20Chem&volume=275 &issue=44&spage=34826 DLs and their Technologies 18 5.4 Linking Services Framework DLs and their Technologies 19 • Linking service – software application using OpenURL • principle: separating resource description from providing links • classic link: context‐sensitive link: • Framework for Linking Services: 1. According to the IP address of the user, LS determines the user institution 2. from the Knowledge base, LS find out which information resources the institution subscribes 3. from OpenURL LS pick up metadata about the target source requested by the user 4. LS searches all institution’s information sources and returns results to the user Link source (URL in bibliografic citation) Link target (article fulltext)    Link source (OpenURL in bibliocitation) cílový zdroj (kontextový !) Linking Service  cílový zdroj (kontextový !)Link target3 (context sensitive !) URL: http://database.com/carticle35.pdf http://linker.com/aulast=Hašek&title=Švejk http://proquest.com/db=cz/item6589.pdf 20 Linking I Source T a r g e t s OpenURL Link Server Site Specific A p p r o p r i a t e T a r g e t s Link to referenced work reference I Context Sensitive DLs and their Technologies 6. Searching DLs and their Technologies 21 6. Searching 6.1  Introduction 6.2  Federated Search x MetaSearch 6.3 Semantic Web DLs and their Technologies 22 6.1 Searching • DLs: global system highly – distributed – decentralized – dynamic • How can I effectively search in a distributed DL? • DL Search versus Internet Web Search? DLs and their Technologies 23 6.1 Searching – research areas • Organization in distributed search, every solution has its organizational aspect; there must  always be some form of coordination – if search is to be effective • Systems Preparing and deploying system search infrastructure (query routing, inter‐ protocol protocols, security, privacy, authentication, payment options) • Digital content logical selection of inf. bases; queries of non‐text sources; ratings, filtering; transition from explicit information searching to knowledge discovery (semantic  web) • Interface HCI: queries construction, presentation/visualization of results, task  understanding, process exposure • Metrics taxonomies and metrics for evaluating different solutions, large testbeds DLs and their Technologies 24 6.1 DLs and Web Search Engines • „Nearly everything that works best in digital libraries is miserable for web  search engines – and vice versa" • Web‐search engines – quick first information + Practically realized, widely available, + useful, link to open source resources ‐ High coverage and completeness, low precision ‐ only surface web (500x larger deep‐web unavailable) • DLs – quality targeted information + perspective, theoretically well‐grounded + better search (due to metadata), a wider range of services ‐ not yet fully mastered, globally undeveloped DLs and their Technologies 25 Rather complementary than competing systems 6.2 Two search paradigms DLs and their Technologies 26 a) Federated search (Google, OAI, discovery services) • Preliminary harvest of information sources into one repository • Pre‐processing of harvested data before searching • Search goes into harvested repository only • just‐in‐case processing b) MetaSearch (Z39.50, SRW/U, Metalib) • integrated/parallel/simultaneous/cross‐db searching • Query send in parallel to multiple information sources • Each source performs its own search and returns results • Metasearch combines all results into one final result • Just‐in‐time processing 6.2 Advanatages / disadvanages DLs and their Technologies 27 a) Federated search (Google, OAI, discovery services) • + fast response, scalability, performance • ‐ unpredictable results topicality, static web pages only b) MetaSearch (Z39.50, SRW/U, Metalib) • + best results topicality, dynamic web pages search • ‐ long respond time, poor scalability, fragility 6.2 Discovery services • New trend in searching for professional and scientific information in  universities/libraries • Commercial services / open source systems – Primo (ExLibris), Summon (ProQuest), Ebsco Discovery Service (EBSCO), … – VuFind • Components – Central index • Huge (bilions of records), regularly updated data from all big world publishers, data from subscribed elecronic resources, library catalogue, local DLs content – Searching interface • Simple/advanced search, refining results using filtering, relevance ranking – Linking service • Linking search results to available fulltexts http://discovery.muni.cz DLs and their Technologies 28 DLs and their Technologies 29 http://discovery.muni.cz 6.3 Semantic web DLs and their Technologies 30 • Web today:  repository of documents designed for humans • Sem‐Web :  repository of computer‐understandable information • Tim Berners‐Lee – The semantic web is an extension of the current Web in which information is given well‐defined meaning, enabling computers and people to work in better cooperation. – The Semantic Web is a vision: the idea of having data on the web defined and  linked in a way that it can be used by machines not just for display purposes,  but for automation, integration and reuse of data across various applications. • [1] Tim Berners‐Lee, James Hendler, Ora Lassila:  The Semantic Web. Scientific American, May 2001 • W3C – Semantic Web Working Group http://www.w3.org/2001/sw/ 7. Economy and legislation DLs and their Technologies 31 7. Economy and legislation 7.1  Economic models 7.2  Intellectual Property Rights 7.3 Creative Commons 7.4  Open Access DLs and their Technologies 32 7.1. Internet and digital dilemma DLs and their Technologies 33 • Hailed for quick and convenient access to a world of material,  the Internet also poses serious economic issues for those who  create and market that material. If people can so easily send  music on the Internet for free, for example, who will  pay for music? The Digital Dilemma:  Intellectual property in the  Information Age.  National Academy of Sciences, 2000   7.1 Economic and social aspects of DLs • The technical DL framework always operates in a certain legislative,  economic and social context (Kahn‐Willensky) • economy and legislation (IPR) – closely related! • Basic questions: 1. The copyright in digital libraries how to balance the public right of access to information  with the economic interests of authors, publishers and third parties 2. How to cover the cost in the process of creating, organizing, accessing, maintaining, archiving digital information and other added services DLs and their Technologies 34 7.1 Economic models 1. Open access (free for end‐users) 1.1  income from advertisement 1.2  external financial sources 2. Closed access (access for fee) 2.1  subscription 2.2  pay by use • Restricting access is expensive !! ‐> The price advantage of open access  (security, billing, user database, help‐line) • Despite the assumptions – an increase of (quality ) information resources using open access models DLs and their Technologies 35 7.2 Intellectual Property Rights • It is normally excepted that protection of intellectual property is necessary  to encourage people to create it. How much protection is required,  however, is not clear. Michael Lesk, Practical DLs, 1997 • Intellectual Property Rights = the right to decide on the outcome of your intellectual effort – Copyright – Patent protection – Trademarks • The principles of justice and the necessary motivation of creative people • Controversy: What to protect x considering the impact of too strict  legislation • How to balance the interests of the Creators – Users – Intermediaries? DLs and their Technologies 36 7.2 Copyright DLs and their Technologies 37 Author rights Exceptions: Limitations of copyright 7.2 History of copyright • Middle Ages – No Protection (Shakespeare) • 1709 – 1st copyright law (England, 14 years of copy protection) • 1790 – USA (28 years until 1976, only for American authors until 1891) • 1886 – Bern Convention on the Protection of Literary and Artistic Works  (the drive for international unification, many times revised, last 1979) • 1961 – Rome Convention  (the protection of performers, publishers of sound carriers and radio broadcasters) • 1994 – TRIPS Agreement  (on trade aspects of IPR, part of WTO agreements) • 1996 – WIPO Agreement – "Internet Treaties"  (special agreement in the sense of BC, a wider scope of rights to authors) • national Copyright legislation  (EC directives to harmonize legislation in EU – 70 years protection) „The rights of authors are protected within their lifetime and for seventy years after their death“ DLs and their Technologies 38 7.2 Copyright Copyright: • the right of the copyright holder to protect the personality rights  associated with his work and the right to have under exclusive control  some exploitation of the work for a certain period of time (such as making  copies, creating derivative works, distributing copies to the public, …). • At the same time, however, the purpose of the whole system is to protect  the public interest in the use of the work by the general public (the author  does not control all the exploitation of his works). • For example, the author no longer controls the use of already sold copies  of his books (the owner may to book freely use, borrow, rent, sell, exhibit,  etc.). DLs and their Technologies 39 7.3 Creative Commons • Public licenses for the legal sharing and distribution of copyright works on the Inet • A set of public licenses (prepared by the CC community) that the author can assign  to his work, and decide on what conditions the work will be publicly available • Legal alternative to copyright • Applied to various kind of works (text, video, images, audio, software, ...) • The author himself determines the degree of protection and freedom of his work • All rights reserved ‐> Some rights reserved • http://creativecommons.org/ DLs and their Technologies 40 7.3 CC – basic elements for licences DLs and their Technologies 41 • Attribution (cc‐by) • Attribution  Share Alike (cc‐by‐sa) • Attribution  No Derivatives (cc‐by‐nd) • Attribution  Non‐commercial (cc‐by‐nc) • Attribution  Non‐commercial  Share Alike (cc‐by‐nc‐sa) • Attribution  Non‐commercial  No Derivatives (cc‐by‐nc‐nd) 7.4 Open Access Problems of Scholarly communication • Financial problems – serials crises – prices of journals grow faster than inflation (10‐12%) – monopolistic practices by big pulishers (packages, license terms) • Rapid increase of publications – 25,000 scientific peer‐review journals, 2.5 million articles / year – sustained  growth • Slow communication – 1‐1.5 years before the submitted article is published • Low availability – copyright monopoly – access only for the rich DLs and their Technologies 42 Scientific knowledge is available only  to a limited community of privileged users! 7.4 What is Open Access • Idea: Scientific information available to everyone‐free‐online • Movement: to realize the idea • Quality scientific literature – Peer‐reviewed – others (preprints, data, technical reports) • Access – free access gratis OA – unlimited use libre OA • The only limitations – authoring – author's control over the integrity of his work DLs and their Technologies 43 7.4 Two ways to OA • Gold – publishing in open journals – (OA provide publishers) • Green – self‐archiving in open repositories – (OA provide authors) DLs and their Technologies 44 7.4 Gold – OA journals Free access for readers – who covers the costs? • Non‐commercial journals – free both for readers and authors – the costs are covered by a third party (scientific institution) • Commercial OA journals – free of charge for readers, costs are covered by the author APC – Article Processing Charge – 300 – 3,500 USD / article (max 14,000 USD for eLife journal) – Nonprofit Publishers (PLoS), Profit (BioMed Central) • Other models – Hybrid – open access only for paid articles, others for subscribers only – Delayed OA – open access upon expiration of a time embargo DOAJ – Directory of OA journals DLs and their Technologies 45 7.4 Green – OA repositories • Authors themselves open their published works on the web (self‐archiving) • Institutional repositories – author puts his version of (published) work into repository (preprint, postprint) – repository provides OA access & long‐term archiving – Univ of California: eScholarship Repository ‐ http://escholarship.org • Subject repositories – cover a certain scientific area worldwide – http://arxiv.org – preprints for physics, mathematics, comp.sci (1.1 million) • Personal pages – personal www pages (not recommended – low visibility/lifetime/interoperability) – Scientific Profile on the scientific social networks – Research GATE, etc. ROAR – Registry of OA Repositories DLs and their Technologies 46 8. Digital Preservation DLs and their Technologies 47 8. Digital preservation 8.1  Introduction 8.2  Threats to preserve digital information 8.3  OAIS Reference Model DLs and their Technologies 48 8.1 Introduction „Digital information is forever. It doesn’t  deteriorate and requires little in the way of  material media”. Andy Grove, Intel Corp. „Digital information lasts forever  – or five years, whichever comes first.“ Jeff Rothenberg, RAND, 1995 DLs and their Technologies 49 1.  volatility / vulnerability of the recording media – Problem: unreadable or destroyed media 2.  hardware and software required to present digital info – Problem: required HW / SW not available 3.  Fast and permanent technological changes – Problem: obsolete data format or recording medium 8.2 Threats to digital preservation DLs and their Technologies 50 DLs and their Technologies 51 DLs and their Technologies 52 8.3 OAIS – Open Archival Information System • Reference model for long‐term digital archive – conceptual model (general architecture) – basic entities (players, information objects, functions) – terminology – unified dictionary • Basic standard for digital preservation • 1995 recommendation of the Consultative Committee for Space Date  System (NASA and others) • 2002 ISO‐14721, 2012 Update ISO‐14721: 2012 • 3 models in OAIS – Environment Model (Producer ‐ Archive / Management ‐ User Community) – Information Model (SIP ‐ AIP ‐ DIP) – Functional Model (6 basic functions / services of long‐term archive) DLs and their Technologies 53 8.3 OAIS – Open Archival Information System DLs and their Technologies 54 • SIP – Submittion Information Package • AIP – Archival Information Package • DIP – Dissemination Information Package 8.3 OAIS – Information Model • SIP Submission Information Package – Information provided by data provider to the archive – Data for archiving + descriptive, technical and other metadata (licenses, ...) – information on data formats • AIP Archival Information Package – Information stored and preserved by the archive – It originates from one or more SIP packages most often by adding other necessary  metadata (for preservation and accessibility) and / or by changing the structure – Content Information + Preservation Description Information (Reference, Provenance,  Context, Fixity, Access) • DIP Dissemination Information Package – Information provided by the archive to the user upon request – It originates from the AIP so that the user receives useful and understandable  information DLs and their Technologies 55 8.3 OAIS – Functional Model 1. Ingest • accepting the SIP input package from producer and creating the AIP archive package 2. Archival Storage • safe physical storage of AIP in the archive and guaranteeing its integrity and fixity 3. Data Management • administrative support and access to archive data  4. Administration • managing processes, features, and settings of the archive itself 5. Preservation Planning • creation of protection plans and implementation of protection actions (migration, etc.) 6. Access (accessibility) • search by the user in the archive • obtaining and rendering the desired content (DIP) DLs and their Technologies 56 9. Digital Libraries at MU DLs and their Technologies 57 9. Digital libraries at MU 9.1  Software for creation of DLs 9.2  Digital Library of Photos at MU 9.3  Czech Digital Mathematics Library 9.4  Faculty of Arts Digital Library DLs and their Technologies 58 9.1 Software for DLs • Commercial Systems (complex, expensive) – IBM Content Manager – ExLibris DigiTool – … • Open Source Systems (different levels of complexity) – Greenstone (University of Waikato, simple, UNESCO support) – EPrints (University of Southampton, repository system) – DSpace (MIT+HP Labs, repository system) ‐‐‐ used at MU – Invenio (CERN) – FEDORA (University Virginia, complex flrxible system) DLs and their Technologies 59 9.2 DKF‐MU • Digital library of MU photos • Proprietary software developed at MU • Photo collection of digital and digitized photographs from the history and  present of MU • Photos and their metadata description • Input, organization, description, search, archiving, presentations in  photogalleries on the web • Currently around 60,000 photos in 38 photo‐collections DLs and their Technologies 60 DKF‐MU DLs and their Technologies 61 9.3 DML‐CZ Mathematical literature which has been published throughout history in the  Czech lands (19 century – present) • Project – Czech Academy of Sciences – Charles University in Prague – Masaryk University – development & operation • Technology – Metadata Editor – DSpace • Content – journals, books, proceedings, mathematicians – 37.024 documents, 391.200 pages – Open Access (98 %) DLs and their Technologies 62 DLs and their Technologies 63 DLs and their Technologies 64 9.4 DigiLib Public access to all professional production of the Faculty of Arts MU since its  foundation in 1919 up to present time. • Project – Faculty of Arts MU – Institute of Computer Science MU  • Technology – Tools, technologies and processes developed within DML‐CZ – Metadata Editor – DSpace • Content – Journals, books, proceedings – 29.300 documents, 420.000 pages, 6.500 authors – Open Access (97 %) DLs and their Technologies 65 DLs and their Technologies 66 END OF PART 2 DLs and their Technologies 67