Digitální knihovny Globální vyhledávání zdrojů Miroslav Bartošek Ústav výpočetní techniky MU Knihovnicko-informační centrum MU FI MU 2020 M.Bartošek - Digitální knihovny 2 obecný rámec a architektura DL intelektuální vlastnictví & ekonomika vícejazyčný přístup k informacím metadata interoperabilita globální vyhledávání zdrojů zobecněný model dokumenu dlouhodobé uchovávání digitální informace budování sbírek digitalizace born digital harvesting Obsah přednášky FI MU 2020 M.Bartošek - Digitální knihovny 3 1. Úvod a přehled 2. Vyhledávání na webu 3. Federativní a metavyhledávání 4. DL a vyhledávače na webu 5. Unicode 6. Sémantický web 1. Úvod a přehled FI MU 2020 M.Bartošek - Digitální knihovny 4 1. Vyhledávání v globální DL FI MU 2020 M.Bartošek - Digitální knihovny 5 DL : globální systém, vysoce – distribuovaný – decentralizovaný – dynamický • Jak v DL efektivně vyhledávat? • Vyhledávání v DL x vyhledávání na Internetu 1.1 Vyhledávání – oblasti výzkumu FI MU 2020 M.Bartošek - Digitální knihovny 6 • organizace při distribuovaném vyhledávání má každé řešení svůj organizační aspekt; vždy musí existovat určitá forma koordinace – má-li být vyhledávání efektivní • systémy systémová infrastruktura podporující vyhledávání (routing dotazů, mezirepozitářové protokoly, bezpečnost, soukromí, autentifikace, placení) • digitální obsah logický výběr inf.bází, dotazování netextových zdrojů, ratings, filtrace, přechod od vyhledávání explicitní informace k získávání implicitních poznatků (knowledge discovery, sémantický web) • rozhraní HCI: konstrukce dotazů, prezentace/vizualizace výsledků, task understanding, proces exposure • metriky taxonomie pro vyhodnocování různých řešení, testbeds 1.2 Pokroky ve vyhledávání FI MU 2020 M.Bartošek - Digitální knihovny 7 Nejlepší výsledky zatím přináší hrubá síla (brutte force): • vyhledávání informací - webovské vyhledávače • porozumění sémantice dokumentů - Deliver • vyhodnocování výsledků - Google • archivace digitálního dědictví - Internet Archive • citační analýza - CiteSeer • reference linking - OpenURL • extrakce metadat z multimediálních zdrojů - Informedia • automatický referenční knihovník – Univ Washington 1.3 Míry pro vyhledávání FI MU 2020 M.Bartošek - Digitální knihovny 8 Jak porovnávat/měřit kvalitu různých vyhledávacích systémů? Relevance dokumentu = míra uspokojení informační potřeby Míry efektivnosti vyhledávání – přesnost (precision) NalRel / Nal jaká část nalezených dokumentů je relevantní – úplnost, výtežnost (recall) NalRel / RelAll jak velká část všech exist. relevantních dok. byla nalezena Další parametry vyhledávacího systému – pokrytí (coverage) jak velká část informačního prostoru je zachycena v DB vyhledávacího systému – odpad (false drop) kolik bude vybráno nerelevantních dokumentů 1.3 Míry pro vyhledávání • přesnost (precision) P = A / (A+C) • úplnost (recall) R = A / (A+B) • vztah precision-recall = nepřímá úměra – týká-li se vše, co jste našli, přesně daného tématu, pravděpodobně jste přišli o nějaké informace – čím víc se blížíte úplnému zachycení tématu, tím více irelevantního materiálu vyhledáte FI MU 2020 M.Bartošek - Digitální knihovny 9 vyhledáno nevyhledáno CELKEM relevantní A B A + B irelevantní C D C + D CELKEM A + C B + D A + B + C + D 2. Vyhledávání na webu FI MU 2020 M.Bartošek - Digitální knihovny 10 2.1 Z historie vyhledávání na webu • 1989/90 – návrh služby WWW – Tim Berners-Lee • 1991 první webová stránka • 1993 Mosaic – první grafický prohlížeč • 1994 WebCrawler, Lycos, Yahoo! • 1995 Magellan, Excite, Infoseek, Inktomi, AltaVista, HotBot • 1998 Google (Stanford) • 2000 Google dominantní vyhledávač , Baidu (ČLR) • 2005 MSN Search (Microsoft) – 2009 Bing • Aktuálně nejpopulárnější (http://www.ebizmba.com/articles/search-engines) Google, Bing, Yahoo! Search, Ask (Ask Jeeves), Aol Search, MyWebSearch, WebCrawler, WoW, Infospace, Dogpile, DuckDuckGo, Info, Lycos, Excite • Speciální: Yippy (deep-web), Mahalo, KartOO, … FI MU 2020 M.Bartošek - Digitální knihovny 11 http://searchenginewatch.com/ 2.1 Z historie vyhledávání na webu FI MU 2020 M.Bartošek - Digitální knihovny 12 • 1999 800 mil veřej. www-stránek (15TB) • 2000 2 miliardy www-stránek • 2013 50 miliard www-stránek Přístup k info: množství databází, archivů, vyhledávačů Jak najít v „moři informací“ právě tu potřebnou ? Vyhledávací stroje – historicky soupeření o pokrytí (velikost indexu 2001): Google Fast WebTop Inktomi AltaVista 602 mil 500 500 500 400 mil www stránek Dnes – inteligentní vyhledávání, nové formáty Ale! Pouze povrchový web (bez dynamických, zaheslovaných, netextových, … dokumentů) nikoliv hluboký web (až 500 x větší, 7.500TB oproti 19TB na povrchu) ✓ denně změněno 23% stránek (studie Stanford Univ, 2000) ✓ poločas rozpadu 10 dnů (1/2 URL neplatná) 2.2 Hluboký web FI MU 2020 M.Bartošek - Digitální knihovny 13 Hluboký web (deep web) – skryté informační bohatství (studie 2001) – 500 x větší (7.5 PB deep, 19 TB surface) – 550 miliard www-stránek (oproti 1 mld na povrchu) – 200.000 www sídel (oproti 5 miliónům na povrchu) – 60 největších sídel = 750 TB (40x větší než celý povrch !!) – podstatně vyšší kvalita informací – víc jak polovina ve specializovaných předmětových DB – až 95% info veřejně přístupná, bez poplatků – M.K.Bergman. The deep web: Surfacing hidden value http://www.press.umich.edu/jep/07-01/bergman.html – strmý nárůst oproti 2001 (3/555 mil domén v 2001/2013) • BrightPlanet DeepWeb University Blog http://www.brightplanet.com/deep-web-university/ • volně nedostupné informace • dynamické stránky • speciální formáty dat 2.3 Big Data • Big Data – objem dat, které jsou na/za hranici možnosti zpracování soudobými databázovými systémy a tradičními datovými aplikacemi • Aktuální hranice – Exabyte dat 1018 (pohyblivý cíl) – dnešní denní produkce dat na světě • Problémy a nové výzvy – uchovávání – zálohování – vyhledávání – přenosy, zpracování, vizualizace, analýzy … • Výzkum – obrovské možnosti/potenciál ve využití BigData • „future lies not in how much data we generate, but how we will work with them to obtain relevant information for solving problems in real time“ Tony Hey, Microsoft Research Connection FI MU 2020 M.Bartošek - Digitální knihovny 14 2.3 Big Data • Kilobyte kB 210 103 • Megabyte MB 220 106 milion počet živočišných druhů • Gigabyte GB 230 109 miliarda počet obyvatel Indie • Terabyte TB 240 1012 bilion počet všech ryb v oceánech • Petabyte PB 250 1015 biliarda počet mravenců na Zemi • Exabyte EB 260 1018 trilion inflace v Zimbabwe 2009 • Zettabyte ZB 270 1021 triliarda počet zrnek písku na Zemi • Yottabyte YB 280 1024 kvadrilion počet hvězd ve Vesmíru • Počet atomů na Zemi 1050 (1078 – 1082 ve Vesmíru) FI MU 2020 M.Bartošek - Digitální knihovny 15 2.3 Big Data • 2,7 ZB – globální objem všech dat na konci roku 2012 (o 48 % více než v r. 2011, odhad IDC) • 33 ZB/2018 , 175/2025 – odhad EC • 1 ZB – objem datových přenosů v Internetu 2016 (odhad Cisco) • 172 800 000 – denně zpracovaných platebních VISA transakcí • 500 000 000 – denně odeslaných tweetů • 1,15 miliardy aktivních uživatelů Facebooku, denně generujících sociální data • 5 miliard lidí – generujících data denně přes mobily a internet FI MU 2020 M.Bartošek - Digitální knihovny 16 FI MU 2020 M.Bartošek - Digitální knihovny 17 FI MU 2020 M.Bartošek - Digitální knihovny 18 3. Federativní vyhledávání a metavyhledávání FI MU 2020 M.Bartošek - Digitální knihovny 19 3. Dva přístupy k vyhledávání FI MU 2020 M.Bartošek - Digitální knihovny 20 a) federativní vyhledávání (Google, OAI, discovery) • předběžný sběr velkého množství dat do 1 hromady • předzpracování nashromážděných dat ještě před dotazem uživatele • po zadání dotazu se prohledává jen nasbíraná hromada – just-in-case processing (předzpracování dat ještě před dotazem) b) meta-vyhledávání (Z39.50, SRW/U, Metalib) • integrated/parallel/simultaneous/cross-db searching • dotaz rozeslán souběžně do všech (heterogenenních) zdrojů (každý zdroj provede vlastní vyhledávání) • Integrace dílčích výsledků do výsledné odpovědi – just-in-time processing (veškeré zpracování probíhá až po dotazu) V obou případech jediné vyhledávací rozhraní Federativní vyhledávání FI MU 2020 M.Bartošek - Digitální knihovny 21 3.1 Federativní vyhledávání FI MU 2020 M.Bartošek - Digitální knihovny 22 www-prohlížeč dotazový server Databáze (index) robot dotaz odpověď WEB vyhledání sklízení 3.1 Federativní vyhledávání FI MU 2020 M.Bartošek - Digitální knihovny 23 • aktuálně populárnější – googlomanie – rychlá, okamžitá odezva – obrovský rozsah prohledávaných zdrojů (miliardy) – jednoduchý přístupný vyhledávací mechanismus – relevance ranking – záplava nových služeb (maps, scholar, books, news, voice …) • Ale – aktuálnost dat? – nelze prohledávat dynamické webové stránky (jen statické zdroje) – prohledávání jen veřejně přístupných zdrojů (licencované DB?) – kvalita a autenticita zdrojů informací (při plošném sběru)? – jaké je pokrytí? A kontrola uživatele nad pokrytím? 3.1.1 Discovery služby FI MU 2020 M.Bartošek - Digitální knihovny 24 Discovery services – nový šlágr v oblasti EIZ pro VaV – Primo Central (ExLibris) – Ebsco Discovery Service (EBSCO) – Summon (Serial Solutions) – AquaBrowser Library – VuFind (open source) aj. • velký centrální index – předzpracovaný, nasbíraný z různých zdrojů • jednotné vyhledávací prostředí (EIZ, knihovna, DL) – vyhledávaní informací – dodávání informací (napojení na linkovací služby) – objevování nového MU od 2013/10 3.1.2 discovery.muni http://discovery.muni.cz – Centrální index (obrovský, přes miliardu záznamů) • data od všech světových vydavatelů odborné literatury • licencované EIZ a vědecké databáze dostupné na MU • lokální informační zdroje MU (knihovní katalog, archiv VŠ diplomek, …) – Vyhledávání • prohledávání všech odborných inf.zdrojů z jednoho místa • jednoduché vyhledávací rozhraní ala Google • zpřesňování výsledků pomocí filtrování – Linkovací služba • FullText Finder – směrování na plný text vyhledaných výsledků v databázích dostupných pro uživatele MU – A-to-Z • vyhledávání e-časopisu / e-knihy dostupné na MU FI MU 2020 M.Bartošek - Digitální knihovny 25 EDS – Ebsco Discovery Service Vyzkoušejte! 3.1.2 discovery.muni FI MU 2020 M.Bartošek - Digitální knihovny 26 FI MU 2020 M.Bartošek - Digitální knihovny 27 http://discovery.muni.cz 3.1.3 Portál knihoven ČR www.knihovny.cz FI MU 2020 M.Bartošek - Digitální knihovny 28 Metavyhledávání FI MU 2020 M.Bartošek - Digitální knihovny 29 WEB 3.2 Metavyhledávání FI MU 2020 M.Bartošek - Digitální knihovny 30 www-prohlížeč Metavyhledávač dotaz odpověď 3.2 Metavyhledávání FI MU 2020 M.Bartošek - Digitální knihovny 31 • propojení heterogenních zdrojů (lokace, formát, technologie, typ materiálů) • každý zdroj vlastní SE (search-engine) • musí se řešit – potřebné informace o jednotlivých zdrojích – přenos uživatelského dotazu k různým SE (adaptace dotazu) – konverze výsledků do jednotného formátu – zpracování unifikovaných výsledků • slučování • deduplikace • konzistentní prezentace 3.2.1 Metavyhledávání - JIB • Příklad: Jednotná informační brána NK ČR – http://www.jib.cz/ (dnes již mimo provoz) – Od 31.12.2018 provoz ukončen, funkci JIB nahrazuje „Portál knihoven ČR“ • Technologie: MetaLib od ExLibris FI MU 2020 M.Bartošek - Digitální knihovny 32 FI MU 2020 M.Bartošek - Digitální knihovny 33 3.2.2 Metavyhledávání FI MU 2020 M.Bartošek - Digitální knihovny 34 • bližší knihovníkům a DL (přesnější, cílenější, pod kontrolou) • bližší producentům dat (lepší ochrana IPR) • vyhledávání i v „profesionálních“ zdrojích (DB) • potřeba řady standardů (NISO Metasearch Initiative) – Access Management (autentifikace, autorizace) – Collection Description, Service Description (explain) – Search/Retrieve • vazba na výzkum sémantického webu • oproti federativnímu vyhledávání: – složitější, křehčí – větší potenciální možnosti (NISO: „stojí za to to zkusit“) infrastruktura 4. DL a vyhledávače na webu FI MU 2020 M.Bartošek - Digitální knihovny 35 4. DL a webové vyhledávače FI MU 2020 M.Bartošek - Digitální knihovny 36 „Prakticky všechno co je nejlepší v digitálních knihovnách, je mizerné u webovských vyhledávačů – a naopak“ • webové-vyhledávače – rychlá první informace – + prakticky realizované, široce dostupné, – + užitečné, propojení na zdroje z otevřeného přístupu – - vysoké pokrytí a úplnost, malá přesnost – - jen povrchový web (500x větší hluboký-web nedostupný) • DL – kvalitní cílená informace – + perspektivní, teoreticky dobře podložené – + kvalitnější vyhledávání, širší rozsah služeb – - zatím ještě ne plně zvládnuté, globálně nerozvinuté 4.1 Slabá místa vyhledávačů Webové vyhledávače – skvělý pomocník, ale mají své nedostatky • Příliš mnoho výsledků – Nelze všechny systematicky projít – Vysoká míra redundance (chybí clusterování výsledků) • Mechanické vyhledávání podle klíčových slov – Chybí porozumění dotazu • Netransparentní řazení výsledků – Veřejné/skryté triky pro lepší viditelnost webové stránky • Žádná garance „důvěryhodnosti“ výsledků – Akceptujeme, že výsledkům nemůžeme plně věřit (rozpornost, (ne)ověřitelnost, (ne)aktuálnost) FI MU 2020 M.Bartošek - Digitální knihovny 37 4.2 Wikipédie – nový typ DL? • Specifická digitální knihovna (od 2001) • Velký úspěch přístupu „Wisdom of the Crowd“ • Posuny ve vnímání kvality a přínosu – Potenciálně slabá místa • Chyby z neznalosti/neprofesionality tvůrců • Subjektivní či nevyvážený popis, občasné excesy, vandalismus • Různorodost jazykových verzí • (ne)Použitelnost pro studentské či odborné/vědecké práce? – Silné stránky • Rozsah a aktuálnost v porovnání s tradičními encyklopediemi • Větší různorodost pohledů (ne jediný vlastník „pravdy“) • Vyvíjející se samokorekční mechanismy • Široká všeobecná dostupnost FI MU 2020 M.Bartošek - Digitální knihovny 38 5. Unicode FI MU 2020 M.Bartošek - Digitální knihovny 39 5. Kódování znaků FI MU 2020 M.Bartošek - Digitální knihovny 40 • tisíce různých jazyků • stovky abeced (latinka, azbuka, hebrejština, arabština, indické znakové systémy; [fonetický] znak reprezentuje zvuk) • ideografické systémy (čínština, korejština, japonština; znak = pojem) • různá kódování znaků v rámci jednoho jazyka • čeština - kódování – 7-bitové ASCII – CP1250 (MS Windows Latin 2) – ISO 8895-2 (Unix, Latin 2) – CP 852 (PC Latin 2 – MS DOS) – kódování Kamenických (MJK) – KOI8-cs (T602) – APPLE CE – …. 8-bitů 5.1 Unicode FI MU 2020 M.Bartošek - Digitální knihovny 41 Globální DL –> potřeba jednotné reprezentace všech znaků • 1987: Apple+Xerox – práce na nástupci ASCII (Unicode) • 1991: mezinárodní Unicode Consortium • 1993: ISO-10646 • nyní: všechny skripty všech používaných jazyků na světě (113.000 znaků) • další: historické jazyky (egyptské hieroglyfy), hudební notace, … • přímá podpora Unicode v moderních program. jazycích (Java,…), operačních systémech, browserech, … • Unicode knihovny pro starší systémy (C, Perl, …) • round-trip compatibility : – každá existující znaková sada může být mapována do Unicode – výsledný Unicode-soubor lze převést do původní znakové sady bez ztráty jakékoliv informace 5.1 Unicodový prostor FI MU 2020 M.Bartošek - Digitální knihovny 42 • Unicode = masívní standard (94.000 znaků) (32 resp. 21 bitů) • celkem 32 úrovní (planes), každá 65.536 znaků (16 bitů) – Basic Multilingual Plane (živé jazyky) – Supplementary Multilingual Plane (historické skripty, matem.symb) – Supplementary Ideographic Plane (40.000 starověkých čínských) – … Unicode v 5.2-2009 – 245.000 znaků /symbolů z 90 jazyků/abeced • 1.část: Basic Multilingual Plane (živé jazyky, 49K zn, 1000 stran) • znaky nerozlišovány podle jazyků, ale dle skriptů (typu písma) • Kódový prostor = 5 zón skriptů : – alfabetické 0000-33FF latinka,azbuka,hebrej,arab,ind, – ideografické 3400-BFFF CJK (Chinese-Japan-Korean) – ostatní A000-D7FF Yi, Hangul (11.172 kódů) – zástupné D800-DFFF – rezervované E000-FFFF ISO Unicode 5.2 Basic Multilingual Plane FI MU 2020 M.Bartošek - Digitální knihovny 43 zóna oblast kód skript #kódů alfabet obecné 0000 Basic Latin (US ASCII) 128 0080 Latin-1 (ISO 8859-1) 128 0100 Latin Extended 336 0300 Combining Diacritical Marks 112 0370 Greek 144 0400 Cyrillic 256 0530 Armenian 96 0590 Hebrew 112 0600 Arabic 256 … symboly 2000 General Punctuation 112 2070 Superscripts and Subscripts 48 20A0 Currency Symbols 48 … ideogr 3400 CJK Unified Ideographs, Ext A 6656 … 5.3 Kódování znaků Unicode FI MU 2020 M.Bartošek - Digitální knihovny 44 Unicode 21 bitů (U+000000-U+10FFFF), ISO 32 bitů UTF – Unicode character set Transformation Format – UTF-32 - 4 byty na 1 znak “G” = U+000047 – UTF-16 - 2 byty na 1 znak (Basic M-Plane) “G” = U+0047 – UTF-8 - 1-4 byty na 1 znak “G” = U+47 Unicode hodnota 21-bit binární kód UTF-8 U+000000-U+00007F 00000000000000wwwwwww 0wwwwwww U+000080-U+0007FF 0000000000wwwwwxxxxxx 110wwwww 10xxxxxx U+000800-U+00FFFF 00000wwwwxxxxxxyyyyyy 1110wwww 10xxxxxx 10yyyyyy U+010000-U+1FFFFF wwwxxxxxxyyyyyyzzzzzz 11110www 10xxxxxx 10yyyyyy 10zzzzzz • 1 byte = 7-bitové ASCII (začíná vždy 0) G = U+47 47 • 2 byte = vše až po indické skripty (počet 1 = počet B) ä = U+E4 C3A4 ä: E4 =11100100 -> C3 A4 = 11000011 10100100 FI MU 2020 M.Bartošek - Digitální knihovny 45 geek-and-poke.com 6. Sémantický web FI MU 2020 M.Bartošek - Digitální knihovny 46 6. Co je sémantický web FI MU 2020 M.Bartošek - Digitální knihovny 47 • Web dnes: repozitář dokumentů určených pro člověka • Sem-Web: repozitář dat a info zpracovatelných počítačem • Tim Berners-Lee – The semantic web is an extension of the current Web in which information is given well-defined meaning, enabling computers and people to work in better cooperation. – The Semantic Web is a vision: the idea of having data on the web defined and linked in a way that it can be used by machines not just for display purposes, but for automation, integration and reuse of data across various applications. • [1] Tim Berners-Lee, James Hendler, Ora Lassila: The Semantic Web. Scientific American, May 2001 • W3C – Semantic Web Working Group http://www.w3.org/2001/sw/ 6.1 Modelový scénář SemW - dle článku [1] FI MU 2020 M.Bartošek - Digitální knihovny 48 • Lucie volá Petrovi: „Jsem s matkou u obvodního lékaře. Doporučil ji vyšetření a léčbu u specialisty.“ • Petr: „Vyber a objednej na příští týden nějakého dobrého doktora, já vás k němu odvezu.“ • Lucie: Hned ještě u lékaře zaúkoluje přes mobil svého agenta (softwarového asistenta pro SW). • Agent: - spojí se s obvoďákovým agentem a stáhne si od něj informace o matčině předepsané léčbě; - najde na webu několik seznamů odborných lékařů příslušné specializace a projde si je; - vybere specialisty, kteří mají smlouvu s matčinou zdravotní pojišťovnou, mají ordinaci ve vzdálenosti do 20km od matčina domu a jsou hodnoceni jako výborní až velmi dobří v přehledech od důvěryhodných hodnotitelských agentur. • Agent: - porovná volné objednací termíny specialistů (poskytnuté jejich SW agenty) s nabitými diáři Petra a Lucie; - během pár minut pošle Petrovi a Lucii nejvýhodnější variantu. • Petr: - nabídnutá varianta se mu nelíbí: do ordinace vybraného specialisty by musel matku vézt přes střed města a ještě k tomu se vracet v čase, kdy vrcholí dopravní špička; - zadá povel svému vlastnímu agentovi, aby provedl nový výběr – tentokrát se striktnějšími preferencemi ohledně doby a místa schůzky. -- Petrův agent se spojí s Lucčiným agentem. • Lucčin agent: ověří si důvěryhodnost Petrova agenta v dané věci a předá mu veškeré dosud zjištěné údaje. • Petrův agent: během chvilky představí novou variantu – přidá k ní ale dvě upozornění: 1. Petr by si musel přeplánovat několik méně důležitých schůzek. 2. Daný lékař nemá v databázi matčiny pojišťovny uvedenu potřebnou specializaci, ale z jiných důvěryhodných zdrojů agent prověřil, že lékař tuto specializaci opravdu má. Přeje si Petr k tomu bližší údaje? • Petr: Zamumlá: „ušetři mně zbytečných detailů“ a variantu potvrdí. Téměř současně vydá potvrzení i Lucie – a tím je vše zařízeno. Agent matku objedná a poznačí schůzku v diářích jejich dětí. 6.2 Charakteristiky SemW FI MU 2020 M.Bartošek - Digitální knihovny 49 Hlavní: SemW již není určen jen pro lidi, ale i pro stroje (počítače) • Sémantický web = Web s významem • program (inteligentní agenti), který má zpracovávat data na webu, se může tento význam dozvědět a využít ho pro svou činnost • se SemW pracují nejen lidé, ale také agenti (stroje), kteří sbírají různorodá data z různých zdrojů, automatizovaně je zpracovávají, odvozují z nich nové poznatky, vyměňují si informace mezi sebou navzájem, … • v SW již nevyhledáváme stránky obsahující jen stejná slova, ale také podobné pojmy (sémantické vyhledávání) 6.3 Možnosti SemW FI MU 2020 M.Bartošek - Digitální knihovny 50 • inteligentní pojmové vyhledávání identifikace relevantních dokumentů a jejich řazení podle míry vhodnosti • zodpovídání jednoduchých otázek Kdo je prezidentem České republiky? • zodpovídání složitých otázek Jaká je současná situace v Egyptě? V. Sklenák. Sémantický web. INFORUM 2003. 6.4 Komponenty SemW FI MU 2020 M.Bartošek - Digitální knihovny 51 1. označkování webových stránek (struktura dat - XML) 2. vyznačit význam (sémantika - RDF) 3. vyhledávání pojmů napříč různými oblastmi (ontologie) 4. odvozování (logika, odvozovací pravidla) 5. vyhledávání znalostí a souvislostí (agenti) Metadata přidaná k datům na webu, která poskytují formální sémantiku obsahu webu akčnost SW FI MU 2020 M.Bartošek - Digitální knihovny 52 Literatura FI MU 2020 M.Bartošek - Digitální knihovny 53 Doplňková literatura FI MU 2020 M.Bartošek - Digitální knihovny 54 • Vyzkoušejte (a používejte) discovery.muni.cz • Can the Web turn into a digital library? Herman Maurer, Heimo Mueller, Intl Journal on Digital Libraries 13/2, March 2013 https://link.springer.com/article/10.1007/s00799-012-0097-9 • Časopis Ikaros, roč. 2011: Anna Matějková – trilogie o sémantickém webu: – Sémantický web http://www.ikaros.cz/semanticky-web – Technologie sémantického webu http://www.ikaros.cz/technologie-semantickeho-webu – Současnost sémantického webu http://www.ikaros.cz/soucasnost-semantickeho-webu • Tim Berners-Lee, James Hendler, Ora Lassila: The Semantic Web. Scientific American, May 2001 https://www- sop.inria.fr/acacia/cours/essi2006/Scientific%20American_%20Feature%20Article_%20The%20Semantic%20Web_%20May%2020 01.pdf