Současné trendy v selekčních jazycích Přednáška č. 3 (27.4.2007) Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví jaro 2006/2007 Josef Schwarz schwarzjv@seznam.cz Osnova w Citační rejstříky jako metoda věcného vyhledávání informací w Věcné zpracování a vyhledávání netextových dokumentů w Sémantický web w Sémantický grid w Vizualizace w Kvalita informací na internetu w Věcné vyhledávání na webu Citační rejstříky a věcné vyhledávání w citační rejstříky w E. Garfield w vznik původně pro optimalizaci věcného vyhledávání w kocitační analýza n kocitace n 2 dokumenty citovány jedním dokumentem n rozsah kocitací – kocitační intenzita n bibliografické sdružování (párování) n 2 různé dokumenty citují tentýž dokument w skryté bibliografie Netextové dokumenty w obraz, zvuk, kombinace w textová složka je marginální w internet w velký objem netextových informací w omezené možnosti vyhledávání n search engines (podle popisku) w způsoby získávání w prohlížení w vyhledávání w Lit.: základní přehled+další literatura Indexace netextových dok. w podstatně složitější než indexace textových dokumentů w hlediska indexace/vyhledávání n hlediska 1 w věcnost (ofness) `a „tvrdá“ indexace w výrazovost (aboutness) `a „měkká“ indexace n hlediska 2 w primitivní vlastnosti (barva, tvar) w logické vlastnosti (vztah mezi objekty) w abstraktní vlastnosti (metaforický význam) Vyhledávání netext.dok. w content-based image retrieval (CBIR) n vyhledávání podle obsahu n automatické zpracování obrazu (image processing) w description-based image retrieval n (context-based, concept-based) n vyhledávání podle popisu (kontextu, pojmového vyjádření) (image indexing) CBIR w vyhledávání na úrovni pixelů n Query by Image Content (IBM) w objektové vyhledávání n extrahování obrazových objektů n Blobworld (California University in Berkeley) w image mining (dolování obrazových informací) n extrakce podobných znaků z celé db w CIRES w SIMPLIcity n extrakce všech vlastností bez prvotní znalosti Vyhledávání podle popisu w výhoda: sémantický obsah obrazu w nevýhoda: subjektivita`ainkonzistence indexace w způsob indexace závisí na typu kolekce a požadavcích uživatelů w indexace w biografických vlastností w předmětových vlastností w fyzických vlastností w vztahové vlastnosti Řízené slovníky pro popis dok. w ICONCLASS w popis obrázku w ATT (Art & Architecture Thesaurus) w Thesaurus for Graphic Materials w TGM I – Subject Terms w TGM II – Genre & Physical Characteristic Terms Aplikační oblasti w průmyslové vlastnictví (ochranné známky) w lékařství w umění a architektura w astronomie w kriminologie w …atd. Sémantický web w lit.: Sklenák, 2003 w historie n 2. polovina 90. let n Berners-Lee, Hendler, Lassilla. The Semantic Web. Scientific American, 2001, vol. 284, May, p. 35-43 w základní idea n současné způsoby vyhledávání v internetu nedostatečné w vyhledávače w portály, předmětové katalogy n pokročilé („inteligentní“) vyhledávání v internetu w agenti zodpovídající komplikované dotazy n Který obchod prodává notebooky značky Toshiba za nejnižší cenu? n Kdo byl primátorem města Prahy v lednu 1946? n Jaká jsou aktuální rizika exportu pánských kalhot do Vietnamu? n strukturace dokumentů w XML n pojmová reprezentace w ontologie w realizace n pouze dílčí kroky n fáze výzkumu – masivní nástup sémantického webu nelze v brzké době očekávat Příklad požadavku PC: Leo čip: INTEL 815E patice: Socket 370 Předpoklady sémantického webu w syntaktická struktura n dokumenty v XML w sémantická struktura n RDF – Resource Description Framework w objekt – atribut – hodnota n např. Praha je hlavní město ČR w tvorba ontologií w formalizace pojmů a jejich vztahů w ontologie vs tezaurus w univerzální ontologie n WordNet, EuroWordNet w doménové ontologie w jazyky: OWL (Ontology Web Language) Sémantický web Vybrané stránky w http://www.w3.org/2001/sw/ w http://www.semanticweb.org/ w http://www.esperonto.net Problémy sémantického webu w v počátcích se předpokládal nástup sém. webu v r. 2005 w mediální bublina? w další vývoj a výzkum? w složitost tvorby webu pro běžného uživatele w kontrola – „Velký bratr“? Sémantický grid w distribuované zpracování dat w analýza, sdílení a výměna dat w principy w příklad: Medigrid Vizualizace informací při věcném vyhledávání w Kartoo w Clusty w Grokker Kvalita informací přístupných prostřednictvím internetu w Co je kvalita informací n relevance (informace, které odpovídají informačnímu dotazu) n pertinence (informace, které potřebuji) n úplnost n kontext (pochopitelný význam) n spolehlivost, důvěryhodnost n formát n správný čas a místo Kvalita informací přístupných prostřednictvím internetu w Důvěryhodnost (Vítů, 2005) n věrohodnost w nezaujatost, nestrannost, objektivnost w pravdivost w spolehlivost, správnost, platnost w čestnost, poctivost n odbornost w zkušenost, praxe w inteligence w význam, vliv w informovanost, erudice Kritéria hodnocení w dostupnost a použitelnost w identifikace zdroje a dokumentace w identifikace autora w autorita autora w struktura a design w relevance a rozsah w platnost a ověřitelnost obsahu w přesnost a vyváženost obsahu w navigace w kvalita odkazů w estetické aspekty [SKLENÁK, Vilém aj. Data, informace, znalosti a Internet. Praha : C. H. Beck, 2001, s. 370 a násl.] Kvalita informací a internet Příklady w Jiří Paroubek w web veřejné instituce w oficiální web veřejné osoby w kolaborativní encyklopedie w elektronický časopis s vyhraněným politickým postojem w blog w extrémně pamfletické stránky nejasného autorství Kvalita informací a internet Příklady w teorie „volné“ energie; motionless electromagnetic generator w „alternativní“ server w „alternativní“ časopis w web občanského sdružení w osobní stránky w web soukromé (?) „laboratoře“ w osobní stránky --- w BlB – ceny Bludný balvan Kvalita informací a internet Příklady w lékařské informace n studie w validita zdrojů z hlediska lékařských informací n 1. bibliografické a plnotextové databáze n 2. renomované lékařské portály n 3. ostatní dokumentu z internetu Webové vyhledávání Webové vyhledávání Vybraná témata a příklady w komparace výsledků vyhledávání prohlížečů n Thumbshots Ranking w pokročilé vyhledávání n Exalead w sémantické vyhledávání (sémantický web) n Swoogle n Semantic Web Search w vyhledávání multimédií n The Open Video Project n VideoQ n WebSEEk Webové vyhledávání Vybraná témata a příklady w vyhledávání v češtině n Morfeo n Jyxo