Současné trendy v selekčních jazycích Přednáška č. 3 (28.3.2008) Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví jaro 2007/2008 Josef Schwarz schwarzjv@seznam.cz Osnova *Citační rejstříky jako metoda věcného vyhledávání informací *Věcné zpracování a vyhledávání netextových dokumentů *Sémantický web *Sémantický grid *Vizualizace *Kvalita informací na internetu *Věcné vyhledávání na webu Citační rejstříky a věcné vyhledávání *citační rejstříky w E. Garfield w vznik původně pro optimalizaci věcného vyhledávání *kocitační analýza n kocitace n 2 dokumenty citovány jedním dokumentem n rozsah kocitací – kocitační intenzita n bibliografické sdružování (párování) n 2 různé dokumenty citují tentýž dokument *skryté bibliografie Netextové dokumenty *obraz, zvuk, kombinace w textová složka je marginální *internet w velký objem netextových informací w omezené možnosti vyhledávání n search engines (podle popisku) *způsoby získávání w prohlížení w vyhledávání *Lit.: základní přehled+další literatura Indexace netextových dok. *podstatně složitější než indexace textových dokumentů *hlediska indexace/vyhledávání n hlediska 1 w věcnost (ofness) `a „tvrdá“ indexace w výrazovost (aboutness)  „měkká“ indexace n hlediska 2 w primitivní vlastnosti (barva, tvar) w logické vlastnosti (vztah mezi objekty) w abstraktní vlastnosti (metaforický význam) Vyhledávání netext.dok. *content-based image retrieval (CBIR) n vyhledávání podle obsahu n automatické zpracování obrazu (image processing) *description-based image retrieval n (context-based, concept-based) n vyhledávání podle popisu (kontextu, pojmového vyjádření) (image indexing) CBIR *vyhledávání na úrovni pixelů n Query by Image Content (IBM) *objektové vyhledávání n extrahování obrazových objektů n Blobworld (California University in Berkeley) *image mining (dolování obrazových informací) n extrakce podobných znaků z celé db w CIRES w ALIPR n extrakce všech vlastností bez prvotní znalosti Vyhledávání podle popisu *výhoda: sémantický obsah obrazu *nevýhoda: subjektivita`ainkonzistence indexace *způsob indexace závisí na typu kolekce a požadavcích uživatelů *indexace w biografických vlastností w předmětových vlastností w fyzických vlastností w vztahové vlastnosti Řízené slovníky pro popis dok. *ICONCLASS w popis obrázku *ATT (Art & Architecture Thesaurus) *Thesaurus for Graphic Materials w TGM I – Subject Terms w TGM II – Genre & Physical Characteristic Terms Aplikační oblasti *průmyslové vlastnictví (ochranné známky) *lékařství *umění a architektura *astronomie *kriminologie *…atd. Sémantický web * lit.: Sklenák, 2003 * historie n 2. polovina 90. let n Berners-Lee, Hendler, Lassilla. The Semantic Web. Scientific American, 2001, vol. 284, May, p. 35-43 * základní idea n současné způsoby vyhledávání v internetu nedostatečné w vyhledávače w portály, předmětové katalogy n pokročilé („inteligentní“) vyhledávání v internetu w agenti zodpovídající komplikované dotazy n Který obchod prodává notebooky značky Toshiba za nejnižší cenu? n Kdo byl primátorem města Prahy v lednu 1946? n Jaká jsou aktuální rizika exportu pánských kalhot do Vietnamu? n strukturace dokumentů w XML n pojmová reprezentace w ontologie * realizace n pouze dílčí kroky n fáze výzkumu – masivní nástup sémantického webu nelze v brzké době očekávat Příklad požadavku PC: Leo čip: INTEL 815E patice: Socket 370 Předpoklady sémantického webu *syntaktická struktura n dokumenty v XML *sémantická struktura n RDF – Resource Description Framework w objekt – atribut – hodnota n např. Praha je hlavní město ČR *tvorba ontologií w formalizace pojmů a jejich vztahů w ontologie vs tezaurus w univerzální ontologie n WordNet, EuroWordNet w doménové ontologie w jazyky: OWL (Ontology Web Language) Problémy sémantického webu *v počátcích se předpokládal nástup sém. webu v r. 2005 *mediální bublina? *další vývoj a výzkum? *složitost tvorby webu pro běžného uživatele Sémantický grid *distribuované zpracování dat *analýza, sdílení a výměna dat *principy *příklad: Medigrid Vizualizace informací při věcném vyhledávání *Kartoo *Clusty *Grokker Kvalita informací přístupných prostřednictvím internetu *Co je kvalita informací n relevance (informace, které odpovídají informačnímu dotazu) n pertinence (informace, které potřebuji) n úplnost n kontext (pochopitelný význam) n spolehlivost, důvěryhodnost n formát n správný čas a místo Kvalita informací přístupných prostřednictvím internetu *Důvěryhodnost (Vítů, 2005) n věrohodnost w nezaujatost, nestrannost, objektivnost w pravdivost w spolehlivost, správnost, platnost w čestnost, poctivost n odbornost w zkušenost, praxe w inteligence w význam, vliv w informovanost, erudice Kritéria hodnocení *dostupnost a použitelnost *identifikace zdroje a dokumentace *identifikace autora *autorita autora *struktura a design *relevance a rozsah *platnost a ověřitelnost obsahu *přesnost a vyváženost obsahu *navigace *kvalita odkazů *estetické aspekty [SKLENÁK, Vilém aj. Data, informace, znalosti a Internet. Praha : C. H. Beck, 2001, s. 370 a násl.] Kvalita informací a internet Příklady *Jiří Paroubek w oficiální web veřejné osoby w kolaborativní encyklopedie w elektronický časopis s vyhraněným politickým postojem w blog Kvalita informací a internet Příklady *teorie „volné“ energie; motionless electromagnetic generator w „alternativní“ server w web občanského sdružení w osobní stránky w web soukromé (?) „laboratoře“ w osobní stránky --- w BlB – ceny Bludný balvan Kvalita informací a internet Příklady *lékařské informace n studie w validita zdrojů z hlediska lékařských informací n 1. bibliografické a plnotextové databáze n 2. renomované lékařské portály n 3. ostatní dokumentu z internetu Webové vyhledávání Webové vyhledávání Vybraná témata a příklady *komparace výsledků vyhledávání prohlížečů n Thumbshots Ranking *pokročilé vyhledávání n Exalead *sémantické vyhledávání (sémantický web) n Swoogle n Semantic Web Search *vyhledávání multimédií n The Open Video Project n VideoQ n WebSEEk Webové vyhledávání Vybraná témata a příklady *vyhledávání v češtině n Morfeo n Jyxo