VIKMA06 Vyhledávání informací 14. 12. 2018: Přednáška P12+K5: Vyhledávání netextových informací, vyhledávání a internet FF MU, podzim 2018 Mgr. Josef Schwarz 126172@mail.muni.cz Výsledky 7. dílčího úkolu ¢7. úkol (Ptejte se knihovny) lPřehled dotazů lStatistická analýza là(oba soubory v IS) • Výsledky 9. dílčího úkolu ¢Zadání: Je dán úryvek (text z roku 1966): „A je příznačné, že hledajíc živný kontakt s vlastní minulostí, najdou ho Francouzi ne u Crébillonů, Restifů, Laclosů a Nerciatů (příliš zdravých pro naši dobu), ale u Sada. Paulhan, Bataille, Blanchot, Beauvoirová ho opráší svými studiemi. Pak už půjde jen o to, abychom ho překonali. (Jak se to dařilo a daří, ukázal Václav Černý ve své nedávné studii.).“ O jakou studii V. Černého jde? Zjistěte bibliografické údaje. ¢Řešilo 9 studentů, ke správnému (autorskému) řešení dospěli 2 studenti. ¢Autorské řešení viz samostatný soubor v osnově předmětu. • Netextové informace ¢obraz, zvuk, kombinace •textová složka je marginální ¢internet •velký objem netextových informací •omezené možnosti vyhledávání •vyhledávače (podle popisku – příklad 1, 2, 3) ¢způsoby přístupu •prohlížení •vyhledávání ¢ • Indexace netextových inf. ¢podstatně složitější než indexace textových inf. ¢hlediska indexace/vyhledávání lhlediska 1 •věcnost (ofness) à „tvrdá“ indexace •výrazovost (aboutness) à „měkká“ indexace lhlediska 2 •základní vlastnosti (barva, tvar) •logické vlastnosti (vztah mezi objekty) •abstraktní vlastnosti (metaforický význam) Vyhledávání netextových inf. ¢content-based image retrieval (CBIR) lvyhledávání podle obsahu lautomatické zpracování obrazu (image processing) ¢description-based image retrieval l(context-based, concept-based) lvyhledávání podle popisu (kontextu, pojmového vyjádření) (image indexing) l l CBIR ¢vyhledávání na úrovni pixelů lQBIC - Query by Image Content ¢objektové vyhledávání lextrahování obrazových objektů ¢image mining (dolování obrazových informací) lextrakce podobných znaků z celé db lextrakce všech vlastností bez prvotní znalosti l Vyhledávání podle popisu ¢výhoda: sémantický obsah obrazu ¢nevýhoda: subjektivitaàinkonzistence indexace ¢způsob indexace závisí na typu kolekce a požadavcích uživatelů ¢indexace •biografických vlastností •předmětových vlastností •fyzických vlastností •vztahových vlastností Řízené slovníky pro popis netextových dokumentů ¢ICONCLASS ¢ATT (Art & Architecture Thesaurus) ¢Thesaurus for Graphic Materials • l Aplikační oblasti ¢průmyslové vlastnictví (ochranné známky) ¢lékařství ¢umění a architektura ¢astronomie ¢kriminologie ¢…atd. Vyhledávání a internet lSkrytý web lSémantický web Neviditelný web deep Typy „neviditelnosti“ ¢Nepřehledný web (Opaque web) ¢Soukromý web (Private web) ¢Vlastnický web (Proprietary web) ¢Skutečně neviditelný web (Truly invisible web) Nepřehledný web ¢Obsahuje soubory, které mohou být, ale z určitých příčin nejsou vyhledávači indexované. ¢ ¢Důvody: ●hloubka indexování (depth of crawling) ●frekvence indexování (zprávy, inzerce, ceny akcií) ●maximální počet viditelných výsledků ●odpojené stránky ● Soukromý web ¢Obsahuje stránky, které by robot dokázal zaindexovat, ale správce webu to znemožňuje. ¢ ●stránky chráněné heslem ●soubor robots.txt ●metatagy „noindex“, „nofollow“ Vlastnický web ¢Část webu, ke které je přístup pouze po splnění určitých podmínek. ¢ ●stránky vyžadující souhlas s podmínkami pro vstup ●stránky dostupné po zaplacení poplatku Skutečně neviditelný web ¢Stránky, které roboty neindexují kvůli svým technickým omezením. ¢ ●dynamicky generované stránky ●relační databáze (Oracle, MS SQL Server, IBM DB2) Přednosti hlubokého webu ¢specializovaný obsah – komplexnější informace ¢sofistikovanější uživatelské rozhraní ¢větší důvěryhodnost ¢oborovost Přístup k hlubokému webu ¢metavyhledávače ¢specializované vyhledávače, katalogy, adresáře ¢oborové (předmětové) vyhledávače, katalogy, adresáře ¢referenční zdroje ¢weby knihoven ¢digitální a virtuální knihovny ¢oborové databáze ¢weby organizací ¢knihy (archivy, e-books) ¢blogy ¢ ¢ Sémantický web ¢ klasický x sémantický web ¢Tvořen tak, aby jeho obsahu porozuměl pouze člověk ¢Citlivý na použitou terminologii ¢Nalezených dokumentů je obvykle příliš mnoho nebo naopak příliš málo (případně žádné) ¢Výsledkem vyhledávání je pouze jedna stránka ¢Rozšíření klasického webu ¢Obsah ve strojově přístupné formě ¢Vyhledávání podle klíčových slov nahrazeno zodpovídáním dotazů ¢Dotaz je možno zodpovědět na základě extrakce informací z více stránek Klasická podoba webu ¢ •
•But note that we do not offer consultation
•during the weeks of the
•State Of Origin games.
•
Web s explicitními metadaty
¢XML + XML schéma
¢RDF + RDF schéma
¢
l