VIKMA06 Rešeršní a studijně rozborová činnost 3. 5. 2013: Přednáška P11: Vyhledávání netextových informací, vyhledávání a internet, tvorba rejstříků a bibliografií FF MU, jaro 2013 Mgr. Josef Schwarz 126172@mail.muni.cz Netextové informace ¢obraz, zvuk, kombinace •textová složka je marginální ¢internet •velký objem netextových informací •omezené možnosti vyhledávání •vyhledávače (podle popisku – příklad 1, 2, 3) ¢způsoby přístupu •prohlížení (příklad 1, 2) •vyhledávání (příklad 1) ¢ • Indexace netextových inf. ¢podstatně složitější než indexace textových inf. ¢hlediska indexace/vyhledávání lhlediska 1 •věcnost (ofness) à „tvrdá“ indexace •výrazovost (aboutness) à „měkká“ indexace lhlediska 2 •základní vlastnosti (barva, tvar) •logické vlastnosti (vztah mezi objekty) •abstraktní vlastnosti (metaforický význam) Vyhledávání netextových inf. ¢content-based image retrieval (CBIR) lvyhledávání podle obsahu lautomatické zpracování obrazu (image processing) ¢description-based image retrieval l(context-based, concept-based) lvyhledávání podle popisu (kontextu, pojmového vyjádření) (image indexing) l l CBIR ¢vyhledávání na úrovni pixelů lQBIC - Query by Image Content (IBM) – příklad 1 2 ¢objektové vyhledávání lextrahování obrazových objektů ¢image mining (dolování obrazových informací) lextrakce podobných znaků z celé db •CIRES lextrakce všech vlastností bez prvotní znalosti l Vyhledávání podle popisu ¢výhoda: sémantický obsah obrazu ¢nevýhoda: subjektivitaàinkonzistence indexace ¢způsob indexace závisí na typu kolekce a požadavcích uživatelů ¢indexace •biografických vlastností •předmětových vlastností •fyzických vlastností •vztahových vlastností Řízené slovníky pro popis netextových dokumentů ¢ICONCLASS lpříklad ¢ATT (Art & Architecture Thesaurus) ¢Thesaurus for Graphic Materials • l Aplikační oblasti ¢průmyslové vlastnictví (ochranné známky) ¢lékařství ¢umění a architektura ¢astronomie ¢kriminologie ¢…atd. Vyhledávání a internet lVyhledávače lSkrytý web lSémantický web Vyhledávače lGoogle lYahoo! lBing lAsk.com lExalead ¢Metavyhledávače lMetacrawler lTurboScout ¢Vizualizace lTouchGraph lQuintura ¢Obrázky lPicsearch ¢Zvuk lFindSounds Neviditelný web deep Typy „neviditelnosti“ ¢Nepřehledný web (Opaque web) ¢Soukromý web (Private web) ¢Vlastnický web (Proprietary web) ¢Skutečně neviditelný web (Truly invisible web) Nepřehledný web ¢Obsahuje soubory, které mohou být, ale z určitých příčin nejsou vyhledávači indexované. ¢ ¢Důvody: ●hloubka indexování (depth of crawling) ●frekvence indexování (zprávy, inzerce, ceny akcií) ●maximální počet viditelných výsledků ●odpojené stránky ● Soukromý web ¢Obsahuje stránky, které by robot dokázal zaindexovat, ale správce webu to znemožňuje. ¢ ●stránky chráněné heslem ●soubor robots.txt ●metatagy „noindex“, „nofollow“ Vlastnický web ¢Část webu, ke které je přístup pouze po splnění určitých podmínek. ¢ ●stránky vyžadující souhlas s podmínkami pro vstup ●stránky dostupné po zaplacení poplatku Skutečně neviditelný web ¢Stránky, které roboty neindexují kvůli svým technickým omezením. ¢ ●dynamicky generované stránky ●relační databáze (Oracle, MS SQL Server, IBM DB2) Přednosti hlubokého webu ¢specializovaný obsah – komplexnější informace ¢sofistikovanější uživatelské rozhraní ¢větší důvěryhodnost ¢oborovost Přístup k hlubokému webu ¢metavyhledávače ¢specializované vyhledávače, katalogy, adresáře ¢oborové (předmětové) vyhledávače, katalogy, adresáře ¢referenční zdroje ¢weby knihoven ¢digitální a virtuální knihovny ¢oborové databáze ¢weby organizací ¢knihy (archivy, e-books) ¢blogy ¢ ¢ Výběr vyhledávačů hlubokého webu ¢Complete Planet ladresář více než 70 000 databází a specializovaných vyhledávačů ¢BUBL LINK lpolytematický (DDC) katalog vybraných internetových zdrojů ¢ResourceShelf lblog s informacemi a novinkami o informačních zdrojích (připravovaný informačními profesionály) l Sémantický web ¢ klasický x sémantický web ¢Tvořen tak, aby jeho obsahu porozuměl pouze člověk ¢Citlivý na použitou terminologii ¢Nalezených dokumentů je obvykle příliš mnoho nebo naopak příliš málo (případně žádné) ¢Výsledkem vyhledávání je pouze jedna stránka ¢Rozšíření klasického webu ¢Obsah ve strojově přístupné formě ¢Vyhledávání podle klíčových slov nahrazeno zodpovídáním dotazů ¢Dotaz je možno zodpovědět na základě extrakce informací z více stránek Klasická podoba webu ¢ •
•But note that we do not offer consultation
•during the weeks of the
•State Of Origin games.
•
Web s explicitními metadaty
¢XML + XML schéma
¢RDF + RDF schéma
¢
l