VIKMA06 Rešeršní a studijně rozborová činnost 3. 5. 2013: Přednáška P11: Vyhledávání netextových informací, vyhledávání a internet, tvorba rejstříků a bibliografií FF MU, jaro 2013 Mgr. Josef Schwarz 126172@mail.muni.cz Netextové informace ¢obraz, zvuk, kombinace •textová složka je marginální ¢internet •velký objem netextových informací •omezené možnosti vyhledávání •vyhledávače (podle popisku – příklad 1, 2, 3) ¢způsoby přístupu •prohlížení (příklad 1, 2) •vyhledávání (příklad 1) ¢ • Indexace netextových inf. ¢podstatně složitější než indexace textových inf. ¢hlediska indexace/vyhledávání lhlediska 1 •věcnost (ofness) à „tvrdá“ indexace •výrazovost (aboutness) à „měkká“ indexace lhlediska 2 •základní vlastnosti (barva, tvar) •logické vlastnosti (vztah mezi objekty) •abstraktní vlastnosti (metaforický význam) Vyhledávání netextových inf. ¢content-based image retrieval (CBIR) lvyhledávání podle obsahu lautomatické zpracování obrazu (image processing) ¢description-based image retrieval l(context-based, concept-based) lvyhledávání podle popisu (kontextu, pojmového vyjádření) (image indexing) l l CBIR ¢vyhledávání na úrovni pixelů lQBIC - Query by Image Content (IBM) – příklad 1 2 ¢objektové vyhledávání lextrahování obrazových objektů ¢image mining (dolování obrazových informací) lextrakce podobných znaků z celé db •CIRES lextrakce všech vlastností bez prvotní znalosti l Vyhledávání podle popisu ¢výhoda: sémantický obsah obrazu ¢nevýhoda: subjektivitaàinkonzistence indexace ¢způsob indexace závisí na typu kolekce a požadavcích uživatelů ¢indexace •biografických vlastností •předmětových vlastností •fyzických vlastností •vztahových vlastností Řízené slovníky pro popis netextových dokumentů ¢ICONCLASS lpříklad ¢ATT (Art & Architecture Thesaurus) ¢Thesaurus for Graphic Materials • l Aplikační oblasti ¢průmyslové vlastnictví (ochranné známky) ¢lékařství ¢umění a architektura ¢astronomie ¢kriminologie ¢…atd. Vyhledávání a internet lVyhledávače lSkrytý web lSémantický web Vyhledávače lGoogle lYahoo! lBing lAsk.com lExalead ¢Metavyhledávače lMetacrawler lTurboScout ¢Vizualizace lTouchGraph lQuintura ¢Obrázky lPicsearch ¢Zvuk lFindSounds Neviditelný web deep Typy „neviditelnosti“ ¢Nepřehledný web (Opaque web) ¢Soukromý web (Private web) ¢Vlastnický web (Proprietary web) ¢Skutečně neviditelný web (Truly invisible web) Nepřehledný web ¢Obsahuje soubory, které mohou být, ale z určitých příčin nejsou vyhledávači indexované. ¢ ¢Důvody: ●hloubka indexování (depth of crawling) ●frekvence indexování (zprávy, inzerce, ceny akcií) ●maximální počet viditelných výsledků ●odpojené stránky ● Soukromý web ¢Obsahuje stránky, které by robot dokázal zaindexovat, ale správce webu to znemožňuje. ¢ ●stránky chráněné heslem ●soubor robots.txt ●metatagy „noindex“, „nofollow“ Vlastnický web ¢Část webu, ke které je přístup pouze po splnění určitých podmínek. ¢ ●stránky vyžadující souhlas s podmínkami pro vstup ●stránky dostupné po zaplacení poplatku Skutečně neviditelný web ¢Stránky, které roboty neindexují kvůli svým technickým omezením. ¢ ●dynamicky generované stránky ●relační databáze (Oracle, MS SQL Server, IBM DB2) Přednosti hlubokého webu ¢specializovaný obsah – komplexnější informace ¢sofistikovanější uživatelské rozhraní ¢větší důvěryhodnost ¢oborovost Přístup k hlubokému webu ¢metavyhledávače ¢specializované vyhledávače, katalogy, adresáře ¢oborové (předmětové) vyhledávače, katalogy, adresáře ¢referenční zdroje ¢weby knihoven ¢digitální a virtuální knihovny ¢oborové databáze ¢weby organizací ¢knihy (archivy, e-books) ¢blogy ¢ ¢ Výběr vyhledávačů hlubokého webu ¢Complete Planet ladresář více než 70 000 databází a specializovaných vyhledávačů ¢BUBL LINK lpolytematický (DDC) katalog vybraných internetových zdrojů ¢ResourceShelf lblog s informacemi a novinkami o informačních zdrojích (připravovaný informačními profesionály) l Sémantický web ¢ klasický x sémantický web ¢Tvořen tak, aby jeho obsahu porozuměl pouze člověk ¢Citlivý na použitou terminologii ¢Nalezených dokumentů je obvykle příliš mnoho nebo naopak příliš málo (případně žádné) ¢Výsledkem vyhledávání je pouze jedna stránka ¢Rozšíření klasického webu ¢Obsah ve strojově přístupné formě ¢Vyhledávání podle klíčových slov nahrazeno zodpovídáním dotazů ¢Dotaz je možno zodpovědět na základě extrakce informací z více stránek Klasická podoba webu ¢ •

Agilitas Physiotherapy Centre

•Welcome to the home page of the Agilitas Physiotherapy Centre. •Do you feel pain? Have you had an injury? Let our staff •Lisa Davenport, Kelly Townsend (our lovely secretary) •and Steve Matthews take care of your body and soul. •

Consultation hours

•Mon 11am - 7pm
•Tue 11am - 7pm
•Wed 3pm - 7pm
•Thu 11am - 7pm
•Fri 11am - 3pm

•But note that we do not offer consultation •during the weeks of the •State Of Origin games. • Web s explicitními metadaty ¢XML + XML schéma ¢RDF + RDF schéma ¢ l lPhysiotherapy lAgilitas Physiotherapy Centre l lLisa Davenport lSteve Matthews lKelly Townsend l l ¢ ¢ Sémantický web ¢Základní složky (předpoklady) SW lstrukturace dokumentů lvyjádření sémantiky - ontologie lvyhledávací nástroje - agenti l lstandardy •syntaktická složka •URI •strukturální složka •XML •sémantická složka •RDF + RDFS (schéma RDF) •OWL, OIL l Vrstvy sémantického webu Sémantický web – příklady řešení ¢W3C ¢příklad aplikace RDF lenergetika ¢Výzkum lThe Open University London, Knowledge Media Institut •Magpie lStanford Knowledge Systems Laboratory •DAML (agenti) lEU, 5. rámcový program •On-to-knowledge • Tvorba rejstříků a bibliografií ¢Účel a použití ¢Typologie ¢Metody tvorby