VIKMA06 Vyhledávání informací 14. 12. 2018: Přednáška P12+K5: Vyhledávání netextových informací, vyhledávání a internet FF MU, podzim 2018 Mgr. Josef Schwarz 126172@mail.muni.cz Výsledky 7. dílčího úkolu ¢7. úkol (Ptejte se knihovny) lPřehled dotazů lStatistická analýza là(oba soubory v IS) • Výsledky 9. dílčího úkolu ¢Zadání: Je dán úryvek (text z roku 1966): „A je příznačné, že hledajíc živný kontakt s vlastní minulostí, najdou ho Francouzi ne u Crébillonů, Restifů, Laclosů a Nerciatů (příliš zdravých pro naši dobu), ale u Sada. Paulhan, Bataille, Blanchot, Beauvoirová ho opráší svými studiemi. Pak už půjde jen o to, abychom ho překonali. (Jak se to dařilo a daří, ukázal Václav Černý ve své nedávné studii.).“ O jakou studii V. Černého jde? Zjistěte bibliografické údaje. ¢Řešilo 9 studentů, ke správnému (autorskému) řešení dospěli 2 studenti. ¢Autorské řešení viz samostatný soubor v osnově předmětu. • Netextové informace ¢obraz, zvuk, kombinace •textová složka je marginální ¢internet •velký objem netextových informací •omezené možnosti vyhledávání •vyhledávače (podle popisku – příklad 1, 2, 3) ¢způsoby přístupu •prohlížení •vyhledávání ¢ • Indexace netextových inf. ¢podstatně složitější než indexace textových inf. ¢hlediska indexace/vyhledávání lhlediska 1 •věcnost (ofness) à „tvrdá“ indexace •výrazovost (aboutness) à „měkká“ indexace lhlediska 2 •základní vlastnosti (barva, tvar) •logické vlastnosti (vztah mezi objekty) •abstraktní vlastnosti (metaforický význam) Vyhledávání netextových inf. ¢content-based image retrieval (CBIR) lvyhledávání podle obsahu lautomatické zpracování obrazu (image processing) ¢description-based image retrieval l(context-based, concept-based) lvyhledávání podle popisu (kontextu, pojmového vyjádření) (image indexing) l l CBIR ¢vyhledávání na úrovni pixelů lQBIC - Query by Image Content ¢objektové vyhledávání lextrahování obrazových objektů ¢image mining (dolování obrazových informací) lextrakce podobných znaků z celé db lextrakce všech vlastností bez prvotní znalosti l Vyhledávání podle popisu ¢výhoda: sémantický obsah obrazu ¢nevýhoda: subjektivitaàinkonzistence indexace ¢způsob indexace závisí na typu kolekce a požadavcích uživatelů ¢indexace •biografických vlastností •předmětových vlastností •fyzických vlastností •vztahových vlastností Řízené slovníky pro popis netextových dokumentů ¢ICONCLASS ¢ATT (Art & Architecture Thesaurus) ¢Thesaurus for Graphic Materials • l Aplikační oblasti ¢průmyslové vlastnictví (ochranné známky) ¢lékařství ¢umění a architektura ¢astronomie ¢kriminologie ¢…atd. Vyhledávání a internet lSkrytý web lSémantický web Neviditelný web deep Typy „neviditelnosti“ ¢Nepřehledný web (Opaque web) ¢Soukromý web (Private web) ¢Vlastnický web (Proprietary web) ¢Skutečně neviditelný web (Truly invisible web) Nepřehledný web ¢Obsahuje soubory, které mohou být, ale z určitých příčin nejsou vyhledávači indexované. ¢ ¢Důvody: ●hloubka indexování (depth of crawling) ●frekvence indexování (zprávy, inzerce, ceny akcií) ●maximální počet viditelných výsledků ●odpojené stránky ● Soukromý web ¢Obsahuje stránky, které by robot dokázal zaindexovat, ale správce webu to znemožňuje. ¢ ●stránky chráněné heslem ●soubor robots.txt ●metatagy „noindex“, „nofollow“ Vlastnický web ¢Část webu, ke které je přístup pouze po splnění určitých podmínek. ¢ ●stránky vyžadující souhlas s podmínkami pro vstup ●stránky dostupné po zaplacení poplatku Skutečně neviditelný web ¢Stránky, které roboty neindexují kvůli svým technickým omezením. ¢ ●dynamicky generované stránky ●relační databáze (Oracle, MS SQL Server, IBM DB2) Přednosti hlubokého webu ¢specializovaný obsah – komplexnější informace ¢sofistikovanější uživatelské rozhraní ¢větší důvěryhodnost ¢oborovost Přístup k hlubokému webu ¢metavyhledávače ¢specializované vyhledávače, katalogy, adresáře ¢oborové (předmětové) vyhledávače, katalogy, adresáře ¢referenční zdroje ¢weby knihoven ¢digitální a virtuální knihovny ¢oborové databáze ¢weby organizací ¢knihy (archivy, e-books) ¢blogy ¢ ¢ Sémantický web ¢ klasický x sémantický web ¢Tvořen tak, aby jeho obsahu porozuměl pouze člověk ¢Citlivý na použitou terminologii ¢Nalezených dokumentů je obvykle příliš mnoho nebo naopak příliš málo (případně žádné) ¢Výsledkem vyhledávání je pouze jedna stránka ¢Rozšíření klasického webu ¢Obsah ve strojově přístupné formě ¢Vyhledávání podle klíčových slov nahrazeno zodpovídáním dotazů ¢Dotaz je možno zodpovědět na základě extrakce informací z více stránek Klasická podoba webu ¢ •

Agilitas Physiotherapy Centre

•Welcome to the home page of the Agilitas Physiotherapy Centre. •Do you feel pain? Have you had an injury? Let our staff •Lisa Davenport, Kelly Townsend (our lovely secretary) •and Steve Matthews take care of your body and soul. •

Consultation hours

•Mon 11am - 7pm
•Tue 11am - 7pm
•Wed 3pm - 7pm
•Thu 11am - 7pm
•Fri 11am - 3pm

•But note that we do not offer consultation •during the weeks of the •State Of Origin games. • Web s explicitními metadaty ¢XML + XML schéma ¢RDF + RDF schéma ¢ l lPhysiotherapy lAgilitas Physiotherapy Centre l lLisa Davenport lSteve Matthews lKelly Townsend l l ¢ ¢ Sémantický web ¢Základní složky (předpoklady) SW lstrukturace dokumentů lvyjádření sémantiky - ontologie lvyhledávací nástroje - agenti l lstandardy •syntaktická složka •URI •strukturální složka •XML •sémantická složka •RDF + RDFS (schéma RDF) •OWL, OIL l Vrstvy sémantického webu Sémantický web – příklady řešení ¢W3C ¢příklad aplikace RDF lenergetika ¢Výzkum lThe Open University London, Knowledge Media Institut •Magpie lStanford Knowledge Systems Laboratory •DAML (agenti) lEU, 5. rámcový program •On-to-knowledge •