VIKMA06
Rešeršní a studijně rozborová činnost
3. 5. 2013: Přednáška P11: Vyhledávání netextových informací, vyhledávání a internet, tvorba
rejstříků a bibliografií
FF MU, jaro 2013
Mgr. Josef Schwarz
126172@mail.muni.cz

Netextové informace
¢obraz, zvuk, kombinace
•textová složka je marginální
¢internet
•velký objem netextových informací
•omezené možnosti vyhledávání
•vyhledávače (podle popisku – příklad 1, 2, 3)
¢způsoby přístupu
•prohlížení (příklad 1, 2)
•vyhledávání (příklad 1)
¢
•

Indexace netextových inf.
¢podstatně složitější než indexace textových inf.
¢hlediska indexace/vyhledávání
lhlediska 1
•věcnost (ofness) à „tvrdá“ indexace
•výrazovost (aboutness) à „měkká“ indexace
lhlediska 2
•základní vlastnosti (barva, tvar)
•logické vlastnosti (vztah mezi objekty)
•abstraktní vlastnosti (metaforický význam)

Vyhledávání netextových inf.
¢content-based image retrieval (CBIR)
lvyhledávání podle obsahu
lautomatické zpracování obrazu (image processing)
¢description-based image retrieval
l(context-based, concept-based)
lvyhledávání podle popisu (kontextu, pojmového vyjádření) (image indexing)
l
l

CBIR
¢vyhledávání na úrovni pixelů
lQBIC - Query by Image Content (IBM) – příklad 1 2
¢objektové vyhledávání
lextrahování obrazových objektů
¢image mining (dolování obrazových informací)
lextrakce podobných znaků z celé db
•CIRES
lextrakce všech vlastností bez prvotní znalosti
l

Vyhledávání podle popisu
¢výhoda: sémantický obsah obrazu
¢nevýhoda: subjektivitaàinkonzistence indexace
¢způsob indexace závisí na typu kolekce a požadavcích uživatelů
¢indexace
•biografických vlastností
•předmětových vlastností
•fyzických vlastností
•vztahových vlastností

Řízené slovníky pro popis netextových dokumentů
¢ICONCLASS
lpříklad
¢ATT (Art & Architecture Thesaurus)
¢Thesaurus for Graphic Materials
•
l

Aplikační oblasti
¢průmyslové vlastnictví (ochranné známky)
¢lékařství
¢umění a architektura
¢astronomie
¢kriminologie
¢…atd.

Vyhledávání a internet
lVyhledávače
lSkrytý web
lSémantický web

Vyhledávače
lGoogle
lYahoo!
lBing
lAsk.com
lExalead
¢Metavyhledávače
lMetacrawler
lTurboScout
¢Vizualizace
lTouchGraph
lQuintura
¢Obrázky
lPicsearch
¢Zvuk
lFindSounds

Neviditelný web
deep


Typy „neviditelnosti“
¢Nepřehledný web (Opaque web)
¢Soukromý web (Private web)
¢Vlastnický web (Proprietary web)
¢Skutečně neviditelný web (Truly invisible web)

Nepřehledný web
¢Obsahuje soubory, které mohou být, ale z určitých příčin nejsou vyhledávači indexované.
¢
¢Důvody:
●hloubka indexování (depth of crawling)
●frekvence indexování (zprávy, inzerce, ceny akcií)
●maximální počet viditelných výsledků
●odpojené stránky
●

Soukromý web
¢Obsahuje stránky, které by robot dokázal zaindexovat, ale správce webu to znemožňuje.
¢
●stránky chráněné heslem
●soubor robots.txt
●metatagy „noindex“, „nofollow“

Vlastnický web
¢Část webu, ke které je přístup pouze po splnění určitých podmínek.
¢
●stránky vyžadující souhlas s podmínkami pro vstup
●stránky dostupné po zaplacení poplatku

Skutečně neviditelný web
¢Stránky, které roboty neindexují kvůli svým technickým omezením.
¢
●dynamicky generované stránky
●relační databáze (Oracle, MS SQL Server, IBM DB2)

Přednosti hlubokého webu
¢specializovaný obsah – komplexnější informace
¢sofistikovanější uživatelské rozhraní
¢větší důvěryhodnost
¢oborovost

Přístup k hlubokému webu
¢metavyhledávače
¢specializované vyhledávače, katalogy, adresáře
¢oborové (předmětové) vyhledávače, katalogy, adresáře
¢referenční zdroje
¢weby knihoven
¢digitální a virtuální knihovny
¢oborové databáze
¢weby organizací
¢knihy (archivy, e-books)
¢blogy
¢
¢

Výběr vyhledávačů hlubokého webu
¢Complete Planet
ladresář více než 70 000 databází a specializovaných vyhledávačů
¢BUBL LINK
lpolytematický (DDC) katalog vybraných internetových zdrojů
¢ResourceShelf
lblog s informacemi a novinkami o informačních zdrojích (připravovaný informačními profesionály)
l

Sémantický web
¢


klasický x sémantický web
¢Tvořen tak, aby jeho obsahu porozuměl pouze člověk
¢Citlivý na použitou terminologii
¢Nalezených dokumentů je obvykle příliš mnoho nebo naopak příliš málo (případně žádné)
¢Výsledkem vyhledávání je pouze jedna stránka
¢Rozšíření klasického webu
¢Obsah ve strojově přístupné formě
¢Vyhledávání podle klíčových slov nahrazeno zodpovídáním dotazů
¢Dotaz je možno zodpovědět na základě extrakce informací z více stránek

Klasická podoba webu
¢
•<h1>Agilitas Physiotherapy Centre</h1>
•Welcome to the home page of the Agilitas Physiotherapy Centre.
•Do you feel pain? Have you had an injury? Let our staff
•Lisa Davenport, Kelly Townsend (our lovely secretary)
•and Steve Matthews take care of your body and soul.
•<h2>Consultation hours</h2>
•Mon 11am - 7pm<br>
•Tue 11am - 7pm<br>
•Wed 3pm - 7pm<br>
•Thu 11am - 7pm<br>
•Fri 11am - 3pm<p>
•But note that we do not offer consultation
•during the weeks of the
•<a href=". . .">State Of Origin</a> games.
•

Web s explicitními metadaty
¢XML + XML schéma
¢RDF + RDF schéma
¢
l<company>
l<treatmentOffered>Physiotherapy</treatmentOffered>
l<companyName>Agilitas Physiotherapy Centre</companyName>
l<staff>
l<therapist>Lisa Davenport</therapist>
l<therapist>Steve Matthews</therapist>
l<secretary>Kelly Townsend</secretary>
l</staff>
l</company>
¢
¢

Sémantický web
¢Základní složky (předpoklady) SW
lstrukturace dokumentů
lvyjádření sémantiky - ontologie
lvyhledávací nástroje - agenti
l
lstandardy
•syntaktická složka
•URI
•strukturální složka
•XML
•sémantická složka
•RDF + RDFS (schéma RDF)
•OWL, OIL
l

Vrstvy sémantického webu


Sémantický web – příklady řešení
¢W3C
¢příklad aplikace RDF
lenergetika
¢Výzkum
lThe Open University London, Knowledge Media Institut
•Magpie
lStanford Knowledge Systems Laboratory
•DAML (agenti)
lEU, 5. rámcový program
•On-to-knowledge
•

Tvorba rejstříků a bibliografií
¢Účel a použití
¢Typologie
¢Metody tvorby