VIKMA06 Vyhledávání informací 14. 10. 2016: Přednáška P4+K2: Metodika vyhledávání, modely vyhledávání FF MU, podzim 2016 Mgr. Josef Schwarz 126172@mail.muni.cz STRUČNÝ SOUHRN DOSAVADNÍ LÁTKY ¢ schema Metodika vyhledávání ¢typy vyhledávání ¢nástroje vyhledávání ¢formulace rešeršního dotazu ¢ Typy vyhledávání ¢Podle hledané informace: lidentifikační vyhledávání •(známe některé údaje o hledaném dokumentu nebo položce) •vyhledávací výrazy: formální údaje - osobní jméno, název, nakladatel, rok, místo vydání, název časopisu, ISBN, ISSN, datum (konání konference, vydání, narození aj.) apod. •příklad: NTK, telefonní seznam, Obchodní rejstřík lvěcné vyhledávání •(neznáme požadovaný dokument, hledáme určité téma) •vyhledávací výrazy: věcné údaje - klíčová slova z názvu, předmětová hesla, klíčová slova, deskriptory tezauru, klíčová slova z textu dokumentu (redukovaného nebo plného), klasifikace (MDT, OKEČ, NAICS) apod. lfaktografické •(chceme zjistit konkrétní informaci) •vyhledávací výrazy: údaje podle obsahu a struktury zdroje Typy vyhledávání ¢hledání (seeking) ¢vyhledávání (searching) ¢prohlížení (browsing) ¢filtrace (filtering) ¢data mining l Typy vyhledávání ¢nestrukturované (freetextové) lcelý záznam dokumentu ¢strukturované lmetadata •selekční obraz dokumentu •redukovaný text lvazby dokumentů •citační vazby •formální vazby (FRBR) ¢plnotextové • Typy vyhledávání ¢nestrukturované vyhledávání •základní, jednoduché vyhledávání •KNAV, PubMed, Google ¢strukturované vyhledávání •pokročilé, podrobné vyhledávání •KNAV, PubMed, Google •řízený slovník (tezaurus, seznam předmětových hesel nebo klíčových slov apod.) •není dostupný: KNAV •je dostupný samostatně: NTK •je dostupný při vyhledávání: NKP ¢plnotextové (fulltextové) vyhledávání •invertovaný rejstřík •sekvenční vyhledávání • Nástroje vyhledávání ¢vyhledávací (dotazovací) jazyky lsložky lstandardizace (CCL) ltendence ke (kvazi)přirozenému jazyku ¢selekční jazyky lvěcné lidentifikační (autority) lsémantické sítě ¢uživatelské rozhraní lpříkazový řádek lGUI ¢algoritmy vyhledávání ¢ Formulace rešeršního dotazu 1.pojmová analýza 2.synonyma a související pojmy 3.převedení na výrazy řízeného slovníku 4.aplikace (booleovských) operátorů 5.aplikace dalších vyhledávacích technik Pojmová analýza §identifikace klíčových pojmů §reprezentace pojmů (substantiva a adjektiva, slovesa nahrazena operátory) Synonyma a související pojmy §vytvoření seznamu synonym a dalších příbuzných výrazů §využití seznamu: §výběru vhodného vyhledávacího výrazu §převod na výraz věcného SJ §rozšiřování a zužování tématu ¢ Převedení na výrazy řízeného slovníku ¢Varianty 1.výraz v seznamu je shodný s výrazem ŘS 2.výraz v seznamu je synonymem/ekvivalentem výrazu ŘS 3.pro výraz v seznamu existuje pouze širší výraz ŘS 4.pro výraz v seznamu existují pouze specifičtější/podřazené výrazy ŘS ¢ F ¢ Aplikace (booleovských) operátorů ¢Určení vztahů mezi pojmy §operátor AND – spojení významově odlišných výrazů §operátor OR – spojení synonym a příbuzných výrazů §operátor NOT – vyloučení nežádoucích výrazů ¢ ¢ Aplikace dalších vyhledávacích technik §škála možností závisející na konkrétním informačním zdroji §krácení, zástupné znaky §proximitní operátory §vyhledávání podle polí §rozšiřování a úprava dotazu (query expansion – relevance feedback) §vyhledávání ve více databázích (multiple database searching) [Query Expansion: Methods and Sources] Vyhledávací techniky ¢obvyklé možnosti §booleovské operátory §fráze §vyhledávání podle polí §formální omezení §krácení, zást. znaky, stemming §ukládání rešerše a historie §proximitní vyhledávání §užití řízených slovníků F ¢specifické možnosti §prohlížení časopisů a obsahů jednotlivých titulů §rozšiřování dotazu §navrhování výrazů ŘS §dotaz příkladem §automatický překlad §odkazy na plný text prostřednictvím jiné služby, odkazy na web, napojení na katalog §vyhledávání pomocí notací SSJ MODELY (TECHNIKY) VYHLEDÁVÁNÍ ¢ Modely vyhledávání ¢booleovský model ¢rozšířený booleovský model ¢vektorový model ¢indexování latentní sémantiky (latent semantic indexing) ¢ • Booleovský model ¢teoretické základy (booleovská logika/algebra): 50. léta 20. století ¢logické operátory •AND, OR, NOT, XOR •souborný katalog AND CASLIN •souborný katalog OR CASLIN •souborný katalog NOT CASLIN •souborný katalog XOR CASLIN ¢rozšiřování (zkracování) výrazu •pravostranné (katalog*), levostranné (*komunistický), vnitřní rozšíření (filo?ofie) •rozšíření o více znaků (*), jeden znak (?) ¢proximitní operátory •věta, odstavec, určitý počet slov (zaleží/nezáleží na pořadí) ¢ Booleovský model ¢výhody ljasná formalizace ljednoduchost lrychlost vyhledávání ¢limitující faktory lúplnost, přesnost •použití klíčových slov •principiální možnosti logických spojek •„ostrost“ – relevantní n. nerelevantní (nikoliv částečně relevantní) •operátor ACCRUE – systém TOPIC (příklad + příklad aplikace) •experiment STAIRS (1985) •právní texty, 40 000 dokumentů •51 požadavků, požadovaná úplnost: 75% •dosažená úplnost: 20% (přesnost 80%) Booleovský model - rozšíření ¢vážení výrazů lv dotazu lv dokumentu ¢rozšíření pomocí fuzzy logiky lformalizace principu vágnosti (schopnost přirozeného jazyka funkčně používat vágní pojmy) Fuzzy logika ¢booleovská logika: 0/1 (nepravda/pravda) ¢fuzzy logika: pravdivost dána množinou hodnot z intervalu <0,1> lstupeň příslušnosti prvku do množiny Fuzzy množina ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢Pokorný, Snášel, Húsek. Dokumentografické informační systémy, s. 95. tsj003 Fuzzy vyhledávání ¢prvky fuzzy množiny jsou výrazy použité pro vyhledávání ¢stupeň příslušnosti se určuje jako váha výrazu v dokumentu ¢různé modely pro výpočet podobnosti dokumentu a dotazu ¢ Booleovský model - rozšíření ¢geometrické rozšíření ldokument jako bod v prostoru lpočet rozměrů prostoru = počet klíčových slov v dokumentu lvážení výrazů v dokumentu ¢ Geometrické rozšíření ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢Baeza-Yates, Ribeiro-Neto. Modern information retrieval, s. 39 tsj004 Srovnání booleovského modelu a jeho rozšíření ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢Rauch. Metody zpracování informací II. Ukládání a vyhledávání, s. 50 tsj002 Vektorový model ¢dokument i dotaz se chápou jako vektory v n-rozměrném prostor (n je počet jedinečných výrazů ve všech dokumentech) •složky vektoru: směr, orientace, velikost ¢složky vektorů jsou určovány výrazy a jejich vahami ¢pomocí vektorového počtu se měří stupeň podobnosti mezi dotazem a dokumentem •kosinová míra, Diceova míra podobnosti ad. Vektorový model ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢Pokorný, Snášel, Húsek. Dokumentografické informační systémy, s. 90 ¢ ¢ tsj005 Vektorový model ¢Výhody lvyhledává i částečně relevantní dokumenty lřazení dokumentů podle relevance (stupně podobnosti) lmodifikace dotazu na základě vyhledaných relevantních dokumentů ¢ Vektorový model ¢Nevýhody lnení jasná interpretace vah výrazů v dotazu lvzorce pro měření podobnosti nejsou teoreticky zdůvodněné lkoeficient podobnosti nemá jasný význam lnelze užít logické operátory (AND, OR, NOT) Indexování latentní sémantiky ¢hlavní charakteristika •statisticko-matematické metody •velký objem databáze •základem matice dokument-výraz (klíčové slovo) à singulární dekompozice matice (redukce původní matice) à matice pojem-pseudodokument (odhalení vztahu mezi souvisejícími výrazy a zjištění podobných dokumentů) ¢Výhody: •pojmové vyhledávání (vyhledají se i dokument obsahující výrazy, která nebyly zadány do dotazu, ale přitom jsou sémanticky blízké) •řazení dle relevance •metoda nezávislá na jazyce ¢Nevýhody: •výpočetní náročnost Literatura ¢kapitoly ze základní a doplňkové literatury lCHU07, kap. 4 až 5, 7 (s. 47-80, 97-116) lRAU96, kap. 6 až 10 (s. 33-57) lING92, kap. 4 (s. 61-81) lBAE99, kap. 2 (s. 19-71) l ¢další doplňková literatura k tématu lPokorný, J., Snášel. V., Húsek, D. Dokumentografické informační systémy. Praha : Karolinum, 1998, kap. 5 (s. 83-113) • ¢