VIKMA06 Vyhledávání informací 20. 10. 2017: Přednáška P5: Modely vyhledávání + Rešeršní strategie FF MU, podzim 2017 Mgr. Josef Schwarz 126172@mail.muni.cz MODELY (TECHNIKY) VYHLEDÁVÁNÍ ¢ Modely vyhledávání ¢booleovský model ¢rozšířený booleovský model ¢vektorový model ¢indexování latentní sémantiky (latent semantic indexing) ¢ • Booleovský model ¢teoretické základy (booleovská logika/algebra): 50. léta 20. století ¢logické operátory •AND, OR, NOT, XOR •souborný katalog AND CASLIN •souborný katalog OR CASLIN •souborný katalog NOT CASLIN •souborný katalog XOR CASLIN ¢rozšiřování (zkracování) výrazu •pravostranné (katalog*), levostranné (*komunistický), vnitřní rozšíření (filo?ofie) •rozšíření o více znaků (*), jeden znak (?) ¢proximitní operátory •věta, odstavec, určitý počet slov (zaleží/nezáleží na pořadí) ¢ Booleovský model ¢výhody ljasná formalizace ljednoduchost lrychlost vyhledávání ¢limitující faktory lúplnost, přesnost •použití klíčových slov •principiální možnosti logických spojek •„ostrost“ – relevantní n. nerelevantní (nikoliv částečně relevantní) •operátor ACCRUE – systém TOPIC (příklad + příklad aplikace) •experiment STAIRS (1985) •právní texty, 40 000 dokumentů •51 požadavků, požadovaná úplnost: 75% •dosažená úplnost: 20% (přesnost 80%) Booleovský model - rozšíření ¢vážení výrazů lv dotazu lv dokumentu ¢rozšíření pomocí fuzzy logiky lformalizace principu vágnosti (schopnost přirozeného jazyka funkčně používat vágní pojmy) Fuzzy logika ¢booleovská logika: 0/1 (nepravda/pravda) ¢fuzzy logika: pravdivost dána množinou hodnot z intervalu <0,1> lstupeň příslušnosti prvku do množiny Fuzzy množina ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢Pokorný, Snášel, Húsek. Dokumentografické informační systémy, s. 95. tsj003 Fuzzy vyhledávání ¢prvky fuzzy množiny jsou výrazy použité pro vyhledávání ¢stupeň příslušnosti se určuje jako váha výrazu v dokumentu ¢různé modely pro výpočet podobnosti dokumentu a dotazu ¢ Booleovský model - rozšíření ¢geometrické rozšíření ldokument jako bod v prostoru lpočet rozměrů prostoru = počet klíčových slov v dokumentu lvážení výrazů v dokumentu ¢ Geometrické rozšíření ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢Baeza-Yates, Ribeiro-Neto. Modern information retrieval, s. 39 tsj004 Srovnání booleovského modelu a jeho rozšíření ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢Rauch. Metody zpracování informací II. Ukládání a vyhledávání, s. 50 tsj002 Vektorový model ¢dokument i dotaz se chápou jako vektory v n-rozměrném prostor (n je počet jedinečných výrazů ve všech dokumentech) •složky vektoru: směr, orientace, velikost ¢složky vektorů jsou určovány výrazy a jejich vahami ¢pomocí vektorového počtu se měří stupeň podobnosti mezi dotazem a dokumentem •kosinová míra, Diceova míra podobnosti ad. Vektorový model ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢Pokorný, Snášel, Húsek. Dokumentografické informační systémy, s. 90 ¢ ¢ tsj005 Vektorový model ¢Výhody lvyhledává i částečně relevantní dokumenty lřazení dokumentů podle relevance (stupně podobnosti) lmodifikace dotazu na základě vyhledaných relevantních dokumentů ¢ Vektorový model ¢Nevýhody lnení jasná interpretace vah výrazů v dotazu lvzorce pro měření podobnosti nejsou teoreticky zdůvodněné lkoeficient podobnosti nemá jasný význam lnelze užít logické operátory (AND, OR, NOT) Indexování latentní sémantiky ¢hlavní charakteristika •statisticko-matematické metody •velký objem databáze •základem matice dokument-výraz (klíčové slovo) à singulární dekompozice matice (redukce původní matice) à matice pojem-pseudodokument (odhalení vztahu mezi souvisejícími výrazy a zjištění podobných dokumentů) ¢Výhody: •pojmové vyhledávání (vyhledají se i dokument obsahující výrazy, která nebyly zadány do dotazu, ale přitom jsou sémanticky blízké) •řazení dle relevance •metoda nezávislá na jazyce ¢Nevýhody: •výpočetní náročnost Literatura ¢kapitoly ze základní a doplňkové literatury lCHU07, kap. 4 až 5, 7 (s. 47-80, 97-116) lRAU96, kap. 6 až 10 (s. 33-57) lING92, kap. 4 (s. 61-81) lBAE99, kap. 2 (s. 19-71) l ¢další doplňková literatura k tématu lPokorný, J., Snášel. V., Húsek, D. Dokumentografické informační systémy. Praha : Karolinum, 1998, kap. 5 (s. 83-113) • ¢ Rešeršní strategie §širší pojetí §užší pojetí §výběr konkrétního vyhledávacího nástroje a komunikace se systémem ¢ Cíle rešeršní strategie ¢relevance X pertinence ¢úplnost X přesnost Úplnost a přesnost l l l l l lúplnost (R) •R = a / (a+c) • lpřesnost (P) •P = a / (a+b) • lvztah mezi úplností a přesností je nepřímo úměrný (vyšší přesnost znamená nižší úplnost a naopak) • relevantní dok. nerelevantní dok. vyhledané dok. a b nevyhledané dok c d Předpoklady rešeršní strategie ¢Předpokladem pro stanovení rešeršní strategie je znalost: linformačního zdroje (databáze) •Obsah – jaké dokumenty, v jaké retrospektivě a úplnosti apod. •Struktura – podle jakých polí lze vyhledávat lnástrojů •Řízené slovníky, hesláře, autority aj. lalgoritmů •Operátory dotazovacího jazyka, konvence pravostranného rozšíření atd. luživatelského rozhraní • Typy rešeršní strategie ¢strategie stavebních kamenů ¢vyhledávání pomocí nejspecifičtější fazety ¢strategie rostoucí perly ¢strategie osekávání Strategie stavebních kamenů §samostatné dílčí dotazy vyjadřující ústřední pojmy původního rešeršního požadavku §identifikace klíčových/významných pojmů §množina výrazů vztahující se k pojmu: synonyma, kvazisynonyma, pravopisné formy, nadřazené, podřízené výrazy §OR, truncation (krácení podle slov. kořenů), stemming, wild cards (zástupné znaky) §spojení dílčích formulací ve finální soubor §AND §vhodné použít, když usilujeme o úplnost u úzce specifikovaných témat Vyhledávání pomocí nejspecifičtější fazety Fvztahuje se k vyhledávání složených témat – více aspektů Fuživatel musí znát všechny dílčí témata a musí být schopen určit, které téma je nejspecifičtější §Vyhledávání § podle nejužšího pojmu z rešeršního požadavku §pokud je výsledek uspokojivý, nemusí být do rešerše zahrnuta další dílčí hlediska ¢ Strategie rostoucí perly ¢Dotaz je postupně modifikován dle výsledků rešerše – záznamy jsou postupně procházeny a zjišťovány relevantní termíny (řízené termíny, slova z názvů apod.), které jsou použity k revidování dotazu. ¢ ¢Prvotním cílem je alespoň jeden záznam §zjištění použitelných selekčních termínů §úprava formulace rešeršního dotazu ¢ ¢ ¢ ¢ ¢ Strategie osekávání §první formulace dotazu - širší formulace, tj. pomocí obecného pojmu – cílem je vyhledání více záznamů §postupná specifikace dotazu §uplatnění taktik pro zúžení záběru (AND, NOT, proxim. oper., field searching, formální omezení) §formulace širší kategorie (obor, vědní disciplína), klasifikace §náročnější na čas l Strategie pro zúžení záběru F Strategie pro zúžení záběru §klíčová slova se kombinují s věcným selekčním jazykem §omezení na určité pole záznamu §využití proximitních operátorů §omezení na určitý typ dokumentu §operátor NOT pro vyloučení některých záznamů §jazykové vymezení §časové rozmezí §kombinace množiny deskriptorů/hesel s podřazenými klíčovými slovy §kombinace s množinou sel. údajů vyjadřující další pojem z dotazu, hledisko F Strategie pro rozšíření záběru §uvedení synonym, tvarů slov, pravopisných variant (operátor OR, zástupné znaky, krácení podle slovních kořenů) §uvedení jednotek věcného SJ jako klíčových slov (např. vyhledávání ve všech polích) §dodatečné uvedení širších jednotek věcného SJ, tj. těch, které jsou nadřazeny použitým výrazům (deskriptorům, předmětovým heslům) §obecné výrazy, tj. s vysokým výskytem §zrušení předběžných omezení Vyhledávací techniky pro zvýšení přesnosti §použití operátoru AND §použití operátoru NOT §„case sensitive“ §proximitní operátory §vážené vyhledávání („weighted searching“) §omezení na pole („field searching“) ¢ Vyhledávací techniky pro zvýšení úplnosti F §použití operátoru OR §krácení, zástupné znaky §fuzzy vyhledávání §rozšiřování dotazu („query expansion“) §paralelní vyhledávání – „multiple database searching ¢ Rešeršní strategie - praktické rady ¢Buďte flexibilní §berte připravené kroky strategie orientačně §přizpůsobujte další taktiky výsledkům rešerše §nulový výsledek – hledání příčiny ¢Využívejte řízených slovníků §využívejte souvisejících pojmů ke konkrétnímu řízenému termínu (nadřazené, podřazené pojmy) §nikdy nespojujte výrazy s malou frekvencí výskytu (zjistitelné v katalogu) operátorem AND ¢Vytvářejte množiny termínů §je velmi důležité k jednotlivým klíčovým slovům vytvářet množiny souvisejících termínů §termíny v množině se spojují pomocí logického součtu – OR ¢Využívejte klasifikací §pomocí klasifikací vyhledáte většinou mnoho záznamů, proto se hodí jejich využití při strategii osekávání Literatura ¢kapitoly ze základní a doplňkové literatury lCHU07, kap. 6, 9 (s. 81-96, 145-166) lING92, kap. 6 (s. 123-156) lVIC04, kap. 7 (s. 180-209) l • ¢