Rešeršní činnost Rešeršní strategie a věcné vyhledávání 4. 4. 2008 přednášející: Silvie Kořínková Presová presova@phil.muni.cz Kabinet informačních studií a knihovnictví, FF MU Věcné vyhledávání/subject searching F tj. vyhledávání, kdy uživatel/rešeršér usiluje o nalezení dokumentů k určitému tématu (X uživatel ví, jaký dokument hledá, zná např. autora, část titulu apod.) Jeden z klíčových problémů při vyhledávání v rešeršních systémech: Jaké vyhledávací výrazy by měly být vybrány pro formulaci dotazu? Odkud by měly být termíny vybrány? Výběr termínu pro formulaci dotazu a ladění rešerše Rešeršér – dva základní okruhy zdrojů termínů: F během interakce s uživatelem před a během vyhledávání F během interakce s rešeršním systémem Interaction in Information Retrieval : Selection and Effectiveness of Search Terms / A. Spink, T. Saracevic Výzkum zdrojů a efektivnosti využití vyhl. výrazů během zprostředkovaného online vyhledávání. Identifikace 5-ti zdrojů: F dotaz uživatele – termíny získané z písemně formulované žádosti, formulace informačního problému F interakce s uživatelem – využití jeho znalostní struktury, termíny navržené uživatelem během interakce F termíny navržené rešeršérem – před či během vyhledávání F řízené slovníky F termíny zpětné vazby, tj. získané z vyhledaných záznamů – termíny navržené uživatelem či rešeršérem z vyhledaných záznamů, které byly uživatelem uznány jako relevantní Věcné vyhledávání/subject searching Dva způsoby: F pomocí pořádacích znaků/prvků věcných sj – deskriptorů, předmětových hesel, klasifikačních znaků F pomocí přirozeného jazyka G V praxi se doporučuje kombinovat vyhledávání pomocí přirozeného jazyka i pomocí věcného SJ – obojí v konkrétních případech přispívá ke zlepšení přesnosti a úplnosti Důležité termíny F věcný SJ – umělý jazyk, „jazyk používaný pro zpracování dokumentů pomocí věcných údajů s cílem umožnit vyhledávání dokumentů podle obsahu“ (TDKIV) F „Selekční jazyk je umělý jazyk určený pro vyjádření obsahu dokumentů. Skládá se z řízeného (strukturovaného) souboru lexikálních jednotek (pořádacích znaků) - řízeného slovníku, pravidel jejich tvorby a pravidel jejich užívání při věcném zpracování a vyhledávání dokumentů“ (přednáška J. Schwarz - Selekční jazyky 1, 15.10.2004) F přirozený jazyk v IR– jazyk, kterým lidé mluví a píší, není pro potřeby IR limitován a definován (týče se slovníku, syntaxe, sémantiky, vztahů) § jazyk užívaný pro formulaci dotazu bez „konzultace“ řízeného slovníku Formulace dotazu a ladění rešerše Jde o základní okruhy využití přirozeného a selekčního jazyka. Formulace dotazu viz přednáška č. 2 – formulace rešeršního dotaz Ladění rešerše – query expansion (Shiri, 2002) F manuální – uživatel se rozhodne, jak může být výsledek rešerše využit pro další úpravu dotazu F interaktivní – uživatelé vybírají systémem navržené vyhl. výrazy (např. LLIS, ProQuest) F automatické – vyhledané dokumenty, které označil uživatel jako relevantní jsou systémem vyhodnoceny (určení sady vyhl. výrazů pro nové hledání) a je provedeno nové vyhledávání Efektivní věcné vyhledávání vyžaduje následující druhy znalostí: F znalost polí, které mohou být pro vyhledávání využity a jejich charakteristiky F znalost věcného SJ, který systém využívá F znalost strategií, kde a jak je aplikovat F znalost vyhledávacích možností systému a jak je použít F znalost tématu F znalost toho, jak převést informační potřebu na informační dotaz (Poo, 2005) Selekční jazyk - usnadňuje vyhledávání tím, že F umožňuje kontrolovat synonyma a kvazisynonyma (tím zvyšuje úplnost - vyhledání relevantních informací v databázi) např. v tezauru databáze LLIS Indexing vocabularies Used for: Controlled vocabulary; Descriptors; Index languages; Index terms; Indexing languages; Vocabulary control F umožňuje rozlišit homonyma, kvalifikátor v závorce (tím zlepšuje přesnost - vyloučení irelevantních výsledků) např. Soubor věcných autorit NK ČR (SVA) význam (logika), postmodernismus (literatura), postmodernismus (kultura) G vyzkoušejte vyhledávání v katalogu NK ČR – nejprve pomocí předmětu postmodernismus (zvolte vhodné pole), dále dle postmodernismus literatura F poskytuje vysvětlující poznámky např. v tezauru db LISA Information retrieval [+] Very general - avoid if possible ? jaká je poznámka v tezauru ProQuest pro Vocabularies & taxonomies Selekční jazyk - usnadňuje vyhledávání tím, že F zobrazuje vztahy – hierarchické, asociace, ekvivalence – využití při specifikaci či zobecnění dotazu např. v db LISA hledáme články o vertikálních portálech deskriptor Vortals, možnost rozšířit výsledek vyhledávání pomocí nadřazeného deskriptoru Portals F vyjadřuje termíny, které nejsou obsaženy v záznamu Selekční jazyk - usnadňuje vyhledávání tím, že F odstraňuje problémy se syntaxí Dokument je reprezentován těmito slovy v přirozeném jazyku: F automobily, export, Spojené státy americké, Japonsko Možné významy F export japonských automobilů do USA F export amerických automobilů do Japonska Řešení v tezaurech – využití rolí Řešení pomocí PH – dán kontext, hledání pomocí fráze Selekční jazyk F Při vyhodnocování relevantnosti výsledků vyhledávání (řazení vyhledaných záznamů) mají selekční jazyky větší váhu než slova přirozeného jazyka PROČ? F Termín SJ byl přiřazen dokumentu na základě obsahové analýzy, z toho plyne indexace/postižení významného tématu, a to je pro vyhodnocení dotazu relevantnější příklad: db LLIS: http://www.hwwilson.com/Documentation/WilsonWeb/searchrules.htm Selekční jazyk – využití při taktikách Zúžení dotazu: F klíčová slova se kombinují s věcným selekčním jazykem F kombinace množiny deskriptorů/hesel s podřazenými klíčovými slovy Rozšíření dotazu: F dodatečné uvedení širších jednotek věcného SJ, tj. těch, které jsou nadřazeny použitým termínům (deskriptorům, předmětovým heslům) – ty naleznete v příslušných řízených slovnících F uvedení jednotek věcného SJ jako klíčových slov (např. vyhledávání ve všech polích) Selekční jazyk – slabé stránky F nedostatek specifičnosti např. v SVA - „víceslovné předložky“ F není okamžitá aktualizace – časová prodleva než je termín zahrnut, např. termín „folksonomy“ v LISA F některá témata mohou být při indexování opomenuta – např. problematika vertik. portálů v db LISA porovnejte článek Image Indexing : How Can I Find a Nice Pair of Italian Shoes v db LLIS, ProQuest F slova autora mohou být nesprávně interpretovaná – nepochopení látky Selekční jazyk – slabé stránky F chyby v indexaci zapříčiňují ztráty F rešeršéři se musí učit selekční jazyk F nekompatibilita – znesnadnění paralel. vyhledávání, bariéra snadné výměny G nalezněte v tezauru db LISA deskriptor pro Indexing vocabularies (prefer. termín v LLIS) G anglická literatura - notace 820 (DDC) X notace PR (LCC) F časové ztráty související s tvorbou, údržbou a osvojením si SJ Odlišný zkušenostní rámec indexátora a rešeršéra/uživatele F Uživatel popisuje něco, co nezná (zejm. první fáze viz Gaslikova, 2. přednáška). Na druhé straně indexátor má dokument v ruce, „všechno je před ním“. F Indexátor by měl zkoušet předvídat, podle jakých termínů budou vyhledávat uživatelé. Jakou informaci jim daný dokument poskytne, že povede k uspokojení jejich informační potřeby? F porozumění tématu, chápání významu slov Odlišný zkušenostní rámec indexátora a rešeršéra/uživatele G Indexátoři neindexují dokumenty takovým způsobem, aby zachytili nekonečně mnoho rozmanitých dotazů. G Většinou jsou indexována hlavní a dílčí témata, tj. what is in the record. F Nekonečně mnoho dotazů může být uspokojeno dokumentem. F Jde o úhel pohledu - document-oriented approach x user-centered indexing F více viz Bates, 1998 Formulace dotazu pomocí SJ (2. přednáška) Převedení na termíny řízeného slovníku/věcného SJ Odvíjí se od schopnosti rešeršéra pracovat s věcným SJ (ale mnohé rešeršní systémy nabízejí řízené termíny dle zadání prvního dotazu) Převod může mít různé podoby: • termín v seznamu je shodný s řízeným termínem • termín v seznamu je synonymem/ekvivalentem – více ekvivalentů – výběr významově shodného řízeného t. • pro termín v seznamu existuje pouze širší termín SJ – ztráta specifičnosti původního termínu např. v LLIS nelze vyjádřit vertik. portály • pro termín v seznamu existují pouze specifičtější/podřazené termíny SJ – rozsah původního termínu je redukován např. v SVA – nelze vyjádřit - organizace poznání Formulace dotazu pomocí SJ - příklady O/ požadavek: články týkající se vztahu knihoven a Webu 2.0 formulace dotazu: rešerši uskutečněte pomocí předmětového hesla/hesla z hesláře - (tj. v Subject) db LLIS O/ Jakými jinými tematickými autoritami byste nahradili chybný termín organizace poznání/pořádání informací O/ Jakými jinými tematickými autoritami byste nahradili chybný termín systém správy obsahu/redakční systém O/ Nalezněte v katalogu MU dokumenty pojednávající o postavení žen v české společnosti (pomoci SVA) O/ Nalezněte v katalogu MU dokumenty vztahující se k odívání, módě Přirozený jazyk - výhody • vysoká specifičnost ovlivňuje pozitivně přesnost - např. vlastní jména (osob, institucí apod.) • schopnost vyčerpávajícím způsobem pokrýt téma, zvyšuje úplnost - neplatí u neanotovaných záznamů, zejména tam, kde je zahrnut abstrakt a plný text • aktualizace – nové termíny jsou okamžitě dostupné • slova užitá autorem – nemůže dojít k dezinterpretaci indexátorem • snadnější výměna materiálu mezi databázemi – jazyková neslučitelnost odstraněna • není třeba se jazyku učit (rodilý mluvčí) Přirozený jazyk – slabé stránky • intelektuální úsilí rešeršéra – problém souvisící se synonymy (formulace dílčích dotazů) a homonymy (nutnost uvedení do kontextu) • problémy se syntaxí – nesprávné spojení termínů, asociace – řešení pomocí proximitních operátorů • schopnost vyčerpávajícím způsobem pokrýt téma může vést ke ztrátě přesnosti • odlišná terminologie u jednotlivých autorů Povinná literatura F Aitchison, J.Thesaurus construction and use : a practical manual. London : Aslib, 2000. Kapitola B1, Is a thesaurus necessary?, s. 5-7. ISBN 0851424465 F Chu, H. Information representation and retrieval in the digital age. Medford : Information Today, 2007. Kapitola 4, Language in Information Representation and Retrieval, s. 47-58. F Spink, A., et. al. Interaction in information retrieval : selection and effectiveness of search terms. Journal of the American Society for Information Science, 1997, roč. 48, č. 8, s. 741-61. Doplňující literatura F Bates. Indexing and Access for Digital Libraries and the Internet : Human, Database, and Domain Factors. Journal of the American Society for Information Science and Technology. 1998, roč. 49, č. 13. F Poo, D. C. C.; Khoo, C. S. G. Online Catalog Subject Searching. In Encyclopedia of Library and Information Science 1 [online]. 2005, č. 1 [cit. 2007-02-27]. Dostupné na World Wide Web: http://www.dekker.com/sdek/abstract~db=enc~content=a713531961 F Shiri, A. A., et. al. Thesaurus-Assisted Search Term Selection and Query Expansion : A Review of User-Centred Studies. Knowledge Organization, 2002, roč. 29, č. 1 (2002), s. 1-19. Dostupné též z WWW: http://eprints.cdlr.strath.ac.uk/2614/01/revie_thesaurusassisted.pdf