VIKBA11 Selekční jazyky 24. 11. 2017: Kvalita a konzistence indexace (P09+K4) (+exkurz: Indexace krásné literatury) FF MU, podzim 2017 Mgr. Josef Schwarz 126172@mail.muni.cz Indexace krásné literatury Indexace krásné literatury ¢důvody indexace •velká část fondu a výpůjček (veřejné knihovny) •část fondu odborných knihoven ¢možné uživatelské dotazy: •beletrizovaný životopis van Gogha •sci-fi odehrávající se na Měsíci •román situovaný do italského kláštera odehrávající se ve 14. století ¢příklady indexace •Eco: Jméno růže •NK, KJM, MZK: italské romány * detektivní romány * historické romány •KBBB: historie - františkáni - Vilém z Baskervillu (františkáni - Vilém z Baskervillu - František z Assisi – benediktini) •KMO: italská tvorba, 14.stol., benediktini, kláštery, detektivky, historické příběhy •MK Tábor: detektivky - historické romány - středověk - teologie - 14. stol. – Itálie (historické romány) Indexace krásné literatury ¢aspekty indexace lpředmět •akce, události, témata •psychologický vývoj postav, motivy •sociální vztahy lrámec •doba (minulost, současnost, budoucnost) •místo (geografie, sociální prostředí, profese) lautorský záměr •emocionální působení •poznání lpřístupnost •čtivost •fyzické charakteristiky (velké písmo apod.) •literární forma (žánr) • Indexace krásné literatury ¢ALA: Guidelines on Subject Access to Individual Works of Fiction, Drama, Etc. (1990) ¢Britská národní bibliografie lindexace krásné literatury od r. 1997 dle pravidel ALA Indexace krásné literatury ¢problémy lobtížnější indexace než u odborné literatury – problém identifikace základních obsahových charakteristik a pojmů lnepřítomnost pomocného aparátu (obsah, rejstřík) lvyšší subjektivita lnízká konzistence lnedostatek specializovaných řízených slovníků Konzistence a kvalita informace Kvalita indexace ¢kvalitní indexace – taková indexace, která zajistí (ne)vyhledání dokumentu v rámci konkrétního informačního systému ¢jde o relativní hodnotu wúčel a zaměření informačního systému wpotřeby a požadavky uživatelů ¢nelze hodnotit kvantitativními metodami ¢faktory ovlivňující kvalitu indexace ¢(LAN03, kap. Quality of Indexing) ¢ ¢ ¢ Konzistence indexace ¢míra shody dvou nebo více SOD ¢typy konzistence •mezi indexátory (interindexer consistency) •shoda indexace mezi dvěma nebo více indexátory •indexátora (intraindexer consistency) •konzistence indexace jednoho indexátora ¢konzistence z hlediska hloubky indexace •konzistence pořádacích znaků vyjadřujících hlavní témata •konzistence pořádacích znaků vyjadřujících vedlejší témata ¢(LAN03, Consistency of Indexing) ¢ • Konzistence indexace (pokr.) ¢Výpočet I. ldvojice indexátorů - tzv. konzistenční pár (consistency pair) l l C = a / b l lkde: la = počet pořádacích znaků, které shodně zvolili oba indexátoři lb = celkový počet přidělených jedinečných pořádacích znaků l l Konzistence indexace (pokr.) ¢Indexátor 1 lnámořníci lztroskotání lostrovy lRobinson Crusoe ldobrodružné romány ¢ •Příklad: * n n * Indexátor 2 ntrosečníci nostrovy ndobrodružné romány nanglická literatura n18. století * •a = 2 •b = 8 •C = a / b = 2 / 8 = 0,25 = 25 % • * n n Konzistence indexace (pokr.) ¢Výpočet II. lvíce než dva indexátoři l l C = průměr konzistenčních párů l l l Konzistence indexace (pokr.) ¢Indexátor 1 lnámořníci lztroskotání lostrovy lRobinson Crusoe ldobrodružné romány ¢ •Příklad: * n n * Indexátor 2 ntrosečníci nostrovy ndobrodružné romány nanglická literatura n18. století * •C1,2 = 2 / 8 = 0,25 = 25 % •C1,3 = 5 / 7 = 0,71 = 71 % •C2,3 = 3 / 9 = 0,33 = 33 % •C = (0,25+0,71+0,33)/3 = 0,43 = 43 % • * n n * Indexátor 3 nnámořníci nztroskotání nostrovy nRobinson Crusoe ndobrodružné romány nPátek nanglická literatura n * Kvalita vs konzistence indexace ¢vztah kvality a konzistence není bezprostřední lkonzistentní indexace neznamená kvalitní indexaci lkvalitní indexace zahrnuje i konzistentní indexaci lkonzistence indexace zlepšuje efektivitu vyhledávání lz hlediska správy databáze je konzistence kvalitou Faktory ovlivňující indexaci ¢indexátor •obj.: zkušenost a znalost SJ, znalost oboru, porozumění textu, systematické myšlení, racionální čtení •subj.: soustř., pečlivost, nálada, únava, motivace ¢SJ •kvalita řízeného slovníku •indexační pravidla ¢dokument/text •obor, struktura, délka, styl, žánr, pomocný aparát, jazyk ¢pracovní podmínky •prac. doba, produktivita práce, prac. prostředí, technické prostředky Kontrola a hodnocení indexace ¢v procesu indexace •indexační pravidla •srovnání s obsahem databáze •automatické procedury: TODESCHINI, C., FARRELL, M.P. An expert system for quality control in bibliographic databases. Journal of the American Society for Information Science, 1989, roč. 40, č. 1, s. 1-11. •supervize •správnost a úplnost obsahové analýzy •věcná i formální správnost přiřazených pořádacích znaků •indexační chyby •indexační experimenty ¢při vyhledávání •relevance vyhledávání •úplnost (recall) a přesnost (precision) Relevance vyhledávání ¢úplnost (recall) R lpočet vyhledaných relevantních dokumentů / počet všech relevantních dokumentů l ¢přesnost (precision) P lpočet vyhledaných relevantních dokumentů / počet všech vyhledaných dokumentů l ¢poměr mezi úplností a přesností ¢] • Indexační chyby ¢data: kontrola indexace UK-ETF 1998-99 lviz případová studie l ¢nejčastější typy chyb lopominutí hledisek (18,6%) lnesprávné stanovení významu nebo rozsahu deskriptoru (12,3%) lchybějící jednotlivé deskriptory (11,5%) ¢typy chyb podle ovlivnění úplnost a přesnost vyhledávání lkomplexní chyby snižující úplnost (23,4%) ldílčí chyby snižující úplnost (22,1%) ldílčí chyby snižující úplnost i přesnost (14,9%) l Indexační chyby (pokr.) ¢typy chyb podle fáze indexace lobsahová analýza (18,1%) •zdroj chyb: indexátor lidentifikace pojmů (42,3%) •zdroj chyb: indexační pravidla, indexátor •nejčastěji: opominutí hledisek lvýběr deskriptorů z tezauru (20,8%) •zdroj chyb: indexátor, indexační pravidla, řízený slovník • •] w Indexační experimenty 1.srovnávání různých typů selekčních jazyků * indexace vzorku dokumentů * porovnání formou rešeršních dotazů 2.konzistence indexátorů * experimentální přístup * dva nebo více indexátorů * vzorek dokumentů * indexace * interpretace výsledků * • (případová studie) * •] ¢ Využití hodnocení indexace ¢indexátor •zpětná vazba •hodnocení práce ¢SJ lřízený slovník •úprava lexika n. struktury •úprava poznámek o rozsahu lindexační pravidla •formulace •úprava ¢dokumenty •reindexace