VIKBA11 Selekční jazyky 25. 11. 2016: Kvalita a konzistence indexace (P09) FF MU, podzim 2016 Mgr. Josef Schwarz 126172@mail.muni.cz Kvalita indexace ¢kvalitní indexace – taková indexace, která zajistí (ne)vyhledání dokumentu v rámci konkrétního informačního systému ¢jde o relativní hodnotu wúčel a zaměření informačního systému wpotřeby a požadavky uživatelů ¢nelze hodnotit kvantitativními metodami ¢faktory ovlivňující kvalitu indexace ¢(LAN03, kap. Quality of Indexing) ¢ ¢ ¢ Konzistence indexace ¢míra shody dvou nebo více SOD ¢typy konzistence •mezi indexátory (interindexer consistency) •shoda indexace mezi dvěma nebo více indexátory •indexátora (intraindexer consistency) •konzistence indexace jednoho indexátora ¢konzistence z hlediska hloubky indexace •konzistence pořádacích znaků vyjadřujících hlavní témata •konzistence pořádacích znaků vyjadřujících vedlejší témata ¢(LAN03, Consistency of Indexing) ¢ • Konzistence indexace (pokr.) ¢Výpočet I. ldvojice indexátorů - tzv. konzistenční pár (consistency pair) l l C = a / b l lkde: la = počet pořádacích znaků, které shodně zvolili oba indexátoři lb = celkový počet přidělených jedinečných pořádacích znaků l l Konzistence indexace (pokr.) ¢Indexátor 1 lnámořníci lztroskotání lostrovy lRobinson Crusoe ldobrodružné romány ¢ •Příklad: * n n * Indexátor 2 ntrosečníci nostrovy ndobrodružné romány nanglická literatura n18. století * •a = 2 •b = 8 •C = a / b = 2 / 8 = 0,25 = 25 % • * n n Konzistence indexace (pokr.) ¢Výpočet II. lvíce než dva indexátoři l l C = průměr konzistenčních párů l l l Konzistence indexace (pokr.) ¢Indexátor 1 lnámořníci lztroskotání lostrovy lRobinson Crusoe ldobrodružné romány ¢ •Příklad: * n n * Indexátor 2 ntrosečníci nostrovy ndobrodružné romány nanglická literatura n18. století * •C1,2 = 2 / 8 = 0,25 = 25 % •C1,3 = 5 / 7 = 0,71 = 71 % •C2,3 = 3 / 9 = 0,33 = 33 % •C = (0,25+0,71+0,33)/3 = 0,43 = 43 % • * n n * Indexátor 3 nnámořníci nztroskotání nostrovy nRobinson Crusoe ndobrodružné romány nPátek nanglická literatura n * Kvalita vs konzistence indexace ¢vztah kvality a konzistence není bezprostřední lkonzistentní indexace neznamená kvalitní indexaci lkvalitní indexace zahrnuje i konzistentní indexaci lkonzistence indexace zlepšuje efektivitu vyhledávání lz hlediska správy databáze je konzistence kvalitou Faktory ovlivňující indexaci ¢indexátor •obj.: zkušenost a znalost SJ, znalost oboru, porozumění textu, systematické myšlení, racionální čtení •subj.: soustř., pečlivost, nálada, únava, motivace ¢SJ •kvalita řízeného slovníku •indexační pravidla ¢dokument/text •obor, struktura, délka, styl, žánr, pomocný aparát, jazyk ¢pracovní podmínky •prac. doba, produktivita práce, prac. prostředí, technické prostředky Kontrola a hodnocení indexace ¢v procesu indexace •indexační pravidla •srovnání s obsahem databáze •automatické procedury: TODESCHINI, C., FARRELL, M.P. An expert system for quality control in bibliographic databases. Journal of the American Society for Information Science, 1989, roč. 40, č. 1, s. 1-11. •supervize •správnost a úplnost obsahové analýzy •věcná i formální správnost přiřazených pořádacích znaků •indexační chyby •indexační experimenty ¢při vyhledávání •relevance vyhledávání •úplnost (recall) a přesnost (precision) Relevance vyhledávání ¢úplnost (recall) R lpočet vyhledaných relevantních dokumentů / počet všech relevantních dokumentů l ¢přesnost (precision) P lpočet vyhledaných relevantních dokumentů / počet všech vyhledaných dokumentů l ¢poměr mezi úplností a přesností ¢] • Indexační chyby ¢data: kontrola indexace UK-ETF 1998-99 lviz případová studie l ¢nejčastější typy chyb lopominutí hledisek (18,6%) lnesprávné stanovení významu nebo rozsahu deskriptoru (12,3%) lchybějící jednotlivé deskriptory (11,5%) ¢typy chyb podle ovlivnění úplnost a přesnost vyhledávání lkomplexní chyby snižující úplnost (23,4%) ldílčí chyby snižující úplnost (22,1%) ldílčí chyby snižující úplnost i přesnost (14,9%) l Indexační chyby (pokr.) ¢typy chyb podle fáze indexace lobsahová analýza (18,1%) •zdroj chyb: indexátor lidentifikace pojmů (42,3%) •zdroj chyb: indexační pravidla, indexátor •nejčastěji: opominutí hledisek lvýběr deskriptorů z tezauru (20,8%) •zdroj chyb: indexátor, indexační pravidla, řízený slovník • •] w Indexační experimenty 1.srovnávání různých typů selekčních jazyků * indexace vzorku dokumentů * porovnání formou rešeršních dotazů 2.konzistence indexátorů * experimentální přístup * dva nebo více indexátorů * vzorek dokumentů * indexace * interpretace výsledků * • (případová studie) * •] ¢ Využití hodnocení indexace ¢indexátor •zpětná vazba •hodnocení práce ¢SJ lřízený slovník •úprava lexika n. struktury •úprava poznámek o rozsahu lindexační pravidla •formulace •úprava ¢dokumenty •reindexace