Indexace dokumentů Předmět: Selekční jazyky 27. 11. 2009 Přednášející: Mgr. Silvie Kořínková Presová http://kisk.phil.muni.cz/mgr-silvie-korinkova-presova-dis Výklad pojmu Indexace (výklad z TDKIV) - ekv heslování, indexování, ang. ekv. indexing l Proces vyjádření obsahu dokumentu pomocí prvků selekčního jazyka, obvykle s cílem umožnit zpětné vyhledávání. Podle použitých metod se rozlišuje pojmová a slovní indexace, podle použitých postupů se rozlišuje intelektuální, automatická a poloautomatická indexace. Z hlediska použitých selekčních jazyků se rozlišuje prekoordinovaná indexace a postkoordinovaná indexace. Indexování (ČSN ISO 5963, 1996, s. 5) l Pracovní postup popisování nebo identifikace dokumentu ve vztahu na jeho věcný obsah. Účel indexace l Hlavním smyslem indexace je tvorba reprezentací publikovaných dokumentů ve formě vhodné pro zahrnutí do různých typů databází. (Lancaster, 2003, s. 1) l Věcné vyhledávání - vyhledávání podle obsahu. Volné indexování Volné indexování - indexování, které neužívá žádného definovaného selekčního jazyka. è Pořádací znaky se přiřazují volně a nekontrolovaně. è Obvykle se vychází z přirozeného jazyka. è Pořádací znaky se čerpají z textu dokumentu nebo z přirozeného slovníku jednotlivce. (Pinkas, 2002, s. 85) Selekční obraz dokumentu (SOD) SOD (výklad z TDKIV) - Množina věcných selekčních údajů vyjadřující obsah dokumentu. Výjimečně se termín používá také pro identifikační část záznamu dokumentu. Technologizace slova : mluvená a psaná řeč / Walter J. Ong psané texty mluvený projev jazyk a kultura sociologie kultury studie 81 - Lingvistika. Jazyky 81’42 81:316.7 316.7 (048.8) Fáze procesu indexace Trojfázový proces (ČSN ISO 5963, 1996): l analýza dokumentu a určení jeho věcného obsahu (obsahová analýza) l identifikace pojmů obsažených v předmětu l vyjádření těchto pojmů znaky SJ Dvojfázový proces (Lancaster, 2003) l pojmová analýza - obsahová analýza, identifikace pojmů l vyjádření pojmů znaky SJ Obsahová analýza l Zjištění obsahu - kombinace pečlivé četby a rychlého čtení (zjištění shrnujících částí v textu). l Pečlivé čtení - titul, abstrakt, shrnutí, závěr l Za pozornost též stojí - názvy kapitol, popisy u obrázků a tabulek. l Indexátor - brát v úvahu dokument jako celek. Obsahová analýza Obsahovou analýzu není vhodné opřít pouze o název či referát - viz příklad publikace Drahokamy / Květoslav Minařík Při obsahové analýze vychází indexátor z textu dokumentu, přičemž pozornost věnuje následujícím položkám: l titul, obsah l abstrakt, anotace l autorská klíčová slova l úvod a závěr, úvodní věty kapitol, odstavců l zvýrazněné úseky textu l ilustrace, schémata, tabulky apod. Dějiny loutkového divadla v Evropě 1. / Charles Magnin l loutkové divadlo -- Evropa -- dějiny Na základě anotace se pokuste určit další důležitá témata či téma. l Anotace je dostupná z http://www.kosmas.cz/knihy/128653/dejiny-loutkoveho-divadla-v-evrope-1/ Dějiny loutkového divadla v Evropě 1. / Charles Magnin Výsledný SOD: l loutkové divadlo -- Evropa -- dějiny l loutky -- Evropa -- dějiny l přehledy Obsahová analýza Netištěné dokumenty (audiovizuální, vizuální a zvukové dok., digitální dok.) è Indexace na základě jejich textové složky. è Nestačí-li textová složka, je třeba se seznámit s úplným dokumentem. Identifikace pojmů Co ovlivňuje identifikaci pojmů vhodných pro reprezentaci předmětu dokumentu? è Konkrétní cíl indexace - např. tvorba SOD či rejstříku ve smyslu informačního aparátu primárního dokumentu è Druh indexovaného dokumentu è Funkce IS a potřeby uživatelů Identifikace pojmů Během pojmové analýzy si musí indexátor klást následující otázky týkající se dokumentu (Lancaster, 2003, s. 9): 1. O čem dokument je? 2. Proč má být dok. přidán do fondu? 3. Jaké aspekty budou zajímat naše uživatele? è Efektivní indexace zahrnuje nejenom rozhodnutí o tom, o čem dokument je, ale také z jakého důvodu bude zajímat určitou skupinu uživatelů. Identifikace pojmů - vliv uživatelů l Z hlediska indexace zaměřené na uživatele - dokument různé IS různé SOD l Zachycení témat, které mají pro uživatele IS potencionální hodnotu. l Čím je specializovanější pracoviště a jeho uživatelé, tím je pravděpodobnější, že indexace může být a měla by být přizpůsobena přesným zájmům uživatelů. l User-centered indexing (Fidel, 1994) - Odkazuje k indexaci na základě požadavků očekávaných od určité skupiny uživatelů. Identifikace pojmů è Pojmová analýza by neměla být ovlivněna charakterem SJ, který bude použit při převodu do PZ. Indexátor musí nejprve rozhodnout jaká témata je potřeba reprezentovat. (Lancaster, 2003, s. 26) X è „Analýza i transkripce by se měly provádět s pomocí nástrojů indexování jako jsou tezaurus a klasifikační systémy.“ (ČSN ISO 5963, 1996, s. 5) Vyjádření pojmů znaky SJ „Překlad“ identifikovaných pojmů do pořádacích znaků SJ - např. deskriptory, předmětová hesla, klasifikační znaky, volně tvořená klíčová slova. è Nutné zohlednit syntaxi (indexační pravidla) jednotlivých systémů, např. tvorba předmětových hesel NK ČR, klasifikačních znaků MDT apod. Vyjádření pojmů znaky SJ Pojmy, které nejsou obsaženy ve slovníku SJ se vyjádří: è buď novými znaky, které se současně zařadí do selekčního jazyka, è nebo významově širšími znaky selekčního jazyka a nové pojmy lze zařadit mezi kandidáty. Vyjádření pojmů znaky SJ - specifičnost slovníku l Druh SJ (PSJ, SSJ) není nejdůležitějším faktorem ovlivňujícím fázi překladu. l Důležitější je šíře tematického pokrytí a specifičnost slovníku. l Různé SJ mohou specifičnosti dosáhnout různě, např. kombinací PZ např. vyjádření složeného tématu dějiny hygieny è SJ 1 hygiena - dějiny předmětové heslo è SJ 2 613/614(091) klasifikační znak MDT è SJ 3 hygiena deskriptory dějiny Vyjádření pojmů znaky SJ Ve fázi vyjádření pojmů znaky SJ lze rozlišit dva typy indexace (Lancaster, 2003, s. 18): l extrakce (slovní indexace) - Slova nebo slovní spojení pro reprezentaci předmětu dokumentu jsou vybrána přímo z dokumentu. l přiřazování (pojmová indexace) - Obsah dokumentu je reprezentován pomocí slov, slovních spojení či znaků umělého jazyka, která jsou vybrána z jiného zdroje, než je samotný dokument. Úplnost indexace Úplnost se vztahuje k tomu, nakolik jsou v SOD zachycena hlavní témata, popř. dílčí témata a klíčové pojmy, které mají pro uživatele IS potencionální hodnotu. Vztahuje se k počtu pořádacích znaků. l úplná indexace - Předmět dokumentu je pořádacími znaky SJ pokryt kompletně - je užito dostatečný počet PZ. X l výběrová/selektivní indexace - Jsou zachycena pouze hlavní témata, mnohem méně PZ než u úplné indexace. Úplnost indexace Úplnost indexace ovlivňuje pozitivně úplnost vyhledávání (umožňuje vyčerpávající vyhledávání), zapříčiňuje ale nižší míru přesnosti vyhledávání. l míra přesnosti rešerše - Jak velká část nalezených dok. je relevantní? Poměr počtu nalezených relevantních záznamů k celkovému počtu záznamů v rešerši. l míra úplnosti rešerše - Jak velká část relevantních dok. byla vyhledána? Poměr počtu nalezených relevantních záznamů k počtu všech relevantních záznamů v databázi. Úplnost indexace – Věčný přepych/ Gilles Lipovetsky SVK Kladno l luxusní zboží l luxus -- sociologické aspekty l eseje l Anotace je dostupná z http://www.kosmas.cz/knihy/127133/vecny-prepych/ Úplnost indexace – Věčný přepych/ Gilles Lipovetsky PH V FF MU l luxus -- dějiny l luxus -- filozofické aspekty l luxus -- sociologické aspekty l konzumní společnost l eseje SVK Kladno l luxusní zboží l luxus -- sociologické aspekty l eseje Úplnost indexace Kdy neindexovat dílčí témata? l Pokud se dokument zabývá obecnější problematikou a dílčí témata jsou z hlediska celkového obsahu dokumentu nepodstatná. l Pokud se dokument zabývá obecnější problematikou, v rámci které je systematicky rozpracována většina dílčích témat, která do dané obecné problematiky náleží. obecně platí - pokud ze stejné hierarchie 3 termíny - indexovat nadřazeným termínem Harmonizace věcné katalogizace v Česku: sen či realita? – M.Balíková KAPITOLY l Partneři procesu harmonizace věcné katalogizace l Role Národní knihovny ČR l Předpoklady harmonizace věcné katalogizace l Charakteristika věcné katalogizace, mezinárodní pravidla a doporučení, principy l Obsahová analýza l Metody věcné katalogizace l Nástroje věcné katalogizace Klasifikační systémy - systematické selekční jazyky Integrované systémy Soubor věcných autorit Funkce souboru věcných autorit l Hloubka indexace – varianty věcného zpřístupnění Harmonizace věcné katalogizace v Česku: sen či realita? – M.Balíková SOD 1 l věcná katalogizace -- Česko l věcné selekční jazyky -- Česko SOD 2 l věcná katalogizace -- Česko l předmětové selekční jazyky l soubory věcných autorit l tezaury l obsahová analýza dokumentů Harmonizace věcné katalogizace v Česku: sen či realita? – M.Balíková SOD 1 l věcná katalogizace -- Česko l věcné selekční jazyky -- Česko SOD 2 l věcná katalogizace -- Česko l předmětové selekční jazyky l soubory věcných autorit l tezaury l obsahová analýza dokumentů Specifičnost indexace Vztahuje se k míře, do jaké je konkrétní pojem, vyjadřující téma dokumentu, přesně specifikován selekčním jazykem. Specifičnost indexace souvisí se schopností selekčního jazyka vyjádřit téma dokumentu co nejpřesněji ve vztahu ke specifičnosti obsahu. Specifičnost indexace – Věčný přepych PH V FF MU l luxus -- dějiny l luxus -- filozofické aspekty l luxus -- sociologické aspekty l konzumní společnost l eseje deskriptory ETF UK v Praze l bohatství l postmodernizmus l sociologie l studie Kvalita indexace l Indexace, která zajistí maximální relevanci výsledků vyhledávání. l Míra shody obsahu SOD s obsahem dokumentu a zároveň s obsahem selekčního obrazu dotazu. l Jde o relativní hodnotu è účel a zaměření informačního systému è potřeby a požadavky uživatelů l Nelze hodnotit kvantitativními metodami Kvalita indexace - faktory vlivu è indexátor è použitý selekční jazyk è indexovaný dokument è indexační pravidla è pracovní podmínky Metody hodnocení kvality indexace è Přímá kontrola obsahové i formální správnosti SOD è Hodnocení relevance è Konzistence indexace Konzistence indexace l Míra shody dvou nebo více SOD Typy konzistence 1. konzistence indexátorů a) mezi indexátory (interindexer consistency) - Shoda indexace totožného dokumentu mezi dvěma nebo více indexátory. b) indexátora (intraindexer consistency) - Konzistence indexace jednoho indexátora. 2. konzistence dokumentů a) mezi dokumenty - Srovnání SOD pojednávajících o stejném tématu. b) konzistenci dokumentu - Srovnání SOD vztahující se k jednomu dílu. Výpočet konzistence indexace l Poměr počtu souhlasných pořádacích znaků k celkovému počtu jedinečných pořádacích znaků obsažených v obou SOD. C=ab/(a+b) C=index konzistence indexace ab=počet souhlasných PZ v selekčních obrazech A a B, tj. shodně zvolených indexátory a=počet jedinečných PZ v selekčním obraze A b=počet jedinečných PZ v selekčním obraze B Výpočet konzistence indexace - příklad indexátor A l luxus -- dějiny l luxus -- filozofické aspekty l luxus -- sociologické aspekty l konzumní společnost l eseje indexátor B l luxusní zboží l luxus -- sociologické aspekty l eseje Výpočet konzistence indexace - příklad indexátor A l luxus -- dějiny l luxus -- filozofické aspekty l luxus -- sociologické aspekty l konzumní společnost l eseje indexátor B l luxusní zboží l luxus -- sociologické aspekty l eseje Výpočet konzistence indexace - příklad indexátor A l luxus -- dějiny l luxus -- filozofické aspekty l luxus -- sociologické aspekty l konzumní společnost l eseje indexátor B l luxusní zboží l společnost l sociologie l studie Výpočet konzistence indexace - příklad indexátor A l luxus -- dějiny l luxus -- filozofické aspekty l luxus -- sociologické aspekty l konzumní společnost l eseje indexátor B l luxusní zboží l společnost l sociologie l studie Vztah kvality indexace a konzistence l Konzistentní indexace se nerovná kvalitní indexace. l Konzistence indexace zlepšuje efektivitu vyhledávání a tím pozitivně ovlivňuje kvalitu indexace. Povinná a použitá literatura l ČSN ISO 5963. Dokumentace. Metody analýzy dokumentů, určování jejich obsahu a výběru lexikálních jednotek selekčního jazyka. Praha : Český normalizační institut, 1995. 10 s. dostupné v Ústřední knihovně FF MU – registrační pult l Pinkas, O. 2002. Zpracování informačních fondů. Vyd. 1.V Praze : Vysoká škola ekonomická, 2002. Kap. 6 Referování a indexování, s. 79-88. l Schwarz, J. Praktické aspekty hodnocení kvality a konzistence indexace. Ikaros [online]. 2001, roč. 5, č. 2. [cit. 2001-02-01]. Dostupné na WWW: http://www.ikaros.cz/node/3986 ISSN 1212-5075. Doporučená a použitá literatura l Fidel, R. 1994. User-Centered Indexing. Journal of the American Society for Information Science and Technology. 1994, roč. 45, č. 8, s. 572-576. l KTD : Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha : Národní knihovna České republiky, 2003. Dostupné z WWW: http://sigma.nkp.cz/cze/ktd l Lancaster, F. W. 2003. Indexing and abstracting in theory and practice. London : Facet Publishing, 2003. 451 s. ISBN 1856044823. l Schwarz, J. Selekční jazyky 2 : Úvod do problematiky : Sémantická redukce dokumentů [ppt]. Přednáška č. 1 (kombinované studium). 29. 2. 2008. l Schwarz, J. Selekční jazyky 2 : Úvod do problematiky : Kvalita a konzistence indexace [ppt]. Přednáška č. 2 (kombinované studium). 21. 3. 2008.