Předmětové selekční jazyky (PSJ) Předmět: Selekční jazyky 30. 10. 2009 Přednášející: Mgr. Silvie Kořínková Presová http://kisk.phil.muni.cz/mgr-silvie-korinkova-presova-dis Varianty termínu è používané české ekvivalenty - věcné autority, systémy heslování, předmětová pořádací soustava, verbální pořádací systémy, předmětové třídění (nevhodné označení) apod. è anglické ekv. - subject retrieval language, verbal indexing languages, controlled vocabulary, vocabulary control tool Výklad termínu Předmětový selekční jazyk (výklad z TDKIV) è Selekční jazyk založený na abecedně uspořádaném systému hesel, popř. lexikálních jednotek. è Podle charakteru lexikálních jednotek se rozlišují předmětové selekční jazyky založené na použití klíčových slov (např. klíčová slova z názvu dokumentů, rotované rejstříky), předmětová hesla (jazyk předmětových hesel) a deskriptorové selekční jazyky. Výklad termínu l Předmětový SJ je SJ používaný při realizaci procesu předmětového pořádání informací jako jeho výrazový a vyjadřovací prostředek. (Kovář, 1984, s. 129) l Předmětové pořádání informací je proces, při kterém slovně vyjádřený obsah, téma či předmět dokumentu, jeho částí nebo jednotlivých v něm obsažených informací je převáděn do jednou více, jindy méně normalizovaných a formalizovaných hesel (deskriptorů), která jsou ve slovnících uspořádána abecedně. (volně podle Kovář, 1984, s. 13) Výklad termínu l Controlled vocabulary - Seznam nebo databáze věcných termínů, kdy všechny termíny nebo fráze reprezentující pojem jsou sdruženy dohromady. Preferované lexik. jednotky jsou navrženy pro užití v záznamech o dokumentech v rešeršních systémech. (volně podle Taylor, 2004, s. 361) l Vocabulary control tool - Organizovaný seznam termínů nebo frází, který může být použit k indexování nebo prohledávání sbírky pomocí věcných termínů či frází. (Chowdhury, 2007, s. XVIII) Druhy předmětových SJ l prekoordinované PSJ - Vyjadřují téma dokumentu nebo dotazu souborem slov přirozeného jazyka svázaných podle pevně stanovených pravidel a dávajících smysl jen jako celek. l postkoordinované PSJ - Téma dokumentu nebo dotazu je vyjádřeno také souborem slov přirozeného jazyka, avšak tento soubor se skládá z původně vzájemně izolovaných a samostatných slov a sousloví, která byla vybrána z řízeného slovníku. (Kovář, 1984, s. 132 - 133) Předmětová hesla l Jazyk předmětových hesel představuje nástroj, ve kterém je téma dokumentu vyjádřeno sestavou lexikálních jednotek podle předem stanovených syntagmatických a syntaktických pravidel už v průběhu indexování. (Balíková, 2001) è použití - předmětová hesla jako prvky řazení v předmětových katalozích a kartotékách http://www.lib.cas.cz/katalogy/predmetovy-katalog/ è použití v online prostředí - modifikace pravidel Předmětová hesla l Pořádací znak - předmětové heslo (PH) - Předmětové heslo je jednoslovné nebo víceslovné formálně upravené vyjádření obsahu (resp. tematiky), popř. i charakteristiky formy dokumentu. - předmětový prvek è Předmětové heslo se skládá z jednoho nebo několika předmětových prvků - jednočlenné či vícečlenné PH (řetězec PH) è ČSN 01 0188 Tvorba předmětových hesel Schéma PH Heslo (ev. doplněk hesla) - 1. podheslo (ev. doplněk podhesla) - 2. podheslo (ev. doplněk hesla) - n. podheslo (ev. doplněk podhesla) l Letadla - podvozky - příručky l Cukrovka (řepa) - cukernatost l Francie – Prusko – války – r. 1870-1871 Heslo - Vyjadřuje se jím pojem, který má pro obsahovou charakteristiku dokumentu rozhodující význam - hlavní téma. Podheslo upřesňuje heslo obsahově a podle potřeby i formálně. Doplňky hesla n. podhesla vysvětlují stejně znějící, významově však odlišné prvky předmětového hesla. Slovník l Předmětový heslář - Seznam prvků předmětových hesel užitých při zpracování konkrétního předmětového katalogu či předmětové kartotéky (Pinkas, s. 95). è Nejen seznam prvků, ale též celých řetězců předmětových hesel. l Struktura è částečná hierarchie è přidružovací odkazy (viz též) - klasifikace viz též indexace è vylučovací odkazy (viz) - např. klasifikace viz kategorizace Syntaxe l Syntaktická pravidla - uspořádání prvků předmětového hesla/kombinace prvků předmětového hesla l Princip prekoordinace Výhody/Nevýhody (Balíková 2001) Výhody l detailní vyjádření předmětu dokumentu l odpovídající specifičnost l maximální informační hodnota řetězce předmětového hesla l efektivní servis pro uživatele v tradičním prostředí Nevýhody l rozklad víceslovných lexikálních jednotek (např. výkon vazby: vazba - výkon) l délka řetězce předmětového hesla l princip prekoordinace uplatněný v syntaktické rovině, a z toho pramenící: è komplikovaná pravidla aplikační syntaxe è redundantnost informací v bibliografickém záznamu è rozsáhlost autoritního souboru è komplikovaná údržba Příklady l Library of Congress Subject Headings (LCSH) - nejrozšířenější univerzální PSJ pro využití v lístkových a online katalozích http://authorities.loc.gov/ l Library Literature & Information Science Fulltext http://library.muni.cz/ezdroje/ è prohlížení témat v databázi vyjádřených pomocí předmětových hesel Deskriptorový selekční jazyk (DSJ) l DSJ (výklad z TDKIV) - Postkoordinovaný předmětový selekční jazyk určený pro indexaci a vyhledávání prostřednictvím řízeného slovníku označovaného jako tezaurus, jehož lexikum je složeno z deskriptorů a nedeskriptorů. l Historický vývoj od DSJ založeného na unitermech (unitermů) k DSJ založenému na deskriptorech (tezaurům), jejichž forma a vztahy jsou standardizovány slovníkem se speciální strukturou - tezaurem. Tezaurus l Řízený a měnitelný slovník deskriptorového selekčního jazyka uspořádaný tak, že explicitně zachycuje apriorní (paradigmatické) vztahy mezi lexikálními jednotkami. l Podle jazykového zaměření se rozlišuje jednojazyčný a vícejazyčný tezaurus, podle šíře tematického zaměření speciální, polytematický a univerzální tezaurus, podle struktury fasetový a tematický tezaurus, podle funkce tradiční, indexační a vyhledávací tezaurus. Dále se vyčleňuje cílový a zdrojový tezaurus. (výklad TDKIV) Výklad termínu l Thesaurus - slovník PSJ, formálně organizovaný takovým způsobem, aby explicitně zachycoval apriorní (paradigmatické) vztahy mezi pojmy. (Aichison, 2000, s. 1) Tvorba tezauru ČSN 010193. Dokumentace : pokyny pro vypracování a rozvíjení jednojazyčných tezaurů è Techniky tvorby tezaurů vycházející z obecných principů. è Smysl - jednotná praxe v rámci IS či více spolupracujících IS. ČSN 01 0172 (ISO 5964). Pokyny pro vypracování a rozvíjení vícejazyčných tezaurů. Základní termíny l lexikální jednotka (LJ) - deskriptor - preferovaný termín - LJ užívaná závazně při indexování. - nedeskriptor - nepreferovaný termín - ekvivalent nebo kvaziekvivalent preferovaného termínu l deskriptorový odstavec (výklad z TDKIV) - Součást hlavní části tezauru zahrnující deskriptor a všechny relevantní informace uvedené v poznámkovém a odkazovém aparátu jako je definice, vysvětlující poznámka, poznámka o použití, nedeskriptory, podřazené, nadřazené a asociované deskriptory. Pojmy vyjádřené LJ patří k následujícím obecným kategoriím: l konkrétní entity è předměty, věci a jejich části (počítač, pes, lebka)‏ è materiály (plast, dřevo, bavlna)‏ l abstraktní entity è činnosti a události (psaní, dýchání, plavání)‏ è abstraktní entity a vlastnosti věcí, materiálů n. činností (síla, přesnost, viskozita)‏ è obory n. vědní disciplíny (sociologie, psychologie, informační věda)‏ è měřicí jednotky (kilogram, metr, ampér)‏ l individuální jednotky (identifikátory)‏ è geografická jména, jména osob, jména organizací, jména výrobků Tvar LJ l substantivum n. substantivní slovní spojení è adjektivní např. národnostní menšina modifikátor (adjektivum) základ (substantivum) ‏ è s předložkovou vazbou (např. kurzy pro pokročilé, školy pro nevidomé děti)‏ l adjektiva, příslovce, slovesa - obvykle se nezařazují, činnost - vyjádření substantivy - výjimky - např. velmi krátkodobé financování, velmi krátké vlny (odborný termín) Tvar LJ l plurál: è počitatelná substantiva (knihy, okny, ryby) Ale části těla singulár, pokud je v těle jedna část (ústa, hlava). l singulár è nepočitatelná substantiva (mouka, písek, pára) Ale třídy s více členy pl. (cukry, jedy, mouky)‏ è abstraktní pojmy (osobnost, vodivost, kapitalismus) Ale třídy s více členy pl. (přírodní vědy, chemické reakce)‏ l Vyjádření odlišných pojmů pomocí sg./pl., např. cukr (potravinářský průmysl)/cukry (chemie) l homografy, polysémy - relátor v závorce, součástí LJ např. křídlo (ptačí končetina), křídlo (klavír) Vysvětlující poznámky a definice l omezení významu LJ pro účely daného systému (vyloučení dalších významů) Další informace: l datum zařazení LJ l zdroj LJ (zejména u nových slov) l pokyny pro indexátory, např. možnost kombinace LJ (např. instituce EU - Uveďte ve spojení s danou institucí) Sousloví l Obecně - LJ mají vyjadřovat jednoduché pojmy, sousloví je třeba rozložit na jednodušší prvky, pokud rozklad nezpůsobí potíže uživateli. l Sémantický rozklad - výraz, který vyjadřuje komplexní pojem, je převeden na jednodušší, tzv. definiční prvky. Použití této techniky se v tezaurech nedoporučuje. teploměr teplota + měření + přístroje l Syntaktický rozklad - tato technika se uplatňuje u sousloví, tj. u výrazů, které umožňují morfologickou analýzu na dílčí složky. tibetský buddhismus Tibet + buddhismus Sousloví Kritéria pro to, zda sousloví ponechat beze změny či sousloví rozložit na syntaktické složky. l Je nutné rozlišit jednotlivé části sousloví z hlediska jejich rolí a vztahů: lisování vína è základ neboli řídící člen lisování Substantivum, které vyjadřuje širší třídu věcí nebo jevů, jejímž členem je lexikální jednotka jako celek. è modifikátor vína Část sousloví, která odkazuje k určité charakteristice nebo rozlišujícímu znaku. Po připojení k danému základu zužuje jeho významový nebo stylistický odstín a vyjadřuje tak jednu z jeho podtříd. Sousloví ponechaná beze změny l sousloví je běžné a užívané (informační zdroje, pořádání informací) l rozklad vede ke ztrátě významu (filozofie dějin, library science) l sousloví obsahuje vlastní jméno (Bradfordův zákon, Lotkův zákon) l modifikátor ztratil původní význam (lehký průmysl) l modifikátor bez přímého vztahu (stromová struktura) l sousloví se „středním členem“(naftové motory) l synkategorematická substantiva ( umělé květiny, čokoládová vejce, světelný rok) - Podstatná jména, která sama o sobě nevyjadřují třídu pojmů, k níž odkazují slovní spojení jako celek, ale spíše popírají členství v dané třídě. Sousloví rozložená na syntaktické složky 1. základ - vlastnost/část (včetně materiálů), modifikátor - celek, popř. nositel dané vlastnosti nebo části l např. letištní hala letiště + hala lodní motory lodě + motory 2. základ - činnost, modifikátor - objekt/vykonavatel činnosti l např. mražení zeleniny mražení + zelenina stěhování ptáků stěhování + ptáci ALE mražená zelenina, stěhovaví ptáci Základní vztahy v tezauru l vztah ekvivalence l vztah hierarchie l vztah asociace Vztah ekvivalence l Do vztahu ekvivalence jsou uváděny synonymní lexikální jednotky, tj. termíny, které se liší formou, ale jejichž obsah je identický (označují stejný denotát). l např. tezaurus http://europa.eu/eurovoc/ práva žen UF ženská práva ženská práva USE práva žen l Zkratky viz/USE - před přeferovaným termínem/deskriptorem ekv/UF - před nepřeferovaným termínem/nedeskriptorem Volba deskriptoru/nedeskriptoru l pravopis è používání nejrozšířenějšího popř. kodifikovaného pravopisného tvaru è využití autoritních slovníků è dublety (př.: sirup x syrob; salnitr x sanytr) l zkratky a akronymy (př.: UNICEF, OSN, ČEDOK, LIS) è preferuje se rozepsaná podoba - mezinárodní desetinné třídění X MDT [o] è výjimky v dané oblasti u široce používaných zkr. a akr. l přejatá slova (př.: software x programové vybavení; perestrojka x přestavba; gender studies x genderová/rodová studia) è novotvary z cizího jazyka – běžně užívané lze zařadit do tezauru è volba mezi přejatým slovem a překladem – rozšířenost Volba deskriptoru/nedeskriptoru l slangové termíny a žargon (př.: hippies, íčko, koks) è lze zařadit, pokud neexistuje pro nový pojem jiná, vhodná alternativa è jde-li o alternativní výraz k existujícímu, ustálenému termínu, ustálený je preferovaný t. l obecné názvy a obchodní názvy (př. polytetrafluorethylen x teflon)‏ è preferované jsou obecné názvy jako deskriptory, je-li obchodní název široce používán zavede se jako nedeskriptor l běžné názvy a vědecké názvy (př.: bubo bubo x výr velký; arthritis uratica x dna) è volba preferovaného termínu se odvíjí od uživatelů systému Kvazisynonyma l LJ, jejichž významy se všeobecně v běžném úzu považují za rozdílné - pro účely indexování se chápou jako synonyma. např. tvrdost x měkkost; anotovaný záznam x neanotovaný záznam; zákonnost x nezákonnost l Hierarchizace vztahu ekvivalence např. HORNINY EKV břidlice čedič žula Hierarchický vztah è Nastává u lexikálních jednotek téhož sémantického okruhu a vyjadřuje poměr nadřazenosti a podřazenosti. è Je vytvářen pouze u preferovaných termínů. è Podřazená jednotka musí náležet k témuž základnímu typu pojmu jako její nadřazená lex. jednotka – věc x činnost x vlastnost. např. ochrana soukromí deskriptor BT/ND práva jednotlivce nadřazený d. NT/PD ochrana komunikací podřazený d. Hierarchický vztah - generický vztah l Vymezuje souvislost mezi určitou třídou nebo kategorií a jejími členy nebo druhy. plazi někteří všichni hadi l rodo-druhový vztah Hierarchický vztah - partitivní vztah Sémantický hierarchický vztah mezi dvěma pojmy, z nichž jeden vyjadřuje celek a druhý jednu jeho část. (výklad z TDKIV)‏ 4 kategorie l tělesné systémy a orgány (př.: kostra -> lebka -> nadočnicové oblouky) l geografické lokality (př.: Evropa -> Rakousko -> Vídeň) l disciplíny (př.: jazykověda -> obecná jazykověda -> gramatika) l hierarchické společenské struktury (př.: univerzita -> fakulta -> katedra -> kabinet) Hierarchický vztah - kauzální vztah l Vazba mezi kategorií věcí nebo událostí vyjádřenou obecným substantivem a individuálním případem dané kategorie (jednotková třída označena vlastním jménem)‏. l např. pohoří Alpy individuální případy uvedené Himaláj obecné kategorie Vztah asociace Vazba mezi dvěma lex. jednotkami, které è nejsou ve vztahu ekvivalence è nejsou spolu v hierarchickém vztahu l Použití: Lexikální jednotky jsou mentálně natolik asociovány, že je účelné vyjádřit jejich vazbu v tezauru. l Pravidlo pro stanovení vztahu: Při indexaci jednou jednotkou je vyvolána potřeba indexace druhou asoc. jednotkou. l např. ochrana soukromí RT/ad datové právo osobní údaje Asociace l Disciplína/objekt (př.: informační věda -- informace) l Úkon, proces/konatel, nástroj (př.: katalogizace – katalogizační pravidla) l Činnost/výsledek (př.: katalogizace – katalogizační záznam) l Činnost/předmět (př.: indexace -- dokument) l Pojem/vlastnost (př.: informace -- pravdivost) l Pojem/původ (př.: Francouzi -- Francie) l Kauzální souvislost (př.: nemoc -- léčení) l Věc/agens působící proti ní (př.: rostliny -- herbicidy) l pojem/jednotka měření (př.: informace -- bit) l synkategorematické výrazy (př.: čokoládová vejce – vejce; umělé květiny -- květiny) Uspořádání LJ è abecední uspořádání è systematické uspořádání doplněné abecedním rejstříkem è grafické uspořádání s abecední částí Organizační aspekty vypracování tezauru l Excerpce LJ è deduktivní metoda è induktivní metoda l Záznamy LJ l Verifikace LJ è odborné slovníky, encyklopedie è existující tezaury è SSJ l Specifičnost LJ l Doplňování a vyřazování LJ l Využití výpočetní techniky více viz ČSN 010193, s. 45 - 47 Výhody tezauru Princip postkoordinace a z toho pramenící l přehlednost selekčního obrazu dokumentu l snadná tvorba hierarchických struktur l snadná údržba l snadná manipulace Nevýhody tezauru l Rozklad víceslovných jednotek - nerespektování kompaktnosti termínu. l Informační šum způsobený parazitním (náhodným) spojením deskriptorů a v důsledku toho: - velký ohlas irelevantních dokumentů l Omezení pouze na tematickou část obsahové charakteristiky dokumentu: systém deskriptorů a nedeskriptorů zahrnuje pouze tematické termíny; tento nedostatek se odstraňuje připojením podpůrných souborů identifikátorů (personália, jména korporací, geografické názvy, atd.). Příklady tezaurů l vícejazyčné tezaury Eurovoc http://europa.eu/eurovoc/ http://www.psp.cz/kps/knih/e_zakinf.htm MeSH http://www.medvik.cz/medvik/search_titles.do?source=mesh Agrovoc http://www.knihovna.uzpi.cz/ ČPT (EET) - Český pedagogický tezaurus http://www.npkk.cz/npkk/zakl_tez.php PSH - Polytematický strukturovaný heslář http://old.stk.cz/psh.html l jednojazyčné české tezaury např. ČTT - Český teologický tezaurus http://www.etf.cuni.cz/~library/infoctt.html Povinná a použitá literatura l Aichison, J., Gilchrist, A., Bawden, D. 2000. Thesaurus construction and use : a practical manual. 4th ed. Chicago : Fitzroy Dearborn Publishers, c2000. Kap. A, B, s. 1-13. dostupné ve fondu ÚK FF MU l Balíková, M. 2001 Problematika věcného pořádání informací a jejich zpřístupnění. Národní knihovna, 2001, roč. 12, č. 3, s. 175-186. Dostupné z WWW: http://full.nkp.cz/nkkr/NKKR0103/0103175.html l ČSN 01 0193. Dokumentace. Pokyny pro vypracování a rozvíjení jednojazyčných tezaurů. Úč. 1.2.1996. 52 s. - dostupné v ÚK FF MU, registrační pult l Pinkas, O. 2002. Zpracování informačních fondů. Vyd. 1. V Praze : Vysoká škola ekonomická, 2002. Kap. 7 Selekční jazyky, s. 89-114, Kap. 8. Tezaurus, s. 115-126. - dostupné ve fondu ÚK FF MU Doporučená a použitá literatura l Aichison, J., Gilchrist, A., Bawden, D. Thesaurus construction and use : a practical manual. 4th ed. Chicago : Fitzroy Dearborn Publishers, c2000. 218 s. l Kovář, Blahoslav. 1984. Věcné pořádání informací a selekční jazyky. Praha : ÚVTEI, 1984. 251 s. l KTD : Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha : Národní knihovna České republiky, 2003. Dostupné z WWW: http://sigma.nkp.cz/cze/ktd l Schwarz, Josef. 2007. Selekční jazyky 1 : Úvod do problematiky [ppt]. Přednáška č. 2 (kombinované studium). 9.11.2007.