Předmětové selekční jazyky (PSJ) Předmět: Selekční jazyky 29. 10. 2010 Přednášející: Mgr. Silvie Kořínková Presová http://kisk.phil.muni.cz/mgr-silvie-korinkova-presova-dis Varianty termínu èpoužívané české ekvivalenty - věcné autority, systémy heslování, předmětová pořádací soustava, verbální pořádací systémy, předmětové třídění (nevhodné označení) apod. èanglické ekv. - subject retrieval language, verbal indexing languages, controlled vocabulary, vocabulary control tool Výklad termínu Předmětový selekční jazyk (výklad z TDKIV) èSelekční jazyk založený na abecedně uspořádaném systému hesel, popř. lexikálních jednotek. èPodle charakteru lexikálních jednotek se rozlišují předmětové selekční jazyky založené na použití klíčových slov (např. klíčová slova z názvu dokumentů, rotované rejstříky), předmětová hesla (jazyk předmětových hesel) a deskriptorové selekční jazyky. Výklad termínu lPředmětový SJ je SJ používaný při realizaci procesu předmětového pořádání informací jako jeho výrazový a vyjadřovací prostředek. (Kovář, 1984, s. 129) lPředmětové pořádání informací je proces, při kterém slovně vyjádřený obsah, téma či předmět dokumentu, jeho částí nebo jednotlivých v něm obsažených informací je převáděn do jednou více, jindy méně normalizovaných a formalizovaných hesel (deskriptorů), která jsou ve slovnících uspořádána abecedně. (volně podle Kovář, 1984, s. 13) Výklad termínu lControlled vocabulary - Seznam nebo databáze věcných termínů, kdy všechny termíny nebo fráze reprezentující pojem jsou sdruženy dohromady. Preferované lexik. jednotky jsou navrženy pro užití v záznamech o dokumentech v rešeršních systémech. (volně podle Taylor, 2004, s. 361) lVocabulary control tool - Organizovaný seznam termínů nebo frází, který může být použit k indexování nebo prohledávání sbírky pomocí věcných termínů či frází. (Chowdhury, 2007, s. XVIII) lprekoordinované PSJ - Vyjadřují téma dokumentu nebo dotazu souborem slov přirozeného jazyka svázaných podle pevně stanovených pravidel a dávajících smysl jen jako celek. lpostkoordinované PSJ - Téma dokumentu nebo dotazu je vyjádřeno také souborem slov přirozeného jazyka, avšak tento soubor se skládá z původně vzájemně izolovaných a samostatných slov a sousloví, která byla vybrána z řízeného slovníku. (Kovář, 1984, s. 132 - 133) Druhy předmětových SJ NOVÁK, Blahoslav. Projevuje se snižování hektarových výnosů chmele a spotřeby piva u nás na rozloze vinic a výrobě vína v Rakousku? Šťastný vinař, 2009, roč. 1, č. 2, s. 10-22. Schwarz, J., 2007 lprekoordinované PSJ - předmětová hesla (jazyk předmětových hesel, PSJ typu předmětových hesel) lpostkoordinované PSJ - deskriptorové SJ (PSJ deskriptorového typu), volně tvořená klíčová slova, PSJ založené na použití slov z názvu dokumentů - permutované (rotované) rejstříky (KWIC, KWOC) Předmětová hesla lJazyk předmětových hesel představuje nástroj, ve kterém je téma dokumentu vyjádřeno sestavou lexikálních jednotek podle předem stanovených syntagmatických a syntaktických pravidel už v průběhu indexování. (Balíková, 2001) èpoužití - předmětová hesla jako prvky řazení v předmětových katalozích a kartotékách http://www.lib.cas.cz/katalogy/predmetovy-katalog/ èpoužití v online prostředí - modifikace pravidel Předmětová hesla lPořádací znak - předmětové heslo (PH) - Předmětové heslo je jednoslovné nebo víceslovné formálně upravené vyjádření obsahu (resp. tematiky), popř. i charakteristiky formy dokumentu. - předmětový prvek èPředmětové heslo se skládá z jednoho nebo několika předmětových prvků - jednočlenné či vícečlenné PH (řetězec PH) èČSN 01 0188 Tvorba předmětových hesel Schéma PH Heslo (ev. doplněk hesla) - 1. podheslo (ev. doplněk podhesla) - 2. podheslo (ev. doplněk hesla) - n. podheslo (ev. doplněk podhesla) lLetadla - podvozky - příručky lCukrovka (řepa) - cukernatost lFrancie – Prusko – války – r. 1870-1871 Heslo - Vyjadřuje se jím pojem, který má pro obsahovou charakteristiku dokumentu rozhodující význam - hlavní téma. Podheslo upřesňuje heslo obsahově a podle potřeby i formálně. Doplňky hesla n. podhesla vysvětlují stejně znějící, významově však odlišné prvky předmětového hesla. Slovník lPředmětový heslář - Seznam prvků předmětových hesel užitých při zpracování konkrétního předmětového katalogu či předmětové kartotéky (Pinkas, s. 95). èNejen seznam prvků, ale též celých řetězců předmětových hesel. lStruktura èčástečná hierarchie èpřidružovací odkazy (viz též) - klasifikace viz též indexace èvylučovací odkazy (viz) - např. klasifikace viz kategorizace Syntaxe lSyntaktická pravidla - uspořádání prvků předmětového hesla/kombinace prvků předmětového hesla lPrincip prekoordinace Výhody/Nevýhody (Balíková, 2001) Výhody ldetailní vyjádření předmětu dokumentu lodpovídající specifičnost lmaximální informační hodnota řetězce předmětového hesla lefektivní servis pro uživatele v tradičním prostředí Nevýhody lrozklad víceslovných lexikálních jednotek (např. výkon vazby: vazba - výkon) ldélka řetězce předmětového hesla lprincip prekoordinace uplatněný v syntaktické rovině, a z toho pramenící: èkomplikovaná pravidla aplikační syntaxe èredundantnost informací v bibliografickém záznamu èrozsáhlost autoritního souboru èkomplikovaná údržba Příklady lLibrary of Congress Subject Headings (LCSH) - nejrozšířenější univerzální PSJ pro využití v lístkových a online katalozích http://authorities.loc.gov/ lLISTA with Fulltext http://library.muni.cz/ezdroje/ -prohlížení - záložka Tezaurus (Jde spíše o řízený slovník obecně s prvky tezauru a hesláře.) - např. heslo ACADEMIC libraries -- Acquisitions Deskriptorový selekční jazyk (DSJ) lDSJ (výklad z TDKIV) - Postkoordinovaný předmětový selekční jazyk určený pro indexaci a vyhledávání prostřednictvím řízeného slovníku označovaného jako tezaurus, jehož lexikum je složeno z deskriptorů a nedeskriptorů. lHistorický vývoj od DSJ založeného na unitermech (unitermů) k DSJ založenému na deskriptorech (tezaurům), jejichž forma a vztahy jsou standardizovány slovníkem se speciální strukturou - tezaurem. Tezaurus lŘízený a měnitelný slovník deskriptorového selekčního jazyka uspořádaný tak, že explicitně zachycuje apriorní (paradigmatické) vztahy mezi lexikálními jednotkami. lPodle jazykového zaměření se rozlišuje jednojazyčný a vícejazyčný tezaurus, podle šíře tematického zaměření speciální, polytematický a univerzální tezaurus, podle struktury fasetový a tematický tezaurus, podle funkce tradiční, indexační a vyhledávací tezaurus. Dále se vyčleňuje cílový a zdrojový tezaurus. (výklad TDKIV) Výklad termínu lThesaurus - slovník PSJ, formálně organizovaný takovým způsobem, aby explicitně zachycoval apriorní (paradigmatické) vztahy mezi pojmy. (Aichison, 2000, s. 1) Tvorba tezauru ČSN 010193. Dokumentace : pokyny pro vypracování a rozvíjení jednojazyčných tezaurů èTechniky tvorby tezaurů vycházející z obecných principů. èSmysl - jednotná praxe v rámci IS či více spolupracujících IS. ČSN 01 0172 (ISO 5964). Pokyny pro vypracování a rozvíjení vícejazyčných tezaurů. Softwarové nástroje pro správu tezaurů (thesaurus management software) lSlouží pro tvorbu, aktualizaci, editování tezaurů. lnapř. MultiTes - Lze stáhnout pro zkušební účely jako Trial Software. http://www.multites.com/download.htm Základní termíny llexikální jednotka (LJ) -deskriptor - preferovaný termín - LJ užívaná závazně při indexování. -nedeskriptor - nepreferovaný termín - ekvivalent nebo kvaziekvivalent preferovaného termínu ldeskriptorový odstavec (výklad z TDKIV) - Součást hlavní části tezauru zahrnující deskriptor a všechny relevantní informace uvedené v poznámkovém a odkazovém aparátu jako je definice, vysvětlující poznámka, poznámka o použití, nedeskriptory, podřazené, nadřazené a asociované deskriptory. Pojmy vyjádřené LJ patří k následujícím obecným kategoriím: lkonkrétní entity èpředměty, věci a jejich části (počítač, pes, lebka)‏ èmateriály (plast, dřevo, bavlna)‏ labstraktní entity èčinnosti a události (psaní, dýchání, plavání)‏ èabstraktní entity a vlastnosti věcí, materiálů n. činností (síla, přesnost, viskozita)‏ èobory n. vědní disciplíny (sociologie, psychologie, informační věda)‏ èměřicí jednotky (kilogram, metr, ampér)‏ lindividuální jednotky (identifikátory)‏ ègeografická jména, jména osob, jména organizací, jména výrobků Tvar LJ lsubstantivum n. substantivní slovní spojení èadjektivní např. národnostní menšina modifikátor (adjektivum) základ (substantivum) ‏ ès předložkovou vazbou (např. kurzy pro pokročilé, školy pro nevidomé děti)‏ ladjektiva, příslovce, slovesa -obvykle se nezařazují, činnost - vyjádření substantivy -výjimky - např. velmi krátkodobé financování, velmi krátké vlny (odborný termín) Tvar LJ lplurál: èpočitatelná substantiva (knihy, okny, ryby) Ale části těla singulár, pokud je v těle jedna část (ústa, hlava). lsingulár ènepočitatelná substantiva (mouka, písek, pára) Ale třídy s více členy pl. (cukry, jedy, mouky)‏ èabstraktní pojmy (osobnost, vodivost, kapitalismus) Ale třídy s více členy pl. (přírodní vědy, chemické reakce)‏ lVyjádření odlišných pojmů pomocí sg./pl., např. cukr (potravinářský průmysl)/cukry (chemie) lhomografy, polysémy - relátor v závorce, součástí LJ např. křídlo (ptačí končetina), křídlo (klavír) Vysvětlující poznámky a definice lomezení významu LJ pro účely daného systému (vyloučení dalších významů) Další informace: ldatum zařazení LJ lzdroj LJ (zejména u nových slov) lpokyny pro indexátory, např. možnost kombinace LJ (např. instituce EU - Uveďte ve spojení s danou institucí) Sousloví lObecně - LJ mají vyjadřovat jednoduché pojmy, sousloví je třeba rozložit na jednodušší prvky, pokud rozklad nezpůsobí potíže uživateli. lSémantický rozklad - výraz, který vyjadřuje komplexní pojem, je převeden na jednodušší, tzv. definiční prvky. Použití této techniky se v tezaurech nedoporučuje. teploměr teplota + měření + přístroje lSyntaktický rozklad - tato technika se uplatňuje u sousloví, tj. u výrazů, které umožňují morfologickou analýzu na dílčí složky. tibetský buddhismus Tibet + buddhismus Sousloví Kritéria pro to, zda sousloví ponechat beze změny či sousloví rozložit na syntaktické složky. lJe nutné rozlišit jednotlivé části sousloví z hlediska jejich rolí a vztahů: lisování vína èzáklad neboli řídící člen lisování Substantivum, které vyjadřuje širší třídu věcí nebo jevů, jejímž členem je lexikální jednotka jako celek. èmodifikátor vína Část sousloví, která odkazuje k určité charakteristice nebo rozlišujícímu znaku. Po připojení k danému základu zužuje jeho významový nebo stylistický odstín a vyjadřuje tak jednu z jeho podtříd. Sousloví ponechaná beze změny lsousloví je běžné a užívané (informační zdroje, pořádání informací) lrozklad vede ke ztrátě významu (filozofie dějin, library science) lsousloví obsahuje vlastní jméno (Bradfordův zákon, Lotkův zákon) lmodifikátor ztratil původní význam (lehký průmysl) lmodifikátor bez přímého vztahu (stromová struktura) lsousloví se „středním členem“(naftové motory) lsynkategorematická substantiva ( umělé květiny, čokoládová vejce, světelný rok) - Podstatná jména, která sama o sobě nevyjadřují třídu pojmů, k níž odkazují slovní spojení jako celek, ale spíše popírají členství v dané třídě. Sousloví rozložená na syntaktické složky 1. základ - vlastnost/část (včetně materiálů), modifikátor - celek, popř. nositel dané vlastnosti nebo části lnapř. letištní hala letiště + hala lodní motory lodě + motory 2. základ - činnost, modifikátor - objekt/vykonavatel činnosti lnapř. mražení zeleniny mražení + zelenina stěhování ptáků stěhování + ptáci ALE mražená zelenina, stěhovaví ptáci Základní vztahy v tezauru lvztah ekvivalence lvztah hierarchie lvztah asociace Vztah ekvivalence lDo vztahu ekvivalence jsou uváděny synonymní lexikální jednotky, tj. termíny, které se liší formou, ale jejichž obsah je identický (označují stejný denotát). lnapř. tezaurus http://europa.eu/eurovoc/ práva žen UF ženská práva ženská práva USE práva žen lZkratky viz/USE - před přeferovaným termínem/deskriptorem ekv/UF - před nepřeferovaným termínem/nedeskriptorem Volba deskriptoru/nedeskriptoru lpravopis èpoužívání nejrozšířenějšího popř. kodifikovaného pravopisného tvaru èvyužití autoritních slovníků èdublety (př.: sirup x syrob; salnitr x sanytr) lzkratky a akronymy (př.: UNICEF, OSN, ČEDOK, LIS) èpreferuje se rozepsaná podoba - mezinárodní desetinné třídění X MDT [o] èvýjimky v dané oblasti u široce používaných zkr. a akr. lpřejatá slova (př.: software x programové vybavení; perestrojka x přestavba; gender studies x genderová/rodová studia) ènovotvary z cizího jazyka – běžně užívané lze zařadit do tezauru èvolba mezi přejatým slovem a překladem – rozšířenost Volba deskriptoru/nedeskriptoru lslangové termíny a žargon (př.: hippies, íčko, koks) èlze zařadit, pokud neexistuje pro nový pojem jiná, vhodná alternativa èjde-li o alternativní výraz k existujícímu, ustálenému termínu, ustálený je preferovaný t. lobecné názvy a obchodní názvy (př. polytetrafluorethylen x teflon)‏ èpreferované jsou obecné názvy jako deskriptory, je-li obchodní název široce používán zavede se jako nedeskriptor lběžné názvy a vědecké názvy (př.: bubo bubo x výr velký; arthritis uratica x dna) èvolba preferovaného termínu se odvíjí od uživatelů systému Kvazisynonyma lLJ, jejichž významy se všeobecně v běžném úzu považují za rozdílné - pro účely indexování se chápou jako synonyma. např. tvrdost x měkkost; anotovaný záznam x neanotovaný záznam; zákonnost x nezákonnost lHierarchizace vztahu ekvivalence např. HORNINY EKV břidlice čedič žula Hierarchický vztah èNastává u lexikálních jednotek téhož sémantického okruhu a vyjadřuje poměr nadřazenosti a podřazenosti. èJe vytvářen pouze u preferovaných termínů. èPodřazená jednotka musí náležet k témuž základnímu typu pojmu jako její nadřazená lex. jednotka – věc x činnost x vlastnost. např. ochrana soukromí deskriptor BT/ND práva jednotlivce nadřazený d. NT/PD ochrana komunikací podřazený d. Hierarchický vztah - generický vztah lVymezuje souvislost mezi určitou třídou nebo kategorií a jejími členy nebo druhy. plazi někteří všichni hadi lrodo-druhový vztah Hierarchický vztah - partitivní vztah Sémantický hierarchický vztah mezi dvěma pojmy, z nichž jeden vyjadřuje celek a druhý jednu jeho část. (výklad z TDKIV)‏ 4 kategorie ltělesné systémy a orgány (př.: kostra -> lebka -> nadočnicové oblouky) lgeografické lokality (př.: Evropa -> Rakousko -> Vídeň) ldisciplíny (př.: jazykověda -> obecná jazykověda -> gramatika) lhierarchické společenské struktury (př.: univerzita -> fakulta -> katedra -> kabinet) Hierarchický vztah - kauzální vztah lVazba mezi kategorií věcí nebo událostí vyjádřenou obecným substantivem a individuálním případem dané kategorie (jednotková třída označena vlastním jménem)‏. lnapř. pohoří Alpy individuální případy uvedené Himaláj obecné kategorie Vztah asociace Vazba mezi dvěma lex. jednotkami, které ènejsou ve vztahu ekvivalence ènejsou spolu v hierarchickém vztahu lPoužití: Lexikální jednotky jsou mentálně natolik asociovány, že je účelné vyjádřit jejich vazbu v tezauru. lPravidlo pro stanovení vztahu: Při indexaci jednou jednotkou je vyvolána potřeba indexace druhou asoc. jednotkou. lnapř. ochrana soukromí RT/ad datové právo osobní údaje Asociace lDisciplína/objekt (př.: informační věda -- informace) lÚkon, proces/konatel, nástroj (př.: katalogizace – katalogizační pravidla) lČinnost/výsledek (př.: katalogizace – katalogizační záznam) lČinnost/předmět (př.: indexace -- dokument) lPojem/vlastnost (př.: informace -- pravdivost) lPojem/původ (př.: Francouzi -- Francie) lKauzální souvislost (př.: nemoc -- léčení) lVěc/agens působící proti ní (př.: rostliny -- herbicidy) lpojem/jednotka měření (př.: informace -- bit) lsynkategorematické výrazy (př.: čokoládová vejce – vejce; umělé květiny -- květiny) Cvičení - Určete, o jaký jde typ vztahu 1.divize, pluk, prapor, rota 2.indexování, selekční jazyk 3.informační věda, organizace poznání, vyhledávání informací 4.jazykověda, lingvistika 5.víno, bílé víno, červené víno Cvičení - Určete, o jaký jde typ vztahu 1.divize, pluk, prapor, rota - hierarch. vztah partitivní 2.indexování, selekční jazyk - vztah asociace 3.informační věda, organizace poznání, vyhledávání informací - hierarch. vztah partitivní 4.jazykověda, lingvistika - vztah ekvivalence 5.víno, bílé víno, červené víno - hierarch. vztah generický Uspořádání LJ èabecední uspořádání èsystematické uspořádání doplněné abecedním rejstříkem -fasetový přístup - např. Art & Architecture Thesaurus (záložka Browse the AAT hierarchies) ègrafické uspořádání s abecední částí Organizační aspekty vypracování tezauru lExcerpce LJ èdeduktivní metoda èinduktivní metoda lZáznamy LJ lVerifikace LJ èodborné slovníky, encyklopedie èexistující tezaury èSSJ lSpecifičnost LJ lDoplňování a vyřazování LJ lVyužití výpočetní techniky více viz ČSN 010193, s. 45 - 47 Výhody tezauru Princip postkoordinace a z toho pramenící lpřehlednost selekčního obrazu dokumentu lsnadná tvorba hierarchických struktur lsnadná údržba lsnadná manipulace Nevýhody tezauru lRozklad víceslovných jednotek - nerespektování kompaktnosti termínu. lInformační šum způsobený parazitním (náhodným) spojením deskriptorů a v důsledku toho: -velký ohlas irelevantních dokumentů lOmezení pouze na tematickou část obsahové charakteristiky dokumentu: systém deskriptorů a nedeskriptorů zahrnuje pouze tematické termíny; tento nedostatek se odstraňuje připojením podpůrných souborů identifikátorů (personália, jména korporací, geografické názvy, atd.). Příklady tezaurů lvícejazyčné tezaury Eurovoc http://europa.eu/eurovoc/ http://www.psp.cz/kps/knih/e_zakinf.htm MeSH http://www.medvik.cz/medvik/search_titles.do?source=mesh Agrovoc http://www.knihovna.uzpi.cz/ ČPT (EET) - Český pedagogický tezaurus http://www.npkk.cz/npkk/zakl_tez.php PSH - Polytematický strukturovaný heslář http://old.stk.cz/psh.html ljednojazyčné české tezaury např. ČTT - Český teologický tezaurus http://www.etf.cuni.cz/~library/infoctt.html lAichison, J., Gilchrist, A., Bawden, D. 2000. Thesaurus construction and use : a practical manual. 4th ed. Chicago : Fitzroy Dearborn Publishers, c2000. Kap. A, B, s. 1-13. dostupné ve fondu ÚK FF MU lBalíková, M. 2001 Problematika věcného pořádání informací a jejich zpřístupnění. Národní knihovna, 2001, roč. 12, č. 3, s. 175-186. Dostupné z WWW: http://full.nkp.cz/nkkr/NKKR0103/0103175.html lČSN 01 0193. Dokumentace. Pokyny pro vypracování a rozvíjení jednojazyčných tezaurů. Úč. 1.2.1996. 52 s. - dostupné v ÚK FF MU, registrační pult Povinná a použitá literatura Doporučená a použitá literatura lAichison, J., Gilchrist, A., Bawden, D. Thesaurus construction and use : a practical manual. 4th ed. Chicago : Fitzroy Dearborn Publishers, c2000. 218 s. lKovář, Blahoslav. 1984. Věcné pořádání informací a selekční jazyky. Praha : ÚVTEI, 1984. 251 s. lKTD : Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha : Národní knihovna České republiky, 2003. Dostupné z WWW: http://sigma.nkp.cz/cze/ktd lPinkas, O. 2002. Zpracování informačních fondů. Vyd. 1. V Praze : Vysoká škola ekonomická, 2002. Kap. 7 Selekční jazyky, s. 89-114, Kap. 8. Tezaurus, s. 115-126. - dostupné ve fondu ÚK FF MU lSchwarz, Josef. 2007. Selekční jazyky 1 : Úvod do problematiky [ppt]. Přednáška č. 2 (kombinované studium). 9.11.2007.