Vybrané pojmy z oblasti selekčních jazyků a věcného pořádání informací Materiál určený pro studenty předmětu “Selekční jazyky” Zpracoval Josef Schwarz říjen 2003 upraveno září 2006 (text vznikl úpravou výtahu z práce SCHWARZ, J. Vývoj teorie a praxe tezaurů v České republice : nástin dějin deskriptorových selekčních jazyků v bývalém Československu se zaměřením na vývoj teoretických, metodických a normativních aspektů tvorby tezaurů. Diplomová práce ÚISK FF UK. Praha : vlastním nákladem, 1999. IX, 121 s.) Poznámka: tento text slouží výhradně pro studijní potřebu, nelze jej dále šířit ani používat jako pramen při psaní seminárních a dalších prací. OBSAH ZÁKLADNÍ POJMY.........................................................................................................................2 ZNAK, POJEM, VÝZNAM..............................................................................................................2 JAZYK................................................................................................................................................3 PROCESY VĚCNÉHO POŘÁDÁNÍ INFORMACÍ......................................................................4 TYPOLOGIE SELEKČNÍCH JAZYKŮ ........................................................................................5 TYPY DESKRIPTOROVÝCH SELEKČNÍCH JAZYKŮ A TEZAURŮ...................................8 2 ZÁKLADNÍ POJMY Oblast věcného pořádání informací a selekčních jazyků patří do širší problematiky pořádání informací a informačních jazyků. Pořádání informací je jedním z charakteristických procesů informačního systému, který na obecné úrovni zahrnuje procesy výběru a akvizice informací, vstupního zpracování, uložení informací a výstupního zpracování. Informační systém je souhrn prvků, jejich vztahů a vlastností (obecně složek informačního systému), který jako celek slouží pro získávání, uchovávání a šíření informací. Složky informačního systému můžeme analyzovat na základě obecné teorie systémů a vyčlenit tak prvky, ze kterých se informační systém skládá, a procesy, které probíhají v rámci informačního systému, popř. v rámci interakce informačního systému s jeho okolím. Prvky informačního systému dále můžeme rozložit na subsystémy informačního systému, které jsou jeho funkční součástí, a objekty informačního systému, které jsou předmětem informačního systému. Objekty informačního systému jsou informační objekty, jimiž na konkrétní úrovni rozumíme např. dokumenty. ZNAK, POJEM, VÝZNAM Disciplína zkoumající vlastnosti znaků a znakových soustav, které nesou určitý význam, se nazývá sémiotika. Znak je základní sémiotická jednotka chápaná jako třída smyslově vnímatelných signálů, které poukazují k témuž objektu, vlastnosti nebo stavu, resp. které je na základě konvence zastupují. Pojem je myšlenková konstrukce vzniklá abstrakcí na základě vlastností společných určité množině objektů; myšlenková představa je určená svou intenzí (obsahem), tj. souhrnem podstatných charakteristik množiny denotátů, a extenzí (rozsahem), tj. množinou objektů (denotátů), kterou daný pojem zahrnuje. Denotát je součást (jev, předmět, proces atd., obecně entita) objektivní reality, který je zastoupen znakem a „myšlen“ pojmem. Základní vztahy mezi objektivní realitou, myšlením a jazykem vyjadřuje model, který se nazývá sémiotický (sémantický) trojúhelník. Obr. č. 1 Sémiotický (sémantický) trojúhelník Sémiotický trojúhelník vyjadřuje základní představu, že znaky se nevztahují k reálnému objektu přímo, ale prostřednictvím abstraktní představy, pojmu. Místo pojmu se v sémiotickém trojúhelníku někdy uvádí význam či smysl, místo znaku se někdy uvádí obecnější symbol nebo konkrétnější slovo či termín. Pod objektem se rozumí konkrétní věc či předmět nebo abstraktní entita, označuje se někdy také jako referent či nominát. Vztah mezi pojmem a objektem je myšlenkový a označuje se jako designace, vztah mezi znakem a pojmem je významový a označuje se jako signifikace, vztah mezi znakem a objektem je označovací a používá se pro něj termínu pojem (designát) znak (designátor) objekt (denotát) denotace designacesignifikace 3 denotace. Významem znaků se zabývá část sémiotiky nazývaná sémantika, v lingvistice je tato oblast ozančována spíše jako lexikální sémantika. Význam je pojmová hodnota, obsah jazykového znaku. Smysl je systém významových vztahů; způsob, jímž je předmět označený znakem „podán“ (Jitřenka/Večernice - Frege). Sémantém je nejmenší jazykový znak vyjadřující lexikální význam; často se kryje s kořenem slova. Sém je nejmenší jednotka významu, k níž se dospívá sémantickou analýzou; v jazykovém systému pro sém neexistuje odpovídající formální jednotka. Sémém je množina sémů; v jazykovém systému je vyjádřen lexémem (lexikální jednotkou). JAZYK Jazyk je „systém znaků umožňujících komunikaci, který se obvykle skládá ze slovní zásoby a z pravidel“ (ČSN ISO 5127-1/1.1.2-01). Vzhledem k tomu, že řada procesů a jevů je v rámci informačního systému účelově formalizována, používá se v mnoha případech pro komunikaci informací umělý jazyk, kterým rozumíme „jazyk vytvořený nebo řízený pomocí souboru předem stanovených pravidel“ (ČSN ISO 5127-1/1.1.1-03). Rozdíl oproti přirozenému jazyku spočívá v tom, že v přirozeném jazyce slovní zásoba (lexikum) i soubor pravidel (gramatika) nebyly stanoveny předem, ale mají svůj specifický genetický původ, tzn. přirozený jazyk je „jazyk, který se vyvíjí a jehož pravidla vyplývají z úzu, takže nemusejí být formálně stanovena“ (ČSN ISO 5127-1/1.1.1-02). Přestože mezi umělým (v našem případě selekčním) a přirozeným jazykem existuje řada rozdílů a někteří autoři dokonce umělý jazyk nepovažují za jazyk ve vlastním slova smyslu,1 lze pro popis umělého (selekčního) jazyka použít lingvistickou terminologii, i když lingvistika samotná považuje za hlavní předmět svého zájmu přirozený jazyk.2 Lexikum je slovní zásoba určitého jazyka. Základní jednotkou lexika je lexikální jednotka, jež může být definována jako minimální posloupnost fonémů nebo grafémů, která je dále sémanticky nedělitelná. Pokud se lexikální jednotka skládá z více než jednoho slova, označuje se jako sousloví. Sousloví je lexikální jednotka, kterou lze morfologicky rozčlenit na oddělené složky; sousloví se skládá ze základu, kterým je obvykle substantivum, a modifikátoru, kterým bývá adjektivum, neshodný přívlastek nebo jiný prvek. V oblasti selekčních jazyků za základní jednotku slovníku považujeme pořádací znak. Pořádací znak systematického selekčního jazyka se nazývá klasifikační znak; klasifikační znak je vyjádřen notací, tj. posloupností znaků, který se používá k označení tříd klasifikačního schématu (třída je skupina klasifikovaných pojmů vzniklá na základě shodných charakteristik za účelem definování sémantických vztahů mezi nimi; třída je označena notací. Tvoří základní prvek klasifikačního systému označující základní kategorii.) Podle druhu použitých znaků dělíme notaci na alfabetickou (jako znaky notace jsou použita písmena), numerickou (jako znaky jsou použity číslice) nebo alfanumerickou (smíšenou – jsou použita písmena i číslice). Podle struktury rozlišujeme notaci expanzivní (tj. notaci umožňující rozšiřování klasifikačního systému), lineární notaci (vyjadřuje pořadí tříd, nikoliv však vztahy mezi nimi) a hierarchickou notaci (vyjadřuje vztahy mezi třídami). Desetinná notace je typ numerické notace užívající číslic 0-9 a umožňující 1 „Označení ‘jazyk’ přísluší pouze přirozenému lidskému dorozumívacímu kódu.“ V ostatních případech „by se mělo raději mluvit o ‘umělých jazykových kódech’ nebo podobně“ (ERHART, A. Základy jazykovědy. Praha, Státní pedagogické nakladatelství, 1984, s. 12.). 2 „Centrem zájmu jazykovědců je však pochopitelně v první řadě přirozený jazyk jako základní, nejbohatší a polyfunkční prostředek komunikace“ (ČERMÁK, F. Jazyk a jazykověda : přehled a slovníky. Praha : Karolinum, 2001, s. 15.). 4 logický rozklad předmětu dokumentu na jednotlivé komponenty. Každé číslo notace je chápáno jako desetinný zlomek s vypuštěnou desetinnou čárkou. Pořádací znak předmětového selekčního jazyka se nazývá lexikální jednotka. Lexikální jednotky deskriptorového selekčního jazyka (tedy lexikální jednotky v tezauru) jsou dvou typů: deskriptor (resp. nepreferovaný termín3 ) je „lexikální jednotka užívaná závazně při indexování k vyjádření určitého pojmu“ (ČSN 01 0193, 1996:5), nedeskriptor (resp. nepreferovaný termín4 ) je „ekvivalent nebo kvaziekvivalent preferovaného termínu; nepreferovaný termín není dokumentu přiřazován, ale slouží jako uživatelský vstup do tezauru nebo abecedního rejstříku; uživatel je odkázán příslušným pokynem (např. viz) k ekvivalentnímu preferovanému termínu“ (ČSN 01 0193, 1996:5). Lexikální jednotka předmětového selekčního jazyka založeného na předmětových heslech se nazývá předmětové heslo; skládá se z hesla, podhesla a doplňku. Gramatika je soubor pravidel určujících způsob tvorby tvarů slov a jejich spojování do vět. Syntax je část gramatiky, která se zabývá skladbou vět a souvětí. Morfologie je nauka o druzích slov, o jejich tvarech a o významech tvarů. Gramatika selekčního jazyka je soubor pravidel a prostředků, kterými se tvoří různé tvary pořádacích znaků a jimiž se řídí jejich spojování do vyšších jednotek při indexaci či klasifikaci. Syntax selekčního jazyka je část gramatiky selekčního jazyka, která určuje pravidla pro spojování pořádacích znaků. Morfologie selekčního jazyka je část gramatiky selekčního jazyka, která určuje pravidla pro modifikaci tvarů pořádacích znaků pomocí specifických morfologických prostředků.5 Homonymie je „vlastnost dvou nebo více termínů, které mají stejnou grafickou nebo zvukovou podobu, ale rozdílný význam“ (ČSN ISO 5127-1/1.1.2-16). Speciálním případem homonymie je homografie, kterou se rozumí „vlastnost dvou nebo více termínů, které mají stejnou grafickou formu, ale rozdílný význam“ (ČSN ISO 5127-1/1.1.2-16). Polysémie je „vlastnost slova, které má dva nebo více etymologicky příbuzných významů“ (ČSN ISO 5127- 1/1.1.2-14). Pro selekční jazyky je nejzávažnějším jevem homografie, přičemž z hlediska řešení mnohovýznamovosti v rámci slovníku selekčního jazyka je bezpředmětné rozlišení mezi homografií a polysémií. Synonymie je „vlastnost dvou nebo více termínů majících odlišnou formu a přesně nebo přibližně tentýž význam“ (ČSN ISO 5127-1/1.1.2-12). Hierarchický vztah je „formální vztah mezi dvěma termíny nebo třídami, kde jeden (jedna) je podřízen (podřízena) druhému (druhé)“ (ČSN ISO 5127-6/3.4.4-09). Asociativní vztah je „sémantický vztah mezi pojmy se vzájemnou vazbou z hlediska specifického účelu“ (ČSN ISO 5127-6/3.4.4-04). Vztah ekvivalence je „formální vztah mezi termíny představovanými stejným (stejnými) deskriptorem (deskriptory) nebo znakem třídy“ (ČSN ISO 5127-6/3.4.4-11). PROCESY VĚCNÉHO POŘÁDÁNÍ INFORMACÍ Pořádání informací je dílčím procesem vstupního zpracování informací, jenž probíhá 3 Norma upřednostňuje termín preferovaný termín, nicméně z praktických důvodů se používá termínu deskriptor. 4 Norma upřednostňuje termín nepreferovaný termín, nicméně z praktických důvodů se používá termínu nedeskriptor. 5 Zejména v tezauru se používá těchto gramatických prostředků: spoje (na syntaktické úrovni) nebo role a váhy (na morfologické úrovni); jsou vyjádřeny ve formě indikátorů. Spoj je „znak nebo symbol použitý ke spojení deskriptorů přiřazených dokumentu nebo rešeršnímu požadavku a zabraňující náhodnému spojení těchto deskriptorů s jinými“ (ČSN ISO 5127-3a/3.3.2-06). Indikátor role je „pomocný symbol, který může být vybrán ze zvláštního seznamu a připojen k deskriptoru pro vyjádření, ve kterém smyslu byl deskriptor použit“ (ČSN ISO 5127-6/3.4.2-11). Indikátor váhy je pomocný symbol, který na základě určité škály vyjadřuje důležitost deskriptoru z hlediska obsahu dokumentu a v souvislosti s dalšími lexikálními jednotkami selekčního obrazu dokumentu. 5 v rámci informačního systému. Procesem předcházejícím pořádání informací je informační analýza dokumentů, kterou se zjišťují významné identifikační a obsahové charakteristiky dokumentu. Pořádání informací je vytváření organizovaných souborů informací na základě určitého systému. Pořádání informací lze rozdělit na identifikační pořádání informací, při kterém jsou zjišťovány formální charakteristiky dokumentu, a věcné pořádání informací, při kterém jsou zjišťovány obsahové charakteristiky dokumentu. Věcné pořádání informací lze podle základní charakteristiky použitého systému pořádání rozdělit na systematické pořádání informací a předmětové pořádání informací. Systematické pořádání informací je proces, při kterém jsou informace vřazovány na dané místo v rámci systematicky uspořádaného souboru (systému) lidského poznání, přičemž jejich postavení se v zásadě řídí rodo-druhovými vztahy a slovní formulace obsahu dokumentu bývá většinou nahrazena znaky umělého jazyka (notacemi)6 . Pro systematické pořádání informací se používá také označení třídění, klasifikace, systematické zpracování, systematická katalogizace ad. Předmětové pořádání informací je proces, při kterém jsou informace vyjádřeny souborem abecedně uspořádaných hesel7 . Pro předmětové pořádání informací se používá také označení heslování, předmětové třídění, předmětová klasifikace, předmětové zpracování ad. Používání termínů označujících předmětové pořádání informací jako třídění, resp. klasifikaci není vhodné, protože způsobuje terminologickou konfúzi. Indexace (indexování, indexing) je „proces vyjádření výsledku analýzy dokumentu prostřednictvím prvků selekčního jazyka nebo přirozeného jazyka, obvykle s cílem umožnit zpětné vyhledávání“ (ČSN ISO 5127-3a/3.2.1-03). Automatická indexace (automatické indexování, automated indexing) je „vyjádření obsahu dokumentu pomocí automatického výběru slov nebo termínů z textu nebo pomocí automatického přiřazování termínů selekčního jazyka“ (ČSN ISO 5127-3a/3.3.3-01). Poloautomatická indexace (machine-aided indexing) je ekvivalentně k předchozí definici vyjádření obsahu dokumentu pomocí poloautomatického výběru slov nebo termínů z textu nebo pomocí poloautomatického přiřazování termínů selekčního jazyka, přičemž poloautomatickými postupy rozumíme takové procedury, při kterých je část procesu indexace provedena automaticky a výsledek této části slouží jako podklad pro intelektuální indexaci. Postkoordinovaná indexace je indexace bez předem stanoveného uspořádání pořádacích znaků (lexikálních jednotek nebo klasifikačních znaků). Ke koordinaci (kombinaci) pořádacích znaků dochází až při vyhledávání. Prekoordinovaná indexace je indexace dokumentů, při které je uspořádání pořádacích znaků dáno selekčním jazykem. Klasifikace je přidělování notací (znaků tříd) klasifikačního systému za účelem vyjádření obsahu dokumentu. Fazetace je rozdělení slovníku selekčního jazyka pomocí faset. Fazeta je kategorie entit vytvořená uplatněním jedné klasifikační charakteristiky (principium divisionis), která je pro danou kategorii (třídu) podstatná, strukturální. Fazety vyjadřují vlastnosti použité pro seskupování pojmů podle jejich podstaty. Zjednodušeně lze říci, že fazeta je velmi obecná kategorie, která se používá pro rozdělení slovníku selekčního jazyka podle základních charakteristik pojmů, jenž jsou vyjádřeny konkrétními pořádacími znaky. TYPOLOGIE SELEKČNÍCH JAZYKŮ Umělý jazyk, používaný v rámci informačního systému, se nazývá informační jazyk. Podle funkce informačního jazyka lze vydělit algoritmické informační jazyky, kterými rozumíme 6 volně podle: KOVÁŘ, B. Věcné pořádání informací a selekční jazyky. Díl 1. Úvod do problematiky, systematické pořádání. Praha : ÚVTEI, 1981, s. 9-10. 7 volně podle: KOVÁŘ, B. Věcné pořádání informací a selekční jazyky. Díl 2. Předmětová pořádání, mezinárodní spolupráce, automatické indexování. Praha : ÚVTEI, 1982, s 5. 6 programovací jazyky, logické informační jazyky, které se používají k formalizaci pojmů pomocí matematické logiky (např. dotazovací jazyky), a selekční informační jazyky, používané pro zaznamenávání, třídění, ukládání a vyhledávání informací. Selekční informační jazyky lze rozdělit na identifikační selekční informační jazyky, které slouží pro popis formálních charakteristik dokumentu, a věcné selekční informační jazyky, které slouží pro popis obsahových charakteristik dokumentu. Identifikačními selekčními informačními jazyky se nebudeme dále zabývat. Věcné selekční informační jazyky budeme dále označovat jako selekční jazyky. Obecná definice selekčního jazyka jej charakterizuje jako „formalizovaný jazyk používaný k charakterizování dat nebo obsahu dokumentů za účelem jejich ukládání a vyhledávání“ (ČSN ISO 5127-6/3.4.1-01). Cizojazyčné ekvivalenty pro pojem selekčního jazyka jsou information retrieval languages (angličtina), informacionno-poiskovyj jazyk (ruština), Informationsrecherchesprache (němčina), langage de recherche documentaire (francouzština). Tato terminologie se ovšem v zahraniční ani v československé literatuře nepoužívala jednotně a pro označení pojmu selekčního jazyka lze nalézt další výrazy jako např. průzkumový jazyk, informačně-selekční jazyk, informační selekční jazyk, informační jazyk, dokumentační jazyk, dokumentační selekční jazyk, rešeršní jazyk, informačně-vyhledávací jazyk, bibliografický jazyk, katalogizační jazyk nebo systémy pořádání. Dále důsledně používáme termínu selekční jazyk. Vzhledem k existenci různých selekčních jazyků je žádoucí rozdělit je podle druhů a typů. Typologie selekčního jazyka však není jednotná, protože nelze stanovit jednoznačné principium divisionis pro rozdělení jednotlivých selekčních jazyků. Selekční jazyky můžeme rozdělit podle jejich funkce, vnitřní struktury, uspořádání pojmů, stupně formalizace, šířky tematického zaměření, expanzivity a dalších kritérií. V teorii i praxi selekčních jazyků se nejvíce osvědčilo rozdělení podle toho, jak jsou v selekčním jazyce uspořádány jednotlivé pojmy, a podle toho, jakým způsobem jsou vytvářeny selekční obrazy dokumentů (selekční obraz dokumentu je množina všech pořádacích znaků přiřazených dokumentu). Na základě těchto principů můžeme rozdělit selekční jazyky na dva základní druhy: systematické selekční jazyky a předmětové selekční jazyky, a dva základní typy: prekoordinované selekční jazyky a postkoordinované selekční jazyky. Systematický selekční jazyk je selekční jazyk používaný „pro strukturní zpracování dokumentů nebo dat pomocí symbolů a příslušných termínů s cílem umožnit systematický přístup, v případě potřeby s pomocí abecedního rejstříku“ (ČSN ISO 5127-6/3.4.1-03).8 Pro tento pojem se také používají označení klasifikační systém, knihovnicko-bibliografická klasifikace, bibliografický klasifikační systém, klasifikace (ve smyslu systému, nikoliv procesu), třídění (ve smyslu systému, nikoliv procesu), knihovnické třídění, systematické třídění, systematická pořádací soustava, ad. Předmětový selekční jazyk je (ekvivalentně9 definici systematického selekčního jazyka) selekční jazyk používaný pro strukturní zpracování dokumentů nebo dat pomocí abecedně uspořádaných termínů s cílem umožnit předmětový přístup. Pro tento pojem se také používají označení systémy heslování, systémy předmětových hesel, předmětové třídění, abecední předmětové třídění, předmětová pořádací soustava, předmětová klasifikace ad. Používání termínů označujících předmětový selekční jazyk jako třídění, resp. klasifikaci není vhodné, protože způsobují terminologickou konfúzi. Prekoordinovaný selekční jazyk je selekční jazyk, jehož lexikum se skládá10 z pořádacích znaků, které vyjadřují složené pojmy a které jsou používány pro indexaci i vyhledávání. Postkoordinovaný selekční jazyk je selekční jazyk, jehož lexikum se skládá11 z pořádacích znaků, jež vyjadřují jednoduché pojmy, při indexaci jsou do selekčního obrazu dokumentu zařazovány nezávisle na sobě a k jejich kombinaci dochází až v průběhu vyhledávání. 8 Norma ovšem neuvádí termín systematický selekční jazyk, ale klasifikační systém. 9 Definici předmětového selekčního jazyka norma ČSN ISO 5127-6 neobsahuje. 10 Nikoliv nutně, ale charakteristicky. 11 Nikoliv nutně, ale charakteristicky. 7 Na základě výše uvedené typologie a definic můžeme odvodit označení a význam pro čtyři základní kategorie selekčních jazyků: prekoordinovaný systematický selekční jazyk, postkoordinovaný systematický selekční jazyk, prekoordinovaný předmětový selekční jazyk a postkoordinovaný předmětový selekční jazyk. K prekoordinovaným systematický selekčním jazykům12 patří např. Deweyho desetinné třídění (DDT) nebo Mezinárodní desetinné třídění (MDT), mezi postkoordinované systematické selekční jazyky13 se řadí např. Ranghanatanovo dvojtečkové třídění. Předmětové selekční jazyky dále můžeme rozdělit na tři dílčí typy podle charakteru lexikálních jednotek. První skupinou předmětových selekčních jazyků jsou předmětové selekční jazyky založené na použití slov z názvu dokumentů. Podle toho, zda vznikly intelektuálním nebo automatizovaným zpracováním, se rozlišují názvové katalogy, resp. názvové rejstříky, a permutované (cyklické) rejstříky dvou typů: KWIC (Keyword in Context) a KWOC (Keyword out of Context). Tento typ předmětového selekčního jazyka se označuje někdy také termínem klíčová slova, který ovšem může v různých kontextech nabývat různých významů,14 proto je vhodnější použít přesnějšího označení klíčová slova z názvů dokumentů. Druhým typem předmětového selekčního jazyka je předmětový selekční jazyk typu předmětových hesel, pro jednoduchost označovaný často jako předmětová hesla. Lexikum tohoto typu selekčního jazyka sestává z předmětových hesel. Protože je jednoduchý pořádací znak tohoto selekčního jazyka, předmětové heslo, strukturován na dílčí syntakticky spojené složky (heslo, podheslo, doplněk), jedná se o prekoordinovaný selekční jazyk. Třetí skupinou předmětových selekčních jazyků jsou předmětové selekční jazyky deskriptorového typu, pro jednoduchost označované často termínem deskriptorové selekční jazyky. Lexikum těchto selekčních jazyků je tvořeno lexikálními jednotkami, jejichž struktura a význam jsou specificky vymezeny a jenž určují i charakter deskriptorového selekčního jazyka jako postkoordinovaného selekčního jazyka. Můžeme vyčlenit dva základní dílčí typy deskriptorových selekčních jazyků, deskriptorové selekční jazyky založené na unitermech a deskriptorové selekční jazyky založené na deskriptorech. Jak jsme uvedli výše, selekční jazyky můžeme rozdělit do dalších kategorií podle nejrůznějších kritérií. Podle šířky tematického zaměření rozlišujeme univerzální selekční jazyky, jejichž lexikum zahrnuje celé univerzum lidského poznání, a speciální selekční jazyky, jejichž lexikum zahrnuje určitou, většinou oborově vymezenou oblast lidského poznání. Speciálním typem univerzálních selekčních jazyků jsou polytematické, resp. polytechnické selekční jazyky, zaměřené na vybranou oblast lidského poznání zahrnující několik vymezených oborů (v případě polytechnických selekčních jazyků se jedná o obory technické). V oblasti speciálních selekčních jazyků lze vydělit oborové, resp. odvětvové selekční jazyky, tzn. selekční jazyky zahrnující lexiku vybraného oboru nebo odvětví národního hospodářství. Zde je nutno podotknout, že princip univerzálnosti je charakteristický spíše pro systematické selekční jazyky, kdežto princip speciálnosti se uplatňuje především v předmětových selekčních jazycích. Podle toho, zda jsou v selekčním jazyce uplatněny gramatické prostředky, rozlišujeme selekční jazyky s gramatikou a selekční jazyky bez gramatiky, resp. selekční jazyky s nulovou gramatikou. 12 Z hlediska vnitřního uspořádání lexika se jedná o systematické selekční jazyky hierarchického typu, označované někdy méně přesně jako hierarchické klasifikace. 13 Z hlediska vnitřního uspořádání lexika se jedná o systematické selekční jazyky fazetového typu, označované také někdy jako fazetové klasifikace. 14 Klíčovými slovy se rozumí např. výrazy vybrané z textu dokumentu apod. 8 TYPY DESKRIPTOROVÝCH SELEKČNÍCH JAZYKŮ A TEZAURŮ Jak jsme uvedli výše, dva základní typy deskriptorových selekčních jazyků jsou deskriptorové selekční jazyky založené na unitermech, zkráceně unitermy, a deskriptorové selekční jazyky založené na deskriptorech, které se v praxi běžně označují jako tezaury – to je však chybné, protože tezaurus je pouze jednou složkou deskriptorového selekčního jazyka, a to jeho slovníkem. Vývojově starším, tezaurům předcházejícím systémem, jsou unitermy. Uniterm je „nejmenší významový prvek selekčního jazyka použitý k vyjádření specifického pojmu v rámci systému koordinovaného indexování“ (ČSN ISO 5127-6/3.4.2-10). Systém unitermů je charakterizován lexikem, jehož lexikální jednotky (unitermy) jsou vyjádřeny většinou jednoslovně, v nezbytných případech15 souslovím, jenž může obsahovat vzájemné vztahy lexikálních jednotek, které odstraňují synonymii a homonymii, které však nezahrnuje hierarchické vztahy lexikálních jednotek. Všechny unitermy jsou považovány za lexikální jednotky se stejnou hierarchickou úrovní. Systém unitermů prošel od svého vzniku v r. 1951 v průběhu 50. let určitým vývojem a uvedený popis systému odpovídá jeho konečnému stavu na přelomu 50. a 60. let, kdy byl jeho vývoj v zahraničí uzavřen nástupem tezaurů. V původní verzi např. musely být všechny unitermy jednoslovné a mezi lexikálními jednotkami neexistovaly žádné vztahy. Z unitermů a dalších systémů se vyvinuly deskriptorové selekční jazyky založené na deskriptorech, jejichž forma a vztahy jsou standardizovány slovníkem se speciální strukturou, tezaurem. Tezaurus je „slovník řízeného selekčního jazyka uspořádaný tak, že explicitně zachycuje apriorní vztahy mezi pojmy“ (ČSN 01 0193, 1996:5). Současné pojetí tezauru je zakotveno normou ISO 2788 (1986) doplněnou ISO 5964 (1985) pro vícejazyčné tezaury. Obě normy jsou v českém národním prostředí implementovány jako ČSN 01 0193 (1996) a ČSN 01 0172 (1992). Podle šířky tematického zaměření rozeznáváme univerzální tezaury a speciální tezaury. Univerzální tezaury zahrnují celé univerzum lidského poznání. Speciálním typem univerzálních tezaurů jsou polytematické, resp. polytechnické tezaury, zaměřené na vybranou oblast lidského poznání zahrnující několik vymezených oborů (v případě polytechnických tezaurů se jedná o obory technické). Z hlediska struktury i funkce je značně specifickým typem univerzálního tezauru makrotezaurus, kterým se rozumí „tezaurus tvořený termíny vysoké úrovně obecnosti a zahrnující širokou oblast (lidského) poznání“ (ČSN ISO 5127-6/3.4.5.1-05). Skutečně univerzální tezaury je velmi obtížné realizovat; praktické pokusy o jejich tvorbu většinou nepřinesly adekvátní výsledky u nás ani v zahraničí. Tezaury jsou většinou realizovány jako oborové tezaury, tzn. tezaury omezené na jeden obor lidského poznání, které jsou nejcharakterističtějšími typy tezaurů. Podle jazykového zaměření dělíme tezaury na jednojazyčné tezaury a vícejazyčné tezaury. Jednojazyčný tezaurus je tezaurus „obsahující deskriptory a obvykle nedeskriptory převzaté z jednoho přirozeného jazyka“ (ČSN ISO 5127-6/3.4.6.1-01). Vícejazyčný tezaurus je tezaurus „obsahující deskriptory a obvykle nedeskriptory převzaté z několika přirozených jazyků a vyjadřující ekvivalentní pojmy v každém z těchto jazyků“ (ČSN ISO 5127-6/3.4.6.1-02). Vícejazyčné tezaury jsou někdy označovány nesprávným termínem mnohojazyčné tezaury.16 Podle způsobu tvorby, resp. vnitřního uspořádání, vyčleňujeme specifický typ tezauru označovaný termínem fazetový tezaurus, kterým rozumíme tezaurus, ve kterém „se vztahy mezi termíny vytvářejí potom, když byly přeskupeny podle faset“ (ČSN ISO 5127-6/3.4.6.1-09). Fazetový přístup může ovlivnit nejen postup tvorby tezauru, ale i uspořádání tezauru. Z hlediska funkce tezauru rozlišujeme „tradiční“ tezaurus (conventional thesaurus, resp. „classic“ thesaurus nebo „traditional“ thesaurus), který se používá pro indexaci a vyhledávání 15 Jedná se o případy, ve kterých by došlo v důsledku syntaktického rozkladu ke ztrátě významu původního sousloví. Původní verze unitermů však tuto charakteristiku neobsahovala (viz další text). 16 Uvedený termín je nesprávný proto, že jazyků ve vícejazyčném tezauru nemusí být „mnoho“, ale např. pouze dva. 9 dokumentů, vyhledávací tezaurus (searching thesaurus, search-aid thesaurus, „advice-giving“ thesaurus), který se používá pouze pro vyhledávání dokumentů,17 a indexační thesaurus (indexing thesaurus), který se používá pouze pro indexaci dokumentů18,19 . Indexační tezaurus se používá v praxi pouze zřídka, větší pozornost se věnuje vyhledávacím tezaurům v souvislosti s možnostmi zpracování plných textů. Vyhledávací tezaurus může být realizován na třech úrovních jako intelektuální, poloautomatická nebo automatická podpora uživatele při sestavování dotazu. Intelektuální podpora pomocí vyhledávacího tezauru spočívá v možnosti intelektuálního výběru lexikálních jednotek z tezauru při sestavování dotazu.20 Poloautomatická podpora je realizována na základě automatického doplnění dotazu uživatele o automaticky vybrané lexikální jednotky tezauru. Po sestavení dotazu je uživateli automaticky nabídnut seznam potenciálně vhodných lexikálních jednotek (popř. jsou tyto lexikální jednotky automaticky doplněny do dotazu), které souvisejí s již zadanými termíny, s možností jejich potvrzení nebo zamítnutí uživatelem a následným začleněním do dotazu. Automatická podpora může být charakterizována jako analýza dotazu (v přirozeném jazyce) pomocí vyhledávacího tezauru. Po sestavení dotazu (v přirozeném jazyce) se automaticky provede převod z klíčových slov na lexikální jednotky vyhledávacího tezauru a provede se vyhledávání, přičemž uživatel se při práci se systémem ani nemusí dozvědět, že pracuje s tezaurem. 17 Indexace je provedena jiným tezaurem, jiným selekčním jazykem nebo se jedná o plné texty dokumentů. 18 Vyhledávání probíhá na základě jiného systému, např. na základě zpracování dotazu v přirozeném jazyce. 19 AITCHISON, J., GILCHRIST, A., BAWDEN, D. Thesaurus construction and use : a practical manual. Third ed. London : Aslib, 1997, s 1-2. 20 Tato funkce je zcela identická s tradičním tezaurem, rozdíl spočívá v tom, že vyhledávácím tezaurem nejsou indexovány vyhledávané dokumenty.