K otázkám pojmu, třídění a typologie internetových a webovských informačních zdrojů Eva BRATKOVÁ ÚISK FF UK, Praha Email: brt@cuni.cz Tento text je aktualizovaným a doplněným elektronickým postprintem dříve publikovaného článku (aktualizace a doplňky k 1.4. 2005): BRATKOVÁ, Eva. K otázkám pojmu, třídění a typologie internetových a webovských informačních zdrojů. Národní knihovna : knihovnická revue. 1998, roč. 9, č. 5, s. 262-276. ISSN 0862-7487. 1 Problematika vymezení základních pojmů V soudobé společenské informační komunikaci nabyly mimořádného významu elektronické (digitální) informační zdroje a způsoby jejich veřejného zpřístupňování prostřednictvím globální sítě Internet a zejména jeho nejprogresivnější služby WWW. Řada vědních disciplín včetně informační vědy zkoumá dnes intenzivně různé aspekty této komunikace i její jednotlivé prvky s cílem přispět k další optimalizaci řízení toků informací, organizaci jejich zdrojů a zejména k jejich efektivnímu využívání. Tento článek je dílčím diskusním příspěvkem ke složité problematice poznávání funkcí, charakteru a vlastností elektronických (digitálních) informačních zdrojů dostupných v síti Internet. Nejde ovšem o komplexní zkoumání dané problematiky a ani to v rámci rozsahu tohoto článku není možné. Analyzován je pouze jeden aspekt těchto zdrojů - jejich místo či zařazení v celkové množině všech informačních zdrojů a zejména jejich další vnitřní dělení (jde o třídění, vymezené zpravidla jediným znakem zdrojů, nebo typologii, vymezenou zpravidla kombinací dvou či více znaků zdrojů, popř. stanoveným modelem). Z hlediska metodologického jde v příspěvku o rozbor a hodnocení vybraných existujících třídění a typologií elektronických informačních zdrojů dostupných v síti Internet, jež byly vytvořeny pro potřeby jejich zpracování v oblasti tradičních knihoven i ve vlastní oblasti Internetu. Jsou totiž z určitého hlediska zajímavým obrazem vývoje a současného stavu informačních zdrojů a jejich rozbor může být užitečný nejen pro praktické potřeby jejich zpracování, ale i pro potřeby postupného teoretického objasňování jejich charakteru a podstaty. V článku se vychází z předpokladu, že kategorie, skupiny či typy těchto zdrojů v existujících tříděních a typologiích mohou ve svém souhrnu podat celkový rozsah a obsah základních pojmů. Východiskem rozboru je pracovní vymezení základních pojmů. Studium odborné literatury z této oblasti poznání poskytuje pestrý obraz pojmů vztahujících se k elektronickým zdrojům včetně zdrojů síťových užívaných doma i v zahraničí. V celé jejich množině je možné vymezit 4 dílčí skupiny, které postupně zahrnují pojmy užšího rozsahu. Dílčí množiny zahrnují řadu synonymních termínů. Jde o následující skupiny: 1. výchozí skupina zahrnuje pojmy vymezující všechny „elektronické informační zdroje“, tedy i zdroje přes počítačové sítě nedostupné; termín „digitální informační zdroje“ lze považovat za synonymum pojmu předchozího; do skupiny patří i pojem užívaný často v 2 oblasti počítačové vědy „elektronické (digitální) objekty“, dále zejména v knihovnictví se vyskytující pojmy „elektronické (digitální) materiály“ nebo dnes již ne zcela vyhovující pojem „počítačové soubory“ a také pojmy užšího rozsahu „elektronické (digitální) dokumenty“, které pro některé odborníky představují často jen zdroje textových informací, nebo „elektronické (digitální) publikace“, jejichž nově definovaný obsah je v současné době předmětem výzkumů; uvedené pojmy bývají často užívány také ve smyslu zdrojů dostupných již přes počítačové sítě 2. druhá skupina zužuje množinu předchozích pojmů na základě kritéria přístupu k těmto zdrojům přes počítačové sítě (jakékoliv); zahrnuje pojem „síťové [informační] zdroje“, popř. „síťové elektronické zdroje“, dále zejména v knihovnických systémech frekventovaný termín „elektronické zdroje dostupné na dálku“ (v angl. „remotely accessed resources“), standardní termín „online [informační] zdroje“, který může ovšem mít i jiný význam, a užší pojmy „síťové dokumenty“ nebo „síťové publikace“ 3. třetí skupina, která je podmnožinou předchozí skupiny, obsahuje informační zdroje dostupné veřejně přes celosvětovou počítačovou síť Internet, tj. v rámci definovaných protokolů TCP/IP; termín „veřejně dostupný“ bych zdůraznila, protože v tomto kontextu znamená, že množina zdrojů, jež jsou sice přes Internet přístupné, ale nejsou k dispozici veřejně (vstupy jsou pouze na neveřejné heslo), do pojmu „internetový zdroj“ nepatří; skupina zahrnuje frekventované pojmy „internetové [informační] zdroje“ (s občas se vyskytující českou variantou „internetovské zdroje“, kterou však lingvisté odmítají, proto není užívána ani v tomto článku), „internetové materiály“ a opět užší „internetové dokumenty“ či „internetové publikace“ 4. poslední skupina zahrnuje informační zdroje dostupné veřejně v síti Internet pouze přes protokol HTTP (Hypertext Transfer Protocol); zahrnuje pojem „webovské [informační] zdroje“ (popř., dle sdělení lingvistů, s přípustnou další českou variantou „webové zdroje“ v článku je užito první varianty), užší, ale velmi frekventovaný pojem „webovské dokumenty“, jenž míří z hlediska typu obsažených informací především ke zdrojům textové povahy uložených na webovských serverech ve formátu HTML, dále jeho synonyma „dokumenty na WWW“ nebo přesněji označený termínem „dokumenty využívající HTTP protokol“; do této skupiny dále patří konkrétní pojmy „webovská stránka“, „domovská stránka“, „personální [webovská] stránka“ nebo „HTML stránka“ - ty se ale také už objevují v rámci konkrétních třídění nebo typologií těchto zdrojů; doplňme ještě komplexnější pojem „soubor webovských dokumentů“ (angl. „collection of web documents“), jakož i pojem „webowské sídlo“ (angl.website) nebo základní pojem „web“; k pojmům uvedeným v této skupině je možné dnes zařadit i další informační zdroje zpřístupňované původně v rámci Internetu samostatně přes jiné protokoly (FTP, Gopher, Usenet aj. - viz dále v textu), protože protokol HTTP je nyní podporuje také (jinak patří do předchozí skupiny pojmů); lze konstatovat, že množina „internetových informačních zdrojů“ se tak sblížila s množinou „webovských informačních zdrojů“. V daném příspěvku jsou předmětem rozboru třídění a typologie informačních zdrojů prezentovaných pojmy ze třetí a zejména čtvrté skupiny. Jestliže lze množiny těchto informačních zdrojů, daných v podstatě přístupem k nim, relativně snadno a bez větších problémů pracovně vymezit, pak vymezení rozdílů mezi pojmy „internetový/webovský informační zdroj“ 3 a „internetový/webovský dokument“ se zdá být naopak velmi složité. Je pravdou, že zejména knihovníci, pokud nejsou zároveň profesionály v oblasti počítačové vědy, si v současné době v diskusních fórech, v tisku apod. kladou řadu otázek týkajících se vymezení když ne obou, tak alespoň druhého pojmu [BUCKLAND, 1997]. Osobně se přikláním k názoru, a text tohoto článku je toho dokladem, že užití pojmu „dokument“ v síťovém digitálním prostředí je v určitém aspektu sice možné i legitimní, ale nepostačuje již k zahrnutí dalších forem informací, které jsou dnes prostřednictvím sítě Internet (jakožto média) přenášené. Tradiční pohled na dokument jako médium statické povahy (označovaný často také jako „informační konzerva“), jako médium k přenosu informací fixovaných a uspořádaných na materiálním nosiči v prostoru a čase (viz definice tohoto pojmu např. v známé klasické práci M. Novákové [NOVÁKOVÁ, 1983, s. 15]) již dnes nevyhovuje při pokusu objasnit povahu „síťového digitálního dokumentu“. Domnívám se, že nastal čas sáhnout k jinému (nikoliv novému) pojmu, který mimochodem ve svých pracích uvádí a definuje i již citovaná autorka M. Nováková [NOVÁKOVÁ, 1983, s. 15] nebo i J. Straka ve svém výkladovém slovníku sociální informatiky [STRAKA, 1990, s. 83-84], a sice k pojmu „nedokumentové informační prameny (zdroje)“. Autoři je jinak označují jako „nehmotné“ informační zdroje, které zajišťují vysílání a přenos informací prostřednictvím energie. Uvedení autoři poukazují rovněž na materiální objekty, které nejsou primárně určené k přenosu informací, ale mohou se zdrojem informací v případě potřeby stát. Jak bude vidět v dalších částech článku, v informačních systémech provozovaných v rámci Internetu se běžně užívá již jenom termínu „[informační] zdroje“ a systémy knihovnické se k tomu postupně propracovávají - viz např. publikování normy ISBD(ER) v roce 1997 [ISBD(ER), 1997]. Pojem „dokument“ je v západní terminologii často chápán jen jako materiál textové povahy (takto je definován také v normě ISBD(ER)) [ISBD(ER), 1997, s. 94] Řada současných autorů, kteří se vyjadřují k výše uvedené problematice, správně poukazuje na zcela nové, specifické znaky či vlastnosti „internetových a webovských dokumentů“: kromě již hojně komentovaných vlastností, jako jsou globální dostupnost, distribuovatelnost, interaktivnost, dynamičnost, multimediálnost, hypermediálnost či hypertextovost - viz např. jejich výstižná charakteristika v práci americké autorky Lindy Schamberové [SCHAMBER, 1996], je zdůrazňována skutečnost, že v prostoru sítě jsou na základě elektronických zdrojů informací uložených na serverech nebo i na základě informačních zdrojů reálného světa (připomeňme např. přímé přenosy z přírody, společenských setkání apod. realizované přes Internet) vysílány a směrem k uživatelům přenášeny (transferovány) na jejich vyžádání vlastně jenom jejich digitální „kopie“, které uživatel může v daném okamžiku vnímat v různých podobách v závislosti na užívaném programu (prohlížeči), koncovém zařízení včetně pořízení kopie na vlastní počítačové médium, jde-li např. o jednodušší typ zdroje (jednoduchý text). V případě zdroje složitějšího typu, např. interaktivního, je situace daleko komplikovanější. Zdánlivě jednoduchý seznam vyhledaných informací automaticky generovaný do formátu HTML a zobrazený na obrazovce počítače může ve skutečnosti mít za sebou složitou strukturu velkého počtu databázových a datových souborů lokalizovaných třeba i na různých serverech. Přes síť získané „elektronické dokumenty“, např. k vizuální percepci na monitoru či k poslechu přes příslušné zařízení, nejsou vlastně reálnými dokumenty, jejich fyzická forma (vlastnosti) se ztrácí, ale to podstatné, co uživatel získává, je informační obsah. Typ přenášených informací a formát (uspořádání dat) patří k hlavním a podstatným kritériím pro třídění či typologii síťových informačních zdrojů. 4 Dříve, než dojde k analýze vybraných reprezentantů třídění a typologií síťových digitálních informačních zdrojů, bude v části 2 uvedena typologie a charakteristika informačních zpráv, resp. jejich formátů, přenášených v síti Internet, která úzce navazuje na předchozí text a která do značné míry souvisí i s dalším rozborem. 2 Typologie elektronických zpráv v rámci internetové normy MIME Připomeňme si tedy v této části typologii zpráv přenášených v rámci protokolů TCP/IP tak, jak ji stanovuje internetová norma označovaná zkratkou MIME (Multipurpose Internet Mail Extensions, tj. víceúčelová rozšíření internetové pošty). Celou normu v nejnovější verzi představuje soubor textových dokumentů RFC 2045 - RFC 2049 přístupných v síti Internet (zrcadlově na řadě serverů). MIME je normou, která rozšiřuje původní normy RFC 821 - RFC 822, jež byly věnovány přenosu jednoduchých textových zpráv přes elektronickou poštu. MIME zajišťuje přepravu zpráv složitějšího charakteru - textů s diakritikou, obrázků, zvuků apod. prostřednictvím stávajícího poštovního systému (podstatnou roli ovšem hraje v tomto směru způsob kódování složitějších zpráv do základního ASCII kódu). Typologie zpráv je definována přesně v 2. části normy - RFC 2046 [RFC 2046, 1996]. V jejím názvu se užívá termínu „typy médií“ (media types) ve smyslu typů zpráv jako zprostředkovatelů přenosu informačního obsahu. Typologie je zejména pro provoz moderních služeb Internetu (News, WWW aj.) velmi užitečná a uplatňuje se, jak bude vidět v dále analyzovaných tříděních a typologiích informačních zdrojů, ve větší či menší míře v jednotlivých informačních systémech internetových i knihovnických zabývajících se jejich zpracováním, a to jak pokud jde o formát, tak pokud jde o typ či charakter přenášené informace. Hodnoty typů zpráv jsou obsaženy v části záhlaví zprávy v hlavičce, tj. řádce označené návěštím „Content-Type“ (typ dat v obsahu zprávy). Specifikuje přesně charakter obsahu zprávy pomocí definovaného typu a podtypu s případnou doplňkovou informací (o jménu souboru, znakové sadě apod.). Podtypy pak prezentují konkrétní formáty zpráv a budou hrát důležitou roli při vyhledávání informací. V rámci předepsané syntaxe vypadá zápis informace v hlavičce zprávy následovně (příklady): Content-type: text/html; charset=ISO-8859-2 Content-type: image/gif Content-type: application/msword; name=“clanek.doc“ Content-type: model/vrml RFC 2046 definuje v současné chvíli celkem 6 jednoduchých a 2 složené typy zpráv, dat či informací. V jejich rámci je k dnešnímu dni definována velká řada dílčích podtypů prezentujících známé i méně známé formáty přenášených zpráv. Typy a podtypy (stejně tak znakové sady, typy přístupů aj.) jsou schvalovány úřadem IANA (The Internet Assigned Numbers Authority) a registrovány na jeho veřejném WWW serveru [Internet Assigned, 2002]. K jednoduchým typům zpráv patří [RFC 2046, 1996]: 1. text (text) - typ k posílání textových (grafických písemných) informací; základním podtypem je formát „plain“ (čistý neformátovaný text), známým podtypem je dnes frekventovaný formát 5 „html“ (text obohacený o značky jazyka HTML); textové informace vyžadující k percepci speciální program jsou zařazovány k typu „application“ 2. image (obraz) - typ k posílání obrazových (ikonických nebo ideografických) informací (včetně animovaných), k jejichž zobrazení je třeba specifického zařízení (grafická obrazovka, grafická tiskárna aj.); k nejznámějším podtypům patří formát „jpeg“ a „gif“ 3. audio (zvuk) - typ k posílání zvukových (auditivních) informací, k jejichž výstupu je potřeba příslušného přehrávacího zařízení; základním definovaným podtypem je formát „basic“ 4. video (video) - typ k posílání pohyblivých obrazových informací, k jejichž zobrazení je třeba rovněž specifického přehrávacího zařízení; základním podtypem je formát „mpeg“ 5. application (aplikace) - specifický typ k posílání jiných typů informací, zpravidla buď binárních dat nebo informací, které je nutné zpracovat pomocí nějaké aplikace (programu), aby byly čitelné pro uživatele; definovány jsou dva základní a velké množství specializovaných podtypů formátů; k základním patří: 1. formát „octet-stream“ (obsahem zprávy jsou binární data) a 2. formát „postscript“ (obsahem zprávy je postscriptový dokument, který je čitelný pouze pomocí speciálního programu); dalších specializovaných podtypů je v současné době velké množství - jejich přehled je k dispozici v internetovém dokumentu „Typy médií MIME“ [Internet Assigned, 2002]; v jejich rámci je zařazena i řada podtypů prezentujících v jádru textové informace (některé formáty se i opakují), podstatné pro jejich zařazení mezi typ „aplikace“ je ovšem jejich zpracovaní pomocí nějakého programu (viz formát „msword“, „pdf“, „sgml“ nebo i formát „marc“ strukturovaný podle normy ISO 2709) 6. model (model) - typ k posílání troj- a vícerozměrných systémů, ve kterých lze zavést pravoúhlou soustavu souřadnic; model se skládá z jednoho nebo více objektů, které se pak skládají z prvků, jež mají mezi sebou definovány vztahy; místo slova model se užívá i hovorového termínu „virtuální realita“; tento typ zpráv byl v normě RFC 2046 uveden původně jako experimentální, nyní je jeho popis stanoven normou RFC 2077 [RFC 2077, 1997]; k základním podtypům patří formát „vrml“ K složeným (kompozitním) typům zpráv, které obsahují více dílčích zpráv, patří: 7. multipart (multipart) - typ, který obsahuje několik dílčích zpráv; k základním podtypům patří: 1. formát „multipart/mixed“ (obsahuje dílčí nezávislé zprávy ve stanoveném pořadí), 2. formát „multipart/alternative“ (obsahuje dílčí zprávy se shodnými informacemi, ale v různém tvaru), 3. formát „multipart/digest“ (obsahuje zprávu nebo více zpráv tvořených posloupností jiných dílčích zpráv), 4. formát „multipart/parallel“ (obsahuje dílčí zprávy bez ohledu na jejich řazení) a 5. formát „multipart/signed“ a „multipart/encrypted“ (tzv. bezpečné zprávy složené ze základní dílčí zprávy a elektronického podpisu nebo ze šifrované zprávy) 8. message (zpráva) - typ, který umožňuje poslat: 1. zprávu jako tělo jiné zprávy (vnořená zpráva) - podtyp „message/rfc822“, 2. poslat dlouhou zprávu jako několik kratších - podtyp „message/partial“ a 3. poslat informaci o zprávě uložené na nějakém serveru - typ „message/external“ Většina definovaných typů MIME koresponduje s typologií sociálních, příp. fyzikálních informací z hlediska způsobu jejich prezentace a percepce. Nicméně, typologie má význam 6 především z hlediska způsobů uspořádání dat při jejich přenosu v počítačové síti, a proto se také často uplatňuje v dále zmiňovaných systémech při dělení informačních zdrojů podle formátu. Základní rozdělování informačních zdrojů se ubírá mnohdy jinými směry. V návaznosti na typologii MIME je vhodné ještě jako doplněk uvést základní rozdělení přístupů k digitálním zdrojům v rámci sítě Internet, tak jak jej definovala internetová norma RFC 1738 „Jednotné lokátory zdrojů (URL)“ [RFC 1738, 1994, část 3]. Dané rozdělení hraje důležitou roli při zpracování internetových informačních zdrojů hlavně v knihovnických systémech. Norma konkrétně definuje následující přístupy: ftp Protokol přenosu souboru (File Transfer Protocol) http Protokol přenosu hypertextu (Hypertext Transfer Protocol) gopher Protokol Gopher (The Gopher Protocol) mailto Adresa elektronické pošty (Electronic mail address) news Novinky USENET (USENET news) nntp Novinky USENET využívající protokol přenosu síťových novinek NNTP (USENET news using NNTP - Network News Transfer Protocol) telnet Odkaz na interaktivní relaci (Reference to interactive sessions) wais WAIS - vyhledávání informací (Wide Area Information Servers) file Jména specifických souborů na serveru (Host-specific file names) prospero Adresářová služba PROSPERO - distribuovaný systém souborů (Prospero Directory Service) 3 Třídění a typologie internetových a webovských zdrojů v knihovnických systémech Jedním z vážných reprezentantů informačních systémů, které se hlásí ke zpracování internetových a webovských informačních zdrojů, jsou knihovny a jejich sítě. V celosvětovém měřítku se již dnes řada těchto institucí různého zaměření tímto procesem zabývá prakticky i teoreticky. Záznamy o online informačních zdrojích vznikají a jsou ukládány buď integrovaně v rámci stávajícího automatizovaného katalogu nebo v rámci samostatných katalogů či databází s WWW rozhraním. O širší registraci elektronických zdrojů v mezinárodním nebo národním záběru se pak zcela legitimně ucházejí i velké národní knihovny, resp. národní bibliografické agentury, jejichž záměrem je rozšířit stávající systémy souběžných národních bibliografií o registraci online dostupných zdrojů. V rámci jejich zpracování se řeší celá řada problémů týkajících se také formátů pro záznamy a návazných pravidel. K problémovým otázkám pak patří i otázka zařazování těchto online informačních zdrojů do celkové množiny všech informačních zdrojů (materiálů) a jejich další třídění nebo typologie za účelem jejich efektivního vyhledávání. V dále komentovaném textu se podívejme na problematiku třídění a typologie síťově dostupných zdrojů v rámci nejvýznamnějších knihovnických formátů a na ně navazujících normativních dokumentů: bývalého amerického bibliografického formátu USMARC, aktuálního mezinárodního harmonizačního formátu MARC 21 a v evropském měřítku často aplikovaného formátu UNIMARC. 7 3.1 Třídění a typologie v rámci bývalého amerického formátu USMARC v návaznosti na AACR2R Elektronické informační zdroje dostupné prostřednictvím počítačových sítí, zejména však sítě Internet a její služby WWW, byly v rámci zpracování všech „materiálů“ (včetně tradičních) v bývalém americkém formátu USMARC zařazovány a dále rozdělovány podle různých hledisek odrážejících různé podstatné vlastnosti jich samotných nebo dalších prvků komunikačního procesu. (Ponechávám v tomto textu záměrně původní anglický termín Anglo-amerických katalogizačních pravidel „AACR2R“ [Anglo-American, 1998] „materiál“ místo do češtiny volně překládaného termínu „dokument“, neboť lépe, nikoliv však optimálně, postihuje realitu všech objektů (entit) - včetně digitálních, které jsou při procesu katalogizace brány do úvahy). Internetové a webovské informační zdroje byly zařazeny společně s dalšími síťovými i nesíťovými elektronickými zdroji v rámci základního třídění, které mělo 14 tříd. Třídění mělo značně pragmatickou povahu, dělení všech informačních zdrojů bylo dáno střídavě několika, dokonce i protichůdnými hledisky nebo i jejich kombinacemi (v tomto směru ho bylo možné označit i jako ne přesně vymezenou typologii). Krátký přehled tříd bude v tomto místě vhodný, protože na jeho základě budou níže komentovány základní problémové otázky tohoto bývalého třídění vyvolané zejména existencí, charakterem a dalším rozvojem síťových elektronických (digitálních) zdrojů. Příslušná kódovaná hodnota jednotlivých kategorií se udávala v rámci definovaného „typu záznamu“ (pozice 06) v návěští záznamu. Dělení do značné míry odpovídalo rozdělování materiálů z pravidel AACR2R. Šlo o kategorie [USMARC Concise, 1997, Leader, 06]: a jazykový materiál c tištěná hudebnina d rukopisná hudebnina e tištěná mapa f rukopisná mapa g projekční médium (film, videozáznam, diafilm, diapozitiv, průsvitka aj.) i nehudební zvukový záznam j hudební zvukový záznam k dvojrozměrná neprojekční grafika (koláže, výkresy, obrazy, malby, fotografie aj.) m počítačový soubor (číselná / textová data, počítačové programy a jejich kombinace) o souprava (složená z jednotek různého typu, z nichž ani jedna nebyla dominantní) p smíšený materiál (složený z digitálních zdrojů různého typu, z nichž ani jeden nebyl dominantní) r trojrozměrný artefakt nebo předmět t rukopisný jazykový materiál Všechny elektronické zdroje byly před rokem 1997 zařazovány výlučně do kategorie „počítačový soubor“ (kód „m“) v souladu s příslušným pravidlem AACR2R [Anglo-American, 1998, par. 1.1C1]. Termín „počítačový soubor“ již tehdy nevyhovoval ani americkým profesionálům, nicméně jeho záměna za jiný nebyla tehdy oficiálně kodifikována. (Dodejme, že i ve formátu MARC 21 se tento termín místy stále ještě vyskytuje - viz další podkapitola). Slovní hodnota kódu pro počítačové soubory (jakož i pro jiné kategorie uvedeného třídění) mohla být zároveň volitelně přítomna v bloku popisných informací v podpoli „h“ pole 245 rovněž podle AACR2R [Anglo-American, 1998, par. 1.1C1] jako tzv. „všeobecné označení materiálu“ (angl. General Material Designation, GMD). Kód „p“ jako jediný z daného třídění nebyl dříve jeho součástí, přibyl jako náhradní řešení pro zařazování digitálních zdrojů složených z různých typů informací (např. interaktivních multimédií); jeho existence byla v té době věcí diskuse. Výše uvedené 8 třídění začalo ovšem být, v souvislosti s rozvojem nových forem síťových elektronických zdrojů, značně problematické. Již z přehledu je na první pohled patrné, že se v něm prolínala různá protichůdná hlediska dělení: některé kategorie byly dány typem informace obsažené v materiálu, jiné typem nosiče informace. Bylo zřejmé, že počítačovou elektronickou formu mohly již tehdy mít v podstatě všechny materiály (zdroje) dalších kategorií daného třídění (texty, obrazy, zvukové záznamy aj.). Podobný problém představovaly dříve také tzv. mikroformy. V červnu 1997 bylo komisí Americké knihovnické asociace MARBI (Machine-Readable Bibliographic Information) přijato doporučení, aby byly pod kategorii „m“ zařazovány pouze některé typy počítačových souborů - počítačové programy, multimédia, online služby aj. [Draft Interim, 1998, par. B19.4.1], zřetelné vymezení hlediska pro jejich zařazení do této kategorie však chybělo. Jiné typy počítačových souborů (jazykové, zvukové, kartografické apod.) bylo možné zařazovat podle jejich nejvýznamnějšího znaku (daného typem informace obsažené v materiálu). Bylo evidentní, že dané řešení nemělo principiální povahu, vyvolávalo v katalogizační praxi řadu problémů, ale hlavně zásadně neřešilo narůstající problém, který byl pojmenován jako problém „obsah kontra nosič“ (content versus carrier) - viz i odborná literatura, např. [HIRONS, 1997], [HOWARTH, 1997]. Problém po řadě diskusí mezi profesionály vyústil do zásadního požadavku komplexní revize a přestavby Anglo-amerických katalogizačních pravidel. Značný význam v tomto směru měla již diskuse a závěry Mezinárodní konference o principech a budoucím rozvoji AACR konané v roce 1997 [The principles, 1997]. Jedno z významných doporučení závěrů konference bylo realizováno v srpnu 1998 publikováním dokumentu mimořádného významu - 1. části návrhu nového modelu „Logické struktury Angloamerických katalogizačních pravidel“ [The Logical Structure, 1998]. Publikace odrážela zcela nové a zásadní zkoumání principů AACR s cílem objasnit nové pojmy logické struktury pravidel, osvětlit anomálie a nedůslednosti dosavadní verze pravidel a zajistit jasně definovaný rámec pro rozvinutí a rozšíření pravidel tak, aby odrážela realitu nových médií užívaných jako informační nosiče, nové formy publikování a zejména nové způsoby rozšiřování informací a přístupu k nim v digitálním prostředí [The Logical Structure, 1998, s. 1]. Publikace nastolila řadu klíčových sporných otázek. Šlo především o již zmíněnou problematiku směšování hledisek při vymezování základních tříd materiálů (užito bylo tentokrát zřetelně pojmu „class of material“, jenž byl i definován), která silně ovlivňovala tehdejší AACR2R [The Logical Structure, 1998, s. 25]. Některé třídy či kategorie byly v AACR2R vymezeny fyzickým nosičem (např. zvukové záznamy, videozáznamy, filmy, počítačové soubory aj.), jiné typem intelektuálního nebo uměleckého obsahu (např. grafika, kartografické materiály, trojrozměrné artefakty a předměty). Důsledkem byla značná překrývání fyzických nosičů, jež spadaly do několika tříd najednou [The Logical Structure, 1998, s. 25 a 27]. Nový model „logických“ pravidel směřoval k zásadnímu vymezení tříd na základě obsahu (informací) a popř. formy, v jejímž rámci byl obsah vyjádřen. Nový model rozbíjel tehdejší chápání entity „dokument“ jako jednotky s fyzickými rozměry, které dnes zcela nevyhovuje zejména pro množinu síťových informačních zdrojů, jež v podstatě postrádají fyzické rozměry. Nově byly definovány jeho jednotlivé komponenty - obsah, fixace (obsahu) a fyzický nosič za účelem nového vymezení tříd [The Logical Structure, 1998, s. 28] vycházejícího i ze závěrů zkoumání IFLA v této oblasti - viz publikovaná výzkumná zpráva „Funkční požadavky na bibliografické záznamy“ (FRBR) [IFLA Study Group, 1998]. 9 Bývalý americký formát USMARC v návaznosti na AACR2R umožňoval další rozdělování počítačových souborů (elektronických zdrojů) samotných až v datových polích. Důležitá byla především typologie všech počítačových souborů, tedy i síťově dostupných, daná jednomístným písmenným kódem v kontrolním poli 008, pozici 26, anebo v doplňkovém poli 006, pozici 09. Uvedeny tehdy byly následující hodnoty (podotkněme, že platí však stále i ve formátu MARC 21): a - číselná data (numeric data), b - počítačový program (computer program), c - obrazové informace (representational - pictorial or graphic information), d - dokument [textové informace] (document), e - bibliografická data (bibliographic data), f - znaková sada (font), g hra (game), h - zvuk (sound), i - interaktivní multimédia (interactive multimedia), j - online systém nebo služba (online system or service) a m - kombinace (combination). Slovní hodnoty jednotlivých typů se mohly opakovat i v poznámkovém poli 516, v němž však nesloužily pro potřeby jejich vyhledávání. Typologie počítačových souborů z pole 008 nebo 006 amerického formátu USMARC, která hrála důležitou roli při vyhledávání, měla zvláštní charakter: v některých položkách pokrývala zhruba základní typy síťových informačních zdrojů (srovnej např. i s typologií MIME), obsahovala i nejnovější typy (interaktivní nebo online zdroje), v některých položkách však šla na značně specifickou úroveň (hry, bibliografická data), jiné zase naopak chyběly. Zvláštností z hlediska terminologického byla položka „dokument“ ve smyslu pouze textu (pro české profesionály se za tímto pojmem skrývá rozhodně širší obsah). Bylo možné předpokládat, že v souvislosti s přestavbou katalogizačních pravidel v budoucnu dojde i k přepracování této typologie a jejímu dalšímu doplňování. Pokud šlo o množinu všech počítačových souborů (elektronických zdrojů) dostupných na dálku přes počítačové sítě, pak ji formát USMARC jednoznačně vymezoval kódovaným údajem „r“ (remote - vzdálený zdroj) v rámci doplňkového kontrolního pole 007, pozice 01 (v pozici 00 se tehdy vyskytovala hodnota „počítačový soubor“; v současném formátu MARC 21 je již zaveden moderní termín „elektronický zdroj“). Dílčí rozdělování síťových zdrojů, nikoliv však na základě vlastností či znaků zdrojů samotných, bylo pak již náplní dalšího nového pole formátu USMARC (856 - viz dále v textu). Další kódy pro pozici 01 pole 007 (celkem 8) představovaly typologii nosičů počítačových souborů lokálně dostupných (magnetická páska v kartridži, magnetický disk, optický disk, atd.), proto se o nich dále nebudu zmiňovat. Další, ale jenom velmi hrubé rozdělení počítačových souborů, bylo v souladu s AACR2R (kap. 9, specifické údaje o typu souboru a počtu záznamů) definováno v poli 256, které korespondovalo s kódy v polích 008 a 007. Pole bylo povinné pro počítačové soubory dostupné na dálku (síťové zdroje). Tehdejší nabídka jednotlivých typů byla ale velmi malá, zahrnovala v podstatě jenom tři: počítačová data, počítačový(é) program(y) a kombinace obou typů počítačová data a počítačový(é) program(y). Tato zvláštní typologie, typická i pro jiné knihovnické formáty, měla pragmatickou povahu. Z důvodu její malé propracovanosti, která vlastně ani neodpovídala všem hodnotám z pole 008, doporučovaly některé další systémy pro registraci internetových zdrojů obrátit se k aplikaci nejnovější verze typologie elektronických zdrojů (viz např. v příručce editorky Nancy Olsonové [Cataloging Internet, 1997, Chapter 3, Area 3]), tak jak ji navrhla tehdy nová norma ISBD(ER) [ISBD(ER), s. 90-91] - viz dále část 3.3. Nejnovější rozdělování síťových elektronických zdrojů nabízelo tehdy nově vytvořené pole 856 formátu USMARC [USMARC Concise, 1997, field 856]. Definice celého pole, které vešlo také do sestavy formátu MARC 21, byla značně rozsáhlá. Podstatou pole byly především informace 10 o přístupu k elektronickým zdrojům, jejich vztazích k variantním tradičním zdrojům, a o nejrůznějších dalších, zejména technických podrobnostech. Pro nás byly z celé definice ještě zajímavé dvě skutečnosti: 1. v prvním indikátoru pole 856 byl kódován konkrétní přístup ke zdrojům (lze hovořit o třídění zdrojů podle přístupu). Základní nabídka obsahovala především 4 známé přístupy v rámci balíčku protokolů TCP/IP: 0 - elektronická pošta (Mail Transfer Protocol), 1 - FTP (File Transfer Protocol), 2 - vzdálený login - telnet (Remote login - Telnet) a zejména 4 - HTTP (Hypertext Transfer Protocol); jiné internetové přístupy bylo možné doplňkově specifikovat pomocí kódu 7 v prvním indikátoru v podpoli 2 v souladu s obsahem daným internetovou normou RFC 1738 „Unifikované lokátory zdrojů (URL)“ [RFC 1738]. Totéž se týkalo i přístupů přes jiné sítě a jejich protokoly 2. v podpoli „q“ pole 856 USMARC umožňoval rozdělování elektronických zdrojů podle jejich formátů a stejně je tomu i ve formátu MARC 21. Bylo možné uplatnit i známou (viz výše v textu uváděnou) typologii formátů MIME [Internet Assigned, 2002]. 3.2 Třídění a typologie v rámci mezinárodního harmonizačního formátu MARC 21 v návaznosti na AACR2R Nový mezinárodní harmonizační formát MARC 21, který byl v době svého vzniku společným formátem USA a Kanady a ke kterému se nyní přidávají i země další (Velká Británie, Česká republika aj.), nevnesl prozatím do problematiky třídění a typologie zdrojů žádné výrazné změny. Neřešen zůstává i nadále problém „obsah kontra nosič“, komentovaný v předchozí části. První verze formátu MARC 21 více méně kopírovaly třídění a typologie známé z formátu USMARC (viz část 3.1). Aktuální podoba formátu MARC 21 (k počátku roku 2005) však určité změny formální povahy doznala [MARC 21 Concise, 2005]. Změny nastaly jak v pojmenování některých kategorií, tak ve vymezování jejich obsahu. Typickým rysem změn je zahrnování elektronických forem materiálů do definic téměř všech kategorií (tříd), nejenom do původní kategorie „m“ (počítačový soubor). Nejde však o principiální řešení daného problému. Zdá se, že v budoucnu by bylo dobré zavést v rámci těchto formátů zcela nový údaj v kódovaném tvaru, v rámci kterého by se všechny materiály rozdělovaly na základě formy, v níž se vyskytují (tištěná, rukopisná elektronická aj.). Aktuální základní třídění všech „informačních materiálů“ i nadále zachovává 14 tříd (pozice 06 v návěští záznamu, http://www.loc.gov/marc/bibliographic/ecbdldrd.html). Z původního formátu USMARC je zachováno i písmenné označení jednotlivých tříd: a Jazykový [textový] materiál (Language material) Jméno kategorie zůstává stejné, zahrnuty pod ni však jsou již nejenom tištěné formy, ale i materiály ve formě mikrodokumentů a ve formě elektronické c Hudebnina (Notated music) Jméno kategorie je nové a označuje lépe daný typ materiálu. Zahrnuty jsou také mikrodokumenty a forma elektronická d Rukopisná hudebnina (Manuscript notated music) Jméno kategorie je rovněž nové a zahrnuty jsou také rukopisné hudebniny ve formě mikrodokumentu e Kartografický materiál (Catographic material) Jméno kategorie je nové a obecnější povahy, zahrnovány jsou mapy, atlasy, glóby, digitální mapy a další kartografické dokumenty 11 f Rukopisný kartografický materiál (Manuscript catographic material) Jméno kategorie je rovněž nové, zahrnovány jsou rukopisné mapy ve formě mikrodokumentu g Projekční médium (Projected medium) Jméno kategorie zůstává stejné, zahrnovány jsou filmy, videozáznamy včetně digitálního videa, diafilmy, diapozitivy, průsvitky aj. i Nehudební zvukový záznam (Nonmusical sound recording) Jméno kategorie zůstává stejné, zahrnovány jsou záznamy s mluveným slovem j Hudební zvukový záznam (Musical sound recording) Jméno kategorie zůstává stejné, zahrnovány jsou záznamy na discích, kompaktních discích nebo kazetách k Dvojrozměrná neprojekční grafika (Two-dimensional nonprojectable graphic) Jméno kategorie se nemění, zahrnovány jsou grafy, koláže, počítačová grafika, výkresy, technické výkresy, obrazy, malby, obrázky, fotografie, fototisky, foto CD, pohlednice, fotomechanické reprodukce aj. m Počítačový soubor (Computer file) Jméno kategorie se nezměnilo, zahrnovány jsou různé typy elektronických zdrojů: počítačové programy číselná data, počítačově orientovaná multimédia, online systémy a služby; uvedené typy zdrojů lze případně zařadit do jiné kategorie, pokud by v nich byl výrazně zastoupen nějaký aspekt z takové kategorie; jiné typy elektronických zdrojů jsou zařazovány do všech ostatních kategorií o Souprava (Kit) Jméno kategorie se nezměnilo, zahrnovány jsou materiály složené ze dvou nebo více jednotek různého charakteru, z nichž ani jedna není dominantní p Smíšený materiál (Mixed material) Jméno kategorie zůstává stejné, změněné je vymezení obsahu; zahrnovány jsou materiály složené z dokumentů v jedné nebo více formách, které jsou spojeny nějakou nebo kvůli nějaké osobě či korporaci. Patří sem archivní fondy a rukopisné sbírky složené z různých forem materiálů (texty, fotografie a zvukové záznamy) r Trojrozměrný artefakt či přírodní předmět (Three-dimensional artifact or naturally occurring object) Kategorie se stejným jménem, zahrnovány jsou předměty vytvořené člověkem (modely, puzzle, sochy a jiná trojrozměrná umělecká díla a jejich reprodukce, stroje, oděvy, hračky aj.) t rukopisný [textový] jazykový materiál (Manuscript language material) Kategorie se stejným jménem, zahrnovány jsou rukopisné textové materiály Výše uvedené třídění je v jisté sumarizační podobě uplatněno také v rámci kontrolního pole 006 [MARC 21, 2005, http://www.loc.gov/marc/bibliographic/ecbdcntr.html] a potažmo také v poli 008 [MARC 21, 2005, http://www.loc.gov/marc/bibliographic/ecbd008s.html]. Specifikace kódů je definována pro následující druhy materiálů: knihy (týká se kategorií „a“ a „t“ z výše uvedeného třídění), počítačové soubory/elektronické zdroje (týká se kategorie „m“), mapy (týká se kategorií „e“ a „f“), smíšené materiály (týká se kategorie „p“), hudba (týká se kategorií „c“, „d“, „j“, „i“), pokračující zdroje (v tomto jediném případě jde o kategorii „s“, která je „vypůjčena“ z jiného rozdělování materiálů, a to z rozdělování podle bibliografické úrovně zpracování, jež je definována v pozici 07 návěští záznamu – dlužno však podotknout, že byl vybrán pouze jeden kód z více možných, které se v současné době týkají pokračujících zdrojů [MARC 21, 2005, http://www.loc.gov/marc/bibliographic/ecbdldrd.html]) a vizuální materiály (týká se kategorií „g“, „k“, „o“, „r“). Vnitřní typologie samotných počítačových či elektronických zdrojů (v polích 006 - pozici 09, 008 - pozici 26, 007 - pozici 01, 256, 516 a 856 formátu MARC 21) zůstává zatím prakticky beze změn oproti bývalému americkému formátu USMARC (viz podkapitola 3.1). 12 3.3 Třídění a typologie v rámci formátu UNIMARC v návaznosti na AACR2R a ISBD(ER) Formát UNIMARC [UNIMARC Manual, 2002], který je pro potřeby katalogizace v knihovnických systémech aplikován stále v řadě zemí (dříve byl aplikován i v ČR), zaznamenal v průběhu vývoje řadu dílčích změn vyvolaných, stejně jako tomu bylo u formátů amerických, zejména mohutným rozvojem síťových elektronických zdrojů a přístupů k nim. Protože jeho vznik a rozvoj jsou celkově do značné míry závislé na amerických standardech, lze konstatovat, že to, co bylo uvedeno v komentáři k americkým formátům, bude platit i pro formát UNIMARC, zejména, pokud jeho obsahová náplň úzce souvisí s katalogizačními pravidly AARC2R. Počítačové soubory včetně síťově dostupných (v terminologii formátu UNIMARC se dříve užívalo ve shodě s manuálem z roku 1994 modernějšího termínu „počítačová média“, později termínu „elektronické zdroje“ [UNIMARC Manual, 2002, Record label, 6]) jsou také zařazeny v celkovém, opět pragmaticky vymezeném, třídění informačních materiálů. Jejich kódovaná hodnota je uvedena v návěští záznamu v pozici 06 (typ záznamu). Přehled tříd není zcela totožný s americkými formáty, proto by bylo vhodné jej připomenout. Třídění obsahuje kategorie: a jazykové materiály, tištěné b jazykové materiály, rukopisné c hudební partitury, tištěné d hudební partitury, rukopisné e kartografické materiály, tištěné f kartografické materiály, rukopisné g projekční materiály a videozáznamy (filmy, videozáznamy, diafilmy, diapozitivy, průsvitky aj.) i zvukové záznamy, nehudební nahrávky j zvukové záznamy, hudební nahrávky k dvojrozměrná grafika (obrazy, kresby aj.) l elektronické zdroje m multimédia r trojrozměrné artefakty a reálie Definice současně platné verze formátu v tomto případě již připouští, že katalogizovaný materiál, i když bude elektronický, by mohl být zařazen do jiné kategorie než do elektronických zdrojů (kód „l“), a to na základě svého nejdůležitějšího znaku či vlastnosti - typu obsažené informace. Tento princip byl potvrzen a upřesněn i na jednom ze zasedání příslušné komise pro rozvoj formátu [WILLER, 1998]. Problémem ovšem je skutečnost, že řada kategorií je přesně vymezena také formou (tisk nebo rukopis), což nejde dohromady s případnou formou elektronickou. V praxi systémů, které jsou vázány v rámci formátu UNIMARC přímo na AARC2R, mohou tak nastat určité potíže, protože základní koncept těchto pravidel vychází z pravidla 0.24, které stanovuje zpracování jednotky podle základní přidělené kategorie v rámci třídění. I v případě třídění informačních zdrojů formátu UNIMARC lze konstatovat, že se v něm prolínají protichůdná kritéria - obsahu a fyzického nosiče (viz komentář k formátu USMARC v části 3.1), což vedlo v knihovnické praxi mnohdy k problémům. Dokud nebude zásadně vyřešena otázka základního třídění s následnou kodifikací v aktualizovaných standardech, budou pokračovat jisté potíže v katalogizační praxi a otázky typu „jak katalogizovat CD-ROM, na kterém je kniha“ nebo „jak katalogizovat mapu, která je v elektronické podobě na Internetu“ budou stále na programu dne. Konečným důsledkem pak budou nejasnosti, problémy a ztráty informací při procesu jejich vyhledávání ze strany koncových uživatelů. 13 Poměrně velké změny při zpracování elektronických zdrojů v rámci formátu UNIMARC nastaly po zveřejnění revidované normy ISBD(CF), která kromě jiného změnila i svůj název - starý termín „počítačové soubory“ byl nahrazen moderním termínem „elektronické zdroje“ (Electronic Resources) [ISBD(ER), 1997]. Takové rozhodnutí lze jen uvítat, protože tento termín daleko lépe postihuje vlastnosti nejen lokálně dostupných elektronických zdrojů, ale zejména zdrojů dostupných přes počítačové sítě. S ohledem na zcela nové vlastnosti síťových zdrojů samotných (včetně těch, které zatím ani nebyly pojmenovány) a způsoby jejich rozšiřování lze konstatovat, že užití termínu „elektronický dokument“, jenž byl uplatněn také v rámci návrhu NK ČR k tvorbě záznamů speciálních druhů dokumentů pro souborné katalogy [Záznam pro souborný, 1998], není již zcela vyhovující pro pojmenování množiny všech typů elektronických informačních zdrojů. Termín „elektronické zdroje“ je tak doporučen k aplikaci v rámci základního třídění v návěští formátu UNIMARC (nová slovní hodnota kódu „l“), ale také v popisu jako hodnota všeobecného označení materiálu (GMD) v podpoli „b“ pole 200. Podstatnou novinkou ISBD(ER) je nová, poměrně rozsáhlá třístupňová typologie elektronických zdrojů určená pro oblast jejich specifického popisu „Typ a rozsah zdroje“. Typologie obsahuje [ISBD(ER), 1997, příloha s. 90-92]: Elektronická data Elektronické soubory znaků (fonty) Elektronická obrazová data Elektronická číselná data Elektronická statistická data ze sčítání lidu Elektronická přehledová data Elektronická obrazová data Elektronické mapy Elektronická zvuková data Elektronická textová data Elektronické bibliografické databáze Elektronické dokumenty ve smyslu textu (např. dopisy, články) Elektronické časopisy Elektronické bulletiny Elektronické programy Elektronické aplikační programy Elektronické programy pro počítačově podporovaný design (CAD) Elektronické databázové programy Programy pro elektronické publikování Elektronické hry Elektronické tabulkové procesory Elektronické psací editory Elektronické systémové programy Elektronické operační programy Elektronické programovací jazyky Elektronické vyhledávací programy Elektronické obslužné programy Elektronická data a programy Elektronická interaktivní multimédia Elektronické online služby (např. diskusní skupiny, elektronické konference, website). I tato typologie vychází na první úrovni z rozdělení elektronických zdrojů na zdroje obsahující data, prezentující sociální informace komunikované ve společnosti, a na programy, prezentující informace strojové povahy sloužící především pro fungování počítačových systémů samotných. 14 Specifickou skupinu tvoří zdroje, které jsou kombinací předchozích dílčích typů. Na druhé a třetí úrovni jsou prezentovány podtypy informačních zdrojů, jejichž výčet je v současné chvíli diskutabilní (viz např. neúplná podskupina elektronických textových dat nebo blíže nerozpracovaná podskupina online služeb). Typologie je však otevřená a předpokládá se její doplňování i další zpřesňování - zejména ve skupině, kde se objevují novodobé síťově dostupné zdroje. V každém případě znamená krok kupředu. V rámci formátu UNIMARC se typologie ISBD(ER) uplatnila jednak v podpoli „a“ pole 135 v pozici 0 pro kódované informace (prozatím však obsah definovaného pole příliš nekoresponduje s novou publikovanou typologií), jednak v poli 230, kde se uplatňují slovní termíny dané typologie. Typologie se povinně týká síťových zdrojů. V tomto směru je zajímavé i její porovnání s typologiemi uplatněnými v systémech provozovaných přímo v prostoru sítě Internet nebo WWW (viz část 4). V poli 135, podpoli „a“ se nově objevuje i další znaková pozice (1) pro kódování nosičů. Množina síťových zdrojů je jednoznačně vymezena kódem „r“ (online systémy) - srovnej se stejnou hodnotou v poli 007 formátu USMARC a MARC 21. Formát UNIMARC zavedl dle amerického vzoru také nové (shodně označené) pole 856 pro údaje o způsobech přístupu k elektronickým zdrojům v prostředí sítí a o dalších technických detailech. Definice polí 856 nejsou zcela shodné (např. v UNIMARCu není obsazen 2. indikátor). Podstatná informace o způsobech přístupu k informačním zdrojům, zejména v síti Internet k dispozici ale je, takže lze i v tomto případě pro potřeby vyhledávání případně vymezovat množiny jednotlivých zdrojů podle specifického přístupu (viz komentář k formátu USMARC a MARC 21). 4 Typologie internetových a webovských zdrojů v informačních systémech Internetu a WWW Velký rozvoj síťových informačních zdrojů i způsoby jejich zpřístupňování způsobily významné změny i v oblasti institucí a systémů, které se jimi prakticky zabývají na úrovni zpracování a efektivního zpřístupňování. V rámci společenské dělby práce vznikly a dále se rozvíjejí novodobé instituce a systémy, které se díky výhodným technologickým podmínkám této činnosti věnují, a to často s velkým úspěchem. Kromě známých a populárních vyhledávačů typu „search engines“ (Google, Alta Vista aj.) nebo předmětových katalogů Internetu (Yahoo! aj.), jež registrují informační zdroje v podstatě v nestrukturované podobě, a tudíž efektivita jejich zpětného vyhledávání je značně problematická, se v celosvětovém měřítku přímo v prostoru Internetu a webu rozvíjí řada registračních systémů, které přistupují k jejich zpracování přes strukturované záznamy obsažené někdy dokonce i ve zdrojích samotných (metadata). V rámci navrhovaných formátů je zpravidla vždy také řešen problém jejich třídění nebo typologie. V dalším textu jsou představeni tři reprezentanti: jeden méně známý, ale ze specializované oblasti (historická typologie), a dva zástupci dnes významných formátů - britské formáty systému ROADS a zejména nejvýznamnější mezinárodní metadatový formát „Dublin Core“. 4.1 Kanadská typologie webovských zdrojů „VW96“ Mezi často citované či hypertextově odkazované typologie internetových a webovských zdrojů patřila koncem 90. let 20. stol. typologie kanadské firmy „Vancouver Webpages“ zabývající se službami v oblasti Internetu. Firma provozovala webovský vyhledávací systém „searchBC“ se zaměřením na servery v regionu Britské Kolumbie. V rámci systému vyvinula vlastní robot „VWbot“ (Vancouver Webpages Robot) a také speciální interaktivní formulář k tvorbě údajů 15 o webovských zdrojích (metadat) nazvaný „Meta tag builder“ [Vancouver Webpages, 1998]. Zmíněná typologie informačních zdrojů byla a je stále k dispozici na WWW [Vancouver Webpages, 1997]. Byla také ve formě nabídkového seznamu užívána k vyplňování jednoho z polí záznamu popisovaného zdroje. Přesněji byla označena jako „typologie objektů“ (angl. „object type“, s přesným označením metatagu „VW96.ObjectType“). Důvod užití termínu „objekt“ tvůrci v dostupné dokumentaci nijak nekomentovali, je však typický pro slovník počítačových odborníků. Předmětem registrace byly v podstatě pouze zdroje ve formátu HTML a VRML (ve verzi 1.0 nebo 2.0), znamenalo to tudíž, že typologie nezahrnovala celou množinu webovských zdrojů. Rozhodně chyběly např. zdroje obrazové a zvukové, které se vyskytují běžně v jiných typologiích či tříděních. Typologie byla jednoduché koncepce a vycházela z rané verze známé typologie zdrojů „Dublin Core“ (DC - viz část 4.3). Představovala krátký abecedně uspořádaný seznam 21 typů se stručnými definicemi v angličtině, princip vymezení typů (model, hledisko apod.) však její tvůrci neuvedli. Již z běžného pohledu na seznam bylo vidět, že typologie byla i v daném vymezení předmětu registrace neúplná, velmi pragmatická a účelově orientovaná, trpěla nevyvážeností uváděných typů, zahrnujících na jedné straně typy zcela obecné, na straně druhé typy velmi specifické, a to především z oblasti obchodu a počítačové vědy. Byla však důkazem existence nových a specifických typů či forem zdrojů v různých oborech a oblastech lidské činnosti. Po detailnější analýze bylo možné zjistit, že základním typem byla položka „document“ (dokument), kterou tvůrci označili jako standardní (běžnou) a ke které se zřejmě uživatel musel obrátit jako k poslední možnosti, nenašel-li v seznamu potřebný jiný typ. Zařazení této položky bylo z hlediska logiky značně problematické. Není zcela jasné, zda-li některé položky typologie byly také něčím jiným než dokumenty (ve významu, na který jsme byli u nás doposud zvyklí) nebo naopak, zda-li všechny položky nepatřily do jediné množiny všech dokumentů. Největší místo v seznamu zaujímala množina typů zdrojů, které známe z oblasti typologií tradičních statických dokumentů, jež se však dnes běžně objevují v elektronické online podobě i v prostoru WWW. Tvůrci uváděli typy, u nichž dominoval znak primárnosti informace a její grafické textové prezentace: „book“ (kniha), „dictionary“ (slovník), „journal“ (časopis), „magazine“ (magazín) a „manual“ (manuál, ovšem s technickým zaměřením). Speciálními důležitými znaky se však již vyznačovaly další typy textových zdrojů, které typologie obsahovala. Zahrnuty byly především výrazné internetové zdroje typu „FAQ“ (Frequently Asked Questions, tj. často pokládané otázky), které mají charakter instruktážní a propagační (svůj původ mají v síti USENET), a typu „RFC“ (Request for Comments, tj. žádost o komentář), které zahrnují standardy, protokoly a další materiály týkající se sítě Internet. Do této skupiny by bylo možné dále zařadit typy zdrojů z oblasti ekonomicko-obchodní, jako je specifický typ „linecard“ (seznam produktů nebo obchodních značek) a „catalog“ (katalog, zde však míněn jako seznam položek ve skladech či pro prodej), nebo z oblasti počítačových služeb, jako je „HOWTO“ (internetové „kuchařky“ týkající se softwaru či hardwaru). Komplexnější povahou se vyznačovaly následující dva typy zdrojů, které představovaly již skupiny zdrojů vytvářejících určité logické celky. Tvůrci uváděli typ „keybank“ (schránka pro kryprografické aplikační programy, například známý program „PGP“ (Pretty Good Privacy) Američana P.R. Zimmermanna) nebo známější typ „archive“ (archiv počítačových programů nebo souborů). 16 V typologii bylo možné dále vyčlenit typy informačních zdrojů, jež jsou specifické zejména pro prostředí Internetu či WWW a jejichž důležitým znakem je interakce mezi uživatelem a systémem. Slovo „systém“ napovídá, že užití slova „dokument“ by nebylo už asi v dané situaci zcela adekvátní a že frekventovaný termín „zdroj“, popř. „informační zdroj“ by byl vhodnější. Tvůrci uváděli typ „database“ (databáze, ve smyslu databázového systému jakéhokoliv zaměření), dále „hypercatalog“ (hyperkatalog), kterým tvůrci ovšem mínili pouze webovské vyhledávací systémy předmětového typu (předmětové katalogy, jako je známý Yahoo! aj.) a základní kategorii vyhledávacích systémů typu „search engines“. Volněji by se dal do této skupiny ještě zařadit typ „index“ (index, rejstřík, seznam nějakých zdrojů v prostoru Internetu nebo WWW). Ekonomicko-obchodní orientace typologie měla v této skupině zastoupení ještě jednou položkou typem „mall“ (webovský online obchod, kde se prodávají výrobky), který lze také jen stěží označit jako dokument, minimálně z hlediska jeho hlavní funkce. Vhodnější by bylo užít slova „služba“, popřípadě i „systém“. Zvláštní dojem vyvolávalo zařazení typu zdroje „home page“ (domovská stránka organizace nebo nějaké fyzické osoby). Fyzický počítačový soubor takové stránky je sice základní registrační jednotkou např. pro vyhledávací systémy, ale je, dá se říci, vstupní bránou, „titulní stránkou“ menšího či většího komplexu webovských zdrojů, které mohou tvořit dnes i koncepčně velice složité a obsahově významné „webovské informační systémy“, tedy informační zdroj institucionálního typu (v angl. se užívá frekventovaného termínu „website“). Konečně, i v předchozím odstavci jmenované „search engines“ jsou institucionální jednotky, které na WWW mají své domovské stránky. Uvedení tohoto typu v kanadské typologii bylo stejně problematické, jako uvedení typu „dokument“ (viz výše). Celkový výčet zastoupených typů informačních zdrojů (objektů) je na závěr nutné doplnit dvěma posledními, které reprezentují trojrozměrné reálné objekty. Šlo o zdroje ve formátu VRML. Přestože byly tyto zdroje z hlediska formátu již v rámci registračního systému označeny jako zdroje VRML, stejně jako zdroje HTML (to znamená, že zde bylo, i když ne explicitně, uvedeno třídění všech registrovaných zdrojů, resp. objektů), byly ještě navíc v typologii vlastně zastoupeny znovu, a to ve dvojí podobě: buď jako obecný VRML typ „world“ (svět), který je zároveň typem standardním („běžným“), nebo jako typ „real world“ (reálný svět), jehož „.wrl“ soubor musel být opatřen dalšími potřebnými atributy (měřítko, geografická lokalizace, schéma pro geografické souřadnice aj.). Pragmatická typologie „VW96“ patřila k jedněm z prvních, které se na WWW vyskytly (1996). Z hlediska potřeb dnes budovaných systémů pro registraci internetových či webovských zdrojů už asi nebude využívána, je však možné konstatovat, že z hlediska vývoje těchto systémů své místo rozhodně má. Stala se východiskem pro zpracování řady dalších typologií a třídění. 4.2 Typologie internetových a webovských informačních zdrojů britského systému ROADS Dále v textu komentovaná typologie internetových a webovských zdrojů souvisí s významným projektem, který byl na webu budován ve Velké Británii v rámci rozsáhlého Programu elektronických knihoven „eLib“ (Electronic Libraries Programme). Jeho název je „ROADS“ (Resource Organisation And Discovery in Subject-based services, Organizace a zjišťování zdrojů v předmětově založených službách) a jeho základním posláním je registrace a vyhledávání webovských informačních zdrojů [KIRRIEMUIR, 1998]. Typologie, jež souvisí především 17 s tvorbou záznamu o zdrojích pomocí metadat, byla postupně formována v souvislosti s rozvojem systému ROADS, ale i v souvislosti s rozvojem dalších systémů, zejména mezinárodního projektu pro metadata „Dublin Core“. Všimněme si nejprve výchozího seznamu typů zdrojů z roku 1997 a poté novějšího navrženého seznamu základních typů prezentujících zároveň formuláře pro vyplňování údajů. Východiskem typologie z roku 1997 (autory byly John Knight a Martin Hamilton) se stala typologie „žánrů zdrojů“ systému BibTeX [KNIGHT, 1997]. Autoři sami také v úvodu hovořili o „žánru zdroje“ (angl. genre of the resource). Typologie obsahovala seznam celkem 36 abecedně uspořádaných položek opatřených velmi stručnou definicí, šlo-li ovšem vůbec o definici. Hlediska typologie nebyla nijak specifikována. Ve srovnání s typologií kanadskou šlo o seznam daleko propracovanější, byla univerzální, zahrnovala další typy zdrojů, zejména pokud šlo o hledisko prezentace informací, a v oblasti textových dokumentů, které převládají, se snažila jít až na úroveň analytických jednotek registrovaných zdrojů. Z celkového přehledu bylo patrné, že u jejího zrodu stáli také knihovníci. Ačkoliv abecední sestava jednotlivých typů nebyla nijak dále členěna ve smyslu vymezení dílčích skupin podle nějakého významného znaku (vlastnosti) zdroje/dokumentu, bylo možné je přesto uměle identifikovat. Největší skupinu tvořily primární textové zdroje prezentované dnes na WWW (dříve publikované klasickou cestou přes nakladatele). Zahrnuty byly základní univerzální i specializované typy elektronických publikací, dokonce i, byť neúplně, žánry krásné literatury: „book“ (kniha), „booklet“ (brožura), „collection“ (sborník či sbírka), „manual“ (manuál), „proceedings“ (sborník z konference), „preprint“ (preprint vědeckého článku), „journal“ (vědecký časopis), „magazine“ (pupulární časopis či magazín), „newspaper“ (noviny), „course material“ (materiál k výuce, jako jsou teze, osnovy, rozvrhy apod.), „research paper“ (výzkumná zpráva), „tech report“ (technická zpráva) a „master thesis“ (magisterská práce), „PhD thesis“ (doktorská práce), „honour thesis“ (práce k udělení čestného titulu). Z krásné literatury byl zastoupen pouze žánr „poem“ (báseň). Za zvláštní bylo možné pokládat i zařazení typu „advertisment“ (reklama), protože jiné formy z této oblasti už zařazeny nebyly. Oblast elektronických sekundárních textových zdrojů byla zastoupena typem „bibliography“ (bibliografie). Protože se v rámci WWW dnes zveřejňují i historické rukopisné dokumenty a také novodobé písemné dokumenty, které nebyly z různých důvodů publikovány klasickou cestou přes vydavatelství, zahrnuli autoři také typ „unpublished“ (nepublikovaný). Typologie v této skupině nebyla vyčerpávající, výčet však dále nepokračoval, a snad i proto byl nabídnut jeden naprosto obecný typ „misc(ellaneous)“ (ostatní díla). Některým výše uvedeným typům textových zdrojů odpovídaly i jejich analytické ekvivalenty. Zařazeny byly „in book“ (část v knize), „in collection“ (část ve sborníku či sbírce), „in proceedings“ (část ve sborníku z konference), „article“ (článek v lektorovaném časopise) a „unrefereed article“ (nelektorovaný článek z časopisu, magazínu nebo novin). Významnou v této typologii byla skutečnost, že zahrnuje zdroje s dalšími typy prezentace informací, které také známe z období předelektronického a které jsou ovšem dnes významnou součástí elektronických zdrojů: „image“ (obraz), „video“ (video, videozáznamy) a „music“ (hudební zdroje, které ovšem nebyly v typologii blíže charakterizovány, takže nebylo možné zjistit, jestli pod ně spadaly také zvukové informační zdroje). 18 K novodobým typům elektronických zdrojů patřila v této verzi typologie především jednotlivá sdělení (zprávy) v elektronických konferencích (listech) a skupinách, a to „message on moderated mailing list“ (zpráva v moderované elektronické konferenci), „message on unmoderated mailing list“ (zpráva v nemoderované elektronické konferenci), „posting to moderated newsgroup“ (dopis do moderované skupiny newsgroup) a „posting to unmoderated newsgroup“ (dopis do nemoderované skupiny newsgroup). Zařazen byl i typ „dataset“ (soubor dat určitého druhu). Zvláštní místo zaujímal typ zdroje „service“ (služba), který už opět vycházel nad rámec tradičně definovaného pojmu „dokument“, a dále poslední položky seznamu „organisation info“ (informace o organizaci nebo nějaké skupině, což může být jedna domovská stránka nebo i komplex všech WWW stránek) a „personal info“ (jedna personální domovská stránka nebo komplex stránek vztahujících se k jedné fyzické osobě). Výše uvedený návrh typologie zdrojů systému ROADS je dnes pouze historickým dokumentem. Současně platnou, značně redukovanou typologii informačních zdrojů systém představuje formou navržené množiny typů formulářů pro zpracování jednotlivých typů zdrojů, resp. „žánrů zdrojů“, jak je poznamenáno v dokumentaci [HEERY, 1998]. Seznam typů formulářů je derivovanou a zároveň doplněnou množinou formulářů pracovní skupiny IAFA (Internet Anonymous FTP Archives) patřící pod organizaci IETF (Internet Engineering Task Force). V současné době obsahuje následující typy informačních zdrojů a typy specifických klastrů: Typy informačních zdrojů Collection (sbírka - experimentalní typ) Dataset (soubor dat) Document (dokument) Dublin Core Event (událost -experimentální typ) Image (obraz) Mailarchive (archiv elektronické konference) Project (projekt) Resource (zdroj, platný v síti RDN) Service (služba) Software (počítačový program) Sound (zvuk) Trainmat (výukový materiál) Usenet (diskusní skupina usenet/newsgroup) Video (video) Klastry Organization (organizace) User (uživatel) Agent (agent, kategorie užívaná v Dublin Core) Seznam typů informačních zdrojů a speciálních klastrů [University of Bath, 2000], jenž má otevřený charakter, je z mnoha hledisek velice zajímavým materiálem. Již letmý pohled naznačuje, že jde o hrubou typologii, která sice také zahrnuje základní typy informačních zdrojů, známé i z tradičního období (dokument ve smyslu textu, obraz, zvuk aj.), především se však zaměřuje na typická novodobá seskupení webovských informačních zdrojů, statické nebo dynamické povahy, jako např. elektronické sbírky či archivy, služby či systémy apod. Bylo to konečně v plném souladu i s cíli výše zmíněného projektu „eLib“. Oficiální typologie systému ROADS znamenala jistý kompromis, je však známo, že některé partnerské dílčí systémy registrovaly zdroje i na analytické úrovni (např. články z elektronických periodik), protože to považovaly za potřebné. Analytičnost, která byla významným rysem typologie původní, byla jinak potlačena (části publikací či zprávy z konferencí). 19 Z původní typologie se v seznamu objevilo přímo pouze 5 typů - „soubor dat“, „obraz“, „služba“, „video“ a ještě „sbírka“ (jen experimentálně). Během výzkumu, který sledoval využívání jednotlivých typů formulářů, se zjistilo, že nejvyužívanějším typem zdroje je „služba“ (až 70 %), což vedlo tvůrce systému ROADS k úvaze zavést další typy, jako např. „archiv elektronických dokumentů či zpráv“. O něco menší využití zaznamenal nově zavedený univerzálně použitelný typ „dokument“, který nahradil původní širší skupinu dílčích typů elektronických publikací monografické povahy a který se však z druhé strany u některých systémů užívá takřka výlučně pro všechny registrované jednotky. Po diskusi se pod tento typ skryl i původně samostatně navržený experimentální typ „FAQ“ (Frequently Asked Question). Třetí nejužívanější typ „archiv elektronické konference“ nahradil původní analytické typy zpráv z konferencí, stejně jako typ „diskusní skupina usenet“. Typ „soubor dat“ je prozatím využíván pouze u některých oborových systémů (např. sociologie) a jde především o databanky faktografických informací. Sólové obrazové zdroje a video prozatím figurují v minimální míře. Totéž platí pro nově zavedený typ „zvuk“ a „software“. Po zvážení byl zařazen ještě typ „projekt“, který byl ovšem míněn šířeji, než dříve samostatné zdroje typu „výzkumná či technická zpráva“, neboť na webu dnes existuje již velké množství informačně bohatých souborů výzkumných a vývojových úloh, které v sobě integrují jak prezentační webovské stránky, tak zdroje zpráv či dalších informací a popř. interaktivních databází. Totéž je možné uvést o typu „událost“ určeného pro akce různého zaměření, který rovněž nahradil typy dílčích dokumentů „konferenční sborník“ nebo „preprint“. Jeho zařazení je experimentální. Jde v každém případě o žádané hodnoty při rešerších. Novinkou byl i typ „výukový materiál“. Nově se do typologie dostal i typ „zdroj“, užívaný v projektu sítě RDN (Resource description Network). Speciálními kategoriemi (označenými přesněji anglickým termínem „cluster“) v systému ROADS jsou 3 typy formulářů představující záznamy o specifických entitách - fyzických osobách a korporacích, které vystupují v roli tvůrců, autorů, distributorů výše uvedených zdrojů. Připomínají známé záznamy autorit z katalogizačních systémů. V tomto případě došlo z hlediska systému, který registruje informační zdroje, ke správnému vyčlenění těchto položek, jež v původní typologii tvořily samostatné položky domovských a personálních webovských stránek. Typologie systému ROADS byla zajímavým experimentem v této oblasti. Rozvoj samotného systému sice již nepokračuje, rozvíjeny však jsou jeho jednotlivé systémy (předmětová gateway), která registrují a zpracovávají internetové zdroje. Poslední verze typologie zdrojů je k tomu stále hojně využívána. 4.3 Typologie internetových a webovských zdrojů formátu „Dublin Core“ Zřejmě nejvýznamnějším formátem pro tvorbu dat o síťových informačních zdrojích je v současnosti formát označovaný zkratkou „DC“, pod níž se skrývá zkrácené jméno „Dublin Core“ (Dublin Core), v úplném tvaru pak „Dublin Core Metadata Element Set“ (Soubor metadatových prvků Dublin Core). U jeho zrodu v roku 1995 stáli pracovníci výzkumného oddělení OCLC, kteří ve spolupráci s dalšími odborníky z celého světa založili mezinárodní virtuální společenství DCMI (Dublin Core Metadata Initiative) [Dublin Core, 2005]. Formát DC se během posledních deseti let stal významnou mezinárodní záležitostí. Je využíván v řadě projektů a systémů pro registraci internetových a webovských zdrojů po celém světě, a to buď přímo (tvorba metadat v rámci dokumentů HTML) nebo je zajišťována konverze do jiných formátů pro metadata či knihovnických formátů typu MARC. Specifikace „Dublin Core“ se stala základem významné aplikace nově navrženého jazyka „XML“ (eXtensible Markup Language), 20 která je známa pod zkratkou „RDF“ (Resource Description Framework, Rámec pro popis zdrojů), jež umožňuje kódování, tvorbu a využívání strukturovaných metadat. Zajímat nás bude jen jediný moment celého formátu, a to jeho typologie zdrojů nahlížená v historickém kontextu. Typologie zdrojů byla a i nadále je významnou částí základní specifikace DC, kterou tvoří v současné chvíli celkem 15 prvků (metadat). Jde o údaj „Resource Type“ (Typ zdroje), jenž vychází z typologie informací obsažených ve zdrojích, a údaj „Format“ (Formát), který je založen na typu uspořádání dat v počítačovém souboru přenášeném v síti. Základní typologii je věnována značná pozornost od samého vzniku formátu. Podílela se na ní a stále ještě se podílí komunita odborníků z oblasti knihovnictví i počítačové vědy, jednotlivé návrhy a problémy byly diskutovány na pracovních seminářích a v elektronické konferenci. V současné době je jí věnována péče v rámci stálé pracovní skupiny. Podívejme se dále na její jednotlivé verze, od první úplné z července 1997 [Dublin Core Resource Types, 1997] až po zatím poslední z roku 2004 [Dublin Core, 2004]. Třístupňová typologie informačních zdrojů systému „Dublin Core“ (verze z roku 1997) Text Text.Abstract Text.Advertisement Text.Article Text.Correspondence Text.Correspondence.Discussion Text.Correspondence.Email Text.Correspondence.Letter Text.Correspondence.Postcard Text.Dictionary Text.Form Text.Homepage Text.Homepage.Organizational Text.Homepage.Personal Text.Index Text.Manual Text.Manuscript Text.Minutes Text.Monograph Text.Pamphlet Text.Poem Text.Proceedings Text.Promotion Text.Seriál Text.Serial.Journal Text.Serial.Magazine Text.Serial.Newsletter Text.Serial.Newspaper Text.TechReport Text.Thesis Text.Thesis.Doctoral Text.Thesis.Masters Image Image.Moving Image.Moving.Animation Image.Moving.Film Image.Photograph Image.Graphic Sound Sound.Ambient Sound.Effect Sound.Music Sound.Narration Sound.Speech Software Software.Executable Software.Source Data Data.Numeric Data.Spatial Data.Spectral Data.Statistical Data.Structured-Text Interactive Interactive.Chat Interactive.Games Interactive.Multimedia Interactive.VR Verze z roku 1997 byla třístupňová. První úroveň představovala 6 základních typů informačních zdrojů, jež vycházely z typu informace v nich obsažené. Některé korespondovaly se známou 21 typologií sociálních informací (text, obraz, zvuk), popř. také s typologií MIME (viz část 2). Reprezentantem hybridního typu informace byl typ zdroje „program“ (software), typ „data“ a zejména novodobý reprezentant síťových zdrojů „interaktivní zdroj“ (interactive). Druhá a třetí úroveň typologie zahrnovala podtypy informačních zdrojů, vymezených souhrnem znaků, k nimž náležely minimálně jejich funkce a cílové určení a forma uspořádání informací. Nejrozsáhlejší dělení bylo definováno pro typ „text“, v jehož rámci se vyskytovaly jak podtypy známé z tradiční typologie textových dokumentů (monografie, seriál, technická zpráva, korespondence aj.), tak podtypy novodobé (formulář, domovská stránka aj.). Výčet podtypů nebyl úplný, pro nové verze se předpokládala další úprava a doplňování. Totéž platilo i pro podtypy dalších speciálních typů. Komplikovaná situace byla ve vymezování typů „data“ (soubory dat) a „interaktivní zdroje“, které byly doplňovány i v souvislosti s rozvojem informačních technologií. Další návrh typologie informačních zdrojů DC (tentokrát se šlo už nad rámec elektronických zdrojů) pocházel z roku 1998 (připraveny byly v tomto roce celkem 4 verze, poslední úprava byla schválena 23. 10. 1998). Roční práce řady odborníků seskupených kolem speciální pracovní skupiny „Resource Type & Format working group“ doznala značných změn. Dále následuje přehled základních typů se stručnou charakteristikou. Šlo o následujících 8 typů informačních zdrojů [Dublin Core, 1998]: 1. text (text) - zdroj, jehož obsah je určen především pro čtení (např. knihy, dopisy, básně, noviny aj.); k tomuto typu zařazovali tvůrci typologie i faksimile nebo obrázky textů 2. obraz (image) - zdroj, jehož obsah představuje symbolickou vizuální (zrakovou), resp. obrazovou reprezentaci, ale jinou než u textu (např. obrázky, fotografie fyzických objektů, obrazy, kresby, animace, filmy, videozáznamy, diagramy, mapy, hudební notace) 3. zvuk (sound) - zdroj, jehož obsah je určen především k poslechu (např. hudba, projev, záznam zvuku) 4. soubor dat (dataset) - zdroj, jímž se rozumí strukturované informace kódované v seznamech, tabulkách, databázích apod., které se normálně vyskytují ve formátu pro přímé strojové zpracování (např. tabulkové procesory, databáze, data geografických systémů aj.); nestrukturované číselné nebo slovní údaje jsou považovány za typ „text“ 5. program (software) - počítačový program ve zdrojové nebo kompilované formě, který je dostupný trvale pro instalaci na jiných počítačích; programy, které vytvářejí interaktivní prostředí při komunikaci, je nutné zařadit k typu „interaktivní zdroj“ 6. interaktivní [zdroj] (interactive) - zdroj vyžadující interakci uživatele, aby informace byly pochopeny, provedeny nebo využity (např. formuláře na webovských stránkách, aplety, multimediální výukové předměty, konverzační služby, virtuální realita) 7. událost (event) - zdroj s časově omezeným výskytem (např. výstava, konference, představení aj.); metainformace o události (akci) nemusí identifikovat vyhledatelný zdroj, pokud její čas již vypršel a více se nevyskytuje 8. fyzický objekt (physical object) - trojrozměrné objekty nebo látky, které nelze považovat za texty, obrázky nebo jiné typy výše uvedené (např. osoba, počítač, velká pyramida, socha); digitální reprezentace nebo zástupce uvedených objektů musí tedy figurovat jako typ „obraz“, „text“ apod. Novinkou této verze typologie bylo zařazení typu „událost“ a „fyzický objekt“. V diskusi roku 1998 byly posuzovány i pojmy „složený (kompozitní) zdroj“, popř. „smíšený zdroj“ a pojem „sbírka“ (collection). Pro základní jednoduchou variantu „DC.Typy“ byly však tehdy odmítnuty, a to především z důvodů jejich vyhledávání. Složené zdroje bylo výhodnější zařazovat k více dílčím typům (např. multimediálnímu programu s jedním URL je možné přiřadit 4 typy - zvuk, 22 text, obraz a interaktivní zdroj). Sbírky (kolekce) zdrojů měly být přiřazeny spíše k jednomu základnímu dílčímu typu. Na místě bylo také uplatňování vazeb (relací), zvažovalo se i jejich případné uplatnění jako podtypů (např. Text.Sbírka). Nejrozsáhlejší verze typologie DC všech informačních zdrojů (včetně tradičních) byla přijata v srpnu 1999 [Dublin Core, 1999]. Zahrnuty byly (kurzívou jsou označeny tehdy nově navržené typy): 1. Sbírka (Collection) 2. Soubor dat (Dataset) 3. Událost (Event) 4. Obraz (Image) 5. Interaktivní zdroj (Interactive resource) 6. Model (Model) jako abstrakce 7. Strana (Party) jako osoba nebo korporace 8. Fyzický objekt (Physical object) 9. Místo (Place) jako geografická entita 10. Služba (Service) 11. Program (Software) 12. Zvuk (Sound) 13. Text (Text) Novými položkami byl typ „Sbírka“, který byl specifikován jako agregát (soubor) dokumentů, dále typ „Model“, považovaný za symbolickou reprezentaci (abstrakci reálné věci), typ „Strana“, jíž mohla být fyzická osoba, organizace nebo instituce, a typ „Místo“ ve smyslu geografické oblasti. Poslední tři jmenované typy, které více specifikovaly původně navržený typ „Fyzický objekt“, nebyly přijaty jednoznačně řadou odborníků, a proto byly z dalších návrhů (v letech 2000-2004) vyřazeny. Posledním novým typem, zařazeným do sestavy v roce 1999, byl typ „Služba“, jíž je míněn systém zajišťující jednu nebo více funkcí koncovým uživatelům (například MVS, autentikační služba, bankovní služba aj.). Typologie informačních zdrojů DC z července 2000 znamenala návrat k menšímu počtu typů [Dublin Core, 2000]. Zařazeny byly: 1. Sbírka (Collection) 2. Soubor dat (Dataset) 3. Událost (Event) 4. Obraz (Image) 5. Interaktivní zdroj (Interactive resource) 6. Služba (Service) 7. Program (Software) 8. Zvuk (Sound) 9. Text (Text) Své místo si uhájily typy „Sbírka“ a „Služba“, po dlouhých debatách však byl (ale jenom na určitý čas) vyňat problémový a velmi diskutovaný typ „Fyzický objekt“. Do typologie zdrojů byl tento typ opět zařazen až v červenci 2002, takže jejich celkový počet dosáhl počtu deseti typů zdrojů. Tento stav v podstatě potvrdila i další verze z února 2003 [Dublin Core, 2003a]. Nový směr v rozvoji typologie všech informačních zdrojů znamenala až verze z 19. listopadu 2003 [Dublin Core, 2003b]. Její novinkou bylo (kromě formální úpravy celého seznamu) zařazení dvou nových typů, které znamenaly sémantické zjemnění typu „Obraz“. Šlo o typy: 23 Stálý obraz (Still Image), který je definován jako statická vizuální reprezentace (malba, plán, mapa, kresba, grafický design aj.) a Pohyblivý obraz (Moving Image), který je definován jako série vizuálních reprezentací, které, když jsou ukazovány, vyvolávají dojem pohybu (animace, film, televizní program, video aj.) Zařazením těchto dvou nových typů se typologie DC opět, pokud jde o obrazové informace, přiblížila typologii standardu MIME (viz část 2). Celkový počet položek této verze typologie všech informačních zdrojů DC zahrnoval tedy dvanáct typů. Zatím poslední verze typologie informačních zdrojů DC pochází z června 2004 [Dublin Core, 2004]. Tyto verze potvrdila 12 typů informačních zdrojů, změnou bylo pouze jejich abecední uspořádání (dle angličtiny) v seznamu: 1. Sbírka (Collection) - agregát jednotek, popisovaných jako skupina (popis dílčích jednotek je možný) 2. Soubor dat (Dataset) - informace kódované v definované struktuře, určené pro přímé strojové zpracování 3. Událost (Event) - zdroj s netrvalým a časově omezeným výskytem 4. Obraz (Image) - symbolická vizuální reprezentace jiná než text (obraz v elektronické či fyzické formě) 5. Interaktivní zdroj (Interactive resource) - zdroj, který vyžaduje interakci s uživatelem 6. Pohyblivý obraz (Moving Image) - série vizuálních reprezentací, které, když jsou ukazovány, vyvolávají dojem pohybu 7. Fyzický objekt (Physical object) - neanimovaný trojrozměrný objekt (předmět nebo látka) 8. Služba (Service) - systém zajišťující jednu či více funkcí pro koncové uživatele 9. Program (Software) - počítačový program ve zdrojové či kompilované formě 10. Zvuk (Sound) - zdroj, jehož obsah je určen především k poslechu 11. Stálý obraz (Still Image) - statická vizuální reprezentace 12. Text (Text) - zdroj, jehož obsahem jsou především slova ke čtení V systému formátu DC se uplatňuje i další typologie síťových elektronických zdrojů, která má důležitý doplňkový význam pro jejich vyhledávání. Formálním hlediskem se v tomto případě stává konkrétní formát zdroje (uspořádání dat) a je jen logické a rozumné, že tvůrci DC sáhli v tomto případě po známém internetovém standardu typologie elektronických zpráv MIME (viz charakteristika výše v části 2) v jeho poslední verzi RFC 2045 - RFC 2049. Celkový seznam schválených typů médií, který udržuje a neustále doplňuje úřad IANA (Internet Assigned Numbers Authority) [Internet Assigned, 2002], je k dnešnímu dni již poměrně dlouhý, v rámci již existujících provozů se jich zatím však užívá méně. Vybrané typy DC.formátů elektronických zdrojů uplatňované dle typologie MIME text/plain text/richtext text/html text/sgml text/xml image/jpeg image/gif image/tiff audio/basic video/mpeg application/postscript application/rtf application/wordperfect5.1 application/pdf application/powepoint application/msword application/pgp-encrypted application/pgp-signature application/marc model/vrml 24 5 Závěry Rozbor vybraných třídění a typologií internetových a webovských informačních zdrojů podává v celkovém průniku zajímavý, ale velmi komplikovaný obraz rozsahu a obsahu těchto dvou na sebe navazujících základních pojmů. Objektivně jde o jednu, resp. dvě velké množiny všech informačních zdrojů, avšak při pokusu poskládat pestrou mozaiku jednotlivých zjištěných skupin, kategorií, druhů a typů informačních zdrojů, uspořádat je za účelem jejich porovnání a zhodnocení zjistíme, že to zdaleka není tak jednoduchou záležitostí, jak by se na první pohled mohlo zdát. Analyzovaná třídění a typologie mají mnoho společných, ale také rozdílných rysů, které vyplývají především z okolností jejich vzniku a rozvoje a dále cílů a funkcí systémů, které tyto zdroje zpracovávají a zpřístupňují, a samozřejmě také z potřeb a požadavků jejich uživatelů. Rozsah tohoto článku neumožňuje prezentovat podrobnější závěry a hodnocení, proto se zatím omezím pouze na následující závěrečné poznámky: a) rozbor ukazuje, že existence a rozvoj internetových a webovských informačních zdrojů a způsobů jejich zpřístupňování způsobuje velké a neustálé změny jak v tradičních knihovnických, tak v novodobých tříděních a typologiích systémů provozovaných přímo v prostoru Internetu. Ačkoliv je mezi nimi řada rozdílů, lze konstatovat, že se postupně sbližují, a to i na základě vzájemného ovlivňování; hlavními principy dělení doposud byla různá hlediska, nastává však značný posun a do popředí se dostávají podstatné znaky zdrojů především typ a forma komunikované informace b) knihovnická třídění a typologie budou v současné době řešit svůj hlavní problém - zavedení jednotného principu pro hlavní třídění všech informačních materiálů a jeho sladění s dalšími návaznými typologiemi elektronických informačních zdrojů včetně síťových; v současné chvíli existuje pro mnohé zdroje minimálně dvojí stejné zařazování v rámci jednoho strojem čitelného záznamu; pro další vývoj bude optimální, pokud se knihovnická třídění a typologie v maximální možné míře sblíží s tříděními a typologiemi internetových systémů v zájmu budoucí vzájemné efektivní spolupráce c) třídění a typologie síťových informačních zdrojů u systémů, které se věnují jejich zpracovávání přímo v prostoru sítě Internet, se nepochybně, jak ukazuje analýza, dostaly na velmi solidní úroveň; mezi jednotlivými reprezentanty existují zatím jisté rozdíly (např. v oblasti typologie nových interaktivních zdrojů), ale jejich vzájemná spolupráce a diskuse již přináší své ovoce; za nejzajímavější lze v současné době pokládat typologii a třídění zdrojů rozvíjenou v rámci formátu „Dublin Core“ d) rozbor třídění a typologií digitálních informačních zdrojů dostupných v síti Internet prokázal jejich další jasný trend: vyčleňování jednotlivých kategorií či typů je na základní úrovni realizováno podle typu přenášené informace; v další úrovni je velmi časté třídění podle formy (formátu) uložené a přenášené informace; v dalším stručném přehledu jsou uvedeny jednak základní typy zdrojů společné pro všechna třídění a typologie, jednak další specifické typy, které se vyskytují spíše u systémů Internetu: 1. textové informační zdroje: zahrnují je všechny systémy; kromě termínu „text“ se více méně synonymně uplatňuje i termín „dokument“ nebo jazykový/písemný materiál; tento typ koresponduje i s položkou „text“ v typologii MIME 25 2. obrazové informační zdroje: kromě speciální kanadské typologie je zahrnují všechny systémy, ovšem u některých se pod něj začleňovaly i videozáznamy (např. to do nedávné doby platilo pro standard Dublin Core, situace se však v roce 2003 změnila, zavedeny byly dva jemnější typy obrazu - stálý a pohyblivý obraz); vedle typologie MIME rozlišují zvlášť „obraz“ a „video“ také systém ROADS a knihovnická třídění - ta dokonce jdou ještě dále tím, že vyčleňují kartografická díla (mapy), resp. i hudebniny, popř. partitury (jako reprezentanty ideografických informací) 3. zvukové informační zdroje: kromě kanadské typologie je zahrnují všechny systémy; tento typ zahrnuje i typologie MIME 4. počítačové programy (software): kromě kanadské typologie zahrnují tento typ zdroje všechny systémy; jde o významný typ, který se uplatňuje především při práci počítačů; typologie MIME jej zahrnuje pod obecněji pojatý typ „aplikace“ s tím, že k němu patří i textové zdroje závislé na speciálních programech 5. fyzické objekty/modely: tento typ, resp.kategorie zahrnují bez rozdílu všechny systémy (pro jeho označení se užívá různých dílčích termínů (trojrozměrný objekt, fyzický objekt, model, vrml aj.); v typologii Dublin Core byl s tímto typem určitý problém, protože byla původně zamýšlena jenom jako typologie pro elektronické zdroje, v současné době jde však o typologii, které pokrývá jak tradiční, tak elektronické zdroje, takže fyzické objekty jsou již její součástí 6. soubory dat: pod různými dílčími jmény je obsažen zejména v systémech samotné sítě Internet; knihovnické systémy spíše uvádějí dílčí typy číselných, statistických, bibliografických aj. dat 7. interaktivní zdroje: jeden z nejzajímavějších, ale ve své podstatě velmi složitý typ; zahrnují jej prakticky všechny systémy, některé jdou dále v dalším vyčleňování např. interaktivních multimédií a online služeb nebo ještě více specifičtějších typů, jako jsou diskusní skupiny, elektronické konference, vyhledávací nástroje Internetu, nebo dokonce internetové obchody, agendy výzkumných projektů, popř. celá webovská sídla (websites) či webovské systémy 8. události: diskutovaný typ informačního zdroje, který představuje komplex různých dílčích zdrojů; zahrnují je některé systémy Internetu Použité a citované informační zdroje Anglo-American Cataloguing Rules. Prepared under the direction of the Joint Steering Committee for Revision of AACR. 2nd ed., 1988 revision. Chicago : American Library Association, 1998. XXV, 677 s. ISBN 0-8389- 3360-2 BUCKLAND, Michael K. 1997. What is a „document“ ? Journal of the American Society for Information Science. 1997, vol. 48, no. 9, s. 804-809. Dostupný z také Wiley InterScience: Cataloging Internet Resources : a manual and practical guide. Nancy B. Olson, editor. 2nd ed. Dublin : OCLC, 1997. viii, 55 s. ISBN 1-55653-236-9. Revidované elektronické vydaní ze srpna 2002 je dostupné na WWW: 26 Draft Interim Guidelines for Cataloging Electronic Resources [online]. Library of Congress, Cataloguing Policy and Support Office. Washington (D.C.) : Library of Congress, 1998-05-01 [cit. 2005-03-30]. Dostupný z WWW: Dublin Core Resource Types : Structuralist DRAFT : July 24, 1997 [online]. Maintained by Roy Tennant. Berkeley, University of California, Sunsite, last updated 1998-02-27 [cit.1998-09-02]. Dokument již není k dispozici na WWW Dublin Core Metadata Initiative. 1998. Type Element Working Draft [online]. Simon Cox, Rebecca Guenther, Diann Rusch-Feja; DC Resource Type & Format Working Group. 1998-10-23 [cit. 2005-03-30]. Dostupný z WWW: Dublin Core Metadata Initiative. 1999. List of Resouce Types [online]. Editor(s) Rebecca Guenther; DC Type Working Group. 1999-08-05 [cit. 2000-05-15]. Dokument již není k dispozici na WWW Dublin Core Metadata Initiative. 2000. DCMI Type Vocabulary [online]. Dublin : OCLC, 2000-07-11 [cit. 2005- 03-30]. Dostupný z WWW: Dublin Core Metadata Initiative. 2003a. DCMI Type Vocabulary [online]. Dublin : OCLC, 2003-02-12 [cit. 2005-03-30]. Dostupný z WWW: Dublin Core Metadata Initiative. 2003b. DCMI Type Vocabulary [online]. Dublin : OCLC, 2003-11-19 [cit. 2005-03-30]. Dostupný z WWW: Dublin Core Metadata Initiative. 2004. DCMI Type Vocabulary [online]. Dublin : OCLC, 2004-06-14 [cit. 2005- 03-30]. Dostupný z WWW: Dublin Core Metadata Initiative. 2005. Dublin Core Metadata Initiative (DCMI) : [WebSite] [online]. c1995- 2005 [cit. 2005-03-30]. Dostupný z WWW: HEERY, Rachel. 1998. ROADS Templates : how they are used [online]. Bath (UK), last upd. 1998-10-05 [cit. 2005-03-30]. Dostupný z WWW: HIRONS, Jean, GRAHAM, Crystal. 1997. Issues Related to Seriality. In International Conference on the Principles and Future Development of AACR : Toronto, Canada, October 23-25, 1997 [online]. Ottawa : NLC, 1997 [cit. 2005-03-30]. [44 s. ve formátu PDF]. Dostupný z WWW: HOWARTH, Lynne. 1997. Content versus Carrier. In International Conference on the Principles and Future Development of AACR : Toronto, Canada, October 23-25, 1997 [online]. Ottawa : NLC, 1997 [cit. 2005-03-30]. [11 s. ve formátu PDF]. Dostupný z WWW: IFLA Study Group on the Functional Requirements for Bibliographic Records. 1998. Functional Requirements for Bibliographic Records : Final Report. München : Saur, 1998. viii, 136 s. UBCIM publications, N.S., vol. 19. Dostupný také z WWW: . ISBN 3-598-11382-X Internet Assigned Numbers Authority. 2002. MIME Media Types [online]. c1999-2001, updated 2002-01-02 [cit. 2005-03-30]. Dostupný z WWW: ISBD(ER) : International Standard Bibliographic Description for Electronic Resources : Revised from the ISBD(CF) : International Standard Bibliographic Description for Computer Files. Recommended by the ISBD(ER) Review Group. München : Saur, 1997. 109 s. UBCIM publications, N.S., vol. 17. Dostupný také z WWW: KIRRIEMUIR, John. 1998. What is ROADS? [online]. Bath : University of Bath, UKOLN, Metadata Group, [cit. 2005-03-30]. Dostupný z WWW: KNIGHT, John, HAMILTON, Martin. 1997. Dublin Core Standard Resource Types [online]. Loughborough : Loughborough University, 1997 [cit. 1998-08-21]. Dokument již není k dispozici na WWW The Logical Structure of the Anglo-American Cataloguing Rules - Part I [online]. Drafted for The Joint Steering Committee for Revision of AACR by T. Delsey with assistance from B. Dulabahn, M. Heaney, J. Hirons. 27 Ottawa, August 1998 [cit. 2005-03-30]. 436 s. Ve formátu PDF. Dostupný z WWW: MARC 21 Concise Format for Bibliographic Data [online]. 2004 concise edition (includes 2000 edition with update no. 1 (October 2000), update no. 2 (October 2001), update no. 3 (October 2002), update no. 4 (October 2003) and update no. 5 (October 2004)). Washington (D.C.) : Library of Congress, 2005-02-09 [cit. 2005-03- 30]. Dostupný z WWW: NOVÁKOVÁ, Marta. 1983. Informačné pramene. Bratislava : Slovenské pedagogické nakladateľstvo, 1983. 221 s. The principles and future of AACR : proceedings of the International Conference on the Principles and Future Development of AACR : Toronto, Ontario, Canada, October 23/25, 1997. Edited by Jean Weihs. Ottawa : Canadian Library Association ; London : Library Association Publishing ; Chicago : American Library Association, 1998. ISBN 0-88802-287-5 (ALA); 1-85604-303-7 (LA). Dostupný také na WWW: RFC 1738. 1994. Uniform Resource Locators (URL) [online]. T. Berners-Lee, L. Masinter, L. Masinter, editors. December 1994 [cit. 2005-03-30]. Dostupný z WWW: RFC 2046. 1996. Multipurpose Internet Mail Extensions (MIME). Part Two, Media Types [online]. N. Freed, N. Borenstein. November 1996 [cit. 2005-03-30]. Dostupný z WWW: RFC 2077. 1997. The Model Primary Content Type for Multipurpose Internet Mail Extensions [online]. S. Nelson, C. Parks. January 1997 [cit. 2005-03-30]. Dostupný z WWW: SCHAMBER, Linda. 1996. What is a document ? : rethinking the concept in uneasy times. Journal of the American Society for Information Science. 1996, vol. 47, no. 9, s. 669-671. Dostupný z také Wiley InterScience: STRAKA, Josef. 1990. Sociální informatika : terminologický a výkladový slovník pro posluchače katedry vědeckých informací a knihovnictví. Praha : Karolinum, 1990. 217 s. ISBN 80-7066-324-3 UNIMARC concise bibliographic format [online]. Universal Bibliographic Control and International MARC Core Programme. May 1998 [cit. 2005-03-30]. Nezahrnuje aktualizaci z roku 2002. Dostupný z WWW: UNIMARC Manual : Bibliographic Format. IFLA Universal Bibliographic Control and International MARC Programme. 2nd ed., update 1 (1996), update 2 (1998), update 3 (2000), update 4 (2002). München : Saur, 1994- 1998. Nestr. University of Bath. 2000. UKOLN. The ROADS Template Registry [online]. Maintained by M. Day. Bath (UK) : UKOLN, last upd. 2000-05-16 [cit. 2005-03-30]. Dostupný z WWW: USMARC Concise Format for Bibliographic Data. Library of Congress. Network Development and MARC Standards Office. 1994 ed., including update no. 1 (March 1995), update no. 2 (March 1996), and update no. 3 (July 1997). Washington (D.C.) : Library of Congress, 1997. Nestr. Vancouver Webpages. 1998. META tag builder [online]. Richmond (BC, Kanada), [last modif. 1998-01-11] [cit. 2005-03-30]. Dostupný z WWW: Vancouver Webpages. 1997. VW96 schema description [online]. Richmond (BC, Kanada), [last modif. 1997-05- 09] [cit. 2005-03-30]. Dostupný z WWW: WILLER, Mirna. 1998. UNIMARC for ER. In 64th IFLA General Conference, Amsterdam, Netherlands, August 16 - August 21, 1998 [online]. 1998 [cit. 2005-03-30]. Dostupný z WWW: Záznam pro souborný katalog : UNIMARC. Speciální dokumenty. Praha : Národní knihovna ČR 1998. 50 s.