1 Laboratoř geoinformatiky a kartografie TEZAURY A GAZETEERY Laboratoř geoinformatiky a kartografie • Původně vyhledávání (prostorových) dat v (elektronickém) prostředí úkol pro zaškolené profesionály • Posléze enormní nárůst objemu dostupných informací – nově vytvářená digitální data – digitalizace papírových (analogových zdrojů) • Množství dat komplikovalo vyhledávání relevantních informací (zejména pro koncové uživatele) • Celá řada přístupů o strukturovaný přístup k datům – nejčastější řízené slovníky (též tezaury; angl. thesaurus) Historie Laboratoř geoinformatiky a kartografie převzato z: http://narozeniny.seznam.cz/details.xhtml Principy tezaurů na Seznam.cz Laboratoř geoinformatiky a kartografie • Řízený (kontrolovaný) slovník = seznam dohodnutých termínů převzatých z běžného jazyka – podchycena (kontrolována) gramatická forma – u cizojazyčných verzí sjednoceno hláskování – v hierarchické struktuře + umožňuje indexování, ukádání, vyhledávání + doplňují vyhledávací algoritmus – multitezaurové systémy Principy Laboratoř geoinformatiky a kartografie • Ekvivalence (vztah mezi synonymy) – všechna synonyma mohou být rovnocenná – obvykle jeden z termínů je zvolen jako preferovaný, další jsou pak alternativy k danému termínu – koncový uživatel může použít jakékoli synonymum – vzácně vztahy mezi pseudosynonymy; slovy, které mají podobný, ne však totožný význam • Hierarchie (na rozdíl od ekvivalence není symetrická) – vytvořena vymezením vztahů mezi podřazenými pojmy (narrower terms; podtřídami) a nadřazenými pojmy (broader terms; nadtřídami) Hierarchické (a relační) vazby Laboratoř geoinformatiky a kartografie – nejčastěji jeden typ této vazby, výjimečně se definuje více • Asociace (symetrický vztah) – pro sémantický vztah, který nelze označit pomocí ekvivalence ani hierarchie – např. antonyma • Mezijazyková ekvivalence – pouze u multilingválních (vícejazyčných) tezaurů – obvykle pouze u preferovaných termínů – slovník = slova, tezaurus = klíčové fráze Hierarchické (a relační) vazby 2 Laboratoř geoinformatiky a kartografie • Převzetí (adaptace) již existujícího – obvykle nerealizovatelná • Tvorba teazurů je řešena v ISO 2788, ISO 5964 (multilingvální) ANSI/NISO Z39.19 • Obecně používané dva přístupy: 1. postup shora dolů (top-down method) » skupina expertů stanoví rozsah a přibližný okruh termínů – definice vztahů – upřesnění okruhu termínů – typy vazeb – předběžná verze - testování 2. postup zdola nahoru (bottom-up method) » skupina expertů vybere sadu indexovaných dokumentů – výběr termínů – upřesní se okruh - … Tvorba tezaurů Laboratoř geoinformatiky a kartografie • Vyvíjí se mnoho tezaurů (snaha pokrýt vědní disciplíny, aplikace) • Propojení možné formou: – supertezauru – volné integrace • Varianty: – federace: kombinace při zachování autonomie, různé DB, platformy zpracování, nekonzistence – sjednocení: – o stupeň těsnější vztah, odstraněny nekonzistence, někdy vzniká tzv. metatezaurus » např. tezaurus Meta sdružující několik lékařských tezaurů Integrace tezaurů Laboratoř geoinformatiky a kartografie – spojení: integrace mikrotezaurů (tj. tezaurů se specializovanými slovníky; nazývané jako subtezaury) s více obecnými makrotezaury. Mikro- a makrotezaury se musí vzájemně přizpůsobit » např. European Educational Thesaurus • Tezaury v metadatech Integrace tezaurů Laboratoř geoinformatiky a kartografie • Prostorové tezaury – sada organizovaných geografických názvů včetně vztahů mezi těmito názvy » např. administrativní jednotky • Od 19. století ve Spojeném Království • Koncem 19. století i v Rakousku – Uhersku – navázáno na sčítání lidu, doplněno statistickými daty – základ pro rekonstrukci např. osídlení v daném územním celku v historickém vývoji – administrativní (soudní a politické), církevní členění • Další vývoj v 90. letech 20. století – vývoj Webu Prostorové tezaury neboli gazeteery Laboratoř geoinformatiky a kartografie • Geoparsing – klíčovému slovu nebo frázi nestrukturalizovaného textu se přidělují geografické identifikátory + souřadnice + kódové informace » např. GEOnet Names Server • Geokódování – analyzuje jednoznačnou strukturovanou lokaci (jako např. PSČ) a explicitně formátované numerické souřadnice – geoparsing jde za hranice geokódování Prostorové tezaury neboli gazeteery Laboratoř geoinformatiky a kartografie • Obsahují přinejmenším: – unikátní identifikátor geografického prvku (objektu) – geografický název – typ geografického prvku – umístění Prostorové tezaury neboli gazeteery 3 Laboratoř geoinformatiky a kartografie PŘÍKLADY TEZAURŮ Laboratoř geoinformatiky a kartografie • Geografická klíčová slova pro danou oblast zájmu a rozdílné úrovně měřítka (obydlené místo, mikroregion, kraj, stát, kontinent) • Od roku 1987, elektronicky pak od roku 2000 • http://www.getty.edu/research/tools/vocabularies/tgn/ • Obsahuje přes 1 000 000 názvů osídlených míst, administrativních celků, infrastruktury, hydrografie, orografie a vegetace na celé Zemi • Většinou angličtina a místní jazyk • Hierarchie Getty Thesaurus of Geographical Names (TGN) Laboratoř geoinformatiky a kartografie Getty Thesaurus of Geographical Names (TGN) Laboratoř geoinformatiky a kartografie • Spojená databáze U.S. National GeospatialIntelligence Agency a U.S. Board on Geographic Names • Celosvětový tezaurus, přes 4 miliony termínů – osídlená místa, administrativní jednotky, infrastruktura, hydrografie, orografie, vegetace, podmořské názvy • Oproti TGN široké spektrum nástrojů pro vyhledávání a aktuálnější údaje – např. pro ČR i synonyma kraj Vysočina – Jihlavský • http://earth-info.nga.mil/gns/html/ GeoNet Name Server (GNS) Laboratoř geoinformatiky a kartografie GeoNet Name Server (GNS) Laboratoř geoinformatiky a kartografie • Profilovaný pouze na administrativní členění a demografii • Hierarchie jednotlivých států – země, provincie, kraje, … – města včetně výsledků sčítání lidu • Od roku 2006 nebyl aktualizován • Projekt uzavřen na konci července 2013 • http://world-gazetteer.com The World Gazetteer 4 Laboratoř geoinformatiky a kartografie The World Gazetteer Laboratoř geoinformatiky a kartografie • http://www.geonames.org • 8 milionů geografických názvů • Zdarma • Časté využití pro sociální sítě Geonames Laboratoř geoinformatiky a kartografie • GEneral Multilingual Environmental Thesaurus (GEMET) • Vyvinuto European Environmental Agency (EEA) • Počátek od roku 1995 v Umwelt Thesaurus Umweltbundesamt (UBA-A) ve Vídni, postupně spojení dalších tezaurů • Celkem takřka 7000 environmentálních termínů • 32 jazyků • INSPIRE témata prostorových dat GEMET Laboratoř geoinformatiky a kartografie GEMET