Otevřená data Alternativní GIS – volně dostupné programy a data Definice Otevřená data jsou: • Informace a data bezplatně a volně dostupná na internetu ve strukturované a strojově čitelné podobě a zpřístupněná způsobem, který jejich využití neklade zbytečné technické či jiné překážky. nebo • Data zveřejněná na internetu, která jsou úplná, snadno dostupná, strojově čitelná, používající standardy s volně dostupnou specifikací, zpřístupněná za jasně definovaných podmínek užití dat s minimem omezení a dostupná uživatelům při vynaložení minima možných nákladů. Otevřená data nejsou: • tabulky zveřejněné v podobě PDF souborů • tabulky zveřejněné v podobě HTML stránky Definice • úplná - zveřejněná v maximálním možném rozsahu, tj. nejsou záměrně odstraňovány vybrané záznamy a data jsou udržována co možná nejaktuálnější, • snadno dostupná - dostupná na internetu a dohledatelná běžnými nástroji informačních technologií, • strojově čitelná - ve formátu, který je strukturovaný tak, že pomocí programu z něj lze získat žádané údaje, • používající standardy s volně dostupnou specifikací (tzv. otevřené standardy) - ve formátu, který je volně (bezplatně) dostupný pro libovolné použití nebo do takovéhoto formátu převoditelný volně (bezplatně) dostupnou aplikací, Definice • zpřístupněna za jasně definovaných podmínek užití dat (licence) s minimem omezení, tj. podmínky užití musí být jasně definovány a musí umožňovat využití dat pro komerční i nekomerční účely, • dostupná uživatelům při vynaložení minima možných nákladů na jejich získání: • jejich poskytovatelé jsou oprávněni žádat úhradu maximálně ve výši, která nesmí přesáhnout náklady spojené s jejich zpřístupněním uživateli, • poskytovatel dat může jednorázově vyžádat i úhradu za mimořádně náročné pořízení dat, pokud si uživatel zpřístupnění těchto dat vyžádá. • Zpoplatnění je však předpokládáno ve zcela výjimečných případech. Pět hvězdiček • Tim Berners-Lee • Brit, Sir, ředitel W3C… • jeden z tvůrců Internetu • pětihvězdičkový systém hodnocení otevřenosti dat • jednoduchá orientace ve stupni otevřenosti datových sad Pět hvězdiček http://5stardata.info/en/ Definice Dostupná data • Data jsou zveřejněna na Internetu pod otevřenou licencí, nezáleží na formátu. Existují tedy určitá technická omezení pro jejich využití, nicméně legislativní omezení jsou odstraněna. • Např. mapa ve formátu PDF. Strukturovaná data • Data jsou zveřejněna ve strojově čitelném formátu. Formát není otevřený. Musíte mít určitý software. • Např. Excel nebo data uložená v Esri GeoDatabase. Data v otevřeném formátu • Data jsou zveřejněna v otevřeném formátu. Strojový formát je otevřený, tj. veřejně publikovaný s licencí umožňující jeho využití. • CSV, GML, SHP – nemusí to být jen standard OGC. • Minimum pro otevřená data veřejné správy v ČR. Definice 4★ dat Data s identifikátorem • Data jsou dohledatelná, mají unikátní identifikátor (URI) v celé síti Internet. Jednotlivé datové sady musí mít vlastní adresu. • Pracnější i pro poskytovatele dat. Vlastní stránky pro každou datovou sadu, složitější struktura dat. • Např. v distribuci datové sady o knihách musí mít všechny entity jako knihy, autoři či vydavatelé přiřazen identifikátor. • Přirozeným způsobem reprezentace dat je použití RDF. • „Data, která kromě svobodné specifikace a jednoduché čitelnosti mají také vlastní URL adresu“ (GIS Mentors) Náklady a přínosy 4★ dat Jako poskytovatel… ✔ Máte velice jemnou kontrolu nad datovými položkami a můžete optimalizovat přístup k nim (vyvažování zátěže, kešování, atd.) ✔ Jiní poskytovatelé dat mohou nyní linkovat do vašich dat a povýšit je na 5 hvězdiček! ⚠ Typicky investujete nějaký čas do přípravy a transformace dat k publikaci. ⚠ Budete muset přiřadit URI datovým položkám a přemýšlet o tom, jak data reprezentovat. ⚠ Budete muset buď najít existující vzory k přepoužití a nebo vytvořit svoje vlastní. zdroj: https://5stardata.info/cs/ Jako uživatel můžete dělat to, co s ★★★ webovými daty, a navíc: ✔ Můžete se na ně odkazovat odkudkoliv (na webu nebo lokálně). ✔ Můžete si na ně dávat záložky. ✔ Můžete přepoužívat části dat. ✔ Můžete přepoužívat existující nástroje a knihovny a to i v případě, že rozumí pouze částem formátu použitého poskytovatelem. ⚠ Porozumění struktuře “grafových” RDF dat může být náročnější, než v případě tabulkových dat (Excel/CSV) nebo stromových dat (XML/JSON). ✔ Můžete data bezpečně kombinovat s jinými daty. URI jsou globální schéma, takže pokud mají dvě věci stejné URI, tak je to záměr, a tedy na dobré cestě k 5-hvězdičkovým datům! Definice 5★ dat Propojená data (=„linked data“) • Data jsou navzájem prolinkovaná, lze mezi nimi navigovat. Data jsou nejen identifikovatelná pomocí URI, ale obsahují odkazy na další datové sady. • Vyžaduje, aby distribuce splňovala standardy propojených dat (angl. Linked Data). • Propojení dat spočívá v tom, že u různých datasetů (pomocí kódu) určíte, která data jsou společná. • Standardy propojených dat umožňují vyjadřovat souvislosti mezi různými datovými sadami v podobě strojově zpracovatelných odkazů. • Pro poskytovatele to znamená hlídat funkčnost odkazů na ext. zdroje. • „Data, která jsou kromě svobodné specifikace, jednoduché čitelnosti a vlastní URL adresy i systematicky propojená“ (GIS Mentors) Náklady a přínosy 5★ dat Jako poskytovatel… ✔ Učiníte vaše data nalezitelnými. ✔ Zvýšíte hodnotu vašich dat. ✔ Vaše vlastní organizace získá stejné výhody z linkování, jako vaši uživatelé. ⚠ Budete muset investovat zdroje do linkování vašich dat na jiná data na Webu. ⚠ Může se stát, že budete potřebovat opravovat rozbité nebo chybné linky. ⚠ Pozor na zákon o ochraně osobních údajů. Při otevírání dat je třeba myslet na to, že zveřejněná data by neměla obsahovat žádné osobní údaje – měla by být důsledně anonymizována. zdroj: https://5stardata.info/cs/ Jako uživatel můžete dělat to, co se ★★★★ webovými daty, a navíc: ✔ Při používání dat můžete objevovat další (související) data. ✔ Můžete přímo zjistit datové schéma. ⚠ Musíte teď řešit rozbité odkazy v datech, stejně jako chyby 404 na webových stránkách. ⚠ Pozor na propojení s chybnými daty. Prezentace dat z různých odkazů jako skutečností je stejně riskantní, jako nechávat lidi vkládat obsah z libovolného webu na vaše stránky. Stále je potřeba opatrnosti, důvěry a zdravého rozumu. Linked data („Propojená data“) • Specifická podmnožina otevřených dat, jejich pokročilejší podoba. • Měla by splňovat principy propojených dat: • identifikovaná pomoci URI („Uniform Resource Identifier“), • při vyhledání URI jsou poskytovány další informace pomocí standardů (RDF, SPARQL), • obsahují odkazy na další URI, aby umožnila přístup k širšímu obsahu. • Každá propojená data nemusí být automaticky otevřená! • Ale nejvyšší stupeň otevřených dat (5 hvězdiček) by měla být propojená data. • Další informace: • https://www.w3.org/standards/semanticweb/data • Z8117 Metainformace v kartografii • Sémantický web - informace strukturovány a uloženy podle standardizovaných pravidel, což usnadňuje jejich vyhledání a zpracování. DBPedia • https://wiki.dbpedia.org/ • Projekt, který poskytuje obsah Wikipedie ve formátu RDF. • Navíc propojuje tento obsah s dalšími daty – např. Geonames. LinkedGeoData • http://linkedgeodata.org • Přetváří informace z OpenStreetMap, aby odpovídaly definici pro nejvyšší stupeň otevřených dat. • Nejen otevřená a propojená, ale i prostorová data. • Propojuje data s dalšími informacemi z DBpedie a GeoNames. Linked data („Propojená data“) RDF Resource Description Framework • obecný rámec pro popis, výměnu a znovupoužití metadat • vytvořen W3C • zaznamenává vztah subjekt, predikát a objekt (=podmět, vlastnost a předmět) = „triple“ • např. „Geografický ústav sídlí na Přírodovědecké fakultě.“ • tyto vztahy se dají vzájemně řetězit • zapisuje se v XML, číst a posílat si ho navzájem mají počítače • Validátor: http://www.w3.org/RDF/Validator • Tutorial: http://www.linkeddatatools.com/introducing-rdf RDF RDF/XML podle tutorialu Oxford Oxfordshire Wikipedia 10000 Oxford • Existuje až 7 různých formátů, jak zapisovat RDF do textu. • RDF/XML, N-Triples, N-Quads, Turtle, TriG, JSON-LD, RDFa • Každá má výhody a nevýhody. RDF/XML 3115 Jihomoravský kraj CZ064 1163508 Brno 3140 Moravskoslezský kraj CZ080 1205834 Ostrava RDF triples RDF/XML s propojením podle tutorialu Oxford Oxfordshire Wikipedia 10000 RDF/XML - propojená data 3115 Jihomoravský kraj CZ064 1163508 3140 Moravskoslezský kraj CZ080 1205834 RDF triples - propojená data SPARQL Simple Protocol and RDF Query Language • dotazovací jazyk, který je určený k dotazům nad RDF formátem • podobný SQL (pojmy SELECT, WHERE…) • standard W3C GeoSPARQL • rozšíření pro práci s prostorovými daty – např. topologie • standard OGC SPARQL endpoint https://data.europa.eu/sparql SPARQL endpoint http://dbpedia.org/snorql/ SPARQL SELECT ?name ?birth ?description ?person WHERE { ?person a dbo:MusicalArtist . ?person dbo:birthPlace :Brno . ?person foaf:name ?name . ?person rdfs:comment ?description . FILTER (LANG(?description) = 'en') . } ORDER BY ?name Legislativa Zákon č. 106/1999 o svobodném přístupu k informacím „Otevřenými daty se pro účely tohoto zákona rozumí informace zveřejňované způsobem umožňujícím dálkový přístup v otevřeném a strojově čitelném formátu, jejichž způsob ani účel následného využití není omezen a které jsou evidovány v národním katalogu otevřených dat.“ • Povinnými subjekty, které mají povinnost poskytovat informace vztahující se k jejich působnosti, jsou: • státní orgány, • územní samosprávné celky a jejich orgány, • veřejné instituce, • veřejné podniky (dominantní vliv státu). • Aktuální znění je účinné od 1. 4. 2023. Legislativa • Povinné subjekty zaevidují informace, které mají povinnost zveřejnit jako otevřená data, v národním katalogu otevřených dat. • Národní katalog otevřených dat je informační systém sloužící k evidování informací zveřejňovaných jako otevřená data. • Správcem národního katalogu otevřených dat je Digitální a informační agentura. • Informace obsažené v národním katalogu otevřených dat jsou poskytovány: • jako otevřená data, • způsobem umožňujícím dálkový přístup = zejména rozhraním pro programování aplikací (tzv. API). Legislativa • Je povinnost poskytovat v kvalitě otevřených dat a ideálně prostřednictvím tzv. API (= rozhraním pro programování aplikací) tzv. dynamická data. • „informace v elektronické podobě, které podléhají průběžné aktualizaci nebo aktualizaci v reálném čase“, • data z různých čidel a měřících zařízení. • Je povinnost poskytovat v kvalitě otevřených dat, a opět ideálně formou API, datové soubory s vysokou hodnotou. Národní katalog otevřených dat https://data.gov.cz/ https://data.gov.cz/datov%C3%A9-sady Národní katalog otevřených dat • nová směrnice o otevřených datech • s účinností od července 2021 https://data.gov.cz/2019/11/18/sm%C4%9Brnice-o- otev%C5%99en%C3%BDch-datech.html Směrnice o otevřených datech Směrnice o otevřených datech • Datové soubory s vysokou hodnotou (high-value datasets) • Mají být bezplatně zpřístupněny prostřednictvím API. • V případech, kdy je to možné, směrnice podporuje i stažení souborů formou dumpů. • Tematické kategorie: • Geoprostorové údaje • Pozorování Země a životní prostředí • Meteorologie • Statistika • Společnosti a vlastnictví společností • Mobilita • Zákon č. 261/2021 Sb., kterým se mění některé zákony v souvislosti s další elektronizací postupů orgánů veřejné moci Směrnice o otevřených datech • Nejpozději od 1. 1. 2024 • Všechny veřejné registry, evidence, seznamy nebo rejstříky (databáze vymezené ze zákona) musí být zveřejněny jako otevřená data. • Od 1. 2. 2022 • Státní orgány, krajské úřady a obecní úřady obcí s rozšířenou působností zveřejňují metadata informací na jejich úředních deskách a metadata těchto úředních desek jako otevřená data. Směrnice o otevřených datech • Veřejný datový fond • „tvořený publikovanými veřejnými údaji veřejné správy je základní metodou pro sdílení veřejných informací mezi veřejnoprávními subjekty navzájem i pro sdílení veřejných údajů mezi veřejnoprávní a soukromoprávní sférou v ČR. • Veřejný datový fond se od pouhé publikace automatizovaně čitelných otevřených dat posune též k publikaci právně závazných, platných a pravidelně aktualizovaných datových sad s jasně definovanou zodpovědností za takové sady.” Veřejný datový fond ✔ Garance kvality obsahu ✔ Formální správnost ✔ Získání údajů přes referenční rozhraní ● Veřejné údaje ● Bez kontroly oprávnění přístupu ● Volání jednotlivých záznamů ale i dávky ve kvalitě garantovaných otevřených dat Směrnice o otevřených datech Propojený datový fond ✔ Garance kvality obsahu ✔ Formální správnost ✔ Získání údajů přes referenční rozhraní ● Neveřejné údaje ● Oprávnění přístupu dle RPP ● Volání jednotlivých záznamů ● Neveřejnost odůvodnit odkazem na legislativu. Konference Otevřená data 2022 • https://opendata.gov.cz/edu:konference:2022 • Prezentace k dispozici Jak na to Ministerstvo vnitra ČR • Nabízí zdarma podporu v podobě školení, workshopů a konzultací • https://data.gov.cz/vzd%C4%9Bl%C3%A1v%C3%A1n%C3%AD • E-learningové materiály, registrace na workshopy, záznamy z workshopů Soustava katalogů otevřených dat Evropský katalog otevřených dat https://data.europa.eu/ Velká Británie https://data.gov.uk Co je v národním katalogu… …by mělo být i v evropském Brno https://data.brno.cz/ Praha http://opendata.praha.eu/ Portál pro otevřená data. Praha Prostorová data.http://www.geoportalpraha.cz/ Svět Mapa portálů s otevřenými daty https://opendatainception.io/ Odkazy na informace v ČR • https://data.gov.cz/ - Národní katalog otevřených dat • https://data.gov.cz/vzd%C4%9Bl%C3%A1v%C3%A1n%C3%AD – vzdělávací materiály o otevřených datech • https://opendata.gov.cz/ - státní stránky (MV ČR) s návodem, jak publikovat otevřená dat, metodiky a standardy, jak publikovat, co publikovat, časový harmonogram • https://opendata.gov.cz/edu:konference:2022 - Konference Otevřená data • spousta webů neziskového sektoru • Z8117 Metainformace v kartografii