Otevřená data
Alternativní GIS – volně dostupné programy a data
Definice
Otevřená data jsou:
• Informace a data bezplatně a volně dostupná na internetu ve
strukturované a strojově čitelné podobě a zpřístupněná způsobem,
který jejich využití neklade zbytečné technické či jiné překážky.
nebo
• Data zveřejněná na internetu, která jsou úplná, snadno dostupná,
strojově čitelná, používající standardy s volně dostupnou specifikací,
zpřístupněná za jasně definovaných podmínek užití dat s minimem
omezení a dostupná uživatelům při vynaložení minima možných
nákladů.
Otevřená data nejsou:
• tabulky zveřejněné v podobě PDF souborů
• tabulky zveřejněné v podobě HTML stránky
Definice
• úplná - zveřejněná v maximálním možném rozsahu, tj. nejsou záměrně
odstraňovány vybrané záznamy a data jsou udržována co možná
nejaktuálnější,
• snadno dostupná - dostupná na internetu a dohledatelná běžnými
nástroji informačních technologií,
• strojově čitelná - ve formátu, který je strukturovaný tak, že pomocí
programu z něj lze získat žádané údaje,
• používající standardy s volně dostupnou specifikací (tzv. otevřené
standardy) - ve formátu, který je volně (bezplatně) dostupný pro
libovolné použití nebo do takovéhoto formátu převoditelný volně
(bezplatně) dostupnou aplikací,
Definice
• zpřístupněna za jasně definovaných podmínek užití dat (licence) s
minimem omezení, tj. podmínky užití musí být jasně definovány a musí
umožňovat využití dat pro komerční i nekomerční účely,
• dostupná uživatelům při vynaložení minima možných nákladů na
jejich získání:
• jejich poskytovatelé jsou oprávněni žádat úhradu maximálně ve výši,
která nesmí přesáhnout náklady spojené s jejich zpřístupněním
uživateli,
• poskytovatel dat může jednorázově vyžádat i úhradu za mimořádně
náročné pořízení dat, pokud si uživatel zpřístupnění těchto dat
vyžádá.
• Zpoplatnění je však předpokládáno ve zcela výjimečných
případech.
Pět hvězdiček
• Tim Berners-Lee
• Brit, Sir, ředitel W3C…
• jeden z tvůrců Internetu
• pětihvězdičkový systém hodnocení otevřenosti dat
• jednoduchá orientace ve stupni otevřenosti
datových sad
Pět hvězdiček
http://5stardata.info/en/
Definice
Dostupná data
• Data jsou zveřejněna na Internetu pod otevřenou licencí,
nezáleží na formátu. Existují tedy určitá technická omezení pro
jejich využití, nicméně legislativní omezení jsou odstraněna.
• Např. mapa ve formátu PDF.
Strukturovaná data
• Data jsou zveřejněna ve strojově čitelném formátu. Formát není
otevřený. Musíte mít určitý software.
• Např. Excel nebo data uložená v Esri GeoDatabase.
Data v otevřeném formátu
• Data jsou zveřejněna v otevřeném formátu. Strojový formát je
otevřený, tj. veřejně publikovaný s licencí umožňující jeho využití.
• CSV, GML, SHP – nemusí to být jen standard OGC.
• Minimum pro otevřená data veřejné správy v ČR.
Definice 4★ dat
Data s identifikátorem
• Data jsou dohledatelná, mají unikátní identifikátor (URI) v celé síti
Internet. Jednotlivé datové sady musí mít vlastní adresu.
• Pracnější i pro poskytovatele dat. Vlastní stránky pro každou datovou
sadu, složitější struktura dat.
• Např. v distribuci datové sady o knihách musí mít všechny entity jako
knihy, autoři či vydavatelé přiřazen identifikátor.
• Přirozeným způsobem reprezentace dat je použití RDF.
• „Data, která kromě svobodné specifikace a jednoduché čitelnosti mají
také vlastní URL adresu“ (GIS Mentors)
Náklady a přínosy 4★ dat
Jako poskytovatel…
✔ Máte velice jemnou kontrolu nad datovými položkami a můžete optimalizovat přístup k nim
(vyvažování zátěže, kešování, atd.)
✔ Jiní poskytovatelé dat mohou nyní linkovat do vašich dat a povýšit je na 5 hvězdiček!
⚠ Typicky investujete nějaký čas do přípravy a transformace dat k publikaci.
⚠ Budete muset přiřadit URI datovým položkám a přemýšlet o tom, jak data reprezentovat.
⚠ Budete muset buď najít existující vzory k přepoužití a nebo vytvořit svoje vlastní.
zdroj: https://5stardata.info/cs/
Jako uživatel můžete dělat to, co s ★★★ webovými daty, a navíc:
✔ Můžete se na ně odkazovat odkudkoliv (na webu nebo lokálně).
✔ Můžete si na ně dávat záložky.
✔ Můžete přepoužívat části dat.
✔ Můžete přepoužívat existující nástroje a knihovny a to i v případě, že rozumí pouze částem
formátu použitého poskytovatelem.
⚠ Porozumění struktuře “grafových” RDF dat může být náročnější, než v případě tabulkových
dat (Excel/CSV) nebo stromových dat (XML/JSON).
✔ Můžete data bezpečně kombinovat s jinými daty. URI jsou globální schéma, takže pokud
mají dvě věci stejné URI, tak je to záměr, a tedy na dobré cestě k 5-hvězdičkovým datům!
Definice 5★ dat
Propojená data (=„linked data“)
• Data jsou navzájem prolinkovaná, lze mezi nimi navigovat. Data jsou
nejen identifikovatelná pomocí URI, ale obsahují odkazy na další
datové sady.
• Vyžaduje, aby distribuce splňovala standardy propojených dat (angl.
Linked Data).
• Propojení dat spočívá v tom, že u různých datasetů (pomocí kódu)
určíte, která data jsou společná.
• Standardy propojených dat umožňují vyjadřovat souvislosti mezi
různými datovými sadami v podobě strojově zpracovatelných odkazů.
• Pro poskytovatele to znamená hlídat funkčnost odkazů na ext. zdroje.
• „Data, která jsou kromě svobodné specifikace, jednoduché čitelnosti a
vlastní URL adresy i systematicky propojená“ (GIS Mentors)
Náklady a přínosy 5★ dat
Jako poskytovatel…
✔ Učiníte vaše data nalezitelnými.
✔ Zvýšíte hodnotu vašich dat.
✔ Vaše vlastní organizace získá stejné výhody z linkování, jako vaši uživatelé.
⚠ Budete muset investovat zdroje do linkování vašich dat na jiná data na Webu.
⚠ Může se stát, že budete potřebovat opravovat rozbité nebo chybné linky.
⚠ Pozor na zákon o ochraně osobních údajů. Při otevírání dat je třeba myslet
na to, že zveřejněná data by neměla obsahovat žádné osobní údaje – měla by být
důsledně anonymizována.
zdroj: https://5stardata.info/cs/
Jako uživatel můžete dělat to, co se ★★★★ webovými daty, a navíc:
✔ Při používání dat můžete objevovat další (související) data.
✔ Můžete přímo zjistit datové schéma.
⚠ Musíte teď řešit rozbité odkazy v datech, stejně jako chyby 404 na webových
stránkách.
⚠ Pozor na propojení s chybnými daty. Prezentace dat z různých odkazů jako
skutečností je stejně riskantní, jako nechávat lidi vkládat obsah z libovolného webu
na vaše stránky. Stále je potřeba opatrnosti, důvěry a zdravého rozumu.
Linked data („Propojená data“)
• Specifická podmnožina otevřených dat, jejich pokročilejší podoba.
• Měla by splňovat principy propojených dat:
• identifikovaná pomoci URI („Uniform Resource Identifier“),
• při vyhledání URI jsou poskytovány další informace pomocí standardů
(RDF, SPARQL),
• obsahují odkazy na další URI, aby umožnila přístup k širšímu obsahu.
• Každá propojená data nemusí být automaticky otevřená!
• Ale nejvyšší stupeň otevřených dat (5 hvězdiček) by měla být
propojená data.
• Další informace:
• https://www.w3.org/standards/semanticweb/data
• Z8117 Metainformace v kartografii
• Sémantický web - informace strukturovány a uloženy podle
standardizovaných pravidel, což usnadňuje jejich vyhledání a zpracování.
DBPedia
• https://wiki.dbpedia.org/
• Projekt, který poskytuje obsah Wikipedie ve formátu RDF.
• Navíc propojuje tento obsah s dalšími daty – např. Geonames.
LinkedGeoData
• http://linkedgeodata.org
• Přetváří informace z OpenStreetMap, aby odpovídaly definici pro
nejvyšší stupeň otevřených dat.
• Nejen otevřená a propojená, ale i prostorová data.
• Propojuje data s dalšími informacemi z DBpedie a GeoNames.
Linked data („Propojená data“)
RDF
Resource Description Framework
• obecný rámec pro popis, výměnu a znovupoužití metadat
• vytvořen W3C
• zaznamenává vztah subjekt, predikát a objekt (=podmět,
vlastnost a předmět) = „triple“
• např. „Geografický ústav sídlí na Přírodovědecké fakultě.“
• tyto vztahy se dají vzájemně řetězit
• zapisuje se v XML, číst a posílat si ho navzájem mají počítače
• Validátor: http://www.w3.org/RDF/Validator
• Tutorial: http://www.linkeddatatools.com/introducing-rdf
RDF
RDF/XML podle tutorialu
Oxford
Oxfordshire
Wikipedia
10000
Oxford
• Existuje až 7 různých formátů, jak zapisovat RDF do textu.
• RDF/XML, N-Triples, N-Quads, Turtle, TriG, JSON-LD, RDFa
• Každá má výhody a nevýhody.
RDF/XML
3115
Jihomoravský kraj
CZ064
1163508
Brno
3140
Moravskoslezský kraj
CZ080
1205834
Ostrava
RDF triples
RDF/XML s propojením podle tutorialu
Oxford
Oxfordshire
Wikipedia
10000
RDF/XML - propojená data
3115
Jihomoravský kraj
CZ064
1163508
3140
Moravskoslezský kraj
CZ080
1205834
RDF triples - propojená data
SPARQL
Simple Protocol and RDF Query Language
• dotazovací jazyk, který je určený k dotazům nad RDF
formátem
• podobný SQL (pojmy SELECT, WHERE…)
• standard W3C
GeoSPARQL
• rozšíření pro práci s prostorovými daty – např. topologie
• standard OGC
SPARQL endpoint
https://data.europa.eu/sparql
SPARQL endpoint
http://dbpedia.org/snorql/
SPARQL
SELECT ?name ?birth ?description ?person WHERE {
?person a dbo:MusicalArtist .
?person dbo:birthPlace :Brno .
?person foaf:name ?name .
?person rdfs:comment ?description .
FILTER (LANG(?description) = 'en') .
} ORDER BY ?name
Legislativa
Zákon č. 106/1999 o svobodném přístupu k informacím
„Otevřenými daty se pro účely tohoto zákona rozumí
informace zveřejňované způsobem umožňujícím dálkový
přístup v otevřeném a strojově čitelném formátu, jejichž
způsob ani účel následného využití není omezen a které jsou
evidovány v národním katalogu otevřených dat.“
• Povinnými subjekty, které mají povinnost poskytovat
informace vztahující se k jejich působnosti, jsou:
• státní orgány,
• územní samosprávné celky a jejich orgány,
• veřejné instituce,
• veřejné podniky (dominantní vliv státu).
• Aktuální znění je účinné od 1. 4. 2023.
Legislativa
• Povinné subjekty zaevidují informace, které mají povinnost
zveřejnit jako otevřená data, v národním katalogu
otevřených dat.
• Národní katalog otevřených dat je informační systém
sloužící k evidování informací zveřejňovaných jako
otevřená data.
• Správcem národního katalogu otevřených dat je Digitální a
informační agentura.
• Informace obsažené v národním katalogu otevřených dat
jsou poskytovány:
• jako otevřená data,
• způsobem umožňujícím dálkový přístup = zejména
rozhraním pro programování aplikací (tzv. API).
Legislativa
• Je povinnost poskytovat v kvalitě otevřených dat a ideálně
prostřednictvím tzv. API (= rozhraním pro programování
aplikací) tzv. dynamická data.
• „informace v elektronické podobě, které podléhají
průběžné aktualizaci nebo aktualizaci v reálném čase“,
• data z různých čidel a měřících zařízení.
• Je povinnost poskytovat v kvalitě otevřených dat, a opět
ideálně formou API, datové soubory s vysokou hodnotou.
Národní katalog otevřených dat
https://data.gov.cz/
https://data.gov.cz/datov%C3%A9-sady
Národní katalog otevřených dat
• nová směrnice o otevřených datech
• s účinností od července 2021
https://data.gov.cz/2019/11/18/sm%C4%9Brnice-o-
otev%C5%99en%C3%BDch-datech.html
Směrnice o otevřených datech
Směrnice o otevřených datech
• Datové soubory s vysokou hodnotou (high-value datasets)
• Mají být bezplatně zpřístupněny prostřednictvím API.
• V případech, kdy je to možné, směrnice podporuje i stažení souborů
formou dumpů.
• Tematické kategorie:
• Geoprostorové údaje
• Pozorování Země a životní prostředí
• Meteorologie
• Statistika
• Společnosti a vlastnictví společností
• Mobilita
• Zákon č. 261/2021 Sb., kterým se mění některé zákony v
souvislosti s další elektronizací postupů orgánů veřejné moci
Směrnice o otevřených datech
• Nejpozději od 1. 1. 2024
• Všechny veřejné registry, evidence, seznamy nebo rejstříky
(databáze vymezené ze zákona) musí být zveřejněny jako
otevřená data.
• Od 1. 2. 2022
• Státní orgány, krajské úřady a obecní úřady obcí s rozšířenou
působností zveřejňují metadata informací na jejich úředních deskách
a metadata těchto úředních desek jako otevřená data.
Směrnice o otevřených datech
• Veřejný datový fond
• „tvořený publikovanými veřejnými údaji veřejné správy je
základní metodou pro sdílení veřejných informací mezi
veřejnoprávními subjekty navzájem i pro sdílení veřejných
údajů mezi veřejnoprávní a soukromoprávní sférou v ČR.
• Veřejný datový fond se od pouhé publikace
automatizovaně čitelných otevřených dat posune též k
publikaci právně závazných, platných a pravidelně
aktualizovaných datových sad s jasně definovanou
zodpovědností za takové sady.”
Veřejný datový fond
✔ Garance kvality obsahu
✔ Formální správnost
✔ Získání údajů přes referenční rozhraní
● Veřejné údaje
● Bez kontroly oprávnění přístupu
● Volání jednotlivých záznamů ale i dávky ve kvalitě garantovaných
otevřených dat
Směrnice o otevřených datech
Propojený datový fond
✔ Garance kvality obsahu
✔ Formální správnost
✔ Získání údajů přes referenční rozhraní
● Neveřejné údaje
● Oprávnění přístupu dle RPP
● Volání jednotlivých záznamů
● Neveřejnost odůvodnit odkazem na legislativu.
Konference Otevřená data 2022
• https://opendata.gov.cz/edu:konference:2022
• Prezentace k dispozici
Jak na to
Ministerstvo vnitra ČR
• Nabízí zdarma podporu v podobě školení, workshopů a konzultací
• https://data.gov.cz/vzd%C4%9Bl%C3%A1v%C3%A1n%C3%AD
• E-learningové materiály, registrace na workshopy, záznamy z
workshopů
Soustava katalogů otevřených dat
Evropský katalog otevřených dat
https://data.europa.eu/
Velká Británie
https://data.gov.uk
Co je v národním katalogu…
…by mělo být i v evropském
Brno
https://data.brno.cz/
Praha
http://opendata.praha.eu/
Portál pro otevřená data.
Praha
Prostorová data.http://www.geoportalpraha.cz/
Svět
Mapa portálů s otevřenými daty
https://opendatainception.io/
Odkazy na informace v ČR
• https://data.gov.cz/ - Národní katalog otevřených dat
• https://data.gov.cz/vzd%C4%9Bl%C3%A1v%C3%A1n%C3%AD –
vzdělávací materiály o otevřených datech
• https://opendata.gov.cz/ - státní stránky (MV ČR) s návodem, jak
publikovat otevřená dat, metodiky a standardy, jak publikovat, co
publikovat, časový harmonogram
• https://opendata.gov.cz/edu:konference:2022 - Konference Otevřená
data
• spousta webů neziskového sektoru
• Z8117 Metainformace v kartografii