Vizualizační praktikum

Zdroje dat k inspiraci

České zdroje a open data


Centrálním domovem otevřených dat v Česku je Portál otevřených dat a jeho Národní katalog otevřených dat. Většina otevřených dat z veřejných institucí a státních orgánů by tam dříve či později měla skončit. Nelze na to však spoléhat a je proto vhodné hledat i samostatné datové portály a repozitáře institucí a organizací, které by mohly mít něco společného s otázkou, kterou právě řešíte.

Několik příkladů: kolik je vlastně v našem městě školek? Tak to by mohl vědět městský datový repozitář (třeba ten z Prahy, Brna nebo Plzně). Kolik je v našem kraji středních škol? Možná má i náš kraj nějaké místo, kde zveřejňují data (jako například ten Královéhradecký). A je u nás v Královéhradeckém kraji více učilišť než v Pardubickém kraji? Tak to by mohlo vědět MŠMT a jejich repozitář otevřených dat.

Data ze specifických oblastí je pak dobré hledat u specifických poskytovatelů: zajímavá data o životním prostředí třeba leží v repozitáři Ministerstva životního prostředí nebo na geoportálu . A pro příklad ještě z jiného, nám bližšího soudku: data o knižním trhu najdeme třeba na webu oborového svazu SČKN.

Velmi často leží zajímavá data jen tak někde na webu instituce a ani nejsou součástí žádného repozitáře nebo datového portálu. Pro příklad: jako studenti KISKu dobře víme, že na webu Ministerstva kultury leží velká tabulka nazvaná Evidence knihoven. Ve stejném stylu, tedy jen tak mimochodem, najdeme na webu MPO třeba data o počtech podnikatelů v ČR podle jejich občanství, nebo na webu Policie ČR tabulky se statistikami kriminality nebo počty cizinců v jednotlivých městech podle národností.

Jak hledat datasety?

Strategií k nalezení relevantních dat je tak často kombinace webového vyhledávače, správných klíčových slov a identifikace relevantních organizací a institucí spojená s prolézáním jejich webových sídel. Vyzkoušejte tyto cesty:

1. Identifikujte klíčová slova k vašemu tématu a vyzkoušejte je ve webovém vyhledávači kombinovat se slovy jako data, dataset, statistiky atp..

2. Zkuste prohledat Národní katalog otevřených dat, zda už k touto tématu nejsou data publikována přímo v něm. To samozřejmě platí pouze pro témata, které mají nějaký "veřejný" rozměr.

3. Identifikujte organizace, které by k řešenému tématu mohly být relevantní (ministerstva, úřady, oborové organizace a svazy, neziskovky atp.) a hledejte u nich datové zdroje.

4. Využijte univerzální datové portály nebo datové metavyhledávače, jako je např. ten od Google. Google spustil svou službu metavyhledávače Google Dataset Search. Rozhodně o něm zatím neplatí, že najde vše. Jako jeden z nástrojů, které při hledání dat můžeme využít, však funguje dostatečně: kolik stojí mít štěně? Google taková data najde na výraz puppy cost. Jak se sdílí kola v Londýně? Zkusme vyhledat klíčová slova bikesharing london.

Zahraniční zdroje dat

Stejně jako v Česku jsou i v ostatních státech zveřejňována otevřená data. Obvykle stačí využít Google a jednoduchým hledáním se můžeme dostat na portály otevřených dat jiných zemí. I zde samozřejmě existují katalogy: jak jsou na tom s otevřenými daty ostatní země v Evropě zjistíte (spolu s odkazy na jejich otevřené datové repozitáře) třeba na webu OpenDataMonitor.

Velké množství dat zveřejňují mezinárodní organizace. Pokud řešíme otázky z oblasti kultury nebo školství v globálním kontextu, vyplatí se zamířit na web UNESCO nebo UNICEF. Globální zdraví pak můžeme řešit třeba na webu WHO.

Velkým fenoménem v oblasti sdílení dat je portál Kaggle, který umožňuje zveřejňovat a stahovat různé datasety a mimo to slouží i jako komunitní platforma, kde lze o datech a nad daty debatovat. Vládnete-li angličtinou, nemusí být od věci se prostě zeptat, třeba v komunitě na portálu Reddit: lidé tam sdílí zajímavé datasety a pomáhají si vzájemně relevantní data nacházet. Nadšenci do dat také sepisují seznamy zajímavých a volně dostupných datasetů, takže pokud si chcete udělat představu o tom, jaká všechna témata se dají na webu dohledat, zamiřte třeba na seznam s příhodným názvem Awesome Public Datasets.