Data ze specifických oblastí je pak dobré hledat u specifických poskytovatelů: zajímavá data o životním prostředí třeba leží v repozitáři Ministerstva životního prostředí nebo na geoportálu CENIA. A pro příklad ještě z jiného, nám bližšího soudku: data o knižním trhu najdeme třeba na webu oborového svazu SČKN.
Velmi často leží zajímavá data jen tak někde na webu instituce a ani nejsou součástí žádného repozitáře nebo datového portálu. Pro příklad: jako studenti KISKu dobře víme, že na webu Ministerstva kultury leží velká tabulka nazvaná Evidence knihoven. Ve stejném stylu, tedy jen tak mimochodem, najdeme na webu MPO třeba data o počtech podnikatelů v ČR podle jejich občanství, nebo na webu Policie ČR tabulky se statistikami kriminality nebo počty cizinců v jednotlivých městech podle národností.
Jak hledat datasety?
Strategií k nalezení relevantních dat je tak často kombinace webového vyhledávače, správných klíčových slov a identifikace relevantních organizací a institucí spojená s prolézáním jejich webových sídel. Vyzkoušejte tyto cesty:
1. Identifikujte klíčová slova k vašemu tématu a vyzkoušejte je ve webovém vyhledávači kombinovat se slovy jako data, dataset, statistiky atp..
2. Zkuste prohledat Národní katalog otevřených dat, zda už k touto tématu nejsou data publikována přímo v něm. To samozřejmě platí pouze pro témata, které mají nějaký "veřejný" rozměr.
3. Identifikujte organizace, které by k řešenému tématu mohly být relevantní (ministerstva, úřady, oborové organizace a svazy, neziskovky atp.) a hledejte u nich datové zdroje.
4. Využijte univerzální datové portály nebo datové metavyhledávače, jako je např. ten od Google.
Google spustil svou službu metavyhledávače Google Dataset Search.
Rozhodně o něm zatím neplatí, že najde vše. Jako jeden z nástrojů,
které při hledání dat můžeme využít, však funguje dostatečně: kolik stojí mít štěně? Google taková data najde na výraz puppy cost. Jak se sdílí kola v Londýně? Zkusme vyhledat klíčová slova bikesharing london.
Zahraniční zdroje dat
Stejně jako v Česku jsou i v ostatních státech zveřejňována otevřená data. Obvykle stačí využít Google a jednoduchým hledáním se můžeme dostat na portály otevřených dat jiných zemí. I zde samozřejmě existují katalogy: jak jsou na tom s otevřenými daty ostatní země v Evropě zjistíte (spolu s odkazy na jejich otevřené datové repozitáře) třeba na webu OpenDataMonitor.
Velké množství dat zveřejňují mezinárodní organizace. Pokud řešíme otázky z oblasti kultury nebo školství v globálním kontextu, vyplatí se zamířit na web UNESCO nebo UNICEF. Globální zdraví pak můžeme řešit třeba na webu WHO.
Velkým fenoménem v oblasti sdílení dat je portál Kaggle, který umožňuje zveřejňovat a stahovat různé datasety a mimo to slouží i jako komunitní platforma, kde lze o datech a nad daty debatovat. Vládnete-li angličtinou, nemusí být od věci se prostě zeptat, třeba v komunitě na portálu Reddit: lidé tam sdílí zajímavé datasety a pomáhají si vzájemně relevantní data nacházet. Nadšenci do dat také sepisují seznamy zajímavých a volně dostupných datasetů, takže pokud si chcete udělat představu o tom, jaká všechna témata se dají na webu dohledat, zamiřte třeba na seznam s příhodným názvem Awesome Public Datasets.