Zdroje dat Hejt #Ukraine na Twitteru Hejt ● Mapa dluhů ● Mapa Ukrajiny ● Bezpečnost na D1 Plán ● Zdroje a formáty dat - přednáška ● Čištění dat - seminář ● Scrapování webu - seminář Zdroje dat Připravená data Standardní formáty Málo práce Weby institucí Data neexistují Existují, ale jsou tajná Spousta práce (I programování!) Data dostupná všem ● ČSÚ (nuda, krása) ● Ministerstva, ŘSD, ÚZIS ... ● Globálně: Eurostat, OSN, WB, WHO ... ● Lokálně: Open Data (USA, jinde) ● Tipy: Datablog Živě Data dostupná všem, ale ● Jak vypadají data pro volební prognózy ČT? ● Kolik platí VZP za konkrétní diagnózy? ● Kdo cestuje s prezidentskými delegacemi? ● Odpověď: 106! ● Pozor na zapadlé kouty webu, PDF Data, co zatím neexistují ● Diskuze o mazání na Wikipedii (interaktivně) ● Barvy v různých kulturách (interaktivně) ● Vzorce brněnských semaforů ● FF odpověď: papír, nůžky, pastelky a ∞ času ● FI odpověď: scrapování Živě Formáty souborů ● XLS Formáty souborů ● XLS ● CSV Formáty souborů ● XLS ● CSV ● JSON Formáty souborů ● XLS ● CSV ● JSON ● Mr. Data Converter Čištění dat Čištění dat ● Vyčistit bordel (typicky: veřejné zakázky) ● Učesat klíčové proměnné ● Smazat ostatní ● Nejistota! Google Docs ● Zkopírujte si data (sportovci v Soči/sochi.jdem.cz) ● Disciplína, stát, pohlaví: přeložit ● Jméno: rozdělit na křestní a příjmení ● Výška a váha: rozhodnout, kdo má zhubnout ● Výška a váha: orientační graf pro sporty