Vizualizační praktikum
21. března 2024
Hledání a příprava dat
V rámci prvního workshopového setkání se podíváme především na Open Refine jako silný nástroj pro dávkovou úpravu a transformaci špinavých dat. Vyzkoušíme si v něm nejen funkci cluster, která je zásadním ulehčením při práci se zaneřáděnými daty, ale vysvětlíme si i jak funguje například tzv. rekonciliace. Budeme pracovat s daty o českém knižním trhu a na jejich příkladu si také na teoretické rovině ukážeme, jak v datech vzniká nejistota a jak se každou další úpravou a transformací na cestě k výsledné vizualizaci tato nejistota násobí.
Nainstalujte si před setkáním
Open Refine
Nástroj k čištění dat. Instalujte aktuální stabilní verzi (3. 7. 9) označenou jako "with embedded Java".
Microsoft Excel
Bude potřeba mít nejnovější verzi Excelu v desktopové variantě. Je pro studenty MUNI dostupná zdarma.
Tabula
Nástroj k dolování dat z PDF tabulek. Na workshopu ho asi nevyužijeme, ale může se hodit.
Záznam setkání
Data k workshopu
sckn_export-2023.csv
Export z databáze SČKN v CSV se záznamy za rok 2023.
sckn_export-2023_OPRAVA.csv
Záchytný soubor: data po opravě špatného znaku.