Vizualizační praktikum

21. března 2024

Hledání a příprava dat


V rámci prvního workshopového setkání se podíváme především na Open Refine jako silný nástroj pro dávkovou úpravu a transformaci špinavých dat. Vyzkoušíme si v něm nejen funkci cluster, která je zásadním ulehčením při práci se zaneřáděnými daty, ale vysvětlíme si i jak funguje například tzv. rekonciliace. Budeme pracovat s daty o českém knižním trhu a na jejich příkladu si také na teoretické rovině ukážeme, jak v datech vzniká nejistota a jak se každou další úpravou a transformací na cestě k výsledné vizualizaci tato nejistota násobí.

Nainstalujte si před setkáním

Open Refine
Nástroj k čištění dat. Instalujte aktuální stabilní verzi (3. 7. 9) označenou jako "with embedded Java".
Microsoft Excel
Bude potřeba mít nejnovější verzi Excelu v desktopové variantě. Je pro studenty MUNI dostupná zdarma.
Tabula
Nástroj k dolování dat z PDF tabulek. Na workshopu ho asi nevyužijeme, ale může se hodit.


Záznam setkání

W01


Data k workshopu

sckn_export-2023.csv
Export z databáze SČKN v CSV se záznamy za rok 2023.

sckn_export-2023_OPRAVA.csv
Záchytný soubor: data po opravě špatného znaku.