Kreativní práce s daty Úvod do ICT, 24. 10. 2022 Co je nutné umèt? • Za prvé – data přečíst • Za druhé – data zpracovat • Za třetí – data interpretovat • Za čtvrté (volitelně) – data vizualizovat ´ Datové typy promènných • Text (řetězec znaků) • Číslo (celé, reálné, …) • Datum (a čas) • Pravda × nepravda (true × false) • Kombinovaný typ (např. pole) ´ Zpracování dat • Čištění • Transformace • Agregace (seskupování) • Statistické operace Aplikace na práci s daty • Tabulkový kalkulátor • MS Excel, LibreOffice Calc, … • Statistický analyzátor • SPSS, Statistica, Matlab, PSPP, R, Octave, … • Relační databáze • Vybrané funkce jazyka SQL + spousta všelijakých utilit Regulární výrazy Vzory (masky) textových řetězců pro: • Kontrolu vstupních dat • Vyhledávání v rozsáhlých datech • Co přesně tam je i kde přesně to tam je (pozice) • Hromadné změny / editace Regulární výrazy II ^ – začátek řádkuèè $ – konec řádku . – libovolný znak [ ] – výčet znaků [^ ] – negativní výčet Opakování znaků: ? – žádné nebo jedno + – jedno nebo více * – libovolné {min,max} – v zadaném rozsahu Regulární výrazy III ^abc – text abc na začátku řádku [abc] – právě jedno z písmen a, b, nebo c [^0-9]* – sekvence znaků s výjimkou číslic https?://.+\.(com) – webová adresa končící .com [0-9a-zA-Z]+@[0-9a-zA-Z]+\.[0-9a-zA-Z]{2,3} Regulární výrazy IV • RE ve Wikipedii • regularnivyrazy.info • Trénink RE v češtině • Online hrátky s RE – regex101.com • Tester RE v PHP, Perlu, JavaScriptu, AWK, … Datové typy ve statistice • Nominální (kategorické) • např. pohlaví, studovaná škola • Ordinální (pořadové) • např. ročník studia, dosažené vzdělání • Intervalové (nejasný počátek) • Např. datum, hodnota IQ, stupně Celsia • Poměrové (jasný počátek) • např. věk, rychlost, stupně Kelvina Statistické operace s daty • Popisná statistika (průměry, …) • Testování hypotéz • test dobré shody, t-test, analýza rozptylu, … • Korelace a regresní analýza • Explorační analýza datalab.net Kontingencní tabulka • Crosstab v angličtině • Jednoduchý způsob pro srovnání dvou a více skupin hodnot • Lze celkem snadno odhalovat odchylky oproti „normálu“ ´ Rozdíly mezi formami studia Formastudia Celkem prezenční kombinované prezenční částečněnebo úplně chyběla praktická cvičení / semináře prázdné 77,0 % 91,3 % 78,7 % souhlas 23,0 % 8,7 % 21,3 % Celkem 100,0 % 100,0 % 100,0 % Formastudia Celkem prezenční kombinované prezenční chybělo vysvětlováníučitele k učivu prázdné 83,9 % 71,7 % 82,5 % souhlas 16,1 % 28,3 % 17,5 % Celkem 100,0 % 100,0 % 100,0 % Interpretace dat • Co znamenají, co z nich vyplývá? • Interpretační chyby • Zdánlivá souvislost, dvojí příčina, chybějící prvek • Subjektivní zkreslení • První dojem, přehnaná sebedůvěra, přetížení daty • Scházející informace, nestejná spolehlivost, zakořeněnost Jakou vizualizaci zvolit? • Kdo, co – zobrazíme dotyčný objekt • Kolik – odpovíme prostým grafem • Kde – vyjádříme mapou • Kdy – zachytíme polohu v čase • Jak – pomocí vývojového diagramu • Proč – pravá kreativní výzva :-) Graf má … • Zobrazit údaje • Vměstnat mnoho čísel do malého prostoru • Učinit rozsáhlé soubory údajů srozumitelnými • Podnítit oko ke srovnávání • Vyvarovat se zkreslení sdělení Ukázky • Základní grafy v MS Forms • Mapy Marka Lutonského • Rozptylogram z knihy Faktomluva • Obličejový (Chernoff faces) • Diagram Ganttův; paprskový Boxplot Graficky znázorněné kvartily hodnoty z celého rozsahu „Box“ obsahuje polovinu všech případů Puntíky = ojedinělé extrémní případy Falešná nula Nenormovaná data Plošné znázornèní hodnot lineárních dat ´ Zkreslení vinou pseudo3D Infografika • Spojení grafu a umění • Oblíbené u médií (novinové články) • Obvykle kombinace grafu a kontextu • www.easel.ly www.infogram.com • www.piktochart.com Domácí úlohy 1) Procvičte si tvorbu regulárních výrazů 2) Vytvořte infografiku • Základ dat: https://www.czso.cz/csu/czso/databaze-demografickych-udaju-za-vybrana-mesta-cr