Minule jsme si ukázali, proč může být užitečné kombinovat vizuální a verbální informace, například v rámci infografiky. Ponořme se ještě o úroveň níže, k datům. David McCandless, průkopník v oblasti datové žurnalistiky, říká, že v boji proti informačnímu přetížení stačí více zapojit zrak, smysl, kterým vnímáme nejvíce podnětů z okolí. Pokud záplavu datových toků vizualizujeme, umožní nám to vidět vzory a vztahy, na kterých záleží. Pomocí vizualizace dokážeme uspořádat data tak, aby nám dávala více smysl, vyprávěla příběh, nebo nám umožnila soustředit se pouze na to důležité. Podíváte se? :)
Proč vizualizovat data?
Vizualizace dat je tedy nástroj pro převádění alfa-numerických údajů na grafické reprezentace. Motivací, proč vizualizovat je více. Podívejme se na příklad z historie.
Florence Nightingale byla anglická zdravotní sestra, která se v období Krymské války starala o raněné vojáky. Hygienické podmínky tehdy v nemocnicích nebyly na příliš vysoké úrovni. Nightingale díky důkladnému pozorování a zaznamenávání statistických údajů o počtech a příčinách úmrtí vojáků zjistila, že drtivá většina z nich umírá na následky infekčních onemocnění, kterým lze preventivně zabránit (modrá oblast). Podstatně menší část pacientů zemřela na následky zranění z boje (červená oblast), nebo z jiných důvodů (černá oblast). Své zjištění nejprve vložila do slov a tabulek, u svých nadřízených však uspěla až spolárním diagramem, kterým rychle a evidentně ukázala alarmující převahu zcela zbytečných úmrtí.
Motivací Nightingale bylo zachránit lidské životy a podařilo se jí díky vizualizaci dat dosáhnout obrovské změny. Pracovala s přesnými a pravdivými daty, nicméně nemůžeme přehlédnout, že sáhla také k manipulaci, která počítá s percepčním zkreslením. Jednotlivé výseče, na jejichž hranách jsou vyneseny počty mrtvých, se směrem od centra rozšiřují a zabírají větší plochu. Podívejte se blíže na říjen 1854 - červená a modrá hodnota jsou téměř totožné, v našich očích však modrá hodnota působí jako větší, protože zabírá větší plochu. Kdyby Nightingale změnila pořadí prvků a nanesla by modrou plochu přímo k centru, nedosáhla by silného efektu, jenž potřebovala na přesvědčení svých nadřízených.
Na tomto příkladu vidíme krásu a především ohromnou sílu, kterou dokáže vizualizace datům propůjčit. Zároveň nám ukazuje její největší riziko - skluz směrem k manipulaci, před kterou bychom se měli mít na pozoru za každých okolností, i v případě, že souhlasíme s tím, co vizualizace říká.
Přístupy k vizualizaci
Účel: upoutání pozornosti i porozumění světu
Vizualizaci dat využívají lidé napříč profesemi, přičemž každý z nich má jiný záměr a jiné publikum. Výběr vizualizačních prvků a práce s nimi jsou tomu uzpůsobeny, proto může být výsledný produkt velice různorodý. Například novinář Nigel Holmes zvolí vtipnou a netradiční formu, aby nalákal čtenáře ke čtení. Naproti tomu vědec, který se řídí teoretickými doporučeními Edwarda Tufteho sáhne spíše po minimalistickém grafu, který přehledně dokládá jeho data a argumentaci. A pak jsou zde umělci, kteří hledají netradiční cesty a průniky mezi světem dat a světem umělecké reprezentace. Například Michael Bielicky a Kamila B. Richter v díle Falling Times redukovali současný společenský diskurz pouze na nejčastější novinové titulky a klíčová slova, které přeložili do pohyblivých piktogramů. Vytvořili tak působivou instalaci, která poukázala na to, o čem se dnes mluví, na co soustřeďujeme naši pozornost, čím jsme dennodenně zahlcováni z médií.
Strategie: explorace a explanace
Obecně můžeme říct, že při vizualizaci dat pracujeme s dvěma strategiemi, s exploracía/nebo s explanací.
V první strategii je náš přístup badatelský. V datech se pokoušíme něco najít - odpověď na naši výzkumnou otázku, potvrzení hypotézy, řešení problému nebo například emergentní vlastnosti, tedy takové vlastnosti, které o části nemusíme předpokládat a ukazují se nám až v interakci ve větším celku. Ukažme si to na příkladu z praxe. Města si typicky sbírají data o dopravních nehodách. Pokud údaje o místě, četnosti či závažnosti nehod přenesou z excelové tabulky do interaktivní mapy - tedy data vizualizují - snadno uvidí cestní úseky, které jsou problematické. Následně mohou přijmout opatření ke snížení nehodovosti na daném úseku. Město tedy pomocí vizualizace hledá v datech řešení důležitého problému.
Také během explorace odhalujeme chyby v datech, které mohly vzniknout třeba nesprávným nastavením metodologie či poruchou měřícího přístroje. S explorační strategií se setkáme typicky ve vědě, v rámci oborů, které zpracovávají velké soubory dat - ve statistice, kartografii, scivis (vizualizaci vědeckých informací), infovis (vizualizaci abstraktních informací) či geovis (vizualizaci geografických informací).
Druhá strategie, explanatorní, nám pomáhá něco vysvětlit, popsat, ilustrovat. Typickým zástupcem této kategorie je infografika, které jsme se věnovali v minulé lekci. Potkáváme se s ní ve vědě, ve vzdělávání, v datové žurnalistice či v rámci politiky a aktivizmu. Není nezvyklé, že je kombinována s prvou strategií - nejprve něco v datovém souboru zkoumáme, hledáme, a až to najdeme a pochopíme, snažíme se to explikovat našemu publiku. Podívejte se například na fascinující long read Českého rozhlasu, který nám pomáhá porozumět různým příčinám úmrtí Čechů za posledních 100 let.
Vizualizace dat tedy rozhodně není pouze krásná kudrlinka navíc. Je to proces a často jediný způsob, který nám pomáhá zorientovat se v datech, která jsou pro nás v jiné formě příliš rozsáhlá či těžko srozumitelná.
Formy vizualizace dat
Koláče, sloupce a linie
Už víme, proč, za jakým účelem a s jakou strategií můžeme přistoupit k procesu vizualizace dat. Podívejme se nyní na její nejběžnější formu, se kterou se často setkáváte v každodenním i akademickém životě - a tou je graf. Potkáte se s ním, ať už z pozice čtenáře nebo tvůrce, ve statické, interaktivní i virtuální podobě. Jaké grafy existují a kdy je využít?
Koláčový graf- Nebo také výsečový diagram se používá pro zobrazení poměru částí k celku (např. podíl živin ve vašem obědě). Doporučuje se rozdělit ho na maximálně pět výsečí, jinak se stává těžce srozumitelným. Dejte pozor na to, aby proporce výseče odpovídaly procentuálnímu podílu části k celku, který musí vždy činit 100% (špatně by to vypadalo, kdyby vám koláček dával v součtu třeba 123%). Části řaďte od největší po nejmenší ve směru hodinových ručiček (od dvanácti hodin, obrázek uprostřed). Pokud jsou některé výseče velmi malé, umístěte po směru hodinových ručiček pouze největší část a ostatní sestupně v protisměru (obrázek vlevo).
Sloupcový graf - Využívá výšku sloupců k porovnání hodnot různých kategorií (např. žánry knih ve vaší knihovně). Hodnoty řaďte horizontálně nebo vertikálně, v druhém případě můžete popisky vložit přímo vedle sloupců pro jednodušší orientaci (obrázek vpravo). Pro pohodlnější čtení by mezery mezi sloupci měly být užší, než je šířka sloupců samých. Speciální formou tohoto grafu je skládaný sloupcový graf a skupinový sloupcový graf.
Spojnicový graf- Spojuje pomocí linie body, které jsou vyneseny v mřížce grafu. Je dobrý na zaznamenání vývoje v čase, dokáže upozornit na trendy, výkyvy a poklesy (např. ve firemních ziscích, HDP, výsledcích PISA). Osa nemusí nutně začínat na nule, například v případě, že pracujete s údaji v miliardách korun. Pokud začnete jinde, označte to dvěma diagonálními čárkami na osy y - tím odborně řečeno dáte najevo, že je vaše osa podseknutá (obrázek vpravo). Je-li graf užší, působí klesající a stoupající trendy významněji, je-li graf širší, efekt je opačný - když tedy graf upravujete, aby vám hezky seděl na stránku, dejte pozor na to, abyste jej zbytečně dramaticky nemanipulovali.
Small multiples - Pokud chcete výše zmíněnými grafy zobrazit velké množství kategorií (zpravidla více než pět), doporučujeme využít small multiples. Řekněme, že chcete porovnat žánrovou skladbu sedmi osobních knihoven. Můžete všechny hodnoty vložit do jednoho grafu a riskovat, že bude těžce čitelný (první obrázek), nebo je můžete rozložit do více grafů se stejným nastavením os, které uložíte vedle sebe (druhý obrázek). Posuďte sami na příkladu - ve které variantě se vám lépe porovnávají knihovny mezi sebou, vnímají anomálie a podobnosti?
Skupinový sloupcový graf "Kolik máte v knihovně poezie a kolik prózy?". Autor: Anna Puchovská.
Small multiples "Kolik máte v knihovně poezie a kolik prózy?". Autor: Anna Puchovská.
Koláčový, sloupcový a spojnicový graf patří mezi nejznámější typy grafů, které využijete ve většině běžných situací. Určitě se vyplatí je zvládnout, než se pustíte do čtení a tvorby méně známých, nebo složitějších typů, jakými je například korelační diagram, treemapa, plošný diagram, kartogram nebo boxplot. Rozhodně vám však neradíme, abyste zůstali jenom v komfortní zóně koláčů a sloupců. Podívejte se do katalogu vizualizací dat a prozkoumejte formu, kterou potřebujete!
Na co si dát pozor, když budete grafy tvořit? Každá vaše volba bude mít své pro a proti, takže nečekejte fixní sadu pravidel, ze které nemůžete uhnout ani o píď. Dokážeme si nicméně ukázat obecná doporučení a zásady, které vychází z teorie vnímání a praxe vizualizačních expertů.
Mějte jasno v tom, co a proč chcete ukázat. Od toho se bude odvíjet, jestli si vystačíte s tabulkou (dobře ukáže přesné hodnoty) či slovním sdělením (úplně stačí, pokud máte pouze jednu či dvě hodnoty), nebo potřebujete graf. Ten efektivně a rychle ukáže anomálie, vztahy, trendy a poměry. S výběrem konkrétní formy vám pomůže rozhodovací mapa níže. Pokud si nejste jistí, jestli váš graf říká to, co by měl, ukažte ho někomu nezaujatému a zkoumejte, jestli jej dokáže správně přečíst.
Zvýrazněte to, co je důležité. Počítejte s tím, jak funguje lidský mozek. Jako první vnímá podněty, které jsou rušivé, tzv. distraktory - věci, které se pohybují, nebo mají na rozdíl od ostatních věcí jinou barvu, tvar, polohu či orientaci. Zkuste například v koláčovém grafu barevně zvýraznit výseč, na kterou chcete upozornit a ostatní nechat v odstínech šedi.
Seřaďte svá data s respektem ke zákonům gestaltu. Tvarová psychologie (gestaltismus) mluví o tom, že člověk hledá celky a opakující se vzorce všude, kam se dívá. Věci v blízkosti, stejného tvaru, barvy nebo velikosti vnímá jako související. Dokáže si také domyslet chybějící části do celku, nebo rozlišovat mezi pozadím a figurou. S tím vším je třeba počítat, pokud chcete, aby byla vaše vizualizace správně přečtena. Více o principech gestaltu se dočtete třeba tady nebo v části z Nejen kruhy níže. Dejte si pozor zejména na náhodné vizuální spojení prvků, které nemají být vnímané jako související.
Distraktory a gestaltismus. Autor: Richard Jaroš (et al.).
Popisujte a nemanipulujte. Vizualizace by měla být srozumitelná sama o sobě, bez doprovodného textu. Dejte si tedy záležet na nadpisu a popiscích, které řeknou čtenáři, co graf reprezentuje, v jakých jednotkách pracuje apod. Popisky uvádějte co nejblíže k datům. Svá data komunikujte pravdivě, vždy přiznejte podseknutí osy (tedy začátek jinde, než na nule) a uveďte zdroj, ze kterého čerpáte. To samé platí i pro čtení - graf nestačí pouze přeletět pohledem, začtěte se hlouběji a hledejte případné nesrovnalosti.
Krásně, ale s mírou! Estetická stránka je důležitá, ale není třeba to přehánět. Obecně se doporučuje vyhnout se 3D efektům, které jsou matoucí a nepříliš vkusné. To samé platí pro příliš mnoho vzorů, barev a struktur. S barvou obecně pracujte opatrně. Přemýšlejte nad její symbolikou (např. červená se užívá na označení negativního trendu, zelená působí pozitivně), zkontrolujte, jestli jsou barevné rozdíly viditelné i pro barvoslepé (například tady), nebojte se monochromatických (jednobarevných) škál, které vůbec nejsou nudné, ale spíše pomáhají tomu, aby byl graf přehledný.
NÁSTROJE PRO VIZUALIZACI DAT
Existuje velké množství volně dostupných i placených nástrojů, ve kterých si můžete vytvořit svou vlastní vizualizaci dat. Vybrali jsme pro vás některé, se kterými doporučujeme začít:
Datawrapper je volně dostupná aplikace s intuitivním rozhraním. Sáhněte po ní, pokud vám není blízká práce v kontingenčních tabulkách a s tvorbou grafů teprve začínáte. Vytvoříte v ní vkusné základní i pokročilejší grafy, jejichž design si dokážete přizpůsobit na míru. Můžete měnit polohu popisků, barevnou škálu (a zjistit, jestli je srozumitelná i pro barvoslepé), zarovnání, velikosti, symboly a mnoho dalšího. Umožňuje export v PNG a publikaci přes link nebo embed. Nevýhodou může být povinné zdrojování na Datawrapper v rámci vizualizace.
Excelje hojně používaný nástroj pro tvorbu vizualizací dat. Umožňuje práci s kontingenční tabulkou, která vám usnadní analýzu dat a pomůže odhalit zajímavé souvislosti v datech. Umí vám na základě tabulky vytvořit graf, který se k datům nejlépe hodí, ale může to být zrádné - vždy tyto automaticky generované grafy ještě podrobně prozkoumejte a upravte (např. z hlediska barev, popisků, možných zkreslení díky roztažení/zúžení).
Power BI a Tableau jsou nástroje, které využívají datoví analytici pro tvorbu grafů a interaktivních dashboardů (např. v oboru BI). Spíše než pro tvorbu jednotlivé vizualizace jsou vhodné pro prezentaci více grafů a tabulek najednou. Pro práci v těchto nástrojích se mohou hodit také pokročilejší dovednosti jako je práce s databází či s dotazovacím jazykem SQL . Určitě jsou dobrou volbou, pokud vás práce s daty baví a eventuálně se chcete v oboru dat uplatnit. Pokud však potřebujete jednoduchý graf do bakalářky, sáhněte spíše po prvních dvou možnostech.
WORKSHOP
Jak vidíte po přečtení lekce, vizualizace dat je velice komplexní téma, o kterém bychom mohli mluvit mnohem více. A také budeme, v rámci workshopu již tento víkend12.-13.3.! :) Na co se můžete těšit?
Účast je povinná na 2 ze 3 workshopů. Pokud se nemůžete/nechcete zúčastnit právě tohoto workshopu, dejte mi prosím vědět do pátku prostřednictvím emailu. Načerpejte síly na workshop, prostudujte téma a přineste své zvídavé dotazy. Už se na vás moc těšíme! :)