Přednáška 2 Klíčové principy biostatistiky Zkreslení, reprezentativnost, srovnatelnost, spolehlivost významnost Institut biostatistiky a analýz, PřF a LF MU Anotace • Ve statistické analýze biologických a klinických dat musíme vždy nad prováděným výzkumem a jeho výsledky přemýšlet v kontextu 5 klíčových principů biostatistiky. • Zkreslení – skutečně vidíme to co si myslíme, že vidíme? • Reprezentativnost – vypovídá naše analýza o skupině objektů, která nás zajímá? • Srovnatelnost – co ve skutečnosti v analýze srovnáváme? • Spolehlivost – jak spolehlivé jsou naše výsledky, dají se zopakovat? • Významnost – jak moc je pravděpodobné, že pozorujeme výsledky pouhé náhody? • Zanedbání těchto principů může vést k chybné interpretaci výsledků. Institut biostatistiky a analýz, PřF a LF MU Klíčové principy biostatistiky Zkreslení Reprezentativ nost SrovnatelnostSpolehlivost Významnost Jsme schopni odlišit výsledky výzkumu od pouhé náhody? Jak moc se dá na výsledky výzkumu spolehnout? Dostaneme v případe opakování (~ v praxi) s dostatečnou spolehlivostí obdobné výsledky? Co skutečně stojí za výsledkem studie? „Jsou výsledky diktátu ovlivněny věkem, výškou, hmotností nebo délkou školní docházky dětí?“ Popisuje studie reprezentativně populaci? „Vypovídají batolata o dětech jako celku?“ Srovnáváme srovnatelné? „Hodnotíme vliv počtu knih v domácnosti na výsledky diktátu mezi skupinami dětí ve školce a v 9. třídě ZŠ – je to smysluplné srovnání?“ Institut biostatistiky a analýz, PřF a LF MU Klíčové principy – zkreslení • V jakémkoliv hodnocení se snažíme vyhnout zkreslení výsledků („biased results“) – tedy zkreslení výsledků jinými faktory než těmi, které jsou cíli výzkumu. • Statistické srovnání není nikdy 100% spolehlivé, existuje náhoda a tedy i pravděpodobnost chybného úsudku – to nelze ovlivnit. • Chceme použít adekvátní metody pro odstranění vlivů, které by zkreslily výsledky a nebyly přitom náhodné (např. zastoupení pohlaví, nadmořská výška). Institut biostatistiky a analýz, PřF a LF MU Klíčové principy – zkreslení • Co způsobuje rozdíl v saprobním znečištění vodního toku? • Co způsobuje rozdíl v naměřených biochemických ukazatelích? • Čím by mohl být způsoben pozorovaný rozdíl v 10letém přežití pacientů? Léčba? Nějaký prognostický faktor? Stadium nemoci? Věk? Institut biostatistiky a analýz, PřF a LF MU Klíčové principy – zkreslení • Pojem zavádějící faktor • Pro zavádějící faktor současně platí, že • přímo nebo nepřímo ovlivňuje sledovaný následek, • je ve vztahu se studovanou expozicí , • není mezikrokem mezi expozicí a následkem. Zavádějící faktor NásledekExpozice Institut biostatistiky a analýz, PřF a LF MU Klíčové principy – reprezentativnost • Pojem cílová populace – skupina subjektů, o které chceme zjistit nějakou informaci. • Pojem experimentální vzorek – podskupina cílové populace, kterou „máme k dispozici“. • Musí odpovídat svými charakteristikami cílové populaci. • Chceme totiž zobecnit výsledky na celou cílovou populaci. • Souvislost s náhodným výběrem. Prostor všech možností Cílová populace Vzorek Institut biostatistiky a analýz, PřF a LF MU Klíčové principy – reprezentativnost •Chceme se něco dovědět o cílové populaci Cílová populace •Vzorek reprezentuje v experimentu cílovou populaci Vzorek •Díky zobecnění získaných výsledků máme nové informace Cílová populace Aplikace statistických metod Klíčový krok Institut biostatistiky a analýz, PřF a LF MU Klíčové principy – srovnatelnost • Korektní výsledky při srovnávacích analýzách lze získat pouze při srovnávání srovnatelného. • V striktně kontrolovaných studiích je srovnatelnost zajištěna randomizací. • U studií bez randomizace je nutné se tématu srovnatelnosti skupin věnovat. • Metody adjustace, matching, propensity scores. Institut biostatistiky a analýz, PřF a LF MU Klíčové principy – spolehlivost • Ve většině studií nás zajímá kvantifikace sledovaného efektu nebo charakteristiky, obecně náhodné veličiny, ve formě jednoho čísla, bodového odhadu. • Bodový odhad je však sám o sobě nedostatečný. • Je nutné ho doplnit intervalovým odhadem, který odpovídá pravděpodobnostnímu chování sledované veličiny, tedy odpovídá určité spolehlivosti výsledku. Institut biostatistiky a analýz, PřF a LF MU Klíčové principy – spolehlivost R0 x Měříme sledovanou veličinu a následně spočítáme odhad. Jak moc lze tento bodový odhad zobecnit na cílovou populaci? Institut biostatistiky a analýz, PřF a LF MU Klíčové principy – spolehlivost R0 x Opět měříme sledovanou veličinu. Jaký je rozdíl? A co když naopak přidáme někoho jiného? y Institut biostatistiky a analýz, PřF a LF MU Klíčové principy – spolehlivost R0 x1 R0 x2 R0 x Umíme-li „změřit“ celou cílovou populaci, nepotřebujeme interval spolehlivosti, protože jsme schopni odhadnout sledovaný parametr přesně – v praxi je tato situace nereálná.R0 x1 R0 x2 ( ) ( ) Celá cílová populaceVýběr číslo 2Výběr číslo 1 Pracujeme-li s výběrem z cílové populace, je třeba na základě variability pozorovaných dat spočítat tzv. interval spolehlivosti pro bodový odhad. Interval spolehlivosti na základě výběru číslo 1. Institut biostatistiky a analýz, PřF a LF MU Klíčové principy – významnost • Analytické výsledky studie nemusí odpovídat realitě a skutečnosti. Statistická významnost jednoduše nemusí znamenat příčinný vztah! • Statistická významnost pouze indikuje, že pozorovaný rozdíl není náhodný (ve smyslu stanovené hypotézy). • Stejně důležitá je i praktická významnost, tedy významnost z hlediska lékaře nebo biologa. • Statistickou významnost lze ovlivnit velikostí vzorku. Institut biostatistiky a analýz, PřF a LF MU Klíčové principy – významnost Statisticky nevýznamný výsledek neznamená, že pozorovaný rozdíl ve skutečnosti neexistuje! Může to být způsobeno nedostatečnou informací v pozorovaných datech! Statistickávýznamnost Praktická významnost ANO NE ANO OK, praktická i statistická významnost jsou ve shodě. Významný výsledek je statistický artefakt, prakticky nevyužitelný. NE Výsledek může být pouhá náhoda, neprůkazný výsledek. OK, praktická i statistická významnost jsou ve shodě. Příprava dat Klíčový význam korektního uložení získaných dat Pravidla pro ukládání dat Čištění dat před analýzou Institut biostatistiky a analýz, PřF a LF MU Anotace • Současná statistická analýza se neobejde bez zpracování dat pomocí statistických software. • Předpokladem úspěchu je správné uložení dat ve formě „databázové“ tabulky umožňující jejich zpracování v libovolné aplikaci. • Neméně důležité je věnovat pozornost čištění dat předcházející vlastní analýze. • Každá chyba, která vznikne nebo není nalezeno ve fázi přípravy dat se promítne do všech dalších kroků a může zapříčinit neplatnost výsledků a nutnost opakování analýzy. Institut biostatistiky a analýz, PřF a LF MU DATA – ukázka uspořádání datového souboru Ukázka uspořádaného datového souboru 4 72 32 7,6 95 19 48 4 77 35 33 6,1 103 26 49 6,9 81 13 45 5,9 137 33 61 8 151 20 59 9,6 77 11 38 6 120 26 52 3,3 81 42 24 3,8 111 42 29 6,4 366 73 115 6,8 234 59 71 8,5 156 25 108 9,3 129 21 23 2,2 46 30 12 9,9 189 24 140 5 101 25 54 8,8 268 36,6 145 9,2 168 26,9 76 10,0 181 20,1 81 9,6 343 47 124 6,0 40 21 7,2 103 17,8 63 8,2 209 34,9 57 10,3 364 41,1 112 5,0 83 22,1 32 11,9 83 13,4 52 7,2 109 27,1 63 10,8 146 15,7 106 11,8 246 27,4 63 3 4 8 11 12 14 16 20 21 22 37 38 39 49 51 52 55 56 6 9 13 15 17 19 24 26 29 30 31 32 33 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1 2 3 4 5 6 7 8 9 10 11 12 13 8 3 5 3 15 18 3 10 4 10 2 1 7 7 10 3 2 11 2 7 1 2 1 1 1 1 3 36 22 58 52 59 85 55 75 72 67 55 60 76 57 67 57 56 78 80 72 66 83 75 78 72 85 74 51 53 50 54 66 55 64 88 70 93 75 77 59 70 78 58 74 64 66 81 82 83 68 90 76 80 73 86 75 52 56 76 76 0,6 4,4 5,0 1,8 0,1 2,1 2,2 1,6 0,3 3,6 3,9 2,1 0,2 5,9 6,1 0,6 0,9 3,3 4,1 1,1 1,4 6,0 7,4 0,6 0,3 6,9 7,2 2,2 0,6 4,0 4,6 1,1 0,1 1,8 2,0 1,3 0,4 2,3 2,7 1,1 0,1 4,9 5,0 1,1 0,1 3,9 3,9 2,7 0,6 5,7 6,3 2,2 0,7 5,3 6,0 3,3 0,2 1,2 1,5 0,7 0,3 7,7 8,0 0,1 0,1 4,0 4,1 0,7 1,0 6,3 7,3 1,1 0,2 6,1 6,3 2,6 0,7 8,3 9,0 0,8 0,1 7,2 7,3 2,2 0,1 5,6 5,8 1,3 0,1 5,9 6,0 2,1 0,1 8,8 8,9 0,3 0,1 3,7 3,8 1,1 0,1 6,1 6,2 5,6 0,2 3,8 4,0 2,1 3,9 5,4 9,3 0,9 2,6 6,4 9,0 1,9 33 33 22 33 37 32 34 40 32 28 32 25 20 30 35 33 30 26 44 42 54 45 45 44 41 41 39 33 28 27 45 24 40 35 9 19 7 23 19 39 30 17 39 26 35 34 10 13 12 28 8 23 18 25 3 21 47 29 8 16 aLeu aCLsk aCLNeus aCLOZ cell.106 / mV.s.103 mV.s.103 mV.s.103 Pacient Clovek aTy% % aSe% % aNeu% % aTy aSe aNeu aLy cell.106 / cell.106 / cell.106 / cell.106 / aHtc % aLy% % aCLNeuO mV.s.103 10 15 13 7 15 8 5 11 12 11 23 18 17 4 8 18 13 19,9 12,2 9 16,9 10,9 9,6 12,6 8,5 8,4 15,5 11,4 7 Parametry, znaky, charakteristiky, proměnnéZáznamy Institut biostatistiky a analýz, PřF a LF MU Datová tabulka a její možné problémy Jednoznačné ID nezbytné pro identifikaci a případné propojení do dokumentace. ID Pohlaví Věk Výška Zařazen Alergie TKD/TKS 9 M 53 177 13.9.2001 N 80/120 14 M 41 167 10.9.2001 N 75/119 19 M 52 182 14.90.2001 N 91/145 22 M 26 193 17.9.2001 A 78/130 23 MM 53 neznámo 17.9.2001 N 80/120 29 M 23 197 4.10.2001 0 75/119 30 M 58 158 4.10.2001 N 91/145 32 Z 198 45 5.10.2001 N 78/130 33 Z 51 191 5.10.2001 1 80/120 34 M 44 169 5.10.2001 1 75/119 35 Z 22 0 5.10.2001 N 91/145 38 M 42 163 5.10.2001 A 78/130 Překlep v názvu kategorie, při zpracování dat se chová jako nová kategorie. Nereálné odlehlé hodnoty, pravděpodobně prohozen věk a výška. Uvedena 0 zřejmě namísto chybějící hodnoty, je třeba ponechat prázdnou buňku. Je třeba uvádět v samostatných sloupcích pro diastolický a systolický tlak. Chybně uvedeno datum. Kombinace dvou možných kategorizací (0/1 nebo N/A), je třeba si vybrat jednu z nich. Sloupec nesmí obsahovat kombinaci textu a čísel. Institut biostatistiky a analýz, PřF a LF MU Zásady pro ukládání dat • Správné a přehledné uložení dat je základem jejich pozdější analýzy • Je vhodné rozmyslet si předem jak budou data ukládána • Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě • Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky • Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce • Každý řádek obsahuje minimální jednotku dat (např. pacient, jedna návštěva pacienta apod.) • Je nepřípustné kombinovat v jednom sloupci číselné a textové hodnoty • Komentáře jsou uloženy v samostatných sloupcích • U textových dat nezbytné kontrolovat překlepy v názvech kategorií • Specifickým typem dat jsou datumy u nichž je nezbytné kontrolovat, zda jsou datumy uloženy v korektním formátu • Takto uspořádaná data je v tabulkových nebo databázových programech možné převést na libovolnou výstupní tabulku • Pro základní uložení a čištění dat menšího rozsahu je možné využít aplikací MS Office Vizualizace dat Typy grafické vizualizace Rizika desinterpretace grafického zobrazení dat Institut biostatistiky a analýz, PřF a LF MU Anotace • Prvním krokem v analýze dat je jejich vizualizace. • Různé typy dat nám umožňující získání představy o rozložení dat, zastoupení kategorií i vztazích proměnných navzájem. • Prostřednictvím vizualizace získáváme vhled do dat a začínáme vytvářet hypotézy o zákonitostech panujících mezi proměnnými v hodnoceném souboru dat. Institut biostatistiky a analýz, PřF a LF MU V čem vytvářet grafy • Nejrůznější software – nejrůznější možnosti • MS Office – základní grafy, snadná editovatelnost, lze invenčně upravit, snadná replikovatelnost výměnou dat • R – různé knihovny (např. ggplot) – vyšší vstupní investice, nejrůznější typy grafů, automatizace • SPSS, Statistica – rychlá tvorba velkého množství grafů, mnoho typů grafů • Kritéria • Výběr různých typů grafů • Snadnost editace a úpravy vzhledu • Snadná replikovatelnost/automatizace/rychlost tvorby grafů Institut biostatistiky a analýz, PřF a LF MU Slavné grafy: Charles Joseph Minard – Napoleonovo tažení do Ruska Institut biostatistiky a analýz, PřF a LF MU Slavné grafy: Eradikace lepry v Norsku • 1856 – národní registr lepry v Norsku založen v Bergenu -> analýza získaných dat -> opatření k eradikaci lepry v Norsku • Gerhard Armauer Hansen Muzeum lepry v Bergenu Institut biostatistiky a analýz, PřF a LF MU Co nesmí chybět na grafu • Každý graf musí být jednoznačně popsán – self explained • Graf, který nic neříká, nemá smysl kreslit !!! 0 % 5 % 10 % 15 % 20 % 25 % 30 % 0 1–4 5–9 10–14 15–19 20–24 25–29 30–34 35–39 40–44 45–49 50–54 55–59 60–64 65–69 70–74 75–79 80–84 85–89 90–94 95+ muži ženy Věk při zahájení hospitalizace (roky) Podílhospitalizací(%) Věková struktura pacientů při zahájení hospitalizace Popis kategorií grafu Nadpis grafu Nadpisy os (včetně jednotek) Popisky os Institut biostatistiky a analýz, PřF a LF MU Sloupcové a čárové grafy • Jednoduchá tvorba, vizualizace absolutních hodnot nebo procent 0 % 5 % 10 % 15 % 20 % 25 % 30 % 0 1–4 5–9 10–14 15–19 20–24 25–29 30–34 35–39 40–44 45–49 50–54 55–59 60–64 65–69 70–74 75–79 80–84 85–89 90–94 95+ 14 430 15 368 16 293 16 049 17 783 18 749 20 444 20 773 21 712 22 651 20 203 21 234 20 609 21 254 22 134 23 039 24 241 24 280 24 896 25 512 0 5 000 10 000 15 000 20 000 25 000 30 000 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 Institut biostatistiky a analýz, PřF a LF MU Koláčové a páskové grafy • Jednoduchá tvorba, vizualizace procent 50.6 % 8.7 % 23.0 % 17.6 % 3% 19% 11% 4% 4%3% 56% 33% 8% 3% 56% 89.5 % 59.3 % 52.4 % 49.7 % 44.4 % 42.5 % 38.8 % 38.8 % 36.1 % 32.7 % 26.9 % 26.0 % 25.4 % 25.4 % 19.7 % 3.3 % 13.8 % 2.8 % 6.6 % 10.2 % 18.4 % 21.9 % 26.5 % 9.6 % 26.8 % 19.8 % 41.3 % 32.7 % 28.4 % 40.7 % 4.6 % 24.9 % 43.6 % 39.9 % 42.2 % 36.6 % 37.1 % 32.3 % 52.6 % 36.3 % 51.1 % 30.6 % 36.8 % 42.0 % 36.9 % 2.6 % 2.0 % 1.2 % 3.8 % 3.1 % 2.5 % 2.1 % 2.4 % 1.7 % 4.2 % 2.1 % 2.2 % 5.1 % 4.2 % 2.7 % 0% 25% 50% 75% 100% Institut biostatistiky a analýz, PřF a LF MU Skládané grafy • Kumulativní zobrazení více informací 89.5 % 59.3 % 26.0 % 38.9 % 42.5 % 38.8 % 19.7 % 32.7 % 25.4 % 49.7 % 52.4 % 44.4 % 25.4 % 26.9 % 36.1 % 3.3 % 13.8 % 41.3 % 26.5 % 18.4 % 21.9 % 40.7 % 26.8 % 32.7 % 6.6 % 2.8 % 10.2 % 28.4 % 19.8 % 9.6 % 0 % 25 % 50 % 75 % 100 % 0 5000 10000 15000 20000 25000 30000 35000 40000 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 Institut biostatistiky a analýz, PřF a LF MU XY graf (scatter plot) • Popis vztahu dvou spojitých proměnných • Možnost kategorizace a popisu bodů • Prokládání modelů do grafů • Základní graf pro prohlídku dat před korelační a regresní analýzou 0 15 30 1 2 3 10 20 X2 X1 0 15 30 0 5 10 15 20 25 X2 X1 0 15 30 1 2 3 10 20 X2 X1 0 15 30 1 2 3 10 20 X2 X1 PHA STC JHC PLK KVK ULK LBK HKK PAK VYS JHM OLK ZLK MSK ČR 10 15 20 25 30 20 30 40 50 Institut biostatistiky a analýz, PřF a LF MU Maticový graf • Rozšíření xy grafů ve statistických SW • Současná vizualizace rozložení hodnot (diagonála) a vzájemných vztahů většího počtu spojitých proměnných • Různé varianty • Sada proměnných každý s každým • Dvě sady proměnných proti sobě • Doplnění o výpočet korelačních koeficientů • Základní nástroj vizualizace před vícerozměrnou analýzou AGE LN_CRP CD56 CD57 CD80 Institut biostatistiky a analýz, PřF a LF MU Histogram • Graf sumarizující rozložení hodnot spojitých proměnných, úzce spjat s teorií statistických rozdělení • V klasické formě podobný (ale nikoliv totožný) se sloupcovým grafem • V praxi se pod názvem histogram často skrývá sloupcový graf (přípustné pokud nevede k dezinterpretaci dat) • Jeden ze základních grafů pro posouzení rozložení dat 140 145 150 155 160 165 170 175 výška 0% 10% 20% 30% 39% % Odlehlá hodnota? Institut biostatistiky a analýz, PřF a LF MU Histogram: vliv kategorizace dat • Počtem zvolených intervalů v histogramu rozhodujeme o tom, jak bude vypadat. Při malém počtu můžeme přehlédnout důležité prvky v datech, při velkém zase může být informace roztříštěná. 3 intervaly 5 intervalů 2 6 6 3 7 3 2 1 1 9 0 4 8 12 16 20 1 2 3 4 5 6 7 8 9 1 4.0 4.5 8.0 2.5 1.0 0 4 8 12 16 20 1 - 2 3 - 4 5 - 6 7 - 8 9 - 10 7.0 9.5 3.5 0 4 8 12 16 20 1 - 3 4 - 6 7 - 10 10 intervalů ni /di ni /di ni /di Institut biostatistiky a analýz, PřF a LF MU Histogram: vliv kategorizace dat • Výběr počtu kategorií – důležitý pro interpretaci • Ruční nebo automatický výběr – různé algoritmy (závisí na velikosti vzorku a variabilitě dat) Institut biostatistiky a analýz, PřF a LF MU Histogram a sloupcový graf 0 2 4 6 8 10 12 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 0 0.4 0.8 1.2 1.6 2 2.4 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 0 5 10 15 20 25 30 35 40 45 50 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 0 0.5 1 1.5 2 2.5 3 3.5 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 Věk (roky) Věk (roky) %vintervalu%vintervalu %vintervalu/šířkaintervalu%vintervalu/šířkaintervalu HistogramSloupcový graf Shodná vizuální interpretace při stejné šířce intervalů. Odlišná vizuální interpretace při různé šířce intervalů. Institut biostatistiky a analýz, PřF a LF MU Krabicový graf – box and whisker plot: co to je? • V analýze dat oblíbený typ grafu umožňující jednoduché srovnání více skupin objektů a hodnocení rozložení dat • Nejběžnější pro popis spojitých dat, ale využitelný pro libovolné typy dat, které lze popsat střední hodnotou a variabilitou (procenta, regresní koeficienty, odds ratia, risk ratia, hazard ratia atd.) • Obrovské množství variant 0 20 40 A B C 0 50 100 A B C 0 50 100 A B C 0 1 2 3 4 5 6 Institut biostatistiky a analýz, PřF a LF MU Krabicový graf – box and whisker plot: příklad jedné možné varianty Minimum = 0% kvantil Maximum = 100% kvantil Horní kvartil = 75% kvantil Medián = 50% kvantil Dolní kvartil = 25% kvantil Jednotlivé body grafů mohou obsahovat libovolné popisné statistiky – průměry, směrodatné odchylky, intervaly spolehlivosti, odds ratia, hazard ratia atd. Počet datových bodů v grafu může být od tří do např. devíti. Institut biostatistiky a analýz, PřF a LF MU Box and whisker plot a jeho různé varianty I • Je nezbytné číst popisky • Různé varianty grafu mohou mít zcela jinou interpretaci 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 Kvantitativníproměnná A B C medián 25-75 percentil 5-95 percentil 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 A B C průměr -/+ střední chyba odhadu průměru 95% interval spolehlivosti 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 A B C průměr -/+ směrodatná odchylka -/+ 2 x směrodatná odchylka Institut biostatistiky a analýz, PřF a LF MU Box and whisker graf a jeho různé varianty II: Violin plot a Beanplot • Kombinace histogramu a box plotu nebo tečkového grafu • K dispozici v R – např. knihovny beanplot a ggplot2 1 30 60 90 120 150 180 210 240 270 300 330 Institut biostatistiky a analýz, PřF a LF MU • Varianta box and whisker plotu • Často používaná pro zobrazení regresních koeficientů nebo odds/risk/hazard ratií Box and whisker graf a jeho různé varianty III: Forest plot Parametr 1 Parametr 2 . . . . . . . . . . Parametr X 0 1 2 3 4 5 6 Hodnocená charakteristika (průměr, podíl, poměr šancí, relativní riziko, poměr rizik) bodový odhad interval spolehlivosti Institut biostatistiky a analýz, PřF a LF MU Box and whisker graf a jeho různé varianty IV: Bagplot • Bagplot = „bivariate boxplot“ (tzn. „dvourozměrný krabicový graf“) Institut biostatistiky a analýz, PřF a LF MU Invenční využití jednoduchých grafů: Korálkový graf • Lze vytvořit z XY grafu v MS Office • Velké množství informace na malé ploše Koncentrace Medián Evropy Medián ČR Lokality 0 100 200 300 400 500 600 700 800 900 1 000 Kategorienadmořskévýšky Institut biostatistiky a analýz, PřF a LF MU Invenční využití jednoduchých grafů: Waterfall plot • Vizualizace výsledků individuálních objektů, často u proměnných popisujících změny • Hodnoty jsou v grafu seřazeny dle velikosti • Může být doplněn o hodnoty norem, procenta objektů v kategoriích normy apod.Hodnocenáproměnná Objekty seřazené dle hodnot proměnné Institut biostatistiky a analýz, PřF a LF MU Invenční využití jednoduchých grafů: Demografická pyramida • Jednoduchý ležatý sloupečkový graf • Atraktivní vizualizace pro srovnání dvou skupin objektů Institut biostatistiky a analýz, PřF a LF MU Excel – podmíněné formátování jako grafy • Pro zpřehlednění excelových tabulek je možné využít grafické prvky v jeho buňkách • Datové pruhy a barevné škály Institut biostatistiky a analýz, PřF a LF MU Excel – grafy v buňkách • Pro zpřehlednění excelových tabulek je možné využít grafické prvky v jeho buňkách • Několik typů grafů umožňujících vizualizovat v jedné buňce datové řady • Základní možnosti editace os a vzhledu Institut biostatistiky a analýz, PřF a LF MU Heatmapa • Druh 3D grafu – osy tvoří dvě proměnné, barva třetí proměnnou • Lze vytvořit v excelu pomocí podmíněného formátování • Často ve vícerozměrné analýze pro vizualizaci asociačních matic Hloubka v cm vs. Koncentrace polutantu < 60 60-69 70-74 75-79 80-84 85-89 90-94 95-99 100-109 110-119 120+ <= 30 29.8% 29.2% 27.9% 23.0% 20.5% 19.9% 20.6% 22.1% 22.1% 22.9% 23.3% 31-35 29.4% 28.2% 26.5% 22.0% 20.0% 19.5% 20.4% 21.6% 21.8% 22.6% 23.1% 36-39 18.5% 16.3% 15.8% 13.2% 12.9% 14.1% 15.3% 18.2% 20.4% 23.9% 28.4% 40-44 14.6% 14.3% 12.9% 12.0% 14.3% 20.2% 24.5% 22.2% 21.3% 20.2% 25.0% 45-49 12.6% 11.7% 13.0% 15.0% 17.9% 21.4% 22.5% 19.6% 20.3% 21.1% 30.0% 50+ 12.2% 11.4% 13.6% 17.5% 22.0% 25.6% 25.9% 20.4% 19.9% 20.3% 31.3% Výskyt indikátorového organismu v závislosti na dvou proměnných Institut biostatistiky a analýz, PřF a LF MU Pavoučí / paprskové grafy • Vhodné pro srovnání profilů objektů nebo skupin objektů pomocí více proměnných • Různá grafická forma 0 2 4 6 8 10 12 14 16 I II III IV V VI 0 2 4 6 8 10 12 14 16 I II III IV V VI Institut biostatistiky a analýz, PřF a LF MU Polární graf • Obdoba čárového, sloupcového nebo plošného grafu s osou X vynesenou na kružnici • Vhodný pro cyklická data (cirkadiánní rytmy, sezonalita, směrová statistika pohybu živočichů) BUNKY2 BUNKY1 ENZYM2 -100 100 300 500 700 900 Case1 Case2 Case3 Case4 Case5 Case6 Case7 Case8 Case9 Case10 Case11 Case12 Case13 Case14 Case15 Case16 Case17 Case18 Case19 Case20 Case21 Case22 Case23 Case24 Case25 Case26 Case27 Case28 Case29 Case30 Case 2 Case 3 Case 4 Case 5 Case 6 Case 7Case 8Case 9 Case 10 Case 11 Case 12 Case 13 Case 14 BUNKY2 BUNKY1 ENZYM2 -100 100 300 500 700 900 Case 1 Case 2 Case 3 Case 4 Case 5 Case 6 Case 7Case 8Case 9 Case 10 Case 11 Case 12 Case 13 Case 14 Case 15 Case 16 Case 17 Case 18 Case 19 Case 20 Case 21 Case 22Case 23Case 24 Case 25 Case 26 Case 27 Case 28 Case 29 Case 30 Institut biostatistiky a analýz, PřF a LF MU Grafické tabule • Více grafů tvořících grafickou tabuli • Možné skládat z různých grafů jednoho nebo více typů • Prezentace velkého množství dat na malém prostoru Institut biostatistiky a analýz, PřF a LF MU 3D grafy • Mnoho typů • Velký důraz je třeba klást na interpretovatelnost a smysluplnost Institut biostatistiky a analýz, PřF a LF MU Chernoffovy tváře (ikonové grafy) • Jednotlivé proměnné jsou zobrazeny jako rysy tváře • Patří mezi tzv. ikonové grafy • hodnoty znaků znázorněny jako geometrické útvary či symboly • každému objektu (subjektu) odpovídá jeden obrazec složený z těchto geometrických útvarů či symbolů • umožní vizuálně porovnat, které objekty (subjekty) jsou si podobné Institut biostatistiky a analýz, PřF a LF MU Mapy jsou také grafy • Samostatná kapitola vizualizace dat • Obarvení regionů v mapě dle výsledků analýzy nebo přímo vkládání grafů do map (sloupcové, koláčové atd.) • ArcGIS – další z SW dostupných na inet.muni.cz > 9,0 8,1–9,0 7,1–8,0 ≤ 7,0 STC JHC PLK JHM VYS ZLK ULK MSK OLK PAK HKK LBK KVK PHA Institut biostatistiky a analýz, PřF a LF MU Slavné mapy: John Snow – cholera v Londýně • 1854 Broad Street cholera outbreak • Počty případů vyneseny jako černé sloupce dle bydliště obětí • Identifikace zdroje nákazy – kontaminovaná studně • Jeden z prvních příkladů prostorové analýzy dat a epidemiologického mapování Institut biostatistiky a analýz, PřF a LF MU Nesprávné použití grafů: rozsah os („nevíme jak nakreslit“) Institut biostatistiky a analýz, PřF a LF MU Nesprávné použití grafů: standardizace os („nevíme co kreslíme“) Náklady na zbrojení