Biostatistika iarkovsky@iba.muni.cz Přednáška 1 Organizační informace - kódy předmětů • BÍ5040 B i ostat i štika - základní kurz (tato přednáška) • Bi5040c Biostatistika - cvičení (nepovinný - samostatné cvičení na PC) • ASTAp Biostatistika - přednáška (tato přednáška) • ASTAc Biostatistika - cvičení (povinný - samostatné cvičení na PC) • BMBS051 Biostatistika-základní kurz (tato přednáška) • BLBS051p + BLBS051c - Biostatistika (sloučené, tato přednáška) Organizační informace - poznámka k cvičení Bi5040c a ASTAc • Cvičení biostatistiky probíhá pro každou seminární skupinu jednou za dva týdny v délce dvou hodin • Každá seminární skupina absolvuje během semestru 6 cvičení - přesné termíny zašlou vyučujícící • Materiály ke kurzu budou s předstihem k dispozici v IS.MUNI, jejich prostudování se před cvičením vřele doporučuje • Pro získání zápočtu je třeba: • Účast na alespoň 5 z 6 cvičení (větší počet oprávněných absencí bude řešen individuálně) • Splnění zápočtového testu na konci semestru (teoretická část + řešení příkladů na počítači) • Cvičení není nutné pro získání zkoušky z předmětu BÍ5040/ASTA, jde o rozšiřující prakticky orientovaný předmět Organizační informace - výukové materiály • Tato prezentace v IS.MUNI (tento semestr bude vkládána po částech, snažím se ji letos upgradovat) + prezentace a příklady ovládání SW Statistica + další souhrnné podklady • www.matematickabiologie.cz/res/file/ucebnice/pavlik-biostatistika.pdf • portál.matematickabiologie.cz/index.php?pg=aplikovana-analvza-klinickych-a-biologickych-dat-biostatistika-pro-matematickou-biologii • Tabulky statistických rozdělení www.statsoft.com/Textbook/Distribution-Tables • Libovolná základní učebnice statistiky - např. • https://www.amazon.com/Biostatistical-Analvsis-5th-Jerrold- Zar/dp/0131008463/ref=sr 1 l?ie=UTF8&qid=1505890489&sr=8-l&kevwords=zar+biostatistical+analysis • https://www.amazon.com/Medical-Statistics-Glance-Aviva- Petrie/dp/140518051X/ref=sr 1 sc l?s=books&ie=UTF8&qid=1505890508&sr=l-l-spell&keywords=avive+petria • https://www.amazon.com/Statistics-Veterinarv-Animal-Science- Petrie/dp/0470670754/ref=sr 1 sc 3?s=books&ie=UTF8&qid=1505890522&sr=l-3-spell&keywords=avive+petria Organizační informace - software • Software • Univerzitní licence na inet.muni.cz (stejný login a passwd jako do is.muni.cz) • Statistica - www, statsoft. co m, www.statsoft.cz • SPSS - www.ibm.com/analytics/us/en/technology/spss/ • R - www.r-project.org, www.rstudio.com • Stata - www.stata.com Organizační informace - uzavření předmětu • BÍ5040 Biostatistika - základní kurz • ASTAp Biostatistika - přednáška • BMBS051 Biostatistika-základní kurz • Písemná zkouška (2 hodiny, povoleny materiály + nutná kalkulačka a tabulky statistických rozdělení, praktické řešeni příkladů + teoretické otázky, klíčové ie nalezenia popsání správného postupu, numerická správnost řešení nutná „pouze' pro dosaženi plného počtu bodů) • Bi5040c Biostatistika - cvičení (nepovinný) • ASTAc Biostatistika - cvičení (povinný) • Zápočtová písemka - bližší informace u vyučujících cvičení • BLBS051p + BLBS051c - Biostatistika (sloučené) • Zjednodušená písemná zkouška (výběr z možných odpovědí, materiály povoleny) • Předtermín zkoušky 20.12.2017, další termíny v lednu Statistika ve vědecké praxi Pozice statistické analýzy ve vědě a klinické praxi Význam statistických výstupů Anotace • Statistická analýza biologických dat je jedním z nástrojů, s jejichž pomocí se snažíme zjistit odpovědi na naše otázky týkající se pochopení živé přírody. • Jako každý nástroj je i statistickou analýzu nezbytné na jedné straně korektně využívat a na druhou stranu nepřeceňovat její možnosti. • Klíčovým faktem při statistické analýze dat je nahlížení na realitu prostřednictvím vzorku a přijmutí toho, že výsledky naší analýzy jsou jen tak dobré, jak dobrý je náš vzorek. • Reprezentativnost, nezávislost a náhodnost vzorku spolu s jeho velikostí jsou důležité faktory ovlivňující věrohodnost našich závěrů. Life is beautiful with data analysis iba Institut biostatistiky a analyz, PrF a LF MU Co znamená pro biologa/lékaře statistická analýza dat? • Matematická statistika je vědecká disciplína na pomezí popisné statistiky a aplikované matematiky. Zabývá se teoretickým rozborem a návrhem metod získávání s analýzy empirických dat obsahujících prvek nahodilosti, tedy teorií plánování experimentů, výběrů, statistických odhadů, testování hypotéz a statistických modelů. • Statistika je věda a postup jak rozvíjet lidské znalosti použitím empirických dat. Je založena na matematické statistice, která je větví aplikované matematiky. • Biostatistika = aplikace statistické analýzy dat v biologickém a klinickém výzkumu • Nástroj pro uchopení dat našeho výzkumu • Nezbytné chápat principy a limitace • Není nutná detailní matematická znalost • Easy to understand, hard to master yjBľj% //?«■•■>. * XIX líJ * 1MI ^ lnstitut biostatistiky a analýz, PřF a LF MU '■^Ä^' '^kL0 Výzkum, realita, statistika Výzkum je naším způsobem porozumění realitě Ale jak přesné a pravdivé je naše porozumění? • Statistika je jedním z nástrojů umožňujícím popis a komunikaci výsledků výzkumu. • Ale je to pouze nástroj, co je skutečně důležité jsou data. /ér, iwpi s [Ml - | Institut biostatistiky a analýz, PřF a LF MU Realita a data Klíčovou otázkou výzkumu a následně statistické analýzy je jak dobře naše data popisují realitu Bez kvalitních dat není kvalitní statistiky ani kvalitního výzkumu. Každá chyba učiněná v úvodní fázi výzkumu se v dalších fázích znásobí a zřejmě ji již nebude možné eliminovat /ér, i I Institut biostatistiky a analýz, PřF a LF MU Variabilita jako základní pojem ve statistice • Naše realita je variabilní a statistika je vědou zabývající se variabilitou • Korektní analýza variabilita a její pochopení přináší užitečné informace o naší realitě • V případě deterministického světa by statistická analýza nebyla potřebná Spolehlivost a přesnost měření • Kvalita dat je klíčová pro jakékoliv statistické hodnocení • Bez spolehlivých a přesných dat není možné získat spolehlivé a přesné výsledky statistického hodnocení • Ve statistické analýze dat musíme zohlednit jak střed měření, tak variabilitu a zamyslet se nad přesností popisu reality Nespolehlivý, nepřesný Spolehlivý, nepřesný | Institut biostatistiky a analýz, PřF a LF MU Variabilita a střední hodnota • Norma = 5 gramů soli na 1 kg rýže Nezamícháte Og soli / 1 kg rýže lOg soli / 1 kg rýže 5g soli / 1 kg rýže J Průměr: 5g soli / 1 kg rýže Vše OK !!! 4 Průměr není vše, je nezbytné zohlednit variabilitu Zamícháte 5g soli / 1 kg rýže W 1 Průměr: 5g soli / 1 kg rýže Vše OK !!! iba hl W | Institut biostatistiky a analýz, PřF a LF MU Různé úrovně variability Variabilita opakovaných měření Variabilita dat v populaci Variabilita v modelech Práce s variabilitou v analýze dat V analýze dat existují dva hlavní přístupy k práci s variabilitou Popisná analýza: popis variability O A Variabilita dat lilii A Testování hypotéz: vysvětlení variability o ňnú * ú XX Stochastické modelování: predikce chování systému _ o O J ^ ^ •1^1 i ' ' >\\A\í Institut biostatistiky a analýz, PřF a LF MU iba '-Asfy yERsř '■ují.o'- ^»»1* Statistika - definice WWW.WIKIPEDIA.ORG: Statistika je matematickou vědou zabývající se shromážděním, analýzou, interpretací, vysvětlením a prezentací dat. Může být aplikována v širokém spektru vědeckých disciplín od přírodních až po sociální vědy. Statistika je využívána i jako podklad pro rozhodování, kdy nicméně může být záměrně i nevědomky zneužita. Statistika využívá matematické modely reality k zobecnění výsledků experimentů a vzorkování. Statistika funguje korektně pouze pokud jsou splněny předpoklady jejích metod a modelů. iba Institut biostatistiky a analýz, PřF a LF MU Nesprávná aplikace modelu -> zkreslené závěry Různé popisné statistiky a testy jsou spjaty s různými modelovými rozděleními Pro správnou interpretaci je třeba ověřit shodu reálných dat s modelem Některé statistiky je možné vždy spočítat, ale jejich interpretace je v případě nedodržení předpokladů pouze omezená Skutečné rozložení dat Průměrný plat 26 985 Kč/měsíc Proložený model normálního rozdělení. Jakákoliv metoda pracující s modelem normálního rozdělení pracuje s daty jako kdyby jejich reálné rozložení odpovídalo červené křivce. 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 55000 Měsíční plat (Kč) | Institut biostatistiky a analýz, PřF a LF MU Co může statistika říci o naší realitě? Statistika není schopna činit závěry o jevech neobsazených v našem vzorku. Statistika je nasazena v procesu získání informací z vzorkovaných dat a je podporou v získání naší znalosti a pochopení problému. Statistika není náhradou naší inteligence !!! Co musíme vědět před zahájením studie nebo experimentu? • Cílová populace • Skupina objektů (pacientů, lokalit atd.) na něž je studie zaměřena • Primární hypotézy • Hlavní otázka položená ve studii - odhad velikosti vzorku a design studie je vypracován vzhledem k primární hypotéze (v řadě případů nelze v reálném výzkumu formální power analýzu vypracovat, nicméně zamyšlení nad velikostí vzorku je nezbytné vždy) • Sekundární hypotézy • Vedlejší otázky, na něž by studie měla odpovědět • Výběr adekvátní metodiky • Hypotézy jsou zodpovězeny prostřednictvím konkrétních proměnných (endpointů) - jejich typ {binární, kategoriální, spojité proměnné, biodiverzita, přežití, mortalita atd.) určuje výber způsobu statistického zpracování Cílová populace • Cílová populace - klíčový pojem statistického zpracování • Skupina objektů o nichž se chceme něco dozvědět (např. lokality v daném povodí, laboratorní organismy v daných podmínkách, pacienti s danou diagnózou, všichni lidé nad 60 let, měření hemoglobinu v dané laboratoři) • Musí být definována ještě před zahájením sběru dat • Na cílové populaci probíhá vzorkování dat, které musí cílovou populaci dobře (reprezentativně) charakterizovat Cílová populace Klíčové faktory Design experimentu Vzorkovania Statistika a zobecnění výsledků Neznámá cílová populace Vzorek Analýza Díky zobecnění výsledků známe vlastnosti cílové populace Cílem analýzy není pouhý popis a analýza vzorku, ale zobecnění výsledků ze vzorku na jeho cílovou populaci Pokud vzorek nereprezentuje cílovou populaci, vede zobecnění k chybným závěrům 'Qzs ^íi^ ^Ssa^ I Institut biostatistiky a analýz, PřF a LF MU Vzorkování a jeho význam ve statistice Statistika hovoří o realitě prostřednictvím vzorku!!! Statistické předpoklady korektního vzorkování • Representativnost: struktura vzorku musí maximálně reflektovat realitu ^ ^ ^ • Nezávislost: několikanásobné vzorkování téhož objektu nepřináší ze statistického hlediska žádnou novou informaci Náhodnost: zajišťuje náhodný vliv zavádějících faktorů ■r*jSN #íSík A ' * IMO lnstitut biostatistiky a analýz, PřF a LF MU Velikost vzorku a spolehlivost statistických výstupů • Existuje skutečné rozložení a skutečná střední hodnota měřené proměnné • Z jednoho měření nezjistíme nic # ????? • Vzorek určité velikosti poskytuje odhad reálné hodnoty s definovanou spolehlivostí Odhad popisné statistiky • Vzorkování všech existujících objektů poskytne skutečnou hodnotu dané popisné statistiky, nicméně tento přístup je ve většině případech nereálný. Institut biostatistiky a analýz, PřF a LF MU Různá velikost vzorku - různé úkoly analýzy dat • Náročnost analýzy dat stoupá i s jejich objemem • I u největších dat stále platí, že klíčová je schopnost data prodat = smysluplně interpretovat a prezentovat Přístup biostatistiky • Schopnost: vidět data - komunikovat - interpretovat - prodávat I I rHrHrNirNiroro^-^-LnLnixiixír^r^oooocDLn iHinlllllllllllllllllcn OLnOLnOLnoinOLnOLnOLnoino rHrHrNirNiroro^-^-LnLnixiixír^r^oooocr) iba i | Institut biostatistiky a analýz, PřF a LF MU Experimentální design: nezbytná výbava biologa cílová populace <.............. f I m výběr dle optimálního plánu I reprezentativní vzorek n jedinců (faktor F) ♦ měření znaku OO00OOO0O0 variabilita hodnot ve výběrovém souboru VÝSLEDKY ........... iba w w! wj >LU N I Institut biostatistiky a analýz, PřF a LF MU 4) Účel analýzy: Popisný Reprezentativnost Spolehlivost Přesnost oO ... analyzovaný znak cílové populace (X) ... jiný významný faktor charakterizující cílovou populaci (F) Experimentální design: nezbytná výbava biologa cílová populace <.............. v\ / Í7 výběr subjektů pro vstup do hodnocení / studie RANDOMIZACE nebo existující faktor rameno A rameno B ♦ měření znaku X O ooO O abilita hodni v rameni A ♦ OoO« -4........................................► variabilita hodnot X variabilita hodnot X v rameni B VÝSLEDKY ^Ä^' ^tií/ ^SwW^ I Institut biostatistiky a analýz, PřF a LF MU CO x < — 01 o II _ *— 4-J T3 SZ M OJ O M aj O. SZ O 01 > O O C M "aj o t —- > >LU M 4) Účel analýzy: Srovnávací (2 skupiny) Reprezentativnost Srovnatelnost Spolehlivost Přesnost ^^^^ ... analyzovaný znak cílové populace (X) ... jiný významný faktor charakterizující cílovou populaci (F) Obecné schéma využití statistické analýzy Experimentálni design Vzorkovaní Uložení a management dat Vizualizace dat Popisná analýza Testování hypotéz Modelování Jak velký vzorek je nezbytný pro statisticky relevantní výsledky? Klíčová stratifikační kritéria cílové populace. Vzorkovací plán zabezpečující náhodnost a reprezentativnost vzorku. Uložení dat ve vhodné formě a jejich vyčištění předcházející vlastní analýze je klíčovým krokem statistické analýzy. Grafická inspekce dat je nezbytným krokem analýzy vzhledem ke schopnosti lidského mozku primárně akceptovat obrazová data. Poskytne vhled do dat, představu o jejich rozložení, vazbách proměnných apod. Popisná analýza umožňuje vyhodnotit srovnáním s existující literaturou realističnost naměřených rozsahů dat. Testování vazeb mezi různými proměnnými s cílem navzájem vysvětlit jejich variabilitu a tím přispět k pochopení řešeného problému. Možným vyvrcholením analýzy je využití získaných znalostí a pochopení problému k vytvoření prediktivních modelů. iba Institut biostatistiky a analýz, PřF a LF MU Stochastické modelování: predikce neurčitých jevů • Prospektivně - modelově - postihuje chování jevů při respektování variability Pravděpodobnostní vztahy Anamnéza x Výsledek vyšetření pacienta Karcinom Benigní léie Benigní riziková Zdravá Pozitivní anamnéza 2,22 34,44 0,00 63,33 100% Negativní anamnéza 1,06 28,23 0,96 69,75 100% p < 0.05 Vícerozměrná diskriminace Znak Xi * o _ GK» o •. &£» o / Znak X2 Markovovy řetězce P(ii-in) / «mmp Pdii-iv) i Po-") Logistické modely Znak X Funkční vztahy znaků Znak Y Znak Y Znak X Znak X Chování systému v čase Znak (y) Cas (t) - -; IMI1 Institut biostatistiky a analýz, PřF a LF MU iba >-mf w w Stochastické modelování: predikce neurčitých jevů OsaX Parametr nebo kombinace parametrů Data konkrétních objektů k přímému hodnocení iba Institut biostatistiky a analýz, PřF a LF MU Stochastické modelování: predikce neurčitých jevů • Schopnost: vytvářet prakticky využitelné nástroje | Institut biostatistiky a analýz, PřF a LF MU Přednáška 2 Klíčové principy biostatistiky Zkreslení, reprezentativnost, srovnatelnost, spolehlivost významnost Anotace • Ve statistické analýze biologických a klinických dat musíme vždy nad prováděným výzkumem a jeho výsledky přemýšlet v kontextu 5 klíčových principů biostatistiky. • Zkreslení - skutečně vidíme to co si myslíme, že vidíme? • Reprezentativnost-vypovídá naše analýza o skupině objektů, která nás zajímá? • Srovnatelnost - co ve skutečnosti v analýze srovnáváme? • Spolehlivost-jak spolehlivé jsou naše výsledky, dají se zopakovat? • Významnost-jak moc je pravděpodobné, že pozorujeme výsledky pouhé náhody? • Zanedbání těchto principů může vést k chybné interpretaci výsledků. Klíčové principy biostatistiky Jsme schopni odlišit výsledky výzkumu od pouhé náhody? Zkreslení Významnost Jak moc se dá na výsledky výzkumu spolehnout? Dostaneme v případe opakování (~ v praxi) s dostatečnou spolehlivostí obdobné výsledky? Spolehlivost Co skutečně stojí za výsledkem studie? Jsou výsledky diktátu ovlivněny věkem, výškou, hmotností nebo délkou školní docházky dětí?" Popisuje studie reprezentativně populaci? „ Vypovídají batolata o dětech jako celku?" Reprezentativ nost Srovnatelnost V Srovnáváme srovnatelné? „Hodnotíme vliv počtu knih v domácnosti na výsledky diktátu mezi skupinami dětí ve školce a v 9. třídě ZŠ-je to smysluplné srovnání?" Klíčové principy-zkreslení • V jakémkoliv hodnocení se snažíme vyhnout zkreslení výsledků („biased results")-tedy zkreslení výsledků jinými faktory než těmi, které jsou cíli výzkumu. • Statistické srovnání není nikdy 100% spolehlivé, existuje náhoda a tedy i pravděpodobnost chybného úsudku - to nelze ovlivnit. • Chceme použít adekvátní metody pro odstranění vlivů, které by zkreslily výsledky a nebyly přitom náhodné (např. zastoupení pohlaví, nadmořská výška). Klíčové principy-zkreslení • Co způsobuje rozdíl v saprobním znečištění vodního toku? • Co způsobuje rozdíl v naměřených biochemických ukazatelích? • Čím by mohl být způsoben pozorovaný rozdíl v lOIetém přežití pacientů? Léčba? Nějaký prognostický faktor? Stadium nemoci? Věk? 24 48 72 96 120 144 Čas (měsíce) iwpi s IM) - I Institut biostatistiky a analýz, PřF a LF MU Klíčové principy-zkreslení • Poj e m za vá d ěj íc í fa kto r • Pro zavádějící faktor současně platí, že • přímo nebo nepřímo ovlivňuje sledovaný následek, • je ve vztahu se studovanou expozicí, • není mezikrokem mezi expozicí a následkem. Klíčové principy - reprezentativnost • Pojem cílová populace - skupina subjektů, o které chceme zjistit nějakou informaci. • Pojem experimentální vzorek - podskupina cílové populace, kterou „máme k dispozici". • Musí odpovídat svými charakteristikami cílové populaci. • Chceme totiž zobecnit výsledky na celou cílovou populaci. • Souvislost s náhodným výběrem. iba Institut biostatistiky a analýz, PřF a LF MU Klíčové principy - reprezentativnost • Chceme se něco dovědět o cílové populaci Cílová populace i Aplikace statistických metod i Vzorek • Vzorek reprezentuje v experimentu cílovou populaci v_y Klíčový krok • Díky zobecnění získaných výsledků máme nové informace Cílová populace ŕÄH Ä áft *y w w I Institut biostatistiky a analýz, PřF a LF MU Klíčové principy-srovnatelnost • Korektní výsledky při srovnávacích analýzách lze získat pouze při srovnávání srovnatelného. • V striktně kontrolovaných studiích je srovnatelnost zajištěna randomizací. • U studií bez randomizace je nutné se tématu srovnatelnosti skupin věnovat. • Metody adjustace, matching, propensity scores. M_ /V$V\ Í\ii\ I Institut biostatistiky a analýz, PřF a LF MU iba W/ W W Klíčové principy-spolehlivost • Ve většině studií nás zajímá kvantifikace sledovaného efektu nebo charakteristiky, obecně náhodné veličiny, ve formě jednoho čísla, bodového odhadu. • Bodový odhad je však sám o sobě nedostatečný. • Je nutné ho doplnit intervalovým odhadem, který odpovídá pravděpodobnostnímu chování sledované veličiny, tedy odpovídá určité spolehlivosti výsledku. Klíčové principy-spolehlivost Klíčové principy-spolehlivost Klíčové principy-spolehlivost Výběr číslo 1 Výběr číslo 2 1 a i a I I V Pracujeme-li s výběrem z cílové populace, je třeba na základě variability pozorovaných dat spočítat tzv. interval spolehlivosti pro bodový odhad. R J \ \ •i-1-h H-(-h Celá cílová populace o Umíme-li „změřit" celou cílovou populaci, nepotřebujeme interval spolehlivosti, protože jsme schopni odhadnout sledovaný parametr přesně - v praxi je tato situace nereálná. Interval spolehlivosti na základě výběru číslo 1. - -; IMI1 Institut biostatistiky a analýz, PřF a LF MU iba >-mf w w Klíčové principy-významnost • Analytické výsledky studie nemusí odpovídat realitě a skutečnosti. Statistická významnost jednoduše nemusí znamenat příčinný vztah! • Statistická významnost pouze indikuje, že pozorovaný rozdíl není náhodný (ve smyslu stanovené hypotézy). • Stejně důležitá je i praktická významnost, tedy významnost z hlediska lékaře nebo biologa. • Statistickou významnost lze ovlivnit velikostí vzorku. Klíčové principy-významnost Praktická významnost co O C E c M > -m o ■4—' .— ■4—' n5 +-> co ANO NE ANO OK, praktická i statistická významnost jsou ve shodě. Významný výsledek je statistický artefakt, prakticky nevyužitelný. NE Výsledek může být pouhá náhoda, neprůkazný výsledek. OK, praktická i statistická významnost jsou ve shodě. Statisticky nevýznamný výsledek neznamená, že pozorovaný rozdíl ve skutečnosti neexistuje! Může to být způsobeno nedostatečnou informací v pozorovaných datech! iwpi s [Ml - I Institut biostatistiky a analýz, PřF a LF MU Příprava dat Klíčový význam korektního uložení získaných dat Pravidla pro ukládání dat Čištění dat před analýzou Anotace • Současná statistická analýza se neobejde bez zpracování dat pomocí statistických software. • Předpokladem úspěchu je správné uložení dat ve formě „databázové" tabulky umožňující jejich zpracování v libovolné aplikaci. • Neméně důležité je věnovat pozornost čištění dat předcházející vlastní analýze. • Každá chyba, která vznikne nebo není nalezeno ve fázi přípravy dat se promítne do všech dalších kroků a může zapříčinit neplatnost výsledků a nutnost opakování analýzy. DATA - ukázka uspořádání datového souboru Parametry, znaky, charakteristiky, proměnné Pacient Clovek aLeu aTy% aSe% aNeu% aLy% aTy aSe aNeu aLy aHtc aCLsk aCLNeus aCLOZ aCLNeuO cell.106/ % % % % cell.106/ cell.106/ cell.106/ cell.106/ % mV.s.103 mV.s.103 mV.s.103 mV.s.103 3 1 4 33 72 32 4 2 7,6 8 58 66 24 0,6 4,4 5,0 1,8 33 95 19 48 10 8 3 4 3 52 55 40 0,1 2,1 2,2 1,6 22 77 35 33 15 11 4 6,1 5 59 64 35 0,3 3,6 3,9 2,1 33 103 26 49 13 12 5 6,9 3 85 88 9 0,2 5,9 6,1 0,6 37 81 13 45 7 14 6 5,9 15 55 70 19 0,9 3,3 4,1 1,1 32 137 33 61 15 16 7 8 18 75 93 7 1,4 6,0 7,4 0,6 34 151 20 59 8 20 8 9,6 3 72 75 23 0,3 6,9 7,2 2,2 40 77 11 38 5 21 9 6 10 67 77 19 0,6 4,0 4,6 1,1 32 120 26 52 11 22 10 3,3 4 55 59 39 0,1 1,8 2,0 1,3 28 81 42 24 12 37 11 3,8 10 60 70 30 0,4 2,3 2,7 1,1 32 111 42 29 11 38 12 6,4 2 76 78 17 0,1 4,9 5,0 1,1 25 366 73 115 23 39 13 6,8 1 57 58 39 0,1 3,9 3,9 2,7 20 234 59 71 18 49 14 8,5 7 67 74 26 0,6 5,7 6,3 2,2 30 156 25 108 17 51 15 9,3 7 57 64 35 0,7 5,3 6,0 3,3 35 129 21 23 4 52 16 2,2 10 56 66 34 0,2 1,2 1,5 0,7 33 46 30 12 8 55 17 9,9 3 78 81 10 0,3 7,7 8,0 0,1 30 189 24 140 18 56 18 5 2 80 82 13 0,1 4,0 4,1 0,7 26 101 25 54 13 6 1 8,8 11 72 83 12 1,0 6,3 7,3 1,1 44 268 36,6 145 19,9 9 2 9,2 2 66 68 28 0,2 6,1 6,3 2,6 42 168 26,9 76 12,2 13 3 10,0 7 83 90 8 0,7 8,3 9,0 0,8 54 181 20,1 81 9 15 4 9,6 1 75 76 23 0,1 7,2 7,3 2,2 45 343 47 124 16,9 17 5 6,0 45 40 21 trs c M -trs M \7 iba Institut biostatistiky a analýz, PřF a LF MU Datová tabulka a její možné problémy Jednoznačné ID nezbytné pro identifikaci a případné propojení do dokumentace. Sloupec nesmí obsahovat kombinaci textu a čísel. Překlep v názvu kategorie, při zpracování dat se chová jako nová kategorie. Nereálné odlehlé hodnoty, pravděpodobně prohozen věk a výška. Zařazen 13.9.2001 10.9.2001 14.90.2001 17.9.2001 17.9.2001 4.10.2001 4.10.2001 5.10.2001 5.10.2001 5.10.2001 5.10.2001 5.10.2001 Uvedena 0 zřejmě namísto chybějící hodnoty, je třeba ponechat prázdnou buňku. Chybně uvedeno datum. N N TKD/TKS 80/120 75/119 91/145 78/130 80/120 75/119 91/145 78/130 80/120 75/119 91/145 78/130 Je třeba uvádět v samostatných sloupcích pro diastolický a systolický tlak. Kombinace dvou možných kategorizací (0/1 nebo N/A), je třeba si vybrat jednu z nich. iba 4Ä. íňfú HUlf Institut biostatistiky a analýz, PřF a LF MU Zásady pro ukládání dat • Správné a přehledné uložení dat je základem jejich pozdější analýzy • Je vhodné rozmyslet si předem jak budou data ukládána • Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě • Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky • Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce • Každý řádek obsahuje minimální jednotku dat (např. pacient, jedna návštěva pacienta • Je nepřípustné kombinovat v jednom sloupci číselné a textové hodnoty • Komentáře jsou uloženy v samostatných sloupcích • U textových dat nezbytné kontrolovat překlepy v názvech kategorií • Specifickým typem dat jsou dátumy u nichž je nezbytné kontrolovat, zda jsou datumy uloženy v korektním formátu • Takto uspořádaná data je v tabulkových nebo databázových programech možné převést na libovolnou výstupní tabulku • Pro základní uložení a čištění dat menšího rozsahu je možné využít aplikací MS Office apod.) Vizualizace dat Typy grafické vizualizace Rizika desinterpretace grafického zobrazení dat Anotace • Prvním krokem v analýze dat je jejich vizualizace. • Různé typy dat nám umožňující získání představy o rozložení dat, zastoupení kategorií i vztazích proměnných navzájem. • Prostřednictvím vizualizace získáváme vhled do dat a začínáme vytvářet hypotézy o zákonitostech panujících mezi proměnnými v hodnoceném souboru dat. V čem vytvářet grafy • Nejrůznější software - nejrůznější možnosti • MS Office - základní grafy, snadná editovatelnost, lze invenčné upravit, snadná repli kováteInost výměnou dat • R - různé knihovny (např. ggplot) - vyšší vstupní investice, nejrůznější typy grafů, automatizace • SPSS, Statistica - rychlá tvorba velkého množství grafů, mnoho typů grafů • Kritéria • Výběr různých typů grafů • Snadnost editace a úpravy vzhledu • Snadná replikovatelnost/automatizace/rychlost tvorby grafů -"u -/Äv í Y?Y í = v í IUII Institut biostatistiky a analýz, PřF a LF MU Slavné grafy: Charles Joseph Minard - Napoleonovo tažení do Ruska Figurative Map of the successive losses in men of the French Army in the Russian campaign 1812 ~ 1813 Drawn by M. Minard, Inspector General of Bridges and Roads (retired). , - Pans, November 20,1869. The numbers of men present are represented by the widths of the colored zones at a rate of one millimeter for every ten thousand men; they are further written across the zones. The red designates the men who enter Russia, the black those who leave it.-The information which has served to draw up the map has been extracted from the works ofM.M. Thiers, deSegur, deFezensac, deChambray and the unpublished diary of Jacob, the pharmacist of the Army since October 28th. In order to betterjudge with the eye the diminution of the army, I have assumed that the troops of Prince Jerome and of Marshal Davout, who had been detached at Minsk and Mogilev and have rejoined near Orsha and Vitebsk, had always marched with the army. % Moscow The i'aiSftcki pass the frozen Neman at a gultvp. -30" December 6 ^\ fit *y w w I Institut biostatistiky a analýz, PřF a LF MU Slavné grafy: Eradikace lepry v Norsku • 1856 - národní registr lepry v Norsku založen v Bergenu -> analýza získaných dat -> opatření k eradikaci lepry v Norsku _ Co nesmí chybět na grafu • Každý graf musí být jednoznačně popsán - self explained • Graf, který nic neříká, nemá smysl kreslit!!! Nadpis grafu Věková struktura pacientů při zahájení hospitalizace Sloupcové a čárové grafy • Jednoduchá tvorba, vizualizace absolutních hodnot nebo procent iba Institut biostatistiky a analýz, PřF a LF MU Koláčové a páskové grafy • Jednoduchá tvorba, vizualizace procent 0% 25% 50% 75% 100% I i i i _i 3.3%.6 2S6% -ľ iba Institut biostatistiky a analýz, PřF a LF MU Skládané grafy • Kumulativní zobrazení více informací iba Institut biostatistiky a analýz, PřF a LF MU XY graf (scatter plot) • Popis vztahu dvou spojitých proměnných • Možnost kategorizace a popisu bodů • Prokládání modelů do grafů • Základní graf pro prohlídku dat před korelační a regresní analýzou X1 30 -i 25 20 15 10 o : :lk JHM V MSK o »JH( o YSo Q STC • ČR °o ° LBK ~ r, L J1 K °PLK ° HKK PA°K0PHA KV K ŕ*jS\ <0- iba W %^ •H 20 30 40 I Institut biostatistiky a analýz, PřF a LF MU 50 X1 3 10 20 X2 1 2 3 10 20 X2 X1 0 5 10 15 20 25 X2 X1 J 10 20 X2 Maticový graf • Rozšíření xy grafů ve statistických SW • Současná vizualizace rozložení hodnot (diagonála) a vzájemných vztahů většího počtu spojitých proměnných • Různé varianty • Sada proměnných každý s každým • Dvě sady proměnných proti sobě • Doplnění o výpočet korelačních koeficientů • Základní nástroj vizualizace před vícerozměrnou analýzou h ■ H ■ 0 í • „ ^ í" h ■ - ^" ° „ ° . h H • • r . .„:>° >0000 Ť ^"t*8— — **3Sľi* O- IMI i Institut biostatistiky a analýz, PřF a LF MU ■J.fj " Histogram • Graf sumarizující rozložení hodnot spojitých proměnných, úzce spjat s teorií statistických rozdělení • V klasické formě podobný (ale nikoliv totožný) se sloupcovým grafem • V praxi se pod názvem histogram často skrývá sloupcový graf (přípustné pokud nevede k dezinterpretaci dat) • Jeden ze základních grafů pro posouzení rozložení dat 39% výška Histogram: vliv kategorizace dat • Počtem zvolených intervalů v histogramu rozhodujeme o tom, jak bude vypadat. Při malém počtu můžeme přehlédnout důležité prvky v datech, při velkém zase může být informace roztříštěna. "i M. 3 intervaly "i M. 5 intervalů 20 16 12 8 4 0 8.0 4.0 4.5 2.5 1.0 1-3 4-6 7-10 1-2 3-4 5-6 7-8 9-10 "i M. 10 intervalů 20 16 -12 - 8 - 6 6 4 - 2 0 1 1 1234567891 iba Institut biostatistiky a analýz, PřF a LF MU Histogram: vliv kategorizace dat • Výběr počtu kategorií-důležitý pro interpretaci • Ruční nebo automatický výběr - různé algoritmy (závisí na velikosti vzorku a variabilitě dat) Krabicový graf- box and whisker plot: co to je? • V analýze dat oblíbený typ grafu umožňující jednoduché srovnání více skupin objektů a hodnocení rozložení dat • Nejběžnější pro popis spojitých dat, ale využitelný pro libovolné typy dat, které lze popsat střední hodnotou a variabilitou (procenta, regresní koeficienty, odds ratia, risk ratia, hazard ratia atd.) • Obrovské množství variant 401 1001 100 2 3 4 5 _I_I_I_I_ 20 I "X" T I 50' 50 i—■-1 iba Institut biostatistiky a analýz, PřF a LF MU Krabicový graf- box and whisker plot: příklad jedné možné varianty Maximum = 100% kvantil Horní kvartil = 75% kvantil Medián = 50% kvantil Dolní kvartil = 25% kvantil Jednotlivé body grafů mohou obsahovat libovolné popisné statistiky-průměry, směrodatné odchylky, intervaly spolehlivosti, odds ratia, hazard ratia atd. Počet datových bodů v grafu může být od tří do např. devíti. Minimum = 0% kvantil w w Institut biostatistiky a analýz, PřF a LF MU Box and whisker plot a jeho různé varianty I • Je nezbytné číst popisky • Různé varianty grafu mohou mít zcela jinou interpretaci iba E o 8.0 7.5 7.0 6.5 > co to Ž 5.5 5.0 4.5 4.0 I medián 25-75 percentil 5-95 percentil I Institut biostatistiky a analýz, PřF a LF MU B 8.0 7.5 7.0 6.5 6.0 5.5 -L 5.0 4.5 4.0 I prumer -/+ směrodatná odchylka -/+ 2 x směrodatná odchylka B 8.0 7.5 7.0 6.5 6.0 5.5 5.0 4.5 4.0 I průměr -/+ střední chyba odhadu průměru 95% interval spolehlivosti r~ni B Box and whisker graf a jeho různé varianty II: Violin plot a Beanplot • Kombinace histogramu a box plotu nebo tečkového grafu • K dispozici v R - např. knihovny beanplot a ggplot2 1000 2000 3000 4000 5000 MU r«*SV Ä/SV*. i'Wvt- ř Ilji LO o LO CO o co LO CM O CM LO LO O | Institut biostatistiky a analýz, PřF a LF MU Box and whisker graf a jeho různé varianty III: Forest plot Varianta box and whisker plotu Často používaná pro zobrazení regresních koeficientů nebo odds/risk/hazard ratií Hodnocená charakteristika (průměr, podíl, poměr šancí, relativní riziko, poměr rizik) Parametr 1 Parametr 2 Parametr X MU ■ bodový odhad ~[~ interval spolehlivosti (řynS ř IUI iba W I Institut biostatistiky a analýz, PřF a LF MU Median PFS (months) Variable Subgroup Placebo-Rd IRd Placebo-Rd IRd All patients ALL 362 360 14.7 20.6 <65 176 168 14.1 20.6 Age (yrs) >65-75 125 145 17.6 17.5 >75 61 47 13.1 18.5 ISS stage I or II 318 314 15.7 21.4 (stratification factor) III 44 46 10.1 18.4 Cytogenetic Standard-risk 216 199 15.6 20.6 risk High-risk 62 75 9.7 21.4 Number of prior therapies 1 2 3 217 111 34 224 97 39 15.9 14.1 10.2 20.6 17.5 NE - Proteasome Exposed 253 250 13.6 18.4 inhibitor Naive 109 110 15.7 NE Prior IMiD therapy Exposed Naive 204 158 193 167 17.5 13.6 NE 20.6 Refractoryto last Yes 55 59 NE NE prior therapy No 307 301 14.1 20.6 Relapsed or refractory Relapsed 280 276 15.6 18.7 Refractory Ref& rel 40 42 42 41 13.0 13.1 NE NE "T 0.742 0.683 0.833 0.868 0.746 0.717 0.640 0.543 0.832 0.749 0.366 0.739 0.749 0.744 0.700 0712 0.742 0.769 0.784 0.506 "T 0.500 1.000 2.000 Favors IRd <--> Favors placebo-Rd Moreau P et at ASH 2015, oral presentation Abstract #727 Box and whisker graf a jeho různé varianty IV: Bagplot • Bagplot = „bivariate boxplot" (tzn. „dvourozměrný krabicový graf) iba Institut biostatistiky a analýz, PřF a LF MU Invenční využití jednoduchých grafů: Korálkový graf • Lze vytvořit z XY grafu v MS Office • Velké množství informace na malé ploše 100 200 I Medián Evropy 9 Medián ČR + Lokality Koncentrace 300 400 500 600 700 800 900 1 000 >i/i > to "D OJ O ĎD (U H-1-1— —I-H-+- 1 ►m+H-h + + H—I— —h -hh+::--h+ +- +++ > + +H--H-h -H- + + ++ + IUI1 Institut biostatistiky a analýz, PřF a LF MU ^ w Invenční využití jednoduchých grafů: Waterfall plot • Vizualizace výsledků individuálních objektů, často u proměnných popisujících změny • Hodnoty jsou v grafu seřazeny dle velikosti • Může být doplněn o hodnoty norem, procenta objektů v kategoriích normy apod. Objekty seřazené dle hodnot proměnné M_ /V$V\ Í\ii\ I Institut biostatistiky a analýz, PřF a LF MU iba W/ W W Invenční využití jednoduchých grafů: Demografická pyramida • Jednoduchý ležatý sloupečkový graf • Atraktivní vizualizace pro srovnání dvou skupin objektů 100 50 0 50 100100 50 0 50 100 Excel - podmíněné formátování jako grafy • Pro zpřehlednění excelových tabulek je možné využít grafické prvky v jeho buňkách • Datové pruhy a barevné škály 2 Autornatid EH EET t&tí Svyp|n|t. Podmíněné Formátovat Styly Vložit Odstranit Formát formátování-jako tabulku - buňky- - - - ^ Vymazat" ■e-cnzi EH *Šo 4™ Podmíněné Formátovat Styly Vložit Odstraní formátování-jako tabulku - bunky- styly Buňky M N P Q R S U ■ 10 2 3 4 5 6 3 4 5 6 7 1 3 4 5 6 7 S D 5 5 S S 7 S 9 e 5 7 S 9 10 S 7 S 9 10 11 i ~| ^ Automatické 5 [+] Vyplnit - Podmíněné Formátovat Styly Vložit Odstranit Formát formátování- jako tabulku - buňky- - _ Vymazat MU /ba ^ | Institut biostatistiky a analýz, PřF a LF MU Excel - grafy v buňkách Pro zpřehlednění excelových tabulek je možné využít grafické prvky v jeho buňkách Několik typů grafů umožňujících vizualizovat v jedné buňce datové řady Základní možnosti editace os a vzhledu MU í'7;ri\ ř IUI iba W \t i;:t:ř;: " ^ iručené Kcntingenčni rafy JT LjT STT graf- lil. 3D Map' poklesy I Institut biostatistiky a analýz, PřF a LF MU Grafy r; Prohlídky Minigrafy Průřez Časová Hypertextový osa odkaz Filtry Odkazy A pb| 4 ~ 71 Rovnu ™ ÍÍSymbt pole a zá p atí Teíct üymbo K L M N 0 P Q R S T U v w 10 111 12 15 16 19 6 9 10 12 12 IS ——* _-—■■......r 3 5 6 9 9 17 _^ i___..i ■■■■■■ 2 1 2 6 8 13 ____B|| ■■■■■■ -1 -2 -3 4 3 8 —"___--■ ■■■■■■ -5 -4 -7 4 0 4 —^/^- --■--- 2 ■ ■■ ■ S| 1___ _/\_ Formátováni' Grafy Celkové součty Tabulky Minigrafy Spojnicový Ii.. ■ ■ li Sloupcový Vzestupy/po kl esy jfy umístěné v samostatných buňkách, Minigrafyjsou malé gr Heatmapa • Druh 3D grafu - osy tvoří dvě proměnné, barva třetí proměnnou • Lze vytvořit v excelu pomocí podmíněného formátování • Často ve vícerozměrné analýze pro vizualizaci asociačních matic Výskyt indikátorového organismu v závislosti na dvou proměnných Hloubka v cm vs. Koncentrace polutantu <60 60-69 70-74 75-79 80-84 85-89 90-94 95-99 100-109 110-119 120+ <= 30 29.8% 29.2% 27.9% 23.0% 20.5% 19.9% 20.6% 22.1% 22.1% 22.9% 23.3% 31-35 29.4% 28.2% 26.5% 22.0% 20.0% 19.5% 20.4% 21.6% 21.8% 22.6% 23.1% 36-39 18.5% 16.3% 15.8% 13.2% 12.9% 14.1% 15.3% 18.2% 20.4% 23.9% 28.4% 40-44 14.6% 14.3% 12.9% 12.0% 14.3% 20.2% 24.5% 22.2% 21.3% 20.2% 25.0% 45-49 12.6% 11.7% 13.0% 15.0% 17.9% 21.4% 22.5% 19.6% 20.3% 21.1% 30.0% 50+ 12.2% 11.4% 13.6% 17.5% 22.0% 25.6% 25.9% 20.4% 19.9% 20.3% 31.3% iba Institut biostatistiky a analýz, PřF a LF MU Pavouci / paprskové grafy • Vhodné pro srovnání profilů objektů nebo skupin objektů pomocí více proměnných • Různá grafická forma Polární graf • Obdoba čárového, sloupcového nebo plošného grafu s osou X vynesenou na kružnici • Vhodný pro cyklická data (cirkadiánní rytmy, sezonalita, směrová statistika pohybu V ■ V ■ I O \ živočichu) EZä BUNKY2 ĚE3 BUNKY1 EB ENZYM2 iba Institut biostatistiky a analýz, PřF a LF MU Grafické tabule C33-CH • Více grafů tvořících grafickou tabuli • Možné skládat z různých grafů jednoho nebo více typů • Prezentace velkého množství dat na malém prostoru **3Sľi* ä. IMI i Institut biostatistiky a analýz, PřF a LF MU m g nf\t% -■1 - -SIS vi-V- -íu — T — věj vV n4 - • • V'. ■Si " --" - ZE 71-■a - =*: 1*1 W-rn— o— 3= lH- e i: .. . iů-2ů ii-ii l-i S-1Ů ■ ■, il-iS Sŕt e i: 11-lS 1Í-2Ů ii-ii - n} ZE ■a - =*= 1*1 - X o— 31 Ů--1Ů .. . nů-a l-í ■ ■' 1Ů-3Ů ři-aa Ů--1Ů ii-nS nů-a -i - n-S\l VI- --4U ■ -. n- ľ J --■jí- f— n--" n--'v :- " - w— - TH — I*= =•= =*= 31 ■a- ^- = 3: "ľľ1 — ZE ♦ * ZE Ů--1Ů _i l-S - is-aa n-as 1 ii-nS - VI- —J» --i ■4 n-F f — —-ir ■-. ■1 _ V- vr- i . r 71_ m- T T 17. _ 31 3, I ±: ■a - X X ZE I rn— o— n: 3: * i ■ e i: ... ii-ii l-i S-1Ů 1Ů-JŮ il-iS ■ 11-lS íi-iů 3D grafy • Mnoho typů Chernoffovy tváře (ikonové grafy) • Jednotlivé proměnné jsou zobrazeny jako rysy tváře • Patří mezi tzv. ikonové grafy • hodnoty znaků znázorněny jako geometrické útvary či symboly • každému objektu (subjektu) odpovídá jeden obrazec složený z těchto geometrických útvarů či symbolů • umožní vizuálně porovnat, které objekty (subjekty) jsou si podobné #1 írL-. #11 #2 #7 #12 #16 #17 #3 #8 #13 #18 #4 #9 #14 #19 #15 #20 ■ face/w = vek ear/lev = cel_cholesterol halfface/h = vaha ■ upface/ecc = sys_tlak ■ loface/ecc = dia tlak #1 #2 #3 #4 #6 #7 #8 #9 M #13 #14 #16 #17 Left to right vek cel chalesle-ral #13 #19 #6 V #11 #16 #17 #12 #13 #14 #15 #19 #2C #12 #13 #17 #18 #19 #20 C 0'-,k-,j- i* vek c el_c hole sterol s;s_1 s-i ::is_:lsí /BA 5 O Q. 3 4 5 6 7 8 9 10 25 50 oj 100 >u o 250 500 1000 t>0 Ido 0.67 0.40 0.50 0.50 0.43 0.13 0.33 0.90 0.52 0.58 I 0.51 0.50 0.53 0.50 0.50 Z praktického hlediska je pravděpodobnost idealizovaná relativní četnost ŕÄH Ä ň\i | Institut biostatistiky a analýz, PřF a LF MU P=0.5 Pravděpodobnost výskytu jevu - rozložení kategoriálních dat • existuje pravděpodobnost výskytu jevů (nedeterministické závěry) • „vše je možné": pouze jev s pravděpodobností 0 nikdy nenastane 0.35 0.30 I" 0.25 > g 0.20 -Q O -a 0.15 o Q_ >(1J "5 0.10 0.05 0.00 Výška sloupce = pravděpodobnost výskytu dané kategorie Suma sloupců = 1 (100% všech možností) 0.10 0.10 0.10 0.10 0.10 0.10 0.10 0.10 0.10 0.10 3 4 5 6 7 8 Zjištěné unikátní hodnoty na kostce 10 | Institut biostatistiky a analýz, PřF a LF MU Pravděpodobnost výskytu jevu - rozložení spojitých dat • existuje pravděpodobnost výskytu jevů (nedeterministické závěry) • „vše je možné": pouze jev s pravděpodobností 0 nikdy nenastane prumer w o .Q O T3 O Q_ > CO Q. ro o w ^ X nm. lim mm Plocha = pravděpodobnost výskytu Suma plochy = 1 (100% všech možností) mm mmmmmi mmmmmm. mmmmmmmi mmmmkmmmm MU smysluplnost? (koncentrace polutantu x nadmořská výška, krevní tlak, glykémie x počet srdcí, počet domů) ... více či méně dokonalým -> kvalita? (variabilita = informace + chyba) M_ /V$V\ Vťs /lIJI I Institut biostatistiky a analýz, PřF a LF MU iba W/ k^jj W Jak vznikají informace - různé typy dat znamenají různou informaci Data poměrová Data intervalová Data ordinální Data nominální Data binární Kolikrát ? O kolik? Větší, menší ? Rovná se ? data Kategoriální otázky Otázky „Ano/Ne" Podíl hodnot větší/menší než specifikovaná hodnota Procenta odvozené hodnoty Samotná znalost typu dat ale na dosažení informace nestačí - -; IUI 1 Institut biostatistiky a analýz, PřF a LF MU iba >-mf w w Typy dat a jejich informační hodnota • Statistika je užitečná v každé době © • I v době ledové Šaman sedí před jeskyní a přemýšlí: • Zima se blíží a je třeba udělat zásoby na zimu • Ale musím vymyslet jak správně popsat co jsme vlastně ulovili za zásoby • Nebo pomřeme hlady...... iba Institut biostatistiky a analýz, PřF a LF MU Cílová populace Vzorkujeme 3 kategorie sledované proměnné kořist Veverka Kořist Jelen Mamut «l m% m 4, iba I Institut biostatistiky a analýz, PřF a LF MU Binární data - chytili jsme něco? • Informačně nejméně obsáhlá jsou data binární Binární data - chytili jsme něco? • Informačně nejméně obsáhlá jsou data binární Hodnotíme dva možné stavy: Přinesl x nepřinesl kořist Jak můžeme popsat: n=10 Celkový počet lovů (báze hodnocení) /> /> /> s\ /x s\ s\ r\t /> /> Počet úlovků (absolutní četnost) n=7 Podíl úspěšných lovů (relativní četnost) nebo nejčetnější kategorie (modus) 7;ri\ ř IUI' iba W ^ W W I Institut biostatistiky a analýz, PřF a LF MU Frekvenční sumarizace - základní nástroj popisu dat: kvantitativní data Cílem sumarizace je zjednodušení dat do přehledné formy N = 100 pacientů s Hodnocenou proměnnou je koncentrace látky v krvi Nejjednodušší sumarizací je opět frekvenční tabulka Další možností je výpočet zástupných sumárních statistik (průměr, medián aj.) File Edit View Data Transform Analyze Direct Marke iĚ! y © fflj if- -a ilb^i 1 ^ Koncentrace | Koncentrace int 1 26,8 20,1 -40,0 2 60 0 40,1 - 60,0 3 25,6 20,1 - 40,0 4 31 3 20,1 - 4O.0 5 47,8 40,1 - 60.0 S 73,6 60 1 - 80 6 7 58 1 40,1 - 60,0 S 53 1 40 1 -60 0 9 39,0 20,1 - 40,0 10 26,5 20,1 - 40,0 11 32,1 20,1 - 40,0 12 41 8 40,1 - 60,0 13 60 3 60 1 - 80 6 14 68 4 86 1 - 100 6 1£ 32,0 20,1 40,0 16 61,1 60 1 - 80 6 17 33,6 20,1 - 40.0 18 99,7 86 1 - 100 6 19 £5,2 40,1 - 60,0 20 80 5 80.1 -100,0 21 27,2 20 1 -40 6 22 79,9 60 1 - 80 6 23 45,3 40,1 - 60,0 24 58,2 40,1 - 60,0 25 28 8 20 1 -40 6 26 69,3 60 1 - 80 6 27 27,3 20,1 - 40,0 28 95 1 86 1 - 100 6 29 30,6 20,1 - 40,0 30 31,5 20.1 - 40.0 31 28,7 20,1 - 40,0 Koncentrace intervaly Frequency Percent Valid Percent Cumulative Percent Valid 20,1 - 40,0 33 33,0 33,0 33,0 40,1 - 60,0 30 30,0 30,0 63,0 t 60,1 - 80,0 17 17,0 17,0 80,0 80,1 - 100,0 20 20,0 20,0 100,0 Total 100 100,0 100,0 Tabulka ukazuje unikátní hodnoty v datech Na rozdíl od kvalitativních dat je nezbytné pro smysluplnost výstupu stanovit v datech intervaly (o stejné nebo různé šířce) Frequency = počet hodnot v kategorii (absolutní četnost) Percent = procentuální zastoupení kategorie (relativní četnost) ValidjDercent = procentuální zastoupení kategorie (bez započtení chybějících hodnot) Cumulative percent = kumulativní procentuální zastoupení kategorií až po danou kategorii (kumulativní relativní četnost; obdobně existuje i kumulativní absolutní četnost) Institut biostatistiky a analýz, PřF a LF MU Vizualizace frekvenční tabulky kvantitativních dat • Základním nástrojem vizualizace spojitých dat založeným na frekvenční tabulce je histogram • Na rozdíl od sloupcového grafu představuje vizualizovanou hodnotu plocha sloupce, nikoliv jeho výška Histogram Sloupcový graf ro +-> O +-> to 20,1-40,0 40,1-60,0 60,1-80,0 80,1-100,0 Intervaly V\ lříW4« * Iftll | institut biostatistiky a analýz, PřF a LF MU iba ^ os 'u ro 20,1-40,0 40,1-60,0 60,1-80,0 80,1-100,0 Intervaly Histogram: vliv kategorizace dat • Počtem zvolených intervalů v histogramu rozhodujeme o tom, jak bude vypadat. Při malém počtu můžeme přehlédnout důležité prvky v datech, při velkém zase může být informace roztříštěna. "i M. 3 intervaly "i M. 5 intervalů 20 16 12 8 4 0 8.0 4.0 4.5 2.5 1.0 1-3 4-6 7-10 1-2 3-4 5-6 7-8 9-10 "i M. 10 intervalů 20 16 -12 - 8 - 6 6 4 - 2 0 1 1 1234567891 iba Institut biostatistiky a analýz, PřF a LF MU Histogram: vliv kategorizace dat • Výběr počtu kategorií-důležitý pro interpretaci • Ruční nebo automatický výběr - různé algoritmy (závisí na velikosti vzorku a variabilitě dat) Histogram: nástroj posouzení rozložení dat • Histogram reálných dat má vazbu na modelové rozdělení Proč je důležité vědět co je to skutečný histogram I Většina lidí uvažuje vizuálně - vizualizace dat je tak nesmírně důležitá pro první vjem a interpretaci dat Díky odlišné vizuální interpretaci histogramu a sloupcového grafu v případě použití různě širokých intervalů může být za některé situace použití sloupcového grafu zavádějící • V praxi se nicméně často používá namísto „pravého" histogramu sloupcový graf (i výrobci statistických SW) • V případě stejné šířky intervalů interpretační problém nevzniká (pn ruzne sirce intervalu vypínají SW některé volby = nastavení pro pokročilé uživatele) iba Institut biostatistiky a analýz, PřF a LF MU Příklad: věk účastníků vážných dopravních nehod • Analyzován byl věk účastníků vážných dopravních nehod v jedné londýnské čtvrti • Liší se interpretace dat vizualizovaných pomocí sloupcového grafu a histogramu? • Která interpretace Vám přijde smysluplnější a proč? Proč je důležité vědět co je to skutečný histogram II Plocha = pravděpodobnost výskytu • Statistické analýzy jsou postaveny na suma plochy = 1(100% všech možností) modelových rozděleních, které používáme ve výpočtech jako zástup naměřených dat (pokud reálná data odpovídají svým rozložením modelu, můžeme model využít ve výpočtech místo něj) • Modely popisují rozdělení hustoty pravděpodobnosti výskytu dané hodnoty = pravděpodobnost výskytu hodnot je dána plochou grafu • Rozložení = reálná data • Rozdělení = model iba Institut biostatistiky a analýz, PřF a LF MU Příklad: optimalizace skladových zásob oblečení • Představte si, že vlastníte obchod s oblečením a chcete optimalizovat skladové zásoby různých velikostí oblečení = potřebujete zjistit kolik % lidí v populaci potřebuje jaké oblečení • Jaké je rozdělení lidí v populaci co do velikosti? • Rovnoměrné, normální, lognormální ??? M XL XXL 4m^ m m mm mm TO SAVE TIME LETS JUST ASSUME THAT IM NEVER WRONG f i s IM) I lnstitut biostatistiky a analýz, PřF a LF MU Příklad: optimalizace skladových zásob oblečení Dá se předpokládat, že velikost lidí je rozložena normálně Pokud jsme schopni stanovit rozsahy hodnot pro různé velikosti oblečení, můžeme podíly skladových zásob odečíst z křivky normálního rozdělení Integrovat? Lze jednodušeji? Ä áft | Institut biostatistiky a analýz, PřF a LF MU STATI! iTICIAN XXL XL Velikost člověka relevantní k velikosti oblečení Normální rozdělení a jeho distribuční funkce K modelovým rozdělením existují jejich distribuční funkce Pro danou hodnotu rozdělení uvádějí plochu (=pravděpodobnost) pod křivkou do dané hodnoty Základní nástroj v řadě statistických výpočtů Kvantil modelového rozdělení: hodnota jíž odpovídá daná plocha pod křivkou rozdělení (např. 95% kvantil je hodnota proměnné pod níž leží 95% všech hodnot) Normální rozdělení Distribuční funkce normálního rozdělení /tťifY f iba 5