logo-IBA Vyučující: Mgr. Lucie Brožová Kontakt: brozova@iba.muni.cz Bi8600: Vícerozměrné metody 1. cvičení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Průběh výuky —Obsahem cvičení je praktická aplikace pokročilých statistických metod ØZopakování jednorozměrné analýzy dat ØInvestigativní vícerozměrná analýza dat ØDiskriminační analýza —Předpoklady úspěšného ukončení cvičení ØÚčast na cvičení (povolena jedna absence) —Plán cvičení Ø30. 9. Opakování jednorozměrné analýzy dat Termíny dalších 5 cvičení budou stanoveny v průběhu tohoto týdne. logo-IBA Základní popis a práce s daty v softwaru R Bi8600: Vícerozměrné metody 1. cvičení – 1. část Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Motivace —Současná statistická analýza se neobejde bez zpracování dat pomocí statistických software. Předpokladem úspěchu je správné uložení dat ve formě „databázové“ tabulky umožňující jejich zpracování v libovolné aplikaci. — —Neméně důležité je věnovat pozornost čištění dat předcházející vlastní analýze. Každá chyba, která vznikne nebo není nalezena ve fázi přípravy dat se promítne do všech dalších kroků a může zapříčinit neplatnost výsledků a nutnost opakování analýzy. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Parametry (znaky) DATA – ukázka uspořádání datového souboru Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Typy proměnných —Kvalitativní (kategoriální) proměnná —lze ji řadit do kategorií, ale nelze ji kvantifikovat — Příklad: ?? — —Kvantitativní (numerická) proměnná —můžeme ji přiřadit číselnou hodnotu — Příklad: ?? — Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Typy proměnných —Kvalitativní (kategoriální) proměnná —lze ji řadit do kategorií, ale nelze ji kvantifikovat —Příklad: pohlaví, HIV status, barva vlasů ... — —Kvantitativní (numerická) proměnná —můžeme ji přiřadit číselnou hodnotu —Příklad: výška, váha, teplota, počet hospitalizací ... Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Kvalitativní znaky —Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost sledovaného znaku) a 0 (nepřítomnost sledovaného znaku). —Příklad: ?? — —Nominální znaky: několik kategorií (A, B, C), které nelze uspořádat. —Příklad: ?? — —Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je větší/menší (1<2<3). —Příklad: ?? — Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Kvalitativní znaky —Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost sledovaného znaku) a 0 (nepřítomnost sledovaného znaku). —Příklady: Diabetes (1-ano, 0-ne), Pohlaví (1-muž, 0-žena). — —Nominální znaky: několik kategorií (A, B, C), které nelze uspořádat. —Příklad: krevní skupiny (A/B/AB/0). — —Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je větší/menší (1<2<3). —Příklady: stupeň bolesti (mírná/střední/velká), stadium maligního onemocnění (I/II/III/IV). — Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Kvantitativní znaky —Intervalové znaky: interpretace rozdílu dvou hodnot (stejný interval mezi jednou a druhou dvojicí hodnot vyjadřuje i stejný rozdíl v intenzitě zkoumané vlastnosti). Společný znak intervalových znaků: nula byla stanovena uměle, tedy pouhou konvencí. Příklad: teplota měřená ve stupních Celsia, letopočet. — — — — — — —Poměrové znaky: kromě rozdílu interpretujeme i podíl dvou hodnot. — Příklady: výška v cm, váha v kg, ... Den Teplota Rozdíl Podíl 1. - 2 °C - - 3. 6 °C +8 -3x ? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Různé typy dat znamenají různou informaci Kolikrát ? O kolik ? Větší, menší ? Rovná se ? Data poměrová Data intervalová Data ordinální Data nominální Spojitá data Diskrétní data * Spojitá data můžeme agregovat do kategorií. Ztratíme část informace Zjednodušíme si interpretaci výsledků Z vytvořených kategorií již nelze zrekonstruovat původní spojitou proměnnou * Pozor! I kvantitativní data mohou být diskrétního typu. Např.: počet dětí v rodině. • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Popisné statistiky Charakteristiky polohy (míry střední hodnoty, míry centrální tendence) •Udávají, kolem jaké hodnoty se data centrují, resp. které hodnoty jsou nejčastější, popis „těžiště“ – míry polohy •Aritmetický průměr, medián, modus, geometrický průměr • Charakteristiky variability (proměnlivosti) •Zachycují rozptýlení hodnot v souboru (proměnlivost dat) •Variační rozpětí, rozptyl, směrodatná odchylka, variační koeficient, střední chyba průměru Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Popis kvalitativních dat —Koláčový graf Sloupcový graf —Popis kvalitativních dat: §procentuální zastoupení jednotlivých kategorií §U ordinálních znaků lze využít α-kvantil. —Vizualizace kvalitativních dat: nejčastěji koláčový nebo sloupcový graf. Frekvenční tabulka Známka n % A 11 18,0 B 20 32,8 C 16 26,2 D 9 14,8 E 5 8,2 F 0 0,0 Celkem 61 100,0 modus Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Průměr vs. medián —PAMATUJ: —Průměr je silně ovlivněn extrémními hodnotami (tzv. odlehlá pozorování), medián není ovlivněn vybočujícími pozorováními. —Průměr je vhodný ukazatel středu u normálního/symetrického rozložení, medián je vhodnou charakteristikou středu souboru i v případě veličin s neznámým rozdělením. —V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné, v případě asymetrického rozložení však nikoliv! — Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Popis kvantitativních dat – charakteristiky variability —Rozptyl (variance) je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru. — — Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení. —Směrodatná odchylka (SD – standard deviation) je druhá odmocnina z rozptylu. —Koeficient variance = podíl SD ku průměru, umožňuje porovnat variabilitu několika znaků (často se vyjadřuje v procentech – potom udává, z kolika procent se podílí směrodatná odchylka na aritmetickém průměru). —Kvartilové rozpětí (odchylka): —q = x0,75-x0,25 , kde x0,25 = dolní kvartil, x0,75 = horní kvartil. —(xα je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl α všech dat a na horní úsek obsahující aspoň podíl 1-α všech dat.) — Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Ukázka vizualizace kvantitativních dat —Vizualizace kvantitativních dat: nejčastěji pomocí krabicového grafu nebo histogramu. —Histogram Krabicový graf maximum (100% kvantil) horní kvartil (75% kvantil) medián (50% kvantil) dolní kvartil (25% kvantil) minimum (0% kvantil) Příklad: Popis výšky (cm) Jsou data symetrická? Odlehlá hodnota? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Ukázka popisu kvantitativních dat —Popis kvantitativních dat: charakteristika středu (průměr, medián aj.), charakteristika variability (rozptyl, rozsah hodnot, kvartilové rozpětí aj.). Popisné statistiky Příklad: Popis výšky (cm) pacientů Charakteristika N 61 Průměr (cm) 161,0 Medián (cm) 161,5 sm. odchylka (cm) 4,7 Rozptyl (cm2) 22,2 min-max (cm) 144,1-169,2 dolní-horní kvartil (cm) 158,1-164,2 Průměr a medián se téměř shodují. Co nám to říká? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Software R / RStudio —Volně dostupný software (https://www.r-project.org/). —Pro pokročilé analýzy je nutné načíst balíček, kde jsou naprogramovány funkce. —Každý má možnost implementovat svůj balíček – R nezaručuje správnost kódu. —Nevidíme datovou tabulku – nutné kontrolovat provedení výpočtu. —R console – zápis skriptu + enter spustí skript (alternativou je vytvořit si R script, který umožní kompletní uchování syntaxu, který je spouštěn pomocí Ctrl+R). — — — — — — —Nápověda: help(funkce), ?funkce, http://rseek.org/, www.google.cz. — — Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová R console R skript