logo-IBA Vyučující: Mgr. Lucie Brožová Kontakt: brozova@iba.muni.cz Bi8600: Vícerozměrné metody 1. cvičení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Průběh výuky —Obsahem cvičení je praktická aplikace pokročilých statistických metod ØZopakování jednorozměrné analýzy dat ØInvestigativní vícerozměrná analýza dat ØDiskriminační analýza —Předpoklady úspěšného ukončení cvičení ØÚčast na cvičení (povolena jedna absence) —Plán cvičení Ø9. 10. Opakování jednorozměrné analýzy dat Ø16. 10. Shluková analýza Ø13. 11. Metoda hlavních komponent (PCA) Ø20. 11. Ordinační metody (CA, NMDS) + diskriminační analýza • ¡ logo-IBA Základní popis a práce s daty v softwaru R Bi8600: Vícerozměrné metody 1. cvičení – 1. část Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Motivace —Současná statistická analýza se neobejde bez zpracování dat pomocí statistických software. Předpokladem úspěchu je správné uložení dat ve formě „databázové“ tabulky umožňující jejich zpracování v libovolné aplikaci. — —Neméně důležité je věnovat pozornost čištění dat předcházející vlastní analýze. Každá chyba, která vznikne nebo není nalezena ve fázi přípravy dat se promítne do všech dalších kroků a může zapříčinit neplatnost výsledků a nutnost opakování analýzy. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Parametry (znaky) DATA – ukázka uspořádání datového souboru Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Typy proměnných —Kvalitativní (kategoriální) proměnná —lze ji řadit do kategorií, ale nelze ji kvantifikovat — Příklad: ?? — —Kvantitativní (numerická) proměnná —můžeme ji přiřadit číselnou hodnotu — Příklad: ?? — Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Typy proměnných —Kvalitativní (kategoriální) proměnná —lze ji řadit do kategorií, ale nelze ji kvantifikovat —Příklad: pohlaví, HIV status, barva vlasů ... — —Kvantitativní (numerická) proměnná —můžeme ji přiřadit číselnou hodnotu —Příklad: výška, váha, teplota, počet hospitalizací ... Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Kvalitativní znaky —Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost sledovaného znaku) a 0 (nepřítomnost sledovaného znaku). —Příklad: ?? — —Nominální znaky: několik kategorií (A, B, C), které nelze uspořádat. —Příklad: ?? — —Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je větší/menší (1<2<3). —Příklad: ?? — Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Kvalitativní znaky —Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost sledovaného znaku) a 0 (nepřítomnost sledovaného znaku). —Příklady: Diabetes (1-ano, 0-ne), Pohlaví (1-muž, 0-žena). — —Nominální znaky: několik kategorií (A, B, C), které nelze uspořádat. —Příklad: krevní skupiny (A/B/AB/0). — —Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je větší/menší (1<2<3). —Příklady: stupeň bolesti (mírná/střední/velká), stadium maligního onemocnění (I/II/III/IV). — Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Kvantitativní znaky —Intervalové znaky: interpretace rozdílu dvou hodnot (stejný interval mezi jednou a druhou dvojicí hodnot vyjadřuje i stejný rozdíl v intenzitě zkoumané vlastnosti). Společný znak intervalových znaků: nula byla stanovena uměle, tedy pouhou konvencí. Příklad: teplota měřená ve stupních Celsia, letopočet. — — — — — — —Poměrové znaky: kromě rozdílu interpretujeme i podíl dvou hodnot. — Příklady: výška v cm, váha v kg, ... Den Teplota Rozdíl Podíl 1. - 2 °C - - 3. 6 °C +8 -3x ? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Různé typy dat znamenají různou informaci Kolikrát ? O kolik ? Větší, menší ? Rovná se ? •Data poměrová • • •Data intervalová • • •Data ordinální • • •Data nominální Spojitá data Diskrétní data * Spojitá data můžeme agregovat do kategorií. Ztratíme část informace Zjednodušíme si interpretaci výsledků Z vytvořených kategorií již nelze zrekonstruovat původní spojitou proměnnou * Pozor! I kvantitativní data mohou být diskrétního typu. Např.: počet dětí v rodině. • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Popisné statistiky Charakteristiky polohy (míry střední hodnoty, míry centrální tendence) •Udávají, kolem jaké hodnoty se data centrují, resp. které hodnoty jsou nejčastější, popis „těžiště“ – míry polohy •Aritmetický průměr, medián, modus, geometrický průměr • Charakteristiky variability (proměnlivosti) •Zachycují rozptýlení hodnot v souboru (proměnlivost dat) •Variační rozpětí, rozptyl, směrodatná odchylka, variační koeficient, střední chyba průměru Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Popis kvalitativních dat —Koláčový graf •Sloupcový graf —Popis kvalitativních dat: §procentuální zastoupení jednotlivých kategorií §U ordinálních znaků lze využít α-kvantil. —Vizualizace kvalitativních dat: nejčastěji koláčový nebo sloupcový graf. •Frekvenční tabulka Známka n % A 11 18,0 B 20 32,8 C 16 26,2 D 9 14,8 E 5 8,2 F 0 0,0 Celkem 61 100,0 modus Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Popis kvantitativních dat – charakteristiky středu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Průměr vs. medián —PAMATUJ: —Průměr je silně ovlivněn extrémními hodnotami (tzv. odlehlá pozorování), medián není ovlivněn vybočujícími pozorováními. —Průměr je vhodný ukazatel středu u normálního/symetrického rozložení, medián je vhodnou charakteristikou středu souboru i v případě veličin s neznámým rozdělením. —V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné, v případě asymetrického rozložení však nikoliv! — • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Popis kvantitativních dat – charakteristiky variability —Rozptyl (variance) je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru. — — Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení. —Směrodatná odchylka (SD – standard deviation) je druhá odmocnina z rozptylu. —Koeficient variance = podíl SD ku průměru, umožňuje porovnat variabilitu několika znaků (často se vyjadřuje v procentech – potom udává, z kolika procent se podílí směrodatná odchylka na aritmetickém průměru). —Kvartilové rozpětí (odchylka): —q = x0,75-x0,25 , kde x0,25 = dolní kvartil, x0,75 = horní kvartil. —(xα je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl α všech dat a na horní úsek obsahující aspoň podíl 1-α všech dat.) — • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Ukázka vizualizace kvantitativních dat —Vizualizace kvantitativních dat: nejčastěji pomocí krabicového grafu nebo histogramu. —Histogram •Krabicový graf maximum (100% kvantil) horní kvartil (75% kvantil) medián (50% kvantil) dolní kvartil (25% kvantil) minimum (0% kvantil) Příklad: Popis výšky (cm) Jsou data symetrická? Odlehlá hodnota? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Ukázka popisu kvantitativních dat —Popis kvantitativních dat: charakteristika středu (průměr, medián aj.), charakteristika variability (rozptyl, rozsah hodnot, kvartilové rozpětí aj.). •Popisné statistiky Příklad: Popis výšky (cm) pacientů Charakteristika N 61 Průměr (cm) 161,0 Medián (cm) 161,5 sm. odchylka (cm) 4,7 Rozptyl (cm2) 22,2 min-max (cm) 144,1-169,2 dolní-horní kvartil (cm) 158,1-164,2 Průměr a medián se téměř shodují. Co nám to říká? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Software R / RStudio —Volně dostupný software (https://www.r-project.org/). —Pro pokročilé analýzy je nutné načíst balíček, kde jsou naprogramovány funkce. —Každý má možnost implementovat svůj balíček – R nezaručuje správnost kódu. —Nevidíme datovou tabulku – nutné kontrolovat provedení výpočtu. —R console – zápis skriptu + enter spustí skript (alternativou je vytvořit si R script, který umožní kompletní uchování syntaxu, který je spouštěn pomocí Ctrl+R). — — — — — — —Nápověda: help(funkce), ?funkce, http://rseek.org/, www.google.cz. — — • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová R console R skript logo-IBA Základy testování hypotéz Přehled a aplikace statistických testů Bi8600: Vícerozměrné metody 1. cvičení – 2. část Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Hypotéza Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Příklad H0 HA Změní aplikace hnojiva proces růstu rostlin? nezmění změní Je průměrný plat populace 20 000? µ = 20 000,- µ ≠ 20 000,- Liší se úspěšnost u zkoušky mezi muži a ženami? úspěšnost je stejná úspěšnost se liší Došlo po absolvování diety ke změně tělesné váhy? váha se po dietě nezměnila váha se po dietě změnila http://3.bp.blogspot.com/-gFJYEE2N1ys/V__MFZf4nSI/AAAAAAAADz8/bO3T-g4Inls5nlx26a_iR8x5_LpzdHAnwCK4B /s1600/Alternative%2Bvs%2BNull%2BHypothesis.jpg http://3.bp.blogspot.com/-gFJYEE2N1ys/V__MFZf4nSI/AAAAAAAADz8/bO3T-g4Inls5nlx26a_iR8x5_LpzdHAnwCK4B /s1600/Alternative%2Bvs%2BNull%2BHypothesis.jpg Nulová hypotéza HO Alternativní hypotéza HA •Pozorovaný efekt je nulový. •Cílem je zamítnout platnost H0 a přijmout platnost HA. •Pozorovaný efekt není nulový (existuje rozdíl mezi skupinami). •Vyvrací platnost H0. •Tvrzení, které chceme dokázat. logo-IBA Hypotéza Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Hypotéza Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Statistická významnost Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Informace z dat je kvantifikována pomocí testové statistiky (variabilita dat, efekt = rozdíl mezi skupinami, velikost souboru). •Otázka: Je hodnota testové statistiky dostatečně extrémní, abychom mohli usoudit, že pozorovaný rozdíl není pouze důsledkem náhody? •P-hodnota vyjadřuje pravděpodobnost, že testová statistika nabyde stejné nebo extrémnější hodnoty za předpokladu, že nulová hypotéza platí = cílem je dosáhnout co nejnižší p-hodnoty, jelikož tak minimalizujeme pravděpodobnost, že jsme chybně zamítli H0, která ve skutečnosti platí. •P-hodnotu porovnáme s α (hladina významnosti). Nejčastěji volíme α =0,05, tzn., že připouštíme 5% chybu testu, tedy, že zamítneme H0, i když ve skutečnosti platí). • • ØJe-li p-hodnota ≤ α, zamítáme H0 na hladině významnosti α a přijímáme platnost HA. ØJe-li p-hodnota > α, pak H0 nezamítáme na hladině významnosti α (nepřipouštíme platnost H0). •Malá p-hodnota nemusí znamenat velký efekt. Hodnota testové statistiky a p-hodnota mohou být ovlivněny velkou velikostí vzorku a malou variabilitou pozorovaných dat. •Statistická významnost indikuje, že pozorovaný rozdíl není náhodný, ale nemusí znamenat, že je významný i ve skutečnosti. Důležitá je i praktická (klinická) významnost. logo-IBA Možné chyby při testování hypotéz Závěr testu Hypotézu nezamítáme Hypotézu zamítáme β 1-β 1-α α —I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při rozhodnutí o zamítnutí/nezamítnutí nulové hypotézy dopustit chyby. Správné rozhodnutí Správné rozhodnutí = síla testu schopnost rozpoznat neplatnost hypotézy Chyba II. druhu Pravděpodobnost nerozpoznání neplatné nulové hypotézy Chyba I. druhu Pravděpodobnost nesprávného zamítnutí nulové hypotézy, hladina významnosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Možné chyby při testování hypotéz Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Jednostranné testy (one-tailed) Oboustranné testy (two-tailed) •Hypotéza testu je postavena asymetricky, tedy ptáme se na větší než / menší. • • •HA testuje pouze jeden směr asociace. •Jednodušší zamítnout H0. •Např.: H0: váha se po dietě nezměnila/vzrostla H1: váha se po dietě snížila •Hypotéza testu se ptá na otázku rovná se / nerovná se. •HA testuje oba směry asociace. •Obtížněji dosáhneme statistické významnosti. H0: HA: H0: HA: H0: HA: Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová One-tailed vs. two-tailed testy logo-IBA Parametrické vs. neparametrické testy Parametrické testy Neparametrické testy •Mají předpoklady o rozložení vstupujících dat (např. normální rozložení). •Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy neparametrické. •Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich síla testu prudce klesá a výsledek testu může být zcela chybný a nesmyslný. •Vyžadují méně předpokladů o rozložení vstupujících dat, lze je tedy použít i při asymetrickém rozložení, odlehlých hodnotách. •Snížená síla těchto testů je způsobena redukcí informační hodnoty původních dat, kdy neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí. •Souvisí s malou velikostí souboru (nejsme schopni normalitu dat ověřit). Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Základní rozhodování o výběru statistických testů Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýběrový t-test Párový t-test Dvouvýběrový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Wilcoxonův / znaménkový test Wilcoxonův / znaménkový test Mannův-Whitneyho / mediánový t. Kruskalův-Wallisův test / mediánový t. Jednovýběrový binomický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová