logo-IBA Vyučující: RNDr. Simona Littnerová Kontakt: littnerova@iba.muni.cz Pokročilé statistické metody – cvičení logo-IBA Základní popis a práce s daty v softwaru R Pokročilé statistické metody 1. cvičení logo-IBA Motivace —Současná statistická analýza se neobejde bez zpracování dat pomocí statistických software. Předpokladem úspěchu je správné uložení dat ve formě „databázové“ tabulky umožňující jejich zpracování v libovolné aplikaci. — —Neméně důležité je věnovat pozornost čištění dat předcházející vlastní analýze. Každá chyba, která vznikne nebo není nalezena ve fázi přípravy dat se promítne do všech dalších kroků a může zapříčinit neplatnost výsledků a nutnost opakování analýzy. logo-IBA Parametry (znaky) DATA – ukázka uspořádání datového souboru logo-IBA Typy proměnných —Kvalitativní (kategoriální) proměnná —lze ji řadit do kategorií, ale nelze ji kvantifikovat — Příklad: ?? — —Kvantitativní (numerická) proměnná —můžeme ji přiřadit číselnou hodnotu — Příklad: ?? — logo-IBA Typy proměnných —Kvalitativní (kategoriální) proměnná —lze ji řadit do kategorií, ale nelze ji kvantifikovat —Příklad: pohlaví, HIV status, barva vlasů ... — —Kvantitativní (numerická) proměnná —můžeme ji přiřadit číselnou hodnotu —Příklad: výška, váha, teplota, počet hospitalizací ... logo-IBA Kvalitativní znaky —Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost sledovaného znaku) a 0 (nepřítomnost sledovaného znaku). —Příklad: ?? — —Nominální znaky: několik kategorií (A, B, C), které nelze uspořádat. —Příklad: ?? — —Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je větší/menší (1<2<3). —Příklad: ?? — logo-IBA Kvalitativní znaky —Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost sledovaného znaku) a 0 (nepřítomnost sledovaného znaku). —Příklady: Diabetes (1-ano, 0-ne), Pohlaví (1-muž, 0-žena). — —Nominální znaky: několik kategorií (A, B, C), které nelze uspořádat. —Příklad: krevní skupiny (A/B/AB/0). — —Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je větší/menší (1<2<3). —Příklady: stupeň bolesti (mírná/střední/velká), stadium maligního onemocnění (I/II/III/IV). — logo-IBA Kvantitativní znaky —Intervalové znaky: interpretace rozdílu dvou hodnot (stejný interval mezi jednou a druhou dvojicí hodnot vyjadřuje i stejný rozdíl v intenzitě zkoumané vlastnosti). Společný znak intervalových znaků: nula byla stanovena uměle, tedy pouhou konvencí. Příklad: teplota měřená ve stupních Celsia, letopočet. — — — — — — —Poměrové znaky: kromě rozdílu interpretujeme i podíl dvou hodnot. — Příklady: výška v cm, váha v kg, ... Den Teplota Rozdíl Podíl 1. - 2 °C - - 3. 6 °C +8 -3x ? logo-IBA Různé typy dat znamenají různou informaci Kolikrát ? O kolik ? Větší, menší ? Rovná se ? Data poměrová Data intervalová Data ordinální Data nominální Spojitá data Diskrétní data * Spojitá data můžeme agregovat do kategorií. Ztratíme část informace Zjednodušíme si interpretaci výsledků Z vytvořených kategorií již nelze zrekonstruovat původní spojitou proměnnou * Pozor! I kvantitativní data mohou být diskrétního typu. Např.: počet dětí v rodině. • logo-IBA Popisné statistiky Charakteristiky polohy (míry střední hodnoty, míry centrální tendence) •Udávají, kolem jaké hodnoty se data centrují, resp. které hodnoty jsou nejčastější, popis „těžiště“ – míry polohy •Aritmetický průměr, medián, modus, geometrický průměr • Charakteristiky variability (proměnlivosti) •Zachycují rozptýlení hodnot v souboru (proměnlivost dat) •Variační rozpětí, rozptyl, směrodatná odchylka, variační koeficient, střední chyba průměru logo-IBA Popis kvalitativních dat —Koláčový graf Sloupcový graf —Popis kvalitativních dat: §procentuální zastoupení jednotlivých kategorií §U ordinálních znaků lze využít α-kvantil. —Vizualizace kvalitativních dat: nejčastěji koláčový nebo sloupcový graf. Frekvenční tabulka Známka n % A 11 18,0 B 20 32,8 C 16 26,2 D 9 14,8 E 5 8,2 F 0 0,0 Celkem 61 100,0 modus logo-IBA Popis kvantitativních dat – charakteristiky středu logo-IBA Průměr vs. medián —PAMATUJ: —Průměr je silně ovlivněn extrémními hodnotami (tzv. odlehlá pozorování), medián není ovlivněn vybočujícími pozorováními. —Průměr je vhodný ukazatel středu u normálního/symetrického rozložení, medián je vhodnou charakteristikou středu souboru i v případě veličin s neznámým rozdělením. —V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné, v případě asymetrického rozložení však nikoliv! — logo-IBA Popis kvantitativních dat – charakteristiky variability —Rozptyl (variance) je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru. — — Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení. —Směrodatná odchylka (SD – standard deviation) je druhá odmocnina z rozptylu. —Koeficient variance = podíl SD ku průměru, umožňuje porovnat variabilitu několika znaků (často se vyjadřuje v procentech – potom udává, z kolika procent se podílí směrodatná odchylka na aritmetickém průměru). —Kvartilové rozpětí (odchylka): q=x0,75-x0,25 , kde x0,25 = dolní kvartil, x0,75 = horní kvartil. —(xα je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl α všech dat a na horní úsek obsahující aspoň podíl 1-α všech dat.) — logo-IBA Ukázka vizualizace kvantitativních dat —Vizualizace kvantitativních dat: nejčastěji pomocí krabicového grafu nebo histogramu. —Histogram Krabicový graf maximum (100% kvantil) horní kvartil (75% kvantil) medián (50% kvantil) dolní kvartil (25% kvantil) minimum (0% kvantil) Příklad: Popis výšky (cm) Jsou data symetrická? Odlehlá hodnota? logo-IBA Ukázka popisu kvantitativních dat —Popis kvantitativních dat: charakteristika středu (průměr, medián aj.), charakteristika variability (rozptyl, rozsah hodnot, kvartilové rozpětí aj.). Popisné statistiky Příklad: Popis výšky (cm) pacientů Charakteristika N 61 Průměr (cm) 161,0 Medián (cm) 161,5 sm. odchylka (cm) 4,7 Rozptyl (cm2) 22,2 min-max (cm) 144,1-169,2 dolní-horní kvartil (cm) 158,1-164,2 Průměr a medián se téměř shodují. Co nám to říká? logo-IBA Software R / RStudio —Volně dostupný software (https://www.r-project.org/). —Pro pokročilé analýzy je nutné načíst balíček, kde jsou naprogramovány funkce. —Každý má možnost implementovat svůj balíček – R nezaručuje správnost kódu. —Nevidíme datovou tabulku – nutné kontrolovat provedení výpočtu. —R console – zápis skriptu + enter spustí skript (alternativou je vytvořit si R script, který umožní kompletní uchování syntaxu, který je spouštěn pomocí Ctrl+R). — — — — — — —Nápověda: help(funkce), ?funkce, http://rseek.org/, www.google.cz. — — R console R skript