logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy popisné statistiky logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace —Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod - od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené. —Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací – histogramů. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Typy proměnných —Kvalitativní (kategoriální) proměnná —lze ji řadit do kategorií, ale nelze ji kvantifikovat —Příklady: pohlaví, HIV status….. — —Kvantitativní (numerická) proměnná —můžeme ji přiřadit číselnou hodnotu —Příklady: výška, počet hospitalizací…. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kvalitativní znaky —Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost sledovaného znaku) a 0 (nepřítomnost sledovaného znaku) — Příklady: Diabetes (1-ano, 0-ne) — Pohlaví (1-muž, 0-žena) — —Nominální znaky: několik kategorií (A,B,C), které nelze uspořádat — Příklad: krevní skupiny (A/B/AB/0) — —Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je větší/menší (1<2<3) — Příklady: stupeň bolesti (mírná/střední/velká) — stadium maligního onemocnění (I/II/III/IV) — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kvantitativní znaky —Intervalové znaky: interpretace rozdílu dvou hodnot (stejný interval mezi jednou a druhou dvojicí hodnot vyjadřuje i stejný rozdíl v intenzitě zkoumané vlastnosti). Společný znak intervalových znaků: nula byla stanovena uměle, tedy pouhou konvencí. — Příklad: teplota měřená ve stupních… — —Poměrové znaky: kromě rozdílu interpretujeme i podíl dvou hodnot — Příklady: výška v cm, váha v kg.. — —Někdy je výhodné kvantitativní data agregovat do kategorií (např. věk do 10ti -letých věkových skupin)- tímto krokem však ztrácíme část informace. — — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Zobrazení kvalitativních dat: koláčový graf kolacovy graf.jpg ženy muži počet % ženy 15 41,7% muži 21 58,3% logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Zobrazení kvantitativních dat: histogram k = 10 tříd k = 5 tříd 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 1 2 3 4 5 Histogram vyjadřuje tvar výběrového rozložení f(x) f(x) logo-IBA Popisné statistiky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Charakteristiky polohy (míry střední hodnoty, míry centrální tendence) •Udávají, kolem jaké hodnoty se data centrují, resp. které hodnoty jsou nejčastější •Aritmetický průměr, medián, modus, geometrický průměr • Charakteristiky variability (proměnlivosti) •Zachycují rozptýlení hodnot v souboru (proměnlivost dat) •Variační rozpětí, rozptyl, směrodatná odchylka, variační koeficient, střední chyba průměru logo-IBA Nominální znaky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Charakteristika polohy —Modus: nejčastěji se vyskytující hodnota proměnné v souboru (hodnota s největší četností). V tabulce rozdělení četností se modus určí jednoduše z hodnoty znaku s největší četností. logo-IBA Ordinální znaky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Charakteristika polohy —α-kvantil: je-li α Є (0,1), pak α-kvantil xα je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl α všech dat a na horní úsek obsahující aspoň podíl 1-α všech dat. —Pro speciálně zvolená α užíváme názvů: x0,50- medián, x0,25- dolní kvartil, x0,75-horní kvartil, x0,1…. x0,9-decily —Medián znamená hodnotu, jež dělí řadu podle velikosti seřazených výsledků na dvě stejně početné poloviny. Jestliže n je sudé číslo, pak Jestliže n je liché číslo, pak logo-IBA Intervalové a poměrové znaky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Charakteristika polohy —Aritmetický průměr: je definován jako součet všech naměřených údajů vydělený jejich počtem, kde xi jsou jednotlivé hodnoty a n jejich počet — • — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Průměr vs medián —PAMATUJ: —Průměr je silně ovlivněn extrémními hodnotami (tzv. odlehlá pozorování) , medián není ovlivněn vybočujícími pozorováními —Průměr je vhodný ukazatel středu u normálního/symetrického rozložení, medián je vhodnou charakteristikou středu souboru i v případě veličin s neznámým rozdělením —V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné, v případě asymetrického rozložení však nikoliv! — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Intervalové a poměrové znaky —Charakteristiky variability —Rozptyl (variance) je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru — — Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení —Směrodatná odchylka(SD-standard deviation) je druhá odmocnina z rozptylu logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Další parametry rozložení —Počet hodnot – důležitý ukazatel, znamená jak moc lze na data spoléhat —Suma hodnot —Minimum, maximum —Variační rozpětí – rozdíl mezi největší a nejmenší hodnotou řady —Střední chyba průměru (SE)-měří rozptýlenost vypočítaného aritmetického průměru v různých výběrových souborech vybraných z jednoho základního souboru.