logo-IBA •Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy popisné statistiky logo-IBA •Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Anotace —Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod - od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené. —Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací – histogramů. logo-IBA •Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Typy proměnných —Kvalitativní (kategoriální) proměnná —lze ji řadit do kategorií, ale nelze ji kvantifikovat —Příklady: pohlaví, HIV status….. — —Kvantitativní (numerická) proměnná —můžeme ji přiřadit číselnou hodnotu —Příklady: výška, počet hospitalizací…. logo-IBA •Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Kvalitativní znaky —Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost sledovaného znaku) a 0 (nepřítomnost sledovaného znaku) — Příklady: Diabetes (1-ano, 0-ne) — Pohlaví (1-muž, 0-žena) — —Nominální znaky: několik kategorií (A,B,C), které nelze uspořádat — Příklad: krevní skupiny (A/B/AB/0) — —Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je větší/menší (1<2<3) — Příklady: stupeň bolesti (mírná/střední/velká) — stadium maligního onemocnění (I/II/III/IV) — logo-IBA •Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Kvantitativní znaky —Intervalové znaky: interpretace rozdílu dvou hodnot (stejný interval mezi jednou a druhou dvojicí hodnot vyjadřuje i stejný rozdíl v intenzitě zkoumané vlastnosti). Společný znak intervalových znaků: nula byla stanovena uměle, tedy pouhou konvencí. — Příklad: teplota měřená ve stupních… — —Poměrové znaky: kromě rozdílu interpretujeme i podíl dvou hodnot — Příklady: výška v cm, váha v kg.. — —Někdy je výhodné kvantitativní data agregovat do kategorií (např. věk do 10ti -letých věkových skupin)- tímto krokem však ztrácíme část informace. — — logo-IBA •Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Zobrazení kvalitativních dat: koláčový graf kolacovy graf.jpg • • • •ženy • •muži počet % ženy 15 42 % muži 21 58 % logo-IBA •Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Zobrazení kvantitativních dat: histogram •k = 10 tříd •k = 5 tříd • 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 • 1 2 3 4 5 •Histogram vyjadřuje tvar výběrového rozložení •f(x) •f(x) logo-IBA Popisné statistiky •Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Charakteristiky polohy (míry střední hodnoty, míry centrální tendence) •Udávají, kolem jaké hodnoty se data centrují, resp. které hodnoty jsou nejčastější •Aritmetický průměr, medián, modus, geometrický průměr • Charakteristiky variability (proměnlivosti) •Zachycují rozptýlení hodnot v souboru (proměnlivost dat) •Variační rozpětí, rozptyl, směrodatná odchylka, variační koeficient, střední chyba průměru logo-IBA Nominální znaky •Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Charakteristika polohy —Modus: nejčastěji se vyskytující hodnota proměnné v souboru (hodnota s největší četností). V tabulce rozdělení četností se modus určí jednoduše z hodnoty znaku s největší četností. logo-IBA Ordinální znaky •Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • •Charakteristika polohy —α-kvantil: je-li α Є (0,1), pak α-kvantil xα je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl α všech dat a na horní úsek obsahující aspoň podíl 1-α všech dat. —Pro speciálně zvolená α užíváme názvů: • x0,50- medián, x0,25- dolní kvartil, x0,75-horní kvartil, x0,1…. x0,9-decily —Medián znamená hodnotu, jež dělí řadu podle velikosti seřazených výsledků na dvě stejně početné poloviny. Jestliže n je sudé číslo, pak • Jestliže n je liché číslo, pak • • • • logo-IBA Intervalové a poměrové znaky •Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Charakteristika polohy —Aritmetický průměr: je definován jako součet všech naměřených údajů vydělený jejich počtem, kde xi jsou jednotlivé hodnoty a n jejich počet — • — logo-IBA •Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Průměr vs medián —PAMATUJ: —Průměr je silně ovlivněn extrémními hodnotami (tzv. odlehlá pozorování) , medián není ovlivněn vybočujícími pozorováními —Průměr je vhodný ukazatel středu u normálního/symetrického rozložení, medián je vhodnou charakteristikou středu souboru i v případě veličin s neznámým rozdělením —V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné, v případě asymetrického rozložení však nikoliv! — • logo-IBA •Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Intervalové a poměrové znaky —Charakteristiky variability —Rozptyl (variance) je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru — — Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení —Směrodatná odchylka(SD-standard deviation) je druhá odmocnina z rozptylu • logo-IBA •Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Další parametry rozložení —Počet hodnot – důležitý ukazatel, znamená jak moc lze na data spoléhat —Suma hodnot —Minimum, maximum —Variační rozpětí – rozdíl mezi největší a nejmenší hodnotou řady —Střední chyba průměru (SE)-měří rozptýlenost vypočítaného aritmetického průměru v různých výběrových souborech vybraných z jednoho základního souboru.