logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Popisné statistiky dat Vizualizace dat VII. Popisná statistika dat logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace —Popisná analýza dat je po vizualizaci dat dalším krokem v procesu statistického hodnocení. Poskytuje představu o rozsazích hodnocených dat a umožňuje vyhodnotit, srovnámí s literárními údaji nebo dosavadní zkušeností, jejich realističnost. —Již při výběru vhodné popisné statistiky se uplatňuje znalost rozložení dat. Některé popisné statistiky, odvozené od modelových rozložení, je možné využít pouze v případě, že data mají dané modelové rozložení. Typickým příkladem je průměr a směrodatná odchylka, jejichž předpokladem je přítomnost normálního rozložení. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Typy proměnných —Kvalitativní/kategorická ¡ binární - ano/ne ¡ nominální - A,B,C … několik kategorií ¡ ordinální - 1<2<3 …několik kategorií a můžeme se ptát, která je větší —Kvantitativní ¡nespojitá – čísla, která však nemohou nabývat všech hodnot (např. počet porodů) ¡spojitá – teoreticky jsou možné všechny hodnoty (např. krevní tlak) — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Řada dat a její vlastnosti logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Frekvenční rozložení Kategorie Četnost B 5 C 8 D 1 Kvalitativní data Tabulka s četností jednotlivých kategorií. Kvantitativní data Četnost hodnot rozložení v jednotlivých intervalech. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametry rozložení —Soubor dat (řada čísel) můžeme charakterizovat parametry jeho rozložení —Hlavní skupiny těchto parametrů můžeme charakterizovat jako ukazatele: ¡Středu (medián, průměr, geometrický průměr) ¡Šířky rozložení (rozsah hodnot, rozptyl, směrodatná odchylka) ¡Tvaru rozložení (skewness, kurtosis) ¡Kvantily rozložení – kolik % řady dat leží nad a pod kvantilem — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Populace a vzorek —Populace představuje veškeré možné objekty vzorkování, např. veškeré obyvatelstvo ČR při sledování na úrovni ČR, z populace získáme reálné parametry rozložení —Z populace je prováděno vzorkování za účelem získání reprezentativního vzorku (sample) populace, toto vzorkování by mělo být náhodné, důležitá je také velikost vzorku, ze vzorku získáme odhady parametrů rozložení logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele středu rozložení I —Průměr – vhodný ukazatel středu u normálního/symetrického rozložení, kde xi jsou jednotlivé hodnoty a n jejich počet — — —Medián – jde vlastně o 50% kvantil, tj. polovina hodnot leží nad a polovina pod mediánem — —V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele středu rozložení II. log Medián, geometrický průměr Průměr Průměr (logaritmovaných dat) —Geometrický průměr – antilogaritmus průměru logaritmovaných dat, je vhodný pro doleva asymetrická data (lognormální rozložení), která jsou v biologii velmi častá, jeho hodnota v podstatě odpovídá mediánu —Takto asymetrická data je možné převést logaritmickou transformací na normální rozložení logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele šířky rozložení —Rozptyl je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru. — —Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení — —Směrodatná odchylka je druhá odmocnina z rozptylu — —Koeficient variance - podíl SD ku průměru (u normálního rozložení by se 95% hodnot mělo vejít do průměr ±3 SD), pokud je SD větší než 1/3 průměru jsou teoreticky pravděpodobné záporné hodnoty v rozložení – ukazatel problémů s normalitou dat logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele tvaru rozložení —Skewness – ukazatel „šikmosti“ rozložení, asymetrie rozložení —Kurtosis – ukazatel „špičatosti/plochosti“ rozložení logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Další parametry rozložení —Počet hodnot – důležitý ukazatel, znamená jak moc lze na data spoléhat —Střední chyba odhadu průměru - je založena na směrodatné odchylce rozložení a počtu hodnot, vlastně jde o směrodatnou odchylku rozložení průměru. Říká jak přesný je náš výpočet průměru. Čím větší počet hodnot rozložení, tím je náš odhad skutečného průměru přesnější. —Suma hodnot —Modus – nejčastější hodnota, vhodný např. při kategoriálních datech —Minimum, maximum —Rozsah hodnot —Harmonický průměr - převrácená hodnota průměru převrácených hodnot (vždy platí harmonický průměr < geometrický průměr < aritmetický průměr) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Bodové a intervalové odhady Význam intervalu spolehlivosti VIII. Provádění odhadů logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace —Dva základní přístupy statistického hodnocení jsou popis dat a testování hypotéz. Při popisu dat je třeba si uvědomit, že popisné statistiky získané ze vzorku nejsou skutečnou hodnotou v cílové populaci, ale pouze jejím odhadem. Přesnost odhadu závisí jednak na variabilitě dat, jednak na velikosti vzorku, při navzorkování celé cílové populace by výsledná popisná statistika již byla přesnou hodnotou, nikoliv odhadem. —Odhady a s nimy související intervaly spolehlivosti jsou univerzálním statistickým postupem a je možné je dopočítat k libovolné popisné statistice. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistika v průzkumném studiu Provádění odhadů Testy hypotéz Cílová populace Vzorek Ověření Výsledek POPIS OTÁZKY Závěr ? Interpretace Závěr ? Reprezentativnost ? logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek INTERVAL SPOLEHLIVOSTI velmi užitečná míra věrohodnosti odhadů P (L1 < Odhad < L2) ł 1 - a/2 Obecný tvar: Odhadovaný parametr Kvantil modelového rozložení ± × KV pro (1 - a/2) Intervalové ODHADY Interval pravděpodobných hodnot Spolehlivost Bodové Číslo (chyba) (Odhad parametru) (Pravděpodobnostní interpretace) SE (odhadu) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek NORMÁLNÍ ROZLOŽENÍ: model pro odhad průměru Cílová populace Vzorek: n j(x) X µ X ...... odhad průměru n;`x; s n;`x; s n n;`x; c n;`x; Interval spolehlivosti pro odhad průměru Prezentace logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek NORMÁLNÍ ROZLOŽENÍ: odhad průměru je rovněž normálně rozložen `X Náhodné výběry o n = 100 Cílová populace X: j(x) X µ `X1 `X2 `X3 `X4 .... `Xi µ µ ± 3 . s n s n ~ Standardní chyba odhadu průměru znak x x: m ± 3s průměr x logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ODHAD PRŮMĚRU: Vztahy • Bodový Intervalový t ... příslušný kvantil Studentova rozložení 1 - a ... spolehlivost hodnoceného intervalu logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Interval spolehlivosti odhadu průměru je pouze informací o přesnosti tohoto odhadu Interval spolehlivosti je hodnocen pro (1 - a) procentní spolehlivost Výběrové populace Cílová populace Šířku intervalu určuje: a) velikost vzorku b) rozptyl (variabilita) vzorku c) požadovaná spolehlivost j(x) -3s +3s µ Původní proměnná x j(x) Výběr n=10 pro odhad průměru j(x) Výběr n=100 pro odhad průměru µ µ logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ODHAD PRŮMĚRU: Příklad X: Cena výrobku v n = 21 obchodech Data: 95% Interval spolehlivosti: t1-a/2 = t 0,975 = 2,086 (u = n-1) 3,423 £ µ £ 3,737 P (3,423 £ µ £ 3,737) ³ 0,95 (20) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Interval spolehlivosti pro odhad rozptylu Interval spolehlivosti -směrodatná odchylka odhadu průměru (S.E.) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Linie 1 n = 50 s2(x) = 10 (mg/ml)2 s(x) = 3,16 mg/ml x = 2 mg/ml sx = 0,447 mg/ml Interval spolehlivosti pro odhad rozptylu: příklad Příklad: měření produkce metabolitu (x) u buněk dvou nádorových linií Linie 1 n = 100 s2(x) = 16 (mg/ml)2 s(x) = 4 mg/ml x = 2,8 mg/ml sx = 0,4 mg/ml c = 1,43 95% IS c = 1,58 95% IS logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Výpočet mediánu z frekvenčních dat a jeho odhady a) Určete medián tohoto souboru dat: 1,3,4,5,7,8 [4,5] b) Určete medián tohoto souboru dat: 5,1,8,3,4 [4] Frekvence zastoupení dosahuje nejvyšší hodnoty u třídy od 40,5 – 60,5 dnů. Druhý (menší) frekvenční pík lze pozorovat u intervalu od 100,5 do 120,5 dní. Existence dvou maxim (bimodální data) je důkazem nenormality tohoto konkrétního souboru. Class limits (days) 0,5- 20,5 20,5-40,5 40,5-60,5 60,5-80,5 80,5-100,5 100,5-120,5 120,5-140,5 140,5-160,5 160,5-180,5 180,5-200,5 200,5-220,5 Frequency 8 33 50 32 15 20 11 6 2 1 1 Cumulative frequency 8 41 91 123 138 158 169 175 177 178 179 c) Tento příklad je ukázkou výpočtu mediánu u velkého souboru dat. V následující tabulce je uveden rozbor rozložení souboru dat od 179 krav, kde sledovanou veličinou byl počet dní od narození telete do znovuobnovení menstruačního cyklu. Uvedená data jsou velmi zjednodušena a jsou zde uvedena pouze pro ilustraci: logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jelikož n =179, pak je medián devadesátá hodnota od počátku souboru, a dále je zřejmé, že bude velmi blízko horní hranici třídy 40,5 – 60,5 dní. Za předpokladu, že 50 hodnot této třídy je v ní rovnoměrně rozmístěno lze použít následující vzorec: XL = hodnota X (sledované veličiny) na spodní hranici třídy obsahující medián: zde 40,5 dní g = pořadová hodnota mediánu minus kumulativní frekvence do horní hranice předchozí třídy, tj. 90 - 41= 49 l = třídní interval: 20 dní f = frekvence ve třídě obsahující medián Dosadíme-li do uvedeného vzorce, získáme odhad mediánu jako 60 dní. Průměr tohoto datového souboru je 69,9, což je významně odlišná hodnota, a potvrzuje znovu nenormální charakter dat. U velkých vzorků z normálních populací je výběrový odhad mediánu normálně rozložen kolem populační hodnoty se směrodatnou odchylkou . U normálního rozložení, kde medián i průměr představují odhad stejné hodnoty, je medián méně přesný než průměr. Proto hlavní význam mediánu spočívá u nesymetrických distribucí. Existuje velmi jednoduchá metoda pro výpočet intervalu spolehlivosti pro odhad mediánu a jako horní a spodní hranice slouží pořadová čísla vypočítaná podle následujícího vztahu: n představuje velikost datového souboru, z je kvantil standardizovaného normálního rozložení pro příslušnou pravděpodobnost. U našeho příkladu je n = 179 a pro 95% interval spolehlivosti je z přibližně rovno 2. Horní a spodní limit pro odhad mediánu tedy je a 103. 95% interval spolehlivosti je tedy tvořen počty dní, které mají pořadí 77 a 103: 77: Počet dní = 40,5+(36)(20)/50 = 55 dní 103: Počet dní = 60,5+(12)(20)/32 = 68 dní Medián cílové populace byl tedy odhadnut 95% intervalem spolehlivosti jako hodnota ležící mezi 55 a 68 dny. Interpretujte tento výsledek. Výpočet mediánu z frekvenčních dat a jeho odhady