logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Spojitá a kategoriální data Základní popisné statistiky Grafický popis dat V. Základní typy dat logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace —Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod - od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené. —Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací – histogramů. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? – různé typy dat znamenají různou informaci Kolikrát ? Podíl hodnot větší/menší než specifikovaná hodnota ? O kolik ? Větší, menší ? Rovná se ? Procenta odvozené hodnoty Data poměrová Data intervalová Data ordinální Data nominální Spojitá data Diskrétní data Kategoriální otázky Otázky „Ano/Ne“ Samotná znalost typu dat ale na dosažení informace nestačí …………. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? – různé typy dat znamenají různou informaci PRŮMĚR MEDIÁN MODUS Data poměrová Data intervalová Data ordinální Data nominální Spojitá data Diskrétní data Statistika středu X Y = f logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek JAK vznikají informace ? - opakovaná měření informují rozložením hodnot KOLIK se naměřilo CO se naměřilo Diskrétní data Spojitá data y x y x X: měřený znak Y: frekvence - absolutní / relativní logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek X: Průměrný počet výrobků v prodejně Y: Odhad prostoru průměrně nabízeného k vystavení výrobku X: 1,2 : (1,15 - 1,24) Y: 1,8 : (1,75 - 1,84) X/Y = 0,667 : 1,15 1,84 1,24 1,75 ( ) Odvozená data: Pozor na odvozené indexy Znak X: Hmotnost Znak Y: Plocha Příklad I: Příklad II: + / - 3,8 % + / - 2,5 % + / - 6,2 % průměr (min - max) : - Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek N: 100 dětí (hemofiliků) x: znak: počet krvácivých epizod za měsíc n(x) – absolutní četnost x p(x) – relativní četnost; p(x) = n(x) / n N(x) – kumulativní četnost hodnot nepřevyšujících x; N(x) = S n(t) F(x) – kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n Jak vznikají informace ? - frekvenční tabulka jako základní nástroj popisu Primární data Frekvenční sumarizace x n(x) p(x) N(x) F(x) 0 20 0,2 20 0,2 1 10 0,1 30 0,3 2 30 0,3 60 0,6 3 40 0,4 100 1,0 0 0 1 2 1 1 3 1 1 2 . . . . . . n = 100 t Ł x DISKRÉTNÍ DATA logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? Grafické výstupy z frekvenční tabulky n(x) x p(x) x N(x) x F(x) x 3 2 1 0 0 1 2 3 0 1 2 3 0 1 2 3 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? - frekvenční tabulka jako základní nástroj popisu —Příklad: x: koncentrace látky v krvi n = 100 pacientů Primární data Frekvenční sumarizace n = 100 opakovaných měření (100 pacientů) x: koncentrace sledované látky v krvi (20 – 100 jednotek) d(l) – šířka intervalu n(l) – absolutní četnost n(l) / n – intervalová relativní četnost N(x’’) – intervalová kumulativní četnost do horní hranice X’’ F(x’’) – intervalová relativní kumulativní četnost do horní hranice X’’ interv d(l) n(l) n(l)/n N(x’’) F(x’’) <20, 40) 20 20 0,2 20 0,2 <40, 60) 20 10 0,1 30 0,3 <60, 80) 20 40 0,4 70 0,7 <80, 100) 20 30 0,3 100 1,0 1,21 1,48 1,56 0,31 1,21 1,33 0,33 . . . n = 100 SPOJITÁ DATA logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? - frekvenční sumarizace spojitých dat x x F(x) Intervalová relativní kumulativní četnost Histogram Výběrová distribuční funkce f(x)= Intervalová hustota četnosti 20 40 60 80 100 Plocha: n(l) / n n(l) / n d(l) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Počet zvolených tříd a velikost souboru určují kvalitu výstupu k = 10 tříd k = 5 tříd 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 1 2 3 4 5 k = 20 tříd 1,0 2,0 3,0 4,0 5,0 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Histogram vyjadřuje tvar výběrového rozložení x x x x x f(x) f(x) f(x) f(x) f(x) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad: věk účastníků vážných dopravních nehod Věk (roky) Věk (roky) Správný histogram ? Správný histogram ? Věk 0 - 4 5 - 9 10 - 15 16 - 19 20 - 24 25 - 59 > 60 f 28 46 58 20 114 316 103 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Pojem ROZLOŽENÍ - příklad spojitých dat j(x) 0 F(x) Rozložení x Distribuční funkce 0 Je - li dána distribuční funkce, je dáno rozložení x logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Výběrové rozložení hodnot lze modelově popsat a definovat tak pravděpodobnost výskytu X f(x) x f(x) x f(x) x j(x) j(x) j(x) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Distribuční funkce jako užitečný nástroj pro práci s rozložením x j(x) 1,00 F(x) P(X x) = F(x) = F(x") F(x) … distribuční funkce P(X x) = j(x) d(x) M j(x) d(x) = 1 - Ą Ą Ł Ł F(x): Pravděpodobnost, že se X vyskytuje v intervalu M M Známe-li distribuční funkci, pak známe rozložení sledované veličiny. Pro jakoukoli množinu hodnot (M) lze určit P, že X do této množiny patří. Plocha = relativní četnost x logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? - frekvenční sumarizace spojitých dat —Grafické výstupy z frekvenční tabulky – spojitá data f(x) x F(x) x KVANTIL 20 40 60 80 100 Uspořádání čísel podle velikosti a konstrukce rozložení umožňuje pravděpodobnostní zařazení každé jednotlivé hodnoty X0.1; X0.9; X0.5; Xq logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Otázka: Jak velké musí být X, aby 5 % všech hodnot bylo nad ním? X0,95 x j(x) 0,95 F(x) Hledáme: P(X xq) = 0,95 = q xq = (x0,95) = ? q = 0,95 … Pravděpodobnost Jakékoliv číslo na ose x je kvantilem 5 % F (xq ) = q Kvantil je číslo, jehož hodnota distribuční funkce je rovna P, pro kterou je kvantil definován Ł logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Normální rozložení jako statistický model Aplikace modelových rozložení Přehled modelových rozložení VI. Modelová rozložení logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace —Klasickým postupem statistické analýzy je na základě vzorku cílové populace identifikovat typ a charakteristiky modelového rozložení dat, využít jeho matematického modelu k popisu reality a získané výsledky zobecnit na hodnocenou cílovou populaci. —Využití tohoto přístupu je možné pouze v případě shody reálných dat s modelovým rozložením, v opačném případě hrozí získání zavádějících výsledků. —Nejklasičtějším modelovým rozložením, od něhož je odvozena celá řada statistických analýz je tzv. normální rozložení, známé též jako Gaussova křivka. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Rozložení hodnot jako model: Normální rozložení N (m,s) j(x) m N (0,1) Tmavý šikmo nahoru j(z) 0 Tabelovaná podoba Standardizovaná forma x z z = x - m s logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametry charakterizující normální rozložení a jejich význam j(x) x medián průměr m ~ x průměr - ukazatel středu s2 ~ s2 rozptyl xi x a) b) m s ~ s směrodatná odchylka Pravidlo ± 3s koeficient variance c) d) E (x) ~ x ~ m D (x) ~ s2 ~ s2 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Rozptyl není univerzálním ukazatelem variability ¢ ¢ xi x xi s2 = Ţ neúměrně zvýší s2 S(xi – x)2 n - 1 x logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Normální rozložení jako model I. Použitelnost modelu A) X: spojitý znak - hmotnost jedince (myši) 1,2; 1,4; 1,6; 1,8; 2,0; 2,4; 3.8 n = 7 opakování medián = 1,8 rozptyl (s2) = Je předpoklad normálního rozložení oprávněný ? Jaký předpokládáte možný rozsah hodnot tohoto znaku ? ? ? sm. odchylka (s) = průměr = logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Normální rozložení jako model I. Použitelnost modelu B) X: spojitý znak - hmotnost jedince (myši) 1,2; 1,4; 1,6; 1,8; 2,0; 2,2; 2,4; 3,8; 8,9 n = 9 opakování průměr = sm. odchylka (s) = Jak hodnotíte model u těchto dat ? medián = 2 rozptyl (s2) = logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Stochastické rozložení jako model Předpoklad: Znak x je rozložen podle daného modelu Znak x je naměřen o n hodnotách s modelovými parametry: x a s Znak x je převeden na formu odpovídající tabulkovému standardu: Využije se tabelované (modelové) distribuční funkce pro testy o rozložení hodnot x Platnost modelu ? ? ü 1 2 3 4 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Normální rozložení jako model - příklad Tabulky distribuční funkce • Data z průzkumu jsou publikována jako: Kosti prehistorického zvířete: n = 2000 průměrná délka = 60 cm sm. odchylka (s) = 10 cm Předpokládáme, že je oprávněný model normálního rozložení ü Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ? Kolik kostí mělo zřejmě délku větší než 66 cm ? Jaká je pravděpodobnost, že by velikost dané kosti překročila velikost 66 cm: P (x > 66) ? a platí, že tedy 22,6% kostí leží v rozsahu 60-66cm logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Rozložení Parametry Stručný popis Normální Průměr (m) Rozptyl (s2) Symetrická funkce popisující intervalovou hustotu četnosti; nejpravděpodobnější jsou průměrné hodnoty znaku v populaci. Log-normální Medián Geometrický průměr Rozptyl (s2) Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení. Weibullovo a - parametr tvaru b - parametr rozsahu hodnot Změnou parametru a lze modelovat distribuci doby přežití, např. stresovaného organismu. Rozložení využívané i jako model k odhahu LC50 nebo EC50 u testů toxicity. Rovnoměrné Medián Geometrický průměr Rozptyl (s2) Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení. Triangulární f(x) = [b - ABS (x - a)] / b2 a - b < x < a + b Pravděpodobnostní funkce pro typ rozložení, kdy jsou střední hodnoty výrazně pravděpodobnější než hodnoty okrajové. Gamma Parametry distribuční funkce: a - parametr tvaru b - parametr rozsahu hodnot Umožňuje flexibilně modelování distribučních funkcí nejrůznějších tvarů. Např. c2 rozložení je rozložení typu Gamma. Gamma rozložení s a = 1 je známo jako exponenciální rozložení. Stručný přehled modelových rozložení I. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Stručný přehled modelových rozložení II. Rozložení Parametry Stručný popis Beta Parametry distribuční funkce: a - parametr tvaru b - parametr rozsahu hodnot Pravděpodobnostní funkce pro proměnnou omezenou rozsahem do intervalu [0; 1]. Je matematicky komplikovanější, ale velmi flexibilní při popisu změn hodnot proměnné v ohraničeném intervalu. Studentovo Stupně volnosti - uvažuje velikost vzorku Průměr Rozptyl Simuluje normální rozložení pro menší vzorky čísel. Pro větší soubory (n > 100) se limitně blíží k normálnímu rozložení. Pearsonovo Stupně volnosti - uvažuje velikost vzorku Slouží především k porovnání četností jevů ve dvou a více kategoriích. Používá se k modelování rozložení odhadu rozptylu normálně rozložených dat. Fisher-Snedecorovo Dvojí stupně volnosti - uvažuje velikost dvou vzorků Používá se k testování hodnot průměrů - F test pro porovnání dvou výběrových rozptylů; F test, ANOVA atd. Stručný přehled modelových rozložení II. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Log-normální rozložení jako častý model reálných znaků j (x) Medián x Průměr U asymetrických rozložení je medián velmi vhodným alternativním ukazatelem středu Průměr - těžiště osy x Medián - frekvenční střed x logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Log-normální rozložení lze jednoduše transformovat f(x) Medián x Průměr f(x) Medián ln (x) Průměr = Y = Ln [X] • `Y ± Standardní chyba EXP (Y) = Geometrický průměr X logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu Logaritmická transformace Logaritmická transformace je velmi vhodná pro data s odlehlými hodnotami na horní hranici rozsahu. Při porovnání průměrů u více souborů dat je pro tuto transformaci indikující situace, kdy se s rostoucím průměrem mění proporcionálně i směrodatná odchylka, a tedy jednotlivé proměnné mají stejný koeficient variance, ačkoli mají různý průměr. Za takovéto situace přináší logaritmická transformace nejen zeslabení asymetrie původního rozložení, ale také vyšší homogenitu rozptylu proměnných. Pro transformaci se nejčastěji používá přirozený logaritmus a pokud jsou v původním souboru dat nulové hodnoty, je vhodné použít operaci Y = ln (X+1). Je-li průměr logaritmovaných dat (tedy průměrný logaritmus) zpětně transformován do původních hodnot, výsledkem není aritmetický, ale geometrický průměr původních dat. ü Transformace dat - legitimní úprava rozložení logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Transformace je vhodná pro proměnné mající Poissonovo rozložení, tedy proměnné vyjadřující celkový počet nastání určitého jevu (spíše vzácného) v n nezávisle opakovaných pokusech. Obecněji lze tento typ transformace doporučit v případě normalizace dat typu počtu jedinců (buněk, apod.). Jde o transformaci: nebo nebo Transformace s přičtenou hodnotou 1 jsou efektivní, pokud X nabývá velmi malých nebo nulových hodnot. Situace indikující vhodnost odmocninové transformace je také proporcionalita výběrového rozptylu a průměru, tedy obecně jestliže s2x = k (výběrový průměr). Odmocninová transformace ü Transformace dat - legitimní úprava rozložení Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Tzv. úhlová transformace - velmi vhodná pro data typu podílů výskytu určitého jevu (znaku) mezi n hodnocenými jedinci - tedy pro data mající binomické rozložení. Pokud se určitý znak vyskytuje r-krát mezi n možnostmi (jedinci, opakováními), pak lze vyjádřit relativní četnost jeho výskytu jako p = r/n s variabilitou p.(1-p)/n. Arcsin transformace odstraní ze souborů dat podíly blízké 0 nebo 1, a tak efektivně sníží variabilitu odhadů středu. Transformace však není schopná odstranit variabilitu vyvolanou rozdílným počtem opakování v jednotlivých variantách - v takovém případě lze doporučit provedení vážených transformací dat. Velmi častou formou této transformace je: - tedy transformace podílů do hodnot, jejichž sinus je roven druhé odmocnině původních hodnot. Pokud celkový počet jedinců (opakování), mezi kterými je výskyt znaku monitorován, je n < 50, pak lze doporučit velmi efektivní empirická opatření pro transformaci podílů blízkých 0 nebo 1. Pro tento případ lze nahrazovat nulové podíly hodnotou 1/4n a 100 % podíly hodnotou (n-1/4)/n. Pokud se mezi hodnotami vyskytuje větší množství krajních hodnot (menší než 0,2 a větší než 0,8), lze doporučit transformaci: Arcsin transformace Transformace dat - legitimní úprava rozložení