logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat 2. Základní typy dat logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Anotace —Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod – od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené. —Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací – histogramů. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Typy proměnných (dat) Binární = dummy data Proměnná, která může nabývat pouze dvou hodnot. Bývá definovaná odpovědí na otázku (např. TRUE × FALSE, 1 × 0). Nominální = kategoriální data Proměnná, která může nabývat počtu hodnot (n ∊ ℕ), pro které neexistuje přirozené pořadí (např. barvy vzorků). Ordinální data Nominální proměnná, pro kterou ale existuje jasné pořadí kategorií (např. velikost oděvů S, M, L, XL). Kardinální data Kardinální proměnné odpovídají počtům něčeho. Hodnoty jsou od sebe stejně vzdálené (např. počet dětí v rodině). Intervalová data Obvykle spojitá proměnná, u které lze určit rozdíl mezi kategoriemi – často jde o vzdálenost od 0 (např. teplota ve °C, čas). Poměrová data Intervalová proměnná, u které má smysl určovat podíly jednotlivých kategorií (např. hmotnost, vzdálenost). logo-IBA Spojitá data Diskrétní data Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Jak vznikají informace ? – různé typy dat znamenají různou informaci Kolikrát ? Podíl hodnot větší/menší než specifikovaná hodnota ? O kolik ? Větší, menší ? Rovná se ? Procenta odvozené hodnoty Data poměrová Data intervalová Data kardinální Data ordinální Data nominální Data binární Kategoriální otázky Otázky „Ano/Ne“ Samotná znalost typu dat ale na dosažení informace nestačí… logo-IBA Spojitá data Diskrétní data Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Jak vznikají informace ? – různé typy dat znamenají různou informaci Data poměrová Data intervalová Data kardinální Data ordinální Data nominální Data binární Samotná znalost typu dat ale na dosažení informace nestačí… PRŮMĚR MEDIÁN MODUS X Y = f logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Základní soubor × výběr (vzorek) —Parametry základního souboru jsou obvykle dané, ale neznáme je (např. průměr, směrodatná odchylka). —Pro odhad parametrů základního souboru používáme tzv. výběrové charakteristiky založené na našem omezeném výběru (vzorku). Rozptyl (základní): Rozptyl (výběrový): logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Jak vznikají informace ? – základní popisné statistiky Průměr (výběrový): Rozptyl (výběrový): p-tý kvantil Medián: Data (vzorek): Směrodatná odchylka (výběrová): Modus: logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina JAK vznikají informace ? - opakovaná měření informují rozložením hodnot KOLIK se naměřilo CO se naměřilo Diskrétní data Spojitá data y x y x X: měřený znak Y: frekvence - absolutní / relativní logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina X: Průměrný počet výrobků v prodejně Y: Odhad prostoru průměrně nabízeného k vystavení výrobku X: 1,2 : (1,15 - 1,24) Y: 1,8 : (1,75 - 1,84) X/Y = 0,667 : 1,15 1,84 1,24 1,75 ( ) Odvozená data: Pozor na odvozené indexy Znak X: Hmotnost Znak Y: Plocha Příklad I: Příklad II: + / - 3,8 % + / - 2,5 % + / - 6,2 % průměr (min - max) : - Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina N: 100 dětí (hemofiliků) x: znak: počet krvácivých epizod za měsíc n(x) – absolutní četnost x N(x) – kumulativní četnost hodnot nepřevyšujících x; N(x) = S n(t) p(x) – relativní četnost; p(x) = n(x) / n F(x) – kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n Jak vznikají informace ? - frekvenční tabulka jako základní nástroj popisu Primární data Frekvenční sumarizace x n(x) N(x) p(x) F(x) 0 20 20 0,2 0,2 1 10 30 0,1 0,3 2 30 60 0,3 0,6 3 40 100 0,4 1,0 0 0 1 2 1 1 3 1 1 2 . . . . . . n = 100 t Ł x DISKRÉTNÍ DATA logo-IBA n(x) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Jak vznikají informace ? Grafické výstupy z frekvenční tabulky x p(x) x N(x) x F(x) x 3 2 1 0 0 1 2 3 0 1 2 3 0 1 2 3 10 - 20 - 30 - 20 - 40 - 60 - 0,1 - 0,2 - 0,3 - 0,2 - 0,4 - 0,6 - logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Jak vznikají informace ? - frekvenční tabulka jako základní nástroj popisu —Příklad: x: koncentrace látky v krvi n = 100 pacientů Primární data Frekvenční sumarizace n = 100 opakovaných měření (100 pacientů) x: koncentrace sledované látky v krvi (20 – 100 jednotek) d(l) – šířka intervalu n(l) – absolutní četnost n(l) / n – intervalová relativní četnost N(x’’) – intervalová kumulativní četnost do horní hranice X’’ F(x’’) – intervalová relativní kumulativní četnost do horní hranice X’’ interv d(l) n(l) n(l)/n N(x’’) F(x’’) <20, 40) 20 20 0,2 20 0,2 <40, 60) 20 10 0,1 30 0,3 <60, 80) 20 40 0,4 70 0,7 <80, 100) 20 30 0,3 100 1,0 1,21 1,48 1,56 0,31 1,21 1,33 0,33 . . . n = 100 SPOJITÁ DATA logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Jak vznikají informace ? - frekvenční sumarizace spojitých dat x x F(x) Intervalová relativní kumulativní četnost Histogram Výběrová distribuční funkce f(x)= Intervalová hustota četnosti 20 40 60 80 100 Plocha: n(l) / n n(l) / n d(l) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Počet zvolených tříd a velikost souboru určují kvalitu výstupu k = 10 tříd k = 5 tříd 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 1 2 3 4 5 k = 20 tříd 1,0 2,0 3,0 4,0 5,0 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Histogram vyjadřuje tvar výběrového rozložení x x x x x f(x) f(x) f(x) f(x) f(x) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Příklad: věk účastníků vážných dopravních nehod Věk (roky) Věk (roky) Správný histogram ? Správný histogram ? Věk 0 - 4 5 - 9 10 - 15 16 - 19 20 - 24 25 - 59 > 60 f 28 46 58 20 114 316 103 Plocha histogramu odpovídá počtu případů (pokud jde o pravděpodobnost, je plocha 1). Kategorie na ose x nemusí být ekvidistantní. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Pojem ROZLOŽENÍ - příklad spojitých dat j(x) 0 F(x) Rozložení x Distribuční funkce 0 Je - li dána distribuční funkce, je dáno rozložení x logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Výběrové rozložení hodnot lze modelově popsat a odhadnout tak pravděpodobnost výskytu X f(x) x f(x) x f(x) x j(x) j(x) j(x) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Distribuční funkce jako užitečný nástroj pro práci s rozložením x j(x) 1,00 F(x) F(x) … distribuční funkce x1 x2 Známe-li distribuční funkci, pak známe rozložení sledované veličiny. Pro jakoukoli množinu hodnot (M) lze určit P, že X do této množiny patří. Plocha = relativní četnost x j(x) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Jak vznikají informace ? - frekvenční sumarizace spojitých dat —Grafické výstupy z frekvenční tabulky – spojitá data f(x) x F(x) x KVANTIL 20 40 60 80 100 Uspořádání čísel podle velikosti a konstrukce rozložení umožňuje pravděpodobnostní zařazení každé jednotlivé hodnoty X0.1; X0.9; X0.5; Xq logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Otázka: Jak velké musí být X, aby 5 % všech hodnot bylo nad ním? X0,95 x j(x) 0,95 F(x) Hledáme: P(X > xq) = 0,95 = q xq = (x0,95) = ? q = 0,95 … pravděpodobnost Jakékoliv číslo na ose x je kvantilem* 5 % F (xq ) = q Kvantil je číslo, jehož hodnota distribuční funkce je rovna P, pro kterou je kvantil definován * za předpokladu omezeného definičního oboru distribuční funkce