logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace Rozložení dat V.a1 Teoretické pozadí statistické analýzy logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace —Základním principem statistiky je pravděpodobnost výskytu nějaké události. Prostřednictvím vzorkování se snažíme odhadnout skutečnou pravděpodobnost událostí.Klíčovou otázkou je velikost vzorku, čím větší vzorek, tím větší šance na projevení se skutečné pravděpodobnosti výskytu jevu. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek JAK vznikají informace ? základní pojmy Skutečnost Náhoda (vybere jednu z možností pokusu) Jev podmnožina všech možných výsledků pokusu/děje, o které lze říct, zda nastala nebo ne Pozorovatel Rozliší, co nastalo a) podle možností b) podle toho, jak potřebuje Jevové pole třída všech jevů, které jsme se rozhodli nebo jsme schopni sledovat Skutečnost + Jevové pole = Měřitelný prostor Experimentální jednotka - objekt, na kterém se provádí šetření Populace - soubor experimentálních jednotek Znak - vlastnost sledovaná na objektu Sledovaná veličina - číselná hodnota vyjadřující výsledek náhodného experimentu Znak se stává náhodnou veličinou, pokud se jeho hodnota zjišťuje vylosováním objektu ze základního souboru Výběr - výběrová populace - cílová populace Náhodný výběr Reprezentativnost logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek JAK vznikají informace ? „Empirical approach“ „Classical approach“ Empirický postup možné jevy: čísla 1 – 6 n – počet hodů (opakování) f n n = 10 f n n = 50 f n n = ¥ U složitých stochastických systémů se pravda získá až po odvedení značného množství experimentální práce: musíme dát systému šanci se projevit logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek JAK vznikají informace ? Empirický postup možné jevy: čísla 1 – 6 n – počet hodů (opakování) f n n = 10 f n n = 50 f n n = ¥ Při realizaci náhodného experimentu roste se zvyšujícím se počtem opakování pravdivá znalost systému (výsledky se stávají stabilnější) …. diskutabilní je ale ovšem míra zobecnění konkrétního experimentu logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Empirický zákon velkých čísel Při opětovné nezávislé realizaci téhož náhodného experimentu se podíl výskytů sledovaného jevu mezi všemi dosud provedenými realizacemi zpravidla ustaluje kolem konstanty. Pravděpodobnost je libovolná reálná funkce definovaná na jevovém poli A, která každému jevu A přiřadí nezáporné reálné číslo P(A) z intervalu 0 - 1. .A .B .C .D A P(A) 0 1 Z praktického hlediska je pravděpodobnost idealizovaná relativní četnost P (A) = 1 …………………………… jev jistý P (A) = 0 …………………………… jev nemožný P (A Ç B) = P (A) . P (B/A) …..……závislé jevy P (A Ç B) = P (A) . P (B)…………. nezávislé jevy P (A / B) = P (A Ç B) / P (B) ……….podmíněná pravděpodobnost logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Pravděpodobnost výskytu jevu – rozložení dat „vše je možné“: pouze jev s pravděpodobností 0 nikdy nenastane existuje pravděpodobnost výskytu jevů (nedeterministické závěry) 0 pravděpodobnost výskytu x 1 počet chlapců v rodině s X dětmi 2 3 4 5 j(x) x výška postavy plocha = pravděpodobnost výskytu pravděpodobnost lze zkoumat retrospektivně i prospektivně logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Spojitá a kategoriální data Základní popisné statistiky Grafický popis dat V.a2 Základní typy dat logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace —Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod - od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené. —Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací – histogramů. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? – různé typy dat znamenají různou informaci Kolikrát ? Podíl hodnot větší/menší než specifikovaná hodnota ? O kolik ? Větší, menší ? Rovná se ? Procenta odvozené hodnoty Data poměrová Data intervalová Data ordinální Data nominální Spojitá data Diskrétní data Kategoriální otázky Otázky „Ano/Ne“ Samotná znalost typu dat ale na dosažení informace nestačí …………. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? – různé typy dat znamenají různou informaci PRŮMĚR MEDIÁN MODUS Data poměrová Data intervalová Data ordinální Data nominální Spojitá data Diskrétní data Statistika středu X Y = f logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek JAK vznikají informace ? - opakovaná měření informují rozložením hodnot KOLIK se naměřilo CO se naměřilo Diskrétní data Spojitá data y x y x X: měřený znak Y: frekvence - absolutní / relativní logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek X: Průměrný počet výrobků v prodejně Y: Odhad prostoru průměrně nabízeného k vystavení výrobku X: 1,2 : (1,15 - 1,24) Y: 1,8 : (1,75 - 1,84) X/Y = 0,667 : 1,15 1,84 1,24 1,75 ( ) Odvozená data: Pozor na odvozené indexy Znak X: Hmotnost Znak Y: Plocha Příklad I: Příklad II: + / - 3,8 % + / - 2,5 % + / - 6,2 % průměr (min - max) : - Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek N: 100 dětí (hemofiliků) x: znak: počet krvácivých epizod za měsíc n(x) – absolutní četnost x N(x) – kumulativní četnost hodnot nepřevyšujících x; N(x) = S n(t) p(x) – relativní četnost; p(x) = n(x) / n F(x) – kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n Jak vznikají informace ? - frekvenční tabulka jako základní nástroj popisu Primární data Frekvenční sumarizace x n(x) N(x) p(x) F(x) 0 20 20 0,2 0,2 1 10 30 0,1 0,3 2 30 60 0,3 0,6 3 40 100 0,4 1,0 0 0 1 2 1 1 3 1 1 2 . . . . . . n = 100 t Ł x DISKRÉTNÍ DATA logo-IBA n(x) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? Grafické výstupy z frekvenční tabulky x p(x) x N(x) x F(x) x 3 2 1 0 0 1 2 3 0 1 2 3 0 1 2 3 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? - frekvenční tabulka jako základní nástroj popisu —Příklad: x: koncentrace látky v krvi n = 100 pacientů Primární data Frekvenční sumarizace n = 100 opakovaných měření (100 pacientů) x: koncentrace sledované látky v krvi (20 – 100 jednotek) d(l) – šířka intervalu n(l) – absolutní četnost n(l) / n – intervalová relativní četnost N(x’’) – intervalová kumulativní četnost do horní hranice X’’ F(x’’) – intervalová relativní kumulativní četnost do horní hranice X’’ interv d(l) n(l) n(l)/n N(x’’) F(x’’) <20, 40) 20 20 0,2 20 0,2 <40, 60) 20 10 0,1 30 0,3 <60, 80) 20 40 0,4 70 0,7 <80, 100) 20 30 0,3 100 1,0 1,21 1,48 1,56 0,31 1,21 1,33 0,33 . . . n = 100 SPOJITÁ DATA logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? - frekvenční sumarizace spojitých dat x x F(x) Intervalová relativní kumulativní četnost Histogram Výběrová distribuční funkce f(x)= Intervalová hustota četnosti 20 40 60 80 100 Plocha: n(l) / n n(l) / n d(l) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Počet zvolených tříd a velikost souboru určují kvalitu výstupu k = 10 tříd k = 5 tříd 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 1 2 3 4 5 k = 20 tříd 1,0 2,0 3,0 4,0 5,0 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Histogram vyjadřuje tvar výběrového rozložení x x x x x f(x) f(x) f(x) f(x) f(x) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad: věk účastníků vážných dopravních nehod Věk (roky) Věk (roky) Správný histogram ? Správný histogram ? Věk 0 - 4 5 - 9 10 - 15 16 - 19 20 - 24 25 - 59 > 60 f 28 46 58 20 114 316 103 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Pojem ROZLOŽENÍ - příklad spojitých dat j(x) 0 F(x) Rozložení x Distribuční funkce 0 Je - li dána distribuční funkce, je dáno rozložení x logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Výběrové rozložení hodnot lze modelově popsat a definovat tak pravděpodobnost výskytu X f(x) x f(x) x f(x) x j(x) j(x) j(x) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Distribuční funkce jako užitečný nástroj pro práci s rozložením x j(x) 1,00 F(x) P(X x) = F(x) = F(x") F(x) … distribuční funkce P(X x) = j(x) d(x) M j(x) d(x) = 1 - Ą Ą Ł Ł F(x): Pravděpodobnost, že se X vyskytuje v intervalu M M Známe-li distribuční funkci, pak známe rozložení sledované veličiny. Pro jakoukoli množinu hodnot (M) lze určit P, že X do této množiny patří. Plocha = relativní četnost x logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? - frekvenční sumarizace spojitých dat —Grafické výstupy z frekvenční tabulky – spojitá data f(x) x F(x) x KVANTIL 20 40 60 80 100 Uspořádání čísel podle velikosti a konstrukce rozložení umožňuje pravděpodobnostní zařazení každé jednotlivé hodnoty X0.1; X0.9; X0.5; Xq logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Otázka: Jak velké musí být X, aby 5 % všech hodnot bylo nad ním? X0,95 x j(x) 0,95 F(x) Hledáme: P(X xq) = 0,95 = q xq = (x0,95) = ? q = 0,95 … Pravděpodobnost Jakékoliv číslo na ose x je kvantilem 5 % F (xq ) = q Kvantil je číslo, jehož hodnota distribuční funkce je rovna P, pro kterou je kvantil definován Ł