V. Průzkumová analýza dát Motivácia —Pri spracovaní dát sa často používajú metódy, ktoré sú založené na predpoklade, že dáta pochádzajú z nejakého konkrétneho rozloženia. —Najčastejšie sa predpokladá normálne rozloženie. —Prečo to nemusí platiť: ¡ Dáta pochádzajú z iného rozloženia. ¡ Sú zaťažené chybami. ¡ Pochádzajú z niekoľkých rôznych rozložení. ¡ Základné pojmy —Dátový súbor – dáta. —Prípad – pozorovaná jednotka (napr. pacient), predstavuje jeden riadok v dátovom súbore. —Znaky = premenné – pozorované vlastnosti prípadu (napr. výška, váha, farba očí). —Náhodný výber – postupnosť nezávislých rovnako rozložených veličín (prípadov). Keď niekomu dávame dotazník, nevieme vopred ako odpovie. —Usporiadaný náhodný výber – dátový súbor usporiadaný podľa nejakého znaku. — Frekvenčná tabuľka alebo tabuľka rozloženia četností I. —Bodové rozloženie četností: ¡Máme malý počet variant, jednotlivým variantám priraďujeme ich četnosti. ¡n – počet všetkých prípadov ¡ ¡ ¡ Varianta Absolútne četnosti Relatívna četnosť Absolútna kumulatívna četnosť Relatívna kumulatívna četnosť Varianta j xj nj pj Nj Fj pj=nj/n Nj = n1+n2+…+nj Fj = Nj /n= p1+p2+…+pj Funkcie —Empirická distribučná funkcia ¡zobrazuje relatívne kumulatívne četnosti ¡končí vždy v 1 —Četnostná funkcia ¡p(x) = pj ak je x jednou z variant ¡ = 0 ak x nie je jednou z variant ¡zobrazuje relatívne četnosti ¡ Grafy —Graf četností funkcie ¡osa x: možnosti, osa y: četnosti ¡sú zobrazené len body —Graf empirickej distribučnej funkcie —Stĺpcový diagram ¡osa x: možnosti, osa y: počet pozorovaní —Polygon četností ¡osa x: možnosti, osa y: počet pozorovaní ¡spojené čiarou ¡ ¡ Príklad —U 30 domácností bol zisťovaný počet členov rodiny — — — — —Vytvorte tabuľku rozloženia četností. —Nakreslite graf četností, stĺpcový graf a polygon četností. Počet členov 1 2 3 4 5 6 Počet domácností 2 6 4 10 5 3 Príklad tabuľka rozloženia četností xj nj pj Nj Fj 1 2 2/30 2 2/30 2 6 6/30 8 8/30 3 4 4/30 12 12/30 4 10 10/30 22 22/30 5 5 5/30 27 27/30 6 3 3/30 30 30/30=1 Frekvenčná tabuľka alebo tabuľka rozloženia četností II. —Intervalové rozloženie ¡Veľký počet variant, ktoré rozdelíme do intervalov ¡Určujeme četnosti v jednotlivých intervaloch ¡Určenie počtu intervalov je subjektívne ¡Často sa odporúča ako odmocnina z n (n=počet všetkých prípadov) ¡ Frekvenčná tabuľka Interval nj pj fj Nj Fj počet nj / n pj / dj n1+ n2 +…+ nj p1+p2 +…+pj dj – šírka intervalu intervalová hustota četností intervalová empirická distribučná funkcia Grafy —Histogram ¡osa x: intervaly, osa y: hodnota četnostnej funkcie ¡pomer obsahov stĺpikov odpovedá pomeru zastúpenia jednotlivých intervalov v dátach — —Intervalová empirická distribučná funkcia ¡osa x: intervaly, osa y: hodnoty intervalovej empirickej funkcie ¡vždy sa vynesú nad koniec intervalu a spoja sa priamkou Príklad —V 70 domácnostiach boli zisťované týždenné výdaje na sladkosti. — — — — —Napíšte tabuľku rozloženia četností a nakreslite histogram a graf intervalovej empirickej distribučnej funkcie. — — výdaje (36,65> (65,95> (95,125> (125,155> (155, 185> (185, 200> Počet domácností 7 16 27 14 4 2 Príklad tabuľka rozloženia četností Interval nj pj fj Nj Fj (35,65> 7 7/70 7/2100 2 7/70 (65,95> 16 16/70 16/2100 23 23/70 (95,125> 27 27/70 27/2100 50 50/70 (125,155> 14 14/70 14/2100 64 64/70 (155,185> 4 4/70 4/2100 68 68/70 185,215 2 2/70 2/2100 70 70/70=1 Číselné charakteristiky dátového súboru Nominálne znaky — —Modus – najčastejšia varianta — — — — — — — — Číselné charakteristiky dátového súboru Ordinálne znaky —Vieme ich usporiadať —Alfa – kvantil = xalfa je číslo, ktoré rozdeľuje usporiadaný súbor na dolný úsek, ktorý obsahuje podiel aspoň alfa všetkých dát a na horný úsek, ktorý obsahuje podiel aspoň 1-alfa všetkých dát. —Alfa- číslo —Medián: x0,50 —x0,25 = dolný kvartil, x0,75 = horný kvartil —x0,1 ,..., x0,9 = decily —x0,01 ,..., x0,99 = percentily Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Číselné charakteristiky dátového súboru Intervalové a pomerové znaky-ukazatele stredu —Průměr – vhodný ukazatel středu u normálního/symetrického rozložení, kde xi jsou jednotlivé hodnoty a n jejich počet — — —Medián – jde vlastně o 50% kvantil, tj. polovina hodnot leží nad a polovina pod mediánem — —V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Číselné charakteristiky dátového súboru Intervalové a pomerové znaky-ukazatele šírky —Rozptyl je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru. — —Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení — —Směrodatná odchylka je druhá odmocnina z rozptylu — —Koeficient variance - podíl SD ku průměru (u normálního rozložení by se 95% hodnot mělo vejít do průměr ±3 SD), pokud je SD větší než 1/3 průměru jsou teoreticky pravděpodobné záporné hodnoty v rozložení – ukazatel problémů s normalitou dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele tvaru rozložení —Skewness – ukazatel „šikmosti“ rozložení, asymetrie rozložení —Kurtosis – ukazatel „špičatosti/plochosti“ rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Další parametry rozložení —Počet hodnot – důležitý ukazatel, znamená jak moc lze na data spoléhat —Střední chyba odhadu průměru - je založena na směrodatné odchylce rozložení a počtu hodnot, vlastně jde o směrodatnou odchylku rozložení průměru. Říká jak přesný je náš výpočet průměru. Čím větší počet hodnot rozložení, tím je náš odhad skutečného průměru přesnější. —Suma hodnot —Modus – nejčastější hodnota, vhodný např. při kategoriálních datech —Minimum, maximum —Rozsah hodnot —Harmonický průměr - převrácená hodnota průměru převrácených hodnot (vždy platí harmonický průměr < geometrický průměr < aritmetický průměr) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Príklad Hmotnost jedince (myši) 1,2; 1,4; 1,6; 1,8; 2,0; 2,4; 3.8 n = 7 opakování medián = 1,8 rozptyl (s2) = sm. odchylka (s) = průměr = Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Otázka: Jak velké musí být X, aby 5 % všech hodnot bylo nad ním? X0,95 x j(x) 0,95 F(x) Hledáme: P(X xq) = 0,95 = q xq = (x0,95) = ? q = 0,95 … Pravděpodobnost Jakékoliv číslo na ose x je kvantilem 5 % F (xq ) = q Kvantil je číslo, jehož hodnota distribuční funkce je rovna P, pro kterou je kvantil definován Ł Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Diagnostické grafy-krabicový graf (box plot) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Normální rozložení N (m,s) j(x) m N (0,1) Tmavý šikmo nahoru j(z) 0 Tabelovaná podoba Standardizovaná forma x z z = x - m s Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametry charakterizující normální rozložení a jejich význam j(x) x medián průměr m ~ x průměr - ukazatel středu s2 ~ s2 rozptyl xi x a) b) m s ~ s směrodatná odchylka Pravidlo ± 3s koeficient variance c) d) E (x) ~ x ~ m D (x) ~ s2 ~ s2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Normální rozložení – příklad • Data z průzkumu jsou publikována jako: Kosti prehistorického zvířete: n = 2000 průměrná délka = 60 cm sm. odchylka (s) = 10 cm Předpokládáme, že je oprávněný model normálního rozložení ü Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ? Kolik kostí mělo zřejmě délku větší než 66 cm ? Jaká je pravděpodobnost, že by velikost dané kosti překročila velikost 66 cm: P (x > 66) ? a platí, že tedy 22,6% kostí leží v rozsahu 60-66cm Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Rozložení Parametry Stručný popis Normální Průměr (m) Rozptyl (s2) Symetrická funkce popisující intervalovou hustotu četnosti; nejpravděpodobnější jsou průměrné hodnoty znaku v populaci. Log-normální Medián Geometrický průměr Rozptyl (s2) Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení. Weibullovo a - parametr tvaru b - parametr rozsahu hodnot Změnou parametru a lze modelovat distribuci doby přežití, např. stresovaného organismu. Rozložení využívané i jako model k odhahu LC50 nebo EC50 u testů toxicity. Rovnoměrné Medián Geometrický průměr Rozptyl (s2) Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení. Triangulární f(x) = [b - ABS (x - a)] / b2 a - b < x < a + b Pravděpodobnostní funkce pro typ rozložení, kdy jsou střední hodnoty výrazně pravděpodobnější než hodnoty okrajové. Gamma Parametry distribuční funkce: a - parametr tvaru b - parametr rozsahu hodnot Umožňuje flexibilně modelování distribučních funkcí nejrůznějších tvarů. Např. c2 rozložení je rozložení typu Gamma. Gamma rozložení s a = 1 je známo jako exponenciální rozložení. Stručný přehled dalších rozložení I. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Stručný předal rozložení II. Rozložení Parametry Stručný popis Beta Parametry distribuční funkce: a - parametr tvaru b - parametr rozsahu hodnot Pravděpodobnostní funkce pro proměnnou omezenou rozsahem do intervalu [0; 1]. Je matematicky komplikovanější, ale velmi flexibilní při popisu změn hodnot proměnné v ohraničeném intervalu. Studentovo Stupně volnosti - uvažuje velikost vzorku Průměr Rozptyl Simuluje normální rozložení pro menší vzorky čísel. Pro větší soubory (n > 100) se limitně blíží k normálnímu rozložení. Pearsonovo Stupně volnosti - uvažuje velikost vzorku Slouží především k porovnání četností jevů ve dvou a více kategoriích. Používá se k modelování rozložení odhadu rozptylu normálně rozložených dat. Fisher-Snedecorovo Dvojí stupně volnosti - uvažuje velikost dvou vzorků Používá se k testování hodnot průměrů - F test pro porovnání dvou výběrových rozptylů; F test, ANOVA atd. Stručný přehled dalších rozložení II.