logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Kontingenční tabulky v Excelu Základní popisné statistiky Představení programu Statistica Import a základní popis dat ve Statistice ASTAc/03 Biostatistika 2. cvičení logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová I. Kontingenční tabulky v Excelu logo-IBA Kontingenční tabulka Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová •Frekvenční sumarizace dvou kategoriálních proměnných (binárních, nominálních nebo ordinálních proměnných). •Obecně: R x C kontingenční tabulka (R – počet kategorií jedné proměnné, C – počet kategorií druhé proměnné). •Speciální případ: 2 x 2 tabulka = čtyřpolní tabulka. •Kontingenční tabulky: absolutních četností, celkových procent, řádkových/sloupcových četností • •Př.: Sumarizace vyšetřených osob podle pohlaví a výsledku diagnostického testu. Pohlaví Výsledek vyšetření Nemocný Zdravý Celkem Muž 45 11 56 Žena 25 6 31 Celkem 70 17 87 logo-IBA Ukázka kontingenční tabulky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Nemocný Zdravý Celkem Muž a b a + b Žena c d c + d Celkem a + c b + d a + b + c + d = N Nemocný Zdravý Celkem Muž 45 11 56 Žena 25 6 31 Celkem 70 17 87 Celkový počet hodnot Simultánní absolutní četnost Marginální absolutní četnost •Vztah pohlaví a výskytu onemocnění (pozor na hodnocení nesmyslného vztahu) • Jsou více nemocní muži nebo ženy? C:\Users\brozova\Desktop\red-question-mark-cartoon-character-with-a-confused-expression_150426020.j pg logo-IBA Ukázka kontingenční tabulky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Nemocný Zdravý Celkem Muž 45 11 56 Žena 25 6 31 Celkem 70 17 87 Jsou více nemocní muži nebo ženy? Nemocný Zdravý Celkem Muž 80,4 % 19,6 % 100,0 % Žena 80,6 % 19,4 % 100,0 % Větší počet nemocných mužů, který je dán pouze vyšším zastoupení mužů v celkovém vzorku (56 z 87) C:\Users\brozova\Desktop\happy-red-question-mark-cartoon-character-pointing-with-finger_150257549.j pg Po výpočtu relativních četností vidíme, že se muži a ženy neliší ve výskytu onemocnění Kontingenční tabulka řádkových procent Kontingenční tabulka absolutních četností logo-IBA Kontingenční tabulky v Excelu: zdroj dat a příprava dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Kontingenční tabulka se dá vytvořit: 1.z tabulky v daném sešitě 2.z dat z jiného sešitu Excelu 3.z externích dat (např. MS Access) 4.ze sloučených dat z více oblastí - z různých listů nebo různých sešitů 5.z jiné kontingenční tabulky 6. Data musí být uspořádána formou standardního databázového seznamu: •V prvním řádku: názvy polí •Další řádky: data • Vzhled tabulky: karta Domů → Formátovat jako tabulku logo-IBA logomuni Vytvoření kontingenční tabulky v Excelu Zdroj dat (kromě Excelu i např. externí databáze) Graf nebo tabulka Zdrojová oblast dat Umístění tabulky logo-IBA logomuni Kontingenční tabulky – rozvržení parametry na řádcích parametry dat parametry ve sloupcích parametry, které je možné zobrazit v kontingenční tabulce filtr logo-IBA logomuni Kontingenční tabulky – nastavení II. Kontingenční tabulka Způsob sumarizace položky logo-IBA Aktualizace dat v kontingenční tabulce Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Při změně dat v tabulce se zdrojovými daty nedojde automaticky k aktualizaci dat v kontingenční tabulce. Musíte provést aktualizaci dat. 1.Stůjte kdekoliv v kontingenční tabulce 2.Na kartě Možnosti ve skupině Data klikněte na Aktualizovat (Alt+F5), nebo na Aktualizovat vše (Ctrl+Alt+F5) Data z kontingenční tabulky lze vizualizovat pomocí kontingenčního grafu 1. 1. Aktualizace dat Možnosti tabulky Kontingenční graf logo-IBA Rozložení kontingenční tabulky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Po vytvoření se kontingenční tabulka zobrazí v tzv. kompaktním formátu. Lze ji zobrazit ale i ve formě tabulky, nebo ve formě osnovy. 1.Stůjte kdekoliv v kontingenční tabulce 2.Na kartě Návrh vyberte tlačítko Rozložení sestavy a volbu Zobrazit ve formě osnovy nebo zobrazit ve formě tabulky Kompaktní formát - uspořádání tabulky aby zabírala co nejméně místa Forma osnovy - řádková pole nižší úrovně je od vyšších úrovní odsazena, řádky nejsou odděleny čarami Forma tabulky - klasická forma tabulky, pole nižší úrovně jsou v dalším sloupci Vyzkoušej! logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová II. Základy popisné statistiky logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jaké úlohy řeší biostatistika? —Popis cílové populace – odhady charakteristik cílové populace — —Srovnání skupin – testování hypotéz — —Regresní analýza – stochastické modelování pro vysvětlení variability — —Predikce a klasifikace – stochastické modelování a klasifikační algoritmy pro předpovídání neznámých hodnot logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Motivace —Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod - od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené. — —Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací – histogramů. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Typy proměnných —Kvalitativní (kategoriální) proměnná —lze ji řadit do kategorií, ale nelze ji kvantifikovat — Příklad: ?? — —Kvantitativní (numerická) proměnná —můžeme ji přiřadit číselnou hodnotu — Příklad: ?? — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Typy proměnných —Kvalitativní (kategoriální) proměnná —lze ji řadit do kategorií, ale nelze ji kvantifikovat —Příklady: pohlaví, HIV status, barva vlasů ... — —Kvantitativní (numerická) proměnná —můžeme ji přiřadit číselnou hodnotu —Příklady: výška, váha, teplota, počet hospitalizací ... logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kvalitativní znaky —Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost sledovaného znaku) a 0 (nepřítomnost sledovaného znaku). —Příklad: ?? — —Nominální znaky: několik kategorií (A, B, C), které nelze uspořádat. —Příklad: ?? — —Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je větší/menší (1<2<3). —Příklad: ?? — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kvalitativní znaky —Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost sledovaného znaku) a 0 (nepřítomnost sledovaného znaku). —Příklady: Diabetes (1-ano, 0-ne), Pohlaví (1-muž, 0-žena). — —Nominální znaky: několik kategorií (A, B, C), které nelze uspořádat. —Příklad: krevní skupiny (A/B/AB/0). — —Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je větší/menší (1<2<3). —Příklady: stupeň bolesti (mírná/střední/velká), stadium maligního onemocnění (I/II/III/IV). — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kvantitativní znaky —Intervalové znaky: interpretace rozdílu dvou hodnot (stejný interval mezi jednou a druhou dvojicí hodnot vyjadřuje i stejný rozdíl v intenzitě zkoumané vlastnosti). Společný znak intervalových znaků: nula byla stanovena uměle, tedy pouhou konvencí. Příklad: teplota měřená ve stupních Celsia, letopočet. — — — — — — — —Poměrové znaky: kromě rozdílu interpretujeme i podíl dvou hodnot. — Příklady: výška v cm, váha v kg, ... — — Den Teplota Rozdíl 1 Podíl 1 1. 2 °C - - 2. 4 °C +2 2x 3. 6 °C +2 1.5x 1 Srovnání s měřením z předchozího dne 1.5krát vyšší teplota ve srovnání s 2. dnem, přičemž došlo ke stejnému nárůstu teploty jako při srovnání 2. a 1. dne logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Různé typy dat znamenají různou informaci Kolikrát ? O kolik ? Větší, menší ? Rovná se ? Data poměrová Data intervalová Data ordinální Data nominální Spojitá data Diskrétní data * Spojitá data můžeme agregovat do kategorií. Ztratíme část informace Zjednodušíme si interpretaci výsledků Z vytvořených kategorií již nelze zrekonstruovat původní spojitou proměnnou * Pozor! I kvantitativní data mohou být diskrétního typu. Např.: počet dětí v rodině. • logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek N: 100 dětí (hemofiliků) x: znak: počet krvácivých epizod za měsíc n(x) – absolutní četnost x N(x) – kumulativní četnost hodnot nepřevyšujících x; N(x) = S n(t) p(x) – relativní četnost; p(x) = n(x) / n F(x) – kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n Jak vznikají informace ? - frekvenční tabulka jako základní nástroj popisu Primární data Frekvenční sumarizace x n(x) N(x) p(x) F(x) 0 20 20 0,2 0,2 1 10 30 0,1 0,3 2 30 60 0,3 0,6 3 40 100 0,4 1,0 0 0 1 2 1 1 3 1 1 2 . . . . . . n = 100 t Ł x DISKRÉTNÍ DATA logo-IBA n(x) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? Grafické výstupy z frekvenční tabulky x p(x) x N(x) x F(x) x 3 2 1 0 0 1 2 3 0 1 2 3 0 1 2 3 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? - frekvenční tabulka jako základní nástroj popisu —Příklad: x: koncentrace látky v krvi n = 100 pacientů Primární data Frekvenční sumarizace n = 100 opakovaných měření (100 pacientů) x: koncentrace sledované látky v krvi (20 – 100 jednotek) d(l) – šířka intervalu n(l) – absolutní četnost n(l) / n – intervalová relativní četnost N(x’’) – intervalová kumulativní četnost do horní hranice X’’ F(x’’) – intervalová relativní kumulativní četnost do horní hranice X’’ * Třídící interval Interval* d(l) n(l) n(l)/n N(x’’) F(x’’) <20, 40) 20 20 0,2 20 0,2 <40, 60) 20 10 0,1 30 0,3 <60, 80) 20 40 0,4 70 0,7 <80, 100) 20 30 0,3 100 1,0 1,21 1,48 1,56 0,31 1,21 1,33 0,33 . . . n = 100 SPOJITÁ DATA logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad: věk účastníků vážných dopravních nehod Věk (roky) Věk (roky) Správný histogram ? Věk 0 - 4 5 - 9 10 - 15 16 - 19 20 - 24 25 - 59 > 60 f 28 46 58 20 114 316 103 Správný histogram ? logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? - frekvenční sumarizace spojitých dat x x F(x) Intervalová relativní kumulativní četnost Histogram Výběrová distribuční funkce f(x)= Intervalová hustota četnosti 20 40 60 80 100 Plocha: n(l) / n n(l) / n d(l) logo-IBA Histogram – počet intervalů Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek •Počtem zvolených intervalů v histogramu rozhodujeme o tom, jak bude vypadat. Při malém počtu můžeme přehlédnout důležité prvky v datech, při velkém zase může být informace roztříštěná. • • • • • • • •Dvě základní metody volby počtu intervalů m: 1.Odmocnina z celkového počtu: 2.Sturgesovo pravidlo: logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Histogram vyjadřuje tvar výběrového rozložení x x x x x f(x) f(x) f(x) f(x) f(x) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Výběrové rozložení hodnot lze modelově popsat a definovat tak pravděpodobnost výskytu X f(x) x f(x) x f(x) x j(x) j(x) j(x) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Pojem ROZLOŽENÍ - příklad spojitých dat j(x) 0 F(x) Hustota pravděpodobnosti =rozložení x 0 Je - li dána distribuční funkce, je dáno rozložení x Kvantilová funkce Distribuční funkce logo-IBA Popisné statistiky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Charakteristiky polohy (míry střední hodnoty, míry centrální tendence) •Udávají, kolem jaké hodnoty se data centrují, resp. které hodnoty jsou nejčastější, popis „těžiště“ – míry polohy •Aritmetický průměr, medián, modus, geometrický průměr • Charakteristiky variability (proměnlivosti) •Zachycují rozptýlení hodnot v souboru (proměnlivost dat) •Variační rozpětí, rozptyl, směrodatná odchylka, variační koeficient, střední chyba průměru logo-IBA Nominální znaky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Charakteristika polohy —Modus: nejčastěji se vyskytující hodnota proměnné v souboru (hodnota s největší četností). V tabulce rozdělení četností se modus určí jednoduše z hodnoty znaku s největší četností. logo-IBA Ordinální znaky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Charakteristika polohy —α-kvantil: je-li α Є (0,1), pak α-kvantil xα je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl α všech dat a na horní úsek obsahující aspoň podíl 1-α všech dat. —Pro speciálně zvolená α užíváme názvů: x0,50- medián, x0,25- dolní kvartil, x0,75-horní kvartil, x0,1…. x0,9-decily —Medián znamená hodnotu, jež dělí řadu podle velikosti seřazených výsledků na dvě stejně početné poloviny. Jestliže n je sudé číslo, pak Jestliže n je liché číslo, pak Charakteristika variability •Kvartilové rozpětí (odchylka): q=x0,75-x0,25 logo-IBA Intervalové a poměrové znaky I Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Charakteristika polohy —Aritmetický průměr: je definován jako součet všech naměřených údajů vydělený jejich počtem, kde xi jsou jednotlivé hodnoty a n jejich počet — • •Geometrický průměr: n kladných hodnot xi, , má smysl všude, kde má nějaký informační smysl součin hodnot proměnné. Z praktického hlediska platí, že logaritmus geometrického průměru je roven aritmetickému průměru logaritmovaných hodnot souboru. — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Průměr vs medián —PAMATUJ: —Průměr je silně ovlivněn extrémními hodnotami (tzv. odlehlá pozorování), medián není ovlivněn vybočujícími pozorováními —Průměr je vhodný ukazatel středu u normálního/symetrického rozložení, medián je vhodnou charakteristikou středu souboru i v případě veličin s neznámým rozdělením —V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné, v případě asymetrického rozložení však nikoliv! — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Intervalové a poměrové znaky II —Charakteristiky variability —Rozptyl (variance) je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru — — Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení —Směrodatná odchylka (SD-standard deviation) je druhá odmocnina z rozptylu —Koeficient variance - podíl SD ku průměru, u poměrových znaků, umožňuje porovnat variabilitu několika znaků (často se vyjadřuje v procentech – potom udává, z kolika procent se podílí směrodatná odchylka na aritmetickém průměru) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele tvaru rozložení —Skewness (šikmost) – ukazatel „šikmosti“ rozložení, asymetrie rozložení —Kurtosis (špičatost) – ukazatel „špičatosti/plochosti“ rozložení logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Další parametry rozložení —Počet hodnot – důležitý ukazatel, znamená jak moc lze na data spoléhat —Suma hodnot —Minimum, maximum —Variační rozpětí (rozsah) – rozdíl mezi největší a nejmenší hodnotou řady —Střední chyba průměru (SE) – měří rozptýlenost vypočítaného aritmetického průměru v různých výběrových souborech vybraných z jednoho základního souboru logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukázka popisu a vizualizace kvalitativních dat —Koláčový graf Sloupcový graf —Popis kvalitativních dat: frekvence jednotlivých kategorií —Vizualizace kvalitativních dat: nejčastěji koláčový nebo sloupcový graf Frekvenční tabulka Známka n % A 11 18,0 B 20 32,8 C 16 26,2 D 9 14,8 E 5 8,2 F 0 0,0 Celkem 61 100,0 Příklad: Známka z biostatistiky (podzim 2014) logo-IBA Ukázka popisu kvantitativních dat —Popis kvantitativních dat: charakteristika středu (průměr, medián aj.), charakteristika variability (rozptyl, rozsah hodnot, interkvartilové rozpětí aj.) Popisné statistiky Příklad: Popis výšky (cm) pacientů Charakteristika N 61 Průměr (cm) 161,0 Medián (cm) 161,5 sm. odchylka (cm) 4,7 Rozptyl (cm2) 22,2 min-max (cm) 144,1 - 169,2 dolní-horní kvartil (cm) 158,1 - 164,2 Průměr a medián se téměř shodují. Co nám to říká? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek logo-IBA Ukázka vizualizace kvantitativních dat —Vizualizace kvantitativních dat: nejčastěji pomocí krabicového grafu nebo histogramu —Histogram Krabicový graf maximum (100% kvantil) horní kvartil (75% kvantil) medián (50% kvantil) dolní kvartil (25% kvantil) minimum (0% kvantil) Příklad: Popis výšky (cm) pacientů Jsou data symetrická? Odlehlá hodnota? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek