Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Kontingenční tabulky v Excelu Základní popisné statistiky Představení programu Statistica Import a základní popis dat ve Statistice Biostatistika Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová I. Kontingenční tabulky v Excelu Kontingenční tabulka Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová • Frekvenční sumarizace dvou kategoriálních proměnných (binárních, nominálních nebo ordinálních proměnných). • Obecně: R x C kontingenční tabulka (R – počet kategorií jedné proměnné, C – počet kategorií druhé proměnné). • Speciální případ: 2 x 2 tabulka = čtyřpolní tabulka. • Kontingenční tabulky: absolutních četností, celkových procent, řádkových/sloupcových procent • Př.: Sumarizace vyšetřených osob podle pohlaví a výsledku diagnostického testu. Pohlaví Výsledek vyšetření Nemocný Zdravý Celkem Muž 45 11 56 Žena 25 6 31 Celkem 70 17 87 Jsou více nemocní muži nebo ženy? Ukázka kontingenční tabulky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Nemocný Zdravý Celkem Muž 45 11 56 Žena 25 6 31 Celkem 70 17 87 Jsou více nemocní muži nebo ženy? Nemocný Zdravý Celkem Muž 80,4 % 19,6 % 100,0 % Žena 80,6 % 19,4 % 100,0 % Větší počet nemocných mužů, který je dán pouze vyšším zastoupení mužů v celkovém vzorku (56 z 87) Po výpočtu relativních četností vidíme, že se muži a ženy neliší ve výskytu onemocnění Kontingenční tabulka řádkových procent Kontingenční tabulka absolutních četností Kontingenční tabulky v Excelu: zdroj dat a příprava dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Kontingenční tabulka se dá vytvořit: 1. z tabulky v daném sešitě 2. z dat z jiného sešitu Excelu 3. z externích dat (např. MS Access) 4. ze sloučených dat z více oblastí - z různých listů nebo různých sešitů 5. z jiné kontingenční tabulky Data musí být uspořádána formou standardního databázového seznamu: • V prvním řádku: názvy polí • Další řádky: data Vzhled tabulky: karta Domů → Formátovat jako tabulku Vytvoření kontingenční tabulky v Excelu Zdroj dat (kromě Excelu i např. externí databáze) Krok 1 Zdrojová oblast dat Umístění tabulky Krok 2 Kontingenční tabulky – rozvržení parametry na řádcích parametry dat parametry ve sloupcích parametry, které je možné zobrazit v kontingenční tabulce filtr Kontingenční tabulky – nastavení II. Kontingenční tabulka Způsob sumarizace položky Aktualizace dat v kontingenční tabulce Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Při změně dat v tabulce se zdrojovými daty nedojde automaticky k aktualizaci dat v kontingenční tabulce. Musíte provést aktualizaci dat. 1. Stůjte kdekoliv v kontingenční tabulce 2. Na kartě Analýza ve skupině Data klikněte na Aktualizovat (Alt+F5), nebo na Aktualizovat vše (Ctrl+Alt+F5) Aktualizace dat Rozložení kontingenční tabulky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Po vytvoření se kontingenční tabulka zobrazí v tzv. kompaktním formátu. Lze ji zobrazit ale i ve formě tabulky, nebo ve formě osnovy. 1. Stůjte kdekoliv v kontingenční tabulce 2. Na kartě Návrh vyberte tlačítko Rozložení sestavy a volbu Zobrazit ve formě osnovy nebo zobrazit ve formě tabulky Kompaktní formát - uspořádání tabulky aby zabírala co nejméně místa Forma osnovy - řádková pole nižší úrovně je od vyšších úrovní odsazena, řádky nejsou odděleny čarami Forma tabulky - klasická forma tabulky, pole nižší úrovně jsou v dalším sloupci Vyzkoušej! Kontingenční graf Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Data z kontingenční tabulky lze vizualizovat pomocí kontingenčního grafu. Návod: Na kartě Analýza ve skupině Data klikněte na Kontingenční graf. Kontingenční graf Příklad kontingečního grafu: 0 10 20 30 40 50 60 Počet aut dané značky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová II. Základy popisné statistiky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Typy proměnných Kvalitativní (kategoriální) proměnná  lze ji řadit do kategorií, ale nelze ji kvantifikovat Příklad: ?? Kvantitativní (numerická) proměnná  můžeme jí přiřadit číselnou hodnotu Příklad: ?? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Typy proměnných Kvalitativní (kategoriální) proměnná  lze ji řadit do kategorií, ale nelze ji kvantifikovat  Příklady: pohlaví, HIV status, barva vlasů ... Kvantitativní (numerická) proměnná  můžeme ji přiřadit číselnou hodnotu  Příklady: výška, váha, teplota, počet hospitalizací ... Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kvalitativní znaky  Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost sledovaného znaku) a 0 (nepřítomnost sledovaného znaku). Příklad: ??  Nominální znaky: několik kategorií (A, B, C), které nelze uspořádat. Příklad: ??  Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je větší/menší (1<2<3). Příklad: ?? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kvalitativní znaky  Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost sledovaného znaku) a 0 (nepřítomnost sledovaného znaku). Příklady: Diabetes (1-ano, 0-ne), Pohlaví (1-muž, 0-žena).  Nominální znaky: několik kategorií (A, B, C), které nelze uspořádat. Příklad: krevní skupiny (A/B/AB/0).  Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je větší/menší (1<2<3). Příklady: stupeň bolesti (mírná/střední/velká), stádium maligního onemocnění (I/II/III/IV). Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kvantitativní znaky  Intervalové znaky: interpretace rozdílu dvou hodnot (stejný interval mezi jednou a druhou dvojicí hodnot vyjadřuje i stejný rozdíl v intenzitě zkoumané vlastnosti). Společný znak intervalových znaků: nula byla stanovena uměle, tedy pouhou konvencí. Příklad: teplota měřená ve stupních Celsia, letopočet.  Poměrové znaky: kromě rozdílu interpretujeme i podíl dvou hodnot. Příklady: výška v cm, váha v kg, ... Den Teplota Rozdíl 1 Podíl 1 1. 2 °C - - 2. 4 °C +2 2x 3. 6 °C +2 1.5x 1 Srovnání s měřením z předchozího dne 1.5krát vyšší teplota ve srovnání s 2. dnem, přičemž došlo ke stejnému nárůstu teploty jako při srovnání 2. a 1. dne Popisné statistiky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Charakteristiky polohy (míry střední hodnoty, míry centrální tendence) • Udávají, kolem jaké hodnoty se data centrují, resp. které hodnoty jsou nejčastější, popis „těžiště“ – míry polohy • Aritmetický průměr, medián, modus, geometrický průměr Charakteristiky variability (proměnlivosti) • Zachycují rozptýlení hodnot v souboru (proměnlivost dat) • Variační rozpětí, rozptyl, směrodatná odchylka, variační koeficient, střední chyba průměru Charakteristiky polohy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Charakteristiky polohy u nominálních znaků  Modus: nejčastěji se vyskytující hodnota proměnné v souboru. Charakteristiky polohy u ordinálních znaků  α-kvantil: je-li α Є (0,1), pak α-kvantil xα je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl α všech dat a na horní úsek obsahující aspoň podíl 1-α všech dat.  x0,50- medián, x0,25- dolní kvartil, x0,75-horní kvartil, x0,1…. x0,9-decily  Medián: hodnota, jež dělí řadu podle velikosti seřazených výsledků na dvě stejně početné poloviny. Charakteristiky polohy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Charakteristiky polohy u intervalových a poměrových znaků  Aritmetický průměr: je definován jako součet všech naměřených údajů vydělený jejich počtem, kde xi jsou jednotlivé hodnoty a n jejich počet • Geometrický průměr: n kladných hodnot xi, , má smysl všude, kde má nějaký informační smysl součin hodnot proměnné. Z praktického hlediska platí, že logaritmus geometrického průměru je roven aritmetickému průměru logaritmovaných hodnot souboru.   n i nxxxE i 1 /)( n nxx *.......*1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Průměr vs medián PAMATUJ:  Průměr je silně ovlivněn extrémními hodnotami (tzv. odlehlá pozorování), medián není ovlivněn vybočujícími pozorováními  Průměr je vhodný ukazatel středu u normálního/symetrického rozložení, medián je vhodnou charakteristikou středu souboru i v případě veličin s asymetrickým či neznámým rozdělením  V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné, v případě asymetrického rozložení však nikoliv! j(x) Medián x Průměr j(x) x MediánPrůměr Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Charakteristiky variability Charakteristiky variability u intervalových a poměrových znaků  Rozptyl (variance) je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru Jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení  Směrodatná odchylka je druhá odmocnina z rozptylu  Koeficient variance - podíl SD ku průměru, u poměrových znaků, umožňuje porovnat variabilitu několika znaků (vyjadřuje se v %) 1-n )(x 2 i2    x s Charakteristiky variability u ordinálních znaků • (Inter)kvartilové rozpětí (odchylka; IQR): q = x0,75 - x0,25 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková Výpočet rozptylu a směrodatné odchylky  Příklad čtverců odchylek od průměru pro n = 3.  Rozptyl je možno značně ovlivnit odlehlými pozorováními.     n i i xx n s 1 22 )( 1 1 0,269 0,547 0,638 0,733 x1 x2 x3x Rozptyl: Směrodatná odchylka:     n i i xx n s 1 2 )( 1 1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Další parametry rozložení  Počet hodnot – důležitý ukazatel, znamená, jak moc lze na data spoléhat  Suma hodnot  Minimum, maximum  Variační rozpětí (rozsah) – rozdíl mezi největší a nejmenší hodnotou řady  Střední chyba průměru (SE) – měří rozptýlenost vypočítaného aritmetického průměru v různých výběrových souborech vybraných z jednoho základního souboru Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková Popisná sumarizace kvantitativních dat - příklad Data – výška studentů (v cm): 178, 163, 205, 172, 168, 165, 179, 178, 169, 171 Seřazená data: 163, 165, 168, 169, 171, 172, 178, 178, 179, 205 Maximum=205 Minimum=163 Medián=171,5 Variační rozpětí (rozsah) = 205 – 163 = 42 Horníkvartil=178 Dolníkvartil=168 (Inter)kvartilové rozpětí = 178 – 168 = 10   n i nxxxE i 1 /)(Průměr: = (178+163+205+172+168+165+179+178+169+171)/10 = 174.8 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukázka popisu a vizualizace kvalitativních dat Koláčový graf Sloupcový graf  Popis kvalitativních dat: frekvence jednotlivých kategorií  Vizualizace kvalitativních dat: nejčastěji koláčový nebo sloupcový graf Frekvenční tabulka Známka n % A 11 18,0 B 20 32,8 C 16 26,2 D 9 14,8 E 5 8,2 F 0 0,0 Celkem 61 100,0 Příklad: Známka z biostatistiky (podzim 2014) A; 18% E; 8% D; 15% C; 26% B; 33% A B C D E Známka 0 4 8 12 16 20 24 Počet 18% 33% 26% 15% 8% Ukázka popisu kvantitativních dat  Popis kvantitativních dat: charakteristika středu (průměr, medián aj.), charakteristika variability (rozptyl, rozsah hodnot, interkvartilové rozpětí aj.) Popisné statistiky Příklad: Popis výšky (cm) pacientů Charakteristika N 61 Průměr (cm) 161,0 Medián (cm) 161,5 Sm. odchylka (cm) 4,7 Rozptyl (cm2) 22,2 min-max (cm) 144 – 169 dolní-horní kvartil (cm) 158 - 164 Průměr a medián se téměř shodují. Co nám to říká? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukázka vizualizace kvantitativních dat  Vizualizace kvantitativních dat: nejčastěji pomocí krabicového grafu nebo histogramu Histogram 140 145 150 155 160 165 170 175 výška 0% 10% 20% 30% 39% % 140 150 160 170 výška(cm) Krabicový graf maximum (100% kvantil) horní kvartil (75% kvantil) medián (50% kvantil) dolní kvartil (25% kvantil) minimum (0% kvantil) Příklad: Popis výšky (cm) pacientů Jsou data symetrická? Odlehlá hodnota? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová III. Cvičení v programu Statistica Základní popisné statistiky v programu Statistica Datový soubor pacienti.sta Datový soubor studenti.sta Program Statistica Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Jak získat program Statistica: https://inet.muni.cz Login a heslo: UČO a primární heslo jako do IS-u. V nabídce kliknout na: Provozní služby – Software – Nabídka softwaru Nalézt: Statistica 13.3 – kliknout Získat Postupovat dle návodu Základy popisné statistiky: soubor pacienti.sta Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Načtěte soubor pacienti.sta, který obsahuje údaje o 61 pacientech. • Nejprve budeme pracovat s kategoriální proměnnou. • Pro proměnnou pohlaví zjistěte: absolutní, relativní četnost, dále absolutní a relativní kumulativní četnost Postup: Statistics – Basic Statistics – Frequency tables Základy popisné statistiky: soubor pacienti.sta Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová • Pomocí výsečového grafu (koláčového grafu) znázorněte proměnnou Pohlaví, doplňte procenta (relativní četnost). Postup vytvoření grafu: Graphs – 2D – Pie Charts... Postup přidání legendy: na záložce Advanced kliknout na „Text and Percent“ Základy popisné statistiky: soubor pacienti.sta Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová • Nyní budeme pracovat se spojitou proměnnou. • Pro proměnnou váha zjistěte: průměr, medián, minimum, maximum a směrodatnou odchylku Postup: Statistics – Basic Statistics – Descriptive statistics Základy popisné statistiky: soubor pacienti.sta Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová • Pokud bychom chtěli zjistit průměrnou váhu pouze u mužů, klikneme na tlačítko SELECT CASES a zvolíte Pohlaví=“muz“(nezapomínejte na uvozovky) Základy popisné statistiky: soubor pacienti.sta Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová • Vytvořte histogram s rozpětím hodnot po pěti, poté zkuste to samé pro muže a ženy. Postup: Záložka Graphs -> Histogram -> proměnná váha, záložka Advanced: zatrhnout Boundaries -> Specify Boundaries Základy popisné statistiky: soubor pacienti.sta Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová • Pokud chceme váhu odděleně pro pohlaví - po boku vpravo By group: vybereme proměnnou pohlaví. Základy popisné statistiky: soubor pacienti.sta Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová • Pokud chceme histogram váhy pro muže i ženy mít v jenom grafu: vybereme záložku Categorized, zapneme kategorii X a změníme proměnnou na pohlaví. Základy popisné statistiky: soubor pacienti.sta Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová • Překódovaní proměnné: • Proměnnou váha překódujte do proměnné vaha_kategorie tak, aby pacienti pod 60 kg tvořili jednu skupinu a pacienti 60+ druhou skupinu. Návod: Vložíme novou proměnnou vaha_kategorie za proměnnou váha. Označíme novou proměnnou vaha_kategorie, záložka Data -> Recode • Zjistěte, kolik % žen mělo váhu pod 60 kg? Samostatné cvičení: soubor studenti.sta Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Načtěte soubor studenti.sta, který obsahuje údaje o 26 studentech, získané informace jsou shrnuty v proměnných A,B,C,D. Návod: Záložka Home → Open → vybereme soubor studenti.sta. Změňte názvy proměnných: A-jméno studenta, B-známka z biostatistiky, C-pohlaví, D-věk. U proměnných B a C popište jednotlivé varianty (proměnná B odpovídá známce: 1- výborně, 2- velmi dobře, 3- dobře, 4- nedostatečně; proměnná C odpovídá pohlaví:1 - muž, 2 - žena) Návod: Vybereme nejprve příslušnou proměnnou A, 2krát klikneme myší → do položky Name napíšeme nový název proměnné (All Specs… umožní přejmenovat všechny proměnné najednou; Text Labels číselným hodnotám přiřadí textový popisek). Pojmenujte názvy řádků tabulky jmény studentů, poté proměnnou jméno studenta smažte. Návod: Záložka Data → Names → Transfer case names from → Variable: Jméno studenta; smazání-vybereme proměnnou Jméno studenta, pravé tlačítko myši → Delete Variable. Samostatné cvičení: soubor studenti.sta Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová U proměnné Známka zjistěte absolutní, relativní četnost, dále absolutní a relativní kumulativní četnost. Návod: Záložka Statistics → Basic Statistics → Frequency tables → Variables: známka z biostatistiky → Summary Zjistěte průměr, medián pro proměnnou Věk. U proměnné pohlaví zjistěte modus. Pro proměnnou známka zjistěte medián, modus. Návod: Způsob 1: Označíme proměnnou věk, pravé tlačítko → Statistics of Block Data → Blocks columns → All Zbůsob 2: Záložka Statistics → Basic Statistics → Descriptive statistics → Variables: věk → záložka Advanced → vybereme Mean, Median. Samostatné cvičení: soubor studenti.sta Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Proměnnou věk překódujte pomocí následujících 5 intervalů: <20,22>, (22,25>, (25,28>, (28,31>, (31,33> do proměnné Věk 2. Návod: Vložíme novou proměnnou Věk 2 za proměnnou Věk. Označíme novou proměnnou Věk 2, záložka Data → Recode → Category 1: věk>=20 and věk<=22, New Value: 1 atd. Pomocí koláčového grafu znázorněte proměnnou Známku a Pohlaví, doplňte procenta (relativní četnost). Návod: Záložka Graphs → 2D → Pie Charts → Záložka: Quick: Variables: Známka, Pohlaví; Záložka:Advanced → Pie legends vyber Text and Percent. Pomocí sloupcového grafu znázorněte věk pouze pro muže. Návod: Záložka Graphs → 2D → Bar/Column Plots → Variables: Věk, v tomtéž okně napravo klikneme na Select Cases →zaškrtneme možnost Enable Selection Conditions → Specific→ selected by Expression: Pohlaví=1. Samostatné cvičení: soubor studenti.sta Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Pro proměnnou Věk vytvořte histogram s intervaly širokými dva roky, poté zkuste to samé zvlášť pro muže a ženy. Návod: Záložka Graphs → Histogram → Variables: věk, záložka Advanced: Intervals Boundaries → Specifies boundaries po boku vpravo By group: vybereme proměnnou pohlaví