Biostatistika Kontingenční tabulky v Excelu Základní popisné statistiky Představení programu Statistica Import a základní popis dat ve Statistice Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová I. Kontingenční tabulky v Excelu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Kontingenční tabulka • • • • Frekvenční sumarizace dvou kategoriálních proměnných (binárních, nominálních nebo ordinálních proměnných). Obecně: R x C kontingenční tabulka (R – počet kategorií jedné proměnné, C – počet kategorií druhé proměnné). Speciální případ: 2 x 2 tabulka = čtyřpolní tabulka. Kontingenční tabulky: absolutních četností, celkových procent, řádkových/sloupcových četností Př.: Sumarizace vyšetřených osob podle pohlaví a výsledku diagnostického testu. Výsledek vyšetření Pohlaví Muž Žena Celkem Vytvořil Institut biostatistiky a Nemocný 45 25 70 Zdravý 11 6 17 Celkem 56 31 87 Jsou více nemocní muži nebo ženy? • Ukázka kontingenční tabulky Nemocný Muž Žena Celkem 45 25 70 Zdravý 11 6 17 Celkem 56 31 87 Kontingenční tabulka absolutních četností Nemocný Muž Žena 80,4 % 80,6 % Větší počet nemocných mužů, který je dán pouze vyšším zastoupení mužů v celkovém vzorku (56 z 87) Kontingenční tabulka řádkových procent Zdravý Celkem 19,6 % 19,4 % 100,0 % 100,0 % Jsou více nemocní muži nebo ženy? Vytvořil Institut biostatistiky a Po výpočtu relativních četností vidíme, že se muži a ženy neliší ve výskytu onemocnění Kontingenční tabulky v Excelu: zdroj dat a příprava dat Kontingenční tabulka se dá vytvořit: 1. z tabulky v daném sešitě 2. z dat z jiného sešitu Excelu 3. z externích dat (např. MS Access) 4. ze sloučených dat z více oblastí - z různých listů nebo různých sešitů 5. z jiné kontingenční tabulky Data musí být uspořádána formou standardního databázového seznamu: •. V prvním řádku: názvy polí •. Další řádky: data Vzhled tabulky: karta Domů → Formátovat jako tabulku Vytvořil Institut biostatistiky a Vytvoření kontingenční tabulky v Excelu Zdroj dat (kromě Excelu i např. externí databáze) Zdrojová oblast dat Graf nebo tabulka Umístění tabulky Kontingenční tabulky – rozvržení parametry, které je možné zobrazit v kontingenční tabulce filtr parametry ve sloupcích parametr y na řádcích parametry dat Kontingenční tabulky – nastavení II. Kontingenční tabulka Způsob sumarizac e položky Aktualizace dat v kontingenční tabulce Při změně dat v tabulce se zdrojovými daty nedojde automaticky k aktualizaci dat v kontingenční tabulce. Musíte provést aktualizaci dat. 1. Stůjte kdekoliv v kontingenční tabulce 2. Na kartě Možnosti ve skupině Data klikněte na Aktualizovat (Alt+F5), nebo na Aktualizovat vše (Ctrl+Alt+F5) Data z kontingenční tabulky lze vizualizovat pomocí kontingenčního grafu Aktualizac e dat Kontingenč ní graf Možnost i tabulky Vytvořil Institut biostatistiky a Rozložení kontingenční tabulky Po vytvoření se kontingenční tabulka zobrazí v tzv. kompaktním formátu. Lze ji zobrazit ale i ve formě tabulky, nebo ve formě osnovy. 1. Stůjte kdekoliv v kontingenční tabulce 2. Na kartě Návrh vyberte tlačítko Rozložení sestavy a volbu Zobrazit ve formě osnovy nebo zobrazit ve formě tabulky Kompaktní formát - uspořádání tabulky aby zabírala co nejméně místa Forma osnovy - řádková pole nižší úrovně je od vyšších úrovní odsazena, řádky nejsou odděleny čarami Forma tabulky - klasická forma tabulky, pole nižší úrovně jsou v dalším sloupci Vyzkoušej! Vytvořil Institut biostatistiky a II. Základy popisné statistiky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Kvalitativní (kategoriální) proměnná lze ji řadit do kategorií, ale nelze ji kvantifikovat Příklad: ?? Kvantitativní (numerická) proměnná můžeme ji přiřadit číselnou hodnotu Příklad: ?? Vytvořil Institut biostatistiky a Kvalitativní (kategoriální) proměnná lze ji řadit do kategorií, ale nelze ji kvantifikovat Příklady: pohlaví, HIV status, barva vlasů ... Kvantitativní (numerická) proměnná můžeme ji přiřadit číselnou hodnotu Příklady: výška, váha, teplota, počet hospitalizací ... Vytvořil Institut biostatistiky a Vytvořil Institut biostatistiky a Vytvořil Institut biostatistiky a Intervalové znaky: interpretace rozdílu dvou hodnot (stejný interval mezi jednou a druhou dvojicí hodnot vyjadřuje i stejný rozdíl v intenzitě zkoumané vlastnosti). Společný znak intervalových znaků: nula byla stanovena uměle, tedy pouhou konvencí. Příklad: teplota měřená ve stupních Celsia, letopočet. Den 1. 2. 3. Teplota 2 °C 4 °C 6 °C Rozdíl 1 +2 +2 Podíl 1 2x 1.5x 1 Srovnání s měřením z předchozího dne 1.5krát vyšší teplota ve srovnání s 2. dnem, přičemž došlo ke stejnému nárůstu teploty jako při srovnání 2. a 1. dne Poměrové znaky: kromě rozdílu interpretujeme i podíl dvou hodnot. Příklady: výška v cm, váha v kg, ... Vytvořil Institut biostatistiky a Popisné statistiky Charakteristiky polohy (míry střední hodnoty, míry centrální tendence) • • Udávají, kolem jaké hodnoty se data centrují, resp. které hodnoty jsou nejčastější, popis „těžiště“ – míry polohy Aritmetický průměr, medián, modus, geometrický průměr Charakteristiky variability (proměnlivosti) • • Zachycují rozptýlení hodnot v souboru (proměnlivost dat) Variační rozpětí, rozptyl, směrodatná odchylka, variační koeficient, střední chyba průměru Vytvořil Institut biostatistiky a Charakteristiky polohy Charakteristiky polohy u nominálních znaků  Modus: nejčastěji se vyskytující hodnota proměnné v souboru. Charakteristiky polohy u ordinálních znaků α-kvantil: je-li α Є (0,1), pak α-kvantil xα je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl α všech dat a na horní úsek obsahující aspoň podíl 1-α všech dat. x0,50- medián, x0,25- dolní kvartil, x0,75-horní kvartil, x0,1…. x0,9-decily Medián: hodnota, jež dělí řadu podle velikosti seřazených výsledků na dvě stejně početné poloviny. Vytvořil Institut biostatistiky a Charakteristiky polohy Charakteristiky polohy u intervalových a poměrových znaků  Aritmetický průměr: je definován jako součet všech naměřených n údajů= x = E ( x) vydělený ijejich počtem, x /n kde xi jsou jednotlivé hodnoty a n jejich počet i =1 n ∑ x1 * ....... * x n • Geometrický průměr: n kladných hodnot xi, , má smysl všude, kde má nějaký informační smysl součin hodnot proměnné. Z praktického hlediska platí, že logaritmus geometrického průměru je roven aritmetickému průměru logaritmovaných hodnot souboru. Vytvořil Institut biostatistiky a ϕ(x) ϕ(x) x Průměr Medián Medián Průměr x Vytvořil Institut biostatistiky a Charakteristiky variability u ordinálních znaků • Kvartilové rozpětí (odchylka): q = x0,75 - x0,25 Charakteristiky variability u intervalových a poměrových znaků Rozptyl (variance) je ukazatelem šířky rozložení získaný) na ∑ (x i − x 2 s2 = základě odchylky jednotlivých hodnot od průměru n -1 Jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení Směrodatná odchylka je druhá odmocnina z rozptylu Koeficient variance - podíl SD ku průměru, u poměrových znaků, umožňuje porovnat variabilitu několika znaků (vyjadřuje se v %) Vytvořil Institut biostatistiky a Vytvořil Institut biostatistiky a  Popis kvalitativních dat: frekvence jednotlivých kategorií  Vizualizace kvalitativních dat: nejčastěji koláčový nebo sloupcový graf Příklad: Známka z biostatistiky (podzim 2014) Koláčový graf E; 8% A; 18% D; 15% Počet 24 20 16 12 8 8% 4 18% 15% 33% 26% Frekvenční tabulka Známka A B C D E F Celkem n % 11 18,0 20 32,8 16 26,2 9 14,8 5 8,2 0 0,0 61 100,0 Sloupcový graf C; 26% B; 33% 0 A B C D E Známka Vytvořil Institut biostatistiky a  Popis kvantitativních dat: charakteristika středu (průměr, medián aj.), charakteristika variability (rozptyl, rozsah hodnot, interkvartilové rozpětí aj.) Příklad: Popis výšky (cm) pacientů Popisné statistiky Charakteristika N Průměr (cm) Medián (cm) Sm. odchylka (cm) Rozptyl (cm2) min-max (cm) dolní-horní kvartil (cm) 61 Průměr a medián se 161,0 téměř shodují. Co nám 161,5 to říká? 4,7 22,2 144 – 169 158 - 164 Vytvořil Institut biostatistiky a  Vizualizace kvantitativních dat: nejčastěji pomocí krabicového grafu nebo histogramu Příklad: Popis výšky (cm) pacientů Krabicový graf 170 Histogram 39% maximum (100% kvantil) horní kvartil (75% kvantil) medián (50% kvantil) dolní kvartil (25% kvantil) Jsou data symetrická ? minimum (0% kvantil) Vytvořil Institut biostatistiky a % 30% výška (cm) 160 20% 10% 150 0% 140 Odlehlá hodnota? 140 145 150 155 160 165 170 175 výška III. Cvičení v programu Statistica Základní popisné statistiky v programu Statistica Datový soubor pacienti.sta Datový soubor studenti.sta Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Program Statistica Jak získat program Statistica: https://inet.muni.cz Login a heslo: UČO a primární heslo jako do IS-u. V ponuke kliknout: Provozní služby – Software – Nabídka softwaru Nalézt: Statistica 13 – kliknout Získat Postupovat dle návodu Vytvořil Institut biostatistiky a Základy popisné statistiky: soubor pacienti.sta Načtěte soubor pacienti.sta, který obsahuje údaje o 61 pacientech. • Nejprve budeme pracovat s kategoriální proměnnou. • Pro proměnnou pohlaví zjistěte: absolutní, relativní četnost, dále absolutní a relativní kumulativní četnost Vytvořil Institut biostatistiky a Základy popisné statistiky: soubor pacienti.sta • Pomocí výsečového grafu (koláčového grafu) znázorněte proměnnou Pohlaví, doplňte procenta (relativní četnost). Vytvořil Institut biostatistiky a Základy popisné statistiky: soubor pacienti.sta • Nyní budeme pracovat se spojitou proměnnou. • Pro proměnnou váha zjistěte: průměr, medián, minimum a maximum Vytvořil Institut biostatistiky a Základy popisné statistiky: soubor pacienti.sta • Pokud bychom chtěli zjistit průměrnou váhu pouze u mužů, klikneme na tlačítko select cases a zvolíte Pohlaví=“muz“(nezapomínejte na uvozovky) Vytvořil Institut biostatistiky a Základy popisné statistiky: soubor pacienti.sta • Vytvořte histogram s rozpětím hodnot po pěti, poté zkuste to samé pro muže a ženy. Návod: Záložka Graphs->Histogram->proměnná váha, záložka Advanced: Intervals Boundaries, Specifies boundaries Vytvořil Institut biostatistiky a Základy popisné statistiky: soubor pacienti.sta • Pokud chceme váhu odděleně pro pohlaví - po boku vpravo By group: vybereme proměnnou pohlaví . Vytvořil Institut biostatistiky a Základy popisné statistiky: soubor pacienti.sta • Pokud chceme histogram váhy pro muže i ženy mít v jenom grafu: vybereme záložku Categorized, zapneme kategorii X a změníme proměnnou na pohlaví. Vytvořil Institut biostatistiky a Základy popisné statistiky: soubor pacienti.sta • Překódovaní proměnné • Proměnnou váha překódujte do proměnné vaha_kategorie tak, aby pacienti pod 60 kg tvořili jednu skupinu a pacienti 60+ druhou skupinu. Návod: Vložíme novou proměnnou vaha_kategorie za proměnnou váha. Označíme novou proměnnou vaha_kategorie, záložka Data -> Recode • Zjistěte, kolik % žen mělo váhu pod 60 kg? Vytvořil Institut biostatistiky a Samostatné cvičení: soubor studenti.sta Načtěte soubor studenti.sta, který obsahuje údaje o 26 studentech, získané informace jsou shrnuty v proměnných A,B,C,D. Návod: Záložka Home → Open → vybereme soubor studenti.sta. Změňte názvy proměnných: A-jméno studenta, B-známka z biostatistiky, C-pohlaví, D-věk. U proměnných B a C popište jednotlivé varianty (proměnná B odpovídá známce: 1- výborně, 2- velmi dobře, 3- dobře, 4nedostatečně; proměnná C odpovídá pohlaví:1 - muž, 2 - žena) Návod: Vybereme nejprve příslušnou proměnnou A, 2krát klikneme myší → do položky Name napíšeme nový název proměnné (All Specs… umožní přejmenovat všechny proměnné najednou; Text Labels číselným hodnotám přiřadí textový popisek). Pojmenujte názvy řádků tabulky jmény studentů, poté proměnnou jméno studenta smažte. Návod: Záložka Data → Names → Transfer case names from → Variable: Jméno studenta; smazání-vybereme proměnnou Jméno studenta, pravé tlačítko myši → Delete Vytvořil Institut biostatistiky a Variable. Samostatné cvičení: soubor studenti.sta U proměnné Známka zjistěte absolutní, relativní četnost, dále absolutní a relativní kumulativní četnost. Návod: Záložka Statistics → Basic Statistics → Frequency tables → Variables: známka z biostatistiky → Summary Zjistěte průměr, medián pro proměnnou Věk. U proměnné pohlaví zjistěte modus. Pro proměnnou známka zjistěte medián, modus. Návod: Způsob 1: Označíme proměnnou věk, pravé tlačítko → Statistics of Block Data → Blocks columns → All Zbůsob 2: Záložka Statistics → Basic Statistics → Descriptive statistics → Variables: věk→ záložka Advanced → vybereme Mean, Median. Vytvořil Institut biostatistiky a Samostatné cvičení: soubor studenti.sta Proměnnou věk překódujte pomocí následujících 5 intervalů: <20,22>, (22,25>, (25,28>, (28,31>, (31,33> do proměnné Věk 2. Návod: Vložíme novou proměnnou Věk 2 za proměnnou Věk. Označíme novou proměnnou Věk 2, záložka Data → Recode → Category 1: věk>=20 and věk<=22, New Value: 1 atd. Pomocí koláčového grafu znázorněte proměnnou Známku a Pohlaví, doplňte procenta (relativní četnost). Návod: Záložka Graphs → 2D → Pie Charts → Záložka: Quick: Variables: Známka, Pohlaví; Záložka:Advanced → Pie legends vyber Text and Percent. Pomocí sloupcového grafu znázorněte věk pouze pro muže. Návod: Záložka Graphs → 2D → Bar/Column Plots → Variables: Věk, v tomtéž okně napravo klikneme na Select Cases →zaškrtneme možnost Enable Selection Conditions → Specific→ selected by Expression: Pohlaví=1. Vytvořil Institut biostatistiky a Samostatné cvičení: soubor studenti.sta Pro proměnnou Věk vytvořte histogram s intervaly širokými dva roky, poté zkuste to samé zvlášť pro muže a ženy. Návod:Záložka Graphs → Histogram → Variables: věk, záložka Advanced: Intervals Boundaries → Specifies boundaries po boku vpravo By group: vybereme proměnnou pohlaví Vytvořil Institut biostatistiky a