Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 1 BIOSTATISTIKA Tato prezentace je autorským dílem vytvořeným zaměstnanci Masarykovy univerzity. Studenti předmětu mají právo pořídit si kopii prezentace pro potřeby vlastního studia. Jakékoliv další šíření prezentace nebo její části bez svolení Masarykovy univerzity je v rozporu se zákonem. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 2 Základy popisné statistiky Typy proměnných Popisná statistika Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 3 Typy proměnných ̶Kvalitativní (kategoriální) proměnná lze ji řadit do kategorií, ale nelze ji kvantifikovat Příklad: ?? ̶ ̶Kvantitativní (numerická) proměnná můžeme ji přiřadit číselnou hodnotu Příklad: ?? Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 4 Typy proměnných ̶Kvalitativní (kategoriální) proměnná lze ji řadit do kategorií, ale nelze ji kvantifikovat Příklad: pohlaví, HIV status, barva vlasů … ̶ ̶Kvantitativní (numerická) proměnná můžeme ji přiřadit číselnou hodnotu Příklad: výška, hmotnost, teplota, počet hospitalizací … Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 5 Kvalitativní proměnné, znaky ̶Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost znaku) a 0 (nepřítomnost znaku). Příklad: ?? ̶ ̶Nominální znaky: několik kategorií (A, B, C), které nelze uspořádat. Příklad: ?? ̶ ̶Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je větší/menší (1<2<3). Příklad: ?? ̶ Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 6 Kvalitativní proměnné, znaky ̶Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost znaku) a 0 (nepřítomnost znaku). Příklad: Diabetes (1 – ano, 0 – ne), Pohlaví (1 – muž, 0 – žena). ̶Nominální znaky: několik kategorií (A, B, C), které nelze uspořádat. Příklad: krevní skupiny (A – B – AB – 0) ̶ ̶Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je větší/menší (1<2<3). Příklad: stupeň bolesti (mírná – střední – velká) stadium maligního onemocnění (I – II – III – IV) ̶ Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 7 Kvantitativní proměnné, znaky ̶Intervalové znaky: interpretace rozdílu dvou hodnot (stejný interval mezi jednou a druhou dvojicí hodnot vyjadřuje i stejný rozdíl v intenzitě zkoumané vlastnosti). Společný znak intervalových znaků: nula byla stanovena uměle, tedy pouhou konvencí. Příklad: teplota měřená ve stupních Celsia, letopočet ̶ ̶ Den Teplota Rozdíl * Podíl * 1. 2 °C - - 2. 4 °C +2 2x 3. 6 °C +2 1,5x * Srovnání s měřením z předchozího dne 1,5krát vyšší teplota ve srovnání s 2. dnem, přičemž došlo ke stejnému nárůstu teploty jako při srovnání 2. a 1. dne Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 8 Kvantitativní proměnné, znaky ̶Poměrové znaky: kromě rozdílu interpretujeme i podíl dvou hodnot. Příklad: výška v cm, hmotnost v kg, ... ̶ Pacient Hmotnost Rozdíl * Podíl * 1. 52 kg - - 2. 78 kg + 26 1,5x 3. 104 kg + 52 2x * Srovnání s prvním pacientem 2krát vyšší hmotnost ve srovnání s prvním pacientem 1,5krát vyšší hmotnost ve srovnání s prvním pacientem Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 9 Popisné statistiky ̶Charakteristiky polohy (míry střední hodnoty, míry centrální tendence) Udávají, kolem jaké hodnoty se data centrují, resp. které hodnoty jsou nejčastější; popis „těžiště“ – míry polohy. Aritmetický průměr, medián, modus, geometrický průměr • ̶Charakteristiky variability (proměnlivosti) Zachycují rozptýlení hodnot v souboru (proměnlivost dat). Variační rozpětí, rozptyl, směrodatná odchylka, variační koeficient, střední chyba průměru ̶ Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 10 Charakteristiky polohy ̶Modus: nejčastěji se vyskytující hodnota proměnné v souboru (u kvalitativních proměnných). ̶α-kvantil: je-li α Є (0,1), pak α-kvantil xα je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl α všech dat a na horní úsek obsahující aspoň podíl 1-α všech dat. ̶x0,50 – medián, x0,25 – dolní kvartil, x0,75 – horní kvartil, x0,1…. x0,9 – decily ̶Medián: hodnota, jež dělí řadu podle velikosti seřazených hodnot na dvě stejně početné poloviny. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 11 Charakteristiky polohy ̶Aritmetický průměr: je definován jako součet všech naměřených údajů vydělený jejich počtem, kde xi jsou jednotlivé hodnoty a n jejich počet. • ̶Geometrický průměr: n kladných hodnot xi, , má smysl všude, kde má nějaký informační smysl součin hodnot proměnné. Z praktického hlediska platí, že logaritmus geometrického průměru je roven aritmetickému průměru logaritmovaných hodnot souboru. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 12 Průměr vs. medián ̶POZOR: Průměr je silně ovlivněn extrémními hodnotami (tzv. odlehlá pozorování), medián jimi ovlivněn není. ̶Průměr je vhodný ukazatel středu souboru u normálního, resp. symetrického rozložení, medián i v případě proměnných s neznámým rozdělením. ̶V případě symetrického rozložení jsou průměr a medián v podstatě shodné, v případě asymetrického rozložení nikoliv! Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 13 Charakteristiky variability ̶Kvartilové rozpětí: q = x0,75 - x0,25 ̶Rozptyl (variance): ukazatel šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru (jeho vypovídací schopnost je nejvyšší v případě symetrického/normálního rozložení). ̶ ̶Směrodatná odchylka (SD): druhá odmocnina z rozptylu ̶Koeficient variance: podíl SD ku průměru u poměrových znaků. Vyjadřuje se v procentech. Umožňuje porovnat variabilitu několika znaků. ̶ Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 14 Další popisné statistiky ̶Počet hodnot: důležitý ukazatel, znamená jak moc lze na data spoléhat ̶Suma hodnot ̶Minimum ̶Maximum ̶Variační rozpětí (rozsah): rozdíl mezi největší a nejmenší hodnotou ̶Střední chyba průměru (SE): měří rozptýlenost vypočítaného aritmetického průměru v různých výběrových souborech vybraných z jednoho základního souboru Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 15 Popis a vizualizace kvalitativních proměnných ̶ ̶Popis kvalitativních dat: četnost jednotlivých kategorií ̶Vizualizace kvalitativních dat: koláčový nebo sloupcový graf Známka n % A 11 18,0 B 20 32,8 C 16 26,2 D 9 14,8 E 5 8,2 F 0 0,0 Celkem 61 100,0 Koláčový graf Sloupcový graf Frekvenční tabulka Příklad: Známka z biostatistiky (podzim 2014) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 16 Popis kvantitativních dat ̶Popis kvantitativních dat: charakteristika středu (průměr, medián aj.), charakteristika variability (rozptyl, rozsah hodnot, interkvartilové rozpětí aj.) Příklad: Popis výšky pacientů (cm) Popisné statistiky Charakteristika N 61 Průměr (cm) 161,5 Medián (cm) 161,0 Sm. odchylka (cm) 4,7 Rozptyl (cm2) 22,2 min-max (cm) 144 – 169 dolní-horní kvartil (cm) 158 - 164 Průměr a medián se téměř shodují. Co nám to říká? Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 17 Vizualizace kvantitativních dat ̶Vizualizace kvantitativních dat: nejčastěji pomocí krabicového grafu nebo histogramu Histogram Krabicový graf Příklad: Popis výšky pacientů (cm) maximum (100% kvantil) horní kvartil (75% kvantil) medián (50% kvantil) dolní kvartil (25% kvantil) minimum (0% kvantil) Jsou data symetrická? Odlehlá hodnota? Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 18 Program Statistica Představení programu Statistica Praktické cvičení v programu Statistica Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 19 Program Statistica Jak získat program Statistica: https://inet.muni.cz ̶ Login a heslo: UČO a primární heslo jako do IS-u. V nabídce zvolit: Provozní služby – Software – Nabídka softwaru Nalézt: Statistica 13 – kliknout Získat a postupovat dle návodu ̶ Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 20 Praktické cvičení v programu Statistica Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 21 Datový soubor Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 22 Rehabilitace po mozkovém infarktu ̶Cvičný datový soubor obsahuje záznamy o celkem 407 pacientech hospitalizovaných pro mozkový infarkt na neurologickém oddělení akutní péče, kde jim byla poskytnuta terapie pro obnovu krevního oběhu v postižené části mozku. ̶Po zvládnutí akutní fáze byl u pacientů vyhodnocen stupeň soběstačnosti v základních denních aktivitách (ADL) pomocí tzv. indexu Barthelové (BI) a byli přeloženi na rehabilitační oddělení. ̶Po dvou týdnech byl opět dle BI vyhodnocen stupeň soběstačnosti a pacienti byli buď propuštěni do ambulantní péče, nebo přeloženi na oddělení následné péče. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 23 Sbírané informace: ̶základní demografické údaje (pohlaví a věk), ̶informace o samotné diagnóze mozkové příhody (etiologie a lokalizace uzávěru cévy), ̶informace o léčbě (typ indikované terapie a výskyt komplikací) ̶informace o způsobu ukončení rehabilitace. ̶Stupeň soběstačnosti před rehabilitací byl dodatečně zjištěn z neurologie a na konci rehabilitace byl vyplněn nový dotazník pro určení výsledného indexu Barthelové. Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 24 Úkol č. 1 – Popis kategoriálních dat Zadání: „Proveďte základní popis zastoupení pohlaví u pacientů s mozkovým infarktem. Následně také srovnejte zastoupení pohlaví mezi třemi skupinami pacientů dle etiologie mozkové příhody.“ Postup: 1.Pro popis dat je vhodné určit absolutní a relativní četnosti. 2.Grafické znázornění je ideální pomocí koláčového grafu. 3.V programu Statistica lze získat výsledky pro jakoukoli podskupinu souboru pomocí obecné funkce „By Group“ nebo „Select Cases“. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 25 Úkol č. 1 – Řešení v programu Statistica 3 2 •V menu Statistics zvolíme Basic statistics a vybereme Frequency tables. •Vybereme proměnnou (Variables), kterou chceme analyzovat a na záložce Options zaškrtneme možnost Percentages (relative frequencies). 4 Chceme-li získat výsledky zvlášť pro podskupiny jiné proměnné, aktivujeme funkci By Group (vybrat třídící proměnnou a zaškrtnout Accumulate tabular results in a single spreadsheet). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 26 Úkol č. 1 – Výsledky v Statistica Zastoupení mužů a žen v celém souboru je 61 % oproti 39 %. Při srovnání pacientů dle etiologie mozkového infarktu se nejvíce liší pacienti s embolií, u kterých je podíl mužů jen 54 % oproti 46 % žen. Frekvenční tabulka proměnné pohlaví u pacientů s CMP Frekvenční tabulka proměnné pohlaví u pacientů s CMP dle etiologie centrální mozkové příhody Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 27 Úkol č. 1 – Řešení v programu Statistica •V menu Graphs zvolíme nabídku 2D grafů a vybereme Pie Charts. •Vybereme proměnnou (Variables), kterou chceme analyzovat a na záložce Advanced vybereme v nastavení legendy možnost Text and Percent. •Chceme-li získat výsledky zvlášť pro podskupiny jiné proměnné, aktivujeme By Group (opět vybrat třídící proměnnou). 3 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 28 Úkol č. 1 – Výsledky v Statistica Zastoupení mužů v celém souboru je 61 % oproti 39 % žen. Při srovnání pacientů dle etiologie mozkového infarktu se nejvíce liší pacienti s embolií, u kterých je podíl mužů jen 54 % oproti 46 % žen. Koláčový graf proměnné pohlaví u pacientů s CMP Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 29 Úkol č. 2 – Popis kvantitativních dat Zadání: „Proveďte základní popis soběstačnosti dle indexu Barthelové na konci rehabilitace po mozkovým infarktu. Následně také tento ukazatel srovnejte podle míry komplikací během léčby.“ Postup: 1.Pro popis dat je vhodné určit průměr, medián, směrodatnou odchylku, případně minimum a maximum. 2.Grafické znázornění je ideální pomocí histogramu. V případě srovnávání různých skupin je vhodný krabicový graf. 3.V programu Statistica lze získat výsledky pro jakoukoli podskupinu pomocí „By Group“ nebo „Select Cases“. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 30 Úkol č. 2 – Řešení v programu Statistica •V menu Statistics zvolíme Basic statistics a vybereme Descriptive statistics. •Vybereme proměnnou (Variables), kterou chceme analyzovat a na záložce Advanced zaškrtneme možnosti výpočtu Mean, Median, Std. Dev, Min. & Max. •Chceme-li získat výsledky zvlášť pro podskupiny jiné proměnné, použijeme By Group (vybrat třídící proměnnou a zaškrtnout Accumulate tabular results in a single spreadsheet). 3 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 31 Úkol č. 2 – Výsledky v Statistica Celková průměrná hodnota indexu Barthelové je 62 bodů s mediánem 70 bodů. V závislosti na skóre komorbidit a komplikací během léčby je zřetelný pokles výsledné soběstačnosti s průměrem 67 bodů u nekomplikovaných případů až k 49 bodům u pacientů se stupněm komplikací 3. Popisná statistika indexu Barthelové na konci rehabilitace u pacientů s CMP Popisná statistika indexu Barthelové na konci rehabilitace u pacientů s CMP dle stupně komplikací Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 32 Úkol č. 2 – Řešení v programu Statistica •V menu Graphs zvolíme rovnou Histogram (a) nebo Box (b). •U histogramu pouze vybereme proměnnou (Variables), kterou chceme analyzovat. •U box-plotu vybereme proměnnou (Variables), kterou chceme analyzovat (dependent), a proměnnou obsahující skupiny, které srovnáváme (grouping). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 33 Úkol č. 2 – Výsledky v Statistica Histogram indexu Barthelové na konci rehabilitace u pacientů s CMP Krabicový graf indexu Barthelové na konci rehabilitace dle stupně komplikací Celková průměrná hodnota indexu Barthelové je 62 bodů a tvar distribuce je asymetrický s hodnotami vyskytujícími se hlavně v rozmezí cca 50 až 90 bodů. V závislosti na skóre komorbidit a komplikací během léčby je zřetelný pokles výsledné soběstačnosti.