Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 1 MNBS081 Biostatistika (jaro 2022) MICHAL SVOBODA Institut biostatistiky a analýz LF MU svoboda@iba.muni.cz Adobe Systems Institut biostatistiky a analýz LF – Výuka 2 Osnova ̶Excel: opakování, příprava dat, základní vzorce ̶Základy popisné statistiky ̶Základní rozdělení pravděpodobnosti, testování hypotéz ̶Parametrické testy ̶Neparametrické testy ̶Analýza kontingenčních tabulek ̶Základy korelační analýzy a lineární regrese Adobe Systems Institut biostatistiky a analýz LF – Výuka 3 Důležité informace ̶Výuka: 14:00–15:40, počítačová učebna F01B1/709 ̶Materiály v IS ̶Software: Microsoft Office - Excel, Statistica ̶Pro získání zápočtu/kolokvia je třeba: 1) Účast – povoleny jsou 2 absence oPři větší absenci – splnění písemky na konci semestru (teoretická část + řešení příkladů na počítači) 2) Domácí úkoly – povoleno max 1 neodevzdání oza účelem procvičení, dostanete zpětnou vazbu, na dalším cvičení se vrátíme, kdyby byl problém 3) Závěrečný úkol – datový soubor – praktické úkoly ̶ o o Adobe Systems Institut biostatistiky a analýz LF – Výuka 4 Organizace výuky •15. 2. – Excel: opakování, příprava dat, základní vzorce •1. 3. – Základy popisné statistiky (pozor! 22. 2. setkání nebude) •15. 3. – Základní rozdělení pravděpodobnosti, testování hypotéz (pozor! 8. 3. setkání nebude) •22. 3. – Parametrické testy •29. 3. – Neparametrické testy •5. 4. – Analýza kontingenčních tabulek, testy dobré shody •12. 4. – Korelační analýza + základy lineární regrese •19. 4. – Volitelné sezení (návrat k některým tématům) •3. 5. – Ukončení předmětu, test •10. 5. – Vyhodnocení testu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 5 Základy korelační analýzy Korelace Pearsonův korelační koeficient Spearmanův korelační koeficient Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 6 Proč hodnotit vztah dvou spojitých proměnných? Vztah mezi dvěma spojitými veličinami zjišťujeme, když: ̶chceme zjistit, jestli mezi nimi existuje vztah – např. jestli vyšší hodnoty jedné veličiny znamenají nižší hodnoty jiné veličiny; ̶chceme predikovat hodnoty jedné veličiny na základě znalosti hodnot jiné veličiny; ̶chceme kvantifikovat vztah mezi dvěma spojitými veličinami; např. pro použití jedné veličiny na místo druhé veličiny. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 7 Základní statistické testy Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýbě-rový t-test Párový t-test Dvouvýbě-rový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Jednovýbě-rový Wilcoxo-nův test Wilcoxonův / znaménkový test Mannův-Whitneyho test Kruskalův-Wallisův test Jednovýbě-rový bino-mický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 8 Bodový graf – vizualizace vztahu dvou spojitých proměnných ̶ ̶Nejjednodušší formou je bodový graf (XY graf), tzv. scatterplot. ̶ ̶Vztah výšky a hmotnosti studentů Biostatistiky (jaro 2010). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 9 Korelace Korelace = vztah (závislost) dvou znaků (parametrů) Y X X X Y Y Kladná korelace Záporná korelace Bez korelace Adobe Systems Korelační koeficienty ̶Korelační koeficient (r) – kvantifikuje míru vztahu mezi dvěma spojitými veličinami X a Y. ̶Pearsonův korelační koeficient je parametrický; hodnotí míru lineární závislosti mezi dvěma spojitými proměnnými. Předpoklad: proměnné pocházejí z tzv. dvourozměrného normálního rozdělení (pro každou hodnotu X má proměnná Y normální rozdělení a pro každou hodnotu Y má proměnná X normální rozdělení) ̶Spearmanův korelační koeficient je neparametrický; hodnotí míru závislosti pořadí hodnot dvou spojitých proměnných. ̶Hodnota r je kladná, když vyšší hodnoty X souvisí s vyššími hodnotami Y. Naopak hodnota r je záporná, když nižší hodnoty X souvisí s vyššími hodnotami Y. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 11 Statistická významnost korelačního koeficientu 1. ̶Korelační koeficient nabývá hodnot od -1 do 1 r = 0 → nekorelované veličiny r > 0 → kladně korelované veličiny r < 0 → záporně korelované veličiny ̶Testujeme hypotézu o nezávislosti spojitých proměnných: H0: proměnné X a Y jsou nezávislé náhodné veličiny; HA: proměnné X a Y nejsou nezávislé náhodné veličiny; ̶Testování pomocí intervalu spolehlivosti nebo výpočet testové statistiky a srovnání s kritickou hodnotou nebo výpočet p-hodnoty. ̶ • http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 12 Možné problémy s výpočtem r Problém více skupin Nelineární vztah X Y X r = 0,981 (p < 0,001) r = 0,761 (p = 0,032) Y Problém velikosti výběru Y X Y X r = 0,891 (p = 0,214) r = 0,212 (p = 0,008) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 13 Praktické cvičení v programu Statistica Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 14 Datový soubor Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 15 Rehabilitace po mozkovém infarktu ̶Cvičný datový soubor obsahuje záznamy o celkem 407 pacientech hospitalizovaných pro mozkový infarkt na neurologickém oddělení akutní péče, kde jim byla poskytnuta terapie pro obnovu krevního oběhu v postižené části mozku. ̶Po zvládnutí akutní fáze byl u pacientů vyhodnocen stupeň soběstačnosti v základních denních aktivitách (ADL) pomocí tzv. indexu Barthelové (BI) a byli přeloženi na rehabilitační oddělení. ̶Po dvou týdnech byl opět dle BI vyhodnocen stupeň soběstačnosti a pacienti byli buď propuštěni do ambulantní péče, nebo přeloženi na oddělení následné péče. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 16 Sbírané informace: ̶základní demografické údaje (pohlaví a věk), ̶informace o samotné diagnóze mozkové příhody (etiologie a lokalizace uzávěru cévy), ̶informace o léčbě (typ indikované terapie a výskyt komplikací) ̶informace o způsobu ukončení rehabilitace. ̶Stupeň soběstačnosti před rehabilitací byl dodatečně zjištěn z neurologie a na konci rehabilitace byl vyplněn nový dotazník pro určení výsledného indexu Barthelové. Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 17 Pearsonův korelační koeficient Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 18 Úkol č. 1 – Pearsonův korelační koeficient Zadání: „ U pacientů hospitalizovaných s mozkovým infarktem bylo při propuštění vyhodnoceno zlepšení míry soběstačnosti vyjádřené diferencí hodnot indexu Barthelové. Zjistěte, zda má věk vliv na úspěšnost terapeutické a rehabilitační péče. Jinými slovy, určete, zda věk koreluje s diferencí indexu Barthelové.“ Postup: 1.Ověříme předpoklady použití Pearsonova korelačního koeficientu (normalita rozložení věku a diferencí BI). Adobe Systems Úkol č. 1 – Pearsonův korelační koef. Postup (po ověření předpokladů): 1.Na hladině významnosti α = 0,05 testujeme hypotézu H0: proti HA: 2.Graficky znázorníme závislost obou proměnných pomocí bodového XY grafu. 3.Vypočítáme hodnotu korelačního koeficientu r a odpovídající p-hodnotu: 4.Porovnáme p-hodnotu s hladinou významnosti α = 0,05. 5.Je-li p-hodnota ≤ α zamítáme H0. Věk pacienta má vliv na zlepšení míry soběstačnosti po léčbě mozkového infarktu. Pozitivní korelace značí, že u starších pacientů je zlepšení menší (diference jsou vypočítány tak, že nižší hodnoty odpovídají většímu zlepšení). 6. 6. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 20 Úkol č. 1 – Řešení v programu Statistica •V menu Statistics zvolíme Basic statistics, vybereme Correlation matrices. 3 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 21 Úkol č. 1 – Řešení v programu Statistica •Vybereme obě proměnné, které chceme testovat (Two lists) •V záložce Advanced kliknutím na 2D scatterplots získáme grafické znázornění závislosti vybraných proměnných. •Poté v záložce Options zvolíme možnost Display r, p-values, and N´s a přes Summary zobrazíme výsledky. Adobe Systems Úkol č. 1 – Výsledky v Statistica Korelační koeficient a p-hodnota http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png ① Z grafu sice není nikterak výrazná závislost přímo patrná, nicméně je možné, že je přítomen mírně pozitivní trend. ② P-hodnota statistické významnosti korelace je p = 0,046, což na hladině významnosti 0,05 značí významný výsledek a ze získaných dat jsme tedy prokázali, že věk pacienta má vliv na zlepšení míry soběstačnosti po léčbě mozkového infarktu. Přesto je potřeba výsledek interpretovat s opatrností, neboť samotná korelace je velmi slabá (0,099). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 23 Spearmanův korelační koeficient Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 24 Úkol č. 2 – Spearmanův korelační koeficient Zadání: „ U pacientů hospitalizovaných s mozkovým infarktem bylo při propuštění vyhodnoceno zlepšení míry soběstačnosti vyjádřené diferencí hodnot indexu Barthelové. Zjistěte, zda má věk vliv na úspěšnost terapeutické a rehabilitační péče. Jinými slovy, určete, zda věk koreluje s diferencí indexu Barthelové.“ Adobe Systems Definujte zápatí - název prezentace / pracoviště 25 Úkol č. 2 – Spearmanův korelační koef. Postup (po nemožnosti použít Pearsonův korelační koeficient): 1.Na hladině významnosti α = 0,05 testujeme hypotézu H0: proti HA: 2.Graficky znázorníme závislost obou proměnných pomocí bodového XY grafu. 3.Vypočítáme hodnotu korelačního koeficientu rs a odpovídající p-hodnotu: 4.Porovnáme p-hodnotu s hladinou významnosti α = 0,05. 5.Je-li p-hodnota > α nezamítáme H0. Neprokázali jsme, že by věk pacienta měl vliv na zlepšení míry soběstačnosti po léčbě mozkového infarktu. 6. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 26 Úkol č. 2 – Řešení v programu Statistica •V menu Statistics zvolíme Nonparametrics, vybereme Correlation (Spearman, …). 3 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 27 Úkol č. 2 – Řešení v programu Statistica •V možnostech Compute: vybereme Detailed report. • •Vybereme jednotlivé proměnné, které chceme testovat (Variables). • •V záložce Advanced kliknutím na Scatterplot matrix získáme grafické znázornění závislosti vybraných proměnných. • •Poté přes Spearman rank R zobrazíme výsledky. 1 4 Adobe Systems Úkol č. 2 – Výsledky v Statistica ② P-hodnota statistické významnosti korelace je p = 0,136, což na hladině významnosti 0,05 značí nevýznamný výsledek a ze získaných dat jsme tedy neprokázali, že by věk pacienta měl vliv na zlepšení míry soběstačnosti po léčbě mozkového infarktu. Korelační koeficient a p-hodnota ① Z grafu není nikterak výrazná závislost patrná, nicméně je možné, že je přítomen mírně pozitivní trend. http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png