Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 1 MIAM021p(s) Analýza a management dat pro zdravotnické obory – přednáška a cvičení (jaro 2023) MICHAL SVOBODA Institut biostatistiky a analýz LF MU svoboda@iba.muni.cz Adobe Systems Institut biostatistiky a analýz LF – Výuka 2 Osnova ̶Excel: opakování, příprava dat, základní vzorce ̶Základy popisné statistiky ̶Základní rozdělení pravděpodobnosti, testování hypotéz ̶Parametrické testy ̶Neparametrické testy ̶Analýza kontingenčních tabulek ̶Základy korelační analýzy a lineární regrese Adobe Systems Institut biostatistiky a analýz LF – Výuka 3 Důležité informace ̶Výuka: 11:00–13:30, D29/347-RCX2 ̶Materiály v IS ̶Software: Microsoft Office - Excel, Statistica ̶Pro získání zápočtu/kolokvia je třeba: 1.Účast – povoleny jsou 2 absence 2.Domácí úkoly – povoleno 1 neodevzdání ̶za účelem procvičení, dostanete zpětnou vazbu, na dalším cvičení se vrátíme, kdyby byl problém 3.Závěrečný úkol – praktické úkoly (povoleny materiály) o Adobe Systems Institut biostatistiky a analýz LF – Výuka 4 Organizace výuky •21. 2. – Excel: opakování, příprava dat, základní vzorce •28. 2. – Základy popisné statistiky •7. 3. – Základní rozdělení pravděpodobnosti, testování hypotéz •14. 3. – Parametrické testy •21. 3. – Neparametrické testy •28. 3. •4. 4. – Analýza kontingenčních tabulek, testy dobré shody •11. 4. – Základy korelační analýzy + opakování vybraných témat •18. 4. – Ukončení předmětu, test Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 5 Základy korelační analýzy Korelace Pearsonův korelační koeficient Spearmanův korelační koeficient Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 6 Proč hodnotit vztah dvou spojitých proměnných? Vztah mezi dvěma spojitými veličinami zjišťujeme, když: ̶chceme zjistit, jestli mezi nimi existuje vztah – např. jestli vyšší hodnoty jedné veličiny znamenají nižší hodnoty jiné veličiny; ̶chceme predikovat hodnoty jedné veličiny na základě znalosti hodnot jiné veličiny; ̶chceme kvantifikovat vztah mezi dvěma spojitými veličinami; např. pro použití jedné veličiny na místo druhé veličiny. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 7 Korelační a regresní analýza ̶Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých proměnných. Obdobně jako jiné statistické metody, i korelace mohou být parametrické nebo neparametrické. ̶ ̶Regresní analýza vytváří model vztahu dvou nebo více proměnných, tedy jakým způsobem jedna proměnná (vysvětlovaná) závisí na jiných proměnných (prediktorech). Regresní analýza je obdobně jako ANOVA nástrojem pro vysvětlení variability hodnocené proměnné. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 8 Základní statistické testy Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýbě-rový t-test Párový t-test Dvouvýbě-rový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Jednovýbě-rový Wilcoxo-nův test Wilcoxonův / znaménkový test Mannův-Whitneyho test Kruskalův-Wallisův test Jednovýbě-rový bino-mický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 9 Bodový graf – vizualizace vztahu dvou spojitých proměnných ̶ ̶Nejjednodušší formou je bodový graf (XY graf), tzv. scatterplot. ̶ ̶Vztah výšky a hmotnosti studentů Biostatistiky (jaro 2010). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 10 Korelace Korelace = vztah (závislost) dvou znaků (parametrů) Y X X X Y Y Kladná korelace Záporná korelace Bez korelace Adobe Systems Korelační koeficienty ̶Korelační koeficient (r) – kvantifikuje míru vztahu mezi dvěma spojitými veličinami X a Y. ̶Pearsonův korelační koeficient je parametrický; hodnotí míru lineární závislosti mezi dvěma spojitými proměnnými. Předpoklad: proměnné pocházejí z tzv. dvourozměrného normálního rozdělení (pro každou hodnotu X má proměnná Y normální rozdělení a pro každou hodnotu Y má proměnná X normální rozdělení) ̶Spearmanův korelační koeficient je neparametrický; hodnotí míru závislosti pořadí hodnot dvou spojitých proměnných. ̶Hodnota r je kladná, když vyšší hodnoty X souvisí s vyššími hodnotami Y. Naopak hodnota r je záporná, když nižší hodnoty X souvisí s vyššími hodnotami Y. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 12 Statistická významnost korelačního koeficientu 1. ̶Korelační koeficient nabývá hodnot od -1 do 1 r = 0 → nekorelované veličiny r > 0 → kladně korelované veličiny r < 0 → záporně korelované veličiny ̶Testujeme hypotézu o nezávislosti spojitých proměnných: H0: proměnné X a Y jsou nezávislé náhodné veličiny; HA: proměnné X a Y nejsou nezávislé náhodné veličiny; ̶Testování pomocí intervalu spolehlivosti nebo výpočet testové statistiky a srovnání s kritickou hodnotou nebo výpočet p-hodnoty. ̶ • http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 13 Možné problémy s výpočtem r Problém více skupin Nelineární vztah X Y X r = 0,981 (p < 0,001) r = 0,761 (p = 0,032) Y Problém velikosti výběru Y X Y X r = 0,891 (p = 0,214) r = 0,212 (p = 0,008) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 14 Praktické cvičení v programu Statistica Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 15 Datový soubor Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 16 Rehabilitace po mozkovém infarktu ̶Cvičný datový soubor obsahuje záznamy o celkem 407 pacientech hospitalizovaných pro mozkový infarkt na neurologickém oddělení akutní péče, kde jim byla poskytnuta terapie pro obnovu krevního oběhu v postižené části mozku. ̶Po zvládnutí akutní fáze byl u pacientů vyhodnocen stupeň soběstačnosti v základních denních aktivitách (ADL) pomocí tzv. indexu Barthelové (BI) a byli přeloženi na rehabilitační oddělení. ̶Po dvou týdnech byl opět dle BI vyhodnocen stupeň soběstačnosti a pacienti byli buď propuštěni do ambulantní péče, nebo přeloženi na oddělení následné péče. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 17 Sbírané informace: ̶základní demografické údaje (pohlaví a věk), ̶informace o samotné diagnóze mozkové příhody (etiologie a lokalizace uzávěru cévy), ̶informace o léčbě (typ indikované terapie a výskyt komplikací) ̶informace o způsobu ukončení rehabilitace. ̶Stupeň soběstačnosti před rehabilitací byl dodatečně zjištěn z neurologie a na konci rehabilitace byl vyplněn nový dotazník pro určení výsledného indexu Barthelové. Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 18 Pearsonův korelační koeficient Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 19 Úkol č. 1 – Pearsonův korelační koeficient Zadání: „ U pacientů hospitalizovaných s mozkovým infarktem bylo při propuštění vyhodnoceno zlepšení míry soběstačnosti vyjádřené diferencí hodnot indexu Barthelové. Zjistěte, zda má věk vliv na úspěšnost terapeutické a rehabilitační péče. Jinými slovy, určete, zda věk koreluje s diferencí indexu Barthelové.“ Postup: 1.Ověříme předpoklady použití Pearsonova korelačního koeficientu (normalita rozložení věku a diferencí BI). Adobe Systems Úkol č. 1 – Pearsonův korelační koef. Postup (po ověření předpokladů): 1.Na hladině významnosti α = 0,05 testujeme hypotézu H0: proti HA: 2.Graficky znázorníme závislost obou proměnných pomocí bodového XY grafu. 3.Vypočítáme hodnotu korelačního koeficientu r a odpovídající p-hodnotu: 4.Porovnáme p-hodnotu s hladinou významnosti α = 0,05. 5.Je-li p-hodnota ≤ α zamítáme H0. Věk pacienta má vliv na zlepšení míry soběstačnosti po léčbě mozkového infarktu. Pozitivní korelace značí, že u starších pacientů je zlepšení menší (diference jsou vypočítány tak, že nižší hodnoty odpovídají většímu zlepšení). 6. 6. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 21 Úkol č. 1 – Řešení v programu Statistica •V menu Statistics zvolíme Basic statistics, vybereme Correlation matrices. 3 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 22 Úkol č. 1 – Řešení v programu Statistica •Vybereme obě proměnné, které chceme testovat (Two lists) •V záložce Advanced kliknutím na 2D scatterplots získáme grafické znázornění závislosti vybraných proměnných. •Poté v záložce Options zvolíme možnost Display r, p-values, and N´s a přes Summary zobrazíme výsledky. Adobe Systems Úkol č. 1 – Výsledky v Statistica Korelační koeficient a p-hodnota http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png ① Z grafu sice není nikterak výrazná závislost přímo patrná, nicméně je možné, že je přítomen mírně pozitivní trend. ② P-hodnota statistické významnosti korelace je p = 0,046, což na hladině významnosti 0,05 značí významný výsledek a ze získaných dat jsme tedy prokázali, že věk pacienta má vliv na zlepšení míry soběstačnosti po léčbě mozkového infarktu. Přesto je potřeba výsledek interpretovat s opatrností, neboť samotná korelace je velmi slabá (0,099). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 24 Spearmanův korelační koeficient Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 25 Úkol č. 2 – Spearmanův korelační koeficient Zadání: „ U pacientů hospitalizovaných s mozkovým infarktem bylo při propuštění vyhodnoceno zlepšení míry soběstačnosti vyjádřené diferencí hodnot indexu Barthelové. Zjistěte, zda má věk vliv na úspěšnost terapeutické a rehabilitační péče. Jinými slovy, určete, zda věk koreluje s diferencí indexu Barthelové.“ Adobe Systems Definujte zápatí - název prezentace / pracoviště 26 Úkol č. 2 – Spearmanův korelační koef. Postup (po nemožnosti použít Pearsonův korelační koeficient): 1.Na hladině významnosti α = 0,05 testujeme hypotézu H0: proti HA: 2.Graficky znázorníme závislost obou proměnných pomocí bodového XY grafu. 3.Vypočítáme hodnotu korelačního koeficientu rs a odpovídající p-hodnotu: 4.Porovnáme p-hodnotu s hladinou významnosti α = 0,05. 5.Je-li p-hodnota > α nezamítáme H0. Neprokázali jsme, že by věk pacienta měl vliv na zlepšení míry soběstačnosti po léčbě mozkového infarktu. 6. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 27 Úkol č. 2 – Řešení v programu Statistica •V menu Statistics zvolíme Nonparametrics, vybereme Correlation (Spearman, …). 3 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 28 Úkol č. 2 – Řešení v programu Statistica •V možnostech Compute: vybereme Detailed report. • •Vybereme jednotlivé proměnné, které chceme testovat (Variables). • •V záložce Advanced kliknutím na Scatterplot matrix získáme grafické znázornění závislosti vybraných proměnných. • •Poté přes Spearman rank R zobrazíme výsledky. 1 4 Adobe Systems Úkol č. 2 – Výsledky v Statistica ② P-hodnota statistické významnosti korelace je p = 0,136, což na hladině významnosti 0,05 značí nevýznamný výsledek a ze získaných dat jsme tedy neprokázali, že by věk pacienta měl vliv na zlepšení míry soběstačnosti po léčbě mozkového infarktu. Korelační koeficient a p-hodnota ① Z grafu není nikterak výrazná závislost patrná, nicméně je možné, že je přítomen mírně pozitivní trend. http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png