Bechtěrevova nemoc --- datovy soubor 07_priklad Bechterev.sta --- řešení úkolů --------------------------------------------------------------------------------------------------- ---------- Všechny hypotézy testujeme na hladině významnosti α = 0,05. --------------------------------------------------------------------------------------------------- ---------- Úkol 1: Zjistěte rozdíl v skóre HAQ mezi pohlavími. H[O]: HAQ skóre se u mužů a žen neliší. H[A]: HAQ skóre se u mužů a žen liší. Jde o nepárově uspořádaný experiment (skupina mužů a skupina žen jsou dva nezávislé výběry) – proto použijeme nepárový test, a to nepárový t-test (v případě, že budou splněny podmínky normality rozložení HAQ skóre ve skupině mužů a ve skupině žen), nebo Mannův-Whitneyův U test (pokud nebude splněna podmínka normality). Testování normality pomocí Shapiro-Wilkova testu: Ani u žen, ani u mužů nebylo rozložení HAQ skóre normální (v obou případech p < 0,001, tj. zamítá se hypotéza o shodnosti rozložení s normálním rozložením). Proto musíme k otestování naší hypotézy použít neparametrický Mannův-Whitneyův U test. variable Mann-Whitney U Test (w/ continuity correction) (12_priklad Bechterev.sta) By variable POHLAV Pohlaví 1=Muž / 2=žena Marked tests are significant at p <,05000 Rank Sum Group 1 Rank Sum Group 2 U Z p-value Z adjusted p-value Valid N Group 1 Valid N Group 2 HAQ skóre 238174,0 167276,0 84993,00 -2,88532 0,003910 -2,89157 0,003833 553 347 p = 0,004, tj. zamítáme nulovou hypotézu Závěr: HAQ skóre se u mužů a žen statisticky významně liší, přičemž u žen je HAQ skóre vyšší než u mužů. Poznámka: Vyšší HAQ skóre u žen než u mužů je patrné např. z krabicových grafů. Úkol 2: Zjistěte vztah HAQ skóre a věku (tzn., zjistěte, zda je rozdíl v HAQ u čtyř věkových kategorií) H[O]: HAQ skóre se u věkových kategorií neliší. H[A]: HAQ skóre se u věkových kategorií liší. Ke srovnání HAQ skóre mezi čtyřmi věkovými kategoriemi použijeme ANOVu (v případě, že budou splněny podmínky normality rozložení HAQ skóre ve všech 4 věkových skupinách a bude splněn předpoklad homogenity rozptylů) nebo neparametrický Kruskalův-Wallisův test (pokud nebude splněna podmínka normality nebo předpoklad homogenity rozptylů). Testování normality pomocí Shapiro-Wilkova testu: Ani u jedné z věkových kategorií nebylo rozložení HAQ skóre normální (ve všech čtyřech případech p < 0,05, tj. zamítá se hypotéza o shodnosti rozložení s normálním rozložením). Proto musíme k otestování naší hypotézy použít neparametrický Kruskalův-Wallisův test. Výsledek: Kruskal-Wallis test: H ( 3, N= 899) =26,74755 p =,0000 Tj. p < 0,001, tj. HAQ skóre se u věkových kategorií statisticky významně liší. Abychom zjistili, mezi kterými kategoriemi je rozdíl, použijeme dále mnohonásobné srovnání (multiple comparisons). Depend.: HAQ skóre Multiple Comparisons p values (2-tailed); HAQ skóre (12_priklad Bechterev.sta) Independent (grouping) variable: Vek (kategorie) Kruskal-Wallis test: H ( 3, N= 899) =26,74755 p =,0000 1 R:363,00 2 R:453,77 3 R:465,31 4 R:493,52 1 0,003899 0,000251 0,000004 2 0,003899 1,000000 0,660004 3 0,000251 1,000000 1,000000 4 0,000004 0,660004 1,000000 Z tabulky je zřejmé, že rozdíl v HAQ skóre byl zjištěn mezi těmito dvojicemi kategorií: kategorie 1 a 2, kategorie 1 a 3, kategorie 1 a 4. Tj. HAQ skóre u nejmladších pacientů je statisticky významně odlišné od HAQ skóre ve všech ostatních třech věkových kategoriích. Závěr: HAQ skóre se u věkových kategorií liší, rozdíl byl zjištěn mezi první věkovou kategorií a všemi ostatními kategoriemi, přičemž u nejmladších pacientů je HAQ skóre menší než u ostatních věkových skupin. Úkol 3: Zjistěte vztah HAQ skóre a délky trvání obtíží (rozdíl v HAQ u čtyř kategorií podle délky trvání obtíží) V tomto případě postupujeme úplně stejně jako v úkolu 2. H[O]: HAQ skóre se u kategorií podle délky trvání obtíží neliší. H[A]: HAQ skóre se u kategorií podle délky trvání obtíží liší. Testování normality pomocí Shapiro-Wilkova testu: Ani u jedné z věkových kategorií nebylo rozložení HAQ skóre normální (ve všech čtyřech případech p < 0,001 či p = 0,001, tj. zamítá se hypotéza o shodnosti rozložení s normálním rozložením). Proto musíme k otestování naší hypotézy použít neparametrický Kruskalův-Wallisův test. Kruskal-Wallis test: H ( 3, N= 889) =18,94220 p =,0003 Tj. p < 0,001, tj. HAQ skóre se u kategorií podle délky trvání obtíží liší. Abychom zjistili, mezi kterými kategoriemi je rozdíl, použijeme dále mnohonásobné srovnání (multiple comparisons). Depend.: HAQ skóre Multiple Comparisons p values (2-tailed); HAQ skóre (12_priklad Bechterev.sta) Independent (grouping) variable: Delka trvani obtizi (kategorie) Kruskal-Wallis test: H ( 3, N= 889) =18,94220 p =,0003 1 R:371,94 2 R:450,52 3 R:471,66 4 R:464,96 1 0,015178 0,000285 0,002264 2 0,015178 1,000000 1,000000 3 0,000285 1,000000 1,000000 4 0,002264 1,000000 1,000000 Závěr: HAQ skóre se u kategorií podle délky trvání obtíží liší, rozdíl byl zjištěn mezi první kategorií a všemi ostatními kategoriemi, přičemž pacienti s nejkratší délkou trvání obtíží mají nejnižší hodnoty HAQ skóre. Úkol 4: Zjistěte rozdíl v HAQ skóre u sportujících a nesportujících pacientů (sport/plavání – proměnná v sloupci 12, hodnota 1 – ano, 2 – ne). V tomto případě postupujeme úplně stejně jako v úkolu 1. H[O]: HAQ skóre se u sportujících a nesportujících neliší. H[A]: HAQ skóre se u sportujících a nesportujících liší. Použijeme t-test (v případě normálního rozložení) nebo Mannův-Whitneyův U test. Testování normality pomocí Shapiro-Wilkova testu: Ani u sportujících, ani u nesportujících nebylo rozložení HAQ skóre normální (v obou případech p < 0,001, tj. zamítá se hypotéza o shodnosti rozložení s normálním rozložením). Proto musíme použít neparametrický Mannův-Whitneyův U test. variable Mann-Whitney U Test (w/ continuity correction) (12_priklad Bechterev.sta) By variable sport_plavani 1/2 Marked tests are significant at p <,05000 Rank Sum Group 1 Rank Sum Group 2 U Z p-value Z adjusted p-value Valid N Group 1 Valid N Group 2 HAQ skóre 164216,5 242134,5 89138,50 -2,66889 0,007611 -2,67466 0,007481 387 514 p = 0,008, tj. zamítáme nulovou hypotézu. Závěr: HAQ skóre se u sportujících a nesportujících statisticky významně liší, přičemž u nesportujících je HAQ skóre vyšší než u sportujících. Úkol 5: Zjistěte, zda je vztah mezi HAQ a BASDAI skóre. H[0]: proměnné HAQ a BASDAI jsou nezávislé náhodné veličiny (r = 0) H[A]: proměnné HAQ a BASDAI nejsou nezávislé náhodné veličiny (r ≠ 0) HAQ i BASDAI skóre jsou kvantitativní proměnné, tudíž jejich vztah lze určit pomocí korelačního koeficientu. Tímto je buď Pearsonův korelační koeficient, který lze použít pouze za předpokladu, že obě proměnné mají normální rozložení (především ve smyslu, že se v datech nemohou vyskytovat odlehlé hodnoty). Když tomu tak není, lze použít neparametrický Spearmanův korelační koeficient. Vykreslíme si tečkový graf: Z grafu vyplývá, že se v datech nevyskytují odlehlé hodnoty, můžeme proto použít Pearsonův korelační koeficient. Variable Correlations (07_priklad_Bechterev.sta) Marked correlations are significant at p < ,05000 N=851 (Casewise deletion of missing data) BASDAI skore HAQ skóre BASDAI skore 1,0000 ,6009 p= --- p=0,00 HAQ skóre ,6009 1,0000 p=0,00 p= --- r = 0,601; p< 0,001 Závěr: HAQ a BASDAI skóre spolu souvisí (r = 0,601). Tato korelace je statisticky významná (p < 0,001). Úkol 6: Zjistěte, zda procento cvičících doma se u mužů a žen liší. H[O]: proměnné cvičení doma a pohlaví jsou nezávislé náhodné veličiny. H[A]: proměnné cvičení doma a pohlaví nejsou nezávislé náhodné veličiny (tzn., jsou závislé). Jde o určení vztahu mezi dvěma kategoriálními proměnnými (cvičení doma – ano/ne a pohlaví muž/žena), konkrétně jde o testování shodnosti struktury u kontingenční tabulky. Summary Frequency Table (12_priklad Bechterev.sta) Marked cells have counts > 10 (Marginal summaries are not marked) POHLAV Pohlaví 1=Muž / 2=žena Cviceni doma 0 Cviceni doma 1 Row Totals Count 1 125 498 623 Row Percent 20,06% 79,94% Count 2 54 324 378 Row Percent 14,29% 85,71% Count All Grps 179 822 1001 K vyhodnocení použijeme Pearsonův chí-kvadrát test, pokud bude splněn předpoklad dobré aproximace (80 % očekávaných hodnot je větších nebo rovných 5, 100 % očekávaných hodnot je větších nebo rovných 2), jinak použijeme Fisherův exaktní test. Očekávané hodnoty: Summary Table: Expected Frequencies (12_priklad Bechterev.sta) Marked cells have counts > 10 Pearson Chi-square: 5,34956, df=1, p=,020728 POHLAV Pohlaví 1=Muž / 2=žena Cviceni doma 0 Cviceni doma 1 Row Totals 1 111,4056 511,5944 623,000 2 67,5944 310,4056 378,000 All Grps 179,0000 822,0000 1001,000 Podmínka dobré aproximace je splněna, a tudíž můžeme použít Pearsonův chí-kvadrát test. Statistic Statistics: POHLAV Pohlaví 1=Muž / 2=žena(2) x Cviceni doma(2) (12_priklad Bechterev.sta) Chi-square df p Pearson Chi-square 5,349559 df=1 p=,02073 p = 0,021, tj. zamítáme nulovou hypotézu. Závěr: Procento cvičících doma se u mužů a žen statisticky významně liší. Doma cvičí větší procento žen (85,7 %) než mužů (79,9 %).