Bechtěrevova nemoc --- datovy soubor 07_priklad Bechterev.sta --- řešení úkolů --------------------------------------------------------------------------------------------------- ---------- Všechny hypotézy testujeme na hladině významnosti α = 0,05. --------------------------------------------------------------------------------------------------- ---------- Úkol 1: Zjistěte rozdíl v skóre HAQ mezi pohlavími. H[O]: HAQ skóre se u mužů a žen neliší. H[A]: HAQ skóre se u mužů a žen liší. Jde o nepárově uspořádaný experiment (skupina mužů a skupina žen jsou dva nezávislé výběry) – proto použijeme nepárový test, a to nepárový t-test (v případě že budou splněny podmínky normality rozložení HAQ skóre ve skupině mužů a ve skupině žen) anebo Mann-Whitney U test (ak nebude splněna podmínka normality). Testování normality pomocí Shapiro-Wilkova testu: Ani u žen, ani u mužů nebylo rozložení HAQ skóre normální (v obou případech P < 0,001, tj. zamítá se hypotéza o rovnosti rozložení s normálním rozložením). Proto musíme k otestování naši hypotézy použít neparametrický Mann-Whitney U test. variable Mann-Whitney U Test (w/ continuity correction) (12_priklad Bechterev.sta) By variable POHLAV Pohlaví 1=Muž / 2=žena Marked tests are significant at p <,05000 Rank Sum Group 1 Rank Sum Group 2 U Z p-value Z adjusted p-value Valid N Group 1 Valid N Group 2 HAQ skóre 238174,0 167276,0 84993,00 -2,88532 0,003910 -2,89157 0,003833 553 347 P = 0,004, tj. zamítáme nulovou hypotézu. Závěr: HAQ skóre se u mužů a žen liší. Úkol 2: Zjistěte vztah HAQ skóre a věku (rozdíl v HAQ u čtyř věkových kategorií) H[O]: HAQ skóre se u věkových kategorií neliší. H[A]: HAQ skóre se u věkových kategorií liší. Ke srovnání HAQ skóre mezi čtyřmi věkovými kategoriemi použijeme neparametrický Kruskal-Wallisův test (protože data asi nebudou mít normální rozložení; a parametrickou ANOVA jsme se neučili). Kruskal-Wallisův test slouží ke srovnání středních hodnot vícero skupin. Výsledek: Kruskal-Wallis test: H ( 3, N= 899) =26,74755 p =,0000 Tj. P < 0,001, tj. HAQ skóre se u věkových kategorií liší. Abychom zjistili, mezi kterými kategoriemi je rozdíl, použijeme dále mnohonásobné srovnání (multiple comparison). Depend.: HAQ skóre Multiple Comparisons p values (2-tailed); HAQ skóre (12_priklad Bechterev.sta) Independent (grouping) variable: Vek (kategorie) Kruskal-Wallis test: H ( 3, N= 899) =26,74755 p =,0000 1 R:363,00 2 R:453,77 3 R:465,31 4 R:493,52 1 0,003899 0,000251 0,000004 2 0,003899 1,000000 0,660004 3 0,000251 1,000000 1,000000 4 0,000004 0,660004 1,000000 Z tabulky je zřejmé, že rozdíl v HAQ skóre byl zjištěn mezi těmito dvojicemi kategorií: kategorie 1 a 2, kategorie 1 a 3, kategorie 1 a 4. Tj. HAQ skóre u nejmladších pacientů je statisticky významně odlišné od HAQ skóre ve všech ostatních třech věkových kategoriích. Závěr: HAQ skóre se u věkových kategorií liší, rozdíl byl zjištěn mezi první věkovou kategorií a všemi ostatními kategoriemi. Úkol 3: Zjistěte vztah HAQ skóre a délky trvání obtíží (rozdíl v HAQ u čtyř kategorií podle délky trvání obtíží) V tomto případě postupujeme úplně stejně jako v úkolu 2. H[O]: HAQ skóre se u kategorií podle délky trvání obtíží neliší. H[A]: HAQ skóre se u kategorií podle délky trvání obtíží liší. Kruskal-Wallis test: H ( 3, N= 889) =18,94220 p =,0003 Tj. P < 0,001, tj. HAQ skóre se u kategorií podle délky trvání obtíží liší. Abychom zjistili, mezi kterými kategoriemi je rozdíl, použijeme dále mnohonásobné srovnání (multiple comparison). Depend.: HAQ skóre Multiple Comparisons p values (2-tailed); HAQ skóre (12_priklad Bechterev.sta) Independent (grouping) variable: Delka trvani obtizi (kategorie) Kruskal-Wallis test: H ( 3, N= 889) =18,94220 p =,0003 1 R:371,94 2 R:450,52 3 R:471,66 4 R:464,96 1 0,015178 0,000285 0,002264 2 0,015178 1,000000 1,000000 3 0,000285 1,000000 1,000000 4 0,002264 1,000000 1,000000 Závěr: HAQ skóre se u kategorií podle délky trvání obtíží liší, rozdíl byl zjištěn mezi první kategorií a všemi ostatními kategoriemi. Úkol 4: Zjistěte rozdíl v HAQ skóre u sportujících a nesportujících pacientů. (sport/plavání – proměnná v sloupci 12) V tomto případě postupujeme úplně stejně jako v úkolu 1. H[O]: HAQ skóre se u sportujících a nesportujících neliší. H[A]: HAQ skóre se u sportujících a nesportujících liší. Použijeme t-test (v případě normálního rozložení) nebo Mann-Whitney U test. Testování normality pomocí Shapiro-Wilkova testu: Ani u sportujících, ani u nesportujících nebylo rozložení HAQ skóre normální (v obou případech P < 0,001, tj. zamítá se hypotéza o rovnosti rozložení s normálním rozložením). Proto musíme použít neparametrický Mann-Whitney U test. variable Mann-Whitney U Test (w/ continuity correction) (12_priklad Bechterev.sta) By variable sport_plavani 1/2 Marked tests are significant at p <,05000 Rank Sum Group 1 Rank Sum Group 2 U Z p-value Z adjusted p-value Valid N Group 1 Valid N Group 2 HAQ skóre 164216,5 242134,5 89138,50 -2,66889 0,007611 -2,67466 0,007481 387 514 P = 0,008, tj. zamítáme nulovou hypotézu. Závěr: HAQ skóre se u sportujících a nesportujících liší. Úkol 5: Zjistěte vztah mezi HAQ a BASDAI skóre. HAQ i BASDAI skóre jsou kvantitativní proměnné, tudíž jejich vztah lze určit pomocí korelačního koeficientu. Tímto je buď Pearsonův korelační koeficient, který lze použít pouze za předpokladu, že obě proměnné mají normální rozložení. Když tomu tak není, lze použít neparametrický Spearmanův korelační koeficient. Předpoklad Pearsonova korelačního koeficientu: normalita HAQ a normalita BASDAI. Tuto otestujeme pomocí Shapiro-Wilkova testu. Výsledek testování normality: v obou případech byla normalita zamítnuta (P < 0,001 u obou proměnných). Tudíž nemůžeme použít parametrický Pearsonův korelační koeficient, ale musíme použít neparametrický Spearmanův korelační koeficient. Pair of Variables Spearman Rank Order Correlations (12_priklad Bechterev.sta) MD pairwise deleted Marked correlations are significant at p <,05000 Valid N Spearman R t(N-2) p-value BASDAI skore & HAQ skóre 851 0,597113 21,68956 0,00 r[s] = 0,597; P < 0,001 Závěr: HAQ a BASDAI skóre spolu souvisí, jejich korelace je r[s] = 0,597. Tato korelace je statisticky významná (P < 0,001) (tj. není nulová). Úkol 6: Zjistěte, zda procento cvičících doma se u mužů a žen liší. H[O]: Procento cvičících doma se u mužů a žen neliší. H[A]: Procento cvičících doma se u mužů a žen liší. Jde o určení vztahu mezi dvěma kategoriálními proměnnými (cvičení doma – ano/ne a pohlaví muž/žena), konkrétně jde o testování shodnosti struktury u kontingenční tabulky. Summary Frequency Table (12_priklad Bechterev.sta) Marked cells have counts > 10 (Marginal summaries are not marked) POHLAV Pohlaví 1=Muž / 2=žena Cviceni doma 0 Cviceni doma 1 Row Totals Count 1 125 498 623 Row Percent 20,06% 79,94% Count 2 54 324 378 Row Percent 14,29% 85,71% Count All Grps 179 822 1001 K vyhodnocení použijeme Pearsonův chi-kvadrát test, musíme ověřit podmínku dobré aproximace (80 % očekávaných hodnot je větších nebo rovných 5, 100 % očekávaných hodnot je větších nebo rovných 2) Očekávané hodnoty: Summary Table: Expected Frequencies (12_priklad Bechterev.sta) Marked cells have counts > 10 Pearson Chi-square: 5,34956, df=1, p=,020728 POHLAV Pohlaví 1=Muž / 2=žena Cviceni doma 0 Cviceni doma 1 Row Totals 1 111,4056 511,5944 623,000 2 67,5944 310,4056 378,000 All Grps 179,0000 822,0000 1001,000 Tj. Podmínka dobré aproximace je splněna, tudíž můžeme použít chi-kvadrát test. Statistic Statistics: POHLAV Pohlaví 1=Muž / 2=žena(2) x Cviceni doma(2) (12_priklad Bechterev.sta) Chi-square df p Pearson Chi-square 5,349559 df=1 p=,02073 P = 0,021, tj. zamítáme nulovou hypotézu. Závěr: Procento cvičících doma se u mužů a žen liší. Ženy cvičí svědomitěji (85,7 %) než muži (79,9 %).