Autor: RNDr. Eva Janoušová Institut biostatistiky a analýz, Masarykova univerzita, Brno Načtení a příprava dat pro analýzu Načtení souboru: File – Open – Data (pokud načítáme Excelovský soubor, nezapomenout změnit Files of type na Excel (*.xls, *.xlsx, *.xlsm)) Olejblování hodnot: přepnout se do Variable View – kliknout na políčko Values a rozkliknout tlačítko se třemi tečkami (při zadávání textových popisků nedávat uvozovky, ty jsou tam doplněny automaticky); hodnoty a textové popisky pak lze přepínat v hlavním panelu pomocí tlačítka: Odstranění duplikací: Data - Identify duplicate cases... Spojení souborů: Data – Merge Files... Agregace (např. když pro každého pacienta máme víc řádků v tabulce (např. opakovaný rozbor krve) a chceme vytvořit novou tabulku, kde bude jeden pacient jen na jednom řádku (každá složka krve pak bude sumarizována mediánem či průměrem naměřených hodnot): Data - Aggregate Vyfiltrování chybějících a chybných hodnot: Data - Select cases – If condition is satisfied ... (lze si vybrat druh výstupu: „Filter out unselected cases“, „Copy selected cases to a new dataset“ nebo „Delete unselected cases“) Seřazení souboru podle nějakého parametru: Data – Sort Cases Transformace proměnných Logaritmická transformace: Transform – Compute Variable... – v aritmetických funkcích (Function group: Arithmetic) vybrat Ln Standardizace: Analyze – Descriptive Statistics – Descriptives – zatrhnout Save standardized values as variables Kategorizace: Transform – Visual Binning... Překódování textových proměnných na proměnné s číselnými kategoriemi: Transform – Automatic Recode... (pokud jsou v datech chybějící hodnoty, je vhodné zatrhnout „Treat blank string values as user-missing“) Popisná statistika Popisná statistika kategoriálních dat: Analyze – Descriptive Statistics – Frequencies – vybrat proměnnou Gender – OK Popisná statistika spojitých dat: Analyze – Descriptive Statistics – Descriptives – vybrat proměnnou Age – OK Popisná statistika (včetně mediánu): Analyze – Tables – Custom Tables... - přidávání proměnných přetažením do pravého okna - Summary Statistics – zvolit Valid N, Mean, Median, Minimum, Maximum, Std. Deviation – Apply to Selection – OK - Position: Columns nebo Rows - Categories and Totals: zatrhnout Total (pokud chceme vypsat popisnou statistiku celkově, nejen podle kategorií) Grafy Vykreslení koláčového grafu: Graphs – Legacy Dialogs – Pie – Summaries for groups of cases – Define Slices by: Gender – OK Vykreslení histogramu: Graphs – Legacy Dialogs – Histogram – Variable: Age – OK (dále lze zatrhnout Display normal curve a lze vykreslit histogramy podle kategoriální proměnné tím, že se kategoriální proměnná přetáhne do Rows nebo Columns) Vykreslení krabicového grafu pro spojité proměnné bez kategorizace: Graphs – Legacy Dialogs – Boxplot – Simple – Summaries of separate variables – Define – Boxes Represent: Age – OK Vykreslení krabicového grafu pro spojité proměnné s kategorizací: Graphs – Legacy Dialogs – Boxplot – Simple – Summaries for groups of cases – Define – Variable: Age; Category axis: Gender – OK Vykreslení tečkového grafu (scatter plot): Graphs – Legacy Dialogs – Scatter/Dot – Simple Scatter – Define Testování hypotéz – parametrické testy Jednovýběrový t-test: Analyze – Compare Means – One-Sample T Test Párový t-test: Analyze – Compare Means – Paired-Samples T Test Dvouvýběrový t-test: Analyze – Compare Means – Independent-Samples T Test ANOVA: Analyze – Compare Means – One-Way ANOVA (ověření homogenity rozptylů: na záložce Options zatrhnout Homogeneity of variance test; post-hoc testy: na záložce Post Hoc vybrat např. Tukey) Autor: RNDr. Eva Janoušová Institut biostatistiky a analýz, Masarykova univerzita, Brno Výpočet Pearsonova korelačního koeficientu: Analyze – Correlate – Bivariate (nechat zatržené Correlation Coefficient: Pearson) Testování hypotéz – neparametrické testy Wilcoxonův test: Analyze – Nonparametric Tests – One Sample Mannův-Whitneyův test: Analyze – Nonparametric Tests – Independent Samples... (nebo: Analyze Nonparametric tests - Legacy Dialogs - 2 Independent Samples) Kruskalův-Wallisův test: Analyze – Nonparametric Tests – Legacy Dialogs – K Independent Samples Výpočet Spearmanova korelačního koeficientu: Analyze – Correlate – Bivariate (zatrhnout Correlation Coefficient: Spearman) Analýza kontingenčních tabulek Analyze – Descriptive Statistics – Crosstabs... - Výpočet procent a očekávaných četností: záložka Cells - Výpočet Pearsonova Chí-kvadrát testu: na záložce Statistics zatrhnout Chi-square - Výpočet Fisherova exaktního testu pro tabulky větší než 2x2: na záložce Exact zatrhnout Exact (na záložce Statistics musí být zatržené Chi-square) - Výpočet McNemarova testu: na záložce Statistics zatrhnout McNemar - Výpočet relativního rizika (relative risk) a poměru šancí (odds ratio): na záložce Statistics zatrhnout Risk Výpočet relativního rizika (relative risk) a poměru šancí (odds ratio) včetně p-hodnoty: Analyze – Regression – Binary Logistic – vybrat závisle proměnnou a kovariátu – Categorical (lze zvolit, zda je referenční kategorie Last nebo First; při změně kliknout na Change) – Options (zatrhnout CI for exp(B), aby se vypsaly intervaly spolehlivosti) – OK ROC analýza Analyze – ROC Curve – zadat Test Variable a State Variable (jako Value of State Variable zadat rizikovou kategorii) – na záložce Options lze zvolit, zda „Larger test result indicates more positive test“ nebo „Smaller test result indicates more positive test“ – Continue – zatržení „Standard error and confidence interval“ umožní k AUC vypočítat intervaly spolehlivosti a p-hodnotu – zatržení „Coordinate points of the ROC Curve“ umožní získat tabulku se senzitivitou a 1-specificitou pro jednotlivé cut-off body (po zkopírování této tabulku do Excelu je možno vypočítat specificitu a nalézt nejlepší cut-off) Komentáře a další triky Vypsání tabulky, kde jsou p-hodnoty pro mnoho kontingenčních tabulek dohromady: Utilities – OMS Control Pannel – Output Types: Tables – Command Identifiers: Crosstabs – Table Subtypes for Selected Commands: Chi Square Tests – Output Destination: New dataset (nějak ten nový soubor pojmenovat) – Add – Paste; ve skriptu se po všech CROSSTABS musí napsat omsend. Ověření normality dat: Analyze – Descriptive Statistics – Explore – na záložce Plots zatrnout Normality plots with tests Post hoc testy ke Kruskal-Wallis ANOVě v SPSS neexistují, řeší se to sadou Mann-Whitney testů (manuálně je pak nutno provést Bonferroniho korekci) Výpočet p-hodnoty pro jednostrannou alternativu u testů v SPSS (SPSS totiž umožňuje počítat jen oboustranné alternativy): - p/2 (pokud „směr“ v našich datech odpovídá jednostranné alternativě – např. pro jednostranný t-test, pokud H1: průměr>25 a náš vypočtený průměr je opravdu >25), kde p je p-hodnota vypočtená pro oboutrannou alternativu - 1-p-hodnota/2 (pokud „směr“ v našich datech neodpovídá jednostranné alternativě – např. pro jednostranný t-test, pokud H1: průměr>25 a náš vypočtený průměr je <25)