Autor: RNDr. Eva Janoušová
Institut biostatistiky a analýz, Masarykova univerzita, Brno
1
Manuál pro analýzu dat v softwaru STATISTICA
Software STATISTICA je produkt StatSoft, Inc. (www.statsoft.com, www.statsoft.cz). STATISTICA je
dostupná v rámci MU z https://inet.muni.cz/auth/login (login stejný jako do www.is.muni.cz, seznam
dostupných softwarů lze najít v oddílu Provozní služby).
Načtení datového souboru
File -> Open -> vybrat datový soubor -> Open -> Import selected sheet to a Spreadsheet -> vybrat list
Excelovského souboru -> OK -> nechat zatržené Get variable names from first row -> OK -> Import as
Text Labels
Uložení datového souboru
File -> Save -> zadáme název souboru -> Save
Zapnutí automatického filtru
Označit všechny sloupce (např. pomocí CTRL+A nebo kliknutím do levého horního rohu tabulky) ->
Data -> Auto Filter -> Auto Filter
1. Vizualizace dat
Vytváření grafů pomocí záložky Graphs.
Koláčový graf
Graphs -> 2D Graphs -> Pie Charts -> zvolit proměnnou (např. Gender) (v záložce Advanced je možné
zvolit, jakou legendu, typ a tvar grafu chceme (Pie Legend, Type, Shape) -> OK
Po dvojím kliknutí na graf se nám ukáže okno Graph Options, kde lze libovolně měnit barvu grafu i typ
a tvar grafu a další parametry
Sloupcový graf (na ose y počty lidí)
Graphs -> Histograms -> Variables -> zvolit proměnnou (např. Group) -> OK -> zrušit zatržení Fit type:
Normal -> na záložce Advanced zatrhnout Breaks between columns -> OK
Sloupcový graf (na ose y procenta)
Graphs -> Histograms -> Variables -> zvolit proměnnou (např. Group) -> OK -> zrušit zatržení Fit type:
Normal -> na záložce Advanced zatrhnout Breaks between columns -> na záložce Advanced změnit u
Y axis hodnotu N na % -> OK
Histogram (na ose y procenta)
Graphs -> Histograms -> Variables -> zvolit proměnnou (např. Age) -> OK -> na záložce Advanced
změnit u Y axis hodnotu N na % (lze např. si vypsat i základní popisnou statistiku zatrhnutím
Descriptive statistics) -> OK
Krabicový graf (s vykreslením odlehlých hodnot)
Graphs -> 2D Graphs -> Box Plots... -> Variables -> zvolit proměnnou (např. Age) jako Dependent
variable -> OK -> OK
Krabicový graf (s minimem a maximem)
Graphs -> 2D Graphs -> Box Plots... -> Variables -> zvolit proměnnou (např. Age) jako Dependent
variable -> OK -> na záložce Advanced -> u Whisker zvolit Min-Max -> u Outliers zvolit Off -> OK
Autor: RNDr. Eva Janoušová
Institut biostatistiky a analýz, Masarykova univerzita, Brno
2
2. Příprava dat pro analýzu
Nastavení formátu u MMSE na double
Dvakrát kliknout na šedé políčko s názvem proměnné -> nastavit Type na Double -> nastavit Display
format na Number -> OK
Nastavení formátu u scan_date na datum
Dvakrát kliknout na šedé políčko s názvem proměnné -> nastavit Display format na Date -> vybrat
formát 17/03/10 -> OK
Identifikace a odstranění duplikací
Data -> Data Filtering/Recoding -> Filter Duplicate Cases -> Input: Variables -> ID -> OK -> u Output
zatrhnout Create duplicates spreadsheet -> OK
Je patrné, že se vždy zachová první záznam a druhý záznam je vyřazen bez ohledu na datum pořízení
skenu. Pokud chceme, aby byl vždy odstraněn záznam se starším datem, je nejprve nutné data seřadit
podle data pořízení skenu (sestupně) pomocí: Data -> Sort -> označit 1-ID -> Add Var(s) -> označit
30-scan_date -> Add Vars(s) -> Descending -> OK -> Include Formatting
Nový datový soubor bez duplikací uložit.
Odstranění chybějících a chybných hodnot
Data -> Subset -> Cases -> zatrhnout Enable Selection Condition-> do By expression napsat v4="" OR
v4>110 OR v7="" -> OK -> OK
Nový datový soubor bez chybějících a chybných hodnot uložit.
Rekódování proměnné Gender, aby obsahovala pouze hodnoty F a M
1. způsob – ručně: Vyfiltrovat si řádek s hodnotou FF a hodnotu FF přepsat na F
2. způsob – vytvořením nové proměnné: Označit proměnnou za proměnnou Gender -> Insert -> Add
Variables -> Name -> zadat název nové proměnné (např. Gender_rek) -> do Long name napsat
=iif(v3="FF","F",v3) -> OK
Rekódování proměnné Group, aby obsahovala pouze hodnoty 1 (CN), 2 (MCI) a 3 (AD)
Označit proměnnou za proměnnou Group -> Insert -> Add Variables -> Name -> zadat název nové
proměnné (např. Group_3kat) -> do Long name napsat =iif(v2=3;2;iif(v2=4;3;v2)) -> OK
Jiný způsob pomocí Data -> Recode...
Vytvoření textových popisků u kvalitativní proměnné
Dvakrát kliknout na šedé políčko s názvem proměnné -> Text Labels...-> zadat textové popisky a jejich
příslušné číselné hodnoty -> OK -> OK
3. Popisná sumarizace dat
Popisná sumarizace dat pomocí Statistics -> Basic Statistics/Tables. Obecný popis dialogového okna
pro sumarizaci dat, vizualizace a další analýzy je uveden na Obr. 1.
Popisná sumarizace kvalitativních dat – frekvenční tabulka
Statistics -> Basic Statistics/Tables -> Frequency tables -> Variables -> zvolit proměnnou (např. Group)
-> OK -> Summary
Popisná sumarizace kvantitativních dat
Statistics -> Basic Statistics/Tables -> Descriptive statistics -> Variables -> zvolit proměnnou (např.
Age) -> OK -> na záložce Advanced zatrhnout Median, Coefficient of variation, Lower & upper
quartiles -> Summary
Autor: RNDr. Eva Janoušová
Institut biostatistiky a analýz, Masarykova univerzita, Brno
3
Obr. 1. Popis dialogového okna sloužícího pro sumarizaci, vizualizaci a další analýzy dat.
Popisná sumarizace kvantitativních dat – zapnutí filtru (vyfiltrování posledních 20
pacientů)
Statistics -> Basic Statistics/Tables -> Descriptive statistics -> Variables -> zvolit proměnnou (např.
Height a Height_cor) -> OK -> Select Cases -> Enable Selection Conditions -> Specific, selected by: ->
do “or case number” zadat 814-833 -> OK -> na záložce Advanced zatrhnout Median -> Summary
4. Transformace dat
Logaritmická transformace
Označit proměnnou za proměnnou, kterou chceme logaritmovat -> Insert -> Add Variables -> Name ->
zadat název nové proměnné (např. Weight_log) -> do Long name napsat =Log(v9) (Pozor, v softwaru
STATISTICA je přirozený logaritmus označen jako Log(x) místo Ln(x)!) -> OK
Standardizace dat
Označit proměnnou za proměnnou, kterou chceme standardizovat -> Insert -> Add Variables -> Name
-> zadat název nové proměnné (např. Age_st) -> do Long name napsat =v6 -> OK -> Data ->
Standardize... -> OK
Detailní nastavení
analýzy/grafu
Výběr dat pro analýzu/graf
Záložky možností nebo
nastavení analýzy/grafu
Způsob zpracování
chybějících hodnot
Selekce dat
Vážení dat
Nastavení
Autor: RNDr. Eva Janoušová
Institut biostatistiky a analýz, Masarykova univerzita, Brno
4
Centrování dat
Označit proměnnou za proměnnou, kterou chceme centrovat-> Insert -> Add Variables -> Name ->
zadat název nové proměnné (např. Height_centr) -> do Long name napsat =v9-174.15 (průměr
vypočítaný pomocí Descriptive statistics) -> OK
Kategorizace
Označit proměnnou za proměnnou, kterou chceme kategorizovat -> Insert -> Add Variables -> Name >
zadat název nové proměnné (např. Age_kat) -> OK -> Data -> Recode... (zkontrolovat si, že v záhlaví
je správný název proměnné, jinak vybrat správnou proměnnou pomocí tlačítka Variable...) -> zadat
podmínky a nové hodnoty (viz Obr. 2) -> OK
Obr. 2. Ukázka kategorizace věku.
5. Intervaly spolehlivosti
Výpočet intervalu spolehlivosti a střední chyby průměru (standard error)
Statistics -> Basic Statistics/Tables -> Descriptive statistics -> Variables -> zvolit proměnnou (např.
Age) -> OK -> na záložce Advanced zatrhnout Conf. limits for means a Std. err. of mean -> Summary
Výpočet kvantilů Studentova rozložení
Statistics -> Probability Calculator -> Distributions... -> t (Student) -> zatrhnout Inverse -> jako p zadat
0.975 -> jako df (degrees of freedom – počet stupňů volnosti) zadat 832 -> Compute (vypočítá nám to
hodnotu t)
6. Užitečná nastavení
Vypnutí automatického překreslování grafů
File -> Output Manager -> Graphs -> Settings -> Data Update přepnout na Locked -> zrušit zatržení u
Update spreadsheet case states -> OK
Autor: RNDr. Eva Janoušová
Institut biostatistiky a analýz, Masarykova univerzita, Brno
5
7. Výpočet velikosti vzorku a power analýza
Výpočet velikosti vzorku
Statistics -> Power Analysis -> Sample Size Calculation -> zvolit typ výpočtu podle typu našeho
experimentu, který budeme chtít provést (např. Two Means, t-Test, Ind. Samples) -> OK -> nastavit
parametry a zvolit typ hypotézy (např. viz Obr. 3 – Pozor! Zadáváme typ nulové hypotézy, tedy
zadáváme opak toho, co chceme prokázat!) -> OK -> Calculate N
Obr. 3. Ukázka nastavení parametrů u výpočtu velikosti vzorku.
Power analýza
Statistics -> Power Analysis -> Power Calculation -> zvolit typ výpočtu podle typu našeho experimentu,
který budeme chtít provést (např. Two Means, t-Test, Ind. Samples) -> OK -> nastavit parametry a
zvolit typ hypotézy (např. viz Obr. 4 – Pozor! Zadáváme typ nulové hypotézy, tedy zadáváme opak
toho, co chceme prokázat!) -> OK -> Calculate Power
Obr. 4. Ukázka nastavení parametrů u power analýzy.
Autor: RNDr. Eva Janoušová
Institut biostatistiky a analýz, Masarykova univerzita, Brno
6
8. Statistické testy pro kvantitativní data – parametrické testy
Jednovýběrový t-test
Statistics -> Basic Statistics/Tables -> t-test, single sample -> OK -> zvolit proměnnou (např.
Hippocampus_volume (mm3)) -> OK -> Test all means against: 6575 -> na záložce Options zatrhnout
Compute conf. limits -> Summary
Párový t-test
Statistics -> Basic Statistics/Tables -> t-test, dependent samples -> OK -> zvolit proměnné (např.
Hippocampus_volume (mm3) jako First variable a Hippocampus_volume_24 (mm3) jako Second
variable) -> OK -> Summary
Dvouvýběrový t-test
Statistics -> Basic Statistics/Tables -> t-test, independent, by groups -> OK -> zvolit proměnné (např.
Putamen_volume (mm3) jako Dependent variable a Gender_rek jako Grouping variable) -> na
záložce Options lze zvolit Levene’s test (test homogenity rozptylů) a CI for estimates -> Summary
Analýza rozptylu (ANOVA) a post-hoc testy – 1. způsob
Statistics -> Basic Statistics/Tables -> Breakdown & one-way ANOVA -> OK -> zvolit proměnné (např.
Hippocampus_volume (mm3) jako Dependent variable a Group_3kat jako Grouping variable) -> OK
-> OK -> na záložce ANOVA & tests kliknout na Analysis of Variance (vypíše ANOVA tabulku); dále lze
vypsat i výsledky testů homogenity rozptylů: Levene tests, Brown-Forsythe test -> na záložce Post-hoc
kliknout na Tukey honest significant difference (HSD) (v případě vyrovnaných počtů subjektů ve
skupinách), Tukey HSD for unequal N (v případě nestejných počtů subjektů ve skupinách) nebo
Scheffé test (pro stejné i nestejné počty subjektů ve skupinách)
Analýza rozptylu (ANOVA) a post-hoc testy – 2. způsob
Statistics -> ANOVA -> One-way ANOVA -> OK -> zvolit proměnné (např. Hippocampus_volume (mm3)
jako Dependent variable a Group_3kat jako Categorical predictor (factor)) -> OK -> OK -> All effects
(vypíše ANOVA tabulku; prvního řádku s interceptem si nevšímáme) -> More results -> na záložce
Post-hoc kliknout na Tukey HSD (pro stejné počty subjektů ve skupinách), Unequal N HSD (pro
nestejné počty subjektů ve skupinách) nebo Scheffé (pro stejné i nestejné počty subjektů)
9. Statistické testy pro kvantitativní data – neparametrické testy
Wilcoxonův test – jednovýběrový
STATISTICA neumožňuje počítat jednovýběrový Wilcoxonův test přímo. Je nutné nejprve vytvořit
novou proměnnou, která bude mít ve všech řádcích hodnotu, se kterou chceme srovnávat naše data:
Insert -> Add Variables -> Name -> zadat název nové proměnné (např. mmse_konst) -> do Long name
napsat =27,5 (hodnota konstanty, se kterou chceme srovnávat) -> OK
Poté můžeme použít pro výpočet párový Wilcoxonův test: Statistics -> Nonparametric -> Comparing
two dependent samples (variables) -> OK -> zvolit proměnné (např. MMSE jako First variable a
mmse_konst jako Second variable) -> OK -> Wilcoxon matched pairs test
(Je možné vypočítat i znaménkový test (Sign test), který je též neparametrickou alternativou párového
t-testu.)
Wilcoxonův test – párový
Statistics -> Nonparametric -> Comparing two dependent samples (variables) -> OK -> zvolit
proměnné (např. MMSE jako First variable a MMSE_24 jako Second variable) -> OK -> Wilcoxon
matched pairs test
Autor: RNDr. Eva Janoušová
Institut biostatistiky a analýz, Masarykova univerzita, Brno
7
(Je možné vypočítat i znaménkový test (Sign test), který je též neparametrickou alternativou párového
t-testu.)
Mannův-Whitneyův test
Statistics -> Nonparametric -> Comparing two independent samples (groups) -> OK -> zvolit
proměnné (např. Hippocampus_volume (mm3) jako Dependent variable list a Gender_rek jako Indep.
(grouping) variable) -> OK -> M-W U test
Kruskalův-Wallisův test
Statistics -> Nonparametrics -> Comparing multiple indep. samples (groups) -> OK -> zvolit proměnné
(např. MMSE jako Dependent variable list a Group_3kat jako Indep. (grouping) variable) -> OK ->
Summary (vypíše výsledky Kruskalova-Wallisova testu) -> Multiple comparisons of mean ranks for all
groups (vypíše výsledky post hoc analýzy)
10.Ověření předpokladů statistických testů
Vykreslení Q-Q grafu pro jednotlivé skupiny
Graphs -> 2D Graphs -> Normal Probability Plots... -> zvolit proměnnou (např. Hippocampus_volume
(mm3)) -> By Group -> Grouping Variable(s) -> vybrat proměnnou (např. Gender_rek) -> OK ->
zatrhnout Output to a single folder -> přepnout Sorting of Groups na Ascending -> OK -> lze zatrhnout
Shapiro-Wilk test (test normality dat) -> OK
Ověření normality pomocí Basic Statistics/Tables pro jednotlivé skupiny
Statistics -> Basic Statistics/Tables -> Descriptive statistics -> Variables -> zvolit proměnnou (např.
Hippocampus_volume (mm3)) -> OK -> na záložce Advanced zatrhnout Median (to teď není nutné) ->
By Group -> Grouping Variable(s) -> vybrat proměnnou (např. Gender_rek) -> OK -> zatrhnout Output
to a single folder a Accumulate tabular results in a single spreadsheet -> OK -> přepnout Sorting of
Groups na Ascending -> OK -> na záložce Normality zatrhnout Shapiro-Wilk’s W test -> Frequency
tables -> na záložce Prob. & Scatterplots lze nechat vykreslit Normal probability plot (tzn. Q-Q graf)
Ověření normality pomocí Histograms... pro jednotlivé skupiny
Graphs -> Histograms -> Variables -> zvolit proměnnou (např. Hippocampus_volume (mm3)) -> OK ->
na záložce Advanced změnit u Y axis hodnotu N na %, zatrhnout Shapiro-Wilk test a KolmogorovSmirnov
test -> By Group -> Grouping Variable(s) -> vybrat proměnnou (např. Gender_rek) -> OK ->
zatrhnout Output to a single folder a Accumulate tabular results in a single spreadsheet -> OK ->
přepnout Sorting of Groups na Ascending -> OK -> OK
11.Další užitečné příkazy
Vykreslení tečkového grafu
Graphs -> Scatterplots -> zvolit proměnné (např. Hippocampus_volume (mm3) jako X a
Hippocampus_volume_24 (mm3) jako Y -> na záložce Advanced můžeme zatrhnout Corr. and p
(linear fit) -> OK
Popisná sumarizace kvantitativní proměnné podle kategorií kvalitativní proměnné
Statistics -> Basic Statistics/Tables -> Descriptive statistics -> Variables -> zvolit proměnnou (např.
Hippocampus_volume (mm3)) -> OK -> na záložce Advanced zatrhnout Median -> By Group ->
Grouping Variable(s) -> vybrat proměnnou (např. Gender_rek) -> OK -> zatrhnout Output to a single
folder a Accumulate tabular results in a single spreadsheet -> OK -> přepnout Sorting of Groups na
Ascending -> OK -> Summary
Autor: RNDr. Eva Janoušová
Institut biostatistiky a analýz, Masarykova univerzita, Brno
8
Vytvoření šablony grafů
Upravit si graf do finální podoby -> 2x kliknout do grafu -> Styles... -> More -> 2x kliknout na Graph
(aby se celý ten strom zavřel) -> kliknout na tlačítko s třemi tečkami -> Save as -> pojmenovat graf ->
Save -> Close -> OK
Úprava grafu podle šablony
2x kliknout do grafu -> Styles... -> More -> 2x kliknout na Graph (aby se celý ten strom zavřel) ->
otevřít rozbalovací nabídku s typy grafů -> zvolit šablonu -> Edit -> Close -> OK
12.Analýza kontingenčních tabulek
Kontingenční tabulka absolutních četností
Statistics -> Basic Statistics/Tables -> Tables and banners -> OK -> Specify tables (select variables)
(např. Group_3kat do List 1 a Age_kat do List 2)-> OK -> OK -> Summary
Kontingenční tabulka procent
Statistics -> Basic Statistics/Tables -> Tables and banners -> OK -> Specify tables (select variables)
(např. Group_3kat do List 1 a Age_kat do List 2)-> OK -> OK -> na záložce Options zatrhnout
Percentages of row counts, Percentages of column counts nebo Percentages of total count ->
Summary
Kontingenční tabulka – očekávané četnosti
Statistics -> Basic Statistics/Tables -> Tables and banners -> OK -> Specify tables (select variables)
(např. Group_3kat do List 1 a Age_kat do List 2)-> OK -> OK -> na záložce Options zatrhnout Expected
frequencies-> Summary
Pearsonův chí-kvadrát test
Statistics -> Basic Statistics/Tables -> Tables and banners -> OK -> Specify tables (select variables)
(např. Group_3kat do List 1 a Age_kat do List 2)-> OK -> OK -> na záložce Options zatrhnout Pearson
& M-L Chi-square -> na záložce Advanced kliknout na Detailed two-way tables
Fisherův exaktní test
Statistics -> Basic Statistics/Tables -> Tables and banners -> OK -> Specify tables (select variables)
(např. Gender do List 1 a mmse_kat do List 2)-> OK -> OK -> na záložce Options zatrhnout Fisher
exact, Yates, McNemar -> na záložce Advanced kliknout na Detailed two-way tables
McNemarův test
Statistics -> Basic Statistics/Tables -> Tables and banners -> OK -> Specify tables (select variables)
(např. mmse_kat do List 1 a mmse24_kat do List 2)-> OK -> OK -> na záložce Options zatrhnout Fisher
exact, Yates, McNemar -> na záložce Advanced kliknout na Detailed two-way tables
Autor: RNDr. Eva Janoušová
Institut biostatistiky a analýz, Masarykova univerzita, Brno
9
13.Testy binomických dat
Jednovýběrový binomický test
Příklad: Mezi 50 pacienty s Alzheimerovou chorobou je 12 pacientů s MMSE skóre nižším než daná
hranice. Ověřte, zda podíl pacientů s nižším skóre je stejný jako v běžné populaci (v běžné populaci
uvažujte, že 5% lidí má hodnoty nižší než hranice).
Statistics -> Basic Statistics/Tables -> Difference tests: r, %, means -> Difference between two
proportions -> zadat pravděpodobnosti a počty subjektů (viz Obr. 5 vlevo) -> Two-sided -> Compute
(dostaneme p-hodnotu)
Obr. 5. Ukázka zadávání parametrů v jednovýběrovém (vlevo) a dvouvýběrovém binomickém testu
(vpravo).
Dvouvýběrový binomický test
Příklad: Mezi 42 pacienty s Alzheimerovou chorobou (AD) je 11 pacientů s MMSE skóre nižším než
daná hranice. Mezi 18 pacienty s mírnou kognitivní poruchou (MCI) je 6 pacientů s MMSE skóre
nižším než daná hranice. Ověřte, zda se podíly pacientů s nižším skóre u pacientů s AD a MCI liší.
p1=11/42=0,262 a p2=6/18=0,333
Statistics -> Basic Statistics/Tables -> Difference tests: r, %, means -> Difference between two
proportions -> zadat pravděpodobnosti a počty subjektů (viz Obr. 5 vpravo) -> Two-sided -> Compute
(dostaneme p-hodnotu)
14.ROC analýza
I. Vytvoření proměnné mmse_neg (mmse_neg=-mmse), protože je nutné, aby hodnoty skóre pro
kontrolní subjekty byly menší než hodnoty pro pacienty.
II. Statistics -> Advanced Linear/Nonlinear Models -> Generalized Linear/Nonlinear Models -> Logit
model -> OK -> zvolit proměnné (group_01_CnMci jako Dependent variable a mmse_neg jako
Continuous predictor -> zvolit Response codes (zadat hodnoty: 1 0 (je nutné to mít v tomto
pořadí, aby byla správně vypočítaná senzitivita a specificita; 1 značí rizikovou skupinu, 0
kontrolní skupinu)) -> OK -> OK -> na záložce Resid. 1 kliknout na ROC Curve (vykreslí se graf s
ROC křivkou a AUC)
III. Pro zjištění cut-off (nejlepšího dělícího bodu) je nutné nejdříve vypsat frekvenční tabulku hodnot
spojité proměnné: Statistics -> Basic Statistics/Tables -> Frequency Tables -> zvolit proměnnou
(např. mmse_neg) -> Summary
IV. Výslednou tabulku je nutné zkopírovat do Excelu: kliknout na levý horní roh tabulky (tím se celá
tabulka označí) -> kliknout do tabulky pravým tlačítkem myši -> Copy with headers -> vložit do
Excelu -> seřadit podle hodnot prvního sloupce sestupně
Autor: RNDr. Eva Janoušová
Institut biostatistiky a analýz, Masarykova univerzita, Brno
10
V. Do Excelu za tuto tabulku přikopírovat tabulku, která byla vytvořena jako výsledek ROC analýzy
VI. V Excelu spočítat specificitu (tzn. udělat 1-(sloupeček s 1-Specificity)) a pak spočítat součet
senzitivity a specificity -> vybrat řádek s největší hodnotou součtu senzitivity a specificity
VII. Vytvoření kategorizovaného MMSE skóre s využitím cut-off: Insert -> Add Variables ->
pojmenovat novou proměnnou (např. mmse_kat) a do Long name napsat =iif(v14<-28;0;1) -> OK
VIII. Ověření vypočítané senzitivity a specificity: Statistics -> Basic Statistics/Tables -> Tables and
banners -> OK -> Specify tables (select variables) (např. mmse_kat do List 1 a group_01_CnMci
do List 2)-> OK -> OK -> na záložce Options zatrhnout Percentage of column counts -> Summary
(senzitivita je tady procento v pravém dolním rohu, specificita je procento v levém horním rohu
– záleží ale na nakódování dat a v Listu 1 musí být výsledek diagnostického testu a v Listu 2
skutečnost)
15.Korelační analýza
Bodový graf (“Scatterplot”)
Graphs -> Scatterplots... -> zvolit proměnné (např. Putamen_volume (mm3) jako X a
Amygdala_volume (mm3) jako Y -> OK -> na záložce Advanced lze zatrhnout Corr. and p (linear fit)
(vypočítá Pearsonův korelační koeficient a p-hodnotu) a R square (linear fit) -> OK
Výpočet Pearsonova korelačního koeficientu
Statistics -> Basic Statistics/Tables -> Correlation matrices -> OK -> One variable list -> zvolit
proměnné (např. Amygdala_volume (mm3) a Putamen_volume (mm3)) -> na záložce Options zvolit
Display r, p-values, and N’s -> Summary
Srovnání dvou korelačních koeficientů
Statistics -> Basic Statistics/Tables -> Difference tests: r, %, means -> OK -> zadáme hodnoty
korelačního koeficientu a počet subjektů obou výběrů -> Compute (spočítá nám to p-hodnotu)
Výpočet Spearmanova korelačního koeficientu (výpočet čtvercové korelační matice)
Statistics -> Nonparametrics -> Correlation (Spearman, Kendall tau, gamma) -> OK -> zvolit proměnné
(např. MMSE a Hippocampus_volume (mm3)) -> OK -> Spearman rank R
Výpočet Spearmanova korelačního koeficientu (výpočet detailní tabulky)
Statistics -> Nonparametrics -> Correlation (Spearman, Kendall tau, gamma) -> OK -> zvolit Detailed
report (místo Square matrix) -> zvolit proměnné (např. MMSE do First variable list a
Hippocampus_volume (mm3) do Second variable list) -> OK -> Spearman rank R
16.Regresní analýza
Lineární regrese a odstranění vlivu kovariát
Statistics -> Multiple Regession -> zvolit proměnné (např. Nucl_caud_volume (mm3) jako Dependent
var., Age a gender_01,... jako Independent variables) -> OK -> OK -> Summary: Regression results
(vypíše regresní koeficienty a p-hodnoty) -> OK
- Vykreslení Q-Q grafu pro rezidua: kliknout na Normal plot of residuals
- Vykreslení histogramu reziduí: na záložce Residuals kliknout na Histogram of residuals
(vpravo lze zvolit, zda chceme vykreslit histogram reziduí či standardizovaných reziduí)
- Vykreslení bodového grafu predikovaných hodnot a reziduí: na záložce Scatterplots kliknout
na Predicted vs. residuals
- Uložení reziduí: na záložce Save kliknout na Save residuals & predicted -> zvolit proměnné,
které bude nově vytvořená tabulka dále obsahovat -> OK
Autor: RNDr. Eva Janoušová
Institut biostatistiky a analýz, Masarykova univerzita, Brno
11
17.Analýza přežití
Kaplanův-Meierův odhad funkce přežití pro jeden výběr
Statistics -> Advanced Linear/Nonlinear Models -> Survival Analysis -> Kaplan & Meier product-limit
method -> OK -> zvolit proměnné (např. cas jako Survival times a umrti jako Censoring indicator) ->
OK -> Code for complete responses: 1 -> Code for censored responses: 0 -> OK
- Vykreslení křivky přežití: kliknout na Survival times vs. cum. proportion surviving
- Vypsání tabulky pro výpočet x-letého přežití: kliknout na Summary: Product-limit survival
analysis
- Vypsání tabulky s mediánem přežití: na záložce Advanced kliknout na Percentiles of survival
function
Kaplanův-Meierův odhad funkce přežití pro dva výběry
Statistics -> Advanced Linear/Nonlinear Models -> Survival Analysis -> Comparing two samples -> OK
-> zvolit proměnné (např. cas jako Survival, umrti jako Censoring var, Skupina jako Grouping variable)
-> OK -> Code for complete responses: 1 -> Code for censored responses: 0 -> zkontrolovat, jestli
kategorie grupovací proměnné jsou v pořadí, jaké chceme -> OK
- Vykreslení křivek přežití: na záložce Function plots kliknout na Cum. prop. surviving by group
(Kaplan Meier)
- Výpočet testu na srovnání přežití ve skupinách: na záložce Quick kliknout na Gehan’s
Wilcoxon test nebo Log-rank test (p-hodnota je v záhlaví tabulky)
- Vypsání tabulky pro výpočet x-letého přežití: na záložce Two-sample tests kliknout na
Proportion surviving by group (nevypisuje se ale střední chyba nutná pro výpočet intervalů
spolehlivosti a nevypočítá se medián přežití – je nutné tyto údaje počítat pro každou křivku
zvlášť pomocí Kaplanova-Meierova odhadu funkce přežití pro jeden výběr (postup viz výše))
Kaplanův-Meierův odhad funkce přežití pro tři a více výběrů
Statistics -> Advanced Linear/Nonlinear Models -> Survival Analysis -> Comparing multiple samples ->
OK -> zvolit proměnné (např. cas jako Survival, umrti jako Censoring var, Skupina jako Grouping
variable) -> OK -> Code for complete responses: 1 -> Code for censored responses: 0 -> Codes (for
groups) -> All (kdyžtak změnit pořadí kategorií podle toho, jak potřebujeme) -> OK -> OK
- Vykreslení křivek přežití: kliknout na Cumulative proportion surviving (Kaplan-Meier) by
group
- Výpočet testu na srovnání přežití ve skupinách: kliknout na Summary: Survival times & scores
(p-hodnota je v záhlaví tabulky)
- Vypsání tabulky pro výpočet x-letého přežití: na záložce Advanced kliknout na Percent
surviving by group (nevypisuje se ale střední chyba nutná pro výpočet intervalů spolehlivosti
a nevypočítá se medián přežití – je nutné tyto údaje počítat pro každou křivku zvlášť pomocí
Kaplanova-Meierova odhadu funkce přežití pro jeden výběr (postup viz výše))
Coxův model proporcionálních rizik
Statistics -> Advanced Linear/Nonlinear Models -> Cox Proportional Hazards Model -> zvolit
proměnné (např. OS_doba_mesice jako Survival, ECOG1 jako Covariates, Umrti jako Censoring
variable) -> OK -> Code for complete responses: 1 -> Code for censored responses: 0 -> OK ->
Parameter estimates
Poděkování
Příprava výukových materiálů předmětu „DSAN01 Analýza dat pro Neurovědy “ byla finančně
podporována prostředky projektu FRVŠ č. 942/2013 „Inovace materiálů pro interaktivní výuku a
samostudium předmětu Analýza dat pro Neurovědy“.