* Encoding: UTF-8.
GET 
  FILE='C:\Users\18832\Dropbox\!Výuka\PSY252\Data\EU Kids\EU_Kids_FINALwDV_100511-all_missing-PSY252-v2.sav'.


*Přejmenování proměnných, aby se nám s nimi lépe pracovalo.
RENAME VARIABLES (DPSESHH3=SES) (DCtimeuse = time) (QP201b = sex) (QP204 = age).

* Budeme pracovat s daty za ČR. 
USE ALL.
COMPUTE filter_$=(country=5).
VARIABLE LABELS filter_$ 'country=5 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMATS filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.


*Uložíme si kopii dat s relevatními proměnnými přesunutými na začátek datasetu.
SAVE OUTFILE="C:\Users\18832\Dropbox\!Výuka\PSY252\Bloky\4 Anova\EUKO_ANOVA.sav"
  /KEEP time SES sex age country all.
*Kdyby tam nebylo to all na konci, všechny ostatní proměnné by byly zahozeny.


*Máme 729 případů.
FREQ country.
 
* Naší závislou proměnnou bude denní čas užívání internetu time (v minutách).
examine time
 /PLOT HISTOGRAM BOXPLOT.
*Nemá hezké rozdělení. Kdoví, jak ji odhadovali.
*10 lidí nemá platnou hodnotu.

* Naší nezávislou proměnnou bude SES.
FREQ SES .
*Opět 10 lidí nemá platnou hodnotu.

*Jak se liší průměry time ve skupinách SES?.
examine time BY SES
 /PLOT HISTOGRAM BOXPLOT.

*V obou chybí 10 lidí. Je to těch samých 10?. 
MVA VARIABLES=time SES
  /CATEGORICAL=SES
  /TTEST PROB PERCENT=0
  /TPATTERN PERCENT=0.
*Ne není. V ANOVA tak bude jen 709.
*Ale zdá se, že chybění nesouvisí s dobou užívání internetu.

MEANS TABLES=time BY SES
  /CELLS=COUNT MEAN  STDDEV VAR.

GRAPH
  /LINE=MEAN(time) BY SES 
  /INTERVAL CI(95.0).


*Předpoklady - normalita, homoskedascita.
*SD se liší jen drobně.
*Rozdělení?
*Zprava zešikmené, asi ve všech skupinách, jen mírně, v souladu s teorií.
*I když je ANOVA robustní, mohli bychom toužit po boostrapu. Bohužel, ten v SPSS funguje očekávatelným způsobem jen u regresního modelu.


*A samotná ANOVA.
ONEWAY time BY SES
  /STATISTICS DESCRIPTIVES HOMOGENEITY
  /PLOT MEANS
  /MISSING ANALYSIS.

*Kdybychom nechtěli riskovat heteroskedascitu, můžřeme použít Welchovu korekci.
** BTW k Leveneho testu: https://www.itl.nist.gov/div898/handbook/eda/section3/eda35a.htm
** Trimmed je užitečný u nízké špičatosti a median-nased u zešikmení. 
ONEWAY time BY SES
  /STATISTICS DESCRIPTIVES HOMOGENEITY WELCH
  /PLOT MEANS
  /MISSING ANALYSIS.

*Můžeme reportovat, étu/omegu si musíme dopočítat.

* Kontrasty.
* Otestujme dvě hypotézy z přednášky.
*H1: Děti z rodin s nízkým SES používají internet méně často než ostatní děti.
*H2: Děti z rodin se středním SES používají internet méně často než děti z rodin s vysokým SES.
ONEWAY time BY SES
  /STATISTICS DESCRIPTIVES HOMOGENEITY
  /CONTRAST .5 .5 -1
  /CONTRAST 1  -1 0
  /PLOT MEANS
  /MISSING ANALYSIS.

*Post-hoc testy?.
*Když už jsme použili kontrasty, není pro jejich použití sebemenší důvod.
*Takže jen abychom si je ukázali.
ONEWAY time BY SES
  /STATISTICS DESCRIPTIVES   
  /POSTHOC = QREGW TUKEY
  /MISSING ANALYSIS.


*Porovnání s regresí.

*Dummy kódování.
RECODE SES (1=1) (2=0) (3=0) INTO VYS_SES_D.
RECODE SES (1=0) (2=1) (3=0) INTO STR_SES_D.
EXECUTE.
FREQ VYS_SES_D STR_SES_D.

*Efektové kódování.
RECODE SES (1=1) (2=0) (3=-1) INTO VYS_SES_E.
RECODE SES (1=0) (2=1) (3=-1) INTO STR_SES_E.
EXECUTE.
FREQ VYS_SES_E STR_SES_E.

*Kontrasty odpovídající našim hypotézám.
*Logika kódováýní je trochu jiná a není to něco,co by bylonutné umět.
*Jde jen o to ukázat, že výsledky jsou identické. 
RECODE SES (1=1) (2=1) (3=-1) INTO C1.
RECODE SES (1=1)  (2=-1)    (3=0) INTO C2.
EXECUTE.
FREQ C1 C2.


REGRESSION
  /DESCRIPTIVES MEAN STDDEV CORR SIG N
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS CI(95) R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN 
  /DEPENDENT time
  /METHOD=ENTER VYS_SES_D STR_SES_D.

REGRESSION
  /DESCRIPTIVES MEAN STDDEV CORR SIG N
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS CI(95) R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN 
  /DEPENDENT time
  /METHOD=ENTER VYS_SES_E STR_SES_E.

REGRESSION
  /DESCRIPTIVES MEAN STDDEV CORR SIG N
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS CI(95) R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN 
  /DEPENDENT time
  /METHOD=ENTER C1 C2.




*Přejděme k faktoriální anově.
*Nejprve si spočítáme one-way anovu pomocí příkazu UNIANOVA, abychom viděli, že výsledek je stejný.
UNIANOVA time BY SES 
 /DESIGN = SES 
 /PRINT = DESCRIPTIVE 
 /PLOT PROFILE (SES) ERRORBAR = CI.

*Můžeme přidat další faktor - pohlaví.
*Máme ho, zdá se, pro všech 729 lidí, takže nám to neovlivní efektivní velikost vzorku.
FREQ sex.

MEANS TABLES=time BY sex
  /CELLS=COUNT MEAN  STDDEV VAR.

*Dohromady i s SES.
CROSSTABS
  /TABLES= sex BY SES
  /FORMAT=AVALUE TABLES
  /CELLS=COUNT
  /COUNT ROUND CELL.

*Popisné statistiky podle skupin.
CTABLES
  /VLABELS VARIABLES=sex time SES DISPLAY=BOTH
  /TABLE sex [C] BY time [S][MEAN] > SES
  /CATEGORIES VARIABLES=sex SES ORDER=A KEY=VALUE EMPTY=INCLUDE
  /CRITERIA CILEVEL=95.
*Nechci zapomenout ani na SD a N. 
CTABLES
  /VLABELS VARIABLES=sex time SES DISPLAY=BOTH
  /TABLE sex [C] BY time [S][COUNT MEAN STDDEV] > SES
  /CATEGORIES VARIABLES=sex SES ORDER=A KEY=VALUE EMPTY=INCLUDE
  /CRITERIA CILEVEL=95.

*Graficky. 
GRAPH
  /LINE(MULTIPLE)=MEAN(time) BY SES BY sex
  /INTERVAL CI(95.0).

*Chci aspoň nakouknout na rozložení uvnitř skupin.
*To druhé BY nejde naklikat.
examine time BY SES BY sex
 /PLOT HISTOGRAM BOXPLOT.

* A nyní si můžeme spočítat ANOVU.
UNIANOVA time BY SES sex
 /DESIGN = SES sex SES*sex
 /PRINT = DESCRIPTIVE
  /PLOT PROFILE (sex*SES) ERRORBAR = CI.

*Protože máme v modelu více faktorů, můžeme požádat o EMM, 
tedy _odhady_ toho, jaké by byly průměry ve skupinách podle jednoho faktoru,
kdyby v nich byly skupiny podle druhého faktoru zastoupeny stejně.
*Jsou to vlastně predikované skóry. 
UNIANOVA time BY SES sex
 /DESIGN = SES sex SES*sex
 /PRINT = DESCRIPTIVE
  /PLOT PROFILE (SES*sex) ERRORBAR = CI
  /EMMEANS=TABLES(SES) 
  /EMMEANS=TABLES(sex). 


*Je dobré vědět, že defaultní model, který zahrnuje interakci, lze změnit.
UNIANOVA time BY SES sex
 /DESIGN = SES sex 
 /PRINT = DESCRIPTIVE
  /PLOT PROFILE (SES*sex) ERRORBAR = CI
  /EMMEANS=TABLES(SES) 
  /EMMEANS=TABLES(sex). 



* A podívejme se na kontrasty. Způsob jejich zadávání se zde liší.
* Je dobré si uvědomit, že porovnáváme průměry podle jednoho faktoru korigované 
na možný vliv ostatních faktorů Estimated Marginal Means.   
UNIANOVA time BY SES sex
  /CONTRAST(SES)=Helmert
  /METHOD=SSTYPE(3)
  /INTERCEPT=INCLUDE
  /PRINT ETASQ DESCRIPTIVE PARAMETER
  /CRITERIA=ALPHA(.05)  
  /DESIGN=SES sex SES*sex.
*Kontrast ručně.
UNIANOVA time BY SES sex
  /CONTRAST(SES)=SPECIAL ( .5 .5 -1  1   -1   0)
  /EMMEANS=TABLES(SES) 
  /METHOD=SSTYPE(3)
  /INTERCEPT=INCLUDE
  /PRINT ETASQ DESCRIPTIVE PARAMETER
  /CRITERIA=ALPHA(.05)  
  /DESIGN=SES sex SES*sex.



*Příkaz UNIANOVA nabízí obrovské množství outputu. 
*+Žádost o analogii Welchova F. To v regresi zase není.
UNIANOVA time BY SES sex
  /CONTRAST(SES)=Helmert
  /METHOD=SSTYPE(3)
  /INTERCEPT=INCLUDE
  /PLOT=PROFILE(SES*sex) TYPE=LINE ERRORBAR=CI MEANREFERENCE=NO YAXIS=AUTO
  /EMMEANS=TABLES(SES) 
  /EMMEANS=TABLES(sex) 
  /PRINT MBP ETASQ DESCRIPTIVE PARAMETER HOMOGENEITY OPOWER
  /PLOT=SPREADLEVEL RESIDUALS
  /CRITERIA=ALPHA(.05)  
  /ROBUST=HC3   
  /DESIGN=SES sex SES*sex.



*Nakonec ještě dvě jednotlivosti.
*Model s random faktorem.
USE ALL.
UNIANOVA time BY country
 /DESIGN = country
 /RANDOM = country 
 /PRINT = DESCRIPTIVE
  /PLOT PROFILE (country) ERRORBAR = CI.

 UNIANOVA time BY country
 /DESIGN = country
 /RANDOM = country 
 /PRINT = DESCRIPTIVE
  /EMMEANS=TABLES(country) COMPARE ADJ(SIDAK)
  /PLOT PROFILE (country) ERRORBAR = CI.


*ANCOVA.
UNIANOVA time BY country WITH age
 /DESIGN = country age country*age
 /RANDOM = country 
 /PRINT = DESCRIPTIVE
  /PLOT PROFILE (country) ERRORBAR = CI.