* Encoding: UTF-8. * Budeme se snažit predikovat uváděnou výšku osoby na základě pohlaví a odpovědí na "Dotazník výšky". ************************************************ * Příprava dat ************************************************ * Věkové složení souboru. FREQUENCIES VARIABLES=vek /ORDER=ANALYSIS. DESCRIPTIVES VARIABLES=vek /STATISTICS=MEAN STDDEV MIN MAX SKEWNESS. GGRAPH /GRAPHDATASET NAME="graphdataset" VARIABLES=vek MISSING=LISTWISE REPORTMISSING=NO /GRAPHSPEC SOURCE=INLINE. BEGIN GPL SOURCE: s=userSource(id("graphdataset")) DATA: vek=col(source(s), name("vek")) GUIDE: axis(dim(1), label("Věk (v letech)")) GUIDE: axis(dim(2), label("Frequency")) ELEMENT: interval(position(summary.count(bin.rect(vek, binStart(17), binWidth(2)))), shape.interior(shape.square)) END GPL. * Omezíme naši analýzu pouze na osoby ve věku typickém pro vysoškolské studenty (18–29 let). COMPUTE age18to29=RANGE(vek, 18, 29). EXECUTE. VARIABLE LABELS age18to29 'Věk 18–29 let'. VALUE LABELS age18to29 0 'Ne' 1 'Ano'. FREQUENCIES VARIABLES= age18to29 /ORDER=ANALYSIS. FILTER BY age18to29. EXECUTE. * Pohybuje se uváděná výška mužů a žen ve smysluplném rozmezí? Zdá se, že ano. MEANS TABLES=vyska.cm BY zena /CELLS=MEAN COUNT STDDEV MIN MAX. * Deskriptivní statistiky pro položky dotazníku výšky. DESCRIPTIVES VARIABLES=vys.a1 TO vys.b26 /STATISTICS=MEAN STDDEV MIN MAX. * Četnosti nevyplněných položek Dotazníku výšky. COUNT nmiss = vys.a1 TO vys.b26(MISSING). FREQUENCIES VARIABLES=nmiss /FORMAT=DVALUE /ORDER=ANALYSIS. * Maximální počet nevyplněných položek byl 2. *Reliability Dotazníku výšky. RELIABILITY /VARIABLES= vys.a1 TO vys.b26 /SCALE('Dotazník výšky') ALL /MODEL=ALPHA /STATISTICS=CORR /SUMMARY=TOTAL. * Rekódování opačně skórovaných položek. RECODE vys.b14 TO vys.b26 (1=4) (2=3) (3=2) (4=1). EXECUTE. *Reliability Dotazníku výšky podruhé. RELIABILITY /VARIABLES= vys.a1 TO vys.b26 /SCALE('Dotazník výšky') ALL /MODEL=ALPHA /SUMMARY=TOTAL. * Výpočet celkového skóru Dotazníku výšky. COMPUTE dv = MEAN.24(vys.a1 TO vys.b26) - 1. EXECUTE. * Souvisí to, zda respondent neuvedl svou výšku, se skórem Dotazníku výšky. COMPUTE vys_missing = MISSING(vyska.cm). EXECUTE. T-TEST GROUPS=vys_missing(0 1) /MISSING=ANALYSIS /VARIABLES=dv /CRITERIA=CI(.99). * Zdá se že nikoli. * Tvorba finálního souboru podle těchto kritérií * Věk 18–29 let. * Pohlaví je uvedeno. * Maximálně dvě nevyplněné položky Dotazníku výšky. * Výška je uvedena. USE ALL. COMPUTE filter_$=( ~ MISSING(zena) & age18to29 = 1 & nmiss <= 2 & ~ MISSING(vyska.cm) ). VARIABLE LABELS filter_$ ' ~ MISSING(zena) & age18to29 = 1 & nmiss <= 2 & ~ '+ 'MISSING(vyska.cm) (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMATS filter_$ (f1.0). FILTER BY filter_$. EXECUTE. ************************************************ * Popisné statistiky ************************************************ * Četnosti mužů a žen. FREQUENCIES VARIABLES=zena /ORDER=ANALYSIS. * Věk. DESCRIPTIVES VARIABLES=vek /STATISTICS=MEAN STDDEV MIN MAX SKEWNESS. * Uváděná výška mužů a žen. EXAMINE VARIABLES=vyska.cm BY zena /PLOT BOXPLOT HISTOGRAM NPPLOT SPREADLEVEL(1) /COMPARE GROUPS /STATISTICS DESCRIPTIVES /CINTERVAL 99 /MISSING LISTWISE /NOTOTAL. ************************************************ * Lineární regrese ************************************************ * Regrese s uváděnou výškou (cm) jako závisle proměnnou a pohlavím + skórem Dotazníku výšky jako prediktory. REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS CI(99) BCOV R ANOVA COLLIN TOL CHANGE ZPP /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT vyska.cm /METHOD=ENTER zena /METHOD=ENTER dv /PARTIALPLOT ALL /SCATTERPLOT=(*ZRESID ,*ZPRED) /RESIDUALS DURBIN HISTOGRAM(ZRESID) NORMPROB(ZRESID) /CASEWISE PLOT(ZRESID) OUTLIERS(3) /SAVE PRED COOK LEVER RESID ZRESID. * Bodový graf zkoumaných vztahů. GGRAPH /GRAPHDATASET NAME="graphdataset" VARIABLES=dv vyska.cm[name="vyska_cm"] zena MISSING=LISTWISE REPORTMISSING=NO /GRAPHSPEC SOURCE=INLINE. BEGIN GPL SOURCE: s=userSource(id("graphdataset")) DATA: dv=col(source(s), name("dv")) DATA: vyska_cm=col(source(s), name("vyska_cm")) DATA: zena=col(source(s), name("zena"), unit.category()) GUIDE: axis(dim(1), label("Dotazník výšky")) GUIDE: axis(dim(2), label("Výška (cm)")) GUIDE: legend(aesthetic(aesthetic.color.exterior), label("Pohlaví:")) SCALE: cat(aesthetic(aesthetic.color.exterior), include("0", "1")) ELEMENT: point.jitter(position(dv*vyska_cm), color.exterior(zena), transparency.exterior(transparency."0.8")) END GPL. * Graf predikcí našeho modelu. GGRAPH /GRAPHDATASET NAME="graphdataset" VARIABLES=dv PRE_1 zena MISSING=LISTWISE REPORTMISSING=NO /GRAPHSPEC SOURCE=INLINE. BEGIN GPL SOURCE: s=userSource(id("graphdataset")) DATA: dv=col(source(s), name("dv")) DATA: PRE_1=col(source(s), name("PRE_1")) DATA: zena=col(source(s), name("zena"), unit.category()) GUIDE: axis(dim(1), label("dv")) GUIDE: axis(dim(2), label("Unstandardized Predicted Value")) GUIDE: legend(aesthetic(aesthetic.color.exterior), label("Pohlaví (žena)")) SCALE: cat(aesthetic(aesthetic.color.exterior), include("0", "1")) ELEMENT: point(position(dv*PRE_1), color.exterior(zena)) END GPL. GGRAPH /GRAPHDATASET NAME="graphdataset" VARIABLES=dv RES_1 zena MISSING=LISTWISE REPORTMISSING=NO /GRAPHSPEC SOURCE=INLINE. BEGIN GPL SOURCE: s=userSource(id("graphdataset")) DATA: dv=col(source(s), name("dv")) DATA: RES_1=col(source(s), name("RES_1")) DATA: zena=col(source(s), name("zena"), unit.category()) GUIDE: axis(dim(1), label("dv")) GUIDE: axis(dim(2), label("Unstandardized Residual")) GUIDE: axis(dim(4), label("Pohlaví (žena)"), opposite()) SCALE: cat(dim(4), include("0", "1")) ELEMENT: point(position(dv*RES_1*1*zena)) END GPL.