Statistická analýza dat II.

Úvod, opakování, základy analýzy dat, předpoklady

Teorie. Základy praktické analýzy dat v kontextu psychologického výzkumu, statistický software a práce s ním.

Role analýzy dat v kontextu výzkumného projektu. Principy otevřené vědy. Základní postup analýzy.  Explorační a konfirmační analýza. Příprava dat pro analýzu. Práce s chybějícími daty. Statistický model, statistické usuzování. Opakování základů statistického usuzování - intervaly spolehlivosti, testování hypotéz, síla testu a velikost efektu.

Zdroje zkreslení výpovědní hodnoty statistik (bias). Pearsonův korelační koeficient, t-test i chíkvadrát mají své předpoklady. Jejich ověření je často náročnější, než samotné spočítání statistik. A když nejsou předpoklady naplněny, je potřeba mít nějaké záložní postupy. K tomu přidáme ještě téma vypořádání se s chybějícími daty.

  • Představa o data-generating procesu jako (vzdálený) zdroj předpokladů
  • Srovnání středních hodnot: t-test - normalita, homoskedasticita, odlehlé hodnoty - Welchův t-test, Mann-Whitney/Wilcoxon
  • Korelace: Pearsonova - linearita, normalita - Spearman, Kendall
  • Chíkvadrát - adjustovaná rezidua, permutační(exact) testy
  • Usuzování na normalitu z grafů a testy normality
  • Usuzování na homo/heteroskedasticitu.
  • Bootstrapping. 
  • Obecný přístup k posuzování předpokladů.
  • Práce s chybějícími daty. 

Praktické prvky práce se SPSS

  • Otevřít data ve formátu .sav – variable view, data view
  • Otevřít data ve formátu .csv a ve variable view doplnit metadata – labels, value labels, missing, measure 
  • Spustit příkazy produkující popisné statistiky – descriptives, frequencies, examine
  • Orientace v okně Output,  možnost editace tabulek a kopírování do Excelu. Nastavíme si APA-style styl tabulek.
  • Používání "syntaxu",  Paste  příkazů  do okna Syntax a ukládání jako reprodukovatelný záznam analýzy.
  • Umíme zobrazit rozdělení proměnných v sloupcovém grafu, histogramu či boxplotu.
  • Transformace proměnných – compute, recode 
  • Filtrování dat, analyzování vybraných podmnožin dat  – filter, split file
  • Korelační koeficienty (correlate > bivariate)  a scatterplot (graphs > scatter/dot)
  • t-testy (compare means and proportions > ...) a neparametrické alternativy v nonparametric tests > ...
  • Chí-kvadrát testy (v crosstabs a v nonparametric tests > legacy dialogs > chi-square)

Zadání seminární práce

Zadání všech seminárních úkolů zpracovávejte do šablony níže. Je to výňatek ze struktury článku IMRaD podle APA normy v 7. vydání. Zvyknete si tak snadno na konvenční strukturu prezentování analýz. 

Termín zpracování je do neděle předcházející vašemu semináři.

Survey1121 2023
Data z našeho dotazníkového šetření ze Základů psychologického výzkumu. Metadata jsou vyplněná od Qualtricsu - s trochou snahy by mělo být vše srozumitelné.
Zadání seminární práce na 1. seminář

Tento úkol se skládá z řady drobných úkonů. Ke zprávě (v šabloně) přiložte svou finální datovou matici a soubor obsahující syntaxové příkazy, které jste v průběhu zaznamenali. Všechno pak zazipujte do souboru se jménem podle vzoru U1_autor1_autor2_autor3.zip  do složky "Úkol z 1. semináře" ve složce vaší seminární skupiny.  

Budete analyzovat datový soubor z našeho loňského dotazníkového šetření self-esteemu a životní spokojenosti v Základech psychologického výzkumu. Vaším úkolem bude zjistit, jak souvisí naše psychologické proměnné s formálními charakteristikami toho, jak respondent dotazník vyplňoval (jak rychle a na jakém zařízení). 

Vaším úkolem je otestovat následující 3 hypotézy:

1. Čím jsou respondenti se svým životem více spokojeni, tím rychleji odpovídali na položky SWLS. BTW liší se v této souvislosti mladší a starší generace? (To je naše původní hypotéza.)

 2. Jsou starší respondenti pomalejší při odpovídání na položky SWLS než mladší generace?

3. Platí, že mladší generace vyplňuje dotazníky častěji na mobilu než starší generace? Typ zařízení můžeme identifikovat např. podle operačního systému Q22_Operating_System, kteroužto položku bude potřeba překódovat na dichotomii počítač-mobil. Zde by nás druhotně mohlo zajímat, jestli se liší rychlost odpovídání na počítači a na mobilu. 

Rychlost odpovídání na SWLS sekci dotazníku v sekundách reprezentuje proměnná Q21_Page_Submit. Jak hned zjistíte, její rozdělení je extrémně pozitivně zešikmené. Bývá zvykem takové proměnné transformovat - logaritmovat. Zároveň je dobré odfiltrovat případy, kdy lidé odpovídali nerealisticky rychle a kdy se asi zasekli dlouho na něčem, co asi s odpovídáním vůbec nesouviselo. Nepočítejte tedy s respondenty, kteří na sekci se SWLS položkami strávili 10 a méně sekund a 300 a více sekund. 

Zprávu o své analýze podejte v šabloně pro reportování výsledků podle APA. Zaměřte se i na formu. V analýze tohoto typu bychom vlastně nečekali žádnou nebo jen minimum tabulek. Nějakou vyrobte, ale zaměřte se, aby obsahovala přesně to, co chcete komunikovat. Nezapomeňte, že to, co je v tabulkách či grafech, nemluví samo za sebe - je nutné to v textu okomentovat.

Syntax by už měl obsahovat záznam celé analýzy. Ideálně by mělo stačit otevřít data, vybrat celý syntax a spustit ho, abychom dostali kompletní výsledky reportované ve zprávě. Nevadí ale, když to nebude úplně dokonalé - některé "ručně editované" věci se vám nemusí hned podařit do syntaxu zaznamenat a nemá cenu se na nich teď zasekat.


První analytické kroky v SPSS
Záznam semináře z doby covidu. Může doplnit, co zaznělo na přednášce.



Literatura  

Poznámky ke čtení Fielda [F]

První tematický okruh pokrývají kapitoly 1 – 3 (teorie) a 4 - 5 (SPSS). Je to hodně stran, ale z velké části jde o opakování a listování knihou. Zároveň jsou zde relevantní pasáže propojující statistiku s metodologií. Následuje komentář k jednotlivým kapitolám pro efektivnější čtení.

Kapitola 1 představuje výzkumný kontext, jehož je analýza dat součástí. Ukazuje, co je jejím účelem a dává jí smysl. Kapitolu doporučuji zběžně přečíst. Zvyknete si na styl, jímž je učebnice napsaná a zvládnete pak lépe a rychleji přeskakovat "ornamenty", které nepotřebujete. Zároveň je to rychlé opáčko Základů psychologického výzkumu a Statistické analýzy dat z prvního ročníku.  Sekcí 1.7 specificky začíná opakování statistiky. Zde se ujistěte, že vám dosavadní znalosti umožňují bez problémů porozumět všem detailům. Sekce 1.8 je prvním představením zásad reportování výsledků - začíná triviálně, ale jsou v ní již nové užitečné informace.

Kapitola 2 je jádrem opáčka inferenční části statistiky. Je to jinak zarámované než v PSYb1170, ale naprostou většinu prezentovaných informací znáte. Opět by to mělo být rychlé čtení, ale ujistěte se, že nakonec rozumíte všemu v této kapitole. Přistupte na základní rámování analýz - hodnoty proměnné, co nás zajímá (outcome), se snažíme nějak predikovat/vysvětlit dalšími proměnnými (model), ale vždycky to bude s nějak velkou nepřesností (error):  O_i = M + e_i . Pokud vám to připomíná regresi, tak je to správně. Budeme se všechny možné analýzy snažit představit jako jednodušší či složitější variantu regrese. Například, když nemáme k dispozici žádné prediktory, náš model se smrskne na průsečík (konstantu, můžeme jí značit symbolicky 1, a, či b0) a regresní rovnice bude . b0 zde bude mít hodnotu průměru a ei pro každého člověka i bude mít hodnotu odchylky od průměru a rozptyl odchylek od průměru bude roven rozptylu O... Za zmínku stojí jeden terminologický rozdíl mezi PSYb1170, a to přechod od parametr - statistika  k parametr-odhad parametru, s čímž ladí i označování parametrů latinkou (dříve jsme měli řecká písmena) a odhadů parametru stříškou nad písmenem označujícím parametr.  Fakt je dobré ji dočíst až do konce - postupně se to více a více překrývá s PSYb1170. 

Kapitola 3 je kritickým zamyšlením nad rutinním a bezmyšlenkovitým užíváním postupů statistického usuzování popsaných v kapitole 2. Čtení většiny této kapitoly si klidně nechte na později, s výjimkou sekce 3.2, která je opáčko problémů s NHST a 3.7, která představuje standardizované velikosti účinku. Ty jsou přirozeně důležité nejen jako "lék na rutinní NHST".   

Kapitola  4

  • Většina kapitoly je o tvorbě datové matice, což je opakování.
  • Více než vkládání dat do SPSS je důležité importování (4.7). Pro vkládání většího množství dat je vhodnější tabulkový kalkulátor (tj. vložíme data do spreadsheetu a do SPSS je importujeme z xls(x) či csv) .
  • Sekci 4.13 lze nyní přeskočit.

Kapitola  5 

  • Vše je zde relevantní, ale protože hraní si s grafy dokáže spotřebovat překvapivě velké množství času, je dobré si nyní vyzkoušet základní podoby grafů a různé detaily zkoušet během semestru.

Kapitola 6 shrnuje obvyklé předpoklady a související možná zkreslení výsledků statistických analýz. Tady se dozvíte, že předpoklady statistických testů (a statistik) jsou vlastně vyjádřením obavy, že by statistiky/testy mohly být zkreslené.  Potřebujete si z ní odnést, co ty hrozby jsou (tvar rozdělení, homoskedasticita, linearita, outlieři...) a co nám vlastně hrozí (zkreslená hodnota statistiky, zkreslený odhad směrodatné chyby a odsud zkreslené závěry statistického usuzování...). Pro začátek semestru stačí kapitoly úrovně A a B (+ 6.10.8 Bootstrap).  Ještě poznámka k 6.10.3, kde Andy radí, že kvůli odchylkám od normality by proměnné netransformoval. S argumentací souhlasím, jen bych chtěl oslabit to kategorické "don't" v nadpisu. Je řada situací, kdy se běžně transformuje (např. reakční časy) a i když není snadné domyslet 100% konsekvence, někdo už to za nás udělal. Ale rozhodně platí, že pokud by nás trápila jen odchylka od normality, tak se do transformování nepouštíme.     

Kapitola 7 představuje neparametrické (robustní, assumption-"free") testy. Tu si lze také nechat na později - vědět, po čem se dá sáhnout, když máme pocit, že předpoklady nejsou naplněny dost na to, abyste mohli věřit svým závěrům. 

Dílčí poznámky k Fieldovi kap.  8. 

  • Začátek kapitoly je opakování, mělo by stačit rychlé čtení.
  • Protože SPSS samo hned nenabízí intervaly spolehlivosti pro r, je dobré neminout sekci 8.2.4.
  • Většina potřebného je v sekci 8.4. (8.4.5 lze přeskočit)
  • Sekci o parciálních korelacích (8.5) je dobré si přečíst až před studiem lineární regrese.
  • Sekci 8.6 lze přeskočit - porovnávání korelací není potřeba tak často, jak by se zdálo.
  • Nepřeskočit 8.8!

Dílčí poznámky k Fieldovi kap.  10. 

  • Sekci 10.4 je dobré nyní přeskočit - začne dávat smysl, až se podíváme na lineární regresi
  • Sekce 10.5 a 10.6 jsou opakování.
  • Jádro jsou sekce 10.8. a 10.9. Bayesovský t-test (10.8.5, 10.9.6) lze přeskočit.
  • Nepřeskočit 10.10!

Dílčí poznámky k Fieldovi kap.  19. 

  • Sekce 19.3.7 a 19.4 lze přeskočit. 
  • Jádro jsou sekce 19.7 a 19.8 (bez 19.8.3)


Poznámky ke čtení Morganové et al. [MRH]

I když je text už poměrně letitý, dobře ukazuje obecný styl reportování výsledků. Všímejte si, jakým způsobem jsou statistiky uváděny v textu. Pokud nepotřebujeme sdělit více než 5-6 číselných údajů najednou, píšeme je do vět a neděláme pro ně tabulku. Všímejte si v příkladech uvedených v [MRH], co všechno se píše do vět a jaká se používá interpunkce. Vypíchl bych, že statistiky se snažíme psát kurzívou.


 


 !Odlišnosti české interpunkce:  desetinné čárky, ne tečky, což vede k preferenci středníku jako oddělovače číselných informací v seznamech --- nula před desetinou čárkou u čísel < 1 ---  mezera mezi číslem a znakem %, když znak čteme "procent", a absence této mezery, když znak čteme "procentní".

Když je prezentovaných číselných údajů hodně, použijeme tabulku. Když už to děláme, je potřeba vytvořit tabulku se všemi náležitostmi: Titulkem, který ji označuje jako tabulku a dává jí nadpis, z něhož je zřejmé, co v tabulce je. Poznámkami pod tabulkou, které vysvětlují zkratky použité v tabulce a doplňují informace nutné pro porozumění tomu, co je v tabulce. v APA formátu používáme v rámci tabulky pouze vodorovné čáry a obecně čarami šetříme (často jsou jen 3, stejně tlusté).





Úlohy k procvičování

Zadání ze semináře by vám mělo zprostředkovat prvotní zkušenost s postupy probíranými na semináři. Kdyby to ale měla být jediná analýza daného typu, kterou před zkouškou budete dělat, bylo by to málo. Je potřeba získat více zkušeností a některé kroky si až zautomatizovat. Pro to jsou zde úlohy k procvičování.  Můžete je zpracovávat kdykoli, samostatně i ve skupině a v případě nejasností se ptát v diskuzním fóru předmětu, na naší FB skupině, nebo se zastavit na konzultaci. K většině úloh je i nějaký klíč k řešení, komentáře, či správný výsledek.

Úlohy k prvnímu okruhu jsou specifické tím, že jsou rozdrobené do mnoha jednotlivých úkolů. V dalších okruzích již půjde více o ucelené analýzy.