Statistická analýza dat II.

Úvod, opakování, základy praktické analýzy dat

Tematický okruh 1. Základy praktické analýzy dat v kontextu psychologického výzkumu, statistický software a práce s ním.

Role analýzy dat v kontextu výzkumného projektu. Principy otevřené vědy. Základní postup analýzy.  Explorační a konfirmační analýza. Příprava dat pro analýzu. Práce s chybějícími daty. Statistický model, statistické usuzování. Zdroje zkreslení výpovědní hodnoty statistik (bias). Opakování základů statistického usuzování - intervaly spolehlivosti, porovnávání průměrů, chíkvadrát testy a další neparametrické testy, korelace.

Literatura  

Základní učebnicí pro tento předmět je Field, 5. vydání (dále jen [F]). Website knihy s užitečnými materiály naleznete zde https://edge.sagepub.com/field5e

První tematický okruh pokrývají kapitoly 1 – 3 (teorie) a 4 - 5 (SPSS). Je to hodně stran, ale z velké části jde o opakování. Zároveň jsou zde relevantní pasáže propojující statistiku s metodologií. Následuje komentář k jednotlivým kapitolám pro efektivnější čtení.

Kapitola 1 představuje výzkumný kontext, jehož je analýza dat součástí. Ukazuje, co je jejím účelem a dává jí smysl. Kapitolu doporučuji zběžně přečíst. Zvyknete si na styl, jímž je učebnice napsaná a zvládnete pak lépe a rychleji přeskakovat "ornamenty", které nepotřebujete.  Sekcí 1.8 začíná opakování statistiky (zkuste si před jejím přečtením dát self-test https://edge.sagepub.com/field5e2/chapter-specific-resources/1/multiple-choice-questions). Zde se ujistěte, že vám dosavadní znalosti umožňují bez problémů porozumět všem detailům. Sekce 1.9 je prvním představením zásad reportování výsledků - začíná triviálně, ale jsou v ní již nové užitečné informace.

Kapitola 2 je jádrem opáčka inferenční části statistiky. Je to jinak zarámované než v PSYb1170, ale naprostou většinu prezentovaných informací znáte. Opět by to mělo být rychlé čtení, ale ujistěte se, že nakonec rozumíte všemu v této kapitole. Přitupte na základní rámování analýz - to, co nás zajímá (outcome) se snažíme nějak predikovat/vysvětlit dalšími proměnnými (model), ale vždycky to nebude zcela přesně (error): O = M + e. Pokud vám to připomíná regresi, tak je to správně. Budeme se všechny možné analýzy snažit představit jako jednodušší či složitější variantu regrese. Například, když nemáme k dispozici žádné prediktory, náš model se smrskne na konstantu (můžeme jí značit symbolicky 1, a, či b0) a regresní rovnice bude Oi = b0 + ei. b0 zde bude mít hodnotu průměru a ei pro každého člověka i bude mít hodnotu odchylky od průměru a rozptyl odchylek od průměru bude roven rozptylu O... 

Kapitola 3 je kritickým zamyšlením nad rutinním a bezmyšlenkovitým užíváním postupů statistického usuzování popsaných v kapitole 2. Čtení většiny této kapitoly si klidně nechte na později, s výjimkou sekce 3.7, která představuje standardizované velikosti účinku. Ty jsou přirozeně důležité nejen jako "lék na rutinní NHST".   



Seminář (sem. sk. 01 v den přednášky, sem. sk. 02 a 03 o týden později)


Programem semináře je seznámení se statistickým software IBM SPSS. SPSS si může každý student nainstalovat na svůj počítač z https://inet.muni.cz/app/soft/licence.

Cíle pro tento seminář:

  • Umíme otevřít data ve formátu .sav – variable view, data view
  • Umíme otevřít data ve formátu .csv a ve variable view doplnit metadata – labels, value labels, missing, measure 
  • Umíme spustit příkazy produkující popisné statistiky – descriptives, frequencies, examine
  • Orientujeme se v okně Output, víme, že tabulky lze editovat (pivot tray) a katenpejstovat do Excelu. Nastavíme si APA-style styl tabulek. Umíme zviditelnit Notes.
  • Víme, že všechno vlastně dělá syntax, a začneme příkazy pomocí Paste ukládat do okna Syntax a ukládat je jako reprodukovatelný záznam analýzy.
  • Umíme zobrazit rozdělení proměnných v sloupcovém grafu, histogramu či boxplotu.
  • Umíme transformovat proměnné – compute, recode – a filtrovat data – filter, split file

Literatura s komentáři 

Základy práce se SPSS popisují [F] kapitoly 4 a 5. Rozšiřující čtení: Grotenhuis & Chris (2014) jsou knížečkou extra o SPSS syntaxu.

Kapitola  4

  • Většina kapitoly je o tvorbě datové matice, což je opakování.
  • Více než vkládání dat do SPSS je důležité importování (4.7). Pro vkládání většího množství dat je vhodnější tabulkový kalkulátor.
  • Sekci 4.13 lze nyní přeskočit.

Kapitola  5 

  • Vše je zde relevantní, ale protože hraní si s grafy dokáže spotřebovat překvapivě velké množství času, je dobré si vyzkoušet základní podoby grafů a různé detaily zkoušet během semestru.

Soubory pro 1. seminář:

Dotaznik s kody
"Předpotopní" codebook - kódování je barevně vepsáno do dotazníku, který byl použit pro vytvoření dat. Můžete si zkusit všimnout odchylek od toho, co jsme si o kódování říkali v PSYb1170.
Data zakladni.csv
Data v čistě textovém formátu - jednotlivé hodnoty jsou od sebe odděleny středníkem a v číslech se používá desetinná čárka.
Data zakladni.sav
Data ve formátu SPSS. Ten obsahuje velké množství metadat - ideálně vše, co je v codebooku.


Další soubory:



Zadání seminárního úkolu

Z prvního semináře se neodevzdává žádný úkol.

Aby toho ale nebylo potom při první analýze moc, bylo dobré:

1. Nainstalovat a aktivovat si IBM SPSS 28 z https://inet.muni.cz/app/soft/licence

2. Naimportujte si data z našeho prvního výzkumu z metodologie. Jsou pod tímto boxem ve formátu csv (hodnoty oddělené středníkem). Zkuste opravit, co importní filtr nepochopil tak, jak bychom chtěli.

3. Doplňte si metadata podle přiloženého codebooku. Pamatujte, že lze používat Ctrl+C a Ctrl+V. Ideálem je nastavit metadata syntaxem, pokud existuje šance, že takový import budeme opakovat.

4. Zkuste se podívat na četnosti pár proměnných a zobrazit si k nim i nějaký sloupcový graf. 

5. Spočítejte proměnnou, která bude obsahovat počet distraktorů pozorovaných u chodce jako součet proměnných ch_distrak_X.

6. Vyfiltrujte si pouze případy, kdy bylo 0 distraktorů a podívejte se, kolik % bylo mužů.

7. Překódujte si počet distraktorů na dichotomickou proměnnou a podle ní rozdělte datovou matici pomocí split file. Podívejte se znovu na % mužů. 

8. V datech je poslední proměnná přednost, kterou jsme kódovali, jestli byla přednost dána (3), nedána (2), nebo nebylo potřeba dávat přednost (1). Použili jsme pro to v Excelu vzorec =KDYŽ(A(ch_prejiti = 1;au_projeti=1);1;KDYŽ(A(ch_prejiti >1;au_projeti<3);2;KDYŽ(au_projeti>2;3;99))). Dokázali byste stejnou proměnnou vytvořit v SPSS? Zkontrolujte si pomocí CROSSTABS, jestli má vaše proměnná stejné hodnoty jako ta naimportovaná.