Statistická analýza dat II.

Lineárně regresní model - základy

Lineárně regresní model - základy

Opakování: Korelace, lineární regrese.

Parciální a semiparciální korelace. Mnohonásobná regrese, pojmy model a parametr, regresní koeficienty nestandardizované a standardizované, směrodatná chyba regresního koeficientu, mnohonásobný korelační koeficient R, koeficient determinace R2, postupná (stepwise) regrese, hierarchická (blockwise) regrese, parciální korelace, multikolinearita, supresory, problémy spojené s množstvím prediktorů, grafická kontrola splnění předpokladů regrese, rezidua, odlehlé a vlivné případy, power analýza pro lineární regresi.

Literatura: [F] kap.  9 a 11; [MRH] 69 – 73.


Čtení

Kapitola 8 je opakováním o korelacích - u 2. semináře je komentář k jejímu čtení.  Před přednáškou je užitečné se podívat na parciální a semiparciální korelace - [F] 8.5 a třeba i nakouknout do kapitoly 10.

V nejjednodušší podobě je téma statistických modelů představeno na pár stránkách v kapitole 2 - sekce 2.3-2.6.

Vše podstatné je v kapitole 9. Probereme ji se vším všudy během této a následující přednášky. Základ je v sekci 9.2. Začíná se modelem s jedním a více prediktory - jeho specifikací. Pak je potřeba odhadnout jeho parametry. Když mají parametry své hodnoty, můžeme model hodnotit jako celek. Pak teprve interpretujeme jednotlivé parametry modelu - regresní koeficienty jednotlivých prediktorů. Lineární modely jsou jako korelace náchylné k mnoha zkreslením - jejich přehled a možné způsoby řešení jsou v sekci 9.3. Když pak chceme usuzovat z parametrů modelu spočítaných na našem vzorku (tj. statistik) na populační parametry, vše potřebné obsahuje část 9.4. Sekce 9.5 pak představuje, jak uvažovat o síle testu v regresním modelu a jak velké vzorky můžeme potřebovat. Následující sekce popisují, jak to vše udělat v SPSS, a tak nás budou zajímat až na semináři. V kontextu přednášky je pak relevantní ještě sekce 9.11 o interpretaci.  


Příklady studií

McGill, R. J. (2015). Interpretation of KABC-II Scores: An Evaluation of the Incremental Validity of Cattell-Horn-Carroll (CHC) Factor Scores in Predicting Achievement. Psychological Assessment27(4), 1417–1426. http://doi.org/10.1037/pas0000127

Zechner, M. R., & Gill, K. J. (2016[SJ2] ). Predictors of Physical Activity in Persons With Mental Illness: Testing a Social Cognitive Model. Psychiatric Rehabilitation Journal39(4), 321–327. http://doi.org/10.1037/prj0000191

Open science: Příklad celé analýzy v SPSS - https://osf.io/npxag/  i v R – open science - https://osf.io/3kxja/


Průběžný test

Na počátku přednášky bude avizovaný průběžný test. Bude to metodou tužka-papír. Bude ho tvořit 20-25 rychlých otázek (multiple-choice, jedno- až několikaslovná odpověď). Podobu otázek si můžete vyzkoušet v odpovědníku "  Procvičování na průběžný test".

Test pokrývá Fieldovy kapitoly 1-7. Je to z velké části opakování, ale je tam i řada nových věcí, jak píšu v předchozích kapitolách interaktivní osnovy.




Seminář


Před seminářem je dobré se podívat na loňské video se základním postupem regresní analýzy v SPSS:


Zadání seminárního úkolu
Zpracujte analýzu představenou na semináři (viz PPT a data ze semináře).

Odevzdejte textový dokument se zprávou o analýze, která bude mít podobu sekce výsledky v souladu s doporučeními APA manuálu a příručky Morganové a kol.. Zpráva bude obsahovat:

  • stručné představení dat, vzorku, na kterém byla data získána, a použitých metod měření (velmi stručná verze sekcí Vzorek a Metody),
  • kroky provedené v rámci přípravy dat (čištění, počítání nových proměnných),
  • informace o chybějících datech a strategii, jak se s nimi naložilo v regresním modelu,
  • popisné statistiky všech proměnných použitých v analýze i s korelační maticí 
  • formulace předpokladů jako zdůvodnění specifikace modelu  (zde lze zmínit transformace či jiné způsoby řešení problémů s případnou nelinearitou vztahů)
  • popis modelu s tabulkou parametrů a jeho hodnocení prizmatem vysvětleného rozptylu
  • zhodnocení naplnění předpokladů lineárně regresního modelu a případných omezení, které z toho mohou plynout
  • stručnou interpretaci a diskuzi smyslu výsledků

Formát. Minimum je na slajdech 38 a 39 v prezentaci z první přednášky. Pamatujte na 11. přikázání - NEZKOPÍRUJEŠ TABULKU ZE SPSS!

Odevzdejte také datový soubor (.sav) a skript/syntax (.sps), jehož spuštěním vzniknou výsledky, které prezentujete ve své zprávě. Nejlépe je to vložit do odevzdávány jako jeden .zip pojmenovaný podle vzoru U2_S3_Bílek_Fialová_Zelená.zip. 

Pro zprávu využijte šablonu uloženou ve studijních materiálech zde.

Termín odevzdání je ve středu následující po tomto semináři .