Statistická analýza dat II.

Logistická regrese

Logistická regrese

Model a parametry logistické regrese, interpretace regresního koeficientu exp(B) a převod predikovaných skórů-logitů na pravděpodobnost

, log-likelihood (-2LL), vyjádření shody modelu s daty pomocí R2 Coxe & Snella a Nagelkerka, ověření předpokladů, analýza reziduí a vlivných pozorování. Generalizovaný lineární model.

Literatura: [F] kap 20 (s. 877-916); [MRH] 73 – 76

Příklady studií:

Farrer, L. M., Gulliver, A., Bennet, K., Fassnacht, D. B., & Griffiths, K. M. (2016). Demographic and psychosocial predictors of major depression and generalised anxiety disorder in Australian university students. BMC Psychiatry16(1), 241. http://doi.org/10.1186/s12888-016-0961-z[SJ1] 

Sznitman, S. R., Zlotnick, C., & Harel-Fisch, Y. (2016). Normalisation theory: Does it accurately describe temporal changes in adolescent drunkenness and smoking? Drug and Alcohol Review, 35(4), 424–432. http://doi.org/10.1111/dar.12351




Video k analýze je zde: https://is.muni.cz/auth/el/fss/podzim2021/PSYb2520/seminare/seminar_5/Seminar_4_-_Logisticka_regrese.video5

Zadání seminárního úkolu
Budeme predikovat to, jestli chodci bude dána přednost. Použijeme vaše data, která jste napozorovali před rokem. Data jsou v balíčku pod tímto zadáním.
   Závislou je prednost, kterou jsme si vytvořili s kódováním 1 (nebylo potřeba dávat přednost), 2 (chodec nedostal přednost) a 3 (chodec dostal přednost). Případy s kódem 1 tedy nebudou předmětem analýzy.
   K dispozici máme řadu potenciálních prediktorů - charakteristiky přechodu, chodce, auta i situace pozorování.
   Nejprve zkuste využít k predikci dvě spojité proměnné, které tam máme - počet chodců za 10 minut (reprezentuje frekventovanost přechodu, pocet_ch_za10min) a čas zahájení pozorování (cas_zacatku).
   Z proměnných zachycujících chování chodce můžeme použít ch_rozhlizeni, ch_komun_1, ch_distrak_4, ch_znaky_1 a ch_znaky_2.
   Relevantním prediktorem (ne)zastavení by měla být au_rychlost.
   Informaci o situaci pozorování doplňuje ch_pocet (jestli šel chodec sám nebo ne).
   Chcete-li můžete přidat i proměnnou dle vlastní volby. 

Buďte opatrní - data jsou v podobě, jak jste nám je odevzdali, jen naimportovaná do SPSS. I když pro neplatné hodnoty by měly být použita hodnota 99, není tomu vždy tak. U některých proměnným jsou nuly, i když být neměly. Hlídete si množství chybějících dat.
Proměnná čas začátku je typu Date - funkce XDATE.TIME() to transformuje na počet sekund od půlnoci. Po vydělení 3600 dostanete hodiny jako desetinné číslo.


 

Odevzdejte textový dokument se zprávou o analýze, která bude mít podobu sekce výsledky v souladu s doporučeními APA manuálu a příručky Morganové a kol.. Zpráva bude obsahovat:

  • stručné představení dat, vzorku, na kterém byla data získána, a použitých metod měření (velmi stručná verze sekcí Vzorek a Metody),
  • kroky provedené v rámci přípravy dat (čištění, počítání nových proměnných),
  • informace o chybějících datech a strategii, jak se s nimi naložilo v regresním modelu,
  • popisné statistiky všech proměnných použitých v analýze a informace o bivariačních vztazích mezi proměnnými
  • zdůvodnění specifikace modelu  (zde lze zmínit i transformace či jiné způsoby řešení problémů s případnou nelinearitou vztahů)
  • popis modelu s tabulkou parametrů a jeho hodnocení prizmatem klesajícího loglikelihoodu a klasifikační tabulky
  • zhodnocení naplnění předpokladů regresního modelu a případných omezení, které z toho mohou plynout, též zmínění outlierů a vlivných případů.
  • stručnou interpretaci využívající převod predikovaných hodnot na pravděpodobnosti a diskuzi smyslu výsledků

Formát. Minimum je na slajdech 38 a 39 v prezentaci z první přednášky. Pamatujte na 11. přikázání - NEZKOPÍRUJEŠ TABULKU ZE SPSS!

Odevzdejte také skript/syntax (.sps), jehož spuštěním vzniknou výsledky, které prezentujete ve své zprávě. Nejlépe je to vložit do odevzdávány jako jeden .zip pojmenovaný podle vzoru U4_S3_Bílek_Fialová_Zelená.zip. 

Pro zprávu využijte šablonu uloženou ve studijních materiálech zde.

Na vypracování je týden od semináře. Termín odevzdání je ve pátek následující po tomto semináři.