Statistická analýza dat II.

Předpoklady běžných statistik a testů a možné postupy při jejich nesplnění

Pearsonův korelační koeficient, t-test i chíkvadrát mají své předpoklady. Jejich ověření je často náročnější, než samotné spočítání statistik. A když nejsou předpoklady naplněny, je potřeba mít nějaké záložní postupy. K tomu přidáme ještě téma vypořádání se s chybějícími daty.

  • Představa o data-generating procesu jako (vzdálený) zdroj předpokladů
  • Srovnání středních hodnot: t-test - normalita, homoskedascita, odlehlé hodnoty - Welchův t-test, Mann-Whitney/Wilcoxon
  • Korelace: Pearsonova - linearita, normalita - Spearman, Kendall, transformace
  • Chíkvadrát - adjustovaná rezidua, permutační(exact) testy
  • Usuzování na normalitu z grafů a testy normality
  • Usuzování na homo/heteroskedascitu.
  • Bootstrapping. 
  • Obecný přístup k posuzování předpokladů.
  • Práce s chybějícícmi daty. 


Kapitola 6 shrnuje obvyklé předpoklady a související možná zkreslení výsledků statistických analýz. 

Kapitoal 7 představuje neparametrické (robustní, assumption-"free") testy. Stačí jen 7 - 7.5

Dílčí poznámky k Fieldovi kap.  8. 

  • Začátek kapitoly je opakování, mělo by stačit rychlé čtení.
  • Protože SPSS samo hned nenabízí intervaly spolehlivosti pro r, je dobré neminout sekci 8.2.4.
  • Většina potřebného je v sekci 8.4. (8.4.5 lze přeskočit)
  • Sekci o parciálních korelacích (8.5) je dobré si přečíst až před studiem lineární regrese.
  • Sekci 8.6 lze přeskočit - porovnávání korelací není potřeba tak často, jak by se zdálo.
  • Nepřeskočit 8.8!

Dílčí poznámky k Fieldovi kap.  10. 

  • Sekci 10.4 je dobré nyní přeskočit - začne dávat smysl, až se podíváme na lineární regresi
  • Sekce 10.5 a 10.6 jsou opakování.
  • Jádro jsou sekce 10.8. a 10.9. Bayesovský t-test (10.8.5, 10.9.6) lze přeskočit.
  • Nepřeskočit 10.10!

Dílčí poznámky k Fieldovi kap.  19. 

  • Sekce 19.3.7 a 19.4 lze přeskočit. 
  • Jádro jsou sekce 19.7 a 19.8 (bez 19.8.3)





Zadání seminárního úkolu

Dopracujte ve tříčlenném týmu analýzy odpovídající na otázky, které jsme si stanovili a nahrubo realizovali na semináři: 
1. Jak moc pomáhají nové kopačky malým fotbalistům?
2. Jak moc se zvednou výkony malých fotbalistů mezi 4. a 5. třídou? 

V analýzách porovnejte závěry založené na t-testech, neparametrických testech a (po překódování závislé na dichotomickou) chí-kvadrát testech.   

Data pro každou seminární skupinu jsou na odkazu níže. Obsahují údaje z jednoho fotbalového klubu, kde udělali experiment a polovině kluků dali od sponzora nový druh kopaček. Je tam id malého fotbalisty, ukazatel jeho výkonnosti (počet gólů za 20 zápasů) ve 4. třídě (všichni stejné kopačky) a v 5. třídě (někteří experimentální kopačky). Nakonec je tam i to, jestli dostal experimentální kopačky (E), nebo jestli ne (K).

Odevzdejte textový dokument se zprávou o analýze, která bude mít podobu sekce výsledky v souladu s doporučeními APA manuálu a příručky Morganové a kol.. Zpráva bude obsahovat:

  • stručné představení dat, vzorku, na kterém byla data získána, a použitých metod měření (velmi stručná verze sekcí Vzorek a Metody - max půl strany),
  • kroky provedené v rámci přípravy dat (čištění, počítání nových proměnných),
  • informace o chybějících datech (a případné strategii, jak se s vypořádat s problémem, který představují),
  • popisné statistiky všech proměnných použitých v analýze,
  • formulace hypotéz,
  • výsledky jejich testování zahrnující vyjádření se k předpokladům použitého testu, intervaly spolehlivosti a velikosti účinku,
  • relevantní zobrazení testovaných vztahů (scatterplot, sloupcový/čárový graf s chybovými úsečkami, kontingenční tabulka) 
  • stručnou diskuzi k validitě/(ne)zkreslenosti statistik vedoucích k závěrům.

Kromě prvních dvou bodů bude asi smysluplné strukturovat zprávu zvlášť pro každou z analyzovaných hypotéz.

Odevzdejte také skript/syntax (.sps), jehož spuštěním vzniknou výsledky, které prezentujete ve své zprávě. Nejlépe je to vložit do odevzdávány jako jeden .zip pojmenovaný po vzoru U1_S3_Bílek_Fialová_Zelená.zip (tj. Úkol 1, Sem. sk. 3, jména autorů).

Pro zprávu můžete využít šablonu uloženou ve studijních materiálech .

Termín odevzdání je ve středu  (o půlnoci) následující po tomto semináři.

Vyjma zadání samotných analýz budou tyto instrukce platit i pro všechny další seminární práce v předmětu.

Poznámky ke čtení Morganové et al. [MRH]

I když je text už poměrně letitý, dobře ukazuje obecný styl reportování výsledků. Všímejte si, jakým způsobem jsou statistiky uváděny v textu. Pokud nepotřebujeme sdělit více než 5-6 číselných údajů najednou, píšeme je do vět a neděláme pro ně tabulku. Všímejte si v příkladech uvedených v [MRH], co všechno se píše do vět a jaká se používá interpunkce. Vypíchl bych, že statistiky se snažíme psát kurzívou.


 


 !Odlišnosti české interpunkce:  desetinné čárky, ne tečky, což vede k preferenci středníku jako oddělovače číselných informací v seznamech --- nula před desetinou čárkou u čísel < 1 ---  mezera mezi číslem a znakem %, když znak čteme "procent", a absence této mezery, když znak čteme "procentní".

Když je prezentovaných číselných údajů hodně, použijeme tabulku. Když už to děláme, je potřeba vytvořit tabulku se všemi náležitostmi: Titulkem, který ji označuje jako tabulku a dává jí nadpis, z něhož je zřejmé, co v tabulce je. Poznámkami pod tabulkou, které vysvětlují zkratky použité v tabulce a doplňují informace nutné pro porozumění tomu, co je v tabulce. v APA formátu používáme v rámci tabulky pouze vodorovné čáry a obecně čarami šetříme (často jsou jen 3, stejně tlusté).