R101: Praktický úvod pro používání statistického programu R

Týden 7. Základní statistické modely a testy

Základní statistické modely (korelace, t-test, lineární regrese) v prostředí R.

Rmarkdown

Podrobné zadání seminárních úkolů

Sepsání analytické zprávy v Rmarkdownu (individuální úkol)

V rámci tohoto úkolu byste měli provést analýzu libovolných dat, sepsat zprávu (report) z této analýzy prostřednictvím Rmarkdownu a odevzdat jak zdrojový Rmarkdown dokument, tak výstupní dokument (nejlépe v html formátu). 

Pokuste se také, aby analýza byla plně reprodukovatelná. Přiložte k ní veškeré další soubory, které používáte (např. použitý dataset, seznam literatury v BibTeXu) anebo se na ně odkazujte do veřejně dostupného uložiště. 

Hlavní důraz by měl být kladen na to, abyste krok po kroku popsali, co vlastně v rámci analýzy děláte a proč to děláte, a výstupy vždy srozumitelně okomentovali.   

Samotná zpráva by měla obsahovat tyto části:

  • Stručné představení kontextu a cílů analýzy; otázek, na kterou budete hledat odpověď; očekávaných výsledků.
  • Uvedení zdroje dat (pokud možno citovat); stručný popis průběhu výzkumu, způsobu získávání dat a nástrojů měření (opět nejlépe s citací).
  • Představení balíčků, které v rámci analýzy použijete, a toho, k čemu je použijete. Zkuste všechny použité balíčky citovat. Seznam citací ve formátu BIbTeX si můžete nechat vyjet pomocí knitr::write_bib(c("vektor", "s", "názvy", "balíčků"))
  • Explorace a popis datasetu včetně popis vzorku z hlediska základních charakteristik (jako je věk, pohlaví, apod.)..
  • Analýza chybějících dat a postup čištění dat,
  • Transformace dat, tvorba nových proměnných, jejich základní popis.
  • Představení hypotéz a popis toho, jak je budete testovat (volba vhodného statistického testu/modelu pro ověření hypotéz), odhad velikosti účinku s intervalem spolehlivosti. Doplnění testů vhodnými deskriptivními statistikami a grafy (v závislosti na povaze proměnných, které analyzujete, a zvoleném statistickém testu).
  • Ověření předpokladů zvolených statistických testů. 
  • Shrnutí výsledků vzhledem k hypotézám, diskuze praktické vs. statistické významnosti výsledků, hlavních statistických
  • (ale klidně i jiných) limitů a jakýchkoli dalších záležitostí, které považujete za podstatné.

Úkol odevzdejte nejlépe do 31. 12. 2022, pokud chcete mít jistotu, že jej stihnu opravit (a dostanete zápočet ještě) do konce semestru. U úkolů odevzdaných později to nezaručuji. Nejpozdější termín odevzdání je 31. ledna 2023.

Prezentace vybraného balíčku (týmový úkol)

Úkolem je vytvořit dvou- až tříčlenný tým, vybrat si nějaký méně známý R-balíček a stručně jej představit prostřednictvím krátké, cca 7minutové prezentace na posledním semináři. Prezentace může být v powerpointu, ale ocením, pokud se ji pokusíte vytvořit v Rmarkdownu: https://bookdown.org/yihui/rmarkdown/presentations.html 

Literatura

Navarro, D. J. (2014). Learning statistics with R: A tutorial for psychology students and other beginners. University of New South Wales. .