Zápočtový test – 19.12.2007 V dotazníku byly položeny dvě otázky 11. Kouříš? ne, nikdy 101□ pravidelně 103□ příležitostně 102□ bývalý kuřák 104□ 12. Piješ alkohol? abstinent 101□ 1x týdně 103□ příležitostně 102□ vícekrát týdně 104□ Proveďte tyto výpočty, u každého příkladu uveďte krátké slovní hodnocení Zvolte vhodnou hladinu významnosti a. Jednou větu napište, co to znamená. Většina z vás zvolila hladinu významnosti a = 0,1. Vzhledem k počtu respondentů (téměř 2000) mohla být zvolena klidně i 8 %-ní (a = 0,08). Úvaha vedoucí k nastavení a může být následující. Mám 2000 dotazníků. Jaké procento chyby jsem ochoten tolerovat? Z těch 2000 lidí klidně 150 respondentů může odpovědět jinak, než jsou mé hypotézy a tento počet je pro mě stále vyhovující (protože 1850 odpoví v souladu s hypotézou). Alfu vypočítám: 150 / 2000 * 100 = 0,075. Z toho vyplývá a = 0,08. Každopádně a = 0,1 nebo a = 0,05 (nebo i jiná) je pouze na řešiteli a obě hodnoty jsou správné. a) Základní informace o souboru – aritmetický průměr, směrodatnou odchylku, medián + DISKUSI k výsledku Zde byly většinou správně vypočtena čísla, ale málo lidí vysvětlilo, co znamená, že na otázku „kouříš“ odpověděli lidé průměrně 101,6. V zadání je napsáno, že pod kódem 101 je odpověď „ne, nikdy“, pod 102 „příležitostně“ atd. Tedy průměrná odpověď 101,6 znamená odpověď mezi „ne, nikdy“ a „příležitostně“. Takže v souhrnu respondenti byli spíše nekuřáci. S alkoholem udávají výsledky, že respondenti pijí alkohol příležitostně. b) Testy normality Pocházejí data z normálního rozdělení? Jestli ano/ne, uveďte na základě čeho jste se rozhodli, vložte graf či tabulku, ze které to bude patrné. Na základě Kolmogorova-Smirnovova testu nebo Shapiro-Wilksova testu zamítáme hypotézu o normalitě dat. (p = 0, což je menší než a). Viz histogramy a údaje v záhlaví grafů c) Zjistěte míru závislosti mezi dvěmi proměnnými (korelace), proveďte diskusi. Jde o jakou úměru (přímou/nepřímou)? Korelační koeficient mezi oběma proměnnými je 0,35. Hodnota korelačního koeficientu je významná na hladině významnosti a = 0,1 i a = 0,05 (p=0). Hodnota je kladná, jedná se tedy o přímou úměrnost. Velikost koeficientu není moc vysoká, čili můžeme konstatovat, že existuje vztah mezi kouřením a pitím alkoholu, ale nelze tento vztah považovat za nějak průkazný. d) Zjistěte míru nezávislosti mezi dvěmi proměnnými (test nezávislosti chí-kvadrát), včetně grafu, proveďte diskusi Nejprve se podívejme na kontingenční tabulku = tabulka četností. Testováním hypotézy o nezávislosti pomocí Pearsonova chí-2 koeficientu zamítáme hypotézu o nezávislosti. Čili zde existuje závislost. Můžeme se pokusit ji vysvětlit např. tak, že typické zastoupení respondentů jsou nekuřáci a příležitostní pijani alkoholu. U ostatních kategorií sledovaných znaků neexistuje výrazná závislost. e) Porovnejte, která z proměnných dosahuje vyššího skóre Použití t-testu a to neparametrického Wilcoxonova testu. Proč neparametrického? Protože jsme ověřili, že ani jedna proměnná nepochází z normálního rozdělení. Proč Wilcoxonův test? Protože se jedná o párová pozorování (jeden člověk odpověděl na dvě otázky) Na základě výsledků Wilcoxonova testu zamítáme hypotézu o rovnosti středních hodnot odpovědí na sledované dvě otázky a tvrdíme, že mezi nimi existuje statisticky významný rozdíl. A to ve prospěch odpovědi „alkohol“. Viz ad a) Seznam nulových hypotéz: o Hypotéza o normalitě souboru o Hypotéza o nulovosti korelačního koeficientu o Hypotéza o nezávislosti dvou proměnných (chí-kvadrát) o Hypotéza o rovnosti středních hodnot dvou výběrů (t-test) Pro úspěšné ukončení je třeba z 5 příkladů vypočítat 3.