NORMÁLNÍ ROZLOŽENÍ, ZÁKLADY TESTOVÁNÍ HYPOTÉZ A STATISTICKÁ INFERENCE. ZUR357 Statistická analýza dat -- 9. listopadu 2017 AUTOMATIC RECODE Transformace string values do numerických hodnot Kategorizuje kardinální znaky podle percentilů tak, aby každá kategorie obsahovala přibližně stejný počet případů CATEGORIZE VARIABLES COUNT VALUES Sčítání výskytu určité hodnoty Např. Které tituly pravidelně čtete (0=nečte, 1čte) Respekt, Reflex, Euro, Týden…. Kolik strategií používají děti, aby se vypořádali s obtěžováním? RANK CASES Vytvoří novou proměnnou, která určuje pořadí případu podle původní proměnné COMPUTE Libovolné operace zadané strukturovaným příkazem Podmínka IF… Změna rozložení Centrování Sumační indexy Komplexní operace PRÁCE S PODSOUBORY Procedura SELECT CASES Náhodně vybrané případy – redukce souboru (Random Sample of Cases) Výběr vedený výzkumnou otázkou (Select IF) ÚKOL 1. Ověřte H1: V Lidových novinách vystupuje v roli hlavního aktéra častěji politik než odborník na dané téma. Procedura SPLIT FILE ÚKOL 2. Porovnejte výskyt odborníků a politiků jako aktérů v jednotlivých denících (H2: MFD bude využívat odborníků častěji než LN. ) NORMÁLNÍ ROZLOŽENÍ (NORMAL DISTRIBUTION; GAUSSOVA KŘIVKA) Standard_deviation_diagram 68% 95% 99% 95% 99% -3 S -2 S -1 S X +1 S +2 S +3 S quincunx SIR FRANCIS GALTON (1822-1911) https://www.youtube.com/watch?v=AjI_LcQOOs4 IQ TEST http://www.highiqpro.com/wp-content/uploads/2012/03/IQ-Bell-Curve.png TESTY NORMÁLNÍHO ROZDĚLENÍ STANDARDIZOVANÉ (NORMOVANÉ) NORMÁLNÍ ROZDĚLENÍ INFERENČNÍ (VÝBĚROVÁ) STATISTIKA Inference = statistické usuzování (z výběrového souboru na základní soubor, z parametru na statistiku) Odpovídají data v našem vzorku populaci? S jakou pravděpodobností? Zahrnuje (1) odhad parametrů – metody odhadu pro bodové a intervalové odhady (2) testování hypotéz – testy statistické významnosti Předpoklady: Pravděpodobnostní výběr Vysoká návratnost (response rate) Standard_deviation_diagram TEORETICKÉ NORMÁLNÍM ROZLOŽENÍ (POPULACE) průměr populace směrodatná (standardní) chyba CENTRÁLNÍ LIMITNÍ VĚTA Centrální limitní věta (central limit theorem) říká, že když provedeme mnoho výběrů o určité velikosti založených na pravděpodobnostním principu, pak se rozložení (distribuce) výběrových průměrů přiblíží normálními rozdělení a celkový průměr těchto průměrů se bude podobat průměru v populaci. A to nezávisle na tom, jak jsou hodnoty proměnné rozloženy v populaci. Standardní chyba průměru je pak směrodatnou odchylkou rozdělení tohoto rozdělení průměrů, vyjadřuje výběrovou chybu STANDARDNÍ CHYBA PRŮMĚRU (STANDARD ERROR OF THE MEAN) Výběrová chyba (sample error) na hladině p=0.05 1.96 * SE Výpočet horního limitu konfidenčního intervalu na 95% hladině významnosti: CI = m + (SE * 1.96) Výpočet spodního limitu konfidenčního intervalu na 95% hladině významnosti: CI = m – (SE *1.96) Pro nominální data se používá standardní chyba proporce (standard error of proportion), SE_\bar{x}\ = \frac{s}{\sqrt{n}} INTERVAL SPOLEHLIVOSTI (CONFIDENCE INTERVAL) TESTOVÁNÍ HYPOTÉZ Testujeme, zda: Vzorek pochází z populace s určitým rozdělením (reprezentativita) Zda dva výběry pocházejí z téže populace (např. rozdíly mezi muži a ženami) Zda ne/existuje vztah mezi proměnnými Nulová hypotéza H0 – předpokládá neexistenci rozdílu, buď ji zamítnout lze nebo nelze Teoretická nulová hypotéza (Např. Neexistuje rozdíl mezi platy žen a mužů.) Statistická nulová hypotéza (Např. Rozdíl mezi průměrným platem mužů a průměrným platem žen je roven nule.) Alternativní hypotéza H1 – předpokládá rozdíl Oboustranná (two-tailed) - Mezi proměnnými pohlaví a příjem bude vztah, příjem se bude lišit. Jednostranná (one-tailed) – Ženy budou v průměru vydělávat méně. URČETE H0 NEBO H1 H0: Respekt a Reflex se nebudou odlišovat v hodnocení (pozitivní/negativní) prezidenta Zemana. H0: Mezi mírou prokrastinace a vlastnictvím účtu na Facebooku nebude žádný vztah. H1: Děti, jimž rodiče kontrolují telefon budou méně často obětmi kyberšikany. H1: Mezi mírou narcismu a počtem zveřejněných fotografií na sociálních sítích bude vztah. . POSTUP TESTOVÁNÍ Volba testu Volba testovacího kritéria se známým rozložením Výpočet hodnoty testového kritéria (data) Interpretace výsledku HV < 0,05 à zamítáme nulovou hypotézu, neboť pravděpodobnost, že bychom získali tako data, kdyby platila H0, je malá Sig. v SPSS p - v odborné literatuře Arbitrární charakter HV Statistická významnost ≠ věcná významnost Např. Kolmogorovův-Smirnovovův test normality rozložení, srovnání CI pro dva populační průměry