STATISTIKA VĚDA, KTERÁ HLEDÁ SOUVISLOSTI MEZI JEVY A STAVY FUNKCÍ STATISTIKY je měřit, srovnávat, vysvětlovat- SNAHA SNIŽOVAT VARIABILITU JEVŮ (VARIABILITA JEVU = NEJISTOTA) [Aplikace statistických metod.] [1) Okruhy systémových problémů:] [A. charakteristika vstupu nebo výstupu: ] [- používáme deskriptivní statistické charakt. (průměr, modus, medián, s, R) nebo charakteristiky intrasystémové diachronní (klouzavé průměry, rozptyl časové řady, autokorelace)] [B. analýza vztahů mezi vstupy, výstupy:] [ - zajímá nás např. úsporná redukce dimenzionality výstupního prostoru (predikce některého z výstupů), používáme vícerozměrné statistiky (korelace, regrese, faktorová analýza)][ ] [C. analýza vztahů vstup - výstup:][ ] [- má nejblíže k ověření kauzálních vztahů - má nejblíže k ověření kauzálních vztahů ] [- longitudinální vnitroskupinový experiment][ ][využívá analýzy rozptylu, mnohorozměrnou analýzu rozptylu, kovariance, F-test, atd.] [ ] [- meziskupinový experiment:][ ][analýzu rozptylu, F-test, t-test][ ] [D. Popis a analýza vnitřního stavu:][ ] [ - popisem stavového vektoru s (s1,s2,....sn) se snažíme stanovit či odhadnout vnitřní stav][ ] [ ] [ - využíváme modely lineárních strukturálních vztahů s latentními proměnnými, longitudinální faktorovou analýzu, faktorovou analýzu skupin proměnných][ ] [E.Stavová analýza vztahů vstup-výstup:][ ][ ] [- rozbor vztahů mezi vstupními proměnnými společně s nutnými stavovými proměnnými a výstupními proměnnými][ ] [ ] [ - využíváme longitudinální faktorové analýzy (z kombinace vstupu a hodnot vnitřních vlastností odhadnout výstup)][ ] MÍRY CENTRÁLNÍ TENDENCE – ukazují „střed souboru „ _ - Aritmetický průměr – X průměrná hodnota souboru - MEDIÁN - X prostřední hodnota souboru - rozděluje výsledky na dvě poloviny podle počtu pozorování, měření … - MODUS - X nejčastější hodnota, soubor nemusí mít modus, = x krát stejná hodnota (interval) Jak daleko jsou hodnoty od centra = MÍRA VARIABILITY = HOMOGENITA souboru VARIAČNÍ ROZPĚTÍ – R Citlivé na extrémní data (bere jen krajní polohy - data) Všechny hodnoty · ROZPTYL = odchylka ^2 – (s^2) součet hodnot (velká, ale kladná hodnota) · SMĚRODATNÁ ODCHYLKA – s nejčastěji používaný ukazatel variability jevu, možno s ní dále počítat · VARIAČNÍ KOEFICIENT – VK = relativizovaná sm. dch. – srovnání dvou souborů o nestejných proměnných (odch. v procentech prům.) VK = 100s/x [3) ][Základní statistické vzorce:] [ ] 1) Aritmetický průměr: wpe3.gif (1050 bytes) 2) Směrodatná odchylka: wpe2.gif (1297 bytes) 3) Rozptyl: wpe4.gif (1139 bytes) 4) Variační rozpětí: wpe5.gif (990 bytes) 5) Korelační koeficient: wpe6.gif (2002 bytes) 6) Spearmanův koeficient korelace pořadí: wpe7.gif (1156 bytes) , kde d je diference (rozdíl) mezi pořadími 7) Modus MOD = nejčastější hodnota 8) Medián MED = prostřední hodnota (průměr dvou prostředních hodnot) 9) Relativní četnost: wpe8.gif (974 bytes) , x 100 dostáváme pravděpodobnost, že výsledek je v daném intervalu 10) Relativní kumulativní čestnost: wpe9.gif (1073 bytes) 11) Procentily: wpeA.gif (1126 bytes) , udává kolik procent lidí se nachází pod TO ANALÝZA VZTAHŮ MEZI SOUBORY Ho – nulová hypotéza ???? – přijmout hodn. testového kriteria menší než tabelov. (stejné, nevýznamné, nesignifikantní) - zamítnout hodn. testového kriteria větší než tabelov. (rozdílné, významné, signifikantní) – ŘEŠÍME DÁL 1/ NEZÁVISLÉ VÝBĚRY T – TEST – dva výběrové průměry a/ shodný rozptyl b/ rozdílný rozptyl F – TEST – test shody rozptylů - buď a nebo b 2/ ZÁVISLÉ VÝBĚRY T – TEST - PRO PÁROVÉ HODNOTY (závislé dvojice dat) KORELAČNÍ KOEFICIENT Číselný index (-1 až 1), který vyjadřuje souvislost jevů a/ funkční závislost b/ statistická kladná záporná lineární nelineární Pearsonův koeficient součinové korelace (parametrický test) Spearmanův koeficient pořadové korelace (neparametrický test) KOEFICIENT DETERMINACE – (r^2) kolik procent rozptylu v jednom testu je dáno rozptylem v druhém testu VŠE PŘEDPOKLÁDÁ NORMÁLNÍ ROZLOŽENÍ DAT !!! Lze spočítat - malé soubory 2 – 50 dat – Shapiro-Wilkův test REGRESNÍ PŘÍMKA - vede hodnotami tak, že součet čtverců odchylek je nejmenší PREDIKCE - předpověď výkonů na základě dostupných dat - PRODLOUŽENÍ REGRESNÍ PŘÍMKY MNOHONÁSOBNÁ KORELACE – PŘESNĚJŠÍ PREDIKCE NA ZÁKLADĚ ZNALOSTI DVOU NEZÁVISLÝVH PROMĚNNÝCH Statistická významnost ještě nic neznamená, při měření 32 osob (vrcholoví sportovci, víc jich u nás není) r 0,46 stat. významné při P - 0.99, koef. determinace – (r^2) je cca 0,19 = cca 20%, které umíme vysvětlit !!!!! 4. Vytvoření bodových stupnic pomocí Z-bodů: x - x z = s wpeB.gif (10242 bytes) Dvouvýběrový F-test pro rozptyl Soubor 1 Soubor 2 Stř. hodnota 5 4,666666667 Rozptyl 7,5 6,25 Pozorování 9 9 Rozdíl 8 8 F 1,2 P(F<=f) (1) 0,401385866 F krit (1) 3,438103136 Dvouvýběrový t-test s rovností rozptylů Soubor 1 Soubor 2 Stř. hodnota 5 4,666666667 Rozptyl 7,5 6,25 Pozorování 9 9 Společný rozptyl 6,875 Hyp. rozdíl stř. hodnot 0 Rozdíl 16 t stat 0,269679945 P(T<=t) (1) 0,395426819 t krit (1) 2,58349246 P(T<=t) (2) 0,790853638 t krit (2) 2,920787665