17.05.2019 1 Základy Statisticy Bi8352: Metody antropologie II jaro 2019 Mgr. Mikoláš Jurda, Ph.D. o importovat ze souborů různých typů – excel, csv, txt a také vložením ze schránky o datový soubor a výstupy analýz je možné uchovávat v různých formátech Základní východiska Práci ušetří, pokud jsou buňky v původním excelovském souboru ve správném formátu. Pokud po načtení formát proměnných neodpovídá našim požadavkům, jde formát upravit nastavením jednotlivých proměnných (dvojité poklikání na buňku s názvem proměnné) – typicky nastavení číselných proměnných na Type > Double Možnost uložit vše v přehledném stromu nabízí Project. Výstupy je možné exportovat také například ve formátu .doc. Krabicový graf pro dvě skupiny – m a f – dobrý pro vyhledávání extrémních případů (například chyb v datech) – při podržení myši nad odlehlou hodnotou se zobrazí její ID Pokud nezadáte grupovací proměnnou, zobrazí se graf pro celý soubor, pokud ano, pak odděleně pro definované Popisná statistika – vizuální hodnocení – krabicový graf Umožňuje posoudit rozložení hodnot a srovnat je s předpokládaným rozložením (linie). Nastavuje se jako Fit type dialogovém okně. Popisná statistika – vizuální hodnocení – histogram Alternativní způsob porovnání pozorovaných hodnot s normálním rozložením (pozorovaný kvantil vs. teoretický kvantil). Popisná statistika – vizuální hodnocení – QQ graf číselná popisná statistika by group – pro skupiny zvlášťpro všechna data zároveň Popisná statistika – číselná popisná statistika 1 2 3 4 5 6 17.05.2019 2 souhrnné výsledky – histogram, krabicovégrafy, zvolené parametry a P-P plot v základní, přednastavené podobě Popisná statistika – číselná popisná statistika Grafické posouzení Srovnání s normálním rozložením – viz předchozí grafy Testování Statistické testy Statistics > Basic statistics > Descriptive statistics > Normality Popisná statistika – normalita dat Nepárový dvouvýběrový t-test Předpoklady: normální rozložení v rámci porovnávaných skupin - již představenými postupy shoda rozptylu těchto skupin - testování je přímo součástí výsledků jako F-statistika pokud data nesplňují neparametrické alternativy v tomto případě Mann-whitney U-test V případě různých rozptylů možno použít t-test se samostatnými odhady rozptylů T-test Ověření předpokladů testu přímo v dialogovém okně Normalita rozložení v rámci skupin Advanced > Categorized normal plots Shoda rozptylů – graficky Advanced > Box & Whiskers plot T-test Samotné výstupy testu – lze provést hromadně pro všechny zároveň T-test – výstupy samotná statistika shoda rozptylůskupinové průměry směrodatné odchylky Jaké použít proměnné význam mají pouze ty, které mají nějakou souvislost s kategoriální proměnnou redundantní proměnné snižují stabilitu modelu a mohou vést k nesmyslným výsledkům Hodnocení vztahu nezávislých proměnných a kategoriální proměnné o t-test a ANOVA o korelační analýza a XY grafy o hlavní komponenty a faktorová analýza o diskriminační analýza o „expertní znalost proměnných“ Diskriminační analýza 7 8 9 10 11 12 17.05.2019 3 Vztah ke kategoriální proměnné Samostatný t-test pro jednotlivé proměnné – pro dvě skupiny!! (Basic statistics > t-test, independent, by groups) ANOVA (Basic statistics > Breakdows & One-way ANOVA; Analysis of variance) – pro dvě a více skupin (pro dvě skupiny jsou výsledky obdobné jako t-test) Obě analáýzy mohou napovědět, ale diskriminace může být dána i kombinací proměnných Diskriminační analýza (Statistics > Mult/Exploratory > Discriminant) grupovací proměnná – stav, který chceme určovat nezávislá proměnná – výběr hodnot pro analýzu Diskriminační analýza Číselný výstup analýzy Celkové Wilks Lambda celková kvalita modelu s použitím všech proměnných (0 = nejlepší diskriminace) Wilks lambda celého modelu při vyřazení dané proměnné Unikátní příspěvek dané proměnné k diskriminaci Variabilita proměnné nevysvětlená ostatními proměnnými Variabilita proměnné vysvětlená kombinací ostatních proměnných v modelu Diskriminační analýza – interpretace výsledků Klasifikační funkce Diskriminační analýza – interpretace výsledků rozepsané funkce pro jednu a pro druhou kategorii případ je přiřazen do té skupiny, pro kterou je výsledek vyšší Hodnocení úspěšnosti klasifikačního kritéria Klasifikační tabulka – procentuální vyjádření úspěšnosti zařazení objektů do skupin Resubstituce – klasifikační rovnici testujeme na stejném souboru, na kterém byla vytvořena křížové ověření (leave-one-out-cross-validation) aplikace na nezávislý vzorek, případně rozdělení původního vzorku Diskriminační analýza – hodnocení klasifikačního kritéria daleko lépe Co může dál napovědět? Mahalanobisova vzdálenost – popisuje vzdálenost centroidů skupin (bere v úvahu korelaci mezi parametry a je nezávislá na jejich rozsahu) Posterior probability – pravděpodobnost zařazení objektu do skupiny (p toho, že objekt patří do té které skupiny) – vychází z Makalanobisových vzdáleností ke skupinám a a priori pravděpodobnosti Diskriminační analýza – podle čeho se dál orientovat? 13 14 15 16 17 18 17.05.2019 4 „Step-wise“ analýza – výběr proměnných samotnou analýzou o proměnné jsou přidávány/ubírány podle jejich významu v modelu o zpravidla je vybrán pouze zlomek původních proměnných V tomto případě vybrány pouze tři proměnné Diskriminační analýza – dopředná a zpětná eliminace proměnných Forward stepwise – dopředná Backward stepwise – zpětná Test dobré shody Testuje shodu reálné distribuce hodnot do n skupin s teoretickou distribucí V případě platnosti nulové hypotézy je poměr mezi buňkami jednoho řádku v různých sloupcích nezávislý na výběru tohoto řádku Statistics > Basic statistics > Tables and banners > Options > Expected frequencies Advanced > Detailed Two-way Tables vs. Kontingenční tabulky pozorované očekávané hodnocení vztahu mezi dvěma spojitými veličinami vizuální posouzení Korelační analýza Číselné vyjádření – korelační koeficienty Předpokladem použití parametrického testu je normalita rozložení Vyhovuje? Pearsonův korelační koeficient Basic statistics > Correlation matrices Nevyhovuje? Spearmanův korelační koeficient Non-parametrics > Correlations - pořadová korelace Korelační analýza Vysvětluje, jak vysvětlovaná proměnná závisí na jiných proměnných (prediktorech). Model musí odpovídat typu vztahu – pokud je přímý, můžeme použít lineární model Dependent – závislá (vysvětlovaná) proměnná Multiple R – koeficient vícerozměrné korelace R2 – koeficient determinace – podíl modelem vysvětlované variability Adjusted R2 – podobný, ale bere v úvahu počet regresorů F, df a p – F test vztahů mezi závislou proměnnou a množinou nezávislých proměnných F = regresní průměr čtverců/reziduální průměr čtverců Standard error of estimate – směrodatná chyba odhadu – rozptýlení pozorovaných hodnot kolem přímky Intercept (Absolutní člen) – hodnota B0 Std. Error – směrodatná chyba absolutního členu (následují testy Ho – intercept je roven nule) b* – standardizované koeficienty – umožňují porovnávat vliv jednotlivých proměnných Regresní analýza Další výsledky Summary: regression results První tabulka – statistiky z předchozího souhrnného okna Druhá tabulka – podrobnější výsledky regrese, včetně nestandardizovaného koeficientu (b) (ten standardizovaný ukazuje relativní přispění jednotlivých proměnných) Pro každý koeficient jsou vypočítány hodnoty t-statistiky a p testující, zda je daný parametr významně odlišný od 0 (jestli má proměnná v modelu své opodstatnění – součást verifikace modelu). Regresní analýza 19 20 21 22 23 24 17.05.2019 5 Ověření předpokladů 1) Správně specifikovaný model 2) Střední hodnota chybové složky je 0 3) Chybová složka má konstantní rozptyl 4) Jednotlivé složky chybového vektoru jsou nekorelované 5) Reziduální složka má normální rozdělení Perform residual analysis > Scatterplots > Predicted vs. residuals Perform residual analysis > Residuals > Histogram of residuals Regresní analýza Ověření předpokladů 1) Správně specifikovaný model 2) Střední hodnota chybové složky je 0 3) Chybová složka má konstantní rozptyl 4) Jednotlivé složky chybového vektoru jsou nekorelované 5) Reziduální složka má normální rozdělení Regresní analýza – správná podoba výsledků Ověření předpokladů 1) Správně specifikovaný model 2) Střední hodnota chybové složky je 0 3) Chybová složka má konstantní rozptyl 4) Jednotlivé složky chybového vektoru jsou nekorelované 5) Reziduální složka má normální rozdělení máme nezávislé jedince Perform residual analysis > Basics > Normal plot of residuals (Kvantilový graf) V případě normality musí body ležet na proložené přímce. Pokud neleží (dá se dále ověřit testem reziduí) – odhady parametrů modelu a regr. rovnice jsou v pořádku, ale ne významnost regr. parametrů a konfidenční intervaly Regresní analýza – správná podoba výsledků Predikce Predict dependent variable Compute confidence limits Interval spolehlivosti pro průměrnou hodnotu odezvy Udává rozmezí, kde se s 95 % spolehlivostí nachází true best fit populace Compute prediction limits (interval předpovědi) Interval spolehlivost pro individuální hodnotu odezvy Regresní analýza – správná podoba výsledků pokud použijete stejnou rovnici na další jedince dané výšky, bude se 95 % z nich nacházet v daném rozmezí 25 26 27 28