Základy Statisticy Bi8352: Metody antropologie II jaro 2020 Mgr. Mikoláš Jurda, Ph.D. Proč aplikujeme statistické postupy??? Poskytují vědecký základ o objektivní sumarizace výsledků!!! o vytváření predikčního pravidla – odhad neznámých vlastností na základě známých vlastností o kombinace odlišných biologických vlastností do jednotného metodického postupu o zjišťování chyby odhadu/určení rozdílné v rozšíření, využití, zpracování a možnostech Popisná (deskriptivní) statistika o základní informace o vlastnostech studovaného souboru a vztazích různých souborů a dat o kontrola splnění předpokladů statistických testů průměr rozptyl medián modus SD směrodatná chyba koeficient variance normalita rozložení histogram frekvenční tabulka kontingenční tabulka korelace proměnných jednorozměrné metody vícerozměrné metody lineární regrese jednorozměrná vícenásobná vícerozměrná vícenásobná vícerozměrná ODHAD TĚLESNÝCH PROPORCÍ ODHAD VĚKU JEDINCE DALŠÍ KVANTITATIVNÍ ODHADY diskriminační analýza kanonická analýza KLASIFIKACE DO JEDNÉ ZE DVOU SKUPIN KLASIFIKACE DO JEDNÉ Z VÍCE SKUPIN KLASIFIKACE DO JEDNÉ Z VÍCE SKUPIN JAKÉKOLIV ZAŘAZENÍ DO TYPŮ Jednorozměrná lineární regrese jedna vstupní proměnná nezávislá = predikující = známá jedna výstupní proměnná (numerická vlastnost) závislá = predikovaná = neznámá (Smith 2007) Jednorozměrná lineární regrese REGRESE není KORELACE vyjadřuje vztah mezi dvěma rovnocennými proměnnými vypovídá o tom, do jaké míry se dvě proměnné mění společně vyjadřuje, jak lze z nezávislé proměnné odhadnout závislou proměnnou regrese vyjadřuje vliv změny hodnoty známé proměnné na hodnotu neznámé proměnné Jednorozměrná lineární regrese jedna vstupní proměnná nezávislá = predikující = známá jedna výstupní proměnná (numerická vlastnost) závislá = predikovaná = neznámá Předpoklady o vztah je lineární o data získána nezávisle na sobě Předpoklady výstupů o střední hodnota chybové složky je 0 o chybová složka má konstantní rozptyl o jednotlivé složky chybového vektoru jsou nekorelované o reziduální složka má normální rozdělení Jednorozměrná lineární regrese jedna vstupní proměnná nezávislá = predikující = známá jedna výstupní proměnná (numerická vlastnost) závislá = predikovaná = neznámá y = ax b + (+E) metoda nejmenších čtverců různé metody vyjádření chyby (jak proložit body přímku?) pouze y- proměnné x i y (RMA) (RMA – reduced major axis) euklidovská vzdálenost Jednorozměrná lineární regrese y = ax + b (+E) predikční pravidlo = lineární rovnice o hodnota závislé proměnné (y) o koeficient závislosti (a) o položení v prostoru (b) interval spolehlivosti = konfidenční interval standardní chyba odhadu odhad výšky postavy = délka femuru ± S.E. Výstupy Vícenásobná lineární regrese více vstupních proměnných nezávislá = predikující = známá jedna výstupní proměnná (numerická vlastnost) závislá = predikovaná = neznámá + o vstupní proměnné by neměly korelovat y = ax + bx + c (+E) Vícerozměrná lineární regrese jedna vstupní proměnná nezávislá = predikující = známá dvě a více výstupních proměnných (numerická vlastnost) závislá = predikovaná = neznámá Diskriminační analýza predikční model pro odlišení mezi dvěma skupinami minimálně dvě nezávislé proměnné Variabilita proměnných je zpracována s ohledem na předem dané (a priori známé) rozdělení do skupin. původní proměnné diskriminační skóre Diskriminační analýza o založeno na lineárním modelu. o diskriminační skóre – lineární kombinace původních proměnných predikční model pro odlišení mezi dvěma skupinami minimálně dvě nezávislé proměnné Diskriminační analýza umožňuje přiřadit neznámému objektu regresní skóre a na základě jeho hodnoty jej zařadit do skupiny Výstupy: o predikční pravidlo o diskriminační skóre pro každý případ o nestandardizované koeficienty pro každou proměnnou (použity v diskriminační rovnici) o standardizované koeficienty (vyjadřují podíl dané veličiny na diskriminačním skóre) o spolehlivost pravidla o Mahalanobisova vzdálenost o aposteriorní pravděpodobnost o spolehlivost klasifikace Diskriminační analýza Výstupy: o predikční pravidlo o diskriminační skóre pro každý případ o nestandardizované koeficienty pro každou proměnnou (použity v diskriminační rovnici) o standardizované koeficienty (vyjadřují podíl dané veličiny na diskriminačním skóre) o spolehlivost pravidla o Mahalanobisova vzdálenost o aposteriorní pravděpodobnost o spolehlivost klasifikace Posterior probability – pravděpodobnost zařazení objektu do skupiny (p toho, že objekt patří do té které skupiny) – vychází z Makalanobisových vzdáleností ke skupinám a a priori pravděpodobnosti Mahalanobisova vzdálenost popisuje vzdálenost centroidů skupin (bere v úvahu korelaci mezi parametry a je nezávislá na jejich rozsahu) Diskriminační analýza Výstupy: o predikční pravidlo o diskriminační skóre pro každý případ o nestandardizované koeficienty pro každou proměnnou (použity v diskriminační rovnici) o standardizované koeficienty (vyjadřují podíl dané veličiny na diskriminačním skóre) o spolehlivost pravidla o Mahalanobisova vzdálenost o aposteriorní pravděpodobnost o spolehlivost klasifikace Spolehlivost zařazení případů do skupin na základě predikčního pravidla resubstituce křížová validace (cross-validace) ještě lépe testování na nezávislém vzorku Kanonická analýza predikční model pro odlišení mezi více než dvěma skupinami minimálně tři proměnné Variabilita proměnných je zpracována s ohledem na předem dané (a priori známé) rozdělení do skupin – nové proměnné (kanonické osy), maximalizují rozdíly mezi skupinami. Vlastnosti popsané původními proměnnými jsou převedeny na kanonické proměnné (k-1, kde k je počet skupin) Pro každý prvek existuje hodnota kanonické proměnné – místo, kam dopadne na kanonické ose Výstupy: kanonické rovnice (k-1) CS1 = a1x1 + b1x2 + c1x3 ... + C1 CS2 = a2x1 + b2x2 + c2x3 ... + C2 standardizované a nestandardizované koeficienty Kanonická analýza predikční model pro odlišení mezi více než dvěma skupinami minimálně tři proměnné Grafy – redukce proměnných na to „podstatné“ o importovat ze souborů různých typů – excel, csv, txt a také vložením ze schránky o datový soubor a výstupy analýz je možné uchovávat v různých formátech Statistica – import souborů a práce s nimi Práci ušetří, pokud jsou buňky v původním excelovském souboru ve správném formátu. Pokud po načtení formát proměnných neodpovídá našim požadavkům, jde formát upravit nastavením jednotlivých proměnných (dvojité poklikání na buňku s názvem proměnné) – typicky nastavení číselných proměnných na Type > Double Možnost uložit vše v přehledném stromu nabízí Project. Výstupy je možné exportovat také například ve formátu .doc. Krabicový graf pro dvě skupiny – m a f – dobrý pro vyhledávání extrémních případů (například chyb v datech) – při podržení myši nad odlehlou hodnotou se zobrazí její ID Pokud nezadáte grupovací proměnnou, zobrazí se graf pro celý soubor, pokud ano, pak odděleně pro definované Popisná statistika – vizuální hodnocení – krabicový graf Umožňuje posoudit rozložení hodnot a srovnat je s předpokládaným rozložením (linie). Nastavuje se jako Fit type dialogovém okně. Popisná statistika – vizuální hodnocení – histogram Alternativní způsob porovnání pozorovaných hodnot s normálním rozložením (pozorovaný kvantil vs. teoretický kvantil). Popisná statistika – vizuální hodnocení – QQ graf číselná popisná statistika by group – pro skupiny zvlášťpro všechna data zároveň Popisná statistika – číselná popisná statistika krabicové v základní, přednastavené podobě Popisná statistika – číselná popisná statistika Grafické posouzení Srovnání s normálním rozložením – viz předchozí grafy Testování Statistické testy Statistics > Basic statistics > Descriptive statistics > Normality Popisná statistika – normalita dat Nepárový dvouvýběrový t-test T-test Řešená otázka Je mezi dvěma skupinami v konkrétní kvantitativní proměnné významný rozdíl? Jsou muži statisticky významně vyšší než ženy? Párový dvouvýběrový t-test Řešená otázka Je mezi stejnými jedinci v různé situaci rozdíl? Jsou lidé po tréninku zdatnější než před ním? Nepárový dvouvýběrový t-test Předpoklady: normální rozložení v rámci porovnávaných skupin - již představenými postupy shoda rozptylu těchto skupin - testování je přímo součástí výsledků jako F-statistika pokud data nesplňují neparametrické alternativy v tomto případě Mann-whitney U-test V případě různých rozptylů možno použít t-test se samostatnými odhady rozptylů T-test Normalita rozložení v rámci skupin Advanced > Categorized normal plots Shoda rozptylů – graficky Advanced > Box & Whiskers plot T-test Samotné výstupy testu – lze provést hromadně pro všechny zároveň T-test – výstupy samotná statistika shoda rozptylůsměrodatné odchylky Jde o jednorozměrný test, proto máme pro každou proměnnou samostatný řádek! Jaké použít proměnné význam mají pouze ty, které mají nějakou souvislost s kategoriální proměnnou redundantní proměnné snižují stabilitu modelu a mohou vést k nesmyslným výsledkům Hodnocení vztahu nezávislých proměnných a kategoriální proměnné o t-test a ANOVA o korelační analýza a XY grafy o hlavní komponenty a faktorová analýza o diskriminační analýza o „expertní znalost proměnných“ Diskriminační analýza korelační analýza Vztah ke kategoriální proměnné Samostatný t-test pro jednotlivé proměnné – pro dvě skupiny!! (Basic statistics > t-test, independent, by groups) ANOVA (Basic statistics > Breakdows & One-way ANOVA; Analysis of variance) – pro dvě a více skupin (pro dvě skupiny jsou výsledky obdobné jako t-test) Obě analýzy mohou napovědět, ale diskriminace může uspět i díky kombinaci proměnných. Diskriminační analýza grupovací proměnná – stav, který chceme určovat nezávislá proměnná – výběr hodnot pro analýzu Diskriminační analýza Celkové Wilks Lambda celková kvalita modelu s použitím všech proměnných (0 = nejlepší diskriminace) Wilks lambda celého modelu při vyřazení dané proměnné Unikátní příspěvek dané proměnné k diskriminaci Variabilita proměnné nevysvětlená ostatními proměnnými Variabilita proměnné vysvětlená kombinací ostatních proměnných v modelu Diskriminační analýza – číselný výstup analýzy Diskriminační analýza – predikční pravidlo rozepsané funkce pro jednu a pro druhou kategorii spočítají se obě a případ je klasifikován do té skupiny, pro kterou je výsledek vyšší Diskriminační analýza – hodnocení klasifikačního kritéria klasifikační tabulka s procenty správně klasifikovaných případů (resubstituce) Mahalanobisova vzdálenost – vzdálenost od centroidů obou skupin Diskriminační analýza – další výstupy Aposteriorní pravděpodobnost – pravděpodobnost, s jakou patří do obou skupin „Step-wise“ analýza – výběr proměnných samotnou analýzou o proměnné jsou přidávány/ubírány podle jejich významu v modelu o zpravidla je vybrán pouze zlomek původních proměnných V tomto případě vybrány pouze tři proměnné Diskriminační analýza – dopředná a zpětná eliminace proměnných Forward stepwise – dopředná Backward stepwise – zpětná Test dobré shody Testuje shodu reálné distribuce hodnot do n skupin s teoretickou distribucí V případě platnosti nulové hypotézy je poměr mezi buňkami jednoho řádku v různých sloupcích nezávislý na výběru tohoto řádku Statistics > Basic statistics > Tables and banners > Options > Expected frequencies Advanced > Detailed Two-way Tables Kontingenční tabulky pozorované očekávané Řešená otázka Liší se nějak mezi skupiny jedinců ve výskytu znaků? Korelační analýza – vizuální posouzení ANO? Pearsonův korelační koeficient Basic statistics > Correlation matrices NE? Spearmanův korelační koeficient Non-parametrics > Correlations - pořadová korelace Korelační analýza – číselné vyjádření – korelační koeficienty Mají obě proměnné normální rozložení? Dependent – závislá (vysvětlovaná) proměnná Multiple R – koeficient vícerozměrné korelace R2 – koeficient determinace – podíl modelem vysvětlované variability Adjusted R2 – podobný, ale bere v úvahu počet regresorů F, df a p – F test vztahů mezi závislou proměnnou a množinou nezávislých proměnných F = regresní průměr čtverců/reziduální průměr čtverců Standard error of estimate – směrodatná chyba odhadu – rozptýlení pozorovaných hodnot kolem přímky Intercept (Absolutní člen) – hodnota B0 Std. Error – směrodatná chyba absolutního členu (následují testy Ho – intercept je roven nule) b* – standardizované koeficienty – umožňují porovnávat vliv jednotlivých proměnných Vícenásobná regresní analýza - výstupy Další výsledky Summary: regression results První tabulka – statistiky z předchozího souhrnného okna Druhá tabulka – podrobnější výsledky regrese, včetně nestandardizovaného koeficientu (b) (ten standardizovaný ukazuje relativní přispění jednotlivých proměnných) Pro každý koeficient jsou vypočítány hodnoty t-statistiky a p, které testují, zda je daný parametr významně odlišný od 0 (jestli má proměnná v modelu své opodstatnění – součást verifikace modelu). Regresní analýza Ověření předpokladů 1) Správně specifikovaný model 2) Střední hodnota chybové složky je 0 3) Chybová složka má konstantní rozptyl 4) Jednotlivé složky chybového vektoru jsou nekorelované 5) Reziduální složka má normální rozdělení Perform residual analysis > Scatterplots > Predicted vs. residuals Perform residual analysis > Residuals > Histogram of residuals Regresní analýza Ověření předpokladů 1) Správně specifikovaný model 2) Střední hodnota chybové složky je 0 3) Chybová složka má konstantní rozptyl 4) Jednotlivé složky chybového vektoru jsou nekorelované 5) Reziduální složka má normální rozdělení Perform residual analysis > Basics > Normal plot of residuals (Kvantilový graf) V případě normality musí body ležet na proložené přímce. Pokud neleží (dá se dále ověřit testem reziduí) – odhady parametrů modelu a regr. rovnice jsou v pořádku, ale ne významnost regr. parametrů a konfidenční intervaly Regresní analýza – správná podoba výsledků Predikce Predict dependent variable Compute confidence limits Interval spolehlivosti pro průměrnou hodnotu odezvy Udává rozmezí, kde se s 95 % spolehlivostí nachází true best fit populace Compute prediction limits (interval předpovědi) Interval spolehlivost pro individuální hodnotu odezvy Regresní analýza – správná podoba výsledků pokud použijete stejnou rovnici na další jedince dané výšky, bude se 95 % z nich nacházet v daném rozmezí