Statistické metody v ochraně kulturního dědictví Lubomír Prokeš II. Náhodný výběr = reprezentativní vzorek základního souboru. • Jednotlivá pozorování v náhodném výběru pocházejí z téhož rozdělení, tj. jsou realizována za stejných podmínek. • Hodnoty náhodné veličiny v náhodném výběru musí být vybrány nezávisle, tj. výběr kterékoli hodnoty nesmí ovlivnit výběr hodnoty následující. Popisná statistika II výběrové odhady parametrů používaných k charakteristice náhodných výběrů • Výběrový průměr • Výběrový medián [• ] Výběrové variační rozpětí: R = x[max] – x[min • ] Výběrové kvartily Q[III] a Q[I ]• Výběrový rozptyl (s^2) a výběrová směrodatná odchylka (s) a výběrový variační koeficient • Výběrová šikmost • Výběrová špičatost • Výběrový modus Statistická indukce – zobecnění závěrů získaných zpracováním výběru na celý základní soubor. Rozdělení χ2 (chí kvadrát) Pro výběr n prvků z normovaného normálního rozdělení (z[1], z[2], ... , z[n]) lze provést součet jeho čtverců χ2. Fisher – Snedecorovo rozdělení (F-rozdělení) Aritmetický průměr jako náhodná veličina Studentovo rozdělení (t-rozdělení) Stratifikovaný výběr pokud známe faktor, který by mohl sledovanou vlastnost ovlivňovat, můžeme populaci rozdělit do dílčích skupin (vrstev, strat) a provádět náhodný výběr odděleně v každé vrstvě. Zjištěné výsledky se pak slučují vhodnou metodou, respektující velikost vrstev. Odhad střední hodnoty a rozptylu na základě znalosti odhadů z dílčích výběrů Na základě dílčích průměrů Statistické odhady • Bodové = 1 hodnota: vlastní odhad parametru základního souboru z výběrových charakteristik • Intervalové = bodové odhady + jejich přesnost (ta roste s rozsahem výběru) 2 hodnoty: hranice intervalu spolehlivosti Vlastnosti bodových odhadů • Konzistence Vlastnosti bodových odhadů • Nestrannost (nevychýlenost) Vlastnosti bodových odhadů • Vydatnost (eficience) Intervalový odhad Interval spolehlivosti střední hodnoty • S použitím kvantilů t-rozdělení jsou tabelovány • S použitím variačního rozpětí R (Dean a Dixon) K[n ] jsou tabelovány. Intervalový odhad Pro výběrový rozptyl platí Interval spolehlivosti • Jednostranný • Oboustranný Testování hypotéz • Formulace hypotézy » nulová hypotéza (H[0]) » alternativní hypotéza (H[1]) • Volba hladiny významnosti α • Volba testu a výpočet testovacího kritéria. • Interpretace výsledků (zamítnutí/nezamítnutí H[0]) Testování hypotéz Testování hypotéz Nezamítnutí hypotézy H[0] tedy může nastat nejen díky její platnosti, ale také, zejména pro malé rozsahy výběrů, i jako důsledek chyby II. druhu !!!! Sekvenční testy Spolehlivost statistických testů je do značné míry závislá na rozsahu zpracovávaného souboru (počtu stanovení), takže při malém počtu výsledků mohou být závěry nesprávné (důsledek chyby II. druhu). Základní předpoklady o datech • Nezávislost (náhodnost výběru) • Minimální velikost výběru • Homogenita • Odlehlé hodnoty • Normalita Nezávislost • Test autokorelace Nezávislost Skupinový test. Mediálou (přímka rovnoběžná s osou x) rozdělíme data, vzhledem k ose x na dvě poloviny), data pak rozdělíme do skupin podle toho, zda jsou nad, či pod mediánou. Počet takto získaných skupin z n hodnot porovnáme s tabulkou. Nezávislost • Spearmanův korelační koeficient (viz korelace) • Znaménkový test vypočítají se odchylky testu a určí se poměr n[+]/n[-], ten se testuje pomocí binomického rozdělení. Nezávislost Homogenita Odlehlé hodnoty • Grafické metody box and whisker plot Grubbsův test Deanův a Dixonův test • Metoda modifikace vnitřních hradeb Modifikované vnitřní hradby jsou definovány • dolní vnitřní hradba: • horní vnitřní hradba: Parametr K se volí tak, aby byla vysoká pravděpodobnost, že z výběru velikosti n z normálního rozdělení nebude žádný prvek mimo modifikované vnitřní hradby (obvykle se volí pravděpodobnost 0,95). Pro n v rozmezí 8 ≤ n ≤ 100 lze použít aproximace K = 2,25 – 3,6/n Odlehlé hodnoty • Vyloučení odlehlých hodnot ze souboru (nedoporučuje se, zejm. u malých výběrů) • Použití robustních parametrů polohy medián uřezaný průměr winsorizovaný průměr U je procento uřezaných pořádkových statistik, nejlépe 10% Minimální velikost výběru • Pro zvolenou střední chybu průměru (x – μ): Nutná je znalost směrodatné odchylky nebo jejího odhadu. Pro α = 0,05 je t[α] přibližně rovno 2. Normalita • Grafické metody box and whisker plot histogram a jádrový odhad Kvantil-kvantilový (QQ) graf osa x: výběrové kvantily osa y: kvantily teoretického rozdělení (nejč. norm. normálního rozd.) Pravděpodobnostní (PP) graf osa x: standardizovaná proměnná osa y: standardizovaná distr. funkce teoretického rozdělení (nejč. norm. normálního rozd.) Kvantil – kvantilový graf Normalita • Anderson – Darlingův test • Shapirův – Wilkův test • Test šikmosti a špičatosti • Test dobré shody • Kolmogorovův a Lilieforsův test Transformace dat • Logaritmická • Mocninná • Box-Coxova Testy shody • Středních hodnot (testy správnosti) • Rozptylů (testy přesnosti) • Rozdělení s jedním výběrem se dvěma výběry • Studentův test • Lordův test Test shody středních hodnot se dvěma výběry Pro n[1] = n[2 ]Test shody středních hodnot se dvěma výběry Pro n[1] ≠ n[2 ]t-testy výběrů s nestejnými rozptyly Shoda s[1]^2 a s[2]^2 se testuje F-testem s[1]^2 = s[2]^2 v tabulkách s[1]^2 ≠ s[2]^2 Neparametrické testy shody středních hodnot test shody mediánů Wilcoxonův test Mann – Whitneyův test znaménkový test Závislé hodnoty (bloky) • Párový t- test • Znaménkový test • Wilcoxonův test • Permutační (Bootstrap) test není nutný předpoklad náhodného výběru. Párový t-test a ANOVA • Párový t-test lze užít pouze pro srovnání dvou souborů!!! • Nelze ho použít pro srovnání více souborů způsobem „každý s každým“ – výsledky nejsou nezávislé a je problém s odhadem α (chyby I. druhu). • V případech více než dvou souborů lze použít pouze analýzu rozptylu (ANOVU) Párový t-test a ANOVA Test shody rozptylů • F-test (Fisher-Snedecorův) • Leveneův test • Jacknife testy Test shody středních hodnot a rozptylů Grafické metody box and whisker plot histogramy stem and leaf plot Lewisův test Kolmogorovův a Smirnovův test