Základy zpracování geologických dat testování statistických hypotéz neparametrické testy §R. Čopjaková § § Neparametrické testy §Používají se, i pokud nejsou předpoklady normality dat splněné §Tedy i pro jiné typy rozdělení pravděpodobností než normální §V případě souboru dat s normálním rozdělením jsou vhodnější, když v souboru jsou některé hodnoty výrazně odlehlé § § Wilcoxonův test pro párované hodnoty §Jedná se o neparametrickou obdobu t-testu na párové hodnoty §Při ověřování, zda dva výběrové soubory lze považovat za výběry z jednoho základního souboru §Pro dva závislé soubory dat, kde n1 = n2 §Jedná se o test pořadový - srovnává soubory dat pomocí seřazení souborů dat podle pořadí, nikoli přes průměry §Lze využít i pro soubory dat s jiným než normálním rozdělením pravděpodobností, zatímco t-test na párové hodnoty lze využít pouze pro soubory dat s normálním rozdělením § §Nulová hypotéza versus alternativní hypotéza §Ho: Není systematická diference uvnitř párů §(medián rozdílů M je nulový). §HA: Je systematická diference uvnitř párů (medián rozdílů M je různý od nuly). § Wilcoxonův test pro párované hodnoty §Výpočet testovacího kritéria §Počítá s rozdíly mezi naměřenými hodnotami, které tvoří pár. Testovací kritérium se počítá ze součtu rozdílů v pořadí párovaných hodnot. § §Absolutní hodnoty rozdílů mezi páry se seřadí podle velikosti, jednotlivým členům se přiřadí pořadové číslo (páry s rozdílem 0 vyloučím před přidělením pořadí). Přidělená pořadová čísla se rozdělí do dvou sloupců, do sloupce + (u rozdílu kladného) a do sloupce – (u rozdílu záporného). Zvlášť se dělá součet kladných rozdílů v pořadí párovaných hodnot a zvlášť záporných. Výsledkem jsou testovací statistiky T+ a T- §Jako testovací kritérium se uvažuje hodnota menšího z těchto dvou součtů. § §Stanovení kritické hodnoty §Kritické hodnoty získám z tabulek pro příslušnou hladinu významnosti a a n (počet párů s nenulovým rozdílem) – Tk(a;n) § §Rozhodnutí §Je-li menší z obou T+ a T- menší nebo rovno Tk, tedy min (T+,T-) ≤ Tk, pak zamítáme Ho § §Existuje i obdoba tohoto testu pro jeden výběrový soubor a jeho srovnání s deklarovanou hodnotou § Wilcoxonův test pro párované hodnoty - příklad §obsahy Th stanového s použitím dvou různých přístrojů, se statisticky významně liší Porovnejme koncentrace Th (ppm) v horninách stanovené dvěma různými analytickými metodami pomocí Wilcoxonova testu pro párované hodnoty na 5% a. Ho: není rozdíl mezi obsahy Th stanového s použitím dvou různých přístrojů HA: je rozdíl mezi obsahy Th stanového s použitím dvou různých přístrojů Pro nové MS Office použiji funkci RANK.AVG Pro starší verze MS Office použiji funkci RANK – nutná úprava pořadí pro hodnoty se stejným pořadím Testovací kritérium T = 10,5 Kritická hodnota Tk = 21 T 10,5 < Tk 21 Ho zamítám RANK.AVG Th1 Th2 di IdiI vyloučení nul pořadí IdiI minus plus 9.3 11.3 -2 2 2 13 13 0 11 11 0 0 0 0 10 10.2 -0.2 0.2 0.2 2 2 0 10.1 9.6 0.5 0.5 0.5 4.5 0 4.5 9.6 10.1 -0.5 0.5 0.5 4.5 4.5 0 7.8 9.7 -1.9 1.9 1.9 12 12 0 9.5 9.6 -0.1 0.1 0.1 1 1 0 7.9 8.8 -0.9 0.9 0.9 9 9 0 9.2 11.3 -2.1 2.1 2.1 14 14 0 9.7 10.5 -0.8 0.8 0.8 8 8 0 9.6 10.6 -1 1 1 10 10 0 8.7 10.3 -1.6 1.6 1.6 11 11 0 9.4 9.7 -0.3 0.3 0.3 3 3 0 11.1 10.5 0.6 0.6 0.6 6 0 6 9.3 10 -0.7 0.7 0.7 7 7 0 test krit (menší z hodnot) 94.5 10.5 krit hodnota (n=počet nenulových párů) 21 Vztah mezi histogramem a polygonem četností §sloupcový graf Kolmogorov-Smirnovův test shody - opakování spojnicový graf Histogram absolutních četností Polygon absolutních četností Histogram kumulovaných absolutních četností Polygon kumulovaných absolutních četností Histogram kumulovaných relativních četností Polygon kumulovaných relativních četností Kolmogorov-Smirnovův test shody nejprve varianta pro jeden výběr Pro testování shody rozdělení pravděpodobnosti náhodného výběru s teoretickým, očekávaným rozdělením pravděpodobností. Tedy ptáme-li se na otázku? Má soubor dat normální rozdělení? Má soubor dat logaritmicko-normální rozdělení? Má soubor dat rovnoměrné rozdělení? Obdobné využití jako chí-kvadrát test Lze použít i v případech, kdy se nedoporučuje c2 test Tedy i pokud více než 20% intervalových četností je menších než 5, či když přítomné intervaly s nulovou četností Ho : pe1 = po1, . . . , pek = pok pro všechny intervaly HA : pej ≠ poj alespoň pro některý interval Provedeme n nezávislých opakování pokusu. Výsledky rozdělíme do tříd a utvoříme kumulované četnosti nebo relativní kumulované četnosti pro experimentální data. Namodelujeme kumulované četnosti nebo relativní kumulované četnosti pro teoretické rozdělení pravděpodobnosti, podle něhož očekáváme, že se naměřený soubor dat má chovat. Najdeme maximální rozdíl mezi hodnotami kumulovaných četností N1e, . . . , Nke (kde k představuje označení třídy) empirického souboru dat a očekávaného, teoretického rozdělení N1o, . . . , Nko. Nebo maximální rozdíl mezi hodnotami relativních kumulovaných četností F1e, . . . , Fke empirického souboru dat a očekávaného, teoretického rozdělení F1o, . . . , Fko. Tedy: N1e - N1o nebo F1e - F1o N2e – N2o F2e – F2o Nke – Nko Fke – Fko Testovací kritérium: D1 = max|Nej - Noj|, čili D1 = max|Fej - Foj|, kde Nej (Fej) = experimentální kumulativní absolutní (relativní) četnost v j-tém řádku Noj (Foj) = očekávaná kumulativní absolutní (relativní) četnost v j-tém řádku Kolmogorov-Smirnovův test shody nejprve varianta pro jeden výběr Kolmogorov-Smirnovův test shody nejprve varianta pro jeden výběr grafické vyjádření stanovení testovacího kritéria § kolmogorov smirnov 1V Kolmogorov-Smirnovův test shody nejprve varianta pro jeden výběr § Stanovení kritické hodnoty Dk § pro n<=40 určíme ze statistických tabulek § pro n>40 dopočteme ze vztahu: § pro hladinu významnosti a 0,05 a 0,01 § § § § § Pokud D1 ≤ Dk pak přijmu Ho § Pokud D1 > Dk pak zamítnu Ho Kolmogorov-Smirnovův test shody tentokrát pro dva výběry Užívá se pro hodnocení shody rozdělení četností dvou srovnávaných výběrů. Lze použít i tam, kde nelze použít dvouvýběrový t-test pro nepárová data – není-li splněna podmínka normality obou výběrových souborů Podmínky použití: V případě malých výběrů (n1 a n2 < 40) je podmínkou jejich stejný rozsah n1 = n2 < 40 V případě velkých výběrů (n1 a n2 > 40) nemusí mít stejný rozsah (n1 ≠ n2 > 40) Ho: dva výběrové soubory mají shodné rozdělení četností HA: dva výběrové soubory nemají shodné rozdělení četností Kolmogorov-Smirnovův test shody tentokrát pro dva výběry §výsledky obou souborů měření rozdělíme do intervalů – stanovení experimentálních četností v jednotlivých intervalech pro oba soubory dat (stejný počet intervalů a hranice u obou souborů dat) §vypočítáme jednotlivé kumulované relativní četnosti pro oba soubory dat (nutnost pracovat s relativními četnostmi protože soubory dat nemusí mít stejný rozsah – počet měření) §stanovíme absolutní hodnoty rozdílů kumulovaných relativních četností v každém intervalu §Jako testovací kritérium vezmu maximální hodnotu těchto rozdílů § § – kde F1j, F2j jsou relativní kumulované četnosti souborů 1 a 2 §Kritická hodnota se dopočte podle vzorců (pro oboustrannou variantu testu a hladinu významnosti a 0,05 a 0,01): § § §je-li D1 ≤ Dk přijmeme H0 Kolmogorov-Smirnovův test shody tentokrát pro dva výběry grafické vyjádření stanovení testovacího kritéria § kolmogorov smirnov 2V Princip konstrukce očekávaných četností pro normální rozdělení §Stanovení hodnot distribuční funkce pro jednotlivé horní hranice; §Např. v bodě H3: F(H3) § §v excelu - např. pro normální rozdělení - pomocí funkce NORM.DIST (nové MS Office) či NORMDIST (starší MS Office) – stanovení hodnoty pravděpodobnosti distribuční funkce pro všechny hranice intervalů § § kolmogorov smirnov 1V H3 při testování rozdělení pravděpodobností Kolmogorov-Smirnovův test pro jeden výběr při testování rozdělení pravděpodobností Chí-kvadrát test § v excelu - např. pro normální rozdělení - funkce NORM.DIST (nové MS Office) či NORMDIST (starší MS Office) – stanovení hodnoty pravděpodobnosti distribuční funkce pro všechny hranice intervalů a odtud dopočtení pravděpodobnosti, že nastane hodnota z příslušného intervalu. § Úprava pravděpodobností pro všechny intervaly (j=1…k) na absolutní četnosti: noj=pjn konstrukce ocekavanych cetnosti Princip konstrukce očekávaných četností pro normální rozdělení Vysvětlení na příkladu druhého intervalu Testování statistických hypotéz - shrnutí § testovaci strom Děkuji za pozornost