Základy zpracování geologických dat korelační analýza – nelineární závislost testování statistických hypotéz §R. Čopjaková § § Nelineární závislost §Korelační koeficient §Nepočítat Pearsonův korelační koeficient § §Pro stanovení síly závislosti lze využít koeficient determinace v Excelu §nebo spočítat Spearmanův koeficient pořadové korelace § Spearmanův koeficient pořadové korelace §Univerzální – nejen pro lineární závislost §Chci-li spočítat hodnotu Spearmanova koeficintu, převedu naměřená data pro soubor Xi a Yi na pořadové hodnoty Xip a Yip. §Spočtu rozdíly v pořadí jednotlivých párů di = Xip – Yip, které použiji při výpočtu tohoto koeficientu § § § §Lze využít jen pro funkce monotónní (tedy fci rostoucí nebo klesající, nerostoucí nebo neklesají; nelze tedy použít např. pro kvadratickou fci) §Např. závislost rozpustnosti jílových minerálů na pH – není fce monotónní § §r= 0,92 (stanovený z koeficientu determinace) §SR ~ 0 – SR nelze použít spearm koef = 1 - 6*37/16(162-1) = 0,95 Spearmanův koeficient pořadové korelace Reálná naměřená data (soubor X a Y) s nelineární závislostí převedu na pořadové hodnoty a spočtu Spearmanův koeficient pořadové korelace Spočtu-li pearsonův koeficient korelace pro pořadové hodnoty (lineární závislost), bude velice blízký hodnotě Spearmanova koeficientu pořadové korelace pro naměřené hodnoty proměnné X a Y rxy = = = 0,95 covxy 20,05 sxsy 4,60*4,61 RANK RANK.EQ RANK.AVG Stanovení pořadí v Excelu Funkce RANK - starší verze MS Office (vyžaduje úpravu stejných pořadí) Funkce RANK.AVG – nové MS Office (nevyžaduje žádnou úpravu) Funkce RANK.EQ – nové MS Office; = RANK (vyžaduje úpravu) SR=0,95 rxy=0,95 reálná data pořadová data Testování statistických hypotéz § §Existuje závislost mezi soubory dat? (např. vyšetřování substitucí v minerálech) § § § § § § § §Je některá hodnota souboru odlehlá? (Mám ji ze souboru vyřadit a nepracovat s ní při výpočtu dalších parametrů – střední hodnoty, Sx…?) § 4,0; 4,2; 4,4; 4,5; 4,5; 4,6; 4,7; 4,9; 5,1; 5,8 ? § §Chovají se naměřená data podle normálního rozdělení? § rxy = -O,6 Testování statistických hypotéz Testování statistických hypotéz §Při zpracování dat jsou časté úvahy typu: §Liší se hodnoty naměřené na stejných přístrojích v různých laboratořích? (např. data z EMP v Brně a Barrandově) §Liší se výsledky získané různými analytickými metodami (např. hodnoty naměřené přenosným terénním gama-spektrometrem a laboratorním gama-spektrometrem) §Liší se hodnoty naměřené v různých časových intervalech (sezónní vlivy v hydrogeologii) §Liší se hodnoty naměřené v různých místech (např. srovnání chemického složení – protolitu- ortorul sněžnických a gieraltovských orlicko-kladského krystalinika) §Liší se hodnoty naměřené látky od deklarované hodnoty (např. prověřování standardů, či kontrola kvality analýz) § § § § K řešení těchto problémů lze ve statistice využít metody testování statistických hypotéz, s jejichž pomocí lze hledat odpovědi na tyto otázky a činit závěry. Testování statistických hypotéz § Základní pojmy §hypotéza H0 – nulová (testovaná) hypotéza, kterou testujeme §hypotéza HA – alternativní hypotéza, kterou přijmeme, zamítneme-li hypotézu Ho §a – hladina významnosti – volí se malá do 0,05; nejčastěji 0,05 - tedy 5-ti% (nebo 0,01 tedy 1%) pravděpodobnost chyby 1. druhu; vysoce významné výsledky testování pro a = 0,005 a méně §kritická hodnota pro test nulové hypotézy = hodnota kvantilu hraniční pro oblast zamítání H0 na zvolené hladině významnosti a (kde a vyjadřuje pravděpodobnost, že náhodná veličina překročí tuto hodnotu). § Chyby při testování §Chyba 1. druhu - a §zamítneme-li platící hypotézu H0, dopustíme se chyby I. druhu §je spojena se zamítnutím nulové hypotézy, která ve skutečnosti platí; její pravděpodobnost se nazývá hladina významnosti a §platí-li hypotéza alternativní HA a testovanou hypotézu H0 nezamítáme, dopouštíme se chyby II. Druhu §Chyba 2. druhu §Značí se b § je pravděpodobnost nesprávného přijetí nulové hypotézy §1- b se nazývá síla testu §závisí na velikosti výběru (s větším souborem klesá) § §Obecný postup testování § zvolíme hladinu významnosti a § formulujeme nulovou hypotézu H0 a alternativní hypotézu HA § zvolíme vhodné testovací kritérium (test) § vypočteme velikost test. kritéria T §stanovíme kritickou hodnotu (hodnotu kvantilu hraniční pro oblast zamítání H0) pro zvolenou hladinu významnosti - ka §porovnáme velikost testovacího kritéria s kritickou hodnotou § obvykle: § jestliže T ≤ ka, akceptujeme nulovou hypotézu H0 na námi zvolené hladině významnosti § jestliže T > ka, zamítneme nulovou hypotézu a říkáme, že platí HA § Testování statistických hypotéz Oboustranný, jednostranný test §oboustranná hypotéza (oboustranný test) – H0: X1 = X0 – HA: X1 ≠ X0 § § §jednostranná hypotéza (jednostranný test) – H0: X1 = X0 – HA: X1 ‹ X0, případně X1 › X0 § § § V případě oboustranného testu: musíme rozdělit danou hladinu významnosti a na dvě časti reprezentující dva možné konce distribuce. Značíme ka(2), např. t0,05(2) Stanovíme tedy hodnotu kvantilu 0,975 V případě jednostranného testu (pravostranný – Ha:X1›X0) uvažujeme pouze jeden konec distribuce a danou hladinu významnosti proto nedělíme. Značíme ka(1), např. t0,05(1) Stanovíme tedy hodnotu kvantilu 0,95 Oboustranný, jednostranný test Testování statistických hypotéz § Testy: parametrické § neparametrické § §parametrický test – pro soubory s normálním rozdělením nebo téměř normálním rozdělením pravděpodobností § Známe-li rozdělení pravděpodobností základního souboru § §neparametrický test – i pro soubory a jiným než normálním rozložením pravděpodobností § Neznáme-li rozdělení pravděpodobností základního souboru - širší použití než parametrické § - řešení nezávisí na typu rozdělení základního souboru § - lze použít i pro silně nenormální rozdělení, kdy parametrické testy předpokládající normální rozdělení selhávají § Test nezávislosti dat ~ síly korelačního koeficientu §Otázka – Existuje závislost mezi dvěma soubory data? Je spočtená hodnota korelačního koeficientu statisticky významná? § Když rxy se blíží 1 či -1 pak jistě ano § Ale co když rxy je např. 0,5? – závislé na počtu měření § §ověření předpokladu o nulové hodnotě korelačního koeficientu (ověření nezávislosti dat) § Ho: rxy = 0 §Spočtení testovacího kritéria § § §Stanovení kritické hodnoty pro zvolenou hladinu významnosti a a počet stupňů volnosti n-2; Tk(1-a/2; n-2) (oboustranná varianta testu) § V excelu např. pro a =5% stanovím pomocí funkce § T.INV (pro daný kvantil a hladinu významnosti; 1-a/2 = 0,975) § T.INV.2T (pro danou hladinu významnosti a stupně volnosti; a = 0,05) § TINV (starší verze MS Office; totéž jako T.INV.2T) § §Pokud t ≤Tk pak přijmeme Ho a tedy existenci závislosti mezi veličinami v souboru považujeme za neprokázanou. § Příklad §Otestujte, zda existuje statisticky významná závislost mezi obsahem Y2O3 a SiO2 v granátu; rxy=-0,70757 §Pracujte při hladině významnosti 0,05; počet analýz je 12 § §Nulová hypotéza Ho: rxy = 0 §Spočtení testovacího kritéria – – = -3,166 § §Stanovení kritické hodnoty (z pravého konce distribuční fce) § studentova rozděleniTk(1-a/2; n-2) § T.INV(0,975;10) = 2,228 § nebo T.INV.2T a TINV (0,05;10) = 2,228 § §Velikost testovacího kritéria (beru jeho absolutní hodnotu) je větší než kritická hodnota – 3,166 > 2,228 §Ho zamítám; přijímám HA – mezi soubory je statisticky významná závislost – SiO2 Y2O3 36.52 0.65 35.96 0.86 35.6 0.45 35.83 0.78 36.25 0.15 36.92 0.1 35.85 0.56 35.7 0.64 34.69 1.05 35.06 0.86 35.34 0.33 34.86 1.26