2. cvičení 14.10.2014 1 Grafy ve statistice – 2D 2 Histogramy XY grafy Box ploty Bag ploty Kombinované grafy Grafy na ověřování normality Sloupcový graf Matrix plot Kategorizované grafy Opakování •Datový soubor BMI (list: pacienti) • •Oveřit normalitu • •Korelace • •Kategorizace •Kontigenční tabulky 3 2D grafy •Histogram –„správný“ histogram oobsah jednoho sloupečku je relativní četnost daného intervalu, a výška sloupečku je hustota četnosti –„používaný“ histogram ovýška sloupečku je absolutní nebo relativní četnost daného intervalu –většina SW kreslí „používaný“ histogram •Matrix plot –Kombinovaný graf •Box plot (Krabicový graf) –umožňuje posoudit symetrii a variabilitu datového souboru a odlehlé a extrémní hodnoty –odlehlá hodnota: (x0.75 + 1,5q, x0.75 + 3q) nebo (x0.25 - 1,5q, x0.25 - 3q) –extremní hodnota: (x0.75 + 3q, ∞) nebo (- ∞, x0.25 - 3q) –SW Statistka umožňuje vlastní nastavení – 4 Asociace ve vícerozměrném prostoru 5 Obsah •Principy asociace ve vícerozměrném prostoru •Euklidovská vzdálenost, Manhattan distance –Odvodit asociační matici 5x5 –Pythagorova věta (excel, statistka, SPSS) –Pomocí makra v excelu horní trojúhelníkovou matici zlinearizovat a vykreslit do histogramu •Soubor s množstvím bodů (opět např. města) –Odvodit asociační matici nxn vzdušnou čarou –Odvodit asociační matici nxn po silnici –Ukázat opět xy graf a komentář, že jde o značně obtížnější problém •Horní trohúhelníkové matice zlinerizovat a dát do xy grafu proti sobe 6 Asociace ve vícerozměrném prostoru 7 Data Vícerozměrný prostor Asociační matice Euklidovská vzdálenost •Jde o základní metrické měřítko vzdálenosti a počítá vzdálenost objektů obdobně jako Pythagorova věta počítá přeponu pravoúhlého trojúhelníku. Metoda je citlivá na rozdílný rozsah hodnot vstupujících proměnných (vhodným řešením může být standardizace) a double zero problém. Nemá horní hranici hodnot. • • • Jako další měřítko se používá také čtverec této vzdálenosti. . Jeho nevýhodou jsou semimetrické vlastnosti. 8 Průměrná vzdálenost •Euklidovská vzdálenost je přepočítána na počet parametrů (druhů v případě vzdálenosti společenstev odběrů). 9 Chord distance (Orlóci, 1967) •Odstraňuje double zero problém a vliv rozdílného počtu jedinců druhů ve vzorcích při výpočtu Euklidovské vzdálenosti. Její maximální hodnota je druhá odmocnina ze dvou a minimum 0. Při výpočtu počítá pouze s poměry druhů v rámci jednotlivých vzorků. Jde vlastně o Euklidovskou vzdálenost počítanou pro vektory vzorků standardizované na délku 1, nebo je možný přímý výpočet už zahrnující standardizaci. Vnitřní část výpočtu je vlastně cosinus úhlu svíraného vektory, zápis vzorce je možný i v této formě. 10 Geodetická metrika •Počítá délku výseče jednotkové kružnice mezi normalizovanými vektory (viz. Chord distance). 11 Asociační matice 1 •SW Statistika 12 Metriky Asociační matice 2a •SW SPSS 13 Asociační matice 2b •SW SPSS 14 Metriky R-ko •Volně přístupný na http://www.r-project.org/ • •Klady –Velké množství základních i pokročilejších funkcí pro statistickou analýzu –Velké možnosti v úpravě grafů • •Zápory –Příkazový řádek –Nevidíme data • 15 Vzdálenosti měst ČR 16 Binární koeficienty 17 Doble-zero problem 18 Binární koeficienty •Symetrické binární koeficienty –nerozlišují mezi případy 0-0, 1–1, jsou citlivé na double-zero problém – •Asymetrické binární koeficienty –rozlišují mezi případy 0–0 a 1–1, tímto vylučují problém double -zero. Tyto koeficienty mohou být použity ve shlukové analýze 19 Obrázek10 Symetrické binární koeficienty •Simple matching koeficient • • • • •Rogers & Tanimoto koeficient 20 Asymetrické binární koeficienty •Jaccardův koeficient • • • • •Sørensenův koeficient 21