Hodnocení závislosti oSTAT metody pro posouzení závislosti – jiné pro: o o - kvantitativní znaky o - kvalitativní znaky o o→ závislost funkční x statistická Příklad (1) oPosuďte vztah mezi obsahem kyseliny mléčné v krvi matky a novorozence těsně po porodu (mg/100ml). o matka novorozenec o x y o 39,0 31,8 o 6,5 34,5 o 41,1 33,7 o 43,0 43,0 o 33,5 21,0 o 11,2x 9,0x o 40,2 32,6 o 50,9 32,0 o 66,5x 48,7 o 54,7 48,2 o 66,4 62,4 o 64,7 64,7x o 56,8 6,8 o 40,9 40,9 o Příklad (2) oSestrojte bodový graf. o omx = 46,81 mz = 39,95 osx = 14,40 sz = 14,94 n n∑(xi-mx)(yi-my) = 2 742,49 Bodový graf oZávislost mezi obsahem kyseliny mléčné u novorozence a matky těsně po porodu. o o Snímek 022.jpg Bodový graf o o o o o o o o o 1.Typ závislosti (funkce) 2.Směr (přímá, nepřímá) 3.Těsnost (rozptyl bodů) Snímek 013.JPG Lineární závislost o→ měří se korelačním koeficientem ρ (parametr); je to nejlepší míra těsnosti. o oVlastnosti: -1≤ ρ ≤ 1 o ρ = 0 → veličiny jsou nezávislé o ρ = ±1 → funkční závislost (přímá, nepřímá) o ρ je kladné v případě přímé statistické závislosti o ρ je záporné v případě nepřímé stat.závislosti Nelineární závislost oPro hodnocení nelineární závislosti používáme: o oa) Transformace – příklady 1)y = 1/x místo závislosti veličin x a y se studuje lineární závislost veličiny x a z = 1/ y 2)y = ax → log y = log a + b log x n místo nelineární závislosti x a y se studuje lineární závislost veličin log x a log y n ob) Pořadový korelační koeficient (Spearmanův, Kendallův) o b Korelační koeficient (1) oVe výběru se počítá tzv. výběrový korelační koeficient r, který je nejlepším odhadem neznámého korelačního koeficientu ρ o oMějme n dvojic dat (xi , yi) i = 1, 2, … n, pak o o o o okde mx, sx → průměr a směrodatná odchylka veličiny X o my, sy → průměr a směrodatná odchylka veličiny Y o Snímek 010.JPG Korelační koeficient (2) o! r je výběrová charakteristika, která má povahu náhodné veličiny o → mění výběr od výběru o → je zatížen náhodnou chybou SE, která je dána vztahem o o o o oPro velké výběry (n > 50) má r normální rozdělení, jeho vlastnosti můžeme využít pro hodnocení závislosti. o Snímek 027.jpg Hodnocení významnosti r 1)H0 ≡ ρ = 0 → veličiny jsou nezávislé 2)HA ≡ ρ ≠ 0 → veličiny jsou závislé 3)Za platnosti H0 chyba 4) o u-test (pro n > 50)!!! o4) o → kritické hodnoty: 1,96; 2,58 o o oPro malá n kritické hodnoty (viz skripta str. 28) o Snímek 014.jpg Snímek 027.jpg Příklad 1: o oZhodnoťte závislost obsahu kyseliny mléčné v krvi novorozence a matky těsně po porodu (viz naměřené hodnoty v úvodu). Příklad 2: o o Zhodnoťte závislost kojenecké úmrtnosti a podílu živě narozených dětí s porodní hmotností do 2 500g: o o a) ve 14 okresech Jmk (r = 0,429) o b) ve 76 okresech ČR (r = 0,471) o Příklad 3 o oV souboru 225 jednoletých brněnských chlapců byl sledován vztah mezi tělesnou délkou a hmotností. Výpočtem jsme zjistili r = 0,648. o oZhodnoťte závislost pomocí u-testu i pomocí intervalu spolehlivosti. Interpretace korelačního koeficientu o100 . r ² udává procento variability náhodné veličiny Y, která připadá na vrub lineární závislosti veličiny Y na veličině X. o oPříklad: Jestliže těsnost vztahu mezi hmotností a tělesnou délkou jednoletých chlapců vyjadřuje korelační koeficient r = 0,648, pak 42% celkové variability hmotnosti jednoletých chlapců připadá na vrub závislosti na délce. Znamená to, že variabilita vah jednoletých chlapců určité délky by byla o 42% nižší než variabilita celková (pro chlapce všech délek). o Regresní analýza oPokud je závislost těsná ( r – hodně velké), je vhodné vyjádřit ji pomocí tzv. regresní přímky ve tvaru o o y = a + bx o oRegresní koeficienty: o ob = r (sy/sx) → sklon přímky oa = my – b mx → úsek na ose y o Regresní analýza – viz příklad v úvodu o oVypočítejte regresní koeficienty a sestavte regresní funkci pro závislost mezi obsahem kyseliny mléčné u novorozence a matky těsně po porodu. Regresní analýza - příklad o oV souboru 76 okresů ČR byla zjištěna závislost mezi podílem dětí s nízkou porodní hmotností (X) a kojeneckou úmrtností (Y), kterou lze vyjádřit rovnicí: o o y = 4,139 + 0,942x. o oVypočítejte, jaká by byla kojenecká úmrtnost v okrese, kde na 100 živě narozených připadá 7 dětí s nízkou porodní hmotností. o o o Nelineární závislost (1) oSpearmanův koeficient pořadové korelace 1)Nejprve seřadíme všechny hodnoty veličiny X dle velikosti a označíme je pořadovými čísly. 2)Pak seřadíme všechny hodnoty veličiny Y dle velikosti a označíme je pořadovými čísly. 3)Pro každou dvojici hodnot x, y stanovíme jejich rozdíl d 4)Spearmanův koeficient pořadové korelace vypočítáme ze vztahu: o o Snímek 016.jpg Nelineární závislost (2) o ors nabývá hodnot od -1 do 1, opět platí, že když: o o rs = 0 → nezávislost o rs = 1 → přímou funkční závislost o rs = -1 → nepřímou funkční závislost o oHodnocení rs: Čím více se hodnota blíží + 1, tím větší je těsnost vztahu o Nelineární závislost (3) oTEST VÝZNAMNOSTI o oAbsolutní hodnota rs se porovná s kritickými hodnotami Spearmanova koeficientu pořadové korelace: o -│rs │ ≥ k.h. → zamítáme H0 -│rs │ < k.h. → nezamítáme H0 o List 1 - okresy o o o o o o o o di = rozdíl pořadí Snímek 016.jpg Snímek 012.JPG Postup při hodnocení závislosti kvantitativních veličin 1)Udělat bodový graf, tím získáme rozumnou vizuální představu o typu závislosti. 2)Pro určení síly lineární závislosti je vhodný Pearsonův korelační koeficient r (-1; +1). Kladné hodnoty svědčí pro přímou závislost , záporné pro nepřímou. 3)Zhodnotit významnost korelačního koeficientu. Sílu závislosti posoudit podle velikosti r. 4)Korelace neznamená příčinnost. Nerozhoduje, která veličina je závislá, která nezávislá. 5)Nemůže-li se empirickými body proložit přímka, je třeba použít: o - transformace o - pořadový Spearmanův korelační koeficient Hodnocení závislosti kvalitativních znaků -východiskem je kontingenční tabulka - - - - - - - - - -je založeno na srovnání empirických a teoretických četností -empirická četnost – rozdělení lidí podle pohlaví a alergie, jak bylo skutečně zjištěno ve výběrovém souboru -teoretická četnost – jaké by bylo rozdělení lidí ve výběrovém souboru podle pohlaví a alergie, kdyby šlo o jevy nezávislé ALERGIE+ ALERGIE- CELKEM MUŽI 21 84 105 ŽENY 19 176 195 CELKEM 40 260 300 Hodnocení závislosti kvalitativních znaků o1. Stanovení hypotéz oH0 – mezi empirickými a teoretickými četnostmi není statisticky významný rozdíl, zjištěné rozdíly nejsou natolik velké, aby nemohly být způsobeny náhodou: oHA - mezi empirickými a teoretickými četnostmi je statisticky významný rozdíl, zjištěné rozdíly jsou natolik velké, že nemohou být způsobeny náhodou: o o2. Hladina významnosti oα = 5% nebo α = 1% o o3. Výběr testu o- chí-kvadrát test (χ²) o o o Hodnocení závislosti kvalitativních znaků o4. Podmínky pro použití testu o Všechny teoretické četnosti musí být větší než 5. o o5. Výpočet testovací charakteristiky chí-kvadrát o o 1. Pro každé políčko vypočítáme teoretickou četnost o 2. Pro každé políčko vypočítáme rozdíl mezi empirickou (E) a teoretickou četností (T) podle vzorečku: o o o 3. Součet vypočítaných rozdílů je hodnota chí-kvadrátu: o o Snímek 019.JPG Snímek 020.JPG Hodnocení závislosti kvalitativních znaků o6. Srovnání s kritickými hodnotami o Chí-kvadrát srovnáme s příslušnými kritickými hodnotami chí-kvadrát rozdělení: o - Kritické hodnoty určujeme z tabulek podle zvolené hladiny o významnosti a tzv. stupňů volnosti. o o7. Zamítáme nebo nezamítáme nulovou hypotézu o o o o o8. Interpretace výsledků Snímek 018.JPG Příklad (1): o oPro čtyřpolní tabulku (typu 2x2) můžeme veličinu chí 2 počítat jednodušeji o → postup viz následující příklad o oTabulka: Vztah mezi způsobem výživy a výskytem novorozeneckého ikteru u 210 novorozenců Příklad (2): způsob výživy výskyt + ikteru - součet A1 61 49 110 A2 85 15 100 součet 146 64 210 Kritické hodnoty Snímek 001.JPG Snímek 002.JPG Snímek 003.JPG