FSS MU, Katedra SPSP Kvantitativní výzkum x118 Téma 12: Chí-kvadrát distribuce a její využití pro test souvislosti mezi dvěma kategorickými proměnnými Autor: Miroslav Suchanec Logika vzniku chí-kvadrát distribuce: •1) Mějme normálně rozloženou distribuci v populaci, kterou standardizujeme • standard+normal+distribution •2) Z této distribuce vybereme náhodně jeden případ (N=1) a umocníme na druhou • •Př. z = 0,54 – z2 = 0,54*0,54 = 0,29 • • • • •3) Opakovali-li bychom tento postup vznikne distribuce výběrových „odchylek“ neboli distribuce náhodné proměnné X2(1) neboli chí-kvadrát distribuce s jedním stupněm volnosti •Tedy: X2(1) = z2 • •Výsledné vlastnosti distribuce: •1) sahá od 0 do ∞ protože cokoli na druhou je pozitivní číslo •2) zešikmená s vysokou pravděpodobností hodnot 0 až 1 • (protože pravděpodobnost z = -1 až +1 = 68% a tedy pravděpodobnost z2 = 0 až 1 = 68%) •Představme-si že vytáhneme náhodně a nezávisle vzorek o velikosti N=2 a každou z hodnot umocníme na druhou •Př. z1 = 0,54 – z12 = 0,54*0,54 = 0,29 – – z2 = -0,78 – z22 = -0,78 * -0,78 = 0,61 • • •V tomto případě distribuce náhodné proměnné X2(2) neboli chí-kvadrát distribuce s dvěma stupněmi volnosti bude dána součtem z2 •Tedy: X2(2) = z12 + z22 •Obdobně pro N=3 •X2(3) = z12 + z22 + z32 • • •Pro N=5 •X2(5) = z12 + z22 + z32 + z42 +z52 • • • • File:Chi-square distributionPDF.svg probab2 Využití pro testování souvislosti mezi dvěma kategorickými proměnnými •Základní postup: • V tzv. kontingenční tabulce porovnáváme pozorované a očekávané hodnoty každé kombinace, čím více se očekávané odchylují od pozorovaných, tím vyšší je statistika X2, a tím vyšší je statistická závislost (za předpokladu konstantního počtu stupňů volnosti) • •Vzorec: X2 = Σ (( O – E ) / E)) P (chlapec)= .55 (chlapec a „ano“) (chlapec a „ne“) P(Dívka) = .45 (dívka a „ano“) (dívka a „ne“) P(Ano) = .40 P(Ne) = .60 §Jevy/třídy jevů vyskytující se podél okraje jsou vzájemně neslučitelné a vyčerpávající (sada těchto jevů tedy formuje S) = dimenze §Př. 2 dimenze: jevy „ano“ a „ne“ a jevy „chlapec“ a „dívka“ §Statistická nezávislost : každá kategorie nebo jev podél jednoho okraje musí být nezávislý na každém jevu podél druhého okraje = pravděpodobnost každého spojeného jevu se musí rovnat součinu pravděpodobností korespondujících (v řádku a sloupci) marginálních jevů - p (A ∩ B) = p (A) * p (B) §Př. Pokud dimenze „pohlaví“ a „odpověď ano/ne“ jsou nezávislé, – pak p(chlapec a „ano“) = p(chlapec) * p(„ano“) = .55 * .40 = .22 – Stejně postupujeme v ostatních případech a vznikne tabulka: P (chlapec)= .55 p(chlapec)p („ano“) =.55 * .40 = .22 p(chlapec)p(„ne“) = .55 * .60 = .33 P(Dívka) = .45 p(dívka)p(„ano“) =.45 * .40 = .18 p(dívka)p(„ne“) = .45 * .60 = .27 P(Ano) = .40 P(Ne) = .60 Příklad: Testování efektivity dvou léků oproti placebu při prevenci chřipky Lék 1 Lék 2 Placebo (cukr) Celkem nemocný 20 30 30 80 zdravý 100 110 90 300 Celkem 120 140 120 380 H0: Léky nemají žádný efekt H1: Léky mají nějaký (pozitivní nebo negativní) efekt alfa = 0,1 •Černá = pozorované (observed = „O“) hodnoty •Červená = očekávané (expected = „E“) hodnoty •např. E (lék1, nemocný)=p(lék1)*p(nemocný)*celkový počet = 0.21*0.32*380= 25 •Alternativní postup zjištění očekávané hodnoty: E (lék1, nemocný)= 0,21 * 120 = 25 Lék 1 Lék 2 Placebo (cukr) Celkem nemocný 20 25 30 29 30 25 80 (21%) zdravý 100 95 110 111 90 95 300 (79%) Celkem 120 (32%) 140 (37%) 120 (32%) 380 (100 %) Stupně volnosti •= počet hodnot používaných pro výpočet statistiky (např. chí-kvadrát statistiky) které nejsou fixní – které se mohou pohybovat (nabývat různých hodnot) 1 2 4 Lék 1 Lék 2 Placebo (cukr) Celkem nemocný 20 25 30 29 30 25 80 (21%) zdravý 100 95 110 111 90 95 300 (79%) Celkem 120 (32%) 140 (37%) 120 (32%) 380 (100 %) 2 stupně volnosti Výpočet chí-kvadrát statistiky a stupňů volnosti X2= Σ [( O – E )2 / E)] = (20 – 25) 2/ 25 + (30 - 29) 2 / 29 + (30 - 25) 2 / 25 + (100 – 95) 2 / 95 + (110 - 111) 2 / 111 + (90 - 95) 2 / 95 = 2,53 Stupně volnosti: (ř – 1) * (s – 1) = (2 – 1) * (3 – 1) = 1 * 2 = 2 X2(2) = 2,53 Závěr pomocí tabulky •Kritická hodnota pro alfa=0,1 a 2 stupně volnosti je x2 = 4,6 což je více než 2,53. Hodnota 2,53 nespadá do regionu zamítnutí proto H0 nezamítám – Závěr pomocí PQRS •Pokud léky nemají efekt (tj. H0 je pravdivá) pak pravděpodobnost hodnoty 2,53 nebo extrémnější je 0,28 což je docela velká pravděpodobnost (více než 0,1) a proto H0 nezamítám • • Závěr pomocí SPSS Chi-Square Tests Value df Asymp. Sig. (2-sided) Pearson Chi-Square 2,526a 2 ,283 Likelihood Ratio 2,559 2 ,278 Linear-by-Linear Association 2,500 1 ,114 N of Valid Cases 380 a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 25,26. •Pokud léky nemají efekt (tj. H0 je pravdivá) pak pravděpodobnost hodnoty 2,53 nebo extrémnější je 0,28 což je docela velká pravděpodobnost (více než 0,1) a proto H0 nezamítám • •