logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ASTAc/01,03 Biostatistika 6. cvičení Opakování Analýza kontingenčních tabulek Základy korelační analýzy logo-IBA •Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Co byste měli umět z minula: 1.Určit, kdy je vhodné použít pro testování hypotéz parametrické a neparametrické testy – ověřování předpokladů. 2.Vybrat typ neparametrického testu – jednovýběrový, párový nebo dvouvýběrový? 3.Provést testování v softwaru Statistica – Wilcoxonův test, znaménkový test, Mannův-Whitneyho test, Kruskalův-Wallisův test, mediánový test. 4.Interpretovat výsledky testování. 5. 5. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kontingenční tabulky Pearsonův chí-kvadrát test (test dobré shody) Fisherův exaktní test McNemarův test Analýza kontingenčních tabulek logo-IBA Kontingenční tabulka - opakování Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová •Frekvenční sumarizace dvou kategoriálních proměnných (binárních, nominálních nebo ordinálních proměnných). •Obecně: R x C kontingenční tabulka (R – počet kategorií jedné proměnné, C – počet kategorií druhé proměnné). •Speciální případ: 2 x 2 tabulka = čtyřpolní tabulka. •Kontingenční tabulky: absolutních četností, celkových procent, řádkových/sloupcových četností • •Př.: Sumarizace vyšetřených osob podle pohlaví a výsledku diagnostického testu. Pohlaví Výsledek vyšetření Nemocný Zdravý Celkem Muž 45 11 56 Žena 25 6 31 Celkem 70 17 87 logo-IBA Ukázka kontingenční tabulky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Nemocný Zdravý Celkem Muž a b a + b Žena c d c + d Celkem a + c b + d a + b + c + d = N Nemocný Zdravý Celkem Muž 45 11 56 Žena 25 6 31 Celkem 70 17 87 Celkový počet hodnot Simultánní absolutní četnost Marginální absolutní četnost •Vztah pohlaví a výskytu onemocnění (pozor na hodnocení nesmyslného vztahu) • Jsou více nemocní muži nebo ženy? C:\Users\brozova\Desktop\red-question-mark-cartoon-character-with-a-confused-expression_150426020.j pg logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Co analyzujeme u kontingenčních tabulek? —Analýza kontingenčních tabulek umožňuje analyzovat vazbu mezi dvěma kategoriálními proměnnými. Základním způsobem testování je tzv. chí-kvadrát test, který srovnává pozorované četnosti kombinací kategorií oproti očekávaným četnostem, které vychází z teoretické situace, kdy je vztah mezi proměnnými náhodný. — —Test dobré shody je využíván také pro srovnání pozorovaných četností proti očekávaným četnostem daných určitým pravidlem (typickým příkladem je Hardy-Weinbergova rovnováha v genetice). — —Specifickým typem výstupů odvozených z kontingenčních tabulek jsou tzv. poměry šancí a relativní rizika, využívaná často v medicíně pro identifikaci a popis rizikových skupin pacientů. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test dobré shody - základní teorie pozorovaná četnost očekávaná četnost očekávaná četnost = + 2 pozorovaná četnost očekávaná četnost očekávaná četnost 1. jev 2. jev - 2 - + … pozorovaná četnost očekávaná četnost očekávaná četnost = 2 - ∑ ... zamítáme H0 Testová statistika: 1 - hladina významnosti stupně volnosti logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test dobré shody: příklad I Binomické jevy (1/0) pozorovaná četnost očekávaná četnost očekávaná četnost = + 2 pozorovaná četnost očekávaná četnost očekávaná četnost I. jev 1 II. jev 2 - 2 - Příklad 10 000 lidí hází mincí rub: 4 000 případů (R) líc: 6 000 případů (L) ü Lze výsledek považovat za statisticky významně odlišný (nebo neodlišný) od očekávaného poměru R : L = 1 : 1 (tzn. že je výsledek hodu mincí náhodný)? ? Rozdíl je vysoce statisticky významný (p < 0,001) Tabulková hodnota: logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Celkem bylo zkoumáno 250 semen určitého druhu rostliny a roztříděno do následujících kategorií: žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité. Předpokládaný poměr výskytu těchto kategorií v populaci je 9 : 3 : 3 : 1. Následující tabulka obsahuje původní data z pozorování a dále postup při testování H0. žluté/hladké žluté/vrásčité zelené/hladké zelené/vrásčité n f poz. 152 39 53 6 250 f oček. 140,6250 46,8750 46,8750 15,6250 n = k - 1 = 3 Zamítáme hypotézu shody pozorovaných četností s očekávanými Test dobré shody: příklad II Tabulková hodnota: logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kontingenční tabulka - hypotézy —NEZÁVISLOST (Pearsonův chí-kvadrát test, Fisherův exaktní test) ØJeden výběr, 2 charakteristiky – obdoba nepárového uspořádání ØNapř.: existence vztahu mezi barvou očí a známkou z biostatistiky u studentů Ø —SHODA STRUKTURY (Pearsonův chí-kvadrát test, Fisherův exaktní test) ØTzv. test homogenity ØVíce výběrů, jedna charakteristika – obdoba nepárového uspořádání ØNapř.: věková struktura pacientů s diabetem v K nemocnicích (tj. K výběrů) Ø —SYMETRIE (McNemarův test) ØJeden výběr, opakovaně jedna charakteristika – obdoba párového uspořádání ØNapř.: posouzení stavu stromů ve dvou sezónách logo-IBA Základní rozhodování o výběru statistických testů - analýza kontingenčních tabulek Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýběrový t-test Párový t-test Dvouvýběrový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Wilcoxonův / znaménkový test Wilcoxonův / znaménkový test Mannův-Whitneyho / mediánový t. Kruskalův-Wallisův test / mediánový t. Jednovýběrový binomický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita E. Janoušová, L. Dušek logo-IBA —Máme dvě nominální veličiny, X (má r variant) a Y (má s variant) —Kontingenční tabulka typu r x s — — — — — — — — —Označení: njk- simultánní absolutní četnost, nj.- marginální absolutní četnost — — Kontingenční tabulka - obecně Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek y[1] ….. ….. y[s] nj. x[1] n11 ….. ..... n1s n1. . . ….. ….. . . . . ….. ….. . . x[r] nr1 ….. ….. nrs nr. n.k n.1 . . n.s n x[j] y[k] Simultánní absolutní četnost Marginální absolutní četnost Marginální absolutní četnost logo-IBA Testování nezávislosti – Pearsonův chí-kvadrát test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek —Souvisí spolu výskyt dvou nominálních znaků měřených na jediném výběru? —Příklad: Barva očí (modrá, zelená, hnědá) a barva vlasů (hnědá, černá, blond) u vybraných 30 studentů jsou nezávislé. —Nulová hypotéza: Znaky X a Y jsou nezávislé náhodné veličiny. —Alternativní hypotéza: Znaky X a Y jsou závislé náhodné veličiny. —Test: Pearsonův chí-kvadrát — — — Očekávané (teoretické) četnosti ejk : •H0 zamítáme na hladině významnosti α, pokud • •Předpoklady testu ? H0 platí logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek —Předpoklady Pearsonova chí-kvadrát testu: 1.Jednotlivá pozorování shrnutá v kontingenční tabulce jsou nezávislá, tj. každý prvek patří jen do jedné buňky kont. tabulky, nemůže zároveň patřit do dvou. 2.Podmínky dobré aproximace: Očekávané (teoretické) četnosti jsou aspoň v 80 % případů větší nebo rovné 5 a ve 100 % případů nesmí být pod 2 (pokud není tento předpoklad splněn, je vhodné sloučit kategorie s nízkými četnostmi). 3. —Měření síly závislosti: Cramérův koeficient: Význam hodnot: 0-0,1….zanedbatelná závislost 0,1-0,3…slabá závislost 0,3-0,7…střední závislost 0,7-1 silná závislost • 1. 1. •Testování nezávislosti – Pearsonův chí-kvadrát test logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kontingenční tabulky: příklad FA = 102 * 30 / 166 = 18,43 FB = 102 * 136 / 166 = 83,57 FC = 11,57 FD = 52,43 Ano Ne S Ano 20 82 102 Ne 10 54 64 S 30 136 166 gen … Kontingenční tabulka v obrázku Gen: ANO Gen: NE logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Řešení v softwaru Statistica —Datový soubor může být zadán 2 způsoby: — ØPůvodní data (co řádek, to subjekt charakterizovaný danými kategoriálními proměnnými), Ø ØAgregovaná data (kontingenční tabulka, četnosti všech kombinací kategorií 2 kategoriálních proměnných) – analýza agregovaných dat možná i pomocí webových kalkulátorů. 1. 1. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Způsob 1: Řešení v softwaru Statistica I —Na hladině významnosti 0,05 testujte hypotézu o nezávislosti genu a stavu pacienta. Simultánní četnosti znázorněte graficky. • 1. 1. • Původní datový soubor (co řádek, to subjekt) • • V menu Statistics zvolíme Basic statistics, Vybereme Tables and banners (v češtině Kontingenční tabulky) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Způsob 1: Řešení v softwaru Statistica II • Vybereme proměnné, které chceme testovat logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Způsob 1: Řešení v softwaru Statistica III • Na záložce Options zaškrtneme Expected frequencies (Očekávané četnosti) (k ověření podmínek dobré aproximace) • • • Zaškrtneme Pearsonův chí-kvadrát • Pokud chceme vypočítat i Cramérův koeficient zaškrtneme Phi & Cramer‘s V • Poté se vrátíme na záložku Advanced, kde a zvolíme Detailed two-way tables • logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Způsob 1: Řešení v softwaru Statistica IV Tab.1: Pozorované četnosti Jsou splněny podmínky dobré aproximace? Tab. 3: Paersonův chí-kvadrát p- hodnota Hodnota testové statistiky Počet stupňů volnosti http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png Tab. 2: Očekávané četnosti logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Způsob 2: Řešení v softwaru Statistica I —Na hladině významnosti 0,05 testujte hypotézu o nezávislosti genu a stavu pacienta. Simultánní četnosti znázorněte graficky. • 1. 1. • Agregovaný datový soubor • • V menu Statistics zvolíme Basic statistics, vybereme Tables and banners (v češtině Kontingenční tabulky) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Způsob 2: Řešení v softwaru Statistica II • Vybereme proměnné, které chceme testovat logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Způsob 2: Řešení v softwaru Statistica III • Zapneme váhy (vpravo ikonka černých vah w), jako váhy vybereme proměnnou četnost (tj. proměnnou, ve které jsou uvedeny počty případů jednotlivých kombinací kategorií) 3 logo-IBA • Na záložce Options zaškrtneme Expected frequencies (Očekávané četnosti) (k ověření podmínek dobré aproximace) • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Způsob 2: Řešení v softwaru Statistica IV • • Zaškrtneme Pearsonův chí-kvadrát • Pokud chceme vypočítat i Cramérův koeficient zaškrtneme Phi & Cramer‘s V • Poté se vrátíme na záložku Advanced, kde a zvolíme Detailed two-way tables • logo-IBA Testování homogenity (shody struktury) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek —Motivace: Zajímá nás výskyt nominálního znaku u r nezávislých výběrů z r různých populací. —Příklad: Je zájem o sport stejný u děvčat jako u chlapců? —Nulová hypotéza: pravděpodobnostní rozdělení kategoriální proměnné je stejné v různých populací —Test: Pearsonův chí-kvadrát — Dívky Chlapci Zájem o sport Ano a b a+b Ne c d c+d a+c b+d n Některé marginální četnosti (buď sloupcové nebo řádkové) jsou předem pevně stanoveny logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Fisherův exaktní test —Využití ve čtyřpolní tabulce s nízkými četnostmi, které znemožňují použití Pearsonova chí-kvadrát testu. —Patří mezi neparametrické testy pracující s daty na nominální škále, v nejjednodušší podobě ve dvou třídách: pozitivní/negativní, úspěch/neúspěch apod. —Nulová hypotéza předpokládá rovnoměrné zastoupení sledovaného znaku u dvou nezávislých souborů. —Slovo exaktní (přímý) znamená, že se přímo vypočítává pravděpodobnost odmítnutí, resp. platnosti nulové hypotézy. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Fisherův exaktní test —Výpočet „přesné“ p-hodnoty, která zde hraje roli testové statistiky: ¡spočítá se parciální pravděpodobnost čtyřpolní tabulky p1: ¡ ¡ ¡ ¡ ¡ ¡Spočítá se pa všech možných tabulek při zachování marginálních četností (řádkové a sloupcové součty) a výsledná p-hodnota je součtem pa menších nebo stejných jako p1, která přísluší pozorované tabulce. logo-IBA Řešení v softwaru Statistica: Fisherův exaktní test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Na záložce Options zaškrtneme Fisher exact • • Výstupní tabulka Pro jednostranný test http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png Pro oboustranný test logo-IBA Test hypotézy o symetrii (McNemarův test pro čtyřpolní tabulku) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek —Motivace: Na osobách sledujeme binární proměnnou před pokusem a po něm, cílem je zjistit, zda došlo ke změně v rozdělení této proměnné. —Analýza párových dichotomických proměnných — — — — — —Nulová hypotéza: , pokus nemá vliv na výskyt daného znaku — —Testová statistika: pokud je větší než kritická hodnota rozdělení o jednom stupni volnosti (vhodné pro počty údajů b+c > 8), pak nulovou hypotézu zamítáme — — po + - nj. před + a b a+b - c d c+d n.k a+c b+d n Četnostní tabulka Tabulka teoretických pravděpodobností po + - před + p11 p12 p1. - p21 p22 p2. p.1 p.2 logo-IBA McNemarův test: příklad I Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Zjistěte, zda výuka o pozitivním působení sportu na zdraví vede ke změně postojů žáků ke sportování. Nulová hypotéza: Počet žáků, kteří změní svůj postoj pozitivním směrem, je pouze náhodně odlišný od počtu žáků, kteří změní svůj postoj negativním směrem. Závěr: Výuka má pozitivní vliv na postoj žáků vzhledem k provozování sportu. Postoj po výuce + - Postoj před výukou + 5 3 8 - 16 2 18 21 5 26 Tabulky: H0 zamítnuta Stupně volnosti logo-IBA Řešení v softwaru Statistica: McNemarův test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Na záložce Options zaškrtneme McNemar (2x2) • • Výstupní tabulka Datový soubor Výstupní kontingenční tabulka 2 hodnoty testových statistik a p-hodnoty, podle toho, kde jsou ve výstupní kontingenční tabulce uloženy četnosti, u kterých jsme při opakovaném měření zaznamenali rozdílné výsledky (A/D nebo B/C) logo-IBA Analýza kontingenčních tabulek na webu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek •2x2 tabulky: http://graphpad.com/quickcalcs/contingency1/ • •2x3 tabulky: http://www.vassarstats.net/fisher2x3.html • •2x5 (nebo menší) tabulky: http://www.quantitativeskills.com/sisa/statistics/fiveby2.htm •3x3 tabulky: http://vassarstats.net/fisher3x3.html • • logo-IBA Společný příklad – testování homogenity Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Očkování proti chřipce se zúčastnilo 460 dospělých, z nichž 240 dostalo očkovací látku proti chřipce a 220 dostalo placebo. Na konci experimentu onemocnělo 100 lidí chřipkou, 20 z nich bylo z očkované skupiny a 80 z kontrolní skupiny. Je to dostatečný důkaz, že očkovací látka byla účinná? Nulová hypotéza: Procento výskytu chřipky je v očkované a kontrolní skupině stejné. 1. Vytvořte si na základě zadání datový soubor v softwaru STATISTICA (agregovaná data ve formě kontingenční tabulky). 2. Testujte platnost nulové hypotézy pomocí Pearsonova chí-kvadrát testu. 3. Testujte platnost nulové hypotézy pomocí Fisherova exaktního testu. 4. Který z testů je vhodné použít a proč? logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Korelace a regrese Pearsonův korelační koeficient Spearmanův korelační koeficient Základy korelační analýzy logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Proč hodnotit vztah dvou spojitých veličin? —Vztah mezi dvěma spojitými veličinami v jedné skupině: — 1.Chceme zjistit, jestli mezi nimi existuje vztah – např. jestli vyšší hodnoty jedné veličiny znamenají nižší hodnoty jiné veličiny, 2.Chceme predikovat hodnoty jedné veličiny na základě znalosti hodnot jiných veličin, 3. 3.Chceme kvantifikovat vztah mezi dvěma spojitými veličinami –např. pro použití jedné veličiny na místo druhé veličiny. logo-IBA Korelační a regresní analýza —Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých proměnných. Obdobně jako jiné statistické metody, i korelace mohou být parametrické nebo neparametrické. — —Regresní analýza vytváří model vztahu dvou nebo více proměnných, tedy jakým způsobem jedna proměnná (vysvětlovaná) závisí na jiných proměnných (prediktorech). Regresní analýza je obdobně jako ANOVA nástrojem pro vysvětlení variability hodnocené proměnné. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina logo-IBA Základní rozhodování o výběru statistických testů - korelační analýza Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýběrový t-test Párový t-test Dvouvýběrový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Wilcoxonův / znaménkový test Wilcoxonův / znaménkový test Mannův-Whitneyho / mediánový t. Kruskalův-Wallisův test / mediánový t. Jednovýběrový binomický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita E. Janoušová, L. Dušek logo-IBA Vizuální hodnocení vztahu dvou proměnných —Nejjednodušší formou je bodový graf (x‐y graf), tzv. scatterplot. — —Vztah výšky a váhy studentů Biostatistiky pro matematické biology – jaro 2010: Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina logo-IBA Korelace Korelace – vztah (závislost) dvou znaků (parametrů) Y2 X1 Y 2 X 1 Y2 X1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina logo-IBA Korelační koeficienty —Korelační koeficient (r) – kvantifikuje míru vztahu mezi dvěma spojitými veličinami (X a Y). — ØPearsonův korelační koeficient – parametrický, hodnotí míru lineární závislosti mezi 2 spojitými proměnnými, ØSpearmanův korelační koeficient – neparametrický, hodnotí míru pořadové závislosti mezi 2 spojitými proměnnými. ØHodnota r je kladná, když vyšší hodnoty X souvisí s vyššími hodnotami Y, naopak hodnota r je záporná, když nižší hodnoty X souvisí s vyššími hodnotami Y. ØNabývá hodnot od -1 do 1: ¢ r = 0 → nekorelované r > 0 → kladně korelované r < 0 → záporně korelované Ø Ø • — — Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina logo-IBA Test hypotézy H0: r = 0 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina —K měření těsnosti lineárního vztahu 2 spojitých proměnných r = 0 → nekorelované r > 0 → kladně korelované r < 0 → záporně korelované — —H0: proměnné X, Y jsou nezávislé náhodné veličiny (r = 0) HA: proměnné X, Y nejsou nezávislé náhodné veličiny (r ≠ 0) — —Testování pomoc intervalu spolehlivosti nebo výpočet testové statistiky (srovnání s kritickou hodnotou nebo výpočet p-hodnoty) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Problémy s výpočtem r Problém více skupin Nelineární vztah X Y X r = 0,981 (p < 0,001) r = 0,761 (p = 0,032) Y Problém velikosti výběru Y X Y X r = 0,891 (p = 0,214) r = 0,212 (p = 0,008) logo-IBA Řešení v softwaru Statistica: Pearsonův korelační koeficient I Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Prozkoumejte lineární vztah mezi výškou a váhou u 13 studentů. Testujte hypotézu, že jsou tyto proměnné nezávislé. 1.Záložka Statistics 2. 2.Basic Statistics 3. 3.Correlation matrices 4. 4.Potvrdíme: OK logo-IBA Řešení v softwaru Statistica: Pearsonův korelační koeficient II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina 5. Vybereme spojité proměnné pro hodnocení vztahu (váha a výška). Na záložce Options můžeme vybrat formu výstupu (pouze p-hodnoty, matice korelačních koeficientů a p-hodnot ap.). 6. Summary: Correlations Jedna z možných výstupních tabulek: p-hodnota < 0,05 - test hypotézy H0: r = 0, lze vypsat i konkrétní hodnotu (změna formy výstupu na záložce Options) Pearsonovy korelační koeficienty logo-IBA Řešení v softwaru Statistica: Pearsonův korelační koeficient III Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Záložka Quick / Advanced umožňuje vykreslit různé druhy grafů (2D, 3D v případě více proměnných, matice bodových grafů s histogramy na diagonále ap.). Jsou v daném případě splněny předpoklady (dvourozměrné normální rozdělení, absence odlehlých pozorování, lineární vztah)? Na záložce Color maps můžeme získat matici korelačních koeficientů (nebo příslušných p-hodnot) obarvenou dle odpovídající barevné škály. Vhodné zejména při zkoumání vztahů mezi více spojitými proměnnými. logo-IBA Řešení v softwaru Statistica: Spearmanův korelační koeficient I Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Prozkoumejte pořadový vztah mezi výškou a váhou u 13 studentů. Testujte hypotézu, že jsou tyto proměnné nezávislé. 1.Záložka Statistics 2. 2.Nonparametrics 3. 3.Correlations 4. 4.Potvrdíme: OK logo-IBA Řešení v softwaru Statistica: Spearmanův korelační koeficient II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina 5. Výběr proměnných – Variables – Select variables (vyska, vaha) – OK 6. Pod možností Compute můžeme vybrat formu výstupu (čtvercová matice - Square matrix, příp. detailní výsledky). 7. Lze vykreslit i matici bodových grafů s histogramy na diagonále (Scatterplot matrix for all variables). Jedna z forem výstupní tabulky: p-hodnota <0,05 - test hypotézy H0: r = 0, lze vypsat i konkrétní hodnotu Spearmanovy korelační koeicienty logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Testování nezávislosti Testování homogenity Samostatný úkol logo-IBA 1. Příklad k procvičení 1.Testujte hypotézu, že barva vlasů a barva očí spolu nesouvisí. K dispozici jsou údaje od 6 800 mužů (Yule, G. U., Kendall, M.G.: An Introduction to the Theory of Statistics, 14th ed. Griffin, London, 1950). 2.Vypočítejte Cramérův koeficient a interpretujte jej. Světlá Kaštanová Černá Zrzavá Světla modrá 1768 807 189 47 2811 Šedá nebo zelená 946 1387 746 53 3132 Tmavohnědá 115 438 288 16 857 2829 2632 1223 116 6800 Nezapomeňte ověřit podmínky dobré aproximace! logo-IBA 2. Příklad k procvičení A B 0 AB Celkem Eskade 33 6 56 5 100 Annandale 54 14 52 5 125 Nithsdale 98 35 115 5 253 Celkem 185 55 223 15 478 1.Ve Skotsku byla provedena studie, která měla prokázat, zda procentuální zastoupení krevních skupin na celém území je homogenní nebo není. V oblasti Eskdale bylo náhodně vybráno 100 osob, v Annadale 125 osob a v Nithsdale 253 osob (Osborn J. F. , 1979, Statistical Exersice in Medical Research, Blackwell Scientific publications, Oxford) logo-IBA Výsledky k samostatnému úkolu Testování nezávislosti Testování homogenity logo-IBA 1. Příklad k procvičení 1.Testujte hypotézu, že barva vlasů a barva očí spolu nesouvisí. K dispozici jsou údaje od 6 800 mužů (Yule, G. U., Kendall, M.G.: An Introduction to the Theory of Statistics, 14th ed. Griffin, London, 1950). 2.Vypočítejte Cramérův koeficient a interpretujte jej. 3. 3. Výsledky: chí-kvadrát = 1073,51 P < 0,01 … na hladině významnosti zamítáme nulovou hypotézu o nezávislosti barvy očí a barvy vlasů (před provedením testu jsme zkontrolovali podmínky dobré aproximace), Cramérův koeficient = 0,28 … mezi barvou očí a barvou vlasů je slabá závislost. logo-IBA 2. Příklad k procvičení 1.Ve Skotsku byla provedena studie, která měla prokázat, zda procentuální zastoupení krevních skupin na celém území je homogenní nebo není. V oblasti Eskdale bylo náhodně vybráno 100 osob, v Annadale 125 osob a v Nithsdale 253 osob (Osborn J. F. , 1979, Statistical Exersice in Medical Research, Blackwell Scientific publications, Oxford) 2. Výsledky: chí-kvadrát = 10,454 P = 0,107 … nelze zamítnout nulovou hypotézu, že procentuální zastoupení krevních skupin na celém území je homogenní / stejné (před provedením testu jsme zkontrolovali podmínky dobré aproximace). 1.