MU INSTITUT BIOSTATISTIKY A ANALÝZ I RA Lékařská a Přírodovědecká fakulta, Masarykova univerzita i http://www.iba.muni.cz O http://www.iba.muni.cz/vyuka Základní biostatistika • Pokrytí základních oblastí analýzy biologických dat: - Způsoby ukládání dat, typy dat a jejich statistický popis - Hypotézy o datech a jejich testování - Vztahy proměnných a jejich statistické hodnocení - Predikce a příčinné vztahy proměnných - Grafické zobrazení dat a výsledků analýz - Příklady aplikace na reálných datech - Přehled základních statistických SW - Složitější metody statistické analýzy - přehled metod MU INSTITUT BIOSTATISTIKY A ANALÝZ I RA Lékařská a Přírodovědecká fakulta, Masarykova univerzita i http://www.iba.muni.cz O http://www.iba.muni.cz/vyuka BIOSTATISTIKA - BIOMETRIKA Věda zabývající se hodnocením biologických dat = záznamů o biologických systémech a jejich chování Malá data Velká data Obrovská data Umění prodat Umění pochopit Umění uchopit DATA - ukázka uspořádání datového souboru Parametry (znaky) Pacient Človek aLeu aTy% aSe% al\leu% al_y% aTy aSe aNeu al_y aHtc aCLsk aCLNeus aCLOZ aCLNeuO cell. 107 % % % % cell. 107 cell. 107 cell. 107 cell. 107 % mV.s.103 mV.s.103 mV.s.103 mV.s.103 3 1 4 33 72 32 4 2 7,6 8 58 66 24 0,6 4,4 5,0 1,8 33 95 19 48 10 8 3 4 3 52 55 40 0,1 2,1 2,2 1,6 22 77 35 33 15 11 4 6,1 5 59 64 35 0,3 3,6 3,9 2,1 33 103 26 49 13 12 5 6,9 3 85 88 9 0,2 5,9 6,1 0,6 37 81 13 45 7 14 6 5,9 15 55 70 19 0,9 3,3 4,1 1,1 32 137 33 61 15 16 7 8 18 75 93 7 1,4 6,0 7,4 0,6 34 151 20 59 8 20 8 9,6 3 72 75 23 0,3 6,9 7,2 2,2 40 77 11 38 5 21 9 6 10 67 77 19 0,6 4,0 4,6 1,1 32 120 26 52 11 22 10 3,3 4 55 59 39 0,1 1,8 2,0 1,3 28 81 42 24 12 37 11 3,8 10 60 70 30 0,4 2,3 2,7 1,1 32 111 42 29 11 38 12 6,4 2 76 78 17 0,1 4,9 5,0 1,1 25 366 73 115 23 39 13 6,8 1 57 58 39 0,1 3,9 3,9 2,7 20 234 59 71 18 49 14 8,5 7 67 74 26 0,6 5,7 6,3 2,2 30 156 25 108 17 51 15 9,3 7 57 64 35 0,7 5,3 6,0 3,3 35 129 21 23 4 52 16 2,2 10 56 66 34 0,2 1,2 1,5 0,7 33 46 30 12 8 55 17 9,9 3 78 81 10 0,3 7,7 8,0 0,1 30 189 24 140 18 56 18 5 2 80 82 13 0,1 4,0 4,1 0,7 26 101 25 54 13 6 1 8,8 11 72 83 12 1,0 6,3 7,3 1,1 44 268 36,6 145 19,9 9 2 9,2 2 66 68 28 0,2 6,1 6,3 2,6 42 168 26,9 76 12,2 13 3 10,0 7 83 90 8 0,7 8,3 9,0 0,8 54 181 20,1 81 9 15 4 9,6 1 75 76 23 0,1 7,2 7,3 2,2 45 343 47 124 16,9 17 5 6,0 45 40 21 19 6 7,2 2 78 80 18 0,1 5,6 5,8 1,3 44 103 17,8 63 10,9 24 7 8,2 1 72 73 25 0,1 5,9 6,0 2,1 41 209 34,9 57 9,6 26 8 10,3 1 85 86 3 0,1 8,8 8,9 0,3 41 364 41,1 112 12,6 29 9 5,0 1 74 75 21 0,1 3,7 3,8 1,1 39 83 22,1 32 8,5 30 10 11,9 1 51 52 47 0,1 6,1 6,2 5,6 33 83 13,4 52 8,4 31 11 7,2 3 53 56 29 0,2 3,8 4,0 2,1 28 109 27,1 63 15,5 32 12 10,8 36 50 76 8 3,9 5,4 9,3 0,9 27 146 15,7 106 11,4 33 13 11,8 22 54 76 16 2,6 6,4 9,0 1,9 45 246 27,4 63 7 34 14 17,0 1 82 83 16 0,2 13,9 14,1 2,7 34 440 31,2 119 8,4 40 15 10,0 8 72 80 4 0,8 7,2 8,0 0,4 37 176 22,0 52 6,5 BIOSTATISTIKA - BIO METRI K A Pacient Človek aTy% aLy% aTy Data 3,8 5,4 6,4 13,9 7,2 aCLsk mV.s.103 72 aCLNeus mV.s.103 aCLOZ mV.s.103 32 aCLNeuO mV.s.103 1.0 0.8 0.6 0.4 0.2 0.0 I_______I 1,600 ZZ 1,800 ZZ 2,000 ZZ 2,200 ZZ 2,400 ZZ 2,600 ZZ 2,800 ZZ 3,000 I I 3,200 I I 3,400 I I above 0,000 £J EJ EJ CZ! 1,500 í 4000 3JMD 1 ■..:iiii | 3500 6J0OO f 7.SU0 E 9M0 10,500 2S00 12,000 ">«"> 3000 sktvt DivkipriH 100 200 300 400 Schopnost: vidět data - komunikovat - interpretovat - prodávat BIOSTATISTIKA - BIOMETRIKA Věda zabývající se variabilitou opakovaných /\/\y LL\ chyba chyba = nepřesnost modelu Data 2,1 2,8 3,2 1,2 5,2 2,9 l o A A 165 cm 140 cm 182 cm 163 cm rozptyl znaku, přirozená variabilita i VsJľJíLbjJjísJ v 3 zkkiílhš j i biologických společenstev j DRUH 1 15 DRUH 2 30 DRUH 3 40 DRUH 4 14 * j biodiverzita /\ Pojem VARIABILITA má mnoho významů .... a ty urcuji prístup kjejimu hodnocení Maskovania minimalizace vlivu Respektovaní a odhadování vlivu Přímé využití k predikcím cho vání systému ^^^^^ Variabilita ^ j = základ „biologického principu neurčitosti" Hh existuje pravděpodobnost výskytu jevů (nedeterministické závěry) <}> „vše je možné": pouze jev s pravděpodobností 0 nikdy nenastane <{> pravděpodobnost lze zkoumat retrospektivně i prospektivně pravděpodobnost výskytu Á Cf)íxt k PlOC\a = PravděP°d°bnOSt 9 W t \ výskytu počet chlapců v rodině s X dětmi výška postavy BIOSTATISTIKA - BIO METRI K A > > > > > > > > > > > > > > > > > > > > Věda přinášející novou kvalitu Popisná analýza dat („exploratorní" analýzy) Data mining („investigativní" analýzy) Srovnávací analýzy, testy hypotéz Experimentální plány („experimental design") QA/QC Stochastické modelování, hodnocení prognóz Vícerozměrné analýzy, „pattern recognition" Analýza biodiverzity (species community associations,....) Analýza časových řad, analýzy trendů Analýza biomedicínských dat Experimentálni design: nezbytná výbava Účel analýzy: Popisný cílová populace •• • — \\i/ výběr dle optimálního plánu i reprezentativní vzorek n jedinců (faktor F) * měření znaku OOooOOOoOo ...............variabilita hodnot........... ve výběrovém souboru VÝSLEDKY .................... o > 0 o Q. -•—■" O > '■*—» CO -•—» (U N (U s_ Q. (D >LU > < N Reprezentativnost Spolehlivost Přesnost -ó ... analyzovaný znak cílové populace (X) ... jiný významný faktor charakterizující cílovou populaci (F) Experimentálni design: nezbytná výbava Účel analýzy: Srovnávací (2 ramena) cílová populace \ W// výběr subjektů pro vstup do hodnocení / studie V- J -----------Y---------------- RANDOMIZACE vzájemně srovnatelné vzorky (faktor F) rameno k*^^"^ ^"^ rameno B měření znaku X OooOO oOoOo <.........................................\ variabilita hodnot X v rameni B VÝSLEDKY................................ variabilita hodnot X v rameni A 4 < 0 co i ° 2 > -I—» s- CO "° c N rfi - (D •f-> i— 00 Q_ O (D C i- Q. - O c .C U O 00 (0 CO 00 £ ° O c ^ 05 il •gm < N ■*® oO ... analyzovaný znak cílové populace (X) ... jiný významný faktor charakterizující cílovou populaci (F) Srovnatelnost Spolehlivost Přesnost Stochastické modelování: predikce neurčitých jevů ^ Prospektivně - modelově - postihuje chování jevů při respektování variability Pravděpodobnostní vztahy Anamnéza x Výsledek vyšetření pacienta Pozitivní anamnéza Negativní anamnéza Karcinom 2,22 1,06 Benigní leze 34,44 28,23 Benigní riziková 0,00 0,96 Zdravá 63,33 69,75 100% 100% p < 0.05 Markovovy řetězce P(ii-iii) Stav II Stav III P(III-IV) Stav IV Pd-ii) Stav I Vícerozměrná diskriminace ZnakX i ■.OÖ u o ; OB g \ 6Kä3 o' 5K» O Znak X2 Logistické modely ZnakX Funkční vztahy znaků Znak Y Znak Y ZnakX ZnakX Chování systému v čase Znak (y) Cas (t) Stochastické modelování: predikce neurčitých jevů OsaX hirametr nebo kombinace parametrů Data konkrétních pacientů (subjektů) k přímému hodnocení Pravděpodobnostní prediktivní modely Maligní lymfomy: Pravděpodobnost časného reiapsu Stádium I - II 0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Stádium III - IV 1.0 i % Grade O Grade 2 1 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Index Mitosis / (Apoptosis + 0.5) Schopnost: vytvářet prakticky využitelné nástroje 15 Vícerozměrné vnímání skutečnosti - nová kvalita analýzy dat skupina 1 oo ° skupina 2 Vícerozměrný systém / X2 j X2 H—► l + í Klasická lednorozměrn analýza í—► skup. 1 skup. 2 skup. 1 skup. 2 76 Biologové analýzou dat proti variabilitě nebojují 4- A yAiiiAü'lLrrA INFORMACE Bezna sumarizace dat „likviduje individualitu jedince Průměr ± SE BĚŽNÁ STATISTICKÁ SUMARIZACE s Zpřehlednění dat s Neodlišípůvodní měření Vícerozměrné hodnoceni e *pT jí, ... s ohledem na individualitu ! Xi x: • ••• V- • • •• •• • • • ••• • • • • • -• Vícerozměrné hodnocení - nová kvalita Pouze kombinované parametry mají odpovídající informační sílu v BBB bb# bb A r B B B A BBRBB. A aAA B BBb . \ AA*A \\' AA A v *^ AA \ ± S X, příklad: X1 = 20 Vícerozměrné hodnocení vychází z jednoduchých principů příklad: vícerozměrná vzdálenost měření mezi dvěma objekty (body) D — ^22 ™ ^21 "" ^2 21 Vícerozměrné modelování je strategickou disciplínou Xi kn *n+: technicke parametry automobilu řidičovy schopnosti a jeho stav [> H>+i rychlost, povrch, situace MU INSTITUT BIOSTATISTIKY A ANALÝZ I RA Lékařská a Přírodovědecká fakulta, Masarykova univerzita http://www.iba.muni.cz O http://www.iba.muni.cz/vyuka Zásady pro ukládání dat Správné a přehledné uložení dat je základem jejich pozdější analýzy Je vhodné rozmyslet si předem jak budou data ukládána Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky - Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce (např. rozepsané taxonomické zařazení, abundance, místo a vlastnosti odběru atd.) Taxon Abundance Lokalita etc. X 1 Takto uspořádaná data je v tabulkových nebo databázových programech možné převést na libovolnou výstupní tabulku Grafická prezentace dat - umem komunikace 1. Výskyt kategorií (1, 2, 3,) Sloupcový graf H Řada2 Sloupcový graf H Řada2 2ř 4° >o O Q. -5 20 O .O < % 100 50 2. Vývoj hodnot (v čase) Y vs. X (t) Spojnicový graf _ Rada Bodový graf -Rada 30 15 1 2 3 10 20 X 0 5 10 15 20 25 X Koláčový (výsečový) gra 40% 30% Plošný graf Rada2 ^Grafická prezentace dat - umění komunikace 3. Vztahy mezi proměnnými - korelace X1 Bodový - korelační diagram i*" 4> X1 1 2 3 10 20 X2 0 5 10 15 20 25 X2 X1 1 2 3 10 20 X2 Rada2 f' V _j X2 Bodový - korelační diagram 3 o%. *8 o jkB lnl.Hi =°v 3» 1 ■»'íl • Q 3 0 cP ° (P O » S O.» C , 0 JífflT V 4 i D (f D D C % OO c irim... 3.ff. „>°°°? "„ i .lift.. no Q q r 0(3 °t)0 Oto 3ft) o ° r III... Grafická prezentace dat - umem komunikace 4. Kvantitativní hodnoty parametru(ů) -X-v rámci kategorií A, B, C Krabicový graf Sloupcový graf 5. Histogram 50 100 150 200 250 300 27 W Grafická prezentace dat - umem komunikace 6. Zviditelnění primárních dat Al A2 A3 r ~\ r ~\ r "> n ^ y k. j v. j 6955 Grafická prezentace dat - umění komunikace . 7. Vztahy mezi proměnnými - interakce dvou parametrů, reakční plochy ^Grafická prezentace dat - umem komunikace 8. Grafické zviditelnění má nekonečně mnoho možností ooooooooo ooooooooooooooooooooo I BUNKY2 I BUNKY1 I ENZYM2 900 700 500 300 100 -100 MM BUNKY2 Hü BUNKY1 ffiffl ENZYM2 C mmmmmmmmmL • • ^^ ' +jfS^ •* ».*.......... 5 10 15 20 25 30 35 40 45 50 Case 9Case ^se 7 Case 10, Case 11 Case 27 'Case 26 Case28ase2§ase^ Üü BUNKY2 iH BUNKY1 ITTTTTTT1 ENZYM2 Case j ťo i ík^/í*.'^; íy;.:Cntfi oB-priei ■>. ■fgL ^;:f:W.JÉjMto fortoffetfcA l-ri''"' * -.V. ví í :."""■*-'' '.'■.^"~> i-? -''..'"^-*;'•. > "-i i. ■- ■■.Mi,i..;^,,.>- ..- 4 v^-~».» :io,~ r* — j Q ŕ——^- im p ■ ii Íri ■•-■»>-ii-vdfc v ■ -r :^.x^y^. :^^m íľ3 :» -■tŕ~Xi?. 3r&-:tl n 0.3-i 0.2- 4 I 0.2- < > ( 0.1 ■ 0- i i ------•- < » 0.1 -0- < • • • 0 12 3 4 5 6 _f_ n °-3 0.2 0.1 n = oo 0 12 3 4 5 6 0 12 3 4 5 6 možné jevy: čísla 1-6 n - počet hodů (opakování) U složitých stochastických systémů se pravda získá až po odvedení značn množství experimentální práce: musíme dát systému šanci se projevit JAK vznikají informace ? Empirický postup • • 0 12 3 4 5 6 f n = 10 f n = 50 f n = oo n 0.3-i 4 • n 0.3-i n 0.3-i 0.2- 4 I 0.2- <» i» 0.2- 0.1 ■ 0- t i ------•- 1 I 0.1 -0- • • • • 0.1 -0- 0 12 3 4 5 6 0 12 3 4 5 6 možné jevy: čísla 1-6 n - počet hodů (opakování) Při realizaci náhodného experimentu roste se zvyšujícím se počtem opakování pravdivá znalost systému (výsledky se stávají stabilnější) .... diskutabilní je ale ovšem míra zobecnění konkrétního experimentu ^r Empirický zákon velkých čísel Při opětovné nezávislé realizaci téhož náhodného experimentu se podíl výskytů Iledovaného jevu mezi všemi dosud provedenými realizacemi zpravidla ustaluje kolem lonstanty. Pravděpodobnost je libovolná reálná funkce definovaná na jevovém poli A, která každému jevu A přiřadí nezáporné reálné číslo P(A) z intervalu 0 -1. Z praktického hlediska je pravděpodobnost idealizovaná relativní četnost 0 + 1 P (A) = 1 .................................jev jistý P (A) = 0.................................jev nemožný P (A n B) = P (A). P (B)............. nezávislé jevy P (A n B) = P (A). P (B/A) ...........závislé jevy P (A / B) = P (A n B) / P (B)..........podmíněná pravděpodobnost 40 MU INSTITUT BIOSTATISTIKY A ANALÝZ I RA Lékařská a Přírodovědecká fakulta, Masarykova univerzita i http://www.iba.muni.cz O http://www.iba.muni.cz/vyuka Jak vznikají informace ? - různé typy dat znamenají různou informaci Data poměrová Data intervalová Kolikrát ? ■ ^|^H m Spojitá data 0 kolik ? i ^■^^ Data ordinální Vetsi, menši Data nominální 7 Kategoriální otázky chrni Rovná 3S ? I Otázky „Ano/Ne" Podíl hodnot vetsi/mensi než specifikovaná hodnota ? Procenta odvozené hodnoty Samotná znalost typu dat ale na dosažení informace nestačí 42 Jak vznikají informace ? - různé typy dat znamenají různou informaci Statistika středu Data poměrová PRUMER Data intervalová Data ordinální MEDIAN Data nominální MODUS Spojitá data D is kre data Y = f X 43 ^ JAK vznikají informace ? ^ - opakovaná měření informují rozložením hodnot Y: frekvence - absolutní / relativní \—w—h -X A B C D E IV V Diskrétní data CO se naměřilo *♦* X: měřený znak Spojitá data Odvozená data D Příklad I: Příklad II Pozor na odvozené indexy ZnakX: Hmotnost Znak Y: Plocha X: Průměrný počet výrobků v prodejně Y: Odhad prostoru průměrně nabízeného k vystavení výrobku průměr ; (min - max) X: 1,2 : (1,15-1,24) Y: 1,8 : (1,75-1,84) + / - 3,8 % + / - 2,5 % (115 1 24 \ + / - 6,2 % Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená/ v— ■"* 45 Jak vznikají informace ? frekvenční tabulka jako základní nástroj popisu DISKRÉTNÍ DATA o O O x— II Q. "O O .N Q. (D £> O Primárni data o o 1 2 1 1 3 1 1 2 r 1 Frekvenční sumarizace L. N: 100 dětí (hemofiliků) x: znak: počet krvácivých epizod za měsíc x n(x) P(x) N(x) F(x) 0 20 0,2 20 0,2 1 10 0,1 30 0,3 2 30 0,3 60 0,6 3 40 0,4 100 1,0 n = 100 n(x) - absolutní četnost x p(x) - relativní četnost; p(x) = n(x) / n N(x) - kumulativní četnost hodnot nepřevyšujících N(x) = 2 n(t) t Intervalová hustota četnosti F(x) í> Intervalová relativní kumulativní četnost Histogram = standardní nastroj zviditelnění spojitých dat 1^| DataX: 14,1; 8,4; 12,1; 18,2; 20,4;.........77ň 2 | Setřídění dat podle velikosti 3 | Kategorizace hodnot X - vytvoření intervalů ► ► Frekvenční tabulka Histogram "Absolute frequency histogram" f(x) = *BL díl) II Relative frequency histogram" f/„i _ nílWn TW d(l) 50 Y Spojitá data - postup frekvenčních analýz \ Aktivita enzymu (X) • I. Utřídit podle velikosti • II. Rozdělit do intervalů o rozumné šířce • III. Vyhodnotit počty hodnot v jednotlivých intervalech - absolutní četnosti • IV. Vyhodnotit podíly (relativní četnosti) hodnot v jednotlivých intervalech • V. Grafické znázornění - histogram f(x) n ■ ■ u Aktivita Počet intervalů X: dán daty a hodnotitelem Šířka intervalů: pokud možno stejná Počet zvolených tříd a velikost souboru určují kvalitu výstupu 5 4 3 2 1 0 f 1 0 tříd k = 5 tříd 8 7 6 5 4 3 2 1 0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 12 3 4 5 5 4 3 2 1 0 k = 20 tříd 1,0 2,0 3,0 4,0 5,0 52 Histogram vyjadřuje tvar výběrového rozložení Príklad: vek účastníku vazných dopravních nehod o o c d) >a> > u o O Q. 0) O c 350 300 250 200 150 100 50 0 Správný histogram ? 35 30 25 20 15 10 5 0 0 10 20 30 40 50 60 70 Věk (roky) 80 1- " Správný histogram ? Věk f 0-4 28 5-9 46 10-15 58 16-19 20 20-24 114 25-59 316 >60 103 0 10 20 30 40 50 60 70 80 Věk (roky) ■v r Pojem ROZLOŽENI - příklad spojitých dat \ Rozložení Distribuční funkce J Je - li dána distribuční funkce, je dáno rozložení 55 Výběrové rozložení hodnot lze modelově popsat Y a definovat tak pravděpodobnost výskytu X fW cp(x) f(x) f(x) Distribuční funkce jako užitečný nástroj pro práci s rozložením Plocha = relativní četnost oo fy(x) d(x) = 1 P(X,-2,0f rozptyl (s2) = jd _ j=! n-í = 0,766 sm. odchylka (s) = v í = ,0,766 = 0,875 * Je předpoklad normálního rozložení oprávněný ? Jaký předpokládáte možný rozsah hodnot tohoto znaku ? 66 Normálni rozloženi jako model /. Použitelnost modelu B) X: spojitý znak - hmotnost jedince (myši) 1,2; 1,4; 1,6; 1,8; 2,0; 2,2; 2,4; 3,8; 8,9 n = 9 opakování medián = 2 pru jmer=-Ex^oZx^Q(1'2+1'4 + 1'6+1'8+2'0 + 2'2 + 2'4+3'8 + 8'9) = -25,3 = 2,8 n Yjx,-xf 2>,-2,8l)2 rozptyl (s2) = m = M =5 79 n-\ 8 sm. odchylka (s) = -Jsz = /5,79 = 2,269 i Jak hodnotíte model u těchto dat ? ' Stochastické rozloženi jako model Předpoklad: Znak x je rozložen podle daného modelu y Znak x je naměřen o n hodnotách s modelovými parametry: "x a s m ^ Platnost \f} modelu ? Znak x je převeden na formu odpovídající tabulkovému standardu: /a r^ Využije se tabelovane (modelové) distribuční funkce pro testy o rozložení hodnot x 68 Normální rozložení jako model - příklad Tabulky distribuční funkce • Data z průzkumu jsou publikována jako: Kosti prehistorického zvířete: n = 2000 průměrná délka = 60 cm srn. odchylka (s) = 10 cm y Předpokládáme, že je oprávněný model normálního rozložení ^ Jaká je pravděpodobnost, že by velikost dané kosti překročila velikost z = X - /J 9 m 66 cm: P (x > 66) ? p{x>66)=\-P{x<66) a platí, že P{x 66) = 1 -P(x < 66) = 1 -P(x^n < 66~60) = 1 -F(0,6) = 0,27425 s 10 Kolik kostí mělo zřejmě délku větší než 66 cm ? ^>66)*« = 0,27425*2000 = 548 Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ? P(60 100) se limitně blíží k normálnímu rozložení. Pearsonovo Stupně volnosti -uvažuje velikost vzorku Slouží především k porovnání četností jevů ve dvou a více kategoriích. Používá se k modelování rozložení odhadu rozptylu normálně rozložených dat. Fisher-Snedecorovo Dvojí stupně volnosti -uvažuje velikost dvou vzorků Používá se k testování hodnot průměrů - F test pro porovnání dvou výběrových rozptylů; F test, ANOVA atd. 71 Log-normální rozložení jako častý model reálných znaků cp(x) Medián Průměr U asymetrických rozložení je medián velmi vhodným alternativním ukazatelem středu Medián - frekvenční střed • • • • • • • • Prumer - teziste osy x 72 Log-normalni rozloženi lze jednoduše transformovat Y = Ln [X] Medián Průměr x ln(x) Medián = Průměr / EXP (Y) = Geometrický průměr X __ n y Y ± Standardní chyba r Transformace dat - legitimní úprava rozložení y Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu Logaritmická transformace i Logaritmická transformace je velmi vhodná pro data s odlehlými hodnotami na horní hranici rozsahu. Při porovnání průměrů u více souborů dat je pro tuto transformaci indikující situace, kdy se s rostoucím průměrem mění proporcionálně i směrodatná odchylka, a tedy jednotlivé proměnné mají stejný koeficient variance, ačkoli mají různý průměr. Za takovéto situace přináší logaritmická transformace nejen zeslabení asymetrie původního rozložení, ale také vyšší homogenitu rozptylu proměnných. Pro transformaci se nejčastěji používá přirozený logaritmus a pokud jsou v původním souboru dat nulové hodnoty, je vhodné použít operaci Y = In (X+1). Je-li průměr logaritmovaných dat (tedy průměrný logaritmus) zpětně transformován do původních hodnot, výsledkem není aritmetický, ale geometrický průměr původních dat / Transformace dat - legitimní úprava rozložení Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu Odmocninová transformace Transformace je vhodná pro proměnné mající Poissonovo rozložení, tedy proměnné vyjadřující celkový počet nastání určitého jevu (spíše vzácného) v n nezávisle opakovaných pokusech. Obecněji lze tento typ transformace doporučit v případě normalizace dat typu počtu jedinců (buněk, apod.). Jde o transformaci: 7 = VX nebo Y = 4x + \ nebo Y=^fx+^fx+l Transformace s přičtenou hodnotou 1 jsou efektivní, pokud X nabývá velmi malých nebo nulových hodnot. Situace indikující vhodnost odmocninové transformace je také proporcionalita výběrového rozptylu a průměru, tedy obecně jestliže s2x = k (výběrový průměr). Transformace dat - legitimní úprava rozložení Arcsin transformace Tzv. úhlová transformace - velmi vhodná pro data typu podílů výskytu určitého jevu (znaku) mezi n hodnocenými jedinci - tedy pro data mající binomické rozložení. Pokud se určitý znak vyskytuje r-krát mezi n možnostmi (jedinci, opakováními), pak lze vyjádřit relativní četnost jeho výskytu jako p = r/n s variabilitou p.(1-p)/n. Arcsin transformace odstraní ze souborů dat podíly blízké 0 nebo 1, a tak efektivně sníží variabilitu odhadů středu. Transformace však není schopná odstranit variabilitu vyvolanou rozdílným počtem opakování v jednotlivých variantách - v takovém případě lze doporučit provedení vážených transformací dat. Velmi častou formou této transformace je: . /— / = arcsm ^ p - tedy transformace podílů do hodnot, jejichž sinus je roven druhé odmocnině původních hodnot. Pokud celkový počet jedinců (opakování), mezi kterými je výskyt znaku monitorován, je n < 50, pak lze doporučit velmi efektivní empirická opatření pro transformaci podílů blízkých 0 nebo 1. Pro tento případ lze nahrazovat nulové podíly hodnotou 1/4n a 100 % podíly hodnotou (n-1/4)/n. Pokud se mezi hodnotami vyskytuje větší množství krajních hodnot (menší než 0,2 a větší než 0,8), lze doporučit transformaci: 7 = 1 2 arcsm x n + 1 + arcsm x +1 n + \ 21 MU INSTITUT BIOSTATISTIKY A ANALÝZ I RA Lékařská a Přírodovědecká fakulta, Masarykova univerzita m http://www.iba.muni.cz O http://www.iba.muni.cz/vyuka Rozloženi hodnot jako model Příklad - Normální rozložení N Oifa) Standardizovaná forma N (0,1) Tabelovaná podoba 78 Parametry charakterizující normálni rozložení a jejich význam cp(x) E (X) ~ X ~ jLl D (x) ~ s2 ~ a2 a) b) 2 S a2 ~s2 rozptyl _ Z(x7-x)2 n-\ xi ji x průměr medián c) a ~ s směrodatná odchylka =v. 5 = V S Pravidlo ± 3s d) Interpretace parametru normálního rozložení Parametr středu ■ Parametr šířky I Směrodatná odch. (S.D.) 80 Rozptyl není univerzálním ukazatelem variability ,,_ S(X|-x)2 n-1 X: X X, "I—I—I—I"I F V V neúmerne zvýší s2 s _ 81 Interpretace parametru normálního rozloženi Variační koeficient c (koeficient variance) Př.: 2 soubory dat - koncentrace Zn v rostlinné tkáni Normálni rozloženi jako model /. Použitelnost modelu A) X: spojitý znak - hmotnost jedince (myši) 1,2; 1,4; 1,6; 1,8; 2,0; 2,4; 3.8 n = 7 opakování medián = 1,8 průměr = A^x^^x, -(1,2 + 1,4+ 1,6+ 1,8+ 2,0+ 2,4+ 3,8) = i 14,2 = 2,03 n Yjx,-xf 2>,-2,0f rozptyl (s2) = jd _ j=! n-í = 0,766 sm. odchylka (s) = v í = ,0,766 = 0,875 * Je předpoklad normálního rozložení oprávněný ? Jaký předpokládáte možný rozsah hodnot tohoto znaku ? 83 Normálni rozloženi jako model /. Použitelnost modelu B) X: spojitý znak - hmotnost jedince (myši) 1,2; 1,4; 1,6; 1,8; 2,0; 2,2; 2,4; 3,8; 8,9 n = 9 opakování medián = 2 pru jmer=-Ex^oZx^Q(1'2+1'4 + 1'6+1'8+2'0 + 2'2 + 2'4+3'8 + 8'9) = -25,3 = 2,8 n Yjx,-xf 2>,-2,8l)2 rozptyl (s2) = m = M =5 79 n-\ 8 sm. odchylka (s) = -Jsz = /5,79 = 2,269 i Jak hodnotíte model u těchto dat ? ' Stochastické rozloženi jako model Předpoklad: Znak x je rozložen podle daného modelu y Znak x je naměřen o n hodnotách s modelovými parametry: "x a s m ^ Platnost \f} modelu ? Znak x je převeden na formu odpovídající tabulkovému standardu: /a r^ Využije se tabelovane (modelové) distribuční funkce pro testy o rozložení hodnot x 85 Normální rozložení jako model - příklad Tabulky distribuční funkce • Data z průzkumu jsou publikována jako: Kosti prehistorického zvířete: n = 2000 průměrná délka = 60 cm srn. odchylka (s) = 10 cm y Předpokládáme, že je oprávněný model normálního rozložení ^ Jaká je pravděpodobnost, že by velikost dané kosti překročila velikost z = X - /J 9 m 66 cm: P (x > 66) ? p{x>66)=\-P{x<66) a platí, že P{x 66) = 1 -P(x < 66) = 1 -P(x^n < 66~60) = 1 -F(0,6) = 0,27425 s 10 Kolik kostí mělo zřejmě délku větší než 66 cm ? ^>66)*« = 0,27425*2000 = 548 Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ? P(60 100) se limitně blíží k normálnímu rozložení. Pearsonovo Stupně volnosti -uvažuje velikost vzorku Slouží především k porovnání četností jevů ve dvou a více kategoriích. Používá se k modelování rozložení odhadu rozptylu normálně rozložených dat. Fisher-Snedecorovo Dvojí stupně volnosti -uvažuje velikost dvou vzorků Používá se k testování hodnot průměrů - F test pro porovnání dvou výběrových rozptylů; F test, ANOVA atd. 88 Log-normální rozložení jako častý model reálných znaků cp(x) Medián Průměr U asymetrických rozložení je medián velmi vhodným alternativním ukazatelem středu Medián - frekvenční střed • • • • • • • • Prumer - teziste osy x 89 Log-normalni rozloženi lze jednoduše transformovat Y = Ln [X] Medián Průměr x ln(x) Medián = Průměr / EXP (Y) = Geometrický průměr X __ n y Y ± Standardní chyba r Transformace dat - legitimní úprava rozložení y Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu Logaritmická transformace i Logaritmická transformace je velmi vhodná pro data s odlehlými hodnotami na horní hranici rozsahu. Při porovnání průměrů u více souborů dat je pro tuto transformaci indikující situace, kdy se s rostoucím průměrem mění proporcionálně i směrodatná odchylka, a tedy jednotlivé proměnné mají stejný koeficient variance, ačkoli mají různý průměr. Za takovéto situace přináší logaritmická transformace nejen zeslabení asymetrie původního rozložení, ale také vyšší homogenitu rozptylu proměnných. Pro transformaci se nejčastěji používá přirozený logaritmus a pokud jsou v původním souboru dat nulové hodnoty, je vhodné použít operaci Y = In (X+1). Je-li průměr logaritmovaných dat (tedy průměrný logaritmus) zpětně transformován do původních hodnot, výsledkem není aritmetický, ale geometrický průměr původních dat / Transformace dat - legitimní úprava rozložení Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu Odmocninová transformace Transformace je vhodná pro proměnné mající Poissonovo rozložení, tedy proměnné vyjadřující celkový počet nastání určitého jevu (spíše vzácného) v n nezávisle opakovaných pokusech. Obecněji lze tento typ transformace doporučit v případě normalizace dat typu počtu jedinců (buněk, apod.). Jde o transformaci: 7 = VX nebo Y = 4x + \ nebo Y=^fx+^fx+l Transformace s přičtenou hodnotou 1 jsou efektivní, pokud X nabývá velmi malých nebo nulových hodnot. Situace indikující vhodnost odmocninové transformace je také proporcionalita výběrového rozptylu a průměru, tedy obecně jestliže s2x = k (výběrový průměr). Transformace dat - legitimní úprava rozložení Arcsin transformace Tzv. úhlová transformace - velmi vhodná pro data typu podílů výskytu určitého jevu (znaku) mezi n hodnocenými jedinci - tedy pro data mající binomické rozložení. Pokud se určitý znak vyskytuje r-krát mezi n možnostmi (jedinci, opakováními), pak lze vyjádřit relativní četnost jeho výskytu jako p = r/n s variabilitou p.(1-p)/n. Arcsin transformace odstraní ze souborů dat podíly blízké 0 nebo 1, a tak efektivně sníží variabilitu odhadů středu. Transformace však není schopná odstranit variabilitu vyvolanou rozdílným počtem opakování v jednotlivých variantách - v takovém případě lze doporučit provedení vážených transformací dat. Velmi častou formou této transformace je: . /— / = arcsm ^ p - tedy transformace podílů do hodnot, jejichž sinus je roven druhé odmocnině původních hodnot. Pokud celkový počet jedinců (opakování), mezi kterými je výskyt znaku monitorován, je n < 50, pak lze doporučit velmi efektivní empirická opatření pro transformaci podílů blízkých 0 nebo 1. Pro tento případ lze nahrazovat nulové podíly hodnotou 1/4n a 100 % podíly hodnotou (n-1/4)/n. Pokud se mezi hodnotami vyskytuje větší množství krajních hodnot (menší než 0,2 a větší než 0,8), lze doporučit transformaci: 7 = 1 2 arcsm x n + 1 + arcsm x +1 n + \ 21 Testy o rozložení, grafický průzkum rozložení Normal probability plot -200 200 600 1000 1400 1800 2200 2600 Observed Value Histogram <=3 (3.5;4] (4.5;5] (5.5;6] (6.5;7] (3;3.5] (4;4.5] (5;5.5] (6;6.5] >7 Categorized variable 60 = 40 > ■a > 5 20 J2 o Quantile - Quantile plot OÖ=^ P° -2-10 1 Theoretical Quantile 11 10 9 8 7 6 5 Multiple BW plots —i D Robust Parametric Mixed m Testy o rozložení: Kolmogorov-Smirnov test, Shapiro-Wilks test, %2 test 94 MU INSTITUT BIOSTATISTIKY A ANALÝZ I RA Lékařská a Přírodovědecká fakulta, Masarykova univerzita i http://www.iba.muni.cz O http://www.iba.muni.cz/vyuka Sumární statistika I ZnakX - Medián - kvantily(percentily) I I - horní kvartil - dolní kvartil - Rozsah - mezikvartilová odchylka znaku X O v - prumer -SD, SE - interval spolehlivosti ^r^ Sumární statistika II ^ 'Následuje přehled jednoduchých grafů, které umožňují posouzení normality proměnných. Porovnejte jejich vypovídací schopnost (opět pro proměnné Zn a Pb). Rootgram Rootgram 2.5 c 2 O 5 1.5 > d) i ■o 0.5 0 -0.5 -1 -1.5 -2 20 40 Zn 60 80 c O (O > ■o 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 -0.8 -1 - 1 n i — 10 15 20 Pb Sumární statistika III Hanging Histobars. 0,32 Id) U 0,12 d) > I d) -0,8 -0,28 -0,48 -50 -10 10 30 Zn 0,2 d) ü 0,15 d) ^ 0,1 d) ' 0,05 0 -0,05 -0,1 50 70 90 Hanging Histobars. A fl I* ^ M 'ľ -50 10 20 Pb I 30 98 Sumárni statistika IV Normal Probability Plot Normal Probability Plot 99,9 99 ^r • c d) d) Q. 99,9 99 95 80 50 • • •• y • ^r • Q) > E 3 O 95 80 50 20 • 20 5 • • 5 1 1 0,1 0,1 ( ) 20 40 60 80 Zn 10 15 20 25 30 Pb Sumárni statistika V Frequency Histogram 0,3 g 0,25 d) 3 CT í ■ T4 f \J^ Vit' ii tV, ^ \f é t i [i O ■► 111 Populace Sample Průměr, SD atd. Odhad průměru, SD Ukazatele středu rozložení I Průměr - vhodný ukazatel středu u normálního/symetrického rozložení, kde Xj jsou jednotlivé hodnoty a n jejich počet E(x) = x = V—L Medián - jde vlastně o 50% kvantil, tj. polovina hodnot leží nad a polovina pod mediánem V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné \ Průměr Medián Medián Průměr 105 Ukazatele středu rozložení II. Geometrický průměr - antilogaritmus průměru logaritmovaných dat, je vhodný pro doleva asymetrická data (lognormální rozložení), která jsou v biologii velmi častá, jeho hodnota v podstatě odpovídá mediánu Takto asymetrická data je možné převést logaritmickou transformací na normální rozložení log I Průměr Medián, geometrický průměr Průměr (logaritmovaných dat) 106 Ukazatele sirky rozloženi Rozptyl je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru. 2 y (x. _xf s = n-1 Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení Směrodatná odchylka je druhá odmocnina z rozptylu Koeficient variance - podíl SD ku průměru (u normálního rozložení by se 95% hodnot mělo vejít do průměr ^3 SD), pokud je SD větší než 1/3 průměru jsou teoreticky pravděpodobné záporné hodnoty v rozložení-ukazatel problémů s normalitou dat 107 ^ Ukazatele tvaru rozložení • Skewness - ukazatel „šikmosti" rozložení, asymetrie rozložení • Kurtosis - ukazatel „špičatosti/plochostr rozložení skewness>0 skewness<0 kurtosis<0 kurtosis>0 108 r Další parametry rozložení • Počet hodnot - důležitý ukazatel, znamená jak moc lze na data spoléhat • Střední chyba odhadu průměru - je založena na směrodatné odchylce rozložení a počtu hodnot, vlastně jde o směrodatnou odchylku rozložení průměru. Říká jak přesný je náš výpočet průměru. Čím větší počet hodnot rozložení, tím je náš odhad skutečného průměru přesnější. • Suma hodnot • Modus - nejčastější hodnota, vhodný např. při kategoriálních datech • Minimum, maximum • Rozsah hodnot • Harmonický průměr - převrácená hodnota průměru převrácených hodnot (vždy platí harmonický průměr < geometrický průměr < aritmetický průměr) r Distribuční funkce ^ • Definice kvantilu dle distribuční funkce - Kvantil rozložení (X095) je číslo, jehož hodnota distribuční funkce je rovna pravděpodobnosti, pro kterou je kvantil definován (O(x) ... distribuční funkce), tj. pokud vezmeme nějaký bod rozložení a porovnáme jej s tímto bodem (kvantilem), máme 95% pravděpodobnost, že bude menší než hodnota kvantilu (X095). • Pomocí distribuční funkce můžeme určit 7 Categorized variable Quantile - Quantile plot 60 = 40 > ■a > 5 20 o 00=^ po -2-10 1 Theoretical Quantile 11 10 9 8 7 6 5 Multiple BW plots m m —i D Jrhrr. Robust Parametric Mixed Testy o rozložení: Kolmogorov-Smirnov test, Shapiro-Wilks test, c2 test MU INSTITUT BIOSTATISTIKY A ANALÝZ I RA Lékařská a Přírodovědecká fakulta, Masarykova univerzita m http://www.iba.muni.cz O http://www.iba.muni.cz/vyuka Statistika v průzkumném studiu Provádění odhadu Testy hypotéz Závěr ? Cílová populace Reprezentativnost Závěr ? Interpretace POPIS Ověření Výsledek OTÁZKY 116 INTERVAL SPOLEHLIVOSTI - velmi užitečná míra věrohodnosti odhadů - ODHADY Bodové Číslo (chyba) (Odhad parametru) Intervalové Interval pravděpodobných hodnot Spolehlivost (Pravděpodobnostní interpretace) Obecný tvar: Odhadovaný parametr Kva n ti I modelového rozložení SE (odhadu) Kv pro (1 - a/2) 117 NORMÁLNI ROZLOŽENI - model pro odhad průměru - Cílová populace \ M X r Prezentace n; x; s s n; x; ,— _ l/n n; x; c n; x; Interval spolehlivost i pro odhad průměru X......odhad průměru NORMÁLNI ROZLOŽENI ^ - odhad průměru je rovněž normálně rozložen - Cílová znak x populace X: M Náhodné výběry o n = 100 \. X1 X2 X3 ---------------------------\^— X4 Xi (p{x) prumerx M x x: \i ± 3s x M±3 . VTT VTT ^ Standardní chyba odhadu průměru 119 ODHAD PRŮMĚRU I. Vztahy Bodový ŕ s ^ JV i V -Jn ) Intervalový *-*t:;-l) yjn < jU < x +1 — Jv = n-l) a. yjn . ^7 + Av="-1) ju : x ±ť a. S^ x ... příslušný kvantil Studentova rozložení - a ... spolehlivost hodnoceného intervalu Interval spolehlivosti odhadu průměru je pouze informací o přesnosti tohoto odhadu Interval spolehlivosti je hodnocen pro (1 - a) procentní spolehlivost Cílová populace Výběrové populace Původní proměnná x Šířku intervalu určuje: a) velikost vzorku b) rozptyl (variabilita) vzorku c) požadovaná spolehlivost Výběr n=10 pro odhad průměru Výběr n=100 pro odhad průměru -3s M +3s VTöö Viöo 121 ODHAD PRŮMĚRU II. Příklad X: Cena výrobku v n = Data: 21 obchodech n-s-X = 21;x = 3,58;, s2=0,12 = 0,075 = ^0,12/21 95% Interval spolehlivosti: (u = n-1) (20) t 1-0/2 = t0)975 =2,086 ju : x ± 29086 .s- jí 3,58 - 2,086.0,075 < ju < 3,58 + 2,086.0,075 3,423 < m < 3,737 N^ P (3,423 < m < 3,737) > 0,95 Interval spolehlivosti pro odhad rozptylu Interval spolehlivosti a) pro er .(«-!> b) pro er: 2 (n-l) X *>/2 (n-l)s2 2 {n-l) X al2 Kritický obor testované statistiky Experimentální design 4 \ Optimální velikost vzorku nebo počet opakování Efektivní uspořádání experimentů Účelná minimalizace chyb Závěr testu (ti Q_ (ti Q. 0 skewness<0 kurtosis<0 kurtosis>0 138 MU INSTITUT BIOSTATISTIKY A ANALÝZ I RA Lékařská a Přírodovědecká fakulta, Masarykova univerzita 11. Statistické testy o parametrech jednoho w m v vyberu http://www.iba.muni.cz O http://www.iba.muni.cz/vyuka \A One sample" testy V případě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení. i y Průměr - cílová vs. výběrová populace H0 HA Testová statistika Interval spolehlivosti X jU t t>t jU X < jU t (n-1) X = jU X^ JU t Itl >tt í""1) 1 ' T-a/2 Rozptyl - cílová vs. výběrová populace H, 2 ^ 2 S < ůr x2 < x2 Xl-a/2 2 2 X < Xa/2 / nebo ^^ 140 \A One sample" testing vs one/two tailed o o a = 0,05 0 + + V\-a ^\-a/2 Pokud "two - tailed" test vyjde významný tak, že P 0,05j pak dobře zvolený "one - tailed" test je významný při P 0,02§. . . . tzn.že testová charakteristika > olcř/2 a "one - tailed" testy na hladině jsou v podstatě zbytečné. Pokud je pro "two - tailed" test P = 0,1, pak lze na hladině a = 0,05 prokázat nerovnost srovnávaných parametrů vhodně voleným "one - tailed' testem. . . . tzn. že testová charakteristika G \^\-al^\-a/2 Srovnání odhadu průměru s předpokládanou hodnotou I Koncentrace antibiotika v cílovém orgánu Při 1000 měřeních antibiotika byla zjištěna v cílovém orgánu průměrná koncentrace 202,5 jednotek a směrodatná odchylka 44 jednotek. Požadovaná koncentrace antibiotika je 200 jednotek. 1) Je daný rozdíl 2,5 významný vzhledem k variabilitě znaku na hladině významnosti 5%? 2) Jaká je skutečná hladina významnosti? t = ^-tL Jn = ^ VTÖÖÖ = 1,797 s 44 Srovnání odhadu průměru s předpokládanou y hodnotou II Aktivita enzymu v buňkách Při zjišťování aktivity enzymu v buňkách na vzorku 25 měření byl zjištěn průměr 3,5 jednotek a směrodatná odchylka 1. 1. otázka zní, zda se naměřené hodnoty našeho vzorku liší od výsledků dřívější rozsáhlé studie zaměřené na celou cílovou populaci, kde byla zjištěna průměrná aktivita 2,5 jednotky? HO: x=n tedy two tailed test s 1 Íq4915 = 2,064 C^> t > t™a/2 Ľ^> HO zamítnuta při a<0,05 od jiné hodnoty bychom zachytili při daných hodnotách? 2. otázka -jakou minimální odchylku X od jiné hodnoty bychom zachytili při daných hodnotách? x — u i— d t =---------J n =—yin ť d = 2-^x 3. za předpokladu, že z praktického hlediska je významná odchylka již 0,2 jednotky, jaký minimálni počet měření musíme provést, abychom ji byli schopni prokázat ? x-ju r- d r ^ t=------^n=—y]n+ n = s s l\-al2 y d Y J 143 Srovnání odhadu průměru s předpokládanou hodnotou III x: Aktivita enzymu v buňkách n = 25; x = 3,5; s= 1 ju: Hodnota zjištěná při předcházejícím, dlouhodobém průzkumu t = 3,5 - 2,5 1 V25~= 5 Kvantil t0975 (M) = 2,064 z f>\ (24) * Ll-a/2 * H0 zamítnuta při a < 0,05 Srovnání odhadu průměru s předpokládanou hodnotou IV Situace: Odhad průměrné hodnoty znaku X w Jakou minimální odchylku X od nějaké jiné hodnoty zachytíme jako významnou při daném n, a, b ? d = s n \t\-a 12 + h- ß ) Nechť a = 0,05; ß = 0,10; n = 25 ; s2 = 1,5682 t l-a/2 (24> = 2,064 t,V24)= 1,318 d = 1.5682 25 (2,064 + 1,318 ) = 0,85 MU INSTITUT BIOSTATISTIKY A ANALÝZ I RA Lékařská a Přírodovědecká fakulta, Masarykova univerzita i ' 12. Statistické testy o parametrech dvou výběrů http://www.iba.muni.cz O http://www.iba.muni.cz/vyuka Two sample testy Při použití two sample testů srovnáváme spolu dvě rozložení. Jejich základním dělením je podle designu experimentu na testy párové a nepárové. nepárový XI two sample test • Základním testem pro srovnaní dvou <^ jj nezávislých rozložení spojitých čísel je nepárový two-sample t-test • Základním testem pro srovnání dvou závislých rozložení spojitých čísel je párový two-sample t-test Di ference XI X2 xiaX2 | .» . Párový \ -■-----►*- • i [> two sample t------•*- • test Srovnání dvou pokusných variant -obecné schéma zapojených testů I. v. y k. j ^1 ^2 Nezávislé uspořádání Párové uspořádání Design uspořádání zásadně ovlivňuje interpretaci parametrů Hq . ]Xy — \i2 nx n x s 2 2 ä> 1 Xi-X2=D 1^:0=0 n D D (n = n2 = n. Srovnání dvou pokusných variant -obecné schéma zapojených testů II. Identifikace párovitosti (Korelace, Kovariance) v. y k. j Xi Xi Ji • •• • • ••• r = 0,954 (p < 0,001) X, r= 0,218 (p < 0,812) X, 149 Předpoklady nepárového two sample t-testu ^ Náhodný výběr subjektů jednotlivých skupin z jejich cílových populací Nezávislost obou srovnávaných vzorků Přibližně normální rozložení proměnné ve vzorcích, drobné odchylky od normality ovšem nejsou kritické, test je robustní proti drobným odchylkám od tohoto předpokladu, normalita může být testována testy normality Rozptyl v obou vzorcích by měl být přibližně shodný (homoscedastic). Tento předpoklad je testován několika možnými testy - Levenův test nebo F-test. Vždy je vhodné prohlédnout histogramy proměnné v jednotlivých vzorcích pro okometricke srovnání a ověření předpokladů normality a homogenity rozptylu - nenahradí statistické testy, ale poskytne prvotní představu. ZĽ + + Varianta 1 Varianta 2 150 N e pá rovy two sample t-test - výpočet I i. 2. nulová hypotéza: průměry obou skupin jsou shodné, alternativní hypotéza je, že nejsou shodné, two tailed test prohlédnout průběh dat, průměr, medián apod, pro zjištění odchylek od normality a nehomogenita rozptylu, provést F -test F-test pro srovnání dvou výběrových rozptylů •Používá se pro srovnání rozptylu dvou skupin hodnot, často za účelem ověření homogenity rozptylu těchto skupin dat. H0 HA Testová statistika Gx >a2 2 2 gx st2 °\ =<72 2 2 2 2 2 2 F, = Fy si ~sl F2 si ~ si max( si. ,s22) min( 5j ,s2) i _(«i_-IM + (n2-\)s2 P nx+n2-2 1 F {vx\v2) ~ 2 2 •F (v2;vi) (T a 12 a 12 153 Two sample testing - nezávislý t-test H0 = X\ IX2 „x 2 2 2 (nl -l)- sx + (n2 -l)- s2 ssx + ss 1) 07 = g 2 =^> s p = -^J— ! 2 2 - ! «! + ft2 - 2 Vj + v 2 2)s—= AU «2 X 1 — X 2 3) ř = ÄTi-T2 ,»2 + »! _ P ,, ,1 ■ V V A- ŕ ("l+"2-2) _ Pokud er2 ^ er 2 : nelze vyjádřit sp 2 2 *-" "/I, n2 y 54 Two sample t-test - příklad Průměrná hmotnost ovcí v čase páření byla srovnávána pro kontrolní skupinu a skupinu krmenou zvýšenou dávkou potravy. Kontrolní skupina obsahuje 30 ovcí, skupina se zvýšeným příjmem potravy pak 24 ovcí. Vlastní experiment byl prováděn tak, že na začátku máme 54 ovcí (ideálně stejného plemene, stejně staré atd.), které náhodně rozdělíme do dvou skupin (náhodné rozdělování objektů do pokusných skupin je objektem celého specializovaného odvětví statistiky nazývaného randomizace). Poté co experiment proběhne, musíme nejprve ověřit teoretický předpoklad pro využití nepárového t-testu. Pro obě proměnné jsou vykresleny grafy (můžeme též spočítat základní popisnou statistiku), na kterých můžeme posoudit normalitu a homogenitu rozptylu, kromě okometrického pohledu můžeme pro ověření normality použít testy normality, pro ověření homogenity rozptylu pak F-test Pokud platí všechny předpoklady Two sample nepárového t-testu, můžeme spočítat testovou charakteristiku, výsledné t je 2,43 s 52 stupni volnosti, podle tabulek je a t0 975 (52)= 2,01, tedy t> t0 975 (52)= a nulovou hypotézu můžeme zamítnout, skutečná pravděpodobnost je pak 0,018. Rozdíl mezi skupinami je 1,59 kg ve prospěch skupiny s lepší výživou. Rozdíl _ průrůmě SE(rozdílprůo éru) X\-Xi 7 v«i 1 1 —+ — n {nx - \)s\ + (n2 - \)s nx +n2 u = nl+n2 •2 y Pro rozdíl mezi oběma soubory jsou spočítány 95% konfidenční intervaly jako 1,59±2.01*(0,655) kg, což odpovídá rozsahu 0,28 až 2,91 kg. To, že konfidenční interval nezahrnuje Oje dalším potvrzením, že mezi skupinami je významný rozdíl -jde o další způsob testování významnosti rozdílů mezi skupinami dat - nulovou hypotézu o tom, že rozdíl průměrů dvou skupin dat je roven nějaké hodnotě zamítáme v případě, kdy 95% konfidenční interval rozdílu nezahrnuje tuto hodnotu (v tomto případě 0). (Xj x2) ± t0915dh (Xj x2) — (Xj x2) ± ř0975 I s 1 1 V n\ n2 J Neparametrické alternativy nepárového t-testu XI X2 ALL Rank ALL XI rank X2 rank 27 25 25 5 6 5 35 29 29 7,5 11 7,5 38 31 31 9 13 9 37 23 23 4 12 4 39 18 18 2 14 2 29 17 17 1 7,5 1 41 32 32 10 15 10 19 19 3 3 27 6 35 11 38 13 37 12 39 14 29 7,5 41 15 Mann Whitney U-test •Stejně jako řada jiných neparametrických testů počítá i tento test s pořadím dat v souborech namísto s originálními daty. Jde o neparametrickou obdobu nepárového t-testu a z těchto neparametrických testů má nejvyšší sílu testu (95% párového t-testu). •V případě Mann-Whitney testu jsou nejprve čísla obou souborů sloučena a je vytvořeno jejich pořadí v tomto sloučeném souboru, pak jsou hodnoty vráceny do původních souborů a nadále se pracuje již jen s jejich pořadím. •Pro oba soubory je tedy vytvořen součet pořadí a menší z obou součtů je porovnán s kritickou hodnotou testu, pokud je tato hodnota menší než kritická hodnota testu, zamítáme nulovou hypotézu shody distribučních funkcí obou skupin. •Podobným způsobem je počítán i Wilcoxon rank sum test (pozor, existuje ještě Wilcoxnův párový test!!!) Man - Whitney test "Zrněna počtu buněk po aplikaci preparátu: A 276, 3511, 3813, 3712, 3914, 297'5, 4115 "Kontrolní skupina: B 255, 297'5, 319, 234, 182, 171, 3210, 193 RA .......součet pořadí pro skupinu A = 78,5 RB ....... = 41,5 UA=nx-n2+^^-RA=l-%+—-RA=5,5 UA+UB =r\ -«2 =>UB =50,5 min( UA;UB) = 5,5 fo = 7;rc2 = 8] Pokud je min(UA; UB) menší než kritická hodnota testu, pak zamítáme hypotézu shody distribučních funkcí obou skupin Mann - Whitney test - příklad 17 štěňat bylo trénováno v chození na záchod metodou pozitivního posilování (pochvala, když jde na záchod venku) nebo negativního (trest, když jde na záchod doma). Jako parametr bylo měřeno, za kolik dní je štěně vycvičeno. nulová hypotéza je, že není rozdíl v metodách tréninku, tedy, že oběma metodami je štěně vycvičeno za stejnou dobu. po srovnání rozložení + malý počet hodnot je vhodné použít neparametrický test je vytvořeno pořadí sloučených hodnot pořadí hodnot v jednotlivých skupinách dat je sečteno a menší ze součtů je použit pro srovnání s kritickou hodnotou testu výsledkem testu je p o ^ 55 co Š 50 45 40 8 o: o o 8 35 o 30 L ' ■' ■' ■' ■' ■' J pozitivně negativné r Párové two sample testy - předpoklady ^ • Skupiny dat jsou spojeny přes objekt měření, příkladem může být měření parametrů pacienta před léčbou a po léčbě (nemusí jít přímo o stejný objekt, dalším příkladem mohou být např. krysy ze stejné linie). • Oba soubory musí mít shodný počet hodnot, protože všechna měření v jednom souboru musí být spárována s měřením v druhém souboru. Při vlastním výpočtu se potom počítá se změnou hodnot (diferencí) subjektů v obou souborech. • Před párovým testem je vhodné ověřit si zda existuje vazba mezi oběma skupinami -vynesení do grafu, korelace. Existuje několik možných designů experimentu, stručně lze sumarizovat: 1. pokus je párový a jako párový se projeví 2. párové provedení pokusu - párově se neprojeví • možná párovost není • špatně provedený pokus - malé n, velká variabilita, špatný výběr jedinců 3. čekali jsme nezávislé a jsou 4. čekali jsem nezávislé a nejsou • vazba • náhoda Párový two sample t-test Tento test nemá žádné předpoklady o rozložení vstupních dat, protože je počítán až na základě jejich diferencí. Tyto diference by měly být normálně rozloženy a otázkou v párovém t-testu je, zda se průměrná hodnota diferencí rovná nějakému číslu, typicky jde o srovnání s nulou jako důkaz neexistence změny mezi oběma spárovanými skupinami. V podstatě jde o one sample t-test, kde místo rozdílu průměru vzorku a cílové populace je uveden průměr diferencí a srovnávané číslo (0 v případě otázky, zda není rozdíl mezi vzorky). _5 r- 1 Pro srovnání s 0 (testovou statistikou je t rozložení): t — —yjn u — n — 1 s Někdy je obtížné rozhodnout, zda jde nebo nejde o párové uspořádání, párový test by měl být použit pouze v případě, že můžeme potvrdit vazbu (korelace, vynesení do grafu), jedním z důvodů proč toto ověřovat je fakt, že v případě párového t-testu není nutné brát ohled na variabilitu původních dvou souborů, tento předpoklad však platí pouze v případě vazby mezi proměnnými. Výpočet obou typů testů se vlastně liší v použité s, jednou jde o s diferencí, v druhém případě o složený odhad rozptylu obou souborů. Zda je párové uspořádání efektivnější lze určit na základě: - Síly vazby - Je-li sD výrazně menší než sxl.x2 Závislost je možné rozepsat pomocí vzorce: ^ß = * \ " o— n \ \ Č--4 A g ' i_ š;Á pes1 low high Paired? A one-tailed t test for the hypotheses H# ^ 0 anff^ < 0 Máme hodnoty hmotnostních změn u lidí, seřazené po užívání drog, které mají za následek ztrátu hmotnosti. Každá změna hmotnosti (v kg) je hmotnost po mínus hmotnost před užitím drogy. n = 12 0,2 _ -0,5 X =-0,61 kg s2 = 0,4008 kg2 -1,6 -o,i * V 12 0,0 __ -0,6 ^ X-jU -0,6lkg -M -1,2 -0,8 t = = 0,18£g 0,18% = -3,389 -1,796 v-n 1 = 11 *0,05(1),11 — *■> '"" Když t < -1,796 , zamítáme H0. 0,0025 < P(t < -3,389) < 0,005 Rozložení t pro v=11, ukazuje kritickou oblast rozložení (šrafováno) pro one-tailed test s a=0,05. (Kritická hodnota t je-1,796.) 163 Neparametrická obdoba párového t-testu Wilcoxon test • Jsou vytvořeny diference mezi soubory, je vytvořeno jejich pořadí bez ohledu na znaménko a poté je sečteno pořadí kladných a pořadí záporných rozdílů. Menší z těchto dvou hodnot je srovnána s kritickou hodnotou testu a pokud je menší než kritická hodnota testu, pak zamítáme hypotézu shody obou souborů hodnot. Pro test existuje aproximace na normální rozložení, ale pouze pro velká n>25. Menší _ suma _ diferencí - n(n + \) t = !w(w + l)(2w + l) 24 Před zásahem Po zásahu Změna Absolutní pořadí 6 2 4 10 2,5 3 -0,5 1,5 6,3 5 1,3 6 8,1 9 -0,9 5 1,5 2 -0,5 1,5 3,4 4 -0,6 3 2,5 1 1,5 8 1,11 2 -0,89 4 2,6 4 -1,4 7 1 3 -2 9 Wilcoxonův test - příklad I člověk A B diference pořadí i 142 138 4 4,5 2 140 136 4 4,5 3 144 147 -3 3 4 144 139 5 7 5 142 143 -1 1 6 146 141 5 7 7 149 143 6 9,5 8 150 145 5 7 9 142 136 6 9,5 10 148 146 2 2 A parametr krve před podáním léku B parametr krve po podání léku W+ Z pořadí kladných rozdílů = 51 W =4 W=min(W+;W.) = 4 počet párů = ri = 10 Pokud je W menší než kritická hodnota testu, pak Xdistri b učních funkcí obou skupin. zamítáme hypotézu shody / r Wilcoxonův test - příklad II Byla testována nová dieta pro laboratorní krysy, při pokusu byl zjišťován její vliv na různých liniích krys, bylo proto zvoleno párové uspořádání kdy krysy v obou dietách jsou spojeny přes svoji linii, tj. na začátku byly dvojice krys stejné linie, jedna z nich byla náhodně přiřazena k dietě, druhá z dvojice pak do druhé diety. 1. nulová hypotéza je, že váha krys není ovlivněna použitou dietou, alternativní, že ovlivnění dietou existuje 2. spočítáme diference - tyto diference jsou nenormální a proto je vhodné využít neparametrický test 3. Spočítáme sumu pořadí kladných a záporných diferencí, zde je menší suma záporných diferencí- 31 4. výsledkem výpočtu je p>0,05 a tedy nemáme dostatečné důkazy pro zamítnutí nulové hypotézy, nelze říci, že by nová dieta byla efektivnější než stará 5. pro doplnění výsledků je vhodné zjistit také skutečnou velikost rozdílu hmotností ve skupinách, např. ve formě mediánu Znaménkový test - příklady I Párově uspořádaný experiment pro nominální data I. Dva preparáty, každý na 1/2 listu - sledovaná veličina: počet skvrn (hodnoceno pouze jako rozdíl) Počet skvrn A V V M V V M M V V V B M M V M M V V M M M V - větší; M - menší n = 10 listů s rozdílnými výsledky ^r A je větší: + n+ = 7 jey. B je menší: - n.= 3 min(n+; n.) = 3 II. dvě protilátky z různých zdrojů (A;B) - aplikované na vzorek s antigenem n = 10 A + + - + - + - + + - B - - + - + + - - + - n - nenulových rozdílů: 6 -► A: n. = 4 A: n =2 min(n+; n.) = 2 r Znaménkový test - příklady II ^ • Na konferenci veterinářů bylo předneseno,že průměrný čas konzultace je 12 minut. Následovala debata, zda je lepší použít medián nebo průměr. Jeden z nich se rozhodl ověřit teorii, že průměrná konzultace trvá 12 minut na vlastní praxi a zaznamenal si trvání svých 43 konzultací. K otestování hypotézy, že podíl konzultací kratších a delších než 12 minut použil znaménkový test. Další výpočet probíhá obdobně jako v případě klasického znaménkového testu na diferencích dvou skupin dat. Délka konzultace Počet <12 22 12 6 >12 15 Celkem 43 Srovnání dvou pokusných zásahů obecné schéma zapojených testů III Nezávislé uspořádání NE ANO NE X2 test Kolmogorov-Smirnov test Shapiro-Wilks test transformace -i ANO F-test neparametrické testy NE testy: t-test nezávislý aproximace Man - Whitney Mediánový test Srovnání dvou pokusných zásahů obecné schéma zapojených testů IV Párové uspořádání Diference D t-test párový NE c2 test Kolmogorov-Smirnov test Shapiro-Wilks test neparametrické testy testy: Znaménkový test Wilcoxonův test 170 r Testování - typ dat • Spojitá čísla - T test, Mann-Whitney test, Wilcoxon test, Znaménkový test atd. • Binárni data? • Kategoriální data? - Výše zmíněné testy nelze použít - Základní přístupy testování lze ovšem použít i na tato data • Nulová a alternativní hypotéza • One sample a two sample testy • Analýzy na binomickém rozložení • Analýzy na Poissonově rozložení • Analýza kontingenčních tabulek MU INSTITUT BIOSTATISTIKY A ANALÝZ I RA Lékařská a Přírodovědecká fakulta, Masarykova univerzita m 13. Binomické rozložení http://www.iba.muni.cz O http://www.iba.muni.cz/vyuka Alternativní rozložení n(x) = n pro x = 1 n(x) = 1 - n pro x = o n(x) = 0 jinak X= 1 ......jev n 1 173 Binomické rozložení X..... celkový počet nastání jevu v n nezávislých pokusech E(x)= n . n D(x)= n .n(1-n) n- p jediný parametr distribuce určuje tvar distribuce n = 0,5 n = o,i J_L Binomické rozložení "^ - model pro zkoumání výskytu sledovaného jevu n.....počet nezávislých opakování (dotazů) X.....počet lidí s jistým symptomem r znamená celkový počet nastání jevu v n nezávislých experimentech r: 0 n ^> p ~ TT .. jediný parametr binomického rozložení p .... relativní četnost nastání jevu p..........určuje tvar distribuce n = 0,5 n = 02 I li n n n X x Binomická proměnná X 175 Binomické rozložení jako model Jev: narození chlapce ľl = 0,5 n : rodina s 5 dětmi r: 0,1,2,3,4,5 chlapců P(r) = ínW.(l-Pr>=^%.p'.q [^rj r!(n-r): (n-r) r = 0: (0! 5!)(0?5)0(0?5)5 = 0'°31 r= 1 5 ! FTTí) (0,5) (0,5)4 = 0,15625 r = 2: P(r) = 0,3125 r = 3: P(r) = 0,3125 r = 4: P(r) = 0,15625 r = 5: P(r) = 0,031 X: Binomická proměnná Střed rozložení: Rozptyl: E(x) =/!■/> D(x) = n - p - (1 - p) Příklad: n = 100 respondentů r = 20 má symptom XL E(x) = n- p = 20 je střed rozložení a nejpravděpodobnější hodnota 176 Binomické rozložení jako model 0,3 0,25 0,2 0,15- 0,1 - 0,05- 0 P (x = r ) = n ! r ! (n - r )! •p -q (n -r) q = 1 -p n = 10 p = 0,3 n 4 5 6 7 8 9 10 n = 50 0,2-0,18- p = 0,1 0,16- 0,14- | 0,12- 0,1 - | 0,08- n 0,06- [j 0,04- 0,02- I 0- nllll lllllllllln„_ 0,3-0,25- n = 30 0,2- P = 0,3 0,15- 0,1 - 0,05-0- ^J„ ill... 0,06-0,04- 10 15 -Jl 20 n P 25 30 = 50 = 0,5 Hln- 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 n P 100 0,3 .„Jlllllilllk,.. 0 10 20 30 40 50 60 70 80 90 100 n P = 50 = 0,9 10 15 20 25 30 35 40 45 50 10 15 20 25 30 35 40 45 50 10 15 20 25 30 35 40 45 50 Aplikace binomického rozložení Výskyt krevní skupiny B v určité populaci: p = 0,08 Počet s krevní skupinou B Pra vděpodobnost B B 2 not B B 1 B not B 1 not B not B 0 0,0064 0,0736 0,0736 0,8464 -Q CO -Q O 0 1 2 Number: blood group B in 2 cases č> -Q CO -Q P 0,5 0,4 0,3 0,2 0,1 Binomické rozložení počtu lidí s krevní skupinou B ve skupině deseti lidí při p=0.08 D -Q CO -Q O 0,16 i 0,14-0,12-0,1-0,08-0,06-0,04- 0,02- 0 01 23456789 Number of subjects 10 Binomické rozložení počtu lidí s krevní skupinou B ve skupině sto lidí při p=0.08 m ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■i 0 10 20 30 40 50 60 70 80 90 1 Number of subjects 178 Aplikace binomického rozložení Populace: 60% jedinců má zvýšenou hladinu cholesterolu Výběr: 5 lidí I. Kolik lidí má ve výběru vyšší hladinu cholesterolu ? II. Jaká je P, že právě 3 lidé budou mít vyšší hladinu cholesterolu ? ~ Tzn. Výběr přesně odpovídá dané populaci ? P(3) = ? Jaká je P, že většina jedinců (tedy minimálně 3) má vyšší hladinu cholesterolu ? ~ Tzn. výběr alespoň obecně odpovídá zkoumané populaci ? P(x) s " ■ «v • N / v /• / \ / • u / 1 i 1 1 a i i • 1 T \ 1 \ 1 1 v 1 \ / 179 Aplikace binomického rozložení Populace: 60% jedinců má zvýšenou hladinu cholesterolu Výběr: 5 lidí I. Kolik lidí má ve výběru vyšší hladinu cholesterolu ? n. p = 5. 0,6 = 3 lidé ~ E(x) n . p (1-p) = 1,2 - D(x) II. Jaká je P, že právě 3 lidé budou mít vyšší hladinu cholesterolu ? ~ Tzn. Výběr přesně odpovídá dané populaci ? P(3) = 9 P(3)- 5! 3!(5 - 3)! P(3) = 35% -•(0,6)3-(0,4)2= 0,346 Jaká je P, že většina jedinců (tedy minimálně 3) má vyšší hladinu cholesterolu ? ~ Tzn. výběr alespoň obecně odpovídá zkoumané populaci ? P(X > 3) = P(3) + P(4) + P (5) = 0,346 + 0,259 + 0,078 = 68 % 180 Odhad parametru n binomického rozložení Při vícenásobném odhadu se parametr IIchová jako normálně rozložen i p U malých nebo velkých hodnot p (ľl) je však předpoklad normality omezen Odhad parametru n binomického rozložení 7. vztahy 2) Intervalový - aproximace n: p±Z^. ^-ti 2 V n -1 /> - Z!_«/ • A / <7T

0,95 183 ^r Odhad parametru p binomického rozložení^^ Intervalový odhad bez aproximací na normální rozložení -1. Vztahy k = r + \n-r + \)-Fc a/ 2 n vx=2(n-r + l); v2=2r Lz> spodní limit intervalu (r + l)-F^> L - 2 v[=2(r+l) = v2+2 Á v'2 =2{n-r) = vl-2 L-í> horní limit intervalu P{Lx<7t\- a Odhad parametru p binomického rozložení Intervalový odhad bez aproximací na normálni rozložení - II. Příklad: Náhodný vzorek n = 200 jedinců. Zjištěno pouze r = 4 jedinci bez určitého znaku. 95% interval spolehlivosti = ? Ľ Spodní hranice v ! = l(n -r + l)= 2(200 -4 + l)=394 v, =2r = 2-4 = 8 F^ŕ = 3,67 1 /2 ^^= Z, = 1 4+ (200 -4 + 1)-3,67 = 0,0055 z Horní hranice v v ; = 2(r + l)=10 '2 = 2{n-r)= 2(200 -4)= 392 F (10; 392 ) _ \-OC L2 = = 2,08 (4 + 1)-2,08 200 -4 +(4 + 1)-2,08 = 0,051 Binomické rozložení v datech - shrnutí ri(x) 1 n X Pravděpodobnost výskytu hodnot X n opakování jev ANO jev NE Binární podstata původních hodnot Modelové rozložení odhadovaného parametru Interval spolehlivosti pro ľl 186 MU INSTITUT BIOSTATISTIKY A ANALÝZ I RA Lékařská a Přírodovědecká fakulta, Masarykova univerzita i http://www.iba.muni.cz O http://www.iba.muni.cz/vyuka Analýza binárních nebo kategoriálních dat I Binární proměnná (1/0) r ' I: 10 J ! 0: 90 J i n: L loo J r - - i p1 i i = 0,1 i p0 = 0,9 Kategoriální proměnná i I: 10 i n i p,= 0,1 i i M: 40 ! ► j pM = 0,4 j ' IM: 50 ! i m 100 ! J Pni =0,5 j 188 Analýza binárních nebo kategoriálních dat II. Liší se odhad j) od předpokládané hodnoty P ? Liší se dva nebo více odhadů ]3 ? - závislé odhady -- nezávislé odhady - Je výskyt kategorií dvou jevů nezávislý ? Hodnocení relativního rizika z výskytu určitého jevu v rámci skupiny lidí Jednovýběrový binomický test (One sample binomial test) «r H, Testová statistika Interval spolehlivosti pn Z > Zla p>n p < n z < z a p = n p*n > Zi a/2 z = n-b —n •;t n- p-n-71 -0,5 n ■p^-p) n tWzp) Korekce na kontinuitu »o »ä Testová statistika Interval spolehlivosti p n L, - ( r + 1 ) F . . a , v j , v 2 p = r/n > Lt ři - r + (r 1 1)F p>n p < n L2 -- r p < L2 r+(/7-r + l)F c*,vi ,v2 p = n p*n 1-1/ 1-2 (f a/2/ ^ l-a/2) p < L2 v p > Lt> ^^ Test p ? u ^ J Stromy s pozměněným tvarem koruny n = 9 000 jedinců r = 2 250 změněných jedinců ? Jak je pravděpodobná změna u až 1/3 jedinců? ? v_ n ■ p - n -n _ 2250 - 3000 _ z - —. / , - —. - - 18 ,26 V/> 0 - P )• w V0'25 -°'75 -9000 ^=^= a = 5%; Z ^=1,96; Z1 Z ^^.........zamítáme H0: p = 0,3 P «0,1 95 % Interval spolehlivosti ... p: (0,241; 0,258) Test p ? 7i Příklad testu bez aproximace na normální rozložení / 12 jedinců bylo zkoumáno pro výskyt určitého znaku, 0 jedinců znak nemělo i* Jak hodně se tento výsledek liší od výsledku 6 - 6: tedy od situace, kdy ■ polovina jedinců znak má? a) Využití distribuční funkce r 0 1 2 3 4 5 6 7 8 9 10 11 12 P(r) 0,0002 4 0,0029 3 0,0161 1 0,0537 1 0,1208 5 0,1933 5 0,2255 9 0,1933 6 0,1208 5 0,0537 1 0,0161 1 0,0029 3 0,0002 4 P (r > 10) = 0,01611 + 0,00393 + 0,00024 = 0,01928 H0: p = 0,5 je tedy značně nepravděpodobná b) Pozorované p = ^/0 = 0,833 překročilo horní limit 95 % intervalu 12 spolehlivosti pro p: p = 0,5 : L2 = (6 + l)-2,64 12 -6 + (6 +1)-2,64 Dvouvyberovy binomický test (pl ? p2) z = Pi - PÁ p 0 - p) l p O - p) »! n2 nx ■ p, + n2- p2 nx + n2 (A-r^z^./M^W^ nx n2 Dvouvyberovy binomický test (pl ? p2) / Tento příklad je původní ukázkou testování rozdílů mezi dvěma binomickými populacemi (tedy srovnání dvou odhadů parametru p). Celkem 49 pokusných myší bylo použito k testování toxického preparátu během dvouměsíční kultivace. Následující tabulka obsahuje původní data zároveň s testem nulové hypotézy: Podíl přežívajících jedinců je u zasažené populace stejný. Alive Dead Total Proportion alive Proportion dead Treated 15 9 24 p, = 0,625 q, = 0,375 Not Treated 10 15 25 p? = 0,400 q2 = 0,600 Total 25 24 49 p = 0,510 q = 0,490 z = 0,625 - 0,400 0,225 (0,510) (0,490) (0^510) (0,490) V0>010413 + °>009996 = 1,573 Z0,05(2) = t0,05(2) = 1,96 24 25 Nezamítáme H0: 0,10 < P < 0,20 S korekcí na kontinuitu: Z = 15-0,5 10 + 0,5 24 25 0,604 - 0,420 = 1,287 0,143 0,143 Nezamítáme H0: 0,10 < P < 0,20 Z0,05(2) = t0,05(2) = 1,96 194 MU INSTITUT BIOSTATISTIKY A ANALÝZ I RA Lékařská a Přírodovědecká fakulta, Masarykova univerzita m 15. Analýza kontingenčních tabulek http://www.iba.muni.cz O http://www.iba.muni.cz/vyuka Test dobré shody - základní teorie Binomické jevy (1/0) pozorovaná očekávaná 2 četnost /Cm = četnost četnost 2 I pozorovaná očekávaná četnost očekávaná četnost očekávaná četnost Příklad I. jev 1 II. jev 2 J 10 000 lidí hází mincí ^ rub: 4 000 případů (R) líc: 6 000 případů (L) m Lze výsledek považovat za statisticky významně odlišný ■ (nebo neodlisný) od očekávaného poměru R : L = 1 : 1 ? Tabulková hodnota: ZP(b) p......počet parametrů = 2 Zc -zLzL F j ij u - 0,5 i F u 2x2 kontingenční tabulka - příklad (a = 0,05) geft-^l" Ano Ne E Ano 20 82 102 Ne 10 54 64 2 30 136 166 FA = FB = Fc = Fn = 102*30/166 = 18,43 102*136/166 = 83,57 11,57 52,43 (20-1^4f + (82-83,57f +(10-U57F +(54-5^4f <,,%*> =3,8^ () 18^43 83,57 11,57 5^43 Kontingenční tabulka v obrázku c: 49% d: 33% Gen: NE Zemřelí Žijící Zemřelí ŽjícL 198 R x C kontingenční tabulka Výběr: N lidí ze sociologického průzkumu (delikventi) Jev A: Původ z rozvrácených rodin Jev B: Stupeň zločinnosti I < II < III < IV >-B I. II. III. IV. ANO a b c d NE e f g h číslo 1 číslo2 Stupně volnosti: (R-1)*(C-1) = 1 *3 = 3 K = číslo 1 • číslo 2 N Tabulky: Z(i-a) Očekávané četnosti: Pa = a a + e Pb = b b + f Pc = c + g Pd = d d + h 199 Kontingenční tabulky Příklad 1 / Ověřte na datech z pokusu se 100 květinkami určitého druhu, že barva květů se geneticky štěpí v poměru žlutá : červená = 3:1. H0: Pozorovaná frekvence pro jednotlivé barvy květů jsou vzorkem populace mající poměr mezi žlutými a červenými květy 3 :1. Součet frekvencí u obou barev květů (fj se rovná 100 a pozorované frekvence u kategorií barvy budou srovnány s očekávanými frekvencemi (uvedeny v závorkách): Kategorie barvy Žlutá Červená n ' poz. 84 16 100 ' oček. 75 25 2 = y(/^ -Z«..)2 J84-75)2 | (16-25)2 = X ^ L. 75 25 = 4.320 St. volnosti = n = k-1 = 1 Zamítáme hypotézu shody srovnávaných četností Při testování H0 jsme použili matematický zápis (0,025 < P < 0,05). Z tabulek %2 rozložení vidíme, že pravděpodobnost překročení hranice 2,706 je 0,1 (10 %), což může být stručně zapsáno jako P (X2> 2,706) = 0,10. Dále lze zjistit pro P (%2 > 3,841) = 0,05. V řešené úloze jsme dospěli k hodnotě testové statistiky %2 = 4,320. Pro tento případ lze tedy psát 0,025 < P (%2 > 4,320) < 0,05; a jednodušeji 0,025 < P < 0,05. Jde v podstatě o přibližné určení hranic chyby 1. druhu. Kontingenční tabulky Příklad 2 Tento příklad je rozšířením problému z příkladu 1 na srovnání pozorovaných a očekávaných frekvencí pro více kategorií sledovaného znaku: /Celkem bylo zkoumáno 250 semen určitého druhu rostliny a roztříděno do následujících kategorií: žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité. Předpokládaný poměr výskytu těchto kategorií v populaci je 9 : 3 : 3 : 1. Následující tabulka obsahuje původní data z pozorování a dále postup při testování H0. žluté/hladké žluté/vrásčité zelené/hladké zelené/vrásčité n poz. 152 39 53 6 250 oček. 140,6250 46,8750 46,8750 15,6250 v=k-1=3 2 11,37502 7,87502 6,12502 9,62502 r = —-----+ —-----+ —-----+ —-----= 8,972 140,6250 46,8750 46,8750 15,6250 Zamítáme hypotézu shody pozorovaných četností s očekávanými 201 Testy dobré shody - příklad Příklad 3 Složitější příklady řešené srovnáváním frekvencí je možné rozdělit na testování dílčích hypotéz: /Předpokládejme, že chceme pro data z předchozí úlohy testovat hypotézu existence štěpného poměru 9:3:3 pro první tři kategorie semen: n=k-1=2 žluté/hladké žluté/vrásčité zelené/hladké n * poz. 152 39 53 244 ' oček. 146,400 48,800 48,800 2 5,600 2 9,800 2 4,200 2 y = —------h —------h —-----= 2 544 146 ,40 48 ,80 48 ,80 Nezamítáme hypotézu shody pozorovaných četností s očekávanými. / Nyní otestujeme hypotézu štěpného poměru kategorií zelené/vrásčité:ostatní typy = 1:15 zelené/vrásčité ostatní n * poz. 6 244 25 ' oček 15,625 234,375 n=k-1=1 2 _ 9,625 2 Z ~ 15 ,625 + 9,625 234 ,375 6,324 y Zamítáme hypotézu shody pozorovaných četností s očekávanými. 202 Test dobré shody pro více kategorií -využití aditivity testu Příklad /U 193 párů dvojčat byly zjištěny následující poměry pohlaví: 56 Ch - Ch 72 Ch - H 65 H-H 4% Za předpokladu, že narození chlapečka má stejnou pravděpodobnost jako narození i holčičky, lze očekávat poměry pro výše uvedené skupiny = 0,25: 0,5: 0,25. Ověřte tento předpoklad na uvedeném vzorku populace. S193 párů 1/4 : 1/2 : 1/4 2 =n 90 očekávané četnosti = 48,25 : 96,50 : 48,25 -M2) Proč lze v předchozím případě očekávat zamítnutí H0? Testujte následující hypotézy: 1) Jsou relativní počty párů se shodným pohlavím ve shodě s očekávanými četnostmi? (ignorujte Ch -H páry) 2) Je relativní četnost kombinace Ch - Ch a H - H párů oproti párům s rozdílným pohlavím ve shodě s očekávanými četnostmi? 2 121 párů 1:1 2 _ H -H očekávané četnosti = 60,5 : 60,5 Z(\) ~ U,ooy C h -Ch E193 párů 1:1 2 _ očekávané četnosti = 96,5 : 96,5 a(1) ~ 1Z '^ Test dobré shody - příklad Města - zatížení exhalacemi - třídy (A > B > C > D) Svět: A:B:C:D=2 : 3 : 6 : 4 Konkrétní země (n = 184 měst): A : B : C : D = 32 : 151 : 182 : 116 H0: shoda f= a F= a = 0,05 FA: 64,13 FB: 96,19 Fc: 192,39 FD: 128,27 X(3) - _ (32 - 64 ,13 J 64 A3 + + (116 - 128 ,27 y _ 128 ,27 = 49 ,06 Tabulky y2 <"> = y2 (3) = 7 81 yCl-a /Í0.95 7>01 Zamítáme hypotézu shody pozorovaných četností s očekávanými. Příspěvek kategorií A, B,C,Dk celkové hodnotě %2 C (0 3 O Š| Wa 0/ /o ■""i___E™^ ■ ü M/MMWA VMWMWA A B D A B 204 Test homogenity více binomických rozložení / Jev: Úmrtnost na leukémii Předpoklad: 11 = 0,6 Absolutní četnost jevu označena r; Sledovalo s autorů z s zemí: Autor ni ■*i Pi l 2 ■ ■ ■ s S ",= N - 2> p = - s Test homogenity binomických rozložení x (Xri Pí - pHr<) S-l p (I-ŽO Po možném sloučení s výběrů X{\) IV r -iv-nl--iv-n-(i-n) 205 Příklad analýzy homogenity binomických četností Pomocí %2 rozložení lze rovněž posuzovat homogenitu většího množství nezávislých pokusů testujících tutéž hypotézu. _k Bylo provedeno 6 nezávislých výběrů z populace mladých mužů, kteří v dětství _^ onemocněli těžkým zánětem mozkových blan. H0: V této populaci se vyskytují praváci a leváci v poměru 1:1. —\ Nalezněte v literatuře příslušné vztahy pro testování homogenity všech šesti ~v výběrových populací a na základě výsledků tohoto testu rozhodněte o dalším postupu. Následující tabulka obsahuje původní data a výsledek testování (v závorkách jsou uvedeny očekávané četnosti): Vzorek Praváci Leváci n 5C2 St. volnosti i 3(7) 11(7) 14 4,5714 2 4(8) 12(8) 16 4,000 3 15 (10) 5(10) 20 5,000 4 14(9) 14(9) 18 5,5556 5 13 (8,5) 4 (8,5) 17 4,7647 6 17(11) 5(H) 22 6,5455 /Ch eterogeni ta = 30,2036 v=s-\=5 P < 0,001 Jednoduchým testováním lze zjistit, že všechny testy pro jednotlivé výběry jsou významné, což znamená, že ani v jednom případě nebyla potvrzena shoda očekávaných a pozorovaných četností. Test homogenity štěpného poměru v zkoumaných populacích rovněž vedl k zamítnutí možnosti sloučit jednotlivé výběry a posuzovat je jako celek (kromě testovaného poměru 1 : 1 neexistuje tedy v datech žádný jiný jednotný štěpný poměr mezi oběma vlastnostmi. V případě, že by tento test neprokázal odchylky mezi jednotlivými výběrovými populacemi, bylo by jnožné jednotlivé odběry sloučit a posuzovat jako homogenní vzorek. X2 test - příklad V ■ _ "V ■ "V A jší kontingenční tabulky I. Caffeine consumption and marital status in antenatal patiens (from Martin and Bracken, 1987) Marital status 0 Caffeine consumption (mg/day) 1 - 150 151 - 300 > 300 Total Married 652 1537 598 242 3029 Divorced, separed or widowed 36 46 38 21 141 Single 218 327 106 67 718 Total 906 1910 742 330 3888 Caffeine consumption and marital status data Marital status 0 Caffeine consumption (mg/day) 1 - 150 151 - 300 > 300 Total Married 22% 51 % 20% 8% 3029 (100 %) Divorced, separed or widowed 26% 33% 27% 15% 141 (100%) Single 30% 46% 15% 9% 718 (100 %) Total 23% 49% 19% 8% 3888 (100 %) j 207 P %2 test - příklad složitější kontingenční tabulky II. Expected frequencies \ Marital status 0 Caffeine consumption (mg/day) 1 - 150 151 - 300 > 300 Total Married 705,8 1488 578,1 257,1 3029 Divorced, separed or widowed 32,9 69,3 26,9 12,0 141 Single 167,3 352,7 137 60,9 718 Total 906 1910 742 330 3888 Contributions of each cell Marital status 0 Caffeine consumption (mg/day) 1 - 150 151 - 300 > 300 Total Married 4,11 1,61 0,69 0,89 7,30 Divorced, separed or widowed 0,30 7,82 4,57 6,82 19,51 Single 15,36 1,88 7,02 0,60 24,86 Total 19,77 11,31 12,28 8,31 51,66 i X2 test - příklad frakcionace kontingenční tabulky I. V ■ _ V ■ "V A SI Cílem rozsáhlejšího průzkumu populace bylo prozkoumat vztah mezi dvěma typy chorob a krevními skupinami u lidí. Konkrétní data jsou uvedena v tabulce: I Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola Celkem 0 983 383 2892 4258 A 679 416 2625 3720 B 134 84 570 788 Celkem 1796 883 6087 8766 O Vypočítejte testovou charakteristiku pro tuto kontingenční tabulku a O otestujte nulovou hypotézu nezávislosti jevů (%2 = 40,54; 4 st. volnosti) X2 test - príklad frakcionace kontingenční tabulky II. ■v ■ ■%/■#■ si K podrobnějšímu průzkumu složitějších tabulek výrazně napomáhá přepis původní tabulky do podoby procentického zastoupení kategorií: Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola 0 983 383 2892 A 679 416 2625 B 134 84 570 Celkem 1796 883 6087 Z této tabulky je patrné: 1. 2. Jsou jenom malé rozdíly v distribuci krevních skupin u kontroly a u skupiny nemocných rakovinou žaludku. Pacienti s vředy mají mnohem častěji krevní skupinu 0. Na základě těchto poznatků je možné sestrojit menší kontingenční tabulku, která otestuje hypotézu o shodné distribuci krevních skupin pro nemocné rakovinou a pro zdravé lidi. ? Sestavte tuto tabulku a otestujte nulovou hypotézu. ? (%2 = 5,64 (2 st. v.), P je přibližně rovna 0,06) 210 X2 test - příklad frakcionace složitější kontingenční tabulky III. • Z tohoto dílčího testu vyplývá možnost sloučení skupiny nemocných rakovinou a zdravých lidí neboť se vzhledem k distribuci krevních skupin chovají jako homogenní populace. Dalším logickým krokem v podrobné analýze je testování shody relativních četností výskytu krevních skupin A a B mezi kombinovaným vzorkem (sloučená skupina s rakovinou a kontrola) a mezi vzorkem lidí nemocných žaludečními vředy - tzn. nyní neuvažujeme krevní skupinu 0. Výsledkem tohoto testu je %2 = 0,68 (1 st. vol.); P > 0,7. Vzorky pro krevní skupiny A a B lze tedy sloučit do směsného vzorku A + B. • Nyní otestujeme shodu relativních četností výskytu skupiny 0 oproti A + B, a to mezi kombinovanou populací (kontrola + nemocní rakovinou) a mezi vzorkem nemocných vředařů (y2 = 34,29; 1 st. vol.). Lze tedy shrnout, že vysoká hodnota původního %2 se 4 st. volnosti byla způsobena zvýšenou četností lidí s krevní skupinou 0 mezi nemocnými žaludečními vředy. X2 test - příklad frakcionace složitější kontingenční tabulky IV. Průběh hodnocení lze shrnout do tabulky: Srovnání St. volnosti 5C2 0, A, B skupina u pacientů s rakovinou (r) x kontrola (k) 2 5,64 A, B skupina u pacientů s vředy x kombinovaný vzorek (r + k) 1 0,68 0, A, B skupina u pacientů s s vředy x kombinovaný vzorek (r + k) 1 34,29 Celkem 4 40,61 Celkový součet testových statistik %2 (40,61) odpovídá přibližně původní hodnotě %2 (40,54). Což platí i o stupních volnosti (4). Tato skutečnost potvrzuje, že jsme detailním rozborem vyčerpali informační obsah původní kontingenční tabulky a kromě popsané závislosti (zvýšený výskyt krevní skupiny 0 u lidí s žaludečními vředy) jsou jednotlivé kategorie zkoumaných jevů zcela nezávislé. Kontingenční tabulka 2x2: Řešení při nedostatečné velikosti vzorku Yates' corection Fisher's exact test / H0: Nezávislost jevů Test analyzuje všechny možné 2x2 tabulky, které dávají stejnou sumu řádků a sloupců jako tabulka zdrojová. Algoritmus každé tabulce přiřazuje pravděpodobnost, že taková situace nastane, je-li H0 pravdivá. Spectacle wearing among juvenile delinquents and non-delinquents who failed test (Weindling et al., 1986) a vision Juvenile delinquents Non- deliquents Total Yes 1 5 6 bpectacie weaieis No 8 2 10 Total 9 7 16 213 Kontingenční tabulka 2x2: Řešení při nedostatečné velikosti vzorku All tables of frequencies which have the same row and column totals Probability associated with each set of frequencies (1) 0 6 9 1 (II) 1 5 8 2 (III) 2 4 7 3 (IV) 3 3 6 4 (V) 4 2 5 5 (VI) 5 1 4 6 (VII) 6 0 3 7 a b C d P (I) 0 6 9 i 0,00087 (II) 1 5 8 2 0,02360 (III) 2 4 7 3 0,15734 (IV) 3 3 6 4 0,36713 (V) 4 2 5 5 0,33042 (VI) 5 1 4 6 0,11014 (VII) 6 0 3 7 0,01049 Total 0,99999 214 2x2 frekvenční tabulka pro párové uspořádání (Mc Nemar's test - matched variables) Příklad: Srovnání 2 metod stanovení antigénu v krvi (antigen vždy přítomen) / H0: metoda 1 = metoda 2 Metoda 1 Metoda 2 Frekvence úspěch úspěch 202 úspěch neúspěch 60 neúspěch úspěch 42 neúspěch neúspěch 10 }£ = 102 2 (|60 - 42 - lY Zlo =---------—--------—= 2,83 102 2 (x=l) _ Tabulky : zL = 3,84 Hn nezamítnuta 215 Aplikace analýzy 2x2 tabulky pro hodnocení rizika I. Prospektivní studie - odhad relativního rizika Jedinci jsou sledováni prospektivně, zda se vyskytne nějaká vlastnost. VÝBĚR JE DÁN SLOUPCEM PŘIKLAD OBECNĚ Skupina 1 Skupina 2 ANO 7 n-i Ir a b ĹľlClK NE c d Riziko: a a RR = _ (a + c) (a + c) (b + d) Retardace plodu Symetrická Asymetrická Agar skoré AN0 2 33 >7 NE 14 58 RR 2/16 33 /91 2/16=0,13 33/91=0,36 = 0,345 Riziko u "symetrické skupiny" je asi 35 % rizika u asymetrické skupiny / (b + d) H0: RR = 1 SE (in RR )= /— V a a + c + — 1 b + d IS: lnRR-Z1-/2.SE(lnRR) In RR + Z 1-a/2 1-a/2 SE (In RR) 216 Aplikace analýzy 2x2 tabulky pro hodnocení rizika f II- Retrospektivní studie - "ODDS RATIO" x Zcela zásadně odlišný přístup od retrospektivní studie VÝBĚR JE DÁN VLASTNOSTÍ - ŘÁDKEM Není tedy možné analyzovat relativní riziko, protože přípravou řádků můžeme měnit velikost kontrol. PŘIKLAD OBECNĚ Skupina 1 Skupina 2 ANO a b ĹlldK NE c d Vady chrupu ANO NE Plavání >6h 32 118 týdně >6h 17 127 odds a/c b/d Odds ratio : ale bid SE(\nOR)=,/—+—+—+- abed 0/ř = (32/17)/(118/127) = 2,026 In (0R)= 0,706 SE (ln(OZř))= 0,326 Srovnání dvou relativních četností u párově uspořádaného pokusu (pair - matched groups) Situace: Skupiny nejsou nezávislé OBECNĚ Výskyt jevu Počet Skupina 1 Skupina 2 párů + + a + - b - + c - - d px =(a + b)l p2=(a + c)/ n n } ++ pary P\-Pi = b-c n n v n Z = (b-c)/ Jb + c PŘÍKLAD Potíže se spaním Frekvence Drogy Kontrola + + 4 + - 3 - + 9 - - 16 Pd = 7/32 pK = 13/32 pK - Pd= (13 - 7)/ 32 = 0,1875 SE(pK - pD)= 0,113 3-9 Z = ^=== = -113 V3 + 9 (p = 0,08) 218 MU INSTITUT BIOSTATISTIKY A ANALÝZ I RA Lékařská a Přírodovědecká fakulta, Masarykova univerzita i 16. Poissonovo rozložení http://www.iba.muni.cz O http://www.iba.muni.cz/vyuka Poissonovo rozložení v přírodě existuje Mutace bakterií na inkubačních miskách • • Výskyt jevu v prostoru (počet žížal na určitou plochu pole): Orientační stanovení jevu (při produkci plynu bakteriemi) A + + LJ kJ + The most probable number technique Výskyt jevu v čase (srdeční arytmie v určitých časových intervalech) 1 Hi I 220 Poissonovo rozloženi Celkový počet jevů v n nezávislých pokusech E(x)= n p D (x) = n p } E(x) = D(x) P(r) = — u, r r\ X r\ jU=A= průměrný počet jevů z n pokusů p (x = O) = é~M K p (x =1)= --e"-jl 1» - U ,, 3 p {x = 3) = e M -(3)( M 2) ■►_,„ -x e'" -m2 p (X =2) = Poissonovo rozložení jako model 31 = 0,01 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 3. = 0,1 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 n ^ = 0,5 10 9 10 10 0,4" 0,35- 0,3" 0,25- 0,2-0,15- 0,1-0,05- o- 3,= 1 H 10 3i= 10 0123456789 10111213141516 17181920 Poissonovo rozložení jako model pro náhodný výskyt jevů Předpoklad: náhodná distribuce jevu mezi studovanými objekty (příp. v čase, v prostoru). jU Clustered (J - JU Random Poisson Pokud je X spíše větší (~ 5-10), pak Poisson odpovídá spíše binomickému až normálnímu rozložení. Formální prezentace Poissonova rozložení pokus......10 000 bakterií na misce n = 10 misek Jev: mutace (r=25) X..........průměrný počet mutantů na jednu misku r=25 x^=25/10=2,5 95 % IS: 2,5 - 1,96 • V0,25 < Ä < 2,5 + 1,96 • y0,25 1,52 < Ä < 3?48 ÖO0O O00O Poissonova náhodná proměnná Při měření počtu krvinek změněných určitou chorobou (relativně vzácné) je pozorován zředěný vzorek krve pod mikroskopem v komůrce rozdělené na stejně velká pole. Sledovaná veličina, udávající počet krvinek v i-tém poli může být považována za rozdělenou podle Poissonova rozložení: n = 169 = počet nezávislých pozorování proměnné r = 10 = počet pozorovaných krvinek Jaká je hodnota parametru X Poissonova rozložení a jaká je jeho interpretace ? Jaký je interval 95% spolehlivosti pro parametr X ? Pokud bychom sledovali celkový počet červených krvinek (opět v n = 169 nezávislých políčkách), bylo by i tuto proměnnou možno považovat za rozloženou podle Poissonova rozložení ? Uvažujte celkový počet pozorovaných krvinek jako 2013. Výpočet intervalu spolehlivosti pro X (bez aproximace na normální rozložení) Spodní hranice IS Horní hranice IS 1 225 Poissonova náhodná proměnná Konstantní zářič: n = 2608 časových intervalu (každý 7,5 s) i: počet částic v intervalu (x) s,: pozorovaná četnost intervalů s i částicemi P(x = /) = ■x P, Poissonova proměnná: Počet intervalů s právě i zaznamenanými částicemi st teoretické četnosti nPj (Si - nPi f i npl 0 57 54,399 0,1244 1 203 210,523 0,2688 2 383 407,361 1,4568 3 525 525,496 0,0005 4 532 508.418 1,0938 5 408 393,515 0,5332 6 273 253,817 1,4498 7 139 140,325 0,0125 8 45 67,882 7,7132 9 27 29,189 0,1642 10 10 17,075 (=P{Š>10}) 11 4 12 2 0,0677 13 0 n = 2608 2608,00 12,8849 Výborný model pro experimenty, v nichž je během časového průběhu zjišťován počet výskytu určitého jevu 226 Aplikace Poissonova rozložení Number of crimes per day in three aeras of India during 1978 to 1982(Thrakur and Sharma, 1984) showing observed frequencies (Obs) and expected frequencies using the Poisson distribution (Exp) Number of Full moon days New moon days crimes Obs Exp Obs Exp 40 64 56 19 1 2 0 0 0 1 183 45,2 63,1 44,3 20,7 7,1 2,0 0,5 0,1 0 0 114 56 11 4 0 0 0 0 0 0 183 186 1,40 1,16 112,8 56,4 14,1 2,4 0,3 0 0 0 0 0 186 0,50 0,75 Comparison of distributions of crimes on the new moon days (Thrakur and Sharma, 1984) and number of deaths in a Montreal hospital in 1971 (Zweig and Csank, 1978) n o 1 2 3 4+ Crimes on new moon Deaths per day in days in India Montreal hospital % Frequency % Frequency 61,3 30,1 5,9 2,2 0,5 114 56 11 4 1 Total 100 186 60,3 31,0 6,3 2,2 0,3 100,0 Mean SD 0,505 0,752 220 113 23 8 1 365 0,512 0,736 Expected distribution Poisson (0,51) 60,0 30,6 7,8 1,3 0,2 99,9% 227 Poisson distribution: one - sample test Př: Počet hnízd křepelek na dané ploše n = 8 000 "pod lokalit" r = 28 )' = 0,0035 Nechť je srovnávací soubor (předchozí průzkum) Po = 0^0020 po-8000 = \6 = ju = A \h"0'\......J 28) = < 0,05 => H„ zamítnuta [0,00411 ] ) l r = 28 je příliš velké pro populaci s pc aby r = 28 bylo P > Po 9 pravděpodobnější 228 MU INSTITUT BIOSTATISTIKY A ANALÝZ I RA Lékařská a Přírodovědecká fakulta, Masarykova univerzita i http://www.iba.muni.cz O http://www.iba.muni.cz/vyuka Analýza rozptylu - ANOVA Základní technika sloužící k posouzení rozdílů mezi více úrovněmi pokusného zásahu J2 o +j c o >< d> O (ti i-+j d) O o CM X o (ti 1- d) o o Rostoucí koncentrace testované látky / látek Celkově významné změny v reakci biologického systému Vzájemné rozdíly účinku jednotlivých dávek Rozdíly účinku dávek od kontroly 230 Analýza rozptylu - ANOVA Významné kroky analýzy, vedoucí k efektivnímu srovnání variant o +j c o >< d) o +j c d) o c o CM X d) o +j c d) o c o CO X d) o (C 1-c d) o c o Q. X d) o (0 1- c d) o c o Rostoucí koncentrace testované látky / látek Splnění předpokladů analýzy Transformace dat Relevantnost kontroly (vliv vlastní aplikace látek) Vhodnost modelu ANOVA pro účely testu Vlastní srovnání variant Minimalizace chyb při ověřování hypotéz 231 Analýza rozptylu - ANOVA SPLNENÍPREDPOKLADUANOVA JE NEZBYTNOU PODMÍNKOU POUŽITÍ TÉTO TECHNIKY 1. Předpoklad nezávislosti opakování experimentu ANOVA = parametrická analýza dat Homogenita \ 2. rozptylu v rámci \ pokusných variant / Normalita rozložení 3. v rámci pokusných "*--^ variant ALTERNATIVOU JSOU NEPARAMETRICKÉ METODY Analýza rozptylu - ANOVA Předpoklady analýzy rozptylu jsou nezbytné pro dosazení síly testu • Symetrické rozložení hodnot a normalita odchylek od hodnoceného modelu ANOVA. Velkou část dat lze adekvátně normalizovat použitím logaritmické transformace. Předpoklad lognormální transformace může pochopitelně být teoreticky vyloučen u mnoha datových souborů obsahujících diskrétní parametry, kde je indikována vhodnost jiného typu transformace. U asymetricky rozložených a u diskrétních dat je nutné využít neparametrické alternativy analýzy rozptylu. • Homogenita rozptylu je nutným předpokladem pro smysluplnost vzájemných srovnání pokusných variant. U testů toxicity by splnění tohoto předpokladu mělo být ověřováno (Bartlettův test), neboť vážné rozdíly (až řádové) v jednotkách testovaného parametru mohou nastat v důsledku inhibice dávkami látky. Nehomogenita rozptylu je často ve vztahu k nenormalitě (asymetrii) dat a lze ji odstranit vhodnou normalizující transformací. ♦ Statistická nezávislost reziduí vyhodnocovaného modelu ANOVA. Pokud odhad a posouzení korelačních vztahů mezi pokusnými variantami není přímo předmětem výzkumu, lze jejich vliv na vyhodnocení odstranit znáhodněním dat v rámci pokusných variant - tedy změnou pořadí v náhodné. Rozsah vlivu těchto autokorelačních vztahů musí být ovšem primárně omezen správností experimentálního uspořádání. • Aditivita jako předpoklad týkající se složitějších experimentálních uspořádání. Exaktní otestování aditivity více pokusných faktorů je procedura poměrně náročná na experimentální design vyvážený co do počtu opakování. Je rovněž obtížné testovat interakci na nestandardních datech, neboť případná transformace může změnit charakter odchylek původních dat od hodnoceného modelu ANOVA. 233 Analýza rozptylu - ANOVA Omezení aplikace ANOVA lze resit • Chybějící data. Vážným problémem jsou chybějící údaje o celé skupině kombinací testovaných látek, například u faktoriálních pokusů, kdy je znemožněno hodnocení experimentu jako celku. • Různé počty opakování Jde o typický jev pro experimentální datové soubory. Při různých počtech opakování v experimentálních variantách jsou testy ANOVA citlivější na nenormalitu dat. Pokud jsou počty opakování zcela odlišné(až na řádové rozdíly), je nutno použít neparametrické techniky nebo analýzu rozptylu nevyvážených pokusů. • Odlehlé hodnoty. Ojedinělé odlehlé hodnoty musí být před parametrickou analýzou rozptylu vyloučeny........................................................................................................................................................ ♦ Nedostatek nezávislosti mezi rezidui modelu. Jde o závažný nedostatek, zkreslující výsledek F-testu. Velmi často je tato skutečnost důsledkem špatného provedení nebo naplánování experimentu. • Nehomoqenita rozptylu. Velmi častý nedostatek experimentálních dat, často související s nenormalitou rozložení nebo s odlehlými hodnotami. • Nenormalita dat. I v tomto případě Iz situaci upravit vyloučením odlehlých hodnot nebo normalizující transformací. ♦ Neaditivita kombinovaného vlivu více pokusných zásahů. Tuto situaci lze testovat jednak speciálními testy aditivity nebo přímo F testem kontrolujícím významnost vlivu interakce pokusných zásahů. Při významné interakci je nutné prozkoumat především její charakter ve vhodném experimentálním uspořádání. 234 Modely analýzy rozptylu Model I. Pevný model X 0 ^ i 2 X 3 X 4 yli=f* + Comparison I I Preview code jj The main effect is: Product Name. Methods to use I I Bonferroni t test I I Tuke/'s studentized rangetest (HSD] I I Duncan's multiple range test I I Dunnett's t test I I Hshers least significant-difference test I I Gabriel's multiple-comparison procedure I I Student-Newman-KeuIs multiple range test I I Waller-Duncan k-ratio t test I I Scheffe's multiple comparison procedure I I R^an-Ei not-Gabriel-Welsch multiple-rangefc Confidence Jevel: \H5% jsas , ANOVA Results 1: srovnáni hmotnosti ovci Profiler | Custom tests | Residuals 1 | Residuals 2 | Matrix | Report Summary | Means 1 Planned cornps Post-hoc | Assumptions Effect: | Skupina [Ckj Hmotnost ~B r Display — f? Significant differences r Homogeneous groups: r^H r Confidence intervals r Critical ranges: 1-05 |=| ■Error term — (• Between error C Within error C Between; within; pooled T MS:|0.000 ^ df: |0.00 ^ Less Close ■\JľJ Modify J3 Options ^ Fisher LSD Bonferroni Scheffé TukeyHSD Unequal N HSD -Range tests (multi-stage h m Bffll Newman-Keuls Q Duncan's I Comparisons with a Control Group fCGl StatSoft Ore-Way ANOVA: Post Hoc Multiple Comparisons Equal Variances Assumed- riLSD; "* Bonferroni T Sjdak Scheffe T R-E-G-W F T R-E-G-W a T S-N-K T Waller-Duncan I- Jukey T TukeVs-b |- Dunnett _ Duncan — Hochberg's GT2 _ Gabriel <* 2-sided C < Control C > Control -Equal Variances Not Assumed— Tamhane's T2 | _ Dunnett's T3 _ Gannes-Howell _ Dunnett's C Significance level: 1.05 Continue Cancel Help CG cell tt: '1 246 Hypotetické príklady - Multiple Range Tests 15 Level 1 Homogenous Group ! X 18 2 XX 22 3 X 29 4 X 36 5 X 247 MU INSTITUT BIOSTATISTIKY A ANALÝZ I RA Lékařská a Přírodovědecká fakulta, Masarykova univerzita i http://www.iba.muni.cz O http://www.iba.muni.cz/vyuka Základy korelační analýzy -1. Korelace - vztah (závislost) dvou znaku (parametru) *i A2 ^\^ ANO NE ANO a b NE c d Základy korelační analýzy - II, Parametrické míry korelace Kovariance Cov(x,y) = E(xl -x).(y7 -y) Pearsonův koeficient korelace o o t ■- y - x 0 r=1 r = -1 X, 250 Základy korelační analýzy - III. Pj (zem) 10 14 15 32 40 20 16 50 Pľ (rostl.) 19 22 26 41 35 32 25 40 / = 1,......hlti - 8: v — 6 •-3.....3 "J Cov(x,y) SxJsy Z*?-i(E^][Zí?-Í(E*r] 0,7176 I. Jř0 :/> = £:« = 0,05 tib :ř P «0,01 252 Základy korelační analýzy - V. Neparametrická korelace (rs) Pj v půdě 1 2 3 6 7 5 4 8 Pj v rostl. 1 2 4 8 6 5 3 7 d, 0 0 1 2 -1 0 -1 -1 i = 1,.....n; n = 8 => v = 6 r „ = 6 • V di 2 1--------M--------í- = 0 ,9048 (P 2 - 1 ) /7 1/7 tab : rs(v = 6) = 0,89 Pacient C. 1 2 3 4 5 6 7 Lékař 1 4 1 6 5 3 2 7 Lékař 2 4 2 5 6 1 3 7 T" ---- 0 i 6 -S 1 - n g -1 57 i _i ■ P = 0,358 ■ rs - 1 7^m A - U'U M t!7 — 1 7 253 Korelace v grafech I v Vztahy velmi často implikují funkční vztah mezi Y a X. Y = a + b.X Y = a + b1 . X1 + b2. X2 + b3. X3 Y = a + b1 . X1 + b2. X2 Y = a + b1 . X1 + b2. X2 + b3. X1 . X2 Korelace v grafech II. Problém rozložení hodnot Problém typu modelu r = 0,981 (p < 0,001) r = 0,761 (p < 0,032) Problém velikosti vzorku r = 0,891 (p < 0,214) • - • • ••• r = 0,212 (p < 0,008) • 0 • • 255 Základy regresní analýzy Regrese - funkční vztah dvou nebo více proměnných Jednorozměrná y = f (x) Vícerozměrná y = f(x1, x2, x3,......xp) Deterministický Vztah x, y Regresní, stochastický • - •' !• Pro každé x existuje pravděpodobnostní rozložen 256 r příklady lineární nebo "linearizovatelné" regrese . Y......koncentrace antigénu X......cas Y = ßQ + ßxX + ß2X2 « Y = ß0+ß1(cas)+ß2(casY ß0:0,014 P = 0,328 Ä: 0,182 P = 0,000 ytf2:0,089 P = 0,001 Y......koncentrace 02 ve vodě X......koncentrace org. C ve vodě 2 Y = ß0 + ßlX + ß2X Y = Qxp(a + b-x)...... exponenciální Y = a • xb .......multiplikativní — = a + b-x .......reciproční Regresní analýza přímky - "Simple regression" Y = a + b'X + e « a + ß -X + s / a « a (intercept): a = y - b • x ----- ß'X^b-x (sklon; slope) 8 « e - náhodná složka : n(0; rozptyl reziduí Komponenty tvořící y se sc i taj i Základní regresní analýzy: model přímky v datech 1 x 1 y n n : • 1 y = a + b. n Základní regresní analýzy: model přímky v datech s y m • • • -- b = 0 e = 0 2 b>0 Základní regresní analýzy: model přímky v datech y-x Smysl proložení přímky minimalizace odchylek d v.=y-y dy.x=y-y-b(X,-X) y = y+ b(x,-x) d2yx^YJ[y-ä-ß(xi -x)\ Metoda nejmenších čtverců 1) X: Pevná, nestochastická proměnná 2) Rozložení hodnoty pro každé x je normální 3) Rozložení hodnot y pro každé x má stejný rozptyl 4) Rezidua jsou navzájem nezávislá a mají normální rozložení: N(0;cre2) Odhady parametru pro lineárni regresi b ~ ß : b (J ß 2>,-*J S: 2 y-x S2x = mean squared deviation from regression y-x S = sample standard deviation from regression y-x S 2>. 2 y-x YV-^—b'-Y^.-xJ y-x n — 1 n — 1 a~ a : a = Y -b- X intercept S a Y = 26.8 T9 — / —\ Odhadnuto z modelu pro X = 2001: v 7 > a = / -b-X * Y = a + b-X ) Y = 14 + 0,123.200 = 38,6 Regresní analýza v grafech 3) Grafy residuí modelů (příklady) .*.»■_........' ! • * .> y (i; x) •V"*..* • • • • •.. • • ••. y (i; x) • • • • * • • • •• • y( Obecné tvary residuí modelů (schéma) ', Xj, y ', Xj, y ', Xj, y 1)Yvs. X Regresní analýza v grafech Y X Y •- • X Y 2) Y vs. Y Y Y Y • •• Y Y T r Lineární regrese - příklad X: Koncentrace drogy: 0; 2; 6; 8; 10; 12; 15 mg/ml krve Y: Koncentrace volných metabolitů Pro každé X: 3 opakování Y Model: Y = a + b . x Y = 0,11 +0,092. X I. H0 \ ß = 0;a = 0,05 b = 0,092 ;sb = 0,023 P < 0,01 H =----= 4,00 S, f(v=i9) 2 093 ß-b±tt*?2-Sb P(0,044t = — = 3,793 ŕív='9) = 2,093 S 0,975 a a:a± t["J2 • 5a P(0,049- "vyčerpaného" přímkou = koeficient determinace (R2) Y Lineární regrese - příklad X: konc.Cd: 1,2,3,4,5,6 ng/ml Y: absorb: 0,23; 0,49; 0,72; 0,90; 1,16; 1,39 b=0,228 Sb=4,99.10-3 P = 0,000 a=0,016 Sa=0,019 P = 0,457 r =0,999 R2 = 99,81 % st Errorof est. 0 021 ANOVA Source D.f. SS MS F P Model 1 0,912 0,912 2086,3 0 Residual 4 0,0017 0,000425 Total (c) 5 0,9138 s2yx =4,25.10-4 s2y =0,18275