I. Statistika ve vědecké praxi Pozice statistické analýzy ve vědě a klinické praxi Význam statistických výstupů MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek IBA Anotace • Statistická analýza biologických dat je jedním z nástrojů, s jejichž pomocí se snažíme zjistit odpovědi na naše otázky týkající se pochopení živé přírody. Jako každý nástroj je i statistickou analýzu nezbytné na jedné straně korektně využívat a na druhou stranu nepřeceňovat její možnosti. • Klíčovým faktem při statistické analýze dat je nahlížení na realitu prostřednictvím vzorku a přijmutí toho, že výsledky naší analýzy jsou jen tak dobré, jak dobrý je náš vzorek. Reprezentativnost a náhodnost vzorku spolu s jeho velikostí jsou důležité faktory ovlivňující věrohodnost našich závěrů. MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I" J. Jarkovský, L Dušek Výzkum, realita, statistika Výzkum je naším způsobem porozumění realitě Ale jak přesné a pravdivé je naše porozumění? Statistika ie jedním z nástrojů vnášejících do našich výsledků určitou spolehlivost. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita ■ n j J. Jarkovský, L Dušek Význam variability Naše realita je variabilní a statistika je vědou zabývající se variabilitou Korektní analýza variabilita a její pochopení přináší užitečné informace o naší realitě V případě deterministického světa by statistická analýza nebyla potřebná MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Biostatistika - různé přístupy k variabilitě Variabilita opakovaných měření /wy LU chyba Variabilita modelovaných dat chyba = nepřesnost modelu ÄL_ IBA Data 2,1 2,8 3,2 1,2 5,2 2,9 Variabilita znaku v populaci i o A 1 165 cm 140 cm 182 cm 163 cm rozptyl znaku, přirozená variabilita Variabilita ve skladbě biologických společenstev DRUH1 DRUH 2 DRUH 3 DRUH 4 15 30 40 14 biodiverzita Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Pojem VARIABILITA má mnoho významů .... a ty určují přístup k jejímu hodnocení Maskování a minimalizace vlivu Respektování a odhadování vlivu Přímé využití k predikcím chování systému MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek WWW.WIKIPEDIA.ORG: Statistika je matematickou vědou zabývající se shromážděním, analýzou, interpretací, vysvětlením a prezentací dat. Muže být aplikována v širokém spektru vědeckých disciplín od přírodních až po sociální vědy. Statistika je využívána i jako podklad pro rozhodování, kdy nicméně může být záměrně i nevědomky zneužita. Statistika využívá matematické modely reality k zobecnění výsledků experimentů a vzorkování. Statistika funguje korektně pouze pokud jsou splněny předpoklady jejích metod a modelů. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita ■ n j J. Jarkovský, L Dušek Co může statistika říci o naší realitě? Data Statistika t Informace I ___I Znalost t Pochopení Statistika není schopna činit závěry o jevech neobsazených v našem vzorku. Statistika je nasazena v procesu získání informací z vzorkovaných dat a je podporou v získání naší znalosti a pochopení problému. Statistika není náhradou naší inteligence !!! MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Cílová populace - klíčový pojem statistického zpracování o Skupina objektů o nichž se chceme něco dozvědět (např. pacienti s danou diagnózou, všichni lidé nad 60 let, měření hemoglobinu v dané laboratoři) o Musí být definována ještě před zahájením sběru dat o Na cílové populaci probíhá vzorkování dat, které musí cílovou populaci dobře (reprezentativně) charakterizovat Cílová populace Klíčové faktory Design Vzorkování a cílové populace experimentu a analýza dat vzorkovací plán rClüT .«SSÍflKW r^-4 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Neznáma cílová populace Vzorek Analýza Díky zobecnění výsledků známe vlastnosti cílové populace Cílem analýzy není pouhý popis a analýza vzorku, ale zobecnění výsledků ze vzorku na jeho cílovou populaci Pokud vzorek nereprezentuje cílovou populaci, vede zobecnění k chybným závěrům MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Vzorkování a jeho význam ve statistice Statistika hovoří o realitě prostřednictvím vzorku!!! o Statistické předpoklady korektního vzorkování Representativnost: struktura vzorku musí maximálně reflektovat realitu Nezávislost: několikanásobné vzorkování téhož objektu nepřináší ze statistického hlediska žádnou novou informaci MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Existuje skutečné rozložení a skutečný průměr měřené proměnné MU Z jednoho měření nezjistíme nic -Vzorek: <& —► ????? Vzorek určité velikosti poskytuje | odhad reálné hodnoty s definovanou spolehlivostí Vzorek: ^ Odhad průměru atd. Vzorkování všech existujících objektů poskytne skutečnou hodnotu dané popisné statistiky, nicméně tento přístup je ve většině případech nereálný. IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Různá role statistiky při různě velkém vzorku Malá data Velká data Obrovská data Umění prodat Umění pochopit Umění uchopit MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Přístup biostatistiky Pacient '. : Ť- a Leu S~ :: aSŤ:': aNeu% a Lyll aTy aSe aNeu aLy ä-:; a C Lak aCLNeus a C LOZ aCLNeuO 3 1 a .i;--4 cel 1.106/ cel 1.106/ cell. 106/ cell. 106/ 33 -v.ä.i:-72 mV.HO* mVÄltf 32 mV.s.10* i I I i i I i i IIDDDDDIIII 4 2 7.6 S 5B 66 24 0.6 4.4 5.0 1.B ľľ 95 19 4B 10 ^^ S 3 4 3 52 55 40 0.1 2.1 2.2 1.6 22 77 35 33 15 11 4 6.1 5 59 64 35 0.3 3.6 3.9 2.1 ľľ 103 26 49 13 : BC RR n 7 59 n ? 14 6 5.9 32 137 33 61 15 16 7 S 7 í n^ii « ľ-: 151 20 59 B 20 S 9.6 Udl< 1 K 77 11 3B 5 21 9 6 32 120 26 52 11 22 10 3.3 ^^^ 59 39 0.1 1.3 2.0 1.3 :; B1 42 24 12 37 11 3. S 10 60 70 30 0.4 2.3 2,7 1.1 32 111 42 29 11 3S 12 6.4 2 76 7B 17 0.1 4.9 5,0 1.1 25 365 73 115 23 39 13 6.B 1 57 5 B 39 0.1 3.9 3.9 2.7 20 .,. 59 71 1B 49 14 B. 5 7 67 74 26 0.6 5.7 6,3 2.2 30 156 25 108 17 51 15 9.3 7 57 64 35 0.7 5.3 6,0 3.3 3E 129 21 23 4 52 16 2.2 10 í; = = 34 0.2 1.2 1,5 0.7 ľľ 46 30 12 B 55 17 9.9 3 7S B1 10 0.3 7.7 B,0 0.1 30 135 24 140 1B 56 18 5 2 SO B2 13 0.1 4.0 4,1 0.7 26 101 25 54 13 6 1 S. S 11 72 S3 12 1.0 6.3 7,3 1.1 44 2čS :=.= 145 13.3 9 2 9.2 2 6« 6B 2B 0.2 6.1 6,3 2.6 42 16B 2Č.5 76 12.2 13 3 10.0 7 S3 90 B 0.7 B. 3 9,0 O.B 54 1B1 20.1 B1 9 15 4 9.6 1 75 76 23 0.1 7.2 17 5 6.0 ^^ Dávka pros tin u (mg) 19 6 7.2 2 78 BO 1B 0.1 5.6 24 7 E.2 1 72 73 25 0.1 5.9 29 9 5.0 1 74 75 21 0.1 3.7 4,0 □ 1,600 Q 3/ H 1,800 f ty CC 2,000 g* \% CC 2,200 ' h CC 2,400 f To CH 2,600 £ $ CC 2,800 «^ H 3,000 ■<** H 3,200 31 11 7? 3 53 56 79 0 ? 3B KéH ^ 32 12 10.B 36 50 76 S 3.9 5.4 33 13 11.E 22 54 76 16 2.6 6.4 34 14 170 1 B? S3 16 0 ? 139 40 15 10.0 S 72 BO 4 0.B 7.2 I.U 0.8 0.6 0.4 0.2 0.0 1 1 above .^rhnnnnQt1 \/irl£t rlata — lenmi iniknvat 1 "»I - ^------h- ■ á á á 1 r á V} J. 0 100 200 300 4Q 0 ar\ — MILCI piCLUVdL - |JIUUdVCll IB MU A tvor Jark II 0\ ní /si »tltUT <ý,L DlOSt Duš atistiK ek y a an aiyz, i\ rias ková univerzita Experimentální design: nezbytná výbava biologa Účel analýzy: Popisný cílová populace -4.................. \l// výběr dle optimálního plánu reprezentativní vzorek n jedinců (faktor F) měření znaku MU OOooOOOoOo variabilita hodnot ve výběrovém souboru VÝSLEDKY .................... IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek o > 0 o Q-: -•—■" O > '■*—» (0 -•—» (U N (U Q-: (U rr >LU > < N Reprezentativnost Spolehlivost Přesnost ů> oO ... analyzovaný znak cílové populace (X) ... jiný významný faktor charakterizující cílovou populaci (F) cílová populace -4.................. Učel analýzy: Srovnávací (2 ramena) \~ / i? výběr subjektů pro vstup do hodnocení / studie ---------------------Y--------------------- RANDOM IZACE vzájemně srovnatelné vzorky (faktor F) rameno A rameno B ••• měření znaku X OooOO oOoOo variabilita hodnot X v rameni A variabilita hodnot X v rameni B MU VÝSLEDKY IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek < i ° 2 > -I—» s- CO !— N - (D •f-> s_ >; 2! >LU -: < N 4) oOO ... analyzovaný znak cílové populace (X) •• ... jiný významný faktor charakterizující cílovou populaci (F) Srovnatelnost Spolehlivost Přesnost Samotná statistická významnost nemá žádný reálný význam, je pouze měřítkem náhodnosti hodnoceného jevu Pro vyhodnocení reálné významnosti je nezbytné znát i reálně významné hodnoty «* o o c H3 B *■* P- 4S 5 ANO OK, praktická i statistická významnost je ve shodě, jednoznačný závěr NE Výsledek může být pouhá náhoda, neprůkazný výsledek \/v/"7ri^ľY^n\/ \ /\ #c I ö r\ ö \s í r\ vyz.1 id i ly vy:>icuci\ je statistický artefakt velkého vzorku, prakticky nevyužitelné OK, praktická i statistická významnost je ve shodě, jednoznačný závěr MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Obecné schéma využití statistické analýzy Experimentálni design Vzorkovaní Uložení a management dat Vizualizace dat Popisná analýza Testování hypotéz Modelování MU Jak velký vzorek je nezBytný pro statisticky relevantní výsledky? Klíčová stratifikační kritéria cílové populace. Vzorkovací plán zabezpečující náhodnost a reprezentativnost vzorku. Uložení dat ve vhodné formě a jejich vyčištění předcházející vlastní analýze je klíčovým krokem statistické analýzy. Grafická inspekce dat je nezbytným krokem analýzy vzhledem ke schopnosti lidského mozku primárně akceptovat obrazová data. Poskytne vhled do dat, představu o jejich rozložení, vazbách proměnných apod. Popisná analýza umožňuje vyhodnotit srovnáním s existující literaturou realističnost naměřených rozsahů dat. Testování vazeb mezi různými proměnnými s cílem navzájem vysvětlit jejich variabilitu a tím přispět k pochopení řešeného problému. Možným vyvrcholením analýzy je využití získaných znalostí a pochopení problému k vytvoření prediktivních modelů. IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Stochastické modelování: predikce neurčitých jevů Prospektivně - modelově - postihuje chování jevu při respektování variability Pravděpodobnostní vztahy Anamnéza x Výsledek vyšetření pacienta Karcinom Benigní leze Benigní riziková Zdravá Pozitivní anamnéza 2,22 34,44 0,00 63,33 100% Negativní anamnéza 1,06 28,23 0,96 69,75 100% p < 0.05 Vícerozměrná diskriminace Znak X1 ;' OBOČ* Znak X2 Markovovy řetězce P(ii-iii) Stav III P(III-IV) Stav II P(i-ii) Stav I Logistické modely ZnakX MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Funkční vztahy znaků Znak Y Znak Y čSí^qc ZnakX ZnakX Chování systému v čase Znak (y) Cas (t) Stochastické modelování: predikce neurčitých jevů 1,0 a š ^ 5 pS * ° s ä sS ä O TS >G> Oh c« 1,01 .-•' -4,0 4,0 0,0 0 10 20 30 40 50 60 70 80 Osa X Parametr nebo kombinace parametru Data konkrétních pacientů (subjektů) k přímému hodnocení MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Stochastické modelování: predikce neurčitých jevů Maligní lymfomy: Pravděpodobnost časného relapsu Stádium I -II Stádium III-IV # Grade O Grade 2 1 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Index Mitosis / (Apoptosis + 0.5) MU IBA Schopnost: vytvářet prakticky využitelné nástroje Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek IL Příprava dat Klíčový význam korektního uložení získaných dat Pravidla pro ukládání dat Čištění dat před analýzou MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek IBA Anotace • Současná statistická analýza se neobejde bez zpracování dat pomocí statistických software. Předpokladem úspěchu je správné uložení dat ve formě „databázové" tabulky umožňující jejich zpracování v libovolné aplikaci. • Neméně důležité je věnovat pozornost čištění dat předcházející vlastní analýze. Každá chyba, která vznikne nebo není nalezeno ve fázi přípravy dat se promítne do všech dalších kroků a může zapříčinit neplatnost výsledků a nutnost opakování analýzy. MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I" J. Jarkovský, L Dušek DATA - ukázka I Uí >P( )ra( Jáni datového sou boru Parametry (znaky) ^^H Opakování Pacient Človek a Leu aTy% aSe% aNeu% al_y% — ii a Ty ■■ — aSe a Neu al_y aHtc aCLsk aCLNeus aCLOZ aCLNeuO cell. 106/ % % % % cell.10e/ cell.10e/ cell.10e: cell.10e/ % mV.s.103 mV.s.103 mV.s.103 mV.s.103 3 1 4 33 72 32 4 2 7,6 8 58 66 24 0,6 4,4 5,0 1,8 33 95 19 48 10 8 3 4 3 52 55 40 0,1 2,1 2,2 1,6 22 77 35 33 15 11 4 6,1 5 59 64 35 0,3 3,6 3,9 2,1 33 103 26 49 13 12 5 6,9 3 85 88 9 0,2 5,9 6,1 0,6 37 81 13 45 7 14 6 5,9 15 55 70 19 0,9 3,3 4,1 1,1 32 137 33 61 15 16 7 8 18 75 93 7 1,4 6,0 7,4 0,6 34 151 20 59 8 20 8 9,6 3 72 75 23 0,3 6,9 7,2 2,2 40 77 11 38 5 1 21 9 6 10 67 77 19 0,6 4,0 4,6 1,1 32 120 26 52 11 22 10 3,3 4 55 59 39 0,1 1,8 2,0 1,3 28 81 42 24 12 37 11 3,8 10 60 70 30 0,4 2,3 2,7 1,1 32 111 42 29 11 38 12 6,4 2 76 78 17 0,1 4,9 5,0 1,1 25 366 73 115 23 39 13 6,8 1 57 58 39 0,1 3,9 3,9 2,7 20 234 59 71 18 49 14 8,5 7 67 74 26 0,6 5,7 6,3 2,2 30 156 25 108 17 51 15 9,3 7 57 64 35 0,7 5,3 6,0 3,3 35 129 21 23 4 52 16 2,2 10 56 66 34 0,2 1,2 1,5 0,7 33 46 30 12 8 55 17 9,9 3 78 81 10 0,3 7,7 8,0 0,1 30 189 24 140 18 56 18 5 2 80 82 13 0,1 4,0 4,1 0,7 26 101 25 54 13 6 1 8,8 11 72 83 12 1,0 6,3 7,3 1,1 44 268 36,6 145 19,9 9 2 9,2 2 66 68 28 0,2 6,1 6,3 2,6 42 168 26,9 76 12,2 13 3 10,0 7 83 90 8 0,7 8,3 9,0 0,8 54 181 20,1 81 9 15 4 9,6 1 75 76 23 0,1 7,2 7,3 2,2 45 343 47 124 16,9 17 5 6,0 45 40 21 19 6 7,2 2 78 80 18 0,1 5,6 5,8 1,3 44 103 17,8 63 10,9 24 7 8,2 1 72 73 25 0,1 5,9 6,0 2,1 41 209 34,9 57 9,6 26 8 10,3 1 85 86 3 0,1 8,8 8,9 0,3 41 364 41,1 112 12,6 29 9 5,0 1 74 75 21 0,1 3,7 3,8 1,1 39 83 22,1 32 8,5 30 10 11,9 1 51 52 47 0,1 6,1 6,2 5,6 33 83 13,4 52 8,4 31 11 7,2 3 53 56 29 0,2 3,8 4,0 2,1 28 109 27,1 63 15,5 32 12 10,8 36 50 76 8 3,9 5,4 9,3 0,9 27 146 15,7 106 11,4 33 13 11,8 22 54 76 16 2,6 6,4 9,0 1,9 45 246 27,4 63 7 34 14 17,0 1 82 83 16 0,2 13,9 14.1 2,7 34 440 31,2 119 8,4 40 15 10,0 8 72 80 4 0,8 7,2 8,0 0,4 37 176 22,0 52 6,5 MU 7bä r Vytvořil Ir J. Jarkovský, L Dušek Správné a přehledné uložení dat je základem jejich pozdější analýzy Je vhodné rozmyslet si předem jak budou data ukládána Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky o Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce o Každý řádek obsahuje minimální jednotku dat (např. pacient, jedna návštěva pacienta apod.) o Je nepřípustné kombinovat v jednom sloupci číselné a textové hodnoty o Komentáře jsou uloženy v samostatných sloupcích o U textových dat nezbytné kontrolovat překlepy v názvech kategorií o Specifickým typem dat jsou datumy u nichž je nezbytné kontrolovat, zda jsou datumy uloženy v korektním formátu Takto uspořádaná data je v tabulkových nebo databázových programech možné převést na libovolnou výstupní tabulku Pro základní uložení a čištění dat menšího rozsahu je možné využít aplikací MS Office MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek MS Excel b Kontingenční tabulky - rychlá sumarizace rozsáhlých tabulek b Možnost výpočtů a grafových výstupů přímo v aplikaci b Visual Basic-složitější aplikace Omezení tabulky na 256x65536 buněk (do verze 2003) Omezená kontrola chyb při zadávání MS Access b Plnohodnotná databáze vhodná pro velké množství dat, řádky omezeny v podstatě jen dostupnou pamětí b Kontrola typu dat b Relace tabulek - omezení velikosti souboru b Visual Basic a formuláře - složitější aplikace Omezení tabulky na 255 sloupců Výpočty a grafy jsou složitější než v Excelu hL "r UI. tor- -j-k1- DrBcHaU ■ u.L N1U IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Možnosti MS Excel Správa a práce s tabulárními daty Řazení dat, výběry z dat, přehledy dat Formátování a přehledné zobrazení dat Zobrazení dat ve formě grafů Různé druhy výpočtů pomocí zabudovaných funkcí Tvorba tiskových sestav Makra - zautomatizování častých činností Tvorba aplikací (Visual Basic for Aplications) *• ^ MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Import a export dat • Import dat o Manuální zadávání o import - podpora importu ze starších verzí Excelu, textových souborů, databází apod. o kopírování přes schránku Windows - vkládání z nejrůznějších aplikací - MS Office, Statistica atd. o využití textových souborů jako kompatibilního formátu pro přenos dat mezi různými aplikacemi • Export dat o Ukládáním souborů ve formátech podporovaných jinými SW, časté jsou textové soubory, dbf soubory nebo starší verze Excelu o Přímé kopírování přes schránku Windows MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I" J. Jarkovský, L Dušek Tipy a triky • Výběr buněk o CTRL+A-výběr celého listu o CTRL + klepnutí myší do buňky-výběr jednotlivých buněk o SHIFT + klepnutí myší na jinou buňku - výběr bloku buněk o SHIFT + šipky - výběr sousedních buněk ve směru šipky o SHIFT+CTRL+END (HOME) - výběr do konce (začátku) oblasti dat v listu o SHIFT+CTRL+šipky - výběr souvislého řádku nebo sloupce buněk o SHIFT + klepnutí na objekty - výběr více objektů • Kopírování a vkládání o CTRL+C-zkopírování označené oblasti buněk o CTRL+V - vložení obsahu schránky - oblast buněk, objekt, data z jiné aplikace • Myš a okraje buňky o Chycení myší za okraj umožňuje přesun buňky nebo bloku buněk o Při chycení čtverečku v pravém dolním rohu výbU^u je tažením možno vyplnit více buněk hodnotami původní buňky (ve vzorcích se mění relativní odkazy, je také možné vyplnění hodnotami ze seznamu - např. po sobě jsoucí názvy měsíců. MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I" J. Jarkovský, L Dušek Databázová struktura dat v Excelu Sloupce tabulky = parametry záznamů, hlavička udává obsah sloupce - stejný údaj v < Delém sloupci Pj 5ouboi .__ DJ2íl 1 Úpravy Zobrazit it Formát Nástroje Data Okno Nápověda Nápověda - zadejte dotaz - _ D e3P \p s n sů \f t mm~ <\ Ověření dat IX Nastavení I Zpráva pn zadávání | ChyboveTTiešení | ve rnes 1*1 Ověřovací kritéria Povolit: Co je povoleno - definiční obory čísel, seznamy, vzorce atd. Rozsahy hodnot, načtení seznamů apod Icelé číslo d p Data: 1 je mezi z\ Minimum: lo ^ Maximum: 11000000000 m W Přeskakovat prázdné buňky Použít tyto změny u všech ostatních buněk se stejným nastavením - Vymazat vše OK Storno MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Seznamy • Skupiny hodnot zachovávající logické pořadí, některé jsou zabudované (např. dny v týdnu, měsíce v roce), další je možné uživatelsky vytvořit, slouží pro účely řazení a automatického vyplňování dat Existující seznamy -2]*l Nástroje Data Okno ľ Barva Makro Možnosti. dpc Analýza dat k Mezinárodní Ukládání Kontrola chyl Výpočty Úpravy Obecné Pře1 Položky seznamu: í> 000 Po, Ut, 5t, CtjVá, So, Ne Pondělí, Úterý, Středa, Čtvrtek, Pátek, Sobotl I, II, III, IV, V, VI, VII, VIII, IX, X, XI, XII leden, únor, březen, duben, květen, červen, i spring 97, autumn 97, spring 98 I - d d Přidat Odstranit d Položky seznamu můžete oddělit stisknutím klávesy Enter Importovat seznam z buněk: Výběr buněk pro nový seznam Načtení nového seznamu MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Řazení dat • Řazení dat je nejjednodušším způsobem jejich zpřehlednění, užitečným hlavně u menších/výsledkových tabulek & Zkontrolujte, zda seřazení nezničí vazby mezi buňkami = kontrola oblasti, kterou řadíte. Podle čeho řadit Data | Okno Nápověda Z | Seřadit... II Filtr Formulář. Text do sloupců. Ü (* Vzestupně ^~ C Sestupně Dále podle 'TT (* Vzestupně C Sestupně Pak podle T| (* Vzestupně C" 5estupně_ Seznam (* 5e záhlavím (Bez záhlaví Směr řazení - vzestupně, sestupně Další možnosti - řazení řádků, řazení podle seznamu ^ Možnosti OK Storno Využít první řádek oblasti jako záhlaví MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Automatický filtr Pomocí automatického filtru je snadné vybírat úseky dat pro další zpracování na základě hodnot ve sloupcích databázové tabulky, výběr je možný i podle více sloupců (např. určitá skupina pacientů) Funkce automaticky rozezná hlavičky sloupců v souvislé oblasti buněk U sloupců použitých pro filtraci jsou rozbalovací seznamy zbarveny modře Výhodné pro čištění dat (vyhledávání překlepů, kombinace textu a čísel) Výběr hodnot pro filtraci -) z i Seřadit. Data Okno Nápověda Filtr Formulář. Text do sloupců. I li U S 100% G Automatický filtr Rozšířený filtr.. I l > E Microsoft Ewcel - ryby.Hls lp] Soubor Úpravy Zobrazit Vbžit Formát E5 - f* 42 Nástroje 1 ®) - ^ I Rozbalení seznamu hodnot nalezených ve sloupci MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek . Vizualizace dat Typy grafické vizualizace Rizika desinterpretace grafického zobrazení dat MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek IBA Prvním krokem v analýze dat je jejich vizualizace. Různé typy dat nám umožňující získání představy o rozložení dat, zastoupení kategorií i vztazích proměnných navzájem. Prostřednictvím vizualizace získáváme vhled do dat a začínáme vytvářet hypotézy o zákonitostech panujících mezi proměnnými v hodnoceném souboru dat. MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Grafická prezentace dat - umění komunikace 1. Výskyt kategorií (1, 2, 3,) Koláčový (výsečový) gra Sloupcový graf H Řada2 Sloupcový graf Rada2 >o O Q. O .O < 40 20 % 100 50 2. Vývoj hodnot (v čase) Y vs. X (t) Spojnicový graf _ Rada Bodový graf ■Rada 30 15 30 30 1 2 3 10 20 X 0 5 10 15 20 25 X MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovsky, L Dušek 40% 30% Plošný graf Rada2 10 20 X 3. Vztahy mezi proměnnými - korelace Bodový - korelační diagram >•• .ě i •S> MU Bodový - korelační diagram X1 1 2 3 10 20 X2 0 5 10 15 20 25 X2 .drilu X1 X2 Rada2 J X2 IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek 0 0° nOfi 0 0 * ° tP. 0 C Oo «bi % OQ lnl.Hi. 0 0 00 jO^O o c r "c o . o o c 0 0 iiIMm .ihi L %„<* °»- ° I llhL» Grafická prezentace dat - umění komunikace 4. Kvantitativní hodnoty parametru(ů) -X-v rámci kategorií A, B, C X 40 Krabicový graf 20 Rada2 X" 5. Histogram -2-101 23456789 101112 X 1001 50 Rada2 40 35 30 25 20 15 10 / llllliiiľhw -50 0 50 100 150 200 250 300 IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Sloupcový graf 100 50 I Rada2 Grafická prezentace dat - umění komunikace 6. Zviditelnění primárních dat Á I 1 xl x2 v. J x3 •^í^ ľ*-' -*-"• vn*** 2, ■*»*■ j-x>r»*' «^ <3^ ^ ^ MU /BA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Grafická prezentace dat - umění komunikace 7. Vztahy mezi proměnnými - interakce dvou parametrů, reakční plochy IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Grafická prezentace dat - umění komunikace 8. Grafické zviditelnění má nekonečně mnoho možností I BUNKY2 i BUNKY1 I ENZYW2 ^^se^*^6 V71 BUHKY2 K3 BUHKY1 ITT ENZYM2 ) o o o o o i I BÜNKY2 I BUNKY1 I EMZYM2 Case 10 Case 11/^^ Case 12/ -... ^Csss -Csss "„ "3Z----.-------___Csse? .CaseS ^^Case 4 \ Case 3 Case 13 5^ \case2 Case 14/ WA \case1 Case 15 f Case 16 \ fz 5% 500 700 9Í0 / Cass; 30 Case17\ /Case 23 Case 18 ■ ----..,--■- /case 26 Case 19 \ Case20x^ Case 21 """'-^■■■:"v' ' /Case 27 'Case 26 S BUNKY2 F?j BUNKY1 <^2£ase2ltase2ÍM25 ra ENZYW2 __77^^9^^ř777^^r7T7if^^-. ^ 20 ■ ■ * -jP^ ■ • • ^^ 10 15 20 25 BO 35 40 45 50 0 EMZYM1 £t=^s: = :t CI£ l * Kr i......1 I t i t r I i i r i T t ■ i i 1930 1940 1950 1960 1970 13Ů0 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek 3 "O o O JO c ■o O w ■fl C -0) 3 a e I ftl I I .1 I I I 1 ■ F I I 1 I I I I » I I I ■ 1 ■ I I I I 1930 1940 1950 1960 1970 i960 Grafy zaměřené na vícerozměrné soubory dokáží zviditelnit i veliké soubory dat e MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek IV. Teoretické pozadí statistické analýzy Jak vznikají informace Rozložení dat MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek IBA Základním principem statistiky je pravděpodobnost výskytu nějaké události. Prostřednictvím vzorkování se snažíme odhadnout skutečnou pravděpodobnost událostí.Klíčovou otázkou je velikost vzorku, čím větší vzorek, tím větší šance na projevení se skutečné pravděpodobnosti výskytu jevu. MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek JAK vznikají informace ? základní pojmy kutečnost Náhoda (vybere jednu z možností pokusu) Jev [mtiítiTrs /Rozliší, co nastalo a) podle možností b) podle toho, jak potřebuje podmnožina všech možných výsledků pokusu/děje, o které lze říct, zda nastala nebo ne •iti třída všech jevů, které jsme se rozhodli nebo jsme schopni sledovat Skutečnost + Jevové pole = Měřitelný prostor Experimentální jednotka - objekt, na kterém se provádí šetření Populace - soubor experimentálních jednotek Znak - vlastnost sledovaná na objekte Sledovaná veličina - číselná hodnota vyjadřující výsledek náhodného experimentu Znak se stává náhodnou veličinou, pokud se jeho hodnota zjišťuje vylosováním objektu ze základního souboru MU Výběr - výběrová populace - cílová populace Náhodný výběr Reprezentativnost IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek JAK vznikají informace ? „Empirical approach" „Classical approach" •• t t « * Empirický postup n = 10 n °-3" 0.2-0.1 ■ • • n n = 50 0.3-i 0.2- i i • 0.1 -n . • • • • n = oo n °-3" 0.2-0.1 - 0 12 3 4 5 6 0 12 3 4 5 6 0 12 3 4 5 6 možné jevy: čísla 1-6 n - počet hodů (opakování) U složitých stochastických systémů se pravda získá až po odvedení značného množství experimentální práce: musíme dát systému šanci se projevit MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek n 0.3 n 0.2-0.1 ■ MU JAK vznikají informace ? o 1 Empirický postup n = 10 n n = 50 0.3-i 0.2- O ( 0.1 - • • • • n = oo n 0.3-1 0.2-0.1 - 3 4 5 6 0 12 3 4 5 6 0 12 3 4 5 6 možné jevy: čísla 1-6 n - počet hodů (opakování) Při realizaci náhodného experimentu roste se zvyšujícím se počtem opakování pravdivá znalost systému (výsledky se stávají stabilnější) .... diskutabilní je ale ovšem míra zobecnění konkrétního experimentu IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Empirický zákon velkých čísel Při opětovné nezávislé realizaci téhož náhodného experimentu se podíl výskytu sledovaného jevu mezi všemi dosud provedenými realizacemi zpravidla ustaluje kolem konstanty. Pravděpodobnost je libovolná reálná funkce definovaná na jevovém poli A, která každému jevu A přiřadí nezáporné reálné číslo P(A) z intervalu 0 -1. Z praktického hlediska je pravděpodobnost idealizovaná relativní četnost 0 1 MU P (A) = 1 .................................jev jistý P (A) = 0.................................jev nemožný P (A n B) = P (A). P(B)............. nezávislé jevy P (A n B) = P (A). P (B/A) ...........závislé jevy P (A / B) = P (A n B) / P (B)..........podmíněná pravděpodobnost IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Pravděpodobnost výskytu jevu - rozložení dat o -y- existuje pravděpodobnost výskytu jevů (nedeterministické závěry) -y- „vše je možné": pouze jev s pravděpodobností 0 nikdy nenastane -y- pravděpodobnost lze zkoumat retrospektivně i prospektivně pravděpodobnost výskytu ▲ Intervalová hustota četnosti MU Výběrová distribuční funkce 1 -r 20 40 60 80 100 F(x) r=> Intervalová relativní kumulativní četnost IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Počet zvolených tříd a velikost souboru určují kvalitu výstupu k= 10 tříd 5 4 3 2 1 O 8 7 6 5 4 3 2 1 0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5 4 3 2 1 0 k = 20 tříd 1,0 2,0 3,0 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek k = 5 tříd 4,0 12 3 4 5 5,0 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Příklad: věk účastníků vážných dopravních nehod Q) O C d) >G) > 0) O o u O O. 0) O c 60 10 20 30 40 50 60 70 80 Věk (roky) IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek f 28 46 58 20 114 316 103 Rozložení y Distribuční funkce J MU Je - li dána distribuční funkce, je dáno rozložení IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Výběrové rozložení hodnot lze modelově popsat a definovat tak pravděpodobnost výskytu X f(x) f(x) cp(x) f(x) cp(x) MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Distribuční funkce jako užitečný nástroj pro práci s rozložením Plocha = relativní četnost oo -/~(x) d(x) "/ Známe-li distribuční funkci, pak známe rozložení sledované veličiny. Pro jakoukoli množinu hodnot (M) lze určit P, že X do této množiny patří. MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Jak vznikají informace ? - frekvenční sumarizace spojitých dat Grafické výstupy z frekvenční tabulky - spojitá data f(x) 0.025 -i 0.02- 0.015- 0.01 - 0.005 - 0- 20 40 60 j 80 100 20 40 60 80 100 MU Uspořádání čísel podle velikosti a konstrukce rozložení umožňuje pravděpodobnostní zařazení každé jednotlivé hodnoty KVANTU! Xq.1 ! X0-9; ^0.5! ^e IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Otázka: Jak velké musí být X, aby 5 % všech hodnot bylo nad ním? j(x) MU 0 = 0,95 ... Pravděpodobnost Hledáme: P(X neúměrně zvýší s2 X MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I" J. Jarkovský, L Dušek Normální í jako model /. Použitelnost modelu A) X: spojitý znak - hmotnost jedince (myši) 1,2; 1,4; 1,6; 1,8; 2,0; 2,4; 3.8 n = 7 opakování medián = 1,8 průměr = lýv= -Ýx;= -(l,2 + l,4 + l,6 + l,8 + 2,0 + 2,4 + 3,8) = -14,2 = 2,03 nVx 7tř 7V 7 2>7-x)2 Žfo-2,03)2 rozptyl (s2) 2\ -J^L i=\ n-\ = 0,766 srn. odchylka (s) = Vs = Jo,766 = 0,875 o Je předpoklad normálního rozložení oprávněný ? Jaký předpokládáte možný rozsah hodnot tohoto znaku ? O MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Normální rozložení jako model /. Použitelnost modelu B) X: spojitý znak - hmotnost jedince (myši) 1,2; 1,4; 1,6; 1,8; 2,0; 2,2; 2,4; 3,8; 8,9 n = 9 opakování medián = 2 O v prumer = -Yx1=-Yx1= -(l,2 +1,4+ 1,6+ 1,8+ 2,0+ 2,2+ 2,4+ 3,8+ 8,9) = -25,3 = 2,81 «tř 9£r 9 9 2>7-x)2 Éfe-2,81)2 rozptyl (s2) 2\ = i=\ i=\ n-\ 8 = 5,79 srn. odchylka (s) = V-r = ^5,79 = 2,269 1 Jak hodnotíte model u těchto dat ? 1 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek 2 3- MU Stochastické í jako model 1 ► Předpoklad: Znak x je rozložen podle daného modelu ý Znak x je naměřen o n hodnotách s modelovými parametry: x a s ^ Platnost i ^ modelu ? i__________ Znak x je převeden na formu odpovídající tabulkovému standardu: lh \Z; = X - jU Využije se tabelovane (modelové) distribuční funkce pro testy o rozložení hodnot x IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Normální í jako model - příklad Tabulky distribuční funkce Data z průzkumu jsou publikována jako: Kosti prehistorického zvířete: n = 2000 průměrná délka = 60 cm srn. odchylka (s) = 10 cm y Předpokládáme, zeje oprávněný model normálního rozložení ^ Jaká je pravděpodobnost, že by velikost dané kosti překročila velikost z = x - JU (7 9 9 66 cm: P (x > 66) ? p(x>66)=i-P(x<66) a platí, že P{x 66) = 1 -P(x < 66) = 1 -P(x^m- < 66~60) = 1 -f(0,6) = 0,27425 s 10 Kolik kostí mělo zřejmě délku větší než 66 cm ? ^>66)*«=0,27425*2000=548 Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ? P(60 J. Jarkovský, L Dušek Stručný přehled modelových rozložení II. Rozložení Parametry Stručný popis Beta Parametry distribuční funkce: a - parametr tvaru ß - parametr rozsahu hodnot Pravděpodobnostní funkce pro proměnnou omezenou rozsahem do intervalu [0; 1]. Je matematicky komplikovanější, ale velmi flexibilní při popisu změn hodnot proměnné v ohraničeném intervalu. Studentovo Stupně volnosti -uvažuje velikost vzorku Průměr Rozptyl Simuluje normální rozložení pro menší vzorky čísel. Pro větší soubory (n > 100) se limitně blíží k normálnímu rozložení. Pearsonovo Stupně volnosti -uvažuje velikost vzorku Slouží především k porovnání četností jevů ve dvou a více kategoriích. Používá se k modelování rozložení odhadu rozptylu normálně rozložených dat. Fisher-Snedecorovo Dvojí stupně volnosti -uvažuje velikost dvou vzorků Používá se k testování hodnot průměrů - F test pro porovnání dvou výběrových rozptylů; F test, ANOVA atd. ■ p> J. Jarkovský, L Dušek Log-normální rozložení jako častý model reálných znaků cp(x) Medián Průměr U asymetrických rozložení je medián velmi vhodným alternativním ukazatelem středu Medián - frekvenční střed • • k • • • MU Prumer - teziste osy x IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Log-normální rozložení lze jednoduše transformovat Y = Ln [X] Medián Průměr x ln(x) Medián = Průměr / EXP (Y) = Geometrický průměr X __ n y Ý ± Standardní chyba MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Transformace dat - legitimní úprava / Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu ogaritmická transformace Logaritmická transformace je velmi vhodná pro data s odlehlými hodnotami na horní hranici rozsahu. Při porovnání průměrů u více souborů dat je pro tuto transformaci indikující situace, kdy se s rostoucím průměrem mění proporcionálně i směrodatná odchylka, a tedy jednotlivé proměnné mají stejný koeficient variance, ačkoli mají různý průměr. Za takovéto situace přináší logaritmická transformace nejen zeslabení asymetrie původního rozložení, ale také vyšší homogenitu rozptylu proměnných. Pro transformaci se nejčastěji používá přirozený logaritmus a pokud jsou v původním souboru dat nulové hodnoty, je vhodné použít operaci Y = In (X+1). Je-li průměr logaritmovaných dat (tedy průměrný logaritmus) zpětně transformován do původních hodnot, výsledkem není aritmetický, ale geometrický průměr původních dat. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek IBA Transformace dat - legitimní úprava / Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu mocninova transTormac Transformace je vhodná pro proměnné mající Poissonovo rozložení, tedy proměnné vyjadřující celkový počet nastání určitého jevu (spíše vzácného) v n nezávisle opakovaných pokusech. Obecněji lze tento typ transformace doporučit v případě normalizace dat typu počtu jedinců (buněk, apod.). Jde o transformaci: Y = yjx nebo Y = Vx +1 nebo 7=Vx+Vx+l Transformace s přičtenou hodnotou 1 jsou efektivní, pokud X nabývá velmi malých nebo nulových hodnot. Situace indikující vhodnost odmocninové transformace je také proporcionalita výběrového rozptylu a průměru, tedy obecně jestliže s2x = k (výběrový průměr). MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Transformace dat - legitimní úprava Tcsin transformace Tzv. úhlová transformace - velmi vhodná pro data typu podílů výskytu určitého jevu (znaku) mezi n hodnocenými jedinci - tedy pro data mající binomické rozložení. Pokud se určitý znak vyskytuje r-krát mezi n možnostmi (jedinci, opakováními), pak lze vyjádřit relativní četnost jeho výskytu jako p = r/n s variabilitou p.(1-p)/n. Arcsin transformace odstraní ze souborů dat podíly blízké 0 nebo 1, a tak efektivně sníží variabilitu odhadů středu. Transformace však není schopná odstranit variabilitu vyvolanou rozdílným počtem opakování v jednotlivých variantách - v takovém případě lze doporučit provedení vážených transformací dat. Velmi častou formou této transformace je: .— Y = arcsin ^p - tedy transformace podílů do hodnot, jejichž sinus je roven druhé odmocnině původních hodnot. Pokud celkový počet jedinců (opakování), mezi kterými je výskyt znaku monitorován, je n < 50, pak lze doporučit velmi efektivní empirická opatření pro transformaci podílů blízkých 0 nebo 1. Pro tento případ lze nahrazovat nulové podíly hodnotou 1/4n a 100 % podíly hodnotou (n-1/4)/n. Pokud se mezi hodnotami vyskytuje větší množství krajních hodnot (menší než 0,2 a větší než 0,8), lze doporučit transformaci: 2 x arcsm n + 1 + arcsm x + 1 n + 1 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek 21 VIL Popisná statistika dat Popisné statistiky dat Vizualizace dat MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek IBA Anotace • Popisná analýza dat je po vizualizaci dat dalším krokem v procesu statistického hodnocení. Poskytuje představu o rozsazích hodnocených dat a umožňuje vyhodnotit, srovnámís literárními údaji nebo dosavadní zkušeností, jejich realističnost. • Již při výběru vhodné popisné statistiky se uplatňuje znalost rozložení dat. Některé popisné statistiky, odvozené od modelových rozložení, je možné využít pouze v případě, že data mají dané modelové rozložení. Typickým příkladem je průměr a směrodatná odchylka, jejichž předpokladem je přítomnost normálního rozložení. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Kvalitativní/kategorická o binární -ano/ne o nominální - A,B,C ... několik kategorií o ordinální-1<2<3 ...několik kategorií a můžeme se ptát, která je V - v / vetsi Kvantitativní o nespojitá - čísla, která však nemohou nabývat všech hodnot (např. počet porodů) o spojitá-teoreticky jsou možné všechny hodnoty (např. krevní tlak) MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Řada dat a její vlastnosti -------o------- Jednotlivé hodnoty i—i—i—i—i ľ? 0 skewness<0 kurtosis<0 kurtosis>0 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Další parametry rozložení Počet hodnot - důležitý ukazatel, znamená jak moc lze na data spoléhat Střední chyba odhadu průměru -je založena na směrodatné odchylce rozloženia počtu hodnot, vlastně jde o směrodatnou odchylku rozložení průměru. Říká jak přesný je náš výpočet průměru. Čím větší počet hodnot rozložení, tím je náš odhad skutečného průměru přesnější. Suma hodnot Modus- nejčastější hodnota, vhodný např. při kategoriálních datech • Minimum, maximum Rozsah hodnot Harmonický průměr - převrácená hodnota průměru převrácených hodnot (vždy platí harmonický průměr < geometrický průměr < aritmetický průměr) MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I" J. Jarkovský, L Dušek Vlil. Prováděni odhadu Bodové a intervalové odhady Význam intervalu spolehlivosti MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek IBA Anotace • Dva základní přístupy statistického hodnocení jsou popis dat a testování hypotéz. Při popisu dat je třeba si uvědomit, že popisné statistiky získané ze vzorku nejsou skutečnou hodnotou v cílové populaci, ale pouze jejím odhadem. Přesnost odhadu závisí jednak na variabilitě dat, jednak na velikosti vzorku, při navzorkování celé cílové populace by výsledná popisná statistika již byla přesnou hodnotou, nikoliv odhadem. • Odhady a s nimy související intervaly spolehlivosti jsou univerzálním statistickým postupem a je možné je dopočítat k libovolné popisné statistice. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Statistika v průzkumném studiu Provádění odhadu Reprezentativnost / Ověření POPIS MU Výsledek IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Testy hypotéz Cílová populace Závěr ? Interpretace OTÁZKY INTERVAL SPOLEHLIVOSTI velmi užitečná míra věrohodnosti odhadů ODHADY Bodové Číslo (chyba) (Odhad parametru) Intervalové Interval pravděpodobných hodnot Spolehlivost (Pravděpodobnostní interpretace) Obecný tvar: Odhadovaný parametr Kvantil modelového x SE (odhadu) rozložení Kv pro (1 - a/2) MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek NORMÁLNI ROZLOŽENÍ: model pro odhad průměru Cílová populace \ M X X......odhad průměru MU Prezentace L________________ n; x; s s n; x; .— _ V n n; x; c n; x; Interval spolehlivost i pro odhad průměru IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek NORMÁLNÍ ROZLOŽENÍ: odhad průměru je rovněž normálně rozložen Cílová populace znakx X: M Náhodné výběry o n = 100 X1 X2 X3 X4 \. "SS Xi q>(x) prumerx MU M X x: \x, ± 3s x M±3 . rrT rrv ^ Standardní chyba odhadu průměru IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek ODHAD PRŮMĚRU: Vztahy Bodový f s ^ JV i V ^rn J Intervalový Zr Av = n-\) x -1 -^Av = n-\) \-CCy v« < jU < X + ťf_ a, -yjn . TT-U ^(^ = «-l) ju:x ±ť a, S^ x ... příslušný kvantil Studentova rozložení - a ... spolehlivost hodnoceného intervalu MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Interval spolehlivosti odhadu průměru je pouze informací o přesnosti tohoto odhadu Interval spolehlivosti je hodnocen pro (1 - a) procentní spolehlivost Cílová populace Výběrové populace Původní proměnná x Šířku intervalu určuje: a) velikost vzorku b) rozptyl (variabilita) vzorku c) požadovaná spolehlivost Výběrn=10 pro odhad průměru Výběr n=100 pro odhad průměru VTöö Vioo MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek ODHAD PRŮMĚRU: Příklad X: Cena výrobku v n = 21 obchodech Data: « = 21;jc = 3,58;í =0,12 s- = J0,12/21 = 0,075 95% Interval spolehlivosti (u = n-1) (20) t 1-0/2 = t0)975 =2,086 ju : x ± 29086 .s X 3,58 - 2,086.0,075 < ju < 3,58 + 2,086.0,075 3,423 < m < 3,737 hv^l P (3,423 < m < 3,737) > 0,95 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Interval spolehlivosti pro odhad rozptylu _____________ 2 (»-1) X «/2 Jn . U normálního rozložení, kde medián i průměr představují odhad stejné hodnoty, je medián méně přesný než průměr. Proto hlavní význam mediánu spočívá u nesymetrických distribucí. Existuje velmi jednoduchá metoda pro výpočet intervalu spolehlivosti pro odhad mediánu a jako horní a spodní hranice slouží pořadová čísla vypočítaná podle následujícího vztahu: n představuje velikost datového souboru, zje kvantil standardizovaného normálního rozložení pro příslušnou pravděpodobnost. U našeho příkladu je n = 179 a pro 95% interval spolehlivosti je z přibližně rovno 2. Horní a spodní limit pro odhad mediánu tedy je 90 + Vl79 = 77 a 1 03- 95% interval spolehlivosti je tedy tvořen počty dní, které mají pořadí 77 a 103: 77: Počet dní = 40,5+(36)(20)/50 = 55 dní 103: Počet dní = 60,5+(12)(20)/32 = 68 dní Medián cílové populace byl tedy odhadnut 95% intervalem spolehlivosti jako hodnota ležící mezi 55 a 68 dny. Interpretujte tento výsledek. MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek IX. Základy testování hypotéz Princip statistického testování hypotéz Pojmy statistických testů Normalita dat a její význam pro testování MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek IBA Anotace • Testování hypotéz je po popisné statistice druhým hlavním směrem statistických analýz. Při testování pokládáme hypotézy, které se snažíme s určitou pravděpodobností potvrdit nebo vyvrátit. • Tzv. nulovou hypotézu lze nejlépe popsat jako situaci, kdy předpokládáme vliv náhody (rozdíl mezi skupinami je pouhá náhoda, vztah dvou proměnných je pouhá náhoda apod.), alternativní hypotéza předpokládá vliv nenáhodného faktoru. • Výsledkem statistického testu je v zásadě pravděpodobnost nakolik je hodnocený jev náhodný nebo ne, při překročení určité hranice (nejčastěji méně než 5% pravděpodobnost, že jev je pouhá náhoda) deklarujeme, že pravděpodobnost náhody je pro nás dostatečně nízká abychom jev prohlásili za nenáhodný • Statistická významnost je ovlivnitelná velikostí vzorku a tak je pouze indicií k prohlášení např. rozdílu dvou skupin pacientů za skutečně významný. V ideální situaci je nezbytné aby rozdíl byl významný nejenom statisticky (=nenáhodný), ale i prakticky (=nejde pouze o artefakt velikosti vzorku). MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I" J. Jarkovský, L Dušek Statistika v průzkumném studiu Provádění odhadu Reprezentativnost / Ověření POPIS MU Výsledek IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Testy hypotéz Cílová populace Závěr ? Interpretace OTÁZKY Princip testování hypotéz • Formulace hypotézy • Výběr cílové populace a z ní reprezentativního vzorku • Měření sledovaných parametrů • Použití odpovídajícího testu > j^> závěr testu • Interpretace výsledků Cílová populace Závěr ? Interpretace i w ______■—r-\ / \ i — \ / \ / \ ' Vzorek ^> y Reprezentativnost ? ^ MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Testy hypotéz /\ Měření parametrů Nulová hypotéza H0 H0: sledovaný efekt je nulový Alternativní hypotéza HA Ha: sledovaný efekt je různý mezi skupina Testová statistika mi Testová statistika = Pozorovaná hodnota - Očekávaná hodnota Variabilita dat *\| Velikost vzorku Kritický obor testové statistiky Statistické testování odpovídá na otázku zda je pozorovaný rozdíl náhodný či nikoliv. K odpovědi na otázku je využit statistický model - testová statistika. MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Léčba & Placebo t t t t t t ... t !* t t t Co znamená náhodný rozdíl Xi Je tu rozdíl? Jak by vypadal rozdíl, kdyby byl náhodný? Nasimulujme si ho !!! © t t Mnohokrát t? Xi t f í t T3 N O CĹ C> t t t I t t t ŕ t f t t Rozložení možných náhodných rozdílů Xi ' •> > x2 - _ 04 i m m n í í Rozdíl ? Kde lezi skutečny rozdíl? Jak moc je pravděpodobné, že je náhodný? Možné chyby při testování hypotéz I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při rozhodnutí o zamítnutí/nezamítnutí nulové hypotézy dopustit chyby. Správné rozhodnutí 1-a Závěr testu Hypotézu Hypotézu nezamítáme zamítáme Chyba I. druhu a 1-ß Správné rozhodnutí Chyba II. druhu MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek n v-------1\ Pravděpodobnost nesprávneho -------v zamítnutí nulové hypotézy Pravděpodobnost chyby 2. druhu ß i Pravděpodobnost nerozpoznaní neplatné nulové hypotézy MU IBA ____k Pravděpodobnostně vyjadrená 1 -ß ) y schopnost rozpoznat neplatnost hypotézy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Parametrické vs. neparametrické testy Parametrické testy • Mají předpoklady o rozložení vstupujících dat (např. normální rozložení) • Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy neparametrické • Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich síla testu prudce klesá a výsledek testu může být zcela chybný a nesmyslný Neparametrické testy • Nemají předpoklady o rozložení vstupujících dat, lze je tedy použít i při asymetrickém rozložení, odlehlých hodnotách, či nedetekovatelném rozložení • Snížená síla těchto testů je způsobena redukcí informační hodnoty původních dat, kdy neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí MJ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita m J. Jarkovský, L Dušek One-sample vs. two sample testy One - sample testy • Srovnávají jeden vzorek (one sample, jednovýběrově testy) s referenční hodnotou (popřípadě se statistickým parametrem cílové populace) • V testu je tedy srovnáváno rozložení hodnot (vzorek) s jediným číslem (referenční hodnota, hodnota cílové populace) • Otázka položená v testu může být vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek Two - sample testy • Srovnávají navzájem dva vzorky (two sample, dvouvýběrové vzorky) • V testu jsou srovnávány dvě rozložení hodnot • Otázka položená v testu může být opět vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek • Kromě testů pro dvě skupiny hodnot existují samozřejmě i testy pro více skupin dat MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita m J. Jarkovský, L Dušek One - tailed testy • Hypotéza testu je postavena asymetricky, tedy ptáme se na větší než/ menší než • Test může mít pouze dvojí výstup - jedna z hodnot je větší (menší) než druhá a všechny ostatní případy Two - tailed testy • Hypotéza testu se ptá na otázku rovná se/nerovná se • Test může mít trojí výstup - menší - rovná se - větší než • Situace nerovná se je tedy souhrnem dvou možných výstupů testu (menší+větší) MU Kritický obor Kritický obor IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Nepárový design • Skupiny srovnávaných dat jsou na sobě zcela nezávislé (též nezávislý, independent design), např. lidé z různých zemí, nezávislé skupiny pacientu s odlišnou léčbou atd. • Při výpočtu je nezbytné brát v úvahu charakteristiky obou skupin dat Párový design • Mezi objekty v srovnávaných skupinách existuje vazba, daná např. člověkem před a po operaci, reakce stejného kmene krys atd. • Vazba muže být buď přímo dána nebo pouze předpokládána (v tom případě je nutné ji v v..-v ovent) • Test je v podstatě prováděn na diferencích skupin, nikoliv na jejich povodních datech nepárový x I two sample test x: XI X2 ŕ------*- í-—•*-\-—~ Diference XI aX2 L Párový ^> two sample lest MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek • Normalita dat je jedním z předpokladů tzv. parametrických testů (testů založených na předpokladu nějakého rozložení) - např. t-testy • Pokud data nejsou normální, neodpovídají ani modelovému rozložení, které je použito pro výpočet (í-rozložení) a test tak může lhát ň v • Řešením je tedy: o Transformace dat za účelem dosažení normality jejich rozložení o Neparametrické testy - tyto testy nemají žádné předpoklady o rozložení dat Typ srovnání Parametrický test Neparametrický test 2 skupiny dat nepárově: 2 skupiny dat párově: Více skupin nepárově: Korelace: Nepárovýt-test Párový t-test AN OVA Pearsonův koeficient Mann Whitney test Wilcoxon test, sign test Kruskal- Wallistest Spearmanův koeficient MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek 250 200 150 100 Testy normality pracují s nulovou hypotézou, že není rozdíl mezi zpracovávaným rozložením a normálním rozložením. Vždy je ovšem dobré prohlédnout si i histogram, protože některé odchylky od normality, např. bimodalitu některé testy neodhalí. •Test dobré shody V testu dobré shody jsou data rozdělena do kategorií (obdobně jako při tvorbě histogramu), tyto intervaly jsou normalizovány (převedeny na normální rozložení) a podle obecných vzorců normálního rozložení jsou k nim dopočítány očekávané hodnoty v intervalech, pokud by rozložení bylo normální. Pozorované normalizované četnosti jsou poté srovnány s očekávanými četnostmi pomocí %2 testu dobré shody. Test dává dobré výsledky, ale je náročný na n, tedy množství dat, aby bylo možné vytvořit dostatečný počet tříd hodnot. • Kolgomorov Smirnov test Tento test je často používán, dokáže dobře najít odlehlé hodnoty, ale počítá spíše se symetrií hodnot než přímo s normalitou. Jde o neparametrický test pro srovnání rozdílu dvou rozložení. Je založen na zjištění rozdílu mezi reálným kumulativním rozložením (vzorek) a teoretickým kumulativním rozložením. Měl by být počítán pouze v případě, že známe průměr a směrodatnou odchylku hypotetického rozložení, pokud tyto hodnoty neznáme, měla by být použita jeho modifikace - Lilieforsův test. •Shapiro-Willťs test Jde o neparametrický test použitelný i při velmi malých n (10) s dobrou sílou testu, zvláště ve srovnání s alternativními typy testů, je zaměřen na testování symetrie. MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek 28 Šikmost a špičatost jako testy normality Parametry normálního rozložení, skewness a kurtosis mohou být využity pro testování normality, ale pouze pro velké vzorky (šikmost - 100, špičatost - 500). skewness>0 skewness<0 kurtosis<0 kurtosis>0 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek c o ro > d) ■o 2.5 2 1.5 1 0.5 0 1 -0.5 -1 -1.5 -2 Grafická diagnostika normality Rootgram 20 40 Zn 60 80 c O ro > d) ■o 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 -0.8 -1 Rootgram TT W u 10 15 20 25 30 Pb MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovsky, L Dušek 0,32 d) g 0,12 d) > d) -0,8 -0,28 -0,48 MU Grafická diagnostika normality Hanging Histobars. -4PS- -50 -10 10 30 Zn 0,2 d) ü 0,15 d) .* 0,1 d) 0,05 -0,05 -0,1 50 70 90 -50 Hanging Histobars. 10 20 Pb 30 IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek c d) d) Q. d) > 3 E 3 O 99,9 99 95 80 50 20 5 1 0,1^ MU Grafická diagnostika normality Normal Probability Plot 20 40 Zn 60 80 c 99,9 d) E 99 d) Q. d) > 95 +■> CÖ 3 80 E 3 O 50 20 5 1 0,1 Normal Probability Plot 10 15 20 Pb 25 30 IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek X. Statistické testy o parametrech jednoho výběrů Jednovýberový t-test Jednovýberový test rozptylu MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek IBA Anotace • Jednovýberove statistické testy srovnávají některou popisnou statistiku vzorku (průměr, směrodatnou odchylku) s jediným číslem, jehož význam je ze statistické hlediska hodnota cílové populace Z hlediska statistické teorie jde o ověření, zda daný vzorek pochází z testované cílové populace. MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I" J. Jarkovský, L Dušek V případě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení. I ^ Průměr - cílová vs. výběrová populace H0 HA Testová statistika Interval spolehlivosti X jU t t>vr X> jU X < jU t t xL(n-1) 9 9 ŕn-ľ) 2 v^ 2 S > t > t™a/2 C^> HO zamítnuta při ct<0,05 0,975 -?~v . |---y v ^ *\-ai2 od jiné hodnoty bychom zachytili při daných hodnotách? 2. otázka -jakou minimální odchylku X od jiné hodnoty bychom zachytili při daných hodnotách? x-u r- d r- ^ , t —-------^n=—^n ^ d — d_ s t l-a/2 d=***i 3. za předpokladu, že z praktického hlediska je významná odchylka již 0,2 jednotky, jaký minimálni počet měření musíme provést, abychom ji byli schopni prokázat ? f.* v x—u r « r ^ t=------v«=—v«^ n— s d s ll-a/2 S V J MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek XI. Statistické testy o parametrech dvou výběrů Dvouvýberový párový a neparový t-test Neparametrické alternativy t-testu MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek IBA Jedním z nejčastějších úkolů statistické analýzy dat je srovnání spojitých dat ve dvou skupinách pacientů. Na výběr je celá škála testů, výběr konkrétního testu se pak odvíjí od toho, zda je o srovnání párové nebo nepárové a zda je vhodné použít test parametrický (má předpoklady o rozložení dat) nebo neparametrický (nemá předpoklady o rozložení dat, nicméně má nižší vypovídací sílu). Nejznámějšími testy z této skupiny jsou tzv. t-testy používané pro srovnání průměrů dvou skupin hodnot MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Při použití two sample testů srovnáváme spolu dvě rozložení. Jejich základním dělením je podle designu experimentu na testy párové a nepárové. Základním testem pro srovnání dvou nepárový y. i wo sample test ^ fl X2 nezávislých rozložení spojitých čísel je nepárový two-sample t-test t * * Diference XI X2 xiaX2 \ ■ .» . Parovy \ -■-----■+- ■ t y two sample t »------■*• • test Základním testem pro srovnání dvou závislých rozložení spojitých čísel je párový two-sample t-test MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Dvouvýběrové testy: párové a nepárové II Data X., x2 Nezávislé uspořádání ^ XrX2=D Párové uspořádání ^ Design uspořádání zásadně ovlivňuje interpretaci parametrů MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek V- -/ n D D ^h -Mi M: nx n Jv t Jv \^:T>=0 (n = n2 = nO Identifikace párovitosti (Korelace, Kovariance) r =0,954 (p < 0,001) MU ^ Jt. • •• • • ••• IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek X, r= 0,218 (p< 0,812) X- Předpoklady nepárového dvouvýběrového t-testu Náhodný výběr subjektů jednotlivých skupin z jejich cílových populaci Nezávislost obou srovnávaných vzorků Přibližně normální rozložení proměnné ve vzorcích, drobné odchylky od normality ovšem nejsou kritické, test je robustní proti drobným odchylkám od tohoto předpokladu, normalita může být testována testy normality Rozptyl v obou vzorcích by měl být přibližně shodný (homoscedastic). Tento předpoklad je testován několika možnými testy- Levenůvtest nebo F-test. Vždy je vhodné prohlédnout histogramy proměnné v jednotlivých vzorcích pro okometricke srovnání a ověření předpokladů normality a homogenity rozptylu - nenahradí statistické testy, ale poskytne prvotní představu. * ZĽ + + Varianta 1 Varianta 2 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek nulová hypotéza: průměry obou skupin jsou shodné, alternativní hypotéza je, že nejsou shodné, two tailed test prohlédnout průběh dat, průměr, medián apod. pro zjištění odchylek od normality a nehomogenita rozptylu, provést F -test F-test pro srovnání dvou výběrových rozptylů •Používá se pro srovnání rozptylu dvou skupin hodnot, často za účelem ověření homogenity rozptylu těchto skupin dat. H0 HA Testová statistika ^2 v. ^2 Gx >G2 2 2 Gx t0975(52)= a nulovou hypotézu můžeme zamítnout, skutečná pravděpodobnost je pak 0,018. Rozdíl mezi skupinami je 1,59 kg ve prospěch skupiny s lepší výživou. Rozdíl _ průrůmě SE(rozdílprůo éru) X\ -Xi \ni 1 1 —+ — n (nx - \)sf + (n2 - \)s nx +n2 u = nx + n2 2J Pro rozdíl mezi oběma soubory jsou spočítány 95% konfidenční intervaly jako 1,59±2.01*(0,655) kg, což odpovídá rozsahu 0,28 až 2,91 kg. To, že konfidenční interval nezahrnuje Oje dalším potvrzením, že mezi skupinami je významný rozdíl -jde o další způsob testování významnosti rozdílů mezi skupinami dat- nulovou hypotézu o tom, že rozdíl průměrů dvou skupin dat je roven nějaké hodnotě zamítáme v případě, kdy 95% konfidenční interval rozdílu nezahrnuje tuto hodnotu (v tomto případě 0). (Xj —X2)± t0975oIĹ(Xj — x2) — (Xj — x2) ± ř0j9 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek XI X2 ALL Rank ALL XI rank X2 rank 27 25 25 5 6 5 35 29 29 7,5 11 7,5 38 31 31 9 13 9 37 23 23 4 12 4 39 18 18 2 14 2 29 17 17 1 7,5 1 41 32 32 10 15 10 19 19 3 3 27 6 35 11 38 13 37 12 39 14 29 7,5 41 15 Mann Whitney U-test •Stejně jako řada jiných neparametrických testů počítá i tento test s pořadím dat v souborech namísto s originálními daty. Jde o neparametrickou obdobu nepárového t-testu a z těchto neparametrických testů má nejvyšší sílu testu (95% párového t-testu). •V případě Mann-Whitney testu jsou nejprve čísla obou souborů sloučena a je vytvořeno jejich pořadí v tomto sloučeném souboru, pak jsou hodnoty vráceny do původních souborů a nadále se pracuje již jen s jejich pořadím. •Pro oba soubory je tedy vytvořen součet pořadí a menší z obou součtů je porovnán s kritickou hodnotou testu, pokud je tato hodnota menší než kritická hodnota testu, zamítáme nulovou hypotézu shody distribučních funkcí obou skupin. •Podobným způsobem je počítán i Wilcoxon rank sum test (pozor, existuje ještě Wilcoxnův párový test!!!) MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek 17 štěňat bylo trénováno v chozeni na záchod metodou pozitivního posilováni (pochvala, když jde na záchod venku) nebo negativního (trest, když jde na záchod doma). Jako parametr bylo měřeno, za kolik dní je štěně vycvičeno. nulová hypotéza je, že není rozdíl v metodách tréninku, tedy, že oběma metodami je štěně vycvičeno za stejnou dobu. po srovnání rozložení + malý počet hodnot je vhodné použít neparametrický test je vytvořeno pořadí sloučených hodnot pořadí hodnot v jednotlivých skupinách dat je sečteno a menší ze součtů je použit pro srovnání s kritickou hodnotou testu výsledkem testu je p o ^ 55 co Š 50 45 40 35 30 c O > (. ó o D 8; 8 6: O , 1 , , , IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek pozitivně negativné Párové dvouvýběrové testy - předpoklady Skupiny dat jsou spojeny přes objekt měřeni, příkladem může být měřeni parametrů pacienta před léčbou a po léčbě (nemusí jit přímo o stejný objekt, dalším příkladem mohou být např. krysy ze stejné linie). Oba soubory musí mít shodný počet hodnot, protože všechna měření v jednom souboru musí být spárována s měřením v druhém souboru. Při vlastním výpočtu se potom počítá se změnou hodnot (diferencí) subjektů v obou souborech. Před párovým testem je vhodné ověřit si zda existuje vazba mezi oběma skupinami -vynesení do grafu, korelace. Existuje několik možných designů experimentu, stručně lze sumarizovat: i. pokus je párový a jako párový se projeví 2. párové provedení pokusu - párově se neprojeví možná párovost není špatně provedený pokus - malé n, velká variabilita, špatný výběr jedinců 3. čekali jsme nezávislé a jsou 4. čekali jsem nezávislé a nejsou vazba náhoda MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita y m J. Jarkovský, L Dušek Párový dvou výběrový t-test Tento test nemá žádné předpoklady o rozložení vstupních dat, protože je počítán až na základě jejich diferencí. Tyto diference by měly být normálně rozloženy a otázkou v párovém t-testu je, zda se průměrná hodnota diferencí rovná nějakému číslu, typicky jde o srovnání s nulou jako důkaz neexistence změny mezi oběma spárovanými skupinami. V podstatě jde o one sample t-test, kde místo rozdílu průměru vzorku a cílové populace je uveden průměr diferencí a srovnávané číslo (0 v případě otázky, zda není rozdíl mezi vzorky). Pro srovnání s 0 (testovou statistikou jet rozložení): / — —yjfj V — Yl — \ S Někdy je obtížné rozhodnout, zda jde nebo nejde o párové uspořádání, párový test by měl být použit pouze v případě, že můžeme potvrdit vazbu (korelace, vynesení do grafu), jedním z důvodů proč toto ověřovat je fakt, že v případě párového t-testu není nutné brát ohled na variabilitu původních dvou souborů, tento předpoklad však platí pouze v případě vazby mezi proměnnými. Výpočet obou typů testů se vlastně liší v použité s, jednou jde o s diferencí, v druhém případě o složený odhad rozptylu obou souborů. Zda je párové uspořádání efektivnější lze určit na základě: o Síly vazby o Je-li sD výrazně menší než sxl_x2 Závislost je možné rozepsat pomocí vzorce: SD = 25. Menší _ suma _ diferencí - n(n + \) t = f«(« + l)(2« + l) 24 Před zásahem Po zásahu Změna Absolutní pořadí 6 2 4 10 2,5 3 -0,5 1,5 6,3 5 1,3 6 8,1 9 -0,9 5 1,5 2 -0,5 1,5 3,4 4 -0,6 3 2,5 1 1,5 8 1,11 2 0,89 4 2,6 4 -1,4 7 1 3 -2 9 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Wilcoxonův test - příklad 1 _________________0,05 a tedy nemáme dostatečné důkazy pro zamítnutí nulové hypotézy, nelze říci, že by nová dieta byla efektivnější než stará pro doplnění výsledků je vhodné zjistit také skutečnou velikost rozdílu hmotností ve skupinách, např. ve formě mediánu MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Znaménkový test - příklad I Párově uspořádaný experiment pro nominální data I. Dva preparáty, každý na 1/2 listu - sledovaná veličina: počet skvrn (hodnoceno pouze jako rozdíl) Počet skvrn A V V M V V M M V V V B v-ve' M tefrwH M - mens V n——' M M V V M M M n = 10 listů s rozdílnými výsledky j, A je větší: + n+ = 7 JevL B je menší:- n.= 3 min(n+; n.) = 3 II. dvě protilátky z různých zdrojů (A;B) - aplikované na vzorek s antigenem n = 10 A + + - + - + - + + - B - - + - + + - - + - ových rozdílů: A: n+ = 4 n — nenu o ^ A: n =2 min(n+; n.) = 2 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Na konferenci veterinářů bylo předneseno,že průměrný čas konzultace je 12 minut. Následovala debata, zda je lepší použít medián nebo průměr. Jeden z nich se rozhodl ověřit teorii, že průměrná konzultace trvá 12 minut na vlastní praxi a zaznamenal si trvání svých 43 konzultací. K otestování hypotézy, že podíl konzultací kratších a delších než 12 minut použil znaménkový test. Další výpočet probíhá obdobně jako v případě klasického znaménkového testu na diferencích dvou skupin dat. Délka konzultace Počet <12 22 12 6 >12 15 Celkem 43 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Dvouvýberove testy: schéma analýzy ^^^^^| Nezávislé uspořádání ^^^^^| NE ANO NE X2 test Kolmogorov-Smirnov test Shapiro-Wilks test transformace -i ANO F-test neparametrické testy NE testy: MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek t-test nezávislý aproximace Man - Whitney Mediánový test Dvouvýberove testy: schéma analýzy Párové uspořádání Diference D transformace ANO t-test párový NE c2 test Kolmogorov-Smirnov test Shapiro-Wilks test neparametrické testy testy: Znaménkový test Wilcoxonův test MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek XII. Binomické rozložení Popis binomického rozložení Testování hypotéz binomicky rozložených dat MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek IBA Kromě spojitých dat se setkáváme také s daty kategoriálními, jejichž nejjednodušším případem jsou data binární. Binární data jsou popsána binomickým rozložením, od chování binomického rozložení je odvozena popisná statistika binárních dat (procento výskytu jevu), její interval spolehlivosti a binomické testy pro srovnání procentuálního výskytů jevů v různých skupinách. MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek n(x) = n pro x = 1 n(x) = 1 - n pro x = o n(x) = 0 jinak X= 1 .jev n 1 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Binomické rozložení X..... celkový počet nastání jevu v n nezávislých pokusech E(x)= n . n D(x)= n . n(1-n) n- p ■* jediný parametr distribuce určuje tvar distribuce n = 0,5 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek n = 0,1 J_L Binomické rozložení jako model pro zkoumání výskytu sledovaného jevu n.....počet nezávislých opakování (dotazů) X.....počet lidí s jistým symptomem r znamená celkový počet nastání jevu v n nezávislých experimentech ^>! p ~ TT .. jediný parametr binomického rozložení p .... relativní četnost nastání jevu p..........určuje tvar distribuce r: 0 n ________j ;r = 0.5 P = r i x ti = 0.2 O n n n X MU Binomická proměnná X IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Jev: narození chlapce ľl = 0,5 n : rodina s 5 dětmi r: 0,1,2,3,4,5 chlapců P(r) = fnW.(l-p)^=_I%.p'.q = 0: (0! 5!)(0?5)0(0?5)5 = 0'°31 = 1: ^fÍ7)(0'5>(0'5)4 = 0'15625 = 2: P(r) = 0,3125 = 3: P(r) = 0,3125 = 4: P(r) = 0,15625 = 5: P(r) = 0,031 (n-r) X: Binomická proměnná Střed rozložení: Rozptyl: *(*)="• P D(x) = n - p • (1 - p) Příklad: n = 100 respondentů r = 20 má symptom E(x) = n- p = 20 je střed rozložení a nejpravděpodobnější hodnota IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Binomické rozložení jako model p (x = r ) = 0,3! 0,25 0,2 0,15 0,1 0,05 0 02 018 0,16 0,14 0,12 oi 008 006 004 002 0 n = 10 p = 0,3 Irin 1 23456789 10 n = 50 p = 0,1 n ! r ! (n - r }! •p -q (n- r) q = 1 -p 0,3 n = 30 0£S 0,2 p = 0,3 0,15 0,1 0,05 0 - J llnn. n = 100 P = 0,3 • Jlifc D 5 10 15 20 25 30 0 10 20 30 40 SO 60 70 o« 01 OOB 00B 001 002 0 n = 50 D^ P = 0,5 ;■ 0,12 01 0,08 0,06 0,04 0,02 i n = 50 p = 0,9 l : J L D MU 10 15 20253035404550 »15 20253D3540455D 10 15 20 25 35 40 45 50 IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Aplikace binomického rozložení Výskyt krevní skupiny B v určité populaci: p = 0,08 Number in blood group B Probability B B 2 not B B 1 B not B 1 not B not B q 0,0064 0,0736 0,0736 0,8464 -Q CO -Q O 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Binomial distribution of number of people out of two in blood group B Lq Number: blood group B in 2 cases N1U IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek £» 0,5 0,4 0,3 (O ■§ 0,2 0,1 0 0,16 0,14 £,0,12 í5 0,1 -Q CD 0,08 -Q g 0,06 0- 0,04 0,02 0 Binomial distribution showing the number of subjects out of ten in blood group B based on the probability of being in in blood group B of 0,08. U U U D 1 01 23456789 10 Number of subjects \l BWhfcai—wi Binomial distribution showing the number of subjects out of 100 in blood group B based on the probability of being in in blood group B of 0,08. 0 10 20 30 40 50 60 70 80 90 100 Number of subjects Aplikace binomického rozložení Populace: 60% jedinců má zvýšenou hladinu cholesterolu Výběr: 5 lidí I. Kolik lidí má ve výběru vyšší hladinu cholesterolu ? n. p = 5 . 0,6 = 3 lidé ~ E(x) n . p(1-p) = 1,2 - D(x) II. Jaká je P, že právě 3 lidé budou mít vyšší hladinu cholesterolu ? ~ Tzn. Výběr přesně odpovídá dané populaci ? P(3) = 9 P(3)- 5! 3 ! (5 - 3)! -.(0,6)3.(0,4)2 =0,346 P(3) = 35% Jaká je P, že většina jedinců (tedy minimálně 3) má vyšší hladinu cholesterolu ? ~ Tzn. výběr alespoň obecně odpovídá zkoumané populaci ? P(X > 3) = P(3) + P(4) + P (5) = 0,346 + 0,259 + 0,078 = 68 % MU IBÄ P(x) I i «. -^ X Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Odhad parametru n binomického rozložení Při vícenásobném odhadu se parametr II chová jako normálně rozložen U malých nebo velkých hodnot p (ľl) je však předpoklad normality omezen i p MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Odhad parametru n binomického rozložení n « p\ p-y 1) Bodový ^2 ^(l-^) P-> sp — 1 i___________________________________________________________________________________________________________________________________________________________________________________________________________________ 2) Intervalový - aproximace i /2 V «"I /2 V n-l i /2 v n-l 1_________________________________________________________________________________________________________________________________________________________________________ IBA MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Odhad parametru n binomického rozlc >zeni: příklad 1 X: % jedinců s daným znakem n = 100 jedinců r = 60; p = 0,6 sp = 0,049 Interval spolehlivosti: 95 % 2 0,975 = ' >96 0,6 -1,96 • 0,049 < n < 0,6 +1,96 • 0,049 0,504 < n < 0,697 U P(0,504<;r< 0,697) > 0,95 MU m Vytvořil Institut biostatistiky a analýz, Masarykova univerzita ■ p> J. Jarkovský, L Dušek Odhad parametru n binomického rozložení Intervalový odhad bez aproximací na normálni rozložení A = r + \n—r + \)-Fc a/ 2 [L spodní limit intervalu vi ~ A*7 r + v> v2 - 2r z - 2 v|=2(r + l) = v2+2 [L horní limit intervalu V2 =2(«-r) = v1-2 pfe^^LJ^l- ÖT MU /BA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Odhad parametru n binomického příklad II Náhodný vzorek n = 200 jedinců. Zjištěno pouze r = 4 jedinci bez určitého znaku. p = %o = 241 95% interval spolehlivosti = ? i Spodní hranice i v ! = 2(w- r + l)= 2(200 -4 + l)= 394 v, =2r = 2-4 = 8 F (394 ;8) _ .a y = 3,67 A = 4 +(200-4 + 1)-3,67 = 0,0055 ".' = l(r + 0 = 10 < = l(n- -r) = 2(200 - -4) = 392 p (10 \ — OC ;392 ) _ 2 2,08 L2 = (4 + l)-2,08 = 0,051 200 -4 + (4 + 1). 2,08 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Binomické rozložení v datech: vizualizace Pravděpodobnost výskytu hodnot X n opakování jev ANO jev NE Binární podstata původních hodnot MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Modelové rozložení odhadovaného parametru n 0 i. Interval spolehlivosti pro ľl Liší se odhad ]3 od předpokládané hodnoty P ? Liší se dva nebo více odhadů ]3 ? - závislé odhady -- nezávislé odhady - ^^S Je výskyt kategorií dvou jevů nezávislý ? O Hodnocení relativního rizika z výskytu určitého jevu v rámci skupiny lidí MU |S Vytvořil Institut biostatistiky a analýz. Masarykova univerzita 0 m J. Jarkovský, L Dušek Jednovýberový binomický test H, Ht Testová swxistika Interval spolehlivosti pn z > z ĺ a p>n p z ĺ a/2 z = n-p-n-k n-p-n-7t\-0,5 n ■p{\-p) n ■p(i-p) Korekce na kontinuitu H, Af Testová statistika Interval spolehlivosti pn L , = a , v i , v 72 ( r + 1 ) F r + ( r + 1 ) F a , v i , v p = r/n > Lx p>n p v 1 - v 2 p < L p = n MU p^n '-l' 1-2 (^ a/2' ^ l-a/2/ p < L, V P > L, Vylvuřil liiblilul Uiubldliiliky d diidlýz, Mdbdiykuvd univtíizild J. Jarkovský, L Dušek IBA ý Stromy s pozměněným tvarem koruny n = 9 000 jedinců r = 2 250 změněných jedinců ? ? Jak je pravděpodobná změna u až 1/3 jedinců? v_ n ■ p - n -n _ 2250 - 3000 _ Z - —, / s. - —/ - - lo ,26 ■yjP 0 - />)• n V0'25 -°'75 ^O00 ^=^= /BA a = 5%; ZW2=1,96; Z .,.„= 1,645 Z > Z 1<[/2.........zamítáme H0: p < 0,01 95 % Interval spolehlivosti ... p: (0,241; 0,258) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Test 7i ? p Příklad testu bez aproximace na normální rozložení /: 12 jedinců bylo zkoumáno pro výskyt určitého znaku, 0 jedinců znak nemělo a Jak hodně se tento výsledek liší od výsledku 6-6: tedy od situace, kdy • polovina jedinců znak má? a) Využití distribuční funkce 0 8 10 11 12 P(r) 0,0002 4 0,0029 3 0,0161 1 0,0537 1 0,1208 5 0,1933 5 0,2255 9 0,1933 6 0,1208 5 0,0537 1 0,0161 1 0,0029 3 0,0002 4 P (r > 10) = 0,01611 + 0,00393 + 0,00024 = 0,01928 H0: p = 0,5 je tedy značně nepravděpodobná b) Pozorované p = 1^0 = 0,833 12 spolehlivosti pro p: p = 0,5 : L2 = (ó + l)-2,64 MU 12-6 +(6+ l)-2,64 = 0,755 IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Dvouvýběrový binomický test (pl ? p2) z = Pi - p* P(l~ P) , P(l~ P) n i n ř7j + ř72 (A-Jp2)±z(1. />(!-/>), pí}- p) .a + Wi 7? MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Dvouvýběrový binomický test (pl ? p2) Tento příklad je ukázkou testování rozdílů mezi dvěma binomickými populacemi (tedy srovnání dvou odhadů parametru p). /Celkem 49 pokusných myší bylo použito k testování toxického preparátu během dvouměsíční kultivace. Následující tabulka obsahuje původní data zároveň s testem nulové hypotézy: Podíl přežívajících jedinců je u zasažené populace stejný. Alive Dead Total Proportion alive Proportion dead Treated 15 9 24 px = 0,625 qx = 0,375 Not Treated 10 15 25 p2 = 0,400 q2 = 0,600 Total 25 24 49 p = 0,510 q = 0,490 z = 0,625 - 0,400 0,225 '(0,510) (0,490) (0,510) (0,490) V0>010413 + °>009996 24 + 25 = 1,573 Z0,05(2) = t0,05(2) = 1,96 Nezamítáme H0: 0,10 < P < 0,20 S korekcí na kontinuitu: Z = 15-0,5 10 + 0,5 24 25 0,604 - 0,420 = 1,287 0,143 0,143 Nezamítáme H0: 0,10 < P < 0,20 Z0,05(2) = t0,05(2) = 1,96 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek a) Pravděpodobnost narození chlapce je asi 1/2. Máte zhodnofcP^ysledky průzkumu populace, která žije v silně poškozeném životním prostředí. Průzkum se týká 1000 náhodně vybraných rodin a zjištěný podíl narozených chlapců je 0.41. Jaké jsou vaše závěry o této populaci? Jak se váš odhad zpřesní, když použijete vzorek n = 10 000 rodin při zachování odhadu p = 0.41? Použijeme jednovýberový binomický test s nulovou hypotézou H0: p=tt, hladina významnosti a=0,05 ..,.,,, ^ n-p-n-n 1000-0,41-1000-0,5 c nn ,. , .,, t., 7 7 , 0, testová statistika Z = , , —r- = , = -5 79 a príslušný kvantil Z „ = Zn Q7, = 1,96 Jn-p{l-p) VlOOO-0,41-0,59 ' ^ protože Z > Z0 975 nulovou hypotézu zamítáme. Chlapci se ve zkoumavé populaci nerodí s pravděpodobností 0,5. interval spolehlivosti n\ p±Z^ ,-J^^ = 0,4±Z0975-0,046 = 0,41 ±1,96-0,016 = 0,41 ±0,03 ' I íl- ) pokud použijeme n=10 000, bude int. spolehlivosti užší n\ p±Z^ a/-J— ^ = 0,41 ±1,96-0,005 = 0,41 ±0,01 1 /2 \\ n-\ b) Jaká je pravděpodobnost, že rodina se třemi dětmi bude mít 2 (3) chlapce? Podrobně analyzujte problém a použijte obecného definičního vztahu pro binomické rozložení. n = 3 „t\ (A r t. \ín-r) n! r = 2 p=0,5 (stejná pravděpodobnost narození P(r) = • pr • (l - p)(nr) = / • pr • q(nr) pravděpodobnost narození chlapce jako narození dívky) P(2): v2y r !(n-r)! 2 chlapců v rodině se třemi r = 3 platí p(3) = Ml Ä ŕi\ 9 h\ 3' 9 h\ dětmi je 0,375 ■0,52-0,5(1)=^V-0>52-0,5(1) = 0,375 J 2!(l)! pravděpodobnost narození 3 chlapců 0,53 • 0,5° -1 • 0,53 • 0,5° - 0,125 v rodině se třemi dětmi je 0>125 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Předpokládá se, že lidé trpící určitou krevní chorobou mají abnormální jeden z chromozómů. S cílem odhadnout podíl takto postižených chromozómů bylo studováno 5 buněk od každého ze 120 pacientů a byl zjišťován počet buněk s postiženým chromozómem (tento počet = sledovaný jev = r). Výsledky jsou uvedeny v následující tabulce. Odhadněte podíl postižených chromozómů u populace nemocných lidí. r(četnost jevu) 0 1 2 3 4 5 celkem f(poč. pacientů) 6 31 42 29 10 2 120 Pro odhad p se používá vztah p = J^- i=i n xi fi xifi 0 6 0 1 31 31 2 42 84 3 29 87 4 10 40 5 2 10 1/^=252 _ 252/120 _ „ ._ pravděpodobnost výskytu 5 ' postiženého chromozómu MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek XIII. Kontingenční tabulky Test dobré shody Fisherův přesný test McNemar test Odds ratio a relativní riziko MU m Vytvořil Institut biostatistiky í . _ _ J. Jarkovský, L. Dušek IBA a analýz, Masarykova univerzita Anotace • Analýza kontingenčních tabulek umožňuje analyzovat vazbu mezi dvěma kategoriálními proměnnými. Základním způsobem testování je tzv. chi-square test, který srovnává pozorované četnosti kombinací kategorií oproti očekávaným četnostem, které vychází z teoretické situace, kdy je vztah mezi proměnnými náhodný. • Test dobré shody je využíván také pro srovnání pozorovaných četností proti očekávaným četnostem daným určitým pravidlem (typickým příkladem je Hardy-Weinbergova rovnováha v genetice) Specifickým typem výstupů odvozených z kontingenčních tabulek jsou tzv. odds ratia a relativní rizika, využívaná často v medicíně pro identifikaci a popis rizikových skupin pacientů. MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I" J. Jarkovský, L Dušek Test dobré shody - základní teorie Binomické jevy (1/0) pozorovaná 2 četnost /tin = očekávaná 2 I pozorovaná očekávaná četnost I četnost " četnost očekávaná četnost I. jev 1 očekávaná četnost '------------v----------- II. jev 2 © Příklad / 10 000 lidí hází mincí rub: 4 000 případů (R) líc: 6 000 případů (L) Lze výsledek považovat za statisticky významně odlišný (nebo neodlisný) od očekávaného poměru R : L = 1 : 1 ? 2 (4000 - 5000 f (6000 - 5000 )2 (i) 5000 5000 400 Tabulková hodnota: Z P(B) M IBA Zc = Z I I/* - F-J -0.5 J F u Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Kontingenční tabulky: příklad gerT^^ Ano Ne Z Ano 20 82 102 Ne 10 54 64 £ 30 136 166 FA = FB = Fc = 102*30/166 = 18,43 102*136/166 = 83,57 11,57 52,43 , _(20-1^43)2 | (82-83,57)2 | (10-U57)2 | (54-5^43)2 _Q ^ Q m (1) 18^43 83,57 11,57 5^43 < zljl) = 3,84 Kontingenční tabulka v obrázku Gen: ANO c: 49% % d: 33% 80 % 20 Gen: NE 84,4 15,6 Zemřelí Žijící Zemřelí Žijící MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek R x C kontingenční tabulka Výběr: N lidí ze sociologického průzkumu (delikventi) Jev A: Původ z rozvrácených rodin Jev B: Stupeň zločinnosti I < II < III < IV V^ 1. II. III. IV. ANO a b c d NE e f g h číslo2 Stupně volnosti: (R-1)*(C-1) = 1 *3 = 3 Fa = číslo 1 • číslo 2 N Očekávané četnosti: Pa = a a + e Pb = b + f Pc = číslo 1 Tabulky: X(\-a) c + g Pd = d d + h MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Test dobré shody: příklad I / Ověřte na datech z pokusu se 100 květinkami určitého druhu, že barva květů se geneticky štěpí v poměru žlutá : červená = 3:1. H0: Pozorovaná frekvence pro jednotlivé barvy květů jsou vzorkem populace mající poměr mezi žlutými a červenými květy 3 :1. Součet frekvencí u obou barev květů (fj) se rovná 100 a pozorované frekvence u kategorií barvy budou srovnány s očekávanými frekvencemi (uvedeny v závorkách): f poz. f oček. Kategorie barvy Žlutá 84 75 Červená 16 25 n 100 2 =y{fpo, - focj J84-75)2 ^(l6-2Sf = X ^ fo, 75 25 = 4320 St. volnosti = n = k-1 = 1 Zamítáme hypotézu shody srovnávaných četností Při testování H0 jsme použili matematický zápis (0,025 < P < 0,05). Z tabulek %2 rozložení vidíme, že pravděpodobnost překročení hranice 2,706 je 0,1 (10 %), což může být stručně zapsáno jako P (X2> 2,706) = 0,10. Dále lze zjistit pro P {j2 > 3,841) = 0,05. V řešené úloze jsme dospěli k hodnotě testové statistiky j2 = 4,320. Pro tento případ lze tedy psát 0,025 < P (%2 > 4,320) < 0,05; a jednodušeji 0,025 < P < 0,05. Jde v podstatě o přibližné určení hranic chyby 1. druhu. MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek / Tento příklad je rozšířením problému z příkladu 1 na srovnání pozorovaných a očekávaných frekvencí pro více kategorií sledovaného znaku: Celkem bylo zkoumáno 250 semen určitého druhu rostliny a roztříděno do následujících kategorií: žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité. Předpokládaný poměr výskytu těchto kategorií v populaci je 9 : 3 : 3 : 1. Následující tabulka obsahuje původní data z pozorování a dále postup při testování H0. žluté/hladké žluté/vrásčité zelené/hladké zelené/vrásčité n poz. 152 39 53 6 250 oček. 140,6250 46,8750 46,8750 15,6250 v=k-1=3 2 11,3750 Z = + 7,87502 6,1250 + 2 + ™™L = 8 ,72 > 140,6250 46,8750 46,8750 15,6250 Zamítáme hypotézu shody pozorovaných četností s očekávanými MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Test dobré shody: příklad Složitější příklady řešené srovnáváním frekvencí je možné rozdělit na testování dílčích hypotéz: /Předpokládejme, že chceme pro data z předchozí úlohy testovat hypotézu existence štěpného poměru 9:3:3 pro první tři kategorie semen: f poz. f oček. X žluté/hladké 152 146,400 5,600 2 146 ,40 žluté/vrásčité 39 48,800 zelené/hladké 53 48,800 n 244 n=k-1=2 + 9,800 48 ,80 2 4 200 2 + ' = 2,544 48 ,80 í> Nezamítáme hypotézu shody pozorovaných četností s očekávanými. / Nyní otestujeme hypotézu štěpného poměru kategorií zelené/vrásčité:ostatní f poz. f oček typy = 1:15 zelené/vrásčité 15,625 ostatní 244 234,375 n 25 n=k-1=1 2 _ 9,625 2 Z ~ 15 ,625 + 9,625 234 ,375 6,324 Zamítáme hypotézu shody pozorovaných četností s očekávanými. MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Test dobré shody: příklad IV - využití aditivity testu /U 193 páru dvojčat byly zjištěny následující poměry pohlaví: 56 Ch - Ch 72 Ch - H ^ 65 H - H ď Za předpokladu, že narození chlapečka má stejnou pravděpodobnost jako narození holčičky, lze očekávat poměry pro výše uvedené skupiny = 0,25: 0,5: 0,25. Ověřte tento předpoklad na uvedeném vzorku populace. S193 párů 1/4 : 1/2 : 1/4 2 =io 90 očekávané četnosti = 48,25 : 96,50 : 48,25 -M2) ' Proč lze v předchozím případě očekávat zamítnutí H0? Testujte následující hypotézy: 1) Jsou relativní počty párů se shodným pohlavím ve shodě s očekávanými četnostmi? (ignorujte Ch H páry) 2) Je relativní četnost kombinace Ch - Ch a H - H párů oproti párům s rozdílným pohlavím ve shodě s očekávanými četnostmi? 2 121 párů 1:1 2 _ H_H očekávané četnosti = 60,5 : 60,5 X(i) ~ U,ooy Z193 párů 1:1 z očekávané četnosti = 96,5 : 96,5 X(\) ~ A^ ?^4 Ch -Ch 2 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Test dobré shody: příklad V Města - zatížení exhalacemi - třídy (A > B > C > D) Svět: A:B:C:D=2 : 3 : 6 : 4 Konkrétní země (n = 184 měst): A: B:C: D =32 : 151 : 182 : 116 H0: shoda fs a Fs a = 0,05 FA: 64,13 FB: 96,19 Fc: 192,39 FD: 128,27 Z (3) - _ (32 - 64 ,13 J 64 A3 + + (116 - 128 ,27 y _ 128 ,27 = 49 ,06 Tabulky y2 <"> = y2 ^ = 7 81 Zamítáme hypotézu shody pozorovaných četností s očekávanými. Příspěvek kategorií A, B,C,Dk celkové hodnotě v2 C (0 3 O I! m 0/ /o VMMMMA____WMMMA ^^ ^^ A B D A B D MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek / Test homogenity binomických rozložení Jev: Úmrtnost na leukémii Předpoklad: n = 0,6 Absolutní četnost jevu označena r; P = S Sledovalo s autorů z s zemí: Autor rtj ľj Pí 1 2 s Z ",= N MU IBA Test homogenity binomických rozložení Po možném sloučení s výběru Test shody reálného r (^) a n-u Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Xs-\ X{\) = (Zr? Pí - pY,ri) p(i-p) IV r -iv-nl--jv-n-(i-n) Test homogenity binomických četností: příklad Pomocí %2 rozložení lze rovněž posuzovat homogenitu většího množství nezávislých pokusů testujících tutéž hypotézu. ___k Bylo provedeno 6 nezávislých výběrů z populace mladých mužů, kteří v dětství onemocněli ___y těžkým zánětem mozkových blan. H0: V této populaci se vyskytují praváci a leváci v poměru 1:1. > Nalezněte v literatuře příslušné vztahy pro testování homogenity všech šesti výběrových populací a na základě výsledků tohoto testu rozhodněte o dalším postupu. Vzorek Praváci Leváci n X2 St. volnosti Následující tabulka obsahuje původní data a výsledek testování (v závorkách jsou uvedeny očekávané četnosti): l 3(7) 11(7) 14 4,5714 l 2 4(8) 12(8) 16 4,000 l 3 15 (10) 5(10) 20 5,000 l 4 14(9) 14(9) 18 5,5556 l 5 13 (8,5) 4 (8,5) 17 4,7647 l 6 17(11) 5(11) 22 6,5455 l /Ch eterogeni ta = 30,2 v=s-\=5 P < 0,001 Jednoduchým testováním lze zjistit, že všechny testy pro jednotlivé výběry jsou významné, což znamená, že ani v jednom případě nebyla potvrzena shoda očekávaných a pozorovaných četností. Test homogenity štěpného poměru v zkoumaných populacích rovněž vedl k zamítnutí možnosti sloučit jednotlivé výběry a posuzovat je jako celek (kromě testovaného poměru 1 : 1 neexistuje tedy v datech žádný jiný jednotný štěpný poměr mezi oběma vlastnostmi. V případě, že by tento test neprokázal odchylky mezi jednotlivými výběrovými populacemi, bylo by možné jednotlivé odběry sloučit a posuzovat jako homogenní vzorek. IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek X2 test - příklad složitější kontingenční tabulky I Caffeine consumption and marital status in antenatal patiens (from Martin and Bracken, 1987) Caffeine consumption (mg/day) Marital status 0 1-150 151 - 300 >300 Total Married 652 1537 598 242 3029 Divorced, separed or widowed 36 46 38 21 141 Single 218 327 106 67 718 Total 906 1910 742 330 3888 Caffeine consumption and marital status data Caffeine consumption (mg/day) Marital status 1-150 151 - 300 >300 Total Married 22% 51% 20% 8% 3029(100%) Divorced, separed or widowed 26% 33% 27% 15% 141 (100%) Single 30% 46% 15% 9% 718(100%) M Li Total 23% 42.% 19% 8% 3888(100%) Vylvuľil hiililul Uiuildliiliky d diidlýz, MdSdiyKuvd uiiivemlď J. Jarkovský, L Dušek IBA X2 test - příklad složitější kontingenční tabulky II Expected frequencies Caffeine consumption (mg/day) Marital status 0 1-150 151 - 300 >300 Total Married 705,8 1488 578,1 257,1 3029 Divorced, separed or widowed 32,9 69,3 26,9 12,0 141 Single 167,3 352,7 137 60,9 718 Total 906 1910 742 330 3888 Contributions of each cell Caffeine consumption (mg/day) Marital status 0 1-150 151 - 300 >300 Total Married 4,11 1,61 0,69 0,89 7,30 Divorced, separed or widowed 0,30 7,82 4,57 6,82 19,51 Single 15,36 1,88 7,02 0,60 24,86 Total 19,77 11,31 12,28 8,31 51,66 IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek X2 test - příklad frakcionace složitější kontingenční tabulky I c ' Cílem rozsáhlejšího průzkumu populace bylo prozkoumat vztah mezi dvěma typy chorob a krevními skupinami u lidí. Konkrétní data jsou uvedena v tabulce: Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola Celkem 0 983 383 2892 4258 A 679 416 2625 3720 B 134 84 570 788 Celkem 1796 883 6087 8766 Vypočítejte testovou charakteristiku pro tuto kontingenční tabulku a otestujte nulovou hypotézu nezávislosti jevů (%2 = 40,54; 4 st. volnosti) MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek I X2 test - příklad frakcionace složitější ^^ kontingenční tabulky II ^^^^ K podrobnějšímu průzkumu složitějších tabulek výrazně napomáhá přepis původní tabulky do podoby procentického zastoupení kategorií: Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola 0 983 383 2892 A 679 416 2625 B 134 84 570 Celkem 1796 883 6087 Z této tabulky je patrné: 2. Jsou jenom malé rozdíly v distribuci krevních skupin u kontroly a u skupiny nemocných rakovinou žaludku. Pacienti s vředy mají mnohem častěji krevní skupinu 0. Na základě těchto poznatků je možné sestrojit menší kontingenční tabulku, která otestuje hypotézu o shodné distribuci krevních skupin pro nemocné rakovinou a pro zdravé lidi. Sestavte tuto tabulku a otestujte nulovou hypotézu. (%2 = 5,64 (2 st. v.), P je přibližně rovna 0,06) MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek X2 test - příklad frakcionace složitější kontingenční tabulky III • Z tohoto dílčího testu vyplývá možnost sloučení skupiny nemocných rakovinou a zdravých lidí neboť se vzhledem k distribuci krevních skupin chovají jako homogenní populace. Dalším logickým krokem v podrobné analýze je testování shody relativních četností výskytu krevních skupin A a B mezi kombinovaným vzorkem (sloučená skupina s rakovinou a kontrola) a mezi vzorkem lidí nemocných žaludečními vředy - tzn. nyní neuvažujeme krevní skupinu 0. Výsledkem tohoto testu je y2 = 0,68 (1 st. vol.); P > 0,7. Vzorky pro krevní skupiny A a B lze tedy sloučit do směsného vzorku A + B. • Nyní otestujeme shodu relativních četností výskytu skupiny 0 oproti A + B, a to mezi kombinovanou populací (kontrola + nemocní rakovinou) a mezi vzorkem nemocných vředařů (%2 = 34,29; 1 st. vol.). Lze tedy shrnout, že vysoká hodnota původního %2 se 4 st. volnosti byla způsobena zvýšenou četností lidí s krevní skupinou 0 mezi nemocnými žaludečními vředy. MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I" J. Jarkovský, L Dušek X2 test - příklad frakcionace složitější kontingenční tabulky IV Průběh hodnocení lze shrnout do tabulky: Srovnání St. volnosti V- 0, A, B skupina u pacientů s rakovinou (r) x kontrola (k) 2 5,64 A, B skupina u pacientů s vředy x kombinovaný vzorek (r + k) 1 0,68 0, A, B skupina u pacientů s s vředy x kombinovaný vzorek (r + k) 1 34,29 Celkem 4 40,61 Celkový součet testových statistik %2 (40,61) odpovídá přibližně původní hodnotě x2 (40,54). Což platí i o stupních volnosti (4). Tato skutečnost potvrzuje, že jsme detailním rozborem vyčerpali informační obsah původní kontingenční tabulky a kromě popsané závislosti (zvýšený výskyt krevní skupiny 0 u lidí s žaludečními vředy) jsou jednotlivé kategorie zkoumaných jevů zcela nezávislé. MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I" J. Jarkovský, L Dušek Kontingenční tabulka 2x2: Řešení při nedostatečné velikosti vzorku Yates' corection Fisher's exact test / H0: Nezávislost jevů Test analyzuje všechny možné 2x2 tabulky, které dávají stejnou sumu řádků a sloupců jako tabulka zdrojová. Algoritmus každé tabulce přiřazuje pravděpodobnost, že taková situace nastane, je-li H0 pravdivá. Spectacle wearing among juvenile delinquents and non-delinquents who failed a vision test (Weindling et al., 1986) Juvenile delinquents Non-deliquents Total Yes 1 5 6 jpectacie wearers No 8 2 10 Total 9 7 16 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Kontingenční tabulka 2x2: Řešení při nedostatečné velikosti vzorku Všechny možné varianty tabulky s danou sumou řádků a sloupců (1) 0 6 9 1 (II) 1 5 8 2 (III) 2 4 7 3 (IV) 3 3 6 4 (V) 4 2 5 5 (VI) 5 1 4 6 (VII) 6 0 3 7 MU Pravděpodobnost náhodného vzniku variant tabulky a b C d P (1) 0 6 9 i 0,00087 (II) 1 5 8 2 0,02360 (III) 2 4 7 3 0,15734 (IV) 3 3 6 4 0,36713 (V) 4 2 5 5 0,33042 (VI) 5 1 4 6 0,11014 (VII) 6 0 3 7 0,01049 Total 0,99999 IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek 2x2 frekvenční tabulka pro párové uspořádání: Mc Nemar's test Příklad: Srovnání 2 metod stanovení antigénu v krvi (antigen vždy přítomen) / Hn: metoda 1 = metoda 2 Metoda 1 Metoda 2 Frekvence úspěch úspěch 202 úspěch neúspěch 60 neúspěch úspěch 42 neúspěch neúspěch 10 X (c) (J60 - 42 | - 1) 102 = 2.83 2 (x=l) _ Tabulky : zL = 3,84 E MU }2 = 102 Hn nezamítnuta IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Aplikace analýzy 2x2 tabulky pro hodnocení rizika I. Prospektivní studie - odhad relativního rizika Jedinci jsou sledováni prospektivně, zda se vyskytne nějaká vlastnost. VÝBĚR JE DÁN SLOUPCEM PŘIKLAD | OBECNĚ Skupina 1 Skupina 2 ANO a b ĹlldK NE c d Retardace plodu Riziko: a (a + c) (b + d) a RE b (b + d) / H0: RR = 1 Symetrická Asymetrická Agar skoré ANO 2 33 >7 NE 14 58 ľ/1b=U,13 33/yi=U,3b RR = 2/16 =0,345 33 /91 Riziko u "symetrické skupiny" je asi 35 % rizika u asymetrické skupiny SE (in RR )=------------- \ a a + 1 • + — + c b 1 b + d IS: In RR - Z ^,2. SE (In RR) In RR + Z 1^2 . SE (In RR) MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Aplikace analýzy 2x2 tabulky pro hodnocení rizika II. Retrospektivní studie - "ODDS RATIO" Zcela zásadně odlišný přístup od retrospektivní studie VÝBĚR JE DÁN VLASTNOSTÍ - ŘÁDKEM Není tedy možné analyzovat relativní riziko, protože přípravou řádků můžeme měnit velikost kontrol. OBECNE Skupina 1 Skupina 2 ANO a b £ndK ------------oďäs —sue— hfrl Odds ratio : ale ~b7ď SE(lnOiř) = ,/-+-+-+- abed MU PŘIKLAD Vady chrupu ANO NE Plavání <6h 32 118 týdně 3 6h 17 127 QR = (32/17)/(118/127)= 2,026 In (OR )= 0,706 SE (in (OR ))= 0,326 IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Relative risk #ľjp Odds ratio (relativní riziko) ^c\ (poměr šancí) Smysl RR a OR Výpočet Srovnatelnost Interpretace Výhody a nevýhody Aplikace v klinickém hodnocení MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek • Popis vlivu faktoru (léčba, klinicky parametr) na výskyt události (úmrtí, progrese aj.) Odds ratio >oměr šancí) Relative risk (relativní riziko) 0 Snadná přirozená interpretace rizik vyjádřených jako procento událostí ALE 0 Matematická omezení pro některé aplikace 0 Pouze málo lidí má přirozenou schopnost interpretovat OR ALE 0 OR v řadě aplikací výhodnější matematické vlastnosti MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek event W bez eventu Srovnání výskytu události mezi dvěma rameny (A,B) studie RR= MU IBA Relative risk (relativní riziko) ft A B Odds ratio (poměr šancí) tttttt ^ * t * IT i t t tttttt ň fiôfiíríŕírírflfifi 10 tíi 3 = 2 n i t t t t t t n t t OR= * t t t * I tttt 4 3 5 tít 3 tiititt 7 WOTÖW Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Vztah mezi RR a OR Relative risk (relativní riziko) 10 Odds ratio (poměr šancí) 5- 3- .2 ! i ■o §0.7 0.5- 0.3- 2- 0.1 RR a OR je přímo srovnatelné pouze při nízkém bazálním riziku "io" 20 ^30 40 &T Ito Zhang, J. et al. JAMA 1998;280:1690-1691. MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Incidence Among the Nonexposed. % 7o IBA Srovnatelnost RR a OR I: maximum o Relative risk relativní riziko) ft • RR mění své maximum podle bazálního rizika 25 - oč. 20 - tt sQJ C >N O 15 - E Sm C 10 - ^ro E X ns 5 - Z n - 0% 20% 40% 60% 80% IOC Bazálni riziko 0 RR ve studiích s různým bazálním rizikem jsou nesrovnatelná !!!! MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Odds ratio (poměr šancí) 0 Odds ratio ma vždy rozsah od 0 do nekonečna 0 Velikost OR není závislá na velikosti bazálního rizika 0 OR lze použít pro srovnání studií s různým bazálním rizikem !!!! m Výhodné pro metaanalýzu Srovnatelnost RR a OR I: symetrie • Existuje mezi RR a O rozdíl v případě (n Relative risk relativní riziko) ft If A Ä výměny definice eventu a non-eventu? RR(I)= ttttttt Ittttt 10 1_ 10 = 0.57 RR(II) = flfl fifl in \WňWň r i RR(I)* l ! RR(II) 10 10 = 2 i ii * i t i 11 i t 11 i* II II vs. MU /BA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek ® I I I I í í II I I II II I I ♦ I • • T T Odds ratio (poměr šancí) till OR(I) = tttttt íiíitíí = ^- = 0.29 OR(II) = tttttt tttt ttt ttititt = 4=35 3 7 OR(I) = 1 OR(II) i__________________________________________________________________i TI V\ El flu RR a OR ve studiích s různou mírou bazálního rizika 100% -90% Výskyt eventu (%) 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% TT Q ■v? 00 O L/l ■v? Q (TI ■v? Ol L/Í ^H O r4 d ■v? (TI (TI ■v? O^ Q Q L/1 r-- o to d to (X) Odds ratio Ve skupině „Case" připadá na jednoho pacienta bez eventu 4x tolik pacientů s eventem než ve skupině „Control" oč. O 3 ■^i ^ji ■^i ■^i ■^i ■^i ^ víí víí vxi ■^i o1*1 o1- cř1^ o1*1 o1*1 o1*1 o1*1 o1*1 o1*1 o1*1 o** ^HrN^-COi-nOCTi^HOrOO ÖOÖÖ^HrOLO^HÖrOÖ rr-\ r^J ro i_0 Bazálni (control) výskyt eventu (%) MU Relative ris Pacient ve skupině „Case" má x-krát zvýšenou pravděpodobnost výskytu eventu než pacient ve skupině „Control". X-krát závisí na basálním výskytu eventu, IBA Vytvořil InstitutYýskyt even^jtJ, (/ß&tj-ykova univerzita J. Jarkovský, L. Dušek 58 RR a OR v prospektivních a retrospektivních studiích Prospektivní studie 0 Sledování výskytu eventu a následná analýza jeho příčin 0 Převážně kohortní studie 0 Bazálni výskyt eventu je dán vlastnostmi kohorty pacientů 0 Bezproblémové využití RR Relative risk (relativní riziko) MU pektivní stu 0 Zpětné sledování příčin eventu 0 Převážně case-control studie 0 Výběrem pacientů ovlivňujeme bazálni výskyt eventu 0 RR nelze použít -ovliněno bazálním výskytem eventu 0 Využiti OR - nem ovliněno designem studie Odds ratio (poměr šancí) IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek I Relative risk (relativní riziko) I 0 Intuitivně snadno interpretovatelné 0 Pro prospektivní studie 0 Standardní výstup Coxovy regrese 0 Maximum se liší podle bazálni hodnoty výskytu eventu Odds ratio (poměr šancí) 0 Retrospektivní studie 0 Aplikace v metaanalýze 0 Standardní výstup logistické regrese 0 Rozsah vždy 0 až nekonečno, není ovlivněno bazálním výskytem eventu 0 Obtížnější interpretace MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek XIV. Poissonovo rozložení Popis rozložení a jeho využití MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek IBA Poissonovo rozložení se používá pro popis četnosti výskytu jevu na experimentální jednotku, příkladem může být počet mutací bakterií na Petriho misku nebo počet srdečních poruch na jednotku času MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Poissonovo v ď Celkový počet jevů v n nezávislých pokusech D((x): "n p } E(x) = D(x) P(r) = — u r e M - ju ! = e -ä r ! X r ! /ji—X— průměrný počet jevu z n pokusu ?(X = 0) = e -ju u p(x =i)= --e-"-// p (* = 3) = (3X2) 0>„^ ^ e""-// p(X = 2) = p(X = 4)= M (4)(3)(2) MU /BA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek 1,1 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3-0,2 0,1 0 0,4 0,35- 0,3 0,25 0,2 0,15 0,1- 0,05 0 Poissonovo í jako model P (x = r ) = e -x Á ?t = 0,01 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 n 3 4 5 6 9 10 X=^ ÍU r^^-n-------1------ 12 3 4 5 6 7 9 10 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovsky, L Dušek r ! ^ = 0,1 0,1 o ^ = 0,5 IU. 3456789 10 0 12 3 4 5 6 7 9 10 = 10 A Hn. 0123456789 10111213141516 17181920 8295 Poíssonovo Mutace bakterií na inkubačních miskách OOOQ i________________ Výskyt jevu v prostoru (počet žížal na určitou plochu pole) MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek í v přírodě existuje Orientační stanovení jevu (při produkci plynu bakteriemi) + 4 y u u + The most probable number technique Výskyt jevu v čase (srdeční a ry tmie v určitých časových intervalech) 1 111 1 -I--------1---------1--------1- cas Poissonovo rozložení jako model pro náhodný výskyt jevů ------------ô------------ Předpoklad: náhodná distribuce jevu mezi studovanými objekty (příp. v čase, v prostoru). a < ju a > ju cr - ju Uniform Clustered Random Pokud je X spíše větší (~ 5-10), pak Poisson odpovídá spíše binomickému až normálnímu rozložení. MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Př: pokus......10 000 bakterií na misce n = 10 misek Jev: mutace (r=25) A,..........průměrný počet mutantů na jednu misku r=25 x^;i=25/l 0=2,5 95 % IS: 2,5 - 1,96 • A/0,25 < X < 2,5 + 1,96 • A/0,25 1,52 < X < 3,48 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Poissonova náhodná proměnná Při měření počtu krvinek změněných určitou chorobou (relativně vzácné) je pozorován zředěný vzorek krve pod mikroskopem v komůrce rozdělené na stejně velká pole. Sledovaná veličina, udávající počet krvinek v i-tém poli může být považována za rozdělenou podle Poissonova rozložení: n = 169 = počet nezávislých pozorování proměnné r = 10 = počet pozorovaných krvinek Jaká je hodnota parametru X Poissonova rozložení a jaká je jeho interpretace ? Jaký je interval 95% spolehlivosti pro parametr "k ? Pokud bychom sledovali celkový počet červených krvinek (opět v n = 169 nezávislých políčkách), bylo by i tuto proměnnou možno považovat za rozloženou podle Poissonova rozložení ? Uvažujte celkový počet pozorovaných krvinek jako 2013. Výpočet intervalu spolehlivosti pro Á (bez aproximace na normální rozložení m MU IBA Spodní hranice IS 2 ( /i = 2 r) Lx = —^ 1 2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Horní hranice IS X ( /2 = /l + 2 ) L2 = a i________________ Poissonova náhodná proměnná Konstantní zářič: n = 2608 časových intervalů (každý 7,5 s) i: počet částic v intervalu (x) Sj! pozorovaná četnost intervalů s i částicemi Počet intervalů P(x = /) = X-e -x o i\ p, Poissonova proměnná: * Výborný model pro experimenty, v nichž je během časového průběhu zjišťován počet výskytu určitého jevu 7 8 10 11 12 13 s pravé i zaznamenanými částicemi st 57 203 383 525 532 408 273 139 45 27 10 0 n = 2608 teoretické četnosti "P; (si - nPi y npl 54,399 0, 1244 210.523 0, 2688 407361 ,4568 525,496 0, 0005 508.418 ,0938 393.515 0, 5332 253,817 ,4498 140.325 0, 0125 67.882 7, 7132 29,189 0, 1642 17,075 (=P{^10}) 0,0677 2608,00 12,8849 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Poissonovo í: jednovýběrový test X ir P = (e~Á-Ár) Př: Počet hnízd křepelek na dané ploše n = 8 000 "pod lokalit" r = 28 }' = 0,0035 Nechť je srovnávací soubor (předchozí průzkum) Po = 0^0020 po-8 000 = \6 = ju = A \H0: p < Po ~ ju <16 ? MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek r\ \ 1) Vzít data jako pocházející z populace: éT16-1628 P(r = 28) =--------— = 0,00192 28! 2) P(r> 28) = ? < 0,05 => H zamítnuta "i [0,00411 ] ) l r = 28 je příliš velké pro populaci s p0 ^^ aby r = 28 bylo P > po 9 pravděpodobnější XV. Analýza rozptylu Parametrická analýza rozptylu Post hoc testy MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek IBA Anotace • Analýza rozptylu je základním nástrojem pro analýzu rozdílů mezi průměry v několika skupinách pacientů. • Základní myšlenka, na níž je ANOVA založena, je rozdělení celkové variability v datech (neznámé, dané pouze náhodným rozložením) na část systematickou (spjatou s kategoriemi pacientů, vysvětlená variabilita) a část náhodnou. Pokud systematická, tedy nenáhodná a vysvětlitelná část variability převažujeme, považujeme daný kategoriální faktor za významný pro vysvětlení variability dat. • Analýza rozptylu vyhodnocuje pouze celkový vliv faktoru na variabilitu, v případě analýzy jednotlivých kategorií je třeba využít tzv. post-hoc testy MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I" J. Jarkovský, L Dušek Analýza rozptylu - ANOVA Základní technika sloužící k posouzení rozdílů mezi více úrovněmi pokusného zásahu o +j c o >< d> O (ti i-+j d) O o CM X O o Q. X d) o +j c d) o c o Rostoucí koncentrace testované látky / látek I I Celkově významné změny v reakci biologického systému Vzájemné rozdíly účinku jednotlivých dávek y Rozdíly účinku dávek od kontroly MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Analýza rozptylu - ANOVA Významné kroky analýzy, vedoucí k efektivnímu srovnání variant o +j c o >< d) o (C 1-c d) o c o CM X d) o (C 1-c d) o c o CO X d) o (C 1-c d) o c o Q. X d) o _ c d) o c o MU Rostoucí koncentrace testované látky / látek Splnění předpokladů analýzy Transformace dat Relevantnost kontroly (vliv vlastní aplikace látek) Vhodnost modelu ANOVA pro účely testu Vlastní srovnání variant Minimalizace chyb při ověřování hypotéz IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Analýza rozptylu - ANOVA SPLNENÍ PREDPOKLADU ANOVA JE NEZBYTNOU PODMÍNKOU POUŽITÍ TÉTO TECHNIKY , Předpoklad nezávislosti opakování experimentu ANOVA ; = parametrická \ analýza dat Homogenita \ 2. rozptylu v rámci » pokusných variant • IBA Normalita rozložení 3. v rámci pokusných . variant ALTERNATIVOU JSOU NEPARAMETRICKÉ METODY Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Analýza rozptylu - ANOVA Předpoklady analýzy rozptylu jsou nezbytné pro dosazení síly testu 1 • Symetrické rozložení hodnot a normalita ! odchylek od hodnoceného modelu ANOVA. | Velkou část dat lze adekvátně normalizovat | použitím logaritmické transformace. Předpoklad | lognormální transformace může pochopitelně být j teoreticky vyloučen u mnoha datových souborů j obsahujících diskrétní parametry, kde je j indikována vhodnost jiného typu transformace. U | asymetricky rozložených a u diskrétních dat je | nutné využít neparametrické alternativy analýzy | rozptylu. • Homogenita rozptylu ie nutným předpokladem 1 pro smysluplnost vzájemných srovnání pokusných variant. U testů toxicity by splnění tohoto předpokladu mělo být ověřováno (Bartlettův test), neboť vážné rozdíly (až řádové) | v jednotkách testovaného parametru mohou nastat v důsledku inhibice dávkami látky. Nehomogenita rozptylu je často ve vztahu k nenormalitě (asymetrii) dat a lze ji odstranit vhodnou normalizující transformací. 1 • Statistická nezávislost reziduí | vyhodnocovaného modelu ANOVA. Pokud odhad j a posouzení korelačních vztahů mezi pokusnými | variantami není přímo předmětem výzkumu, lze | jejich vliv na vyhodnocení odstranit znáhodněním | dat v rámci pokusných variant - tedy změnou | pořadí v náhodné. Rozsah vlivu těchto | a u to korelačních vztahů musí být ovšem primárně j omezen správností experimentálního uspořádání. • Aditivita iako předpoklad týkající se složitějších 1 experimentálních uspořádání. Exaktní otestování | aditivity více pokusných faktorů je procedura poměrně náročná na experimentální design vyvážený co do počtu opakování. Je rovněž obtížné testovat interakci na nestandardních datech, neboť případná transformace může změnit charakter odchylek původních dat od hodnoceného modelu ANOVA. MU m Vytvořil Institut biostatistiky a analýz, Masarykova univerzita in A J. Jarkovský, L Dušek Analýza rozptylu - ANOVA Omezení aplikace ANO VA lze řešit \ • Chybějící data. Vážným problémem isou chybějící údaje o celé skupině kombinací testovaných látek, například u faktoriálních pokusů, kdy je znemožněno hodnocení experimentu jako celku. • Nehomoqenita rozptylu. Velmi častý nedostatek experimentálních dat, často související s nenormalitou rozložení nebo s odlehlými hodnotami. • Různé nočtv opakování Jde o tvoický iev pro experimentální datové soubory. Při různých počtech opakování v experimentálních variantách jsou testy ANOVA citlivější na nenormalitu dat. Pokud jsou počty opakování zcela odlišné(až na řádové rozdíly), je nutno použít neparametrické techniky nebo analýzu rozptylu nevyvážených pokusů. • Nenormalita dat. 1 v tomto případě Iz situaci 1 upravit vyloučením odlehlých hodnot nebo normalizující transformací. • Neaditivita kombinovaného vlivu více pokusných zásahů. Tuto situaci lze testovat 1 jednak speciálními testy aditivity nebo přímo F j testem kontrolujícím významnost vlivu interakce pokusných zásahů. Při významné interakci je nutné prozkoumat především její charakter ve vhodném experimentálním uspořádání • Odlehlé hodnotv. Ojedinělé odlehlé hodnotv musí být před parametrickou analýzou rozptylu vyloučeny. • Nedostatek nezávislosti mezi rezidui modelu. Jde o závažný nedostatek, zkreslující výsledek F-testu. Velmi často je tato skutečnost důsledkem špatného provedení nebo naplánování experimentu. IB MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita m J. Jarkovský, L Dušek MU IBA Modely analýzy rozptylu Model I. Pevný model X 0 ^ i 2 X 3 ^ 4 u =//+ or, + g; y Y + + 4- + + XO X1 X2 X3 X4 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Model II. Náhodný model A B C D E yiJ=V+Ai+siJ Y A B C D E ANOVA - základní výpočet Základním principem ANOVY je porovnání rozptylu připadajícího na: o Rozdělení dat do skupin (tzv. effect, variance between groups) o Variabilitu objektů uvnitř skupin (tzv. error, variance within groups), předpokládá se, že jde o náhodnou variabilitu (=error) 1. Variabilita mezi skupinami Rozptyl je počítán pro celkový průměr (tzv. grand mean) a průměry v jednotlivých skupinách dat Stupně volnosti jsou odvozeny od počtu skupin (= počet skupin -1) Variabilita uvnitř skupin Rozptyl je počítán pro průměry jednotlivých skupin a objekty uvnitř příslušných, celková variabilita je pak sečtena pro všechny skupiny Stupně volnosti jsou odvozeny od počtu hodnot (= počet hodnot počet skupin) SS between Vj -k-l SS within Vo -n-k IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek F = between _ groups within _ groups Výsledný poměr (F) porovnáme s tabulkami F rozložení pro v^ a Vo stupňů volnosti SS=sum of squares Jednoduchý ANOVA design Nejjednodušším případem ANOVA designu je rozdělení na skupiny podle jednoho parametru. dělící parametr MU B ■A " B ., C .. C m IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Rozdělení skupin na náhodné podskupiny (např. opakování experimentu) Cílem je zjistit, zda data v jedné skupině nejsou pouhou náhodou Nejprve je testována shoda podskupin v hlavních skupinách, • pokud jsou shodné, je vše v pořádku • pokud nejsou, stále lze zjišťovat, zda se variabilita uvnitř hlavních skupin liší od celkové variability jednoduchá ANOVA nested ANOVA B MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Two way ANOVA Pro rozdělení do kategorií je zde více parametrů Na rozdíl od nested ANOVY nejde o náhodná opakování experimentu, ale o řízené zásahy (např.vliv pH a koncentrace 02) Kromě vlivu hlavních faktorů se uplatňuje i jejich interakce faktor 1 CM O CO A B C 1 S 2 interakce MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Modely analýzy rozptylu - základní výstup Základním výstupem analýzy rozptyluje Tabulka ANO VA -frakcionace komponent rozptylu Zdroj rozptylu St. V. SS MS Pok. zásah (mezi skupinami) Uvnitř skupin a-1 N-a SSB SSB/(a-1) MSB/MSE SSE SSE/(N - a) Celkem N-1 SST SSB/SST I MSB/MST I Kvantifikovaný podíl rozdílu mezi pokusnými zásahy na celkovém rozptylu Statistická významnost rozdílu MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek _co o -I—» c o Analýza rozptylu - obecný F test 0 o co -I—» c 0 o c o CNI X 0 Ü co c 0 o c o Koncentrace X3 F test: H H0 platí Látka nepůsobí Q. X 0 Ü co -i—» c 0 o c o MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek obecný F test H0: m1 = m2= m3 = .... = m. H0 neplatí Látka působí Další analýzy Analýza rozptylu - Testy kontrastů ANOVA:H0 zamítnuta Testy kontrastů Rozdíly v smysluplných kombinacích ? co o o Koncentrace X1 CNI X 0 Ü co c 0 o c o Koncentrace X3 Q. X 0 Ü co c 0 o c o Vytvoril Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Plánované Neplánované Pro srovnání variant s kontrolou Testování kontrastů "Multiple range testy' •isit: IBA MU IBA Dávka rostlinného stimulátoru (0, 4, 8, 12 mg/l) A=4;n=8 I. ANOVA Bartletťs test: P = 0,9847 K-S test: P = 0,482 - 0,6525 pro jednotlivé kategorie Source D. f. SS MS F Between Groups Within Groups 3 28 305,8 322,2 101,9 11,9 8,56 Total (corr.) 31 638,0 II. Multiple Range Test NKS -test Level 0 4 12 8 Average Homogenous Groups 34,8 41,4 41,8 52,6 x x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Příklad: Anova - One way I. Zásah: 4 klinická stadia virové choroby (napadá kr. buňky) Sledovaná veličina: aktivita enzymu v těchto krevních buňkách rio . jdy fl2 jJ^ //4 I II III IV 22,8 16,4 11,2 14,2 19,4 17,8 18,2 10,1 _______12,5 19,1 15,8 12,8 E 65,7 53,3 45,2 37,1 průměr 21,9 17,8 15,1 12,4 Komponenta rozptylu: n = 3 MODEL = ? Source D.f. MS F P Between groups 3 49,6 8,39 0,0075 Within groups 8 5,9 Total (corr.) 11 _ °A~SA MSA -MSe n 49.6-5.9 = 14.57 IV. fl ri = S2 SA + Se = 0,7142 S2A=295.S2e IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Srovnání variant v testech Srovnáváni variant po celkovém testu ANOVA ANOVA testy (F) Ryan Q test MU Mnoho existujících algoritmů není vhodných pro konkrétní případ Day and Quin Ecological Monographs, 1989 Využiti Du n nett Williams Srovnání s kontrolou Orthogonální kontrasty Jednoduché kontrasty Testv oro Jednoduché kontrast Tu key LSD Dunn-Sidák Kramer Testy nevhodné Vyhodnocen jako nejlepší test Student -Newmann-Keuls Waller-Duncan k ratio IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Řada post-hoc testů v různých SW One-Way AN OVA for PRODUCTS Task Roles Tesis Means ^ ^^ Breakdown Plot? =:es_ :s T-es jj Means > Comparison The main effect is: Product Name. ■ Methods to use D Bonferronittest I I Tu key's studentized range test (HSD] I I Duncan's multiple-range test D Dunnetfsttest I I Fis tier's least significant-difference test I I Gabriels multiple-comparison procedure I I Student-Newman-KeuIs multiple range test I I Waller-Duncan k-ratiottest I I Scheffe's multiple comparison procedure I I Ryan-Ei not-Gabriel-Welsch multiple-range test I I Preview code MU §sas la ANOVA Results 1: srovnáni hmotnosti ovci Profiler | Custom tests | Residuals 1 | Residuals 2 | MatriK | Report Summary | Means | Planned c amps j Post-hoc ; Assumptions Effect: | Skupina J£LJ I Hmotnost ~3 -Djsplav— (* Significant differences C Homogeneous groups: C Confidence intervals C Critical ranges: -Error term — (* Between error C Within error C Between; within; pooled T MS:|ü.Ü0( f^ Fisher LSD f^ Bonferroni H TukeyHSD M Unequal N HSD m BHlxi * Less Close ■O Modifv ^l Options ^ StatSoft' -Range tests [multi-stage tests) One-Way ANOVA: Post Hoc Multiple Comparisons Equal Variances Assumed T J=SDi "* Bonferroni T Sjdak I- Scheffe T B-E-G-W F T R-E-G-Wfl r Í-N-K "* Tukey I- Tukey's-b I- Duncan _ Hochberg's GT2 ~ Waller-Duncan Type l/ľype II Error Ratio: li 00 I- Dunnett ^^^_^^^ Control Category: I Last Gabriel P 2-sided C < Control C > Control Equal Variances Not Assumed Tamhane's T2 | " Dunnett's T3 _ Garnes-Howell _ Dunnetťs C Significance level: |.05 Continue Cancel Help )uncan's | ( CG cell«: |i~^ IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek ANCOVA Rozšíření ANOVA Současná analýza kategoriálních a spojitých prediktoru Testování hypotézy paralelismu regresních vztahů >(ü Q. Q) O O ■o o x kategorie >(D Q. Q) O O ■o o x ^kategorie Spojitý prediktor Spojitý prediktor Kategorie pacientů (pokusný zásah) neovlivňuje vztah pramenných Kategorie pacientů (pokusný zásah) ovlivňuje vztah pramenných MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek XVI. Korelace a regrese Parametrická a neparametrická korelace Lineární regrese MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek IBA Anotace Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých proměnných. Obdobně jako jiné statistické metody, i korelace mohou být parametrické nebo neparametrické • Regresní analýza vytváří model vztahu dvou nebo více proměnných, tedy jakým způsobem jedna proměnná (vysvětlovaná) závisí na jiných proměnných (prediktorech). Regresní analýza je obdobně jako ANOVA nástrojem pro vysvětlení variability hodnocené proměnné MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I" J. Jarkovský, L Dušek Korelace - vztah (závislost) dvou znaků (parametrů) x. • • Xi MU x^^L ANO NE ANO a b NE c d IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Parametrické míry korelace Ková ri a nee Cov(x, y) = E(xl - x).{yt - y) t -x - y t o MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Pearsonův koeficient korelace r=1 r = -1 x, MU IBA Základy korelační analýzy - III. P, (zem) 10 14 15 32 40 20 16 50 P, (rostl.) 19 22 26 41 35 32 25 40 7 = 1,.....,n:n = 8:v = 6 *-?.....? *"? r = Cov(x,y) SXSy I. H0:p = 1 J v < 0,05 • ^Jn - 2 v = n-2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Základy korelační analýzy - IV. Srovnání dvou korelačních koeficientů (r) i. «i r, = = 1258 0.682 2. «7 = 462 r2 = 0,402 Krevní tlak x koncentrace kysl. radikálů (l + r,) Zx = 0,833 Zi = 1.1513 -log O-',) Z2 = 0,426 Test H0:pl=p2 ; a=0,05 Z = Zx- Z 1 1 + 0,407 0,0545 = 7,461 nl - 3 «2 - 3 tabulky : Z0 975 =1,96 7,461 »1,96 => P «0,01 MU /BA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Základy korelační analýzy - V. Neparametrická korelace (rs) P, v půdě 1 2 3 6 7 5 4 8 P, v rostl. 1 2 4 S 6 5 3 7 d, 0 0 1 2 -1 0 -1 -1 r = 5 i = 1......n; n = 8 => v = 6 6 • V di 2 1-------^4------T= 0,9048 tab : rs(v = ó)= 0,89 Pacient č. 1 2 3 4 5 6 7 Lékař 1 4 1 6 5 3 2 7 Lékař 2 4 2 5 6 1 3 7 d, 0 -1 1 -1 2 -1 0 = 1 - 6 -8 7 (49 - 1) = 0,857 P = 0,358 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Vztahy velmi často implikují funkční vztah mezi Y a X. Y=a+b.X Y = a + b1 . X1 + b2. X2 + b3. X3 Y = a + b., . X^ + b2. X2 Y = a + b1 . X1 + b2. X2 + b3. X1 . X2 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Korelace v grafech II. Y Problém rozložení hodnot ^|^^| Problém typu modelu • • • Y • •• • r = 0,981 (p < 0,001) r = 0,761 (p < 0,032) *• * X X Problém velikosti vzorku Y Y r* r = 0,212 (p < 0,008) •/• • ^^ r = 0,891 (p < 0,214) • • •• %* • S* #•••• • m Vytvoril Institut biostatistiky a analýz, Masarykova univerzita in A J. Jarkovský, L Dušek Modelování klin ických dat 1.Tvorba modelu »van á nná *> • Parametry ovlivňující vysvětlovanou charakteristiku větlc -omě osi« pacienta • Rovnice umožňující predikci U • Platnost modelu pouze v rozsahu \ v 7 Pred i ktorý pred i ktorů 2.Validace modelu »^ • Nebezpečí „přeučenT modelu • Testování modelu na známých ^ datech • Krosvalidace \ v 7 • Individuální predikce stavu nenámých pacientů 3. Aplikace modelu • Model musí být podložen korektní statistikou a rozsáhlými f daty MU m Vytvořil Institut biostatistiky a analýz, Masarykova univerzita ■ p> J. Jarkovský, L Dušek 27 Základy regresní analýzy Regrese - funkční vztah dvou nebo více proměnných Jednorozměrná y = f (x) Vícerozměrná y = f(x1, x2, x3,......xp) Deterministický Vztah x, y Regresní, stochastický • - •' ••• • • Pro každé x existuje pravděpodobnostní rozložení y MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Regresní analýza přímky: lineární regrese Y = a + b-x + e « a + ß • X + e a « a (intercept): a = y - b ■ x V----- ß-Xxib-x (sklon;slope) s « e - náhodná složka : N(0;<72e ) = N\0; (J1 x) e - náhodná složka modelu přímky = rezidua přímky o]\G [o1 j ^> rozptyl reziduí MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Základní regresní analýzy: model přímk Y1 \i datech 1 i X 1 I y Y • . :• n _ - - n - - - : • x 1 .—. y = a + b . x t y .—. y ^^ e n ■ - - ... _ - - _ - ■ b J MU m Vytvořil Institut biostatistiky a analýz, Masarykova univerzita ■ p> J. Jarkovsky, L Dušek Základní regresní analýzy: model přímky v datech II -------o------- s y S y =S, ..ym»'^/.t v.» _•_•__. b = o • . • •. • • • • MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovsky, L Dušek 2 e = 0 b>0 Základní regresní analýzy: model přímky v datech I d =y-y \dy.x=y-y-b{x,-x)\ y = y + b(x,-x) Smysl proložení přímky minimalizace odchylek d2 -> y-x ^[y-ä-ßix^x)] Metoda nejmenších čtverců 1) X: Pevná, nestochastická proměnná 2) Rozložení hodnot y pro každé x je normální 3) Rozložení hodnot y pro každé x má stejný rozptyl , . 4) RezidMa jsou NjO^a^ MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Základní regresní analýzy: model přímky v datech I b ~ ß : b H{x,-xJ SÍ~G ß llix,-x) s2 —\2 y-x S2 = mean squared deviation from regression S = sample standard deviation from regression S I ä 2 y-x Y.r?-££--*.zix.-xj y-x M-2 n-2 a ~ a : a = Y -b-X intercept S a G a K = j_ x1 S y-x A Y : modelová hodnota syi={sj. .)-+ i ,(xt-xy Z^2 N1U IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek X: Množství spáleného odpadu (tuny) Y: Koncentrace kovu ve vzduchu(ng/m3) Platí: X = 0; 10; 100; 150; 200; 250; 300 tun Model:Y = a + b.X Výsledek: 7 = 14 + 0,123-X; Y^ ♦ ngkov m' Napr. : Skutečná data pro X = 2001: Y = 16; 25; 41; 28; 31; 20 => Y = 26.8 _ / _v Odhadnuto z modelu pro X = 2001: Y = Y + b-(x-xna = Y_b.x „ Ý = a + b-X J Y =14+ 0,123.200 = 38,6 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Regresní analýza v grafech I Grafy residuí modelů (příklady) • • • • • • m ••«••«* •;:••*•: I • .•• •. • • •» • • • •••• • • • • »ľ •. • • • .. • • • • I y (i; x) Obecné tvary residuí modelů (schéma) y (i; x) y (i; x) A e A e /v e MU ■> Xj, y ■> Xj, y ■> Xj, y ■> Xj, y IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek 1)Yvs. X Y Y MU X Y Y ' Y X .••I •- • • ••• • ••• •• xm Y Y .•-.^■L ▼ x Y Y IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovsky, L Dušek Lineární regrese - příklad X: Koncentrace drogy: 0; 2; 6; 8; 10; 12; 15 mg/ml krve Y: Koncentrace volných metabolitů Pro každé X: 3 opakování Y Model: Y = a + b . x Y = 0,11 +0,092. X I. H0 \ ß = 0;a = 0,05 b = 0,092 ;sb = 0,023 P < 0,01 >t = S-. = 4,00 f(v=i9) 2 093 ř0,975 ^?v^J ß-b± tt'l ■ S„ P(0,044J-> MU /BA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Analýza rozptylu jako nástroj analýzy regresních modelů - příklad na modelu přímky 1) Experimentální data Yl Xg Xj^ X2 X3 A4 Yn X0 Xl X2 X3 X/, S 2. C ^ C ^ C ^ C ^ 0 »! S2 s3 s4 Y 1 i i—i—i—1—1- x MU Y 2) Celková ANOVA "one way' Zdroj rozptylu St.v. SS MS F Mezi skupinami a-1 ssB SSB/(a-l) MSB/MSE Uvnitř skupin na-a SSE SSE /(na- a) Celkem na-1 SST s2 Y SS; Y na -I x x IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Analýza rozptylu jako nástroj analýzy regresních modelů: příklad na modelu přímky 3) Celková ANOVA SSB/SST MSB/MSE = F (variance ratio) 4) Analýza rozptylu regresního modelu (zde přímky) Zdroj rozptylu (SSMOD/SST).100 = % rozptylu Y ^>- "vyčerpaného" přímkou = koeficient determinace (R2) na-1 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek X: konc.Cd: 1,2,3,4,5,6 ng/ml Y: absorb: 0,23; 0,49; 0,72; 0,90; 1,16; 1,39 b=0,228 3=0,016 r = 0,999 R2 = 99,81% Sb=4,99.10"3 Sa=0,019 P = 0,000 P = 0,457 St. Error of est: 0,021 ANOVA Source D.f. SS MS F P Model 1 0,912 0,912 2086,3 0 Residual 4 0,0017 0,000425 5 0,9138 s%.x =4,25.104 a - = 0,18275 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek XVII. Vícerozměrná analýza dat: úvod Principy a využití vícerozměrné analýzy dat MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek IBA Anotace • Vícerozměrná analýza dat představuje nadstavbu nad klasickou, jednorozměrnou statistikou a je zvláště vhodná pro biologická a medicínská data, která jsou vícerozměrná již svou podstatou • Při vícerozměrné analýze je nicméně nezbytné si uvědomit, že povětšinou vychází ze stejných principů jako jednorozměrné analýzy a tedy i zde je nezbytné dodržovat předpoklady na nichž je výpočet založen. Tento fakt je důležité si uvědomit zejména vzhledem k relativní dostupnosti vícerozměrných analýz v moderních statistických software. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Vztah klasické a vícerozměrné statistiky • Vícerozměrná analýza dat využívá přístupů klasické statistiky • Zároveň je citlivá i na jejich problémy • Agregace dat přes sumární statistiku nebo kontingenční tabulky -korespondenční analýza • Korelace - analýza hlavních komponent, faktorová analýza, diskriminační analýza O MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I" J. Jarkovský, L. Dušek n Vícerozměrné vnímání skutečnosti - nová kvalita analýzy dat X skupinami? skupina 2 Vícerozměrný systém X2 J X2 + H—► i + J Klasická jednorozměrná analýza v í—► skup. skup. skup. skup. 2 12 1 MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Běžná sumarizace dat „likviduje" individualitu jedince fi 0 Q T A A A A Q A _o_. . ~ Prumer ± SE \f \f r BEZNA STATISTICKÁ SUMARIZACE s Zpřehlednění dat s Neodlišípůvodní měření Vytvořil Institut biostatistiky a analýz, Masarykova univerzita ■ n j J. Jarkovský, L Dušek Vícerozměrné hodnocení s ohledem na individualitu ! Xi x: • ••• V- . • •• ,• • • •• • • • • • •• ••• •• • • • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita ipt J. Jarkovský, L Dušek Vícerozměrné hodnocení- nová kvalita Pouze kombinovane parametry mají odpovídající informační silu BBRB BB B6 BB B o B Ar " B A BBRBB, Aaaa B BBb \ A \ MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vícerozměrné hodnocení vychází z jednoduchých principů \ \i MU příklad: vícerozměrná vzdálenost V 'V 7 m m 'V k \ MICI Clil IIIG^I u (body) VGIII .4.............................. 2 .................................................................................................................................c\ ^ c2= á + Ô^^ jy^ b ^................................ V^^ ^ b = ife- «i = d 11 12 /BA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vícerozměrné modelování je strategickou disciplínou IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Pojmy vícerozměrných analýz • Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými parametry (věk, příjem atd.) a každý z těchto parametrů můžeme považovat za jeden rozměr objektu. • Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty. • NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem vstupu dat do vícerozměrných analýz. • Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají další výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv. metriky) buď objektů (Q mode analýza) nebo parametrů (R mode analýza).Měřítko podobnosti se liší podle použité metody a typu dat, některé metody umožňují použití uživatelských metrik. MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I" J. Jarkovský, L Dušek Vstupní matice vícerozměrných analýz NxP MATICE ASOCIAČNÍ MATICE t- OJ CO 'S "55 'S E E E co co ni i_ i_ i_ cti ns cti o. o. o. objekt 1 objekt 2 objekt 3 objekt 4 objekt 5 objekt 6 Hodnoty parametru pro jednotlivé objekty Výpočet metriky podobností/ vzdáleností t- cm co Tŕ m co ^ _*: _*; ^ _*: _*; d) a) a) a) a) a) S1 io* io1 iE1 !q* io1 o o o o o o objekt 1 objekt 2 objekt 3 objekt 4 objekt 5 objekt 6 Korelace, kovariance, vzdálenost, podobnost MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Základní typy vícerozměrných analýz SHLUKOVÁ ANALÝZA vytváření shluků objektů na základě jejich podobnosti identifikace typů objektů ASIFIKACE Model zařazení neznámých pacientů do předem daných skupin Řada algoritmů RDINACNI METODY zjednodušení vícerozměrného problému do menšího počtu rozměrů principem je tvorba nových rozměrů, které lépe vyčerpávají variabilitu dat MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek Typy vícerozměrných analýz SHLUKOVÁ ANALÝZA : «i f podobnost MU t í ORDINAČNÍ metod Faktorové osy t tí +4 Diskriminační prostor IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek ¥ X