I. Statistika ve vědecké praxi Pozice statistické analýzy ve vědě a klinické praxi Význam statistických výstupů Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistická analýza biologických dat je jedním z nástrojů, s jejichž pomocí se snažíme zjistit odpovědi na naše otázky týkající se pochopení živé přírody. Jako každý nástroj je i statistickou analýzu nezbytné na jedné straně korektn ě využívat a na druhou stranu nepřeceňovat její možnosti. • Klíčovým faktem při statistické analýze dat je nahlížení na realitu prostřednictvím vzorku a přijmutí toho, že výsledky naší analýzy jsou jen tak dobré, jak dobrý je náš vzorek. Reprezentativnost a náhodnost vzorku spolu s jeho velikostí jsou důležité faktory ovlivňující věrohodnost našich závěrů. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Výzkum, realita, statistika • Výzkum je naším způsobem porozumění realitě • Ale jak přesné a pravdivé je naše porozumění? Statistika je jedním z nástrojů vnášejících do našich výsledků určitou spolehlivost. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Význam variability • Naše realita je variabilní a statistika je vědou zabývající se variabilitou • Korektní analýza variabilita a její pochopení přináší užitečné informace o naší realitě • V případě deterministického světa by statistická analýza nebyla potřebná Biostatistika - různé přístupy k variabilitě Variabilita znaku v populaci o A 1 140 cm 182 cm 163 cm rozptyl znaku, přirozená variabilita chyba = nepřesnost modelu ,..J4 IBÄ Variabilita ve skladbě biologických společenstev DRUH 1 DRUH 2 DRUH 3 DRUH 4 15 30 40 14 biodiverzita Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Pojem VARIABILITA má mnoho významů......... .... a ty určují přístup k jejímu hodnocení Maskování a minimalizace vlivu Respektování a odhadování vlivu Přímé využití k predikcím chování systému Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistika - význam a definice WWW.WIKIPEDIA.ORG: Statistika je matematickou vědou zabývající se shromážděním, analýzou, interpretací, vysvětlením a prezentací dat. Může být aplikována v širokém spektru vědeckých disciplín od přírodních až po sociální vědy. Statistika je využívána i jako podklad pro rozhodování, kdy nicméně může být záměrn ě i nevědomky zneužita. Statistika využívá matematické modely reality k zobecnění výsledků experimentů a vzorkování. Statistika funguje korektně pouze pokud jsou splněny předpoklady jejích metod a modelů. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Co může statistika říci o naší realitě? Data Statistika t Informace Statistika není schopna činit závěry o jevech neobsažených v našem vzorku. Statistika je nasazena v procesu získání informací z vzorkovaných dat a je podporou v získání naší znalosti a pochopení problému. Znalost t Pochopení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistika není náhradou naší inteligence !!! Cílová populace • Cílová populace - klíčový pojem statistického zpracování o Skupina objektů o nichž se chceme něco dozvědět (např. pacienti s danou diagnózou, všichni lidé nad 60 let, měření hemoglobinu v dané laboratoři) o Musí být definována ještě před zahájením sběru dat o Na cílové populaci probíhá vzorkování dat, které musí cílovou populaci dobře (reprezentativně) charakterizovat Cílová populace Klíčové faktory Design Vzorkování a Statistika a zobecnění výsledků Neznámá cílová populace Vzorek Analýza Díky zobecnění výsledků známe vlastnosti cílové populace Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Cílem analýzy není pouhý popis a analýza vzorku, ale zobecnění výsledků ze vzorku na jeho cílovou populaci Pokud vzorek nereprezentuje cílovou populaci, vede zobecnění k chybným závěrům Vzorkování a jeho význam ve statistice Statistika hovoří o realitě prostřednictvím vzorku!!! o Statistické předpoklady korektního vzorkování Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Velikost vzorku a přesnost statistických výstupů Existuje skutečné rozložení a skutečný průměr měřené proměnné Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Z jednoho měření nezjistíme nic rVzorek: ^ ????? Vzorek určité velikosti poskytuje odhad reálné hodnoty s definovanou spolehlivostí Vzorek: Odhad průměru atd. Vzorkování všech existujících objektů poskytne skutečnou hodnotu dané popisné statistiky, nicméně tento přístup je ve většině případech nereálný. Různá role statistiky při různě velkém vzorku Malá data Velká data Obrovská data Umění prodat i Umění pochopit i Umění uchopit MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita Ygy^ J. Jarkovský, L. Dušek Přístup bíostatístíky Pacient : : ť - a Leu a3r:': aNeu% a Lyll a ŕ aSe aNeu aLy ä-:; a c Lak aCLNeus a c LOZ aCLNeuO ~ 10si lí It % It rfii 10s; rfii 10s; r.řll iď; r.řll iď; ■-. mVs10s mVs10s mVs10s mVsUl5 3 1 4 33 72 32 4 2 7.6 S 5B 66 24 0.6 4.4 5.0 1.B ľľ 95 19 4B 10 S 3 4 3 52 55 40 0.1 2.1 2.2 1.6 22 77 35 33 15 11 4 6.1 5 59 64 35 0.3 :.= 3.9 2.1 ľľ 103 26 49 13 12 5 = 3 Q n ? r ^ 37 31 1 3 4E 7 14 6 5.9 ; _ 32 137 33 61 15 16 7 S 13 Data 151 20 59 B 20 S 9.6 7 ;c 77 11 33 5 21 9 6 10 = 32 120 26 52 11 22 10 3.3 59 —; - M HIB z. u 31 42 24 12 37 11 3. S 10 60 70 30 0.4 2.3 2.7 1.1 111 42 29 11 33 12 6.4 2 76 73 17 0.1 4.9 5.0 1.1 25 366 73 115 23 39 13 6.B 1 57 5B 39 0.1 3.9 3.9 2.7 20 59 71 13 49 14 B. 5 7 67 74 26 0.6 5.7 6.3 2.2 30 156 25 103 17 51 15 9.3 7 57 64 35 0.7 5.3 6.0 3.3 35 129 21 23 4 52 16 2.2 10 í; = = 34 0.2 1.2 1.5 0.7 ľľ í; 30 12 B 55 17 9.9 3 73 31 10 0.3 7.7 3.0 0.1 30 135 24 140 1B 56 18 5 2 30 B2 13 0.1 4.0 4.1 0.7 26 101 25 54 13 6 1 S. S 11 72 33 12 1.0 6.3 7.3 1.1 " 2 = 3 ľí.í 145 15.5 9 2 9.2 2 66 63 23 0.2 6.1 6.3 2.6 1=3 2;.~ 76 12.2 13 3 10.0 7 33 90 B 0.7 3.: 9.0 CS 54 131 20.1 31 9 15 4 9.6 1 75 76 23 0.1 7.2 "~ 17 5 6.0 19 6 7.2 2 73 30 1B 0.1 5.6 24 7 E.2 1 72 73 25 0.1 5.9 26 S 10.3 1 B5 36 3 0.1 B.B 29 9 5.0 1 74 75 21 0.1 3.7 30 31 10 11 11.9 7? 1 3 51 53 52 56 47 ?9 0.1 0 ? 6.1 3B f IP 32 12 10.B 36 50 76 3 3.9 5.4 I I 1,600 1 1 1,800 33 13 11.E 22 54 76 16 2.6 6.4 gggggt 34 40 14 15 17.0 1 S 32 72 33 30 16 4 0.2 O.B 13.9 7.2 G.S G.6 G.4 G.2 G.G G 1GG 2GG 3GG 4GG Vytvoril Institut Diostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Schopnost: vidět data - komunikovat - interpretovat - prodávat Experimentální design: nezbytná výbava biologa Účel analýzy: Popisný cílová populace -4.................. výběr dle optimálního plánu reprezentativní vzorek n jedinců (faktor F) měření znaku OO00OOO0O0 * variabilita hodnot * ve výběrovém souboru VÝSLEDKY .................... Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Reprezentativnost Spolehlivost Přesnost ■►(z) oOO ... analyzovaný znak cílové populace (X) ••O ... jiný významný faktor charakterizující cílovou populaci (F) Experimentální design: nezbytná výbava biologa Účel analýzy: Srovnávací (2 ramena) cílová populace výběr subjektů pro vstup do hodnocení / studie -Y- RANDOMIZACE vzájemně srovnatelné vzorky (faktor F) rameno A měření znaku X rameno B OooOO 0O0O0 ........................................► <.........................................\ variabilita hodnot X variabilita hodnot X v rameni A v rameni B VÝSLEDKY................................ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek oOO ... analyzovaný znak cílové populace (X) ••O ... jiný významný faktor charakterizující cílovou populaci (F) ? Srovnatelnost Spolehlivost Přesnost Praktická a statistická významnost • • Samotná statistická významnost nemá žádný reálný význam, je pouze měřítkem náhodnosti hodnoceného jevu Pro vyhodnocení reálné významnosti je nezbytné znát i reálně významné hodnoty Praktická významnost ANO NE Statistická významnost ANO OK, praktická i statistická významnost je ve shodě, jednoznačný závěr Významný výsledek je statistický artefakt velkého vzorku, prakticky nevyužitelné NE Výsledek může být pouhá náhoda, neprůkazný výsledek OK, praktická i statistická významnost je ve shodě, jednoznačný závěr Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Obecné schéma využití statistické analýzy Experimentální design Jak velký vzorek je nezbytný pro statisticky relevantní výsledky? Klíčová stratifikační kritéria cílové populace. Vzorkovací plán zabezpečující náhodnost a reprezentativnost vzorku. Uložení dat ve vhodné formě a jejich vyčištění předcházející vlastní analýze je klíčovým krokem statistické analýzy. Grafická inspekce dat je nezbytným krokem analýzy vzhledem ke schopnosti lidského mozku primárně akceptovat obrazová data. Poskytne vhled do dat, představu o jejich rozložení, vazbách proměnných apod. Popisná analýza umožňuje vyhodnotit srovnáním s existující literaturou realističnost naměřených rozsahů dat. Testování vazeb mezi různými proměnnými s cílem navzájem vysvětlit jejich variabilitu a tím přispět k pochopení řešeného problému. Vzorkování Uložení a management dat Vizualizace dat Popisná analýza Testování hypotéz Modelování Možným vyvrcholením analýzy je využití získaných znalostí a pochopení problému k vytvoření prediktivních modelů. MU m Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Stochastické modelování: predikce neurčitých jevů Prospektivně - modelově - postihuje chování jevů při respektování variability Pravděpodobnostní vztahy Anamnéza x Výsledek vyšetření pacienta Karcinom Benigní léze Benigní riziková Zdravá Pozitivní anamnéza 2,22 34,44 0,00 63,33 100% Negativní anamnéza 1,06 28,23 0,96 69,75 100% p < 0.05 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Stochastické modelování: predikce neurčitých jevů ------------------------------------------------Jn------------------------------------------------- 1,0 0,8 0,6 0,4 0,2 0,0 jť -4,0 0,0 -2,0 2,0 1,0 0,8 0,6 0,4 0,2 4,0 0,0 Osa X Age = 55 years 0 10 20 30 40 50 60 70 80 Parametr nebo kombinace parametrů Data konkrétních pacientů (subjektů) k přímému hodnocení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Stádium I -II Stádium III -IV # Grade O Grade 2 1 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Index Mitosis / (Apoptosis + 0.5) Schopnost: vytvářet prakticky využitelné nástroje Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek II. Příprava dat Klíčový význam korektního uložení získaných dat Pravidla pro ukládání dat Čištění dat před analýzou Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Současná statistická analýza se neobejde bez zpracování dat pomocí statistických software. Předpokladem úspěchu je správné uložení dat ve formě „databázové" tabulky umožňující jejich zpracování v libovolné aplikaci. • Neméně důležité je věnovat pozornost čištění dat předcházející vlastní analýze. Každá chyba, která vznikne nebo není nalezeno ve fázi přípravy dat se promítne do všech dalších kroků a může zapříčinit neplatnost výsledků a nutnost opakování analýzy. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek DATA -ukázka uspořádání datového souboru Parametry (znaky) Pacient Človek a Leu aTy% aSe% aNeu% al_y% -------- íl a Ty ^^ir— aSe a Neu aLy aHtc aCLsk aCLNeus aCLOZ aCLNeuO cell. 106/ % % % % cell.10e/ cell.10e/ cell.10e: cell.10e/ % mV.s.103 mV.s.103 mV.s.103 mV.s.103 3 1 4 33 72 32 4 2 7,6 8 58 66 24 0,6 4,4 5,0 1,8 33 95 19 48 10 8 3 4 3 52 55 40 0,1 2,1 2,2 1,6 22 77 35 33 15 11 4 6,1 5 59 64 35 0,3 3,6 3,9 2,1 33 103 26 49 13 12 5 6,9 3 85 88 9 0,2 5,9 6,1 0,6 37 81 13 45 7 14 6 5,9 15 55 70 19 0,9 3,3 4,1 1,1 32 137 33 61 15 16 7 8 18 75 93 7 1,4 6,0 7,4 0,6 34 151 20 59 8 20 8 9,6 3 72 75 23 0,3 6,9 7,2 2,2 40 77 11 38 5 21 9 6 10 67 77 19 0,6 4,0 4,6 1,1 32 120 26 52 11 22 10 3,3 4 55 59 39 0,1 1,8 2,0 1,3 28 81 42 24 12 37 11 3,8 10 60 70 30 0,4 2,3 2,7 1,1 32 111 42 29 11 38 12 6,4 2 76 78 17 0,1 4,9 5,0 1,1 25 366 73 115 23 39 13 6,8 1 57 58 39 0,1 3,9 3,9 2,7 20 234 59 71 18 49 14 8,5 7 67 74 26 0,6 5,7 6,3 2,2 30 156 25 108 17 51 15 9,3 7 57 64 35 0,7 5,3 6,0 3,3 35 129 21 23 4 52 16 2,2 10 56 66 34 0,2 1,2 1,5 0,7 33 46 30 12 8 55 17 9,9 3 78 81 10 0,3 7,7 8,0 0,1 30 189 24 140 18 56 18 5 2 80 82 13 0,1 4,0 4,1 0,7 26 101 25 54 13 6 1 8,8 11 72 83 12 1,0 6,3 7,3 1,1 44 268 36,6 145 19,9 9 2 9,2 2 66 68 28 0,2 6,1 6,3 2,6 42 168 26,9 76 12,2 13 3 10,0 7 83 90 8 0,7 8,3 9,0 0,8 54 181 20,1 81 9 15 4 9,6 1 75 76 23 0,1 7,2 7,3 2,2 45 343 47 124 16,9 17 5 6,0 45 40 21 19 6 7,2 2 78 80 18 0,1 5,6 5,8 1,3 44 103 17,8 63 10,9 24 7 8,2 1 72 73 25 0,1 5,9 6,0 2,1 41 209 34,9 57 9,6 26 8 10,3 1 85 86 3 0,1 8,8 8,9 0,3 41 364 41,1 112 12,6 29 9 5,0 1 74 75 21 0,1 3,7 3,8 1,1 39 83 22,1 32 8,5 30 10 11,9 1 51 52 47 0,1 6,1 6,2 5,6 33 83 13,4 52 8,4 31 11 7,2 3 53 56 29 0,2 3,8 4,0 2,1 28 109 27,1 63 15,5 32 12 10,8 36 50 76 8 3,9 5,4 9,3 0,9 27 146 15,7 106 11,4 33 13 11,8 22 54 76 16 2,6 6,4 9,0 1,9 45 246 27,4 63 7 34 14 17,0 1 82 83 16 0,2 13,9 14.1 2,7 34 440 31,2 119 8.4 40 15 10,0 8 72 80 4 0,8 7,2 8,0 0,4 37 176 22,0 52 6,5 J. Jarkovský, L. Dušek Zásady pro ukládání dat • Správné a přehledné uložení dat je základem jejich pozdější analýzy • Je vhodné rozmyslet si předem jak budou data ukládána • Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě • Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky o Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce o Každý řádek obsahuje minimální jednotku dat (např. pacient, jedna návštěva pacienta apod.) o Je nepřípustné kombinovat v jednom sloupci číselné a textové hodnoty o Komentáře jsou uloženy v samostatných sloupcích o U textových dat nezbytné kontrolovat překlepy v názvech kategorií o Specifickým typem dat jsou datumy u nichž je nezbytné kontrolovat, zda jsou datumy uloženy v korektním formátu • Takto uspořádaná data je v tabulkových nebo databázových programech možné převést na libovolnou výstupní tabulku • Pro základní uložení a čištění dat menšího rozsahu je možné využít aplikací MS Office MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita IQJ^ J. Jarkovský, L. Dušek MS Excel a Kontingenční tabulky - rychlá sumarizace rozsáhlých tabulek a Možnost výpočtů a grafových výstupů přímo v aplikaci a Visual Basic -složitější aplikace - Omezení tabulky na 256x65536 buněk (do verze 2003) - Omezená kontrola chyb při zadávání • MS Access a Plnohodnotná databáze vhodná pro velké množství dat, řádky omezeny v podstatě jen dostupnou pamětí b Kontrola typu dat a Relace tabulek - omezení velikosti souboru a Visual Basic a formuláře - složitější aplikace - Omezení tabulky na 255 sloupců - Výpočty a grafy jsou složitější než v Excelu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Možnosti MS Excel Správa a práce s tabulárními daty Řazení dat, výběry z dat, přehledy dat Formátování a přehledné zobrazení dat Zobrazení dat ve formě grafů Různé druhy výpočtů pomocí zabudovaných funkcí Tvorba tiskových sestav Makra - zautomatizování častých činností Tvorba aplikací (Visual Basic for Aplications) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Import a export dat • Import dat o Manuální zadávání o import - podpora importu ze starších verzí Excelu, textových souborů, databází apod. o kopírování přes schránku Windows - vkládání z nejrůznějších aplikací - MS Office, Statistica atd. o využití textových souborů jako kompatibilního formátu pro přenos dat mezi různými aplikacemi • Export dat o Ukládáním souborů ve formátech podporovaných jinými SW, časté jsou textové soubory, dbf soubory nebo starší verze Excelu o Přímé kopírování přes schránku Windows Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Výběr buněk o CTRL+A -výběr celého listu o CTRL + klepnutí myší do buňky -výběr jednotlivých buněk o SHIFT + klepnutí myší na jinou buňku - výběr bloku buněk o SHIFT + šipky - výběr sousedních buněk ve směru šipky o SHIFT+CTRL+END (HOME) - výběr do konce (začátku) oblasti dat v listu o SHIFT+CTRL+šipky - výběr souvislého řádku nebo sloupce buněk o SHIFT + klepnutí na objekty - výběr více objektů Kopírování a vkládání o CTRL+C -zkopírování označené oblasti buněk o CTRL+V - vložení obsahu schránky - oblast buněk, objekt, data z jiné aplikace Myš a okraje buňky o Chycení myší za okraj umožňuje přesun buňky nebo bloku buněk o Při chycení čtverečku v pravém dolním rohu výběru je tažením možno vyplnit více buněk hodnotami původní buňky (ve vzorcích se mění relativní odkazy, je také možné vyplnění hodnotami ze seznamu -např. po sobě jsoucí názvy měsíců. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ■ Databázová struktura dat v Excelu Sloupce tabulky = parametry záznamů, hlavička udává obsah sloupce - stejný údaj v celém sloupci Jednotlivé záznamy .—k (taxon, lokalita atd.) ] Micro sol Kcel - ryby.xls M_\ 5oubot Úpravy Zobrazit □ \3 p Lp ^ m\ :it Formát Nástroje Data Okno Nápověda Nápověda - zadejte dotaz ▼ _ fi1 X II gm loo* A' B D E F G H 1 Číslo Značka Společ Pohlaví Délka Váha 2 1 1 1 m 27,5 23,0 2 2 3 2 2 2 34,0 62,5 0 2 4 3 5 3 58,0 230,0 0 0 5 4 6 4 42,0 155,0 0 0 6 5 , 7 5 44,0 149,8 0 0 7 6 8 6 56,0 323,0 0 1 8 7 9 7 m 48,5 178,2 0 0 9 8 10 8 30,5 47,7 4 6 10 9 11 9 47,0 175,9 5 14 11 10 12 10 40,0 85,1 5 9 12 11 14 11 40,0 101,0 0 0 13 12 15 12 31,0 84,0 15 9 14 13 16 13 f? 22,0 9,0 0 0 15 14 17 14 42,0 108,0 1 3 16 15 18 15 44,0 130,0 0 0 17 16 19 16 37,0 85,0 2 5 18 17 20 17 50,0 212,0 1 8 ► n|\data^ společenst va /ust9/ List 10 / Listl2 / List 13 / Lis 1 < 1 I Připraven 123 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Automatický zadávací formulář • Slouží k usnadnění zadávání dat do databázových tabulek • Načítá automaticky hlavičky sloupců jako zadávané položky Nový záznam Názvy sloupců Obsah dané buňky - editovatelný Vyhledávání Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Automatické seznamy • Vytváří se z hodnot buněk v daném sloupci a umožňují vložit hodnotu výběrem ze seznamu již zadaných hodnot - usnadnění zadávání Sloupec z nějž je seznam vytvořen a pro který platí Buňka, do níž se vloží vybraná hodnota Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Automatická kontrola dat • Umožňuje ověřit typ, rozsah nebo povolit pouze určitý seznam hodnot zadávaných do sloupce databázové tabulky komunikace s uživatelem /> <\ Co je povoleno - definiční obory čísel, seznamy, vzorce atd. Rozsahy hodnot, načtení seznamů apod. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Seznamy • Skupiny hodnot zachovávající logické pořadí, některé jsou zabudované (např. dny v týdnu, měsíce v roce), další je možné uživatelsky vytvořit, slouží pro účely řazení a automatického vyplňování dat Existující seznamy Výběr buněk pro nový seznam Načtení nového seznamu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Řazení dat Řazení dat je nejjednodušším způsobem jejich zpřehlednění, užitečným hlavně u menších/výsledkových tabulek t » \ Zkontrolujte, zda seřazení nezničí vazby mezi buňkami = kontrola oblasti, kterou řadíte. Podle čeho řadit Další možnosti - řazení řádků, řazení podle seznamu t Směr řazení - vzestupně, sestupně Využít první řádek oblasti jako záhlaví Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Automatický filtr Pomocí automatického filtru je snadné vybírat úseky dat pro další zpracování na základě hodnot ve sloupcích databázové tabulky, výběr je možný i podle více sloupců (např. určitá skupina pacientů) Funkce automaticky rozezná hlavičky sloupců v souvislé oblasti buněk U sloupců použitých pro filtraci jsou rozbalovací seznamy zbarveny modře Výhodné pro čištění dat (vyhledávání překlepů, kombinace textu a čísel) Výběr hodnot pro filtraci Rozbalení seznamu hodnot nalezených ve sloupci Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek III. Vizualizace dat Typy grafické vizualizace Rizika desinterpretace grafického zobrazení dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Prvním krokem v analýze dat je jejich vizualizace. Různé typy dat nám umožňující získání představy o rozložení dat, zastoupení kategorií i vztazích proměnných navzájem. Prostřednictvím vizualizace získáváme vhled do dat a za čínáme vytvářet hypotézy o zákonitostech panujících mezi proměnnými v hodnoceném souboru dat. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Grafická prezentace dat - umění komunikace 1. Výskyt kategorií (1, 2, 3,) Koláčový (výsečový) gra,: Sloupcový graf □ Řada2 Sloupcový gra, Řada2 40 20 100 50 2. Vývoj hodnot (v čase) Y vs. X (t) Spojnicový graf Řada Bodový graf Řada 30 Y 15 Y 30 15 1 2 3 10 20 X Y 30 15 0 5 10 15 20 25 X 0 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 40% 30% 30% □ 3 1 40% 2 □ 3 30% Plošný graf Řada2 1 2 3 10 20 X 0 0 1 2 3 1 2 3 0 0 Grafická prezentace dat - umění komunikace 3. Vztahy mezi proměnnými - korelace X1 X1 Bodový - korelační diagram Řada2 X1 1 2 3 10 20 X2 Řada2 X1 1 2 3 10 20 X2 Řada2 0 5 10 15 20 25 X2 Řada2 f3 J X2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Bodový - korelační diagram .drilu 0 "o "*** co " o' ^ o "o o . oB 00 0 0 0 0 03 00 0 0 % Liii. 0 o0 o 0 o 0 * 0 " 0 0 o ou 00 n Oq 0 0 * o o°° 0 O1^ 0 0 ° 0 ď o 0 0 oo u L °°o 0 iiIMm 0 °*° ° °„ *° «1 0 0» 0 0 0 » » °o 0 0 a °° 0 rP „ 0 » 0 ^ °o ° 0 0 » ^0 o°°° .ihiL- 0 Oq 00 13 o ď 0 " 0 0 0 o °o o o "o 0 o o „ ° 0 0 0 "o °°° o* „ °° o s Oo0o *o o % o o o e°o 0 0 ° 0 ° 0* □ o % o* _ tu ° ° . o 0° oo^ib 0lD 0 «ft) o 0 „ 0 0 30 30 15 15 0 0 30 30 15 15 0 0 2 3 10 20 Grafická prezentace dat - umění komunikace 4. Kvantitativní hodnoty parametru(ů) -X -v rámci kategorií A, B, C X 40 Krabicový graf 20 Řada2 X 100 1 A C 5. Histogram 50 Řada2 X A C 50 100 150 200 250 300 IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Sloupcový graf 100 50 I A Řada2 C 0 0 0 B B B Grafická prezentace dat - umění komunikace 6. Zviditelnění primárních dat Grafická prezentace dat - umění komunikace 7. Vztahy mezi proměnnými - interakce dvou parametrů, reakčníplochy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Grafická prezentace dat - umění komunikace 8. Grafické zviditelnění má nekonečne mnoho možností 10 30 25 g 20 10 • ** * * • 10 15 20 25 30 35 40 45 5 EMZYM1 0 0 4 B MU /BA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Nesprávné užití grafů: problém rozsahu číselné osy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Nesprávné užití grafů: problém standardizace hodnot IBA 1930 1940 1950 1960 1970 1980 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek n' ■ 1 1 ■ * 1 1 ■ ' 1 1 1 1 ■ 1 1 ' ' ' ! ■ i ■ ' ' ' ' 1930 1940 1950 1960 1970 1960 Grafy zaměřené na vícerozměrné soubory dokáží zviditelnit i veliké soubory dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek IV. Teoretické pozadí statistické analýzy Jak vznikají informace Rozložení dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základním principem statistiky je pravděpodobnost výskytu nějaké události. Prostřednictvím vzorkování se snažíme odhadnout skutečnou pravděpodobnost událostí.Klíčovou otázkou je velikost vzorku, čím větší vzorek, tím větší šance na projevení se skutečné pravděpodobnosti výskytu jevu. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek JAK vznikají informace ? základní pojmy kutečnost Náhoda (vybere jednu z možností pokusu) Jev Pozorovatel i Rozliší, co nastalo a) podle možností b) podle toho, jak potřebuje podmnožina všech možných výsledků pokusu/děje, o které lze říct, zda nastala nebo ne Jevové pole třída všech jevů, které jsme se rozhodli nebo jsme schopni sledovat Skutečnost + Jevové pole = Měřitelný prostor Experimentální jednotka - objekt, na kterém se provádí šetření Populace - soubor experimentálních jednotek Znak - vlastnost sledovaná na objektu Sledovaná veličina - číselná hodnota vyjadřující výsledek náhodného experimentu Znak se stává náhodnou veličinou, pokud se jeho hodnota zjišťuje vylosováním objektu ze základního souboru Výběr - výběrová populace - cílová populace Náhodný výběr Reprezentativnost Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek f n 0.3 0.2 0'1 JAK vznikají informace ? „Empirical approach" „Classical approach" Empirický postup n = 10 f n 0.3 0.2 0.1 n = 50 f n 0.3 0.2 0.1 n = oo 0 1 2 3 4 5 6 0 1 2 3 4 5 6 0 1 2 3 4 5 6 možné jevy: čísla 1 - 6 n - počet hodů (opakování) U složitých stochastických systémů se pravda získá až po odvedení značného množství experimentální práce: musíme dát systému šanci se projevit Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0 0 0 JAK vznikají informace ? n 0.3 0.2 0.1 0 n = 10 0 1 2 3 4 5 6 Empirický postup n = 50 n 0.3 0.2 0.1 0 1 2 3 4 5 6 n 0.3 0.2 0.1 0 n = oo 0 1 2 3 4 5 6 možné jevy: čísla 1 - 6 n - počet hodů (opakování) 0 Při realizaci náhodného experimentu roste se zvyšujícím se počtem opakování pravdivá znalost systému (výsledky se stávají stabilnější) .... diskutabilní je ale ovšem míra zobecnění konkrétního experimentu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Empirický zákon velkých čísel Při opětovné nezávislé realizaci téhož náhodného experimentu se podíl výskytů sledovaného jevu mezi všemi dosud provedenými realizacemi zpravidla ustaluje kolem konstanty. Pravděpodobnost je libovolná reálná funkce definovaná na jevovém poli A, která každému jevu A přiřadí nezáporné reálné číslo P(A) z intervalu 0 -1. A Z praktického hlediska je a . ? ) pravděpodobnost c q v/ idealizovaná relativní četnost 0 ...................................................................................1....................................................................................................s P (A) = 0.................................jev nemožný P (A n B) = P (A) . P (B)............. nezávislé jevy P (A n B) = P (A) . P (B/A) ...........závislé jevy P (A / B) = P (A n B) / P (B)..........podmíněná pravděpodobnost ;......................................................................................................!..........................................................................^ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita IQJ^ J. Jarkovský, L. Dušek Pravděpodobnost výskytu jevu - rozložení dat --------------------------------------------o-------------------------------------------------- ^ existuje pravděpodobnost výskytu jevů (nedeterministické závěry) -y=~ „vše je možné": pouze jev s pravděpodobností 0 nikdy nenastane pravděpodobnost lze zkoumat retrospektivně i prospektivně pravděpodobnost výskytu ▲ (p(x) i ^ + plocha = pravděpodobnost výskytu 0 1 2 3 4 5 x počet chlapců v rodině s X dětmi x výška postavy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek V. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Grafický popis dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod - od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené. Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací -histogramů. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? -ruzne typy dat znamenají různou informaci Data poměrová Kolikrát ? Spojitá data Data intervalová O kolik ? Data ordinální Větší, menší ? Data nominální Rovná se ? Kategoriální otázky Diskrétní data Otázky „Ano/Ne" Podíl hodnot větší/menší než specifikovaná hodnota ? Procenta odvozené . hodnoty Samotná znalost typu dat ale na dosažení informace nestačí ■■■■■■■■■■■■■ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? -ruzne typy dat znamenají různou informaci Statistika středu Data poměrová PRŮMĚR Spojitá data Y = f Data intervalová Data ordinální MEDIÁN Diskrétní data X Data nominální MODUS Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Y: frekvence absolutní / relativní y B KOLIK se naměřilo y p IIP M, lil ■ 1 IVV x CO se naměřilo f X: měřený znak Diskrétní data Spojitá data Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Odvozená data: Pozor na odvozené indexy Příklad I: Příklad II: Znak X: Hmotnost Znak Y: Plocha X: Průměrný počet výrobků v prodejně Y: Odhad prostoru průměrně nabízeného k vystavení výrobku průměr : (min - max) X: 1,2 : (1,15 - 1,24) + / - 3,8 % Y: 1,8 : (1,75 - 1,84) + / - 2,5 % + / - 6,2 % Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek DISKRÉTNÍ DATA Primární data O 0 1 2 1 1 S 1 1 2 n = 1OO Frekvenční sumarizace N: 100 dětí (hemofiliků) x: znak: počet krvácivých epizod za měsíc x n(x) P(x) N(x) F(x) O ZO 0,2 ZO O,Z l l0 0,l BO 0,B Z BO 0,B SO O,S B 4O 0,4 lOO l,O n(x) - absolutní četnost x p(x) - relativní četnost; p(x) = n(x) / n N(x) - kumulativní četnost hodnot nepřevyšujících x N(x) = z n(t) t < x F(x) - kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? Grafické výstupy z frekvenční tabulky n(x) 0 12 3 x P(x) 0 12 3 x N(x) 0123 x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek F(x) -1-1-1-1 0 12 3 x Jak vznikají informace ? frekvenční tabulka jako základní nástroj popisu SPOJITÁ DATA Příklad: x: koncentrace látky v krvi n = 100 pacientů Frekvenční sumarizace n = 100 opakovaných měření (100 pacientů) x: koncentrace sledované látky v krvi (20 - 100 jednotek) Primární data 1,21 1,48 1,56 Q,31 1,21 1,33 Q,33 interv ) n(l) n(l)/n N(x ) F(x ) <20, 40) 20 20 0,2 20 0,2 <40, 60) 20 10 0,1 30 0,3 <60, 80) 20 40 0,4 70 0,7 <80, 100) 20 30 0,3 100 1,0 n = 1QQ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek d(l) - šířka intervalu n(l) - absolutní četnost n(l) / n - intervalová relativní četnost N(x'') - intervalová kumulativní četnost do horní hranice X'' F(x'') - intervalová relativní kumulativní četnost do horní hranice X'' Jak vznikají informace ? frekvenční sumarizace spojitých dat Histogram Plocha: n(l) / n 0.025 ■ 0.020 -0.015 -0.010 -0.005 -0.000 ■ 20 40 60 80 100 x Výběrová distribuční funkce 0 20 40 60 80 100 x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 1 5 4 3 2 1 0 Počet zvolených tříd a velikost souboru určují kvalitu výstupu k = 10 tříd ■ 8 7 6 5 4 3 2 1 0 k = 5 tříd 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 2 3 4 5 5 4 3 2 1 0 k = 20 tříd L 1,0 2,0 3,0 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 4,0 5,0 1 Histogram vyjadřuje tvar výběrového rozložení f(x) f(x) IBA ^\\\\\\ X f(x) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek X X Příklad: věk účastníků vážných dopravních nehod >G) > 0) O o u O a a> o c a> 60 10 20 30 40 50 60 70 80 Věk (roky) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek f 28 46 58 20 114 316 103 Pojem ROZLOŽENÍ - příklad spojitých dat Je - li dána distribuční funkce, je dáno rozložení Výběrové rozložení hodnot lze modelově popsat a definovat tak pravděpodobnost výskytu X f(x) x f(x) f(x) X x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek (x) 1,00 F(x) Plocha = relativní četnost co ./"(p(x) d(x) = 1 F(x): Pravděpodobnost, že se X vyskytuje v intervalu M -co P(X < x) = O(x) = F(x") M x neúměrně zvýší s2 x V'' Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Normální rozložení jako model I. Použitelnost modelu A) X: spojitý znak - hmotnost jedince (myši) 1,2; 1,4; 1,6; 1,8; 2,0; 2,4; 3.8 n = 7 opakování medián = 1,8 1 1 1 průměr = iV x. =-Y xi =-(l,2 +1,4 +1,6 +1,8 + 2,0 + 2,4 + 3,8) = -14,2 = 2,03 i=1 V (xi - x)2 V (x1 - 2,03)2 rozptyl (s2) = —-:— = —-;-= 0,766 n -1 6 sm. odchylka (s) = V s =J0,766 = 0,875 ? Je předpoklad normálního rozložení oprávněný ? Jaký předpokládáte možný rozsah hodnot tohoto znaku ? ? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Normální rozložení jako model /. Použitelnost modelu B) X: spojitý znak - hmotnost jedince (myši) 1,2; 1,4; 1,6; 1,8; 2,0; 2,2; 2,4; 3,8; 8,9 n = 9 opakování medián = 2 1 1 prů měr = - T xi = xi =1 (1,2 +1,4 +1,6 +1,8 + 2,0 + 2,2 + 2,4 + 3,8+8,9) =125,3 = 2,81 ntť 9 tŕ 9 9 i=1 T (xi - x)2 T (xi ~ 2,81)2 rozptyl (s2) = —-:— = —---= 5,79 n -1 8 sm. odchylka (s) = vs = v5,79 = 2,269 1 Jak hodnotíte model u těchto dat ? i Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Stochastické rozložení jako model 1 Předpoklad: Znak x je rozložen podle daného modelu 2 3 Znak x je naměřen o n hodnotách s modelovými parametry: "X a s Znak x je převeden na formu odpovídající tabulkovému standardu: Platnost modelu ? 4 Využije se tabelované (modelové) distribuční funkce pro testy o rozložení hodnot x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Normální rozložení jako model - příklad Tabulky distribuční funkce • Data z průzkumu jsou publikována jako: Kosti prehistorického zvířete: n = 2000 průměrná délka = 60 cm sm. odchylka (s) = 10 cm S Předpokládáme, že je oprávněný model normálního rozložení ^ Jaká je pravděpodobnost, že by velikost dané kosti překročila velikost 66 cm: P (x > 66) ? Z x — |/ P (x > 66) = 1 — P (x < 66) a platí, že P (X < x) = f (x ) tedy p(x > 66)=1 — P(x < 66) = 1 — P( x — m 66 — 60. , \ <-) = 1 — F (0,6) = 0,27425 9 9 10 Kolik kostí mělo zřejmě délku větší než 66 cm ? P(x>66)*n=°,27425*200°=548 Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ? P(60 < x < 66)= P 60 — 60 < Z < 66 —60 F V 10 10 y Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek (0,6)—F(0) = 0,22575 ||^^ 22,6% kostí leží v rozsahu 60-66cm _ _ Stručný přehled modelových rozložení I. Rozložení Parametry Stručný popis Normální Průměr (n) Rozptyl (ct2) Symetrická funkce popisující intervalovou hustotu četnosti; nejpravděpodobnější jsou průměrné hodnoty znaku v populaci. Log-normální Medián Geometrický průměr Rozptyl (ct2) Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení. Weibullovo a - parametr tvaru p - parametr rozsahu hodnot Změnou parametru a lze modelovat distribuci doby přežití, např. stresovaného organismu. Rozložení využívané i jako model k odhahu LC50 nebo EC50 u testů toxicity. Rovnoměrné Medián Geometrický průměr Rozptyl (ct2) Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení. Triangulární f(x) = [b - ABS (x - a)] / b2 a - b < x < a + b Pravděpodobnostní funkce pro typ rozložení, kdy jsou střední hodnoty výrazně pravděpodobnější než hodnoty okrajové. Gamma Parametry distribuční funkce: a - parametr tvaru p - parametr rozsahu hodnot Umožňuje flexibilně modelování distribučních funkcí nejrůznějších tvarů. Např. x2 rozložení je rozložení typu Gamma. Gamma rozložení s a = 1 je známo jako exponenciální rozložení. " ■ .■. /. ■ J. Jarkovský, L. Dušek Stručný přehled modelových rozložení II. Rozložení Parametry Stručnýpopis Beta Parametry distribuční funkce: a - parametr tvaru P - parametr rozsahu hodnot Pravděpodobnostní funkce pro proměnnou omezenou rozsahem do intervalu [0; 1]. Je matematicky komplikovanější, ale velmi flexibilní při popisu změn hodnot proměnné v ohraničeném intervalu. Studentovo Stupně volnosti -uvažuje velikost vzorku Průměr Rozptyl Simuluje normální rozložení pro menší vzorky čísel. Pro větší soubory (n > 100) se limitně blíží k normálnímu rozložení. Pearsonovo Stupně volnosti -uvažuje velikost vzorku Slouží především k porovnání četností jevů ve dvou a více kategoriích. Používá se k modelování rozložení odhadu rozptylu normálně rozložených dat. Fisher-Snedecorovo Dvojí stupně volnosti -uvažuje velikost dvou vzorků Používá se k testování hodnot průměrů -F test pro porovnání dvou výběrových rozptylů; F test, ANOVA atd. m Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 9 (x) Medián Průměr x U asymetrických rozložení je medián velmi vhodným alternativním ukazatelem středu Medián - frekvenční střed k- • • • • • • x Průměr - těžiště osy x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Y = Ln [X] Medián Průměr x EXP (Y) = Geometrický průměr X Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ln (x) Medián = Průměr — Y = y — i= 1 n Y ± Standardní chyba Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu _ogaritmická transformace Logaritmická transformace je velmi vhodná pro data s odlehlými hodnotami na horní hranici rozsahu. Při porovnání průměrů u více souborů dat je pro tuto transformaci indikující situace, kdy se s rostoucím průměrem mění proporcionálně i směrodatná odchylka, a tedy jednotlivé proměnné mají stejný koeficient variance, ačkoli mají různý průměr. Za takovéto situace přináší logaritmická transformace nejen zeslabení asymetrie původního rozložení, ale také vyšší homogenitu rozptylu proměnných. Pro transformaci se nejčastěji používá přirozený logaritmus a pokud jsou v původním souboru dat nulové hodnoty, je vhodné použít operaci Y = ln (X+1). Je-li průměr logaritmovaných dat (tedy průměrný logaritmus) zpětně transformován do původních hodnot, výsledkem není aritmetický, ale geometrický průměr původních dat. !BA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Transformace dat - legitimní úprava rozložení Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu Odmocninová transformace Transformace je vhodná pro proměnné mající Poissonovo rozložení, tedy proměnné vyjadřující celkový počet nastání určitého jevu (spíše vzácného) v n nezávisle opakovaných pokusech. Obecněji lze tento typ transformace doporučit v případě normalizace dat typu počtu jedinců (buněk, apod.). Jde o transformaci: Y = VX nebo Y = Vx +1 nebo Y= ^ +V x+1 Transformace s přičtenou hodnotou 1 jsou efektivní, pokud X nabývá velmi malých nebo nulových hodnot. Situace indikující vhodnost odmocninové transformace je také proporcionalita výběrového rozptylu a průměru, tedy obecně jestliže s2x = k (výběrový průměr). Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Transformace dat - legitimní úprava rozložení Arcsin transformace Tzv. úhlová transformace - velmi vhodná pro data typu podílů výskytu určitého jevu (znaku) mezi n hodnocenými jedinci - tedy pro data mající binomické rozložení. Pokud se určitý znak vyskytuje r-krát mezi n možnostmi (jedinci, opakováními), pak lze vyjádřit relativní četnost jeho výskytu jako p = r/n s variabilitou p.(1-p)/n. Arcsin transformace odstraní ze souborů dat podíly blízké 0 nebo 1, a tak efektivně sníží variabilitu odhadů středu. Transformace však není schopná odstranit variabilitu vyvolanou rozdílným počtem opakování v jednotlivých variantách - v takovém případě lze doporučit provedení vážených transformací dat. Velmi častou formou této transformace je: Y = arcsin p - tedy transformace podílů do hodnot, jejichž sinus je roven druhé odmocnině původních hodnot. Pokud celkový počet jedinců (opakování), mezi kterými je výskyt znaku monitorován, je n < 50, pak lze doporučit velmi efektivní empirická opatření pro transformaci podílů blízkých 0 nebo 1. Pro tento případ lze nahrazovat nulové podíly hodnotou 1/4n a 100 % podíly hodnotou (n-1/4)/n. Pokud se mezi hodnotami vyskytuje větší množství krajních hodnot (menší než 0,2 a větší než 0,8), lze doporučit transformaci: 1 Y = — 2 , x . x +1 arcsin J--+ arcsin .J- n + 1 X n + 1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek VII. Popisná statistika dat Popisné statistiky dat Vizualizace dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Popisná analýza dat je po vizualizaci dat dalším krokem v procesu statistického hodnocení. Poskytuje představu o rozsazích hodnocených dat a umožňuje vyhodnotit, srovnámí s literárními údaji nebo dosavadní zkušeností, jejich realističnost. • Již při výběru vhodné popisné statistiky se uplatňuje znalost rozložení dat. Některé popisné statistiky, odvozené od modelových rozložení, je možné využít pouze v případě, že data mají dané modelové rozložení. Typickým příkladem je průměr a směrodatná odchylka, jejichž předpokladem je přítomnost normálního rozložení. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Kvalitativní/kategorická o binární - ano/ne o nominální - A,B,C ... několik kategorií o ordinální-1<2<3 ..několik kategorií a můžeme se ptát, která je větší • Kvantitativní o nespojitá - čísla, která však nemohou nabývat všech hodnot (např. počet porodů) o spojitá -teoretickyjsou možné všechny hodnoty (např. krevní tlak) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Řada dat a její vlastnosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Frekvenční rozložení Kategorie Četnost B 5 C 8 D 1 Kvalitativní data Tabulka s četností jednotlivých kategorií. Kvantitativní data Četnost hodnot rozložení v jednotlivých intervalech. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Soubor dat (řada čísel) můžeme charakterizovat parametry jeho rozložení Hlavní skupiny těchto parametrů můžeme charakterizovat jako ukazatele: o Středu (medián, průměr, geometrický průměr) o Šířky rozložení (rozsah hodnot, rozptyl, směrodatná odchylka) o Tvaru rozložení (skewness, kurtosis) o Kvantily rozložení - kolik % řady dat leží nad a pod kvantilem Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Populace a vzorek • Populace představuje veškeré možné objekty vzorkování, např. veškeré obyvatelstvo ČR při sledování na úrovni ČR, z populace získáme reálné parametry rozložení • Z populace je prováděno vzorkování za účelem získání reprezentativního vzorku (sample) populace, toto vzorkování by mělo být náhodné, důležitá je také velikost vzorku, ze vzorku získáme odhady parametrů rozložení í i i Populace Sample Průměr, SD atd. Odhad průměru, SD MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele středu rozložení I • • Průměr -vhodný ukazatel středu u normálního/symetrického rozložení, kde xi jsou jednotlivé hodnoty a n jejich počet i=1 n Medián - jde vlastně o 50% kvantil, tj. polovina hodnot leží nad a polovina pod mediánem _ n e (x)=x= • V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele středu rozložení II. • Geometrický průměr - antilogaritmus průměru logaritmovaných dat, je vhodný pro doleva asymetrická data (lognormální rozložení), která jsou v biologii velmi častá, jeho hodnota v podstatě odpovídá mediánu • Takto asymetrická data je možné převést logaritmickou transformací na normální rozložení Ukazatele šířky rozložení • • Rozptyl je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru. 2 ^(xA -x)2 2 s = n -1 Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení • Směrodatná odchylka je druhá odmocnina z rozptylu • Koeficient variance - podíl SD ku průměru (u normálního rozložení by se 95% hodnot mělo vejít do průměr 4-3 SD), pokud je SD větší než 1/3 průměru jsou teoreticky pravděpodobné záporné hodnoty vrozložení-ukazatel problémů s normalitou dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele tvaru rozložení • • Skewness -ukazatel „šikmosti" rozložení, asymetrie rozložení Kurtosis - ukazatel „špičatosti/plochosti" rozložení skewness>0 skewness<0 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Další parametry rozložení • Počet hodnot - důležitý ukazatel, znamená jak moc lze na data spoléhat • Střední chyba odhadu průměru - je založena na směrodatné odchylce rozložení a počtu hodnot, vlastně jde o směrodatnou odchylku rozložení průměru. Říká jak přesný je náš výpočet průměru. Čím větší počet hodnot rozložení, tím je náš odhad skutečného průměru přesnější. • Suma hodnot • Modus -nejčastějši hodnota, vhodný např. při kategonálnich datech • Minimum, maximum • Rozsah hodnot • Harmonický průměr - převrácená hodnota průměru převrácených hodnot (vždy platí harmonický průměr < geometrický průměr < aritmetický průměr) IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek VIII. Provádění odhadů Bodové a intervalové odhady Význam intervalu spolehlivosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dva základní přístupy statistického hodnocení jsou popis dat a testování hypotéz. Při popisu dat je třeba si uvědomit, že popisné statistiky získané ze vzorku nejsou skutečnou hodnotou v cílové populaci, ale pouze jejím odhadem. Přesnost odhadu závisí jednak na variabilitě dat, jednak na velikosti vzorku, při navzorkování celé cílové populace by výsledná popisná statistika již byla přesnou hodnotou, nikoliv odhadem. • Odhady a s nimy související intervaly spolehlivosti jsou univerzálním statistickým postupem a je možné je dopočítat k libovolné popisné statistice. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistika v průzkumném studiu Provádění odhadů Testy hypotéz Cílová populace Závěr ? Reprezentativnost ? Vzorek Závěr ? Interpretace POPIS Ověření Výsledek OTÁZKY Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek INTERVAL SPOLEHLIVOSTI velmi užitečná míra věrohodnosti odhadů ODHADY Bodové Číslo (chyba) (Odhad parametru) Intervalové Interval pravděpodobných hodnot Spolehlivost (Pravděpodobnostní interpretace) Obecný tvar: P (L1 < Odhad < L2) > 1 - a/2 Odhadovaný parametr ± Kvantil modelového x SE (odhadu) rozložení KV pro (1 - a/2) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Cílová populace 9 (x) M X X......odhad průměru Prezentace s s n; x; n; x; .— n n; x; c n; x; Interval spolehlivost i pro odhad průměru Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek NORMÁLNÍ ROZLOŽENÍ: odhad průměru je rovněž normálně rozložen Cílová populace X: (p(x) znak x M Náhodné výběry o n = 100 X1 X2 X3 X4 -\s- Xi průměr x M X Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek s n x: [i ±3s X M ±3 s n Standardní chyba odhadu průměru ODHAD PRŮMĚRU: Vztahy Bodový x; ^ s ^ Intervalový x - ř.(^:n-1} • -4= < u < x + tvn-1) 1-a 2 yfň a 2 -jn _ (y— n - 1 ) S f : x ± t:-a, 1 • —j= /2 yjn u : x ± t(yan/-1 ^ • sx Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek t... příslušný kvantil Studentova rozložení 1 - a ... spolehlivost hodnoceného intervalu Interval spolehlivosti odhadu průměru je pouze informací o přesnosti tohoto odhadu Interval spolehlivosti je hodnocen pro (1 - a) procentní spolehlivost Cílová populace Výběrové populace Původní proměnná x Šířku intervalu určuje: a) velikost vzorku b) rozptyl (variabilita) vzorku c) požadovaná spolehlivost Výběr n=10 pro odhad průměru Výběr n=100 pro odhad průměru (p(x) (p(x) -3s M +3s cp(x) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ODHAD PRŮMĚRU: Příklad X: Cena výrobku v n = 21 obchodech Data: n —11; x — 3,58; s2 — G,11 s- — A/G,11/11 — G,G75 x V 7 / 7 95% Interval spolehlivosti: (u = n-1) (2Q) t1-a/2 = t Q,975 = 2,Q86 U : x ± 1,G86 .s x 3,58 — 1,G86.G,G75 — u — 3,58 + 1,G86.G,G75 3,423 — p — 3,737 N/1 P (3,423 — p — 3,737) > Q,95 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Interval spolehlivosti pro odhad rozptylu Interval spolehlivosti a) pro a2: b) pro a: (n - O 2 (n-1) x a 2 s 2 (n - l)s 2 Z2 (i-a 2) (n-1) (n-1) 2 (n-l) x a 2 ^> závěr testu Interpretace výsledků • • • Cílová populace ? Závěr ? Interpretace i Reprezentativnost ? ^ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Testy hypotéz /\ Měření parametrů Nulová hypotéza HO HO: sledovaný efekt je nulový Alternativní hypotéza HA sledovaný efekt je různý mezi skupinami Testová statistika Testová statistika = Pozorovaná hodnota - Očekávaná hodnota Variabilita dat *\ Velikost vzorku Kritický obor testové statistiky 0 T Statistické testování odpovídá na otázku zda je pozorovaný rozdíl náhodný či nikoliv. K odpovědi na otázku je využit statistický model - testová statistika. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek t t Co znamená náhodný rozdíl? Je tu rozdíl? Jak by vypadaj rozdíl, kdyby byl náhodný? Nasimulujme si ho !!! © ____J t f Mnohokrát IV t ijjl í i ÍV t f X1 X2 t I t i t |jj| t i X1 X2 Rozložení možných náhodných rozdílů 0 tt t Rozdíl ? Kde leží skutečný rozdíl? Jak moc je pravděpodobné, že je náhodný? Možné chyby při testování hypotéz • I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při rozhodnutí o zamítnutí/nezamítnutí nulové hypotézy dopustit chyby. Správné rozhodnutí Chyba II. druhu Závěr testu Hypotézu nezamítáme 1- a Hypotézu zamítáme a 1- P Chyba I. druhu Správné rozhodnutí Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Význam chyb při testování hypotéz Pravděpodobnost chyby 1. druhu a Pravděpodobnost nesprávného zamítnutí nulové hypotézy Pravděpodobnost chyby 2. druhu Pravděpodobnost nerozpoznání neplatné nulové hypotézy Síla testu 1-p I Pravděpodobnostně vyjádřená schopnost rozpoznat neplatnost hypotézy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametrické vs. neparametrické testy Parametrické testy • Mají předpoklady o rozložení vstupujících dat (např. normální rozložení) • Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy neparametrické • Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich síla testu prudce klesá a výsledek testu může být zcela chybný a nesmyslný Neparametrické testy • Nemají předpoklady o rozložení vstupujících dat, lze je tedy použít i při asymetrickém rozložení, odlehlých hodnotách, či nedetekovatelném rozložení • Snížená síla těchto testů je způsobena redukcí informační hodnoty původních dat, kdy neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek One-sample vs. two sample testy One - sample testy • Srovnávají jeden vzorek (one sample, jednovýběrové testy) s referenční hodnotou (popřípadě se statistickým parametrem cílové populace) • V testu je tedy srovnáváno rozložení hodnot (vzorek) s jediným číslem (referenční hodnota, hodnota cílové populace) • Otázka položená v testu může být vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek Two - sample testy • Srovnávají navzájem dva vzorky (two sample, dvouvýběrové vzorky) • V testu jsou srovnávány dvě rozložení hodnot • Otázka položená v testu může být opět vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek • Kromě testů pro dvě skupiny hodnot existují samozřejmě i testy pro více skupin dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek One-tailed vs. Two-tailed testy One - tailed testy • Hypotéza testu je postavena asymetricky, tedy ptáme se na větší než/ menší než • Test může mít pouze dvojí výstup - jedna z hodnot je větší (menší) než druhá a všechny ostatní případy Two - tailed testy • Hypotéza testu se ptá na otázku rovná se/nerovná se • Test m ůže mít trojí výstup - menší - rovná se - větší než • Situace nerovná se je tedy souhrnem dvou možných výstupů testu (menší+větší) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kritický obor Kritický obor Nepárový vs. párový design Nepárový design • Skupiny srovnávaných dat jsou na sobě zcela nezávislé (též nezávislý, independent design), např. lidé z různých zemí, nezávislé skupiny pacientů s odlišnou léčbou atd. • Při výpočtu je nezbytné brát v úvahu charakteristiky obou skupin dat Párový design • Mezi objekty v srovnávaných skupinách existuje vazba, daná např. člověkem před a po operaci, reakce stejného kmene krys atd. • Vazba může být buď přímo dána nebo pouze předpokládána (v tom případě je nutné ji ověřit) • Test je v podstatě prováděn na diferencích skupin, nikoliv na jejich původních datech Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistické testy a normalita dat Normalita dat je jedním z předpokladů tzv. parametrických testů (testů založených na předpokladu nějakého rozložení) -např. t-testy Pokud data nejsou normální, neodpovídají ani modelovému rozložení, které je použito pro výpočet (t-rozložení) a test tak může lhát Řešením je tedy: o Transformace dat za účelem dosažení normality jejich rozložení o Neparametrické testy - tyto testy nemají žádné předpoklady o rozložení dat Typ srovnání Parametrický test Neparametrický test 2 skupiny dat nepárově: Nepárový t-test Mann Whitney test 2 skupiny dat párově: Párový t-test Wilcoxon test, sign test Více skupin nepárově: ANOVA Kruskal- Wallis test Korelace: Pearsonův koeficient Spearmanúvkoeficient Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Testy normality 250 200 150 100 50 Testy normality pracují s nulovou hypotézou, že není rozdíl mezi zpracovávaným rozložením a normálním rozložením. Vždy je ovšem dobré prohlédnout si i histogram, protože některé odchylky od normality, např. bimodalitu některé testy neodhalí. •Test dobré shody Vtestu dobré shody jsou data rozdělena do kategorií (obdobně jako při tvorbě histogramu), tyto intervaly jsou normalizovány (převedeny na normální rozložení) a podle obecných vzorců normálního rozložení jsou knim dopočítány očekávané hodnoty vintervalech, pokud by rozložení bylo normální. Pozorované normalizované četnosti jsou poté srovnány sočekávanými četnostmi pomocí x 2 testu dobré shody. Test dává dobré výsledky, ale je náročný na n, tedy množství dat, aby bylo možné vytvořit dostatečný počet tříd hodnot. •Kolgomorov Smirnov test Tento test je často používán, dokáže dobře najít odlehlé hodnoty, ale počítá spíše se symetrií hodnot než přímo s normalitou. Jde o neparametrický test pro srovnání rozdílu dvou rozložení. Je založen na zjištění rozdílu mezi reálným kumulativním rozložením (vzorek) a teoretickým kumulativním rozložením. Měl by být počítán pouze vpřípadě, že známe průměr a směrodatnou odchylku hypotetického rozložení, pokud tyto hodnoty neznáme, měla by být použita jeho modifikace - Lilieforsův test. •Shapiro-Willťs test Jde o neparametrický test použitelný i při velmi malých n (10) sdobrou sílou testu, zvláště ve srovnání s alternativními typy testů, je zaměřen na testování symetrie. 145 155 165 175 185 195 205 215 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0 Šikmost a špičatost jako testy normality • Parametry normálního rozložení, skewness a kurtosis mohou být využity pro testování normality, ale pouze pro velké vzorky (šikmost - 100, špičatost - 500). Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Grafická diagnostika normality Rootgram Rootgram 2.5 2 1.5 1 0.5 0 -0.5 -1 -1.5 -2 0 20 40 Zn 60 80 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 -0.8 -1 0 5 10 15 20 25 30 Pb Grafická diagnostika normality Hanging Histobars. Hanging Histobars. 0,32 0,12 -0,8 -0,28 -0,48 0 0,2 0,15 0,1 0,05 0 -0, 05 -0,1 0 -50 -10 10 30 Zn 50 70 90 -50 10 20 Pb 30 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Grafická diagnostika normality Normal Probability Plot Normal Probability Plot i G,1 G 2G 4G Zn 6G BG Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek SS,S SS SS BG SG 2G S 1 G,1 G S 1G 1S 2G Pb 2S 3G SS BG SG 2G S 0,8 0,6 0,4 0,2 0 Grafická diagnostika normality Frequency Histogram 20 40 60 80 Zn Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0,3 0,25 0,2 0,15 0,1 0,05 Frequency Histogram 0 5 10 15 20 25 30 Pb X. Statistické testy o parametrech jednoho výběrů Jednovýběrový t-test Jednovýběrový test rozptylu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jednovýběrové statistické testy srovnávají některou popisnou statistiku vzorku (průměr, směrodatnou odchylku) s jediným číslem, jehož význam je ze statistické hlediska hodnota cílové populace • Z hlediska statistické teorie jde o ověření, zda daný vzorek pochází z testované cílové populace. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek "One sample" testy I Vpřípadě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení. Průměr - cílová vs. výběrová populace x - u i— t =-V n s H0 HA Testová statistika Interval spolehlivosti X jU t t>vr X >jU X < jU t ta2 2 2 x2 2 ^ 2 (n-1) X > X 1-a 2 2 (n-1) s < a x2 s2 =a2 s2 *a2 x2 x2 > X 2„/2 2 2 nebo Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Koncentrace antibiotika v cílovém orgánu Při 1000 měřeních antibiotika byla zjištěna v cílovém orgánu průměrná koncentrace 202,5 jednotek a směrodatná odchylka 44 jednotek. Požadovaná koncentrace antibiotika je 200 jednotek. 1) Je daný rozdíl 2,5 významný vzhledem k variabilitě znaku na hladině významnosti 5%? 2) Jaká je skutečná hladina významnosti? x - u r~ 2,5 nrrrz , t =-v n =-V1000 = 1,797 s 44 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Srovnání odhadu průměru s předpokládanou hodnotou II Aktivita enzymu v buňkách Při zjišťování aktivity enzymu v buňkách na vzorku 25 měření byl zjištěnprůměr 3,5 jednotek a směrodatná odchylka 1. 1. otázka zní, zda se naměřené hodnoty našeho vzorku liší od výsledků dřívější rozsáhlé studie zaměřené na celou cílovou populaci, kde byla zjištěna průměrná aktivita 2,5 jednotky? x - Ur- 3,5 - 2,5 r— _ -V n =-V 25 = 5 HO: x=n tedy two tailed test t s 1 24 t = 10,975 2,064 t > t 24 1-a/ 2 ^> H0 zamítnuta při a<0,05 od jiné hodnoty bychom zachytili při daných hodnotách? 2. otázka - jakou minimální odchylku X od jiné hodnoty bychom zachytili při daných hodnotách? x-u i d i t =-V" = —^jn ^ d = t l-a/2 3. za předpokladu, že z praktického hlediska je významná odchylka již 0,2 jednotky, jaký minimální počet měření musíme provést, abychom ji byli schopni prokázat ? s x-u r- d r ^ í =-V"=—v""y n— s ll-a/2 s J Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek XI. Statistické testy o parametrech dvou výběrů Dvouvýběrový párový a nepárový t-test Neparametrické alternativy t-testu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jedním z nejčastějších úkolů statistické analýzy dat je srovnání spojitých dat ve dvou skupinách pacientů. Na výběr je celá škála testů, výběr konkrétního testu se pak odvíjí od toho, zda je o srovnání párové nebo nepárové a zda je vhodné použít test parametrický (má předpoklady o rozložení dat) nebo neparametrický (nemá předpoklady o rozložení dat, nicméně má nižší vypovídací sílu). Nejznámějšími testy z této skupiny jsou tzv. t-testy používané pro srovnání průměrů dvou skupin hodnot Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrové testy: párové a nepárové I • Při použití two sample testů srovnáváme spolu dvě rozložení. Jejich základním dělením je podle designu experimentu na testy párové a nepárové. • Základním testem pro srovnání dvou nezávislých rozložení spojitých čísel je nepárový two-sample t-test nepárový two sample test X2 • Základním testem pro srovnání dvou závislých rozložení spojitých čísel je párový two-sample t-test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrové testy: párové a nepárové II Data X1 X2 X1 X2 Nezávislé uspořádání nj n H0: W = ^2 2 X1-X2 = D Párové uspořádání Design uspořádání zásadně ovlivňuje interpretaci parametrů x2 x2 sj2 s22 H0 :D=O Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek n D 2 (n = n2 = n1) s D Dvouvýběrové testy: párové a nepárové III Identifikace párovitosti (Korelace, Kovariance) r = 0,954 (p < 0,001) X2 r = 0,218 (p < 0,812) X2 Předpoklady nepárového dvouvýběrového t-testu • Náhodný výběr subjektů jednotlivých skupin zjejich cílových populací • Nezávislost obou srovnávaných vzorků • Přibližně normální rozložení proměnné ve vzorcích, drobné odchylky od normality ovšem nejsou kritické, test je robustní proti drobným odchylkám od tohoto předpokladu, normalita může být testována testy normality • Rozptyl vobou vzorcích by měl být přibližně shodný (homoscedastic). Tento předpoklad je testován několika možnými testy -Levenův test nebo F-test. • Vždy je vhodné prohlédnout histogramy proměnné v jednotlivých vzorcích pro okometrické srovnání a ověření předpokladů normality a homogenity rozptylu - nenahradí statistické testy, ale poskytne prvotní představu. (p(x) 0 A M MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Nepárový dvouvýběrový t-test - výpočet I 1. nulová hypotéza: průměry obou skupin jsou shodné, alternativní hypotéza je, že nejsou shodné, two tailed test 2. prohlédnout průběh dat, průměr, medián apod. pro zjištění odchylek od normality a nehomogenita rozptylu, provést F -test H0 Testová statistika 2 G\ <<722 (j|2 > a22 2 _2 °\ >C722 a2 < a22 2 2 = <722 * a22 „ max(s2; s2) F =-ri—2\ min(s|; s2) F-test pro srovnání dvou výběrových rozptylů •Používá se pro srovnání rozptylu dvou skupin hodnot, často za účelem ověření homogenity rozptylu těchto skupin dat. • V případě ověření homogenity je testována hypotéza shody rozptylů (two tailed); v případě shodných rozptylů je vše v pořádku a je možné pokračovat ve výpočtu t-testu, v opačném případě není vhodné test počítat. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Nepárový dvouvýběrový t-test - výpočet II 3. Výpočet testové statistiky (stupně volnosti jsou u = ni + n2 - 2): Rozdíl _ průrůmě Xi - X2 SE(rozdílprůo ěrů) f s 1 1 — + — 2 s = ni + n2 - 2 vážený odhad rozptylu J t _ _ 4. výsledné t srovnáme s tabulární hodnotou t pro dané stupně volnosti a a (obvykle a=0,05) 5. Lze spočítat interval spolehlivosti pro rozdíl průměrů (např. 95%), počet stupňů volnosti a s2 odpovídají předchozím vzorcům (xi - x2 ) ± t0,975SE(xi - x2 ) = (xi - x2 ) ± to,975 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek -+- Dvouvýběrový t-test - příklad Průměrná hmotnost ovcí v čase páření byla srovnávána pro kontrolní skupinu a skupinu krmenou zvýšenou dávkou potravy. Kontrolní skupina obsahuje 30 ovcí, skupina se zvýšeným příjmem potravy pak 24 ovcí. • Vlastní experiment byl prováděn tak, že na začátku máme 54 ovcí (ideálně stejného plemene, stejně staré atd.), které náhodně rozdělíme do dvou skupin (náhodné rozdělování objektů do pokusných skupin je objektem celého specializovaného odvětví statistiky nazývaného randomizace). Poté co experiment proběhne, musíme nejprve ověřit teoretický předpoklad pro využití nepárového t-testu. Pro obě proměnné jsou vykresleny grafy (můžeme též spočítat základní popisnou statistiku), na kterých můžeme posoudit normalitu a homogenitu rozptylu, kromě okometrického pohledu můžeme pro ověření normality použít testy normality, pro ověření homogenity rozptylu pak F-test • Pokud platí všechny předpoklady Two sample nepárového t-testu, můžeme spočítat testovou charakteristiku, výsledné t je 2,43 s 52 stupni volnosti, podle tabulek je a t0975 (52)= 2,01, tedy t> t0975 (52)= a nulovou hypotézu můžeme zamítnout, skutečná pravděpodobnost je pak 0,018. Rozdíl mezi skupinami je 1,59 kg ve prospěch skupiny s lepší výživou. • Pro rozdíl mezi oběma soubory jsou spočítány 95% konfidenční intervaly jako 1,59±2.01*(0,655) kg, což odpovídá rozsahu 0,28 až 2,91 kg. To, že konfidenční interval nezahrnuje 0 je dalším potvrzením, že mezi skupinami je významný rozdíl - jde o další způsob testování významnosti rozdílů mezi skupinami dat - nulovou hypotézu o tom, že rozdíl průměrů dvou skupin dat je roven nějaké hodnotě zamítáme v případě, kdy 95% konfidenční interval rozdílu nezahrnuje tuto hodnotu (v tomto případě 0). t = Rozdíl _ průrůmě Xl - x2 ■2 MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek IBA Neparametrické alternativy nepárového t-testu X1 X2 ALL Rank ALL X1 rank X2 rank 27 25 25 5 6 5 35 29 29 7,5 11 7,5 38 31 31 9 13 9 37 23 23 4 12 4 39 18 18 2 14 2 29 17 17 1 7,5 1 41 32 32 10 15 10 19 19 3 3 27 6 35 11 38 13 37 12 39 14 29 7,5 41 15 Mann Whitney U-test •Stejně jako řada jiných neparametrických testů počítá i tento test spořadím dat v souborech namísto s originálními daty. Jde o neparametrickou obdobu nepárového t-testu a ztěchto neparametrických testů má nejvyšší sílu testu (95% párového t-testu). •V případě Mann-Whitney testu jsou nejprve čísla obou souborů sloučena a je vytvořeno jejich pořadí v tomto sloučeném souboru, pak jsou hodnoty vráceny do původních souborů a nadále se pracuje již jen s jejich pořadím. •Pro oba soubory je tedy vytvořen součet pořadí a menší zobou součtů je porovnán skritickouhodnotou testu, pokud je tato hodnota menší než kritická hodnota testu, zamítáme nulovou hypotézu shody distribučních funkcí obou skupin. •Podobným způsobem je počítán i Wilcoxon rank sum test (pozor, existuje ještě Wilcoxnův párový test!!!) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Mann - Whitney U test - příklad • • • • • • 17 štěňat bylo trénováno v chození na záchod metodou pozitivního posilování (pochvala, když jde na záchod venku) nebo negativního (trest, když jde na záchod doma). Jako parametr bylo měřeno, za kolik dní je štěně vycvičeno. nulová hypotéza je, že není rozdíl vmetodách tréninku, tedy, že oběma metodami je štěně vycvičeno za stejnou dobu. po srovnání rozložení + malý počet hodnot je vhodné použít neparametrický test je vytvořeno pořadí sloučených hodnot pořadí hodnot v jednotlivých skupinách dat je sečteno a menší ze součtů je použit pro srovnání s kritickou hodnotou testu výsledkem testu je p25. Menší _ suma _ diferencí n (n +1) 4 in (n + l)(2n +1) 24 Před zásahem Po zásahu Změna Absolutní pořadí 6 2 4 10 2,5 3 -0,5 1,5 6,3 5 1,3 6 8,1 9 -0,9 5 1,5 2 -0,5 1,5 3,4 4 -0,6 3 2,5 1 1,5 8 1,11 2 0,89 4 2,6 4 -1,4 7 1 3 -2 9 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek t _ Wilcoxonův test - příklad I člověk A B diference pořadí 1 142 138 4 4,5 2 140 136 4 4,5 3 144 147 -3 3 4 144 139 5 7 5 142 143 -1 1 6 146 141 5 7 7 149 143 6 9,5 8 150 145 5 7 9 142 136 6 9,5 10 148 146 2 2 A.......parametr krve před podáním léku B.......parametr krve po podání léku W+ ......© pořadí kladných rozdílů = 51 W- ...... = 4 počet páru = n = 10 Pokud je W menší než kritická hodnota testu, pak zamítáme hypotézu shody distribučních funkcí obou skupin. Ml IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Wilcoxonův test - příklad II Byla testována nová dieta pro laboratorní krysy, při pokusu byl zjišťován její vliv na různých liniích krys, bylo proto zvoleno párové uspořádání kdy krysy vobou dietách jsou spojeny přes svoji linii, tj. na začátku byly dvojice krys stejné linie, jedna znich byla náhodně přiřazena kdietě, druhá zdvojice pak do druhé diety. 1. nulová hypotéza je, že váha krys není ovlivněna použitou dietou, alternativní, že ovlivnění dietou existuje 2. spočítáme diference - tyto diference jsou nenormální a proto je vhodné využít neparametrický test 3. Spočítáme sumu pořadí kladných a záporných diferencí, zde je menší suma záporných diferencí -31 4. výsledkem výpočtu je p>0,05 a tedy nemáme dostatečné důkazy pro zamítnutí nulové hypotézy, nelze říci, že by nová dieta byla efektivnější než stará 5. pro doplnění výsledků je vhodné zjistit také skutečnou velikost rozdílu hmotností ve skupinách, např. ve formě mediánu MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Znaménkový test - příklad I Párově uspořádaný experiment pro nominální data I. Dva preparáty, každý na V2 listu - sledovaná veličina: počet skvrn (hodnoceno pouze jako rozdíl) Počet skvrn A V V M V V M M V V V B M M V M M V V M M M n = 10 listů s rozdílnými výsledky A je větší: + n+ = 7 jev B je menší: - n-= 3 min(n+; n-) = 3 II. dvě protilátky z různých zdrojů (A;B) - aplikované na vzorek s antigenem n = 10 A + + - + - + - + + - B - - + - + + - - + - n - nenulových rozdílů: 6 A: n+ = 4 A: n-= 2 min(n+; n-) = 2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Znaménkový test - příklady II • Na konferenci veterinářů bylo předneseno,že průměrný čas konzultace je 12 minut. Následovala debata, zda je lepší použít medián nebo průměr. Jeden znich se rozhodl ověřit teorii, že průměrná konzultace trvá 12 minut na vlastní praxi a zaznamenal si trvání svých 43 konzultací. Kotestování hypotézy, že podíl konzultací kratších a delších než 12 minut použil znaménkový test. Délka konzultace Počet <12 22 12 6 >12 15 Celkem 43 l-V IV/ S V. I /I f III V ■ I V / IV Další výpočet probíhá obdobně jako vpnpadě klasického znaménkového testu na diferencích dvou skupin dat. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrové testy: schéma analýzy Nezávislé uspořádání NE NE x2 test Kolmogorov-Smirnov test Shapiro-Wilks test neparametrické testy NE aproximace testy: Man - Whitney Mediánový test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrové testy: schéma analýzy Párové uspořádání Diference D NE normalita ? transformace ANO t-test párový NE Kolmogorov-Smirnov test Shapiro-Wilks test neparametrické testy testy: Znaménkový test Wilcoxonův test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek XII. Binomické rozložení Popis binomického rozložení Testování hypotéz binomicky rozložených dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kromě spojitých dat se setkáváme také s daty kategoriálními, jejichž nejjednodušším případem jsou data binární. Binární data jsou popsána binomickým rozložením, od chování binomického rozložení je odvozena popisná statistika binárních dat (procento výskytu jevu), její interval spolehlivosti a binomické testy pro srovnání procentuálního výskytů jevů v různých skupinách. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Alternativní rozložení n(x) = n pro x = 1 > n(x) = 1 - n pro X = 0 > X = 1 jev n(x) = 0 jinak ' n 0 1 X MU m Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Binomické rozložení X..... celkový počet nastání jevu v n nezávislých pokusech E(x)= n . n D(x)= n . n (1-n) n ~ p jediný parametr distribuce určuje tvar distribuce n = 0,5 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek n = 0,1 _LL Binomické rozložení jako model pro zkoumání výskytu sledovaného jevu p ~ tt .. jediný parametr binomického rozložení p .... relativní četnost nastání jevu určuje tvar distribuce 71 = 0,2 n n n n X Binomická proměnná X Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Binomické rozložení jako model Jev: narození chlapce n: rodina s 5 dětmi r: 0,1,2,3,4,5 chlapců P(r ) = ín ] • pr • (l - p)(n r) = ■ ír J n = 0,5 n ! r ! (n - r)! • pr • q(n-r) = 0 : 5 ! = 1 : (0 ! 5 !) (0,5 ) (0,5 ) = 0,031 (0,5 ) (0,5 )4 = 0,15625 5 ! = 2: P(r) = 0,3125 = 3: P(r) = 0,3125 = 4: P(r) = 0,15625 = 5: P(r) = 0,031 M IBÄ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek X: Binomická proměnná Střed rozložení: Rozptyl: E (x )=n-p D(x) = n • p • (1 - p) Příklad: n = 100 respondentů r = 20 má symptom E(x) = n • p = 20 je střed rozložení a nejpravděpodobnější hodnota r r r Binomické rozložení jako model q = 1 - p 0,3 -0,25 0,2 0,15 0,1 0,05 0 02 010 □,16 ai4 012 01 0,08 006 004 002 D n = 10 p = 0,3 0,3 0,2 0,15 0,05 1 n = 30 - P = 0»3 .i n = 100 - P = 0»3 -.................Jilll lllí^......................................................... 1 23456789 10 10 15 20 25 30 1 n = 50 1 P = 0,1 ill 1. 0« 01 o,m 005 004 002 D n = 50 P = 0,5 10 15 20 25 30 36 40 45 50 » 15 20 25 3D 35 02 D,W 0,16 0,14 0,12 01 n,oa □,06 □,04 □ 40 45 50 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 10 20 30 40 SO 60 70 n p = 50 = 0,9 10 15 20 25 35 40 45 50 0 91 Aplikace binomického rozložení Výskyt krevní skupiny B v určité populaci: p = 0,08 Number in blood group B Probability B B 2 0,0064 not B B 1 0,0736 B not B 1 0,0736 not B not B 0 0,8464 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Binomial distribution of number of people out of two in blood group B I ■ Number: blood group B in 2 cases Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0,5 0,4 0,3 0,2 0,1 0 Binomial distribution showing the number of subjects out of ten in blood group B based on the probability of being in in blood group B of 0,08. □ = i-1-1-r t-1-1-1-1 01 23456789 10 0,16 -| 0,14 ^ 0,12 ■ ^ 0,1 CO 0,08 o0,06 P0,04 0,02 0 Number of subjects 11 Uhki Binomial distribution showing the number of subjects out of 100 in blood group B based on the probability of being in in blood group B of 0,08. 0 10 20 30 40 50 60 70 80 90 100 Number of subjects 0 1 2 I. Aplikace binomického rozložení Populace: 60% jedinců má zvýšenou hladinu cholesterolu Výběr: 5 lidí Kolik lidí má ve výběru vyšší hladinu cholesterolu ? n. p = 5 . 0,6 = 3 lidé ~ E(x) n . p (1-p) = 1,2 ~ D(x) II. Jaká je P, že právě 3 lidé budou mít vyšší hladinu cholesterolu ? ~ Tzn. Výběr přesně odpovídá dané populaci ? P(3) = ? P(3 ) = 5 ! 3 ! (5-3) ! (0,6)3 • (0,4)2 = 0,346 P(3) = 35% Jaká je P, že většina jedinců (tedy minimálně 3) má vyšší hladinu cholesterolu ? ~ Tzn. výběr alespoň obecně odpovídá zkoumané populaci ? P(X > 3) = P(3) + P(4) + P (5) = 0,346 + 0,259 + 0,078 = 68 % MU IBÄ p(x) 1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek «. - ^ x Odhad parametru n binomického rozložení Při vícenásobném odhadu se parametr II chová jako normálně rozložen n1;p1 * n2;p2 n3;p3 p U malých nebo velkých hodnot p (II) je však předpoklad normality omezen cp(x) 0 cp(x) n i p o n i p Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Odhad parametru n binomického rozložení r n « p ; p — n 1) Bodový — p (i - p ) n -1 2) Intervalový - aproximace p - (ŠIJÍ 0,95 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Odhad parametru n binomického rozložení T j 1 r 11 11 • r ?1 r 1 v r Intervalový odhad bez aproximací na normální rozložení / _ r Lj — U r + (n - r + l)F!/'V2 ) /2 spodní limit intervalu Vi = 2(n - r +l) v2 = 2r L 2 = !► (r + l )• Fp;v2) 2 n - r + (r + l) FaV/;V2 2 horní limit intervalu v1 = 2(r+l) = /2 + 2 / = 2(n - r) = v1 - 2 1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek P(LX 1 -a Odhad parametru n binomického rozložení: příklad II Náhodný vzorek n = 200 jedinců. Zjištěno pouze r = 4 jedinci bez určitého znaku. P = ^/Cnn = 0,02 95% interval spolehlivosti = ? Spodní hranice 2(n - r + 1) = 2(200 - 4 + 1) = 394 v2 = 2r = 2 • 4 = 8 ^-o/8} =3,67 /2 - L1 4 4 + (200 - 4 + l) 3,67 = 0,0055 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek | Horní hranice | v' = 2 (r + 1) = 10 v2 = 2(n - r)= 2(200 - 4)= 392 /r -o;?2 ) = 2,08 2 L2 = (4 + 1 )• 2,08 200 - 4 + (4 + 1 )• 2,08 0,051 zz zz zz Binomické rozložení v datech: vizualizace Interval spolehlivosti pro n Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistické testování binomických dat i. Liší se odhad p od předpokládané hodnoty P ? Liší se dva nebo více odhadů p ? - závislé odhady -nezávislé odhady Je výskyt kategorií dvou jevů nezávislý ? Hodnocení relativního rizika z výskytu určitého jevu v rámci skupiny lidí Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jednovýběrový binomický test Hq ha Testová statistika Interval spolehlivosti p n z z > z ia p >n p < n z z < z a p = n p *n z >zz>2 > z 1-a/2 Z — n - p n - p (i - p) n - p - n0,5 ^Jn - p (i - p) Korekce na kontinuitu Testová statistika Interval spolehlivosti p n ( r + i ) F , , L = v J a , V i , V 2 p = r / n > L1 n - r + ( r + i) F , . a , v i , v 2 p >n p < n r r L 2 = - r + (n - r + i) F , , a , v j , v 2 P < L2 p = n MU p *n L1; L2 (F a/2; F 1_a/2) p < L2 vp > L1 IBA Test n ? p J Stromy s pozměněným tvarem koruny n = 9 000 jedinců r = 2 250 změněných jedinců Jak je pravděpodobná změna u až 1/3 jedinců? ^ n - p - n -n 2250 - 3000 10 Z = —, > , = —. = - 18 ,26 -\]P (1 - P )' n ->/0,25 - 0,75 - 9000 a = 5 %; z 1-a/2 = 1,96; z 1-a = 1,645 Z > Z 1-a/2.........zamítáme H0: p < 0,01 95 % Interval spolehlivosti ... p: (0,241; 0,258) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test n ? p Příklad testu bez aproximace na normální rozložení 12 jedinců bylo zkoumáno pro výskyt určitého znaku, 10 jedinců znak nemělo Jak hodně se tento výsledek liší od výsledku 6 - 6: tedy od situace, kdy polovina jedinců znak má? a) Využití distribuční funkce r 0 1 2 3 4 5 6 7 8 9 10 11 12 P(r) 0,0002 4 0,0029 3 0,0161 1 0,0537 1 0,1208 5 0,1933 5 0,2255 9 0,1933 6 0,1208 5 0,0537 1 0,0161 1 0,0029 3 0,0002 4 P (r > 10) = 0,01611 + 0,00393 + 0,00024 = 0,01928 H0: p = 0,5 je tedy značně nepravděpodobná b) Pozorované p = = 0,833 překročilo horní limit 95 % intervalu 1 /12 spolehlivosti pro p: p = 0,5 : L2 — (6 +1)-2,64 12 - 6 + (6 +l)- 2,64 — 0,755 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrový binomický test (p1 ? p2) _ n 1 • p 1 + n 2 • p 2 n 1 + n 2 /. / p (1 - p) p (1 - p ) p a- ■ -~ + 2' v n1 n Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrový binomický test (pl ? p2) Tento příklad je ukázkou testování rozdílů mezi dvěma binomickými populacemi (tedy srovnání dvou odhadů parametru p). Celkem 49 pokusných myší bylo použito k testování toxického preparátu během dvouměsíční Ý kultivace. Následující tabulka obsahuje původní data zároveň s testem nulové hypotézy: Podíl přežívajících jedinců je u zasažené populace stejný. Alive Dead Total Proportion alive Proportion dead Treated iS 9 24 TT = 0 625 r 1 ' ql = 0,375 Not Treated io iS 2S TT = 0 400 q2 = 0,600 Total 2S 24 49 p = 0,510 q = 0 , 490 Z 0,625 - 0,400 0,225 (0,510) (0,490) (0,510) (0,490) ^0,010413 + 0,009996 24 + = 1,573 Z0,05(2) = t0,05(2) = 1,96 25 ^> Nezamítáme H0: 0,10 < P < 0,20 S korekcí na kontinuitu: 15 - 0,5 10 + 0,5 Z 24 25 0,604 - 0,420 1, 287 0,143 0,143 y> Nezamítáme H0: 0,10 < P < 0,20 Z0,05(2) = t0,05(2) = 1,96 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad I a) Pravděpodobnost narození chlapce je asi 1/2. Máte zhodnotit výsledky průzkumu populace, která žije v silně poškozeném životním prostředí. Průzkum se týká 1000 náhodně vybraných rodin a zjištěný podíl narozených chlapců je 0.41. Jaké jsou vaše závěry o této populaci? Jak se váš odhad zpřesní, když použijete vzorek n = 10 000 rodin při zachování odhadu p = 0.41? Použijeme jednovýběrový binomický test s nulovou hypotézou H0: p=n, hladina významnosti a=0,05 testová statistika Z n • p - n •n 1000 • 0,41 -1000 • 0,5 in • p(1 - p) ^1000 • 0,41 • 0,59 2 protože Z > Z0 975 nulovou hypotézu zamítáme. Chlapci se ve zkoumavé populaci nerodí s pravděpodobností 0,5. interval spolehlivosti n: p±Z1-;/ / 2 -5,79 a příslušný kvantil Z ; = Z0 975 = 1,96 '2 p(1 - p) n -1 0,4 ± Z0 975 • 0,046 = 0,41 ± 1,96 • 0,016 = 0,41 ± 0,03 pokud použijeme n=10 000, bude int. spolehlivosti užší n: p ± Z 2 2 p n -1 0,41 ± 1,96 • 0,005 = 0,41 ± 0,01 b) Jaká je pravděpodobnost, že rodina se třemi dětmi bude mít 2 (3) chlapce? Podrobně analyzujte problém a použijte obecného definičního vztahu pro binomické rozložení. n = 3 r = 2 p=0,5 (stejná pravděpodobnost narození chlapce jako narození dívky) P(r ) = P = vr y í3\ v 2 y p (1 - pf-' )= n ! •0,52 • 0,5(1) ' ! (n - ')! 3 ! 2 ! (1)! • 0,52 • 0,5(1) = 0,375 pravděpodobnost narození 2 chlapců v rodině se třemi dětmi je 0,375 pravděpodobnost narození 3 chlapců r = 3 platí p(3)= 3 ^0,53 ^0,50 =1^0,53 ^0,50 = 0,125 v rodině se třemi dětmi je 0,125 v 3y Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek — — Příklad II Předpokládá se, že lidé trpící určitou krevní chorobou mají abnormální jeden z chromozómů. S cílem odhadnout podíl takto postižených chromozómů bylo studováno 5 buněk od každého ze 120 pacientů a byl zjišťován počet buněk s postiženým chromozómem (tento počet = sledovaný jev = r). Výsledky jsou uvedeny v následující tabulce. Odhadněte podíl postižených chromozómů u populace nemocných lidí. r(četnost jevu) 0 1 2 3 4 5 celkem f(poč. pacientů) 6 31 42 29 10 2 120 Pro odhad p se používá vztah p i=1 i=1 n fi 0 6 0 1 2 3 4 5 Xifi 31 31 42 84 29 87 10 40 2 10 ^ fiXi = 252 i=1 k ^ f = 120 III i=1 n = 5 P 252/120 5 0,42 pravděpodobnost výskytu postiženého chromozómu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek XIII. Kontingenční tabulky Test dobré shody Fisherův přesný test McNemar test Odds ratio a relativní riziko Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace • Analýza kontingen čních tabulek umožňuje analyzovat vazbu mezi dvěma kategoriálními proměnnými. Základním způsobem testování je tzv. chi-square test, který srovnává pozorované četnosti kombinací kategorií oproti očekávaným četnostem, které vychází z teoretické situace, kdy je vztah mezi proměnnými náhodný. • Test dobré shody je využíván také pro srovnání pozorovaných četností proti očekávaným četnostem daným určitým pravidlem (typickým příkladem je Hardy-Weinbergova rovnováha v genetice) • Specifickým typem výstupů odvozených z kontingen čních tabulek jsou tzv. odds ratia a relativní rizika, využívaná často v medicíně pro identifikaci a popis rizikových skupin pacientů. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test dobré shody - základní teorie Binomické jevy (1/0) x I pozorovaná I četnost očekávaná I 2 četnost I (i) — očekávaná četnost + Příklad [pozorovaná očekávaná četnost četnost očekávaná četnost '--^--' 2 I. jev 1 II. jev 2 10 000 lidí hází mincí rub: 4 000 případů (R) líc: 6 000 případů (L) Lze výsledek považovat za statisticky významně odlišný (nebo neodlišný) od očekávaného poměru R : L = 1 : 1 ? x (4000 (i) 5000 5000 )2 (6000 + 5000 )2 5000 400 Tabulková hodnota: ^'0 95) (v =1) = 384 (0,95 =1 - a) Rozdíl je vysoce statisticky významný (p << 0,001] Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 2 Kontingenční tabulky H0 :Nezávislost dvou jevů A a B Kontingenční tabulka ■ 2 x 21 + Podíl (+) + a b (a + b) vpir c d (c + d )Vp2i> Podíl (+) a b (a + c ) (b + d ) N = a + b + c + d (a + b) p{b + )= p (b )= N (c + d ) N Očekávané četnosti: F(A) = (a + b )(a + c) N (a + b )(b + d) N F(C) = (a + c )(d + c) N (b + d )(c + d) N X v = 1 z = 1 v = 1 = (r - 1)*(c -1) (fy - Fi/- - 0,5)2 /BA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 2 i Kontingenční tabulky: příklad Ano Ne s Ano 20 82 102 Ne 10 54 64 s 30 136 166 FA = 102 * 30 / 166 = 18,43 FB = 102 * 136 / 166 = 83,57 FC = 11,57 FD = 52,43 , (20 -18,43)2 (82- 83,57)2 (10 -11,57)2 (54- 5^43)2 %Q) =-■2-^-+---^-++--—-Z2—L- 18,43 = 0,423 0,423 2,706) = 0,10. Dále lze zjistit pro P (x2 > 3,841) = 0,05. V řešené úloze jsme dospěli k hodnotě testové statistiky x2 = 4,320. Pro tento případ lze tedy psát 0,025 < P (x2 > 4,320) < 0,05; a jednodušeji 0,025 < P < 0,05. Jde v podstatě o přibližné určení hranic chyby 1. druhu. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek _ Test dobré shody: příklad II Tento příklad je rozšířením problému z příkladu 1 na srovnání pozorovaných a očekávaných frekvencí pro více kategorií sledovaného znaku: Celkem bylo zkoumáno 250 semen určitého druhu rostliny a roztříděno do následujících kategorií: žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité. Předpokládaný poměr výskytu těchto kategorií v populaci je 9 : 3 : 3 : 1. Následující tabulka obsahuje původní data z pozorování a dále postup při testování H0. žluté/hladké žluté/vrásčité zelené/hladké zelené/vrásčité n f poz. 152 39 53 6 250 f oček. 140,6250 46,8750 46,8750 15,6250 v = k -1 = 3 11,37502 7,87502 6,12502 9,62502 n --1---1---1--= 8,972 140,6250 46,8750 46,8750 15,6250 2 2 z2 Zamítáme hypotézu shody pozorovaných četností s očekávanými Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek žluté/hladké žluté/vrásčité zelené/hladké n f poz. 152 39 53 244 f oček. 146,400 48,800 48,800 Test dobré shody: příklad III Složitější příklady řešené srovnáváním frekvencí je možné rozdělit na testování dílčích hypotéz: /Předpokládejme, že chceme pro data z předchozí úlohy testovat hypotézu existence štěpného poměru 9 : 3 : 3 pro první tři kategorie semen: n = k -1 = 2 X 2 5,600 + 9,800 146 ,40 48 ,80 + 4,200 48 ,80 2 , 544 Nezamítáme hypotézu shody pozorovaných četností s očekávanými. ^ Nyní otestujeme hypotézu štěpného poměru kategorií zelené/vrásčité:ostatní f poz. f oček typy = 1:15 zelené/vrásčité 6 15,625 ostatní 244 234,375 n 25 n = k -1 = 1 9,625 2 X 15 ,625 + 9 , 625 234 ,375 6 ,324 Zamítáme hypotézu shody pozorovaných četností s očekávanými. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 2 2 2 2 Test dobré shody: příklad IV - využití aditivity testu 9 U 193 párů dvojčat byly zjištěny následující poměry pohlaví: 56 Ch - Ch 72 Ch - H 65 H -H Za předpokladu, že narození chlapečka má stejnou pravděpodobnost jako narození holčičky, lze očekávat poměry pro výše uvedené skupiny = 0,25: 0,5: 0,25. Ověřte tento předpoklad na uvedeném vzorku populace. Z193 párů 1/4 : 1/2 : 1/4 očekávané četnosti = 48,25 : 96,50 : 48,25 X(22) 13,28 Proč lze v předchozím případě očekávat zamítnutí H0? Testujte následující hypotézy: 1) Jsou relativní počty párů se shodným pohlavím ve shodě s očekávanými četnostmi? (ignorujte Ch H páry) 2) Je relativní četnost kombinace Ch - Ch a H - H párů oproti párům s rozdílným pohlavím ve shodě s očekávanými četnostmi? Z 121 párů 1 : 1 očekávané četnosti = 60,5 : 60,5 Z193 párů 1 : 1 očekávané četnosti = 96,5 : 96,5 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek x x (d (1) 0,669 12 ,44 H-H Ch - Ch x0 128 ,27 7,81 Zamítáme hypotézu shody pozorovaných četností s očekávanými. Příspěvek kategorií A, B, C, D k celkové hodnotě x2 3 O I! A B C D A B C D Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test homogenity binomických rozložení Jev: Úmrtnost na leukemii Předpoklad: n = 0,6 Absolutní četnost jevu označena ri Sledovalo s autorů z s zemí: — s Autor ri 1 2 • • • s Z ni = N Test homogenity binomických rozložení Po možném sloučení s výběrů Test shody reálného r a Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek n n ŕ (Z ri p t - p Z ri) S-1 p (1 - p) Z r - n •ni 1 2 (1) n n(1 -n) _ 2 _ Test homogenity binomických četností: příklad Pomocí x2 rozložení lze rovněž posuzovat homogenitu většího množství nezávislých pokusů testujících tutéž hypotézu. >Bylo provedeno 6 nezávislých výběrů z populace mladých mužů, kteří v dětství onemocněli těžkým zánětem mozkových blan. H0: V této populaci se vyskytují praváci a leváci v poměru 1 : 1. >Nalezněte v literatuře příslušné vztahy pro testování homogenity všech šesti výběrových populací a na základě výsledků tohoto testu rozhodněte o dalším postupu. Následující tabulka obsahuje původní data a výsledek testování (v závorkách jsou uvedeny očekávané četnosti): Vzorek Praváci Leváci n X2 St. volnosti 1 3 (7) 11 (7) 14 4,5714 1 2 4 (8) 12 (8) 16 4,000 1 3 15 (10) 5 (10) 20 5,000 1 4 14 (9) 14 (9) 18 5,5556 1 5 13 (8,5) 4 (8,5) 17 4,7647 1 6 17 (11) 5 (11) 22 6,5455 1 Xlterogemta = 30,2 v = s - 1 = 5 P < 0,001 Jednoduchým testováním lze zjistit, že všechny testy pro jednotlivé výběry jsou významné, což znamená, že ani v jednom případě nebyla potvrzena shoda očekávaných a pozorovaných četností. Test homogenity štěpného poměru v zkoumaných populacích rovněž vedl k zamítnutí možnosti sloučit jednotlivé výběry a posuzovat je jako celek (kromě testovaného poměru 1 : 1 neexistuje tedy v datech žádný jiný jednotný štěpný poměr mezi oběma vlastnostmi. V případě, že by tento test neprokázal odchylky mezi jednotlivými výběrovými populacemi, bylo by možné jednotlivé odběry sloučit a posuzovat jako homogenní vzorek. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek %2 test - příklad složitější kontingenční tabulky I Caffeine consumption and marital status in antenatal patiens (from Martin and Bracken, 1987) Caffeine consumption (mg/day) Marital status 0 1 -150 151 - 300 > 300 Total Married 652 1537 598 242 3029 Divorced, separed or widowed 36 46 38 21 141 Single 218 327 106 67 718 Total 906 1910 742 330 3888 Caffeine consumption and marital status data Caffeine consumption (mg/day) Marital status 0 1 -150 151 - 300 > 300 Total Married 22 % 51 % 20 % 8 % 3029 (100 %) Divorced, separed or widowed 26 % 33 % 27 % 15 % 141 (100 %) Single 30 % 46 % 15 % 9 % 718 (100 %) Total 23 % 49 % 19 % 8 % 3888 (100 %) Yytvuui institut Liuotatiotiky a analýz, Maoaiykuva univerzita J. Jarkovský, L. Dušek %2 test - příklad složitější kontingenční tabulky II Expected frequencies Caffeine consumption (mg/day) Marital status 0 1 -150 151 - 300 > 300 Total Married 705,8 1488 578,1 257,1 3029 Divorced, separed or widowed 32,9 69,3 26,9 12,0 141 Single 167,3 352,7 137 60,9 718 Total 906 1910 742 330 Contributions of each cell Caffeine consumption (mg/day) Marital status 0 1 -150 151 - 300 > 300 Total Married 4,11 1,61 0,69 0,89 7,30 Divorced, separed or widowed 0,30 7,82 4,57 6,82 19,51 Single 15,36 1,88 7,02 0,60 24,86 Total 19,77 11,31 12,28 8,31 51,66 MU m Vytvořil Institut biostatistiky a analýz, Masarykova univerzita IQJ^ J. Jarkovský, L. Dušek X2 test - příklad frakcionace složitější kontingentní tabulky I C Cílem rozsáhlejšího průzkumu populace bylo prozkoumat vztah mezi dvěma typy chorob a krevními skupinami u lidí. Konkrétní data jsou uvedena v tabulce: Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola Celkem 0 983 383 2892 4258 A 679 416 2625 3720 B 134 84 570 788 Celkem 1796 883 6087 8766 Vypo čítejte testovou charakteristiku pro tuto kontingenční tabulku a otestujte nulovou hypotézu nezávislosti jevů (x2 = 40,54; 4 st. volnosti) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 1 %2 test - příklad frakcionace složitější kontingen ční tabulky II K podrobnějšímu průzkumu složitějších tabulek výrazně napomáhá přepis původní tabulky do podoby procentického zastoupení kategorií: Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola 0 983 383 2892 A 679 416 2625 B 134 84 570 Celkem 1796 883 6087 Z této tabulky je patrné: 1. Jsou jenom malé rozdíly v distribuci krevních skupin u kontroly a u skupiny nemocných rakovinou žaludku. 2. Pacienti s vředy mají mnohem častěji krevní skupinu 0. Na základě těchto poznatků je možné sestrojit menší kontingenční tabulku, která otestuje hypotézu o shodné distribuci krevních skupin pro nemocné rakovinou a pro zdravé lidi. Sestavte tuto tabulku a otestujte nulovou hypotézu. (%2 = 5,64 (2 st. v.), P je přibližně rovna 0,06) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Z tohoto dílčího testu vyplývá možnost sloučení skupiny nemocných rakovinou a zdravých lidí neboť se vzhledem k distribuci krevních skupin chovají jako homogenní populace. Dalším logickým krokem v podrobné analýze je testování shody relativních četností výskytu krevních skupin A a B mezi kombinovaným vzorkem (sloučená skupina s rakovinou a kontrola) a mezi vzorkem lidí nemocných žaludečními vředy - tzn. nyní neuvažujeme krevní skupinu 0. Výsledkem tohoto testu je %2 = 0,68 (1 st. vol.); P > 0,7. Vzorky pro krevní skupiny A a B lze tedy sloučit do směsného vzorku A + B. • Nyní otestujeme shodu relativních četností výskytu skupiny 0 oproti A + B, a to mezi kombinovanou populací (kontrola + nemocní rakovinou) a mezi vzorkem nemocných vředařů (x2 = 34,29; 1 st. vol.). Lze tedy shrnout, že vysoká hodnota původního x2se4st. volnosti byla způsobena zvýšenou četností lidí s krevní skupinou 0 mezi nemocnými žaludečními vředy. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek X2 test - příklad frakcionace složitější kontingen ční tabulky IV Průběh hodnocení lze shrnout do tabulky: Srovnání St. volnosti X2 0, A, B skupina u pacientů s rakovinou (r) x kontrola (k) 2 5,64 A, B skupina u pacientů s vředy x kombinovaný vzorek (r + k) 1 0,68 0, A, B skupina u pacientů s s vředy x kombinovaný vzorek (r + k) 1 34,29 Celkem 4 40,61 Celkový součet testových statistik x2 (40,61) odpovídá přibližně původní hodnotě x2 (40,54). Což platí i o stupních volnosti (4). Tato skutečnost potvrzuje, že jsme detailním rozborem vyčerpali informační obsah původní kontingenční tabulky a kromě popsané závislosti (zvýšený výskyt krevní skupiny 0 u lidí s žaludečními vředy) jsou jednotlivé kategorie zkoumaných jevů zcela nezávislé. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kontingenční tabulka 2 x 2: Řešení při nedostatečné velikosti vzorku Yates' corection Fisher's exact test Nezávislost jevů Test analyzuje všechny možné 2 x 2 tabulky, které dávají stejnou sumu řádků a sloupců jako tabulka zdrojová. Algoritmus každé tabulce přiřazuje pravděpodobnost, že taková situace nastane, je-li H0 pravdivá. Spectacle wearing among juvenile delinquents and non-delinquents who failed a vision test (Weindling et al., 1986) Juvenile delinquents Non- deliquents Total Spectacle wearers Yes l S 6 No S 2 10 Total 9 ľ 16 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kontingenční tabulka 2 x 2: Řešení při nedostatečné velikosti vzorku Všechny možné varianty tabulky s (I) (II) (III) (IV) danou sumou řádků a sloupců (V) 06 91 42 55 15 82 (VI) 51 46 24 73 (VII) 60 37 33 64 Pravděpodobnost náhodného vzniku variant tabulky a b c d P ( I ) 0 6 9 1 0,00087 ( II ) 1 5 8 2 0,02360 ( III ) 2 4 7 3 0,15734 ( IV ) 3 3 6 4 0,36713 ( V ) 4 2 5 5 0,33042 ( VI ) 5 1 4 6 0,11014 ( VII ) 6 0 3 7 0,01049 Total 0,99999 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 2 x 2 frekvenční tabulka pro párové uspořádání: Mc Nemar's test Příklad: Srovnání 2 metod stanovení antigenu v krvi (antigen vždy přítomen) H0: metoda 1 = metoda 2 Metoda 1 Metoda 2 Frekvence úspěch úspěch 202 úspěch neúspěch 60 neúspěch úspěch 42 neúspěch neúspěch 10 (60 - 42 I - 1 ) = 2,83 10 Tabulky : x\_ (v=1) 1-a 3,84 } S — 102 H0 nezamítnuta Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Aplikace analýzy 2 x 2 tabulky pro hodnocení rizika I. Prospektivní studie - odhad relativního rizika Jedinci jsou sledováni prospektivně, zda se vyskytne nějaká vlastnost. VÝBĚR JE DÁN SLOUPCEM Znak ANO NE OBECNĚ Skupina 1 Skupina 2 a b c d Riziko: a b (a + c) (b + d) a RR (a + c ) b (b + d ) H0: RR = 1 PŘÍKLAD Retardace plodu Symetrická Agar skore ANO > 7 NE 14 RR 2/16 33 / 91 2/16=0,13 = 0,345 Asymetrická 33 58 33/91=0,36 Riziko u "symetrické skupiny" je asi 35 % rizika u asymetrické skupiny SE (ln RR ) = I— V a IS: ln RR - Z ln RR + Z + 1 a + c 1 b b + d 1-a/2 1 1-a/2 SE (ln RR) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek _ 1 Aplikace analýzy 2 x 2 tabulky pro hodnocení rizika II. Retrospektivní studie - "ODDS RATIO" Zcela zásadně odlišný přístup od retrospektivní studie VÝBĚR JE DÁN VLASTNOSTÍ - ŘÁDKEM Není tedy možné analyzovat relativní riziko, protože přípravou řádků můžeme měnit velikost kontrol. OBECNĚ ANO Znak Skupina 1 Skupina 2 ab Odds ratio : aIc bId SE(inOR) _ llll -+-+-+— abcd PŘÍKLAD Vady chrupu ANO NE Plavání < eh 32 118 týdně 36h 17 127 OR _ (32117)l (ll81127)_ 2,026 in (OR )_ 0 ,706 SE (in (OR ))_ 0,326 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Relative risk Í3f °dds ratio (relativní riziko) (poměr šancí) • Smysl RR a OR • Výpočet • Srovnatelnost • Interpretace • Výhody a nevýhody Aplikace v klinickém hodnocení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Popis vlivu faktoru (léčba, klinický parametr) na výskyt události (úmrtí, progrese aj.) Odds ratio (poměr šancí) 0 0 Relative risk (relativní riziko) Snadná přirozená interpretace rizik vyjádřených jako procento událostí ALE Matematická omezení pro některé aplikace 0 Pouze málo lidí má přirozenou schopnost interpretovat OR ALE 0 OR v řadě aplikací výhodnější matematické vlastnosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • event j| bez eventu Srovnání výskytu události mezi dvěma rameny (A,B) studie RR= Relative risk (relativní riziko) tttttt ó ío io 2 ft A # t B * * OR= Odds ratio (poměr šancí) tttttt tttt tit ttttttt o cí) ó 7 3.5 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vztah mezi RR a OR Relative risk (relativní riziko) 10 5 3 .2 §0.7 0.5 0.3 Odds ratio (poměr šancí) 2- 0.1 RR a OR je přímo srovnatelné pouze při nízkém bazálním riziku 6 10 Zhang, J. et al. JAMA 1998;280:1690-1691. 20 30 AO 50 incidence Among the Nonexposed. % 60 70 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Srovnatelnost RR a OR I: maximum Odds ratio (poměr šancí) Relative risk (relativní riziko) ft • RR mění své maximum podle bazálního rizika 1 !> 20 15 10 0% 20% 40% 60% Bazálni riziko IOCVí. 0 RR ve studiích s různým bazálním rizikem jsou nesrovnatelná !!!! Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0 0 0 Odds ratio má vždy rozsah od 0 do nekonečna Velikost OR není závislá na velikosti bazálního rizika OR lze použít pro srovnání studií s různým bazálním rizikem !!!! 0 Výhodné pro metaanalýzu Srovnatelnost RR a OR I: symetrie • Existuje mezi RR a O rozdíl v případě RR(I)= Relative risk (relativní riziko) tttt 4 ÍO Hitm Ittttt — - — RR(II)= ttt 7 ÍO ó ÍO 10 O.57 — — — 2 výměny definice eventu a non-eventu? i i i t t i t i i t 1t í1 I1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek vs. i T f í tí t i ft tí t i i i Odds ratio (poměr šancí) Iff f OR(I)= OR(II)= íiítíí ttttttt ttt tttttt tttt ttt ititttt 4 6 7 3 6 = O.29 6 3 = 3.5 7 _ RR a OR ve studiích s různou mírou bazálního rizika Ve skupině „Case" připadá na jednoho pacienta bez eventu 4x tolik pacientů s eventem než ve skupině „Control" Bazální (control) výskyt eventu (%) Relative risk Pacient ve skupině „Case" má x-krát zvýšenou pravděpodobnost výskytu eventu než pacient ve skupině „Control". X-krát závisí na basálním výskytu eventu. 58 Prospektivní studie 0 0 Sledování výskytu eventu a následná analýza jeho příčin Převážně kohortní studie pektivní stu 0 Zpětné sledování příčin eventu 0 Převážně case-control studie 0 Výběrem pacientů ovlivňujeme bazální výskyt eventu 0 Bazální výskyt eventu je dán vlastnostmi kohorty pacientů 0 Bezproblémové využití RR Relative risk (relativní riziko) k o) 0 RR nelze použít -ovliněno bazálním výskytem eventu 0 Využiti OR - není ovlineno designem studie Odds ratio (poměr šancí) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Relative risk (relativní riziko) 0 Intuitivně snadno interpretovatelné 0 Pro prospektivní studie 0 Standardní výstup Coxovy regrese 0 Maximum se liší podle bazální hodnoty výskytu eventu Odds ratio (poměr šancí) 0 Retrospektivní studie 0 Aplikace v metaanalýze 0 Standardní výstup logistické regrese 0 Rozsah vždy 0 až nekonečno, není ovlivněno bazálním výskytem eventu 0 Obtížnější interpretace Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek XIV. Poissonovo rozložení Popis rozložení a jeho využití Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Poissonovo rozložení se používá pro popis četnosti výskytu jevu na experimentální jednotku, příkladem může být počet mutací bakterií na Petriho misku nebo počet srdečních poruch na jednotku času Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Poissonovo rozložení Celkový počet jevů v n nezávislých pokusech E(x) = n p ■» t_ď x x D(x) = n p } E(x) = D(x) jjí—X— průměrný počet jevů z n pokusů P (r ) -= e-- r ! r ! ^ P (X = 0) = e jj P (X=l) = e^-jl P (X = 2 ) = - 2 P (X = 3 ) = - (3)(2) P (X = 4 )= ^ (4)(3)(2) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Poissonovo rozložení jako model P (x = r ) = e -x r ! 1,1 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 x = 0,01 012 3456789 10 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 X = 1 0^ i i i-1-1-1- 1 2 3 4 5 6 7 8 9 10 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 n X = 0,1 01 2 3456789 10 0,2 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 X = 5 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 X = 0,5 01 23456789 10 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 X= 10 01 23456789 10 0 1 2 3 4 5 6 7 8 9 1011121314151617181920 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0 Poissonovo rozložení v přírodě existuje Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Orientační stanovení jevu (při produkci plynu bakteriemi) + + U b + The most probable number technique Výskyt jevu v čase (srdeční arytmie v určitých časových intervalech) 1 111 1 •-1-1-1-1- čas Poissonovo rozložení jako model pro náhodný výskyt jevů -------------------------------------------£>------------------------------------------- Předpoklad: náhodná distribuce jevu mezi studovanými objekty (příp. v čase, v prostoru). <72 jU v2 Uniform Clustered Random Poisson Pokud je X spíše větší (~ 5 -10), pak Poisson odpovídá spíše binomickému až normálnímu rozložení. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Formální prezentace Poissonova rozložení Př: pokus......10 000 bakterií na misce n = 10 misek Jev: mutace (r=25) X..........průměrný počet mutantů na jednu misku r = 25 'x *X=25/10= ^5 95 % IS: • • • 2,5 - 1,96 • A/0,25 < X < 2,5 + 1,96 • A/0,25 1,52 < x < 3,48 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Poissonova náhodná proměnná Při měření počtu krvinek změněných určitou chorobou (relativně vzácné) je pozorován zředěný vzorek krve pod mikroskopem v komůrce rozdělené na stejně velká pole. Sledovaná veličina, udávající počet krvinek v i-tém poli může být považována za rozdělenou podle Poissonova rozložení: n = 169 = počet nezávislých pozorování proměnné r = 10 = počet pozorovaných krvinek Jaká je hodnota parametru X Poissonova rozložení a jaká je jeho interpretace ? Jaký je interval 95% spolehlivosti pro parametr X ? Pokud bychom sledovali celkový počet červených krvinek (opět v n = 169 nezávislých políčkách), bylo by i tuto proměnnou možno považovat za rozloženou podle Poissonova rozložení ? Uvažujte celkový počet pozorovaných krvinek jako 2013. Výpočet intervalu spolehlivosti pro A (bez aproximace na normální rozložení) W Spodní hranice IS Horní hranice IS X 2 ( fi = 2 r) L 1 = 1 _ oc 2 2 X L 2 = 2 a ( f 2 = f 1 + 2 ) 2 2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Poissonova náhodná proměnná Konstantní zářič: n = 2608 časových intervalů (každý 7,5 s) i: počet částic v intervalu (x) si: pozorovaná četnost intervalů s i částicemi P(x = i) =--p i ! Poissonova proměnná: * Výborný model pro experimenty, v nichž je během časového průběhu zjišťován počet výskytu určitého jevu i Počet intervalů s právě i zaznamenanými částicemi st teoretické četnosti np i (Sj - ) npi 0 57 54,399 0,1244 1 203 210,523 0,2688 2 383 407,361 1,4568 3 525 525,496 0,0005 4 532 508,418 1,0938 5 408 393,515 0,5332 6 273 253,817 1,4498 7 139 140,325 0,0125 8 45 67,882 7,7132 9 27 29,189 0,1642 10 10 17,075 (= P{ k > 10}) 0,0677 11 4 12 2 13 0 n = 2608 2608,00 12,8849 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Poissonovo rozložení: jednovýběrový test Př: Počet hnízd křepelek na dané ploše j i1) Vzít data jako pocházející z populace: n = 8 000 "pod lokalit" r = 28 } p = 0,0035 Nechť je srovnávací soubor (předchozí průzkum) po = 0,0020 po • 8 000 = 16 = ju = A H : p < po ~ ju < 16 ? n/ _0. e 16 • 1628 P (r = 28) = ——t— = 0,00192 28 ! 2) P(r > 28) = ? < 0,05 => Ho zamítnuta [0,00411 ] / l r = 28 je příliš velké pro populaci s po * abr28 b,o aby r = 28 bylo p > po, pravděpodobnější Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek XV. Analýza rozptylu Parametrická analýza rozptylu Post hoc testy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace • Analýza rozptylu je základním nástrojem pro analýzu rozdílů mezi průměry v několika skupinách pacientů. • Základní myšlenka, na níž je ANOVA založena, je rozdělení celkové variability v datech (neznámé, dané pouze náhodným rozložením) na část systematickou (spjatou s kategoriemi pacientů, vysvětlená variabilita) a část náhodnou. Pokud systematická, tedy nenáhodná a vysvětlitelná část variability převažujeme, považujeme daný kategoriální faktor za významný pro vysvětlení variability dat. • Analýza rozptylu vyhodnocuje pouze celkový vliv faktoru na variabilitu, v případě analýzy jednotlivých kategorií je třeba využít tzv. post-hoc testy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA Základní technika sloužící k posouzení rozdílů mezi více úrovněmi pokusného zásahu i Rostoucí koncentrace testované látky / látek Celkově významné změny v reakci biologického systému i Vzájemné rozdíly účinku jednotlivých dávek ^) Rozdíly účinku dávek od kontroly Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA Významné kroky analýzy, vedoucí k efektivnímu srovnání variant Rostoucí koncentrace testované látky / látek Splnění předpokladů analýzy Transformace dat Relevantnost kontroly (vliv vlastní aplikace látek) Vhodnost modelu ANOVA pro účely testu Vlastní srovnání variant Minimalizace chyb při ověřování hypotéz Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA SPLNĚNÍ PŘEDPOKLADŮ ANOVA JE NEZBYTNOU PODMÍNKOU POUŽITÍ TÉTO TECHNIKY A Předpoklad nezávislosti i. opakováni experimentu / ANOVA ; = parametrická analýza dat Homogenita 2. rozptylu v rámci pokusných variant Normalita rozloženi 3. v rámci pokusných variant alternativou jsou neparametrické metody Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA Předpoklady analýzy rozptylu jsou nezbytné pro dosažení síly testu • Symetrické rozložení hodnota normalita odchylek od hodnoceného modelu ANOVA. Velkou část dat lze adekvátně normalizovat použitím logaritmické transformace. Předpoklad lognormální transformace může pochopitelně být teoreticky vyloučen u mnoha datových souborů obsahujících diskrétní parametry, kde je indikována vhodnost jiného typu transformace. U asymetricky rozložených a u diskrétních dat je nutné využít neparametrické alternativy analýzy rozptylu. • Statistická nezávislost reziduí vyhodnocovaného modelu ANOVA. Pokud odhad a posouzení korelačních vztahů mezi pokusnými variantami není přímo předmětem výzkumu, lze jejich vliv na vyhodnocení odstranit znáhodněním dat v rámci pokusných variant - tedy změnou pořadí v náhodné. Rozsah vlivu těchto autokorelačních vztahů musí být ovšem primárně omezen správností experimentálního uspořádání. • Homogenita rozptylu je nutným předpokladem pro smysluplnost vzájemných srovnání pokusných variant. U testů toxicity by splnění tohoto předpokladu mělo být ověřováno (Bartlettův test), neboť vážné rozdíly (až řádové) v jednotkách testovaného parametru mohou nastat v d ů sledku inhibice dávkami látky. Nehomogenita rozptylu je často ve vztahu k nenormalitě (asymetrii) dat a lze ji odstranit vhodnou normalizující transformací. • Aditivita jako předpoklad týkající se složitějších experimentálních uspořádání. Exaktní otestování aditivity více pokusných faktorů je procedura poměrně náročná na experimentální design vyvážený co do počtu opakování. Je rovněž obtížné testovat interakci na nestandardních datech, neboť případná transformace může změnit charakter odchylek původních dat od hodnoceného modelu ANOVA. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA Omezení aplikace ANOVA lze vešit • Chybějící data. Vážným problémem jsou chybějící údaje o celé skupině kombinací testovaných látek, například u faktoriálních pokusů, kdy je znemožněno hodnocení experimentu jako celku. • Různé počty opakování Jde o typický jev pro experimentální datové soubory. Při různých počtech opakování v experimentálních variantách jsou testy ANOVA citlivější na nenormalitu dat. Pokud jsou počty opakování zcela odlišné(až na řádové rozdíly), je nutno použít neparametrické techniky nebo analýzu rozptylu nevyvážených pokusů. • Odlehlé hodnoty. Ojedinělé odlehlé hodnoty musí být před parametrickou analýzou rozptylu vyloučeny. • Nedostatek nezávislosti mezi rezidui modelu. Jde o závažný nedostatek, zkreslující výsledek F-testu. Velmi často je tato skutečnost důsledkem špatného provedení nebo naplánování experimentu. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Nehomogenita rozptylu. Velmi častý nedostatek experimentálních dat, často související s nenormalitou rozložení nebo s odlehlými hodnotami. • Nenormalita dat. I v tomto případě Iz situaci upravit vyloučením odlehlých hodnot nebo normalizující transformací. • Neaditivita kombinovaného vlivu více pokusných zásahů. Tuto situaci lze testovat jednak speciálními testy aditivity nebo přímo F testem kontrolujícím významnost vlivu interakce pokusných zásahů. Při významné interakci je nutné prozkoumat především její charakter ve vhodném experimentálním uspořádání. Modely analýzy rozptylu Model I. Pevný model X0 X1 X2 X3 X4 y j = jU + aJ+sl u y + + + + + X0 X1 X2 X3 X4 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Model II. Náhodný model A B C D E y.. = ju + A + £y y m A B C D E ANOVA - základní výpočet • Základním principem ANOVY je porovnání rozptylu připadajícího na: o Rozdělení dat do skupin (tzv. effect, variance between groups) o Variabilitu objektů uvnitř skupin (tzv. error, variance within groups), předpokládá se, že jde o náhodnou variabilitu (=error) 1. Variabilita mezi skupinami Rozptyl je počítán pro celkový průměr (tzv. grand mean) a průměry v jednotlivých skupinách dat Stupně volnosti jsou odvozeny od počtu skupin (= počet skupin -1) 2. Variabilita uvnitř skupin Rozptyl je počítán pro průměry jednotlivých skupin a objekty uvnitř příslušných, celková variabilita je pak sečtena pro všechny skupiny Stupně volnosti jsou odvozeny od počtu hodnot (= počet hodnot počet skupin) SS between Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek SS within v2 = n - k F between _ groups within _ groups Výsledný poměr (F) porovnáme s tabulkami F rozložení pro v 1 a v2 stupňů volnosti SS=sum of squares — Jednoduchý ANOVA design Nejjednodušším případem ANOVA designu je rozdělení na skupiny podle jednoho parametru. dělící parametr Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Nested ANOVA • Rozdělení skupin na náhodné podskupiny (např. opakování experimentu) • Cílem je zjistit, zda data v jedné skupině nejsou pouhou náhodou • Nejprve je testována shoda podskupin v hlavních skupinách, • pokud jsou shodné, je vše v pořádku • pokud nejsou, stále lze zjišťovat, zda se variabilita uvnitř hlavních skupin liší od celkové variability Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Two way ANOVA Pro rozdělení do kategorií je zde více parametrů Na rozdíl od nested ANOVY nejde o náhodná opakování experimentu, ale o řízené zásahy (např.vliv pH a koncentrace O2) Kromě vlivu hlavních faktorů se uplatňuje i jejich interakce faktor 1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Modely analýzy rozptylu - základní výstup Základním výstupem analýzy rozptylu je Tabulka ANOVA - frakcionace komponent rozptylu Zdroj rozptylu St. v. SS MS F Pok. zásah a -1 SSB SSB/(a -1) MSB/MSE (mezi skupinami) Uvnitř skupin N - a SSE SSE/(N - a) Celkem N -1 sst ssb/sst X Kvantifikovaný podíl rozdílu mezi pokusnými zásahy na celkovém rozptylu MSB/MST ) / Statistická významnost rozdílu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - obecný F test obecný F test H0: m1 = m2 = m3 = .... = mp H0 platí H0 neplatí Látka nepůsobí Látka působí Další analýzy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek í- < o — CD 03 S" -■ w 03 N 03 tn 03 >3 O < 03 < CD B l—t- Q) Kontrola Koncentrace X1 Koncentrace Koncentrace X, ZJ N q- 0) Q) 3 (/) —> <—i- <—i- c (—1- Q) Koncentrace Xp > N O N r CD Q)> (Q O CD ^_ CD Q) co co o o E o < C Q) ^5 Q) Z L. a řD i/í Příklad: Anova - One way Dávka rostlinného stimulátoru (0, 4, 8, 12 mg/l) A = 4 ; n = 8 I. ANOVA Bartlett's test: P = 0,9847 K-S test: P = 0,482 - 0,6525 pro jednotlivé kategorie Source D. f. SS MS F Between Groups 3 305,8 101,9 8,56 Within Groups 28 322,2 11,9 Total (corr.) 31 638,0 II. Multiple Range Test NKS -test Level Average 0 34,8 4 41,4 12 41,8 8 52,6 Homogenous Groups x x x x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek I. Zásah: 4 klinická stadia virové choroby (napadá kr. buňky) Sledovaná veličina: aktivita enzymu v těchto krevních buňkách Ho: //, = //2 = //3 = /Li4 I II III IV n = 3 MODEL = ? II. 22,8 16,4 11,2 14,2 19.4 17,8 18,2 10,1 12.5 19,1 15,8 12,8 Source D.f. MS F P Between groups 3 49,6 8,39 0,0075 E 65,7 53,3 45,2 37,1 Within 8 5,9 průměr 21,9 17,8 15,1 12,4 groups Total (corr.) 11 - III. Komponenta rozptylu: IV. p ~ r j S 0,7142 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek — — Srovnání variant v testech Srovnáváni variant po celkovém testu ANOVA Mnoho existujících algoritmů není vhodných pro konkrétní případ Day and Quin Ecological Monographs,1989 Test Využití Poznámka Dunnett Williams Srovnání s kontrolou Ex. i modifikace pro různá n. ANOVA testy (F) Orthogonální kontrasty Plánovaná srovnání Ryan Q test Jednoduché kontrasty Vyhodnocen jako nejlepší test Testy pro jednoduché kontrasty Scheffe Tukey LSD Bonferroni Dunn-Sidák Kramer Testy nevhodné Duncan Student -Newmann-Keuls Waller-Duncan k ratio Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Řada post-hoc testů v různých SW Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Rozšíření ANOVA • Současná analýza kategonálních a spojitých prediktorů • Testování hypotézy paralelismu regresních vztahů "V t ■ ^ kategorie kategorie Spojitý prediktor Spojitý prediktor Kategorie pacientů (pokusný zásah) Kategorie pacientů (pokusný zásah) neovlivňuje vztah proměnných ovlivňuje vztah proměnných Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek XVI. Korelace a regrese Parametrická a neparametrická korelace Lineární regrese Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých proměnných. Obdobně jako jiné statistické metody, i korelace mohou být parametrické nebo neparametrické • Regresní analýza vytváří model vztahu dvou nebo více proměnných, tedy jakým způsobem jedna proměnná (vysvětlovaná) závisí na jiných proměnných (prediktorech). Regresní analýza je obdobně jako ANOVA nástrojem pro vysvětlení variability hodnocené proměnné Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy korelační analýzy -1. Korelace - vztah (závislost) dvou znaků (parametrů) y2 y 2 i: \ y2 x1 x1 x2 1 ANO NE ANO a b NE c d x1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametrické míry korelace Kovariance Cov(x, y) = E(xf _ x).(yi _ y) 0 0 -- x --y t 0 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Pearsonův koeficient korelace Y2 r = 1 r = -1 X1 Základy korelační analýzy - III. P, (zem) 10 14 15 32 40 20 16 50 Pi (rostl.) 19 22 26 41 35 32 25 40 I = 1,....., n; n = 8; v = 6 Cov(x,y) r = i. # 0 : p = 0:a = 0,05 tab : r (v = 6) = 0,7076 0,7176 ii. P = ^ r 0,7176 0,6965 ;( n - 2) '0,975 ^6 = 2,524 tab : t; = 2,447 Vl - r P < 0,05 ■\ln - 2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek v = n - 2 t — 2 t — 1 n1 = 1258 2. n2 = 462 r, = 0,682 ^^^^ r2 = 0,402 Krevní tlak x koncentrace kysl. radikálů (1 + r,) Z j = Z1 = 0,833 1.1513 • log (1 - r,) Z 2 = 0,426 Test: H0 :p1 =p2 ; a=0,05 Z Z 1 - Z 2 0,407 1 1 + 0,0545 7,461 n 1 - 3 n 2 - 3 tabulky : Z 0 975 = 1,96 7,461 >> 1,96 => P << 0,01 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek _ _ _ Základy korelační analýzy - V. Neparametrická korelace (rs) PI v půdě 1 2 3 6 7 5 4 8 PI v rostl. 1 2 4 8 6 5 3 7 0 0 1 2 -1 0 -1 -1 rs = 1 i = 1,.....n; n = 8 => v = 6 6 • ^ di 2 n (n 2 - 1 ) tab : rs (v = 6) = 0,89 = 0 ,9048 Pacient č. 1 2 3 4 5 6 7 Lékař 1 4 1 6 5 3 2 7 Lékař 2 4 2 5 6 1 3 7 dI 0 -1 1 -1 2 -1 0 rs = 1 6 • 8 7 (49 - 1) = 0,857 P = 0,358 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Korelace v grafech I. Y t Y v y* i X X Vztahy velmi často implikují funkční vztah mezi Y a X. Y = a + b . X Y = a + b1 . X1 + b2. X2 + b3. X3 Y = a + b1 . X1 + b2. X2 Y = a + b1 . X1 + b2. X2 + b3. X1 . X2 MU Jbä Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Korelace v grafech II. Problém rozložení hodnot Problém typu modelu Problém velikosti vzorku Y r = 0,891 (p < 0,214) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Y r = 0,212 (p < 0,008) i ■ ■ i s • • • • • X Modelování klinických dat l.Tvorba modelu 2.Validace modelu 3. Aplikace modelu Prediktory • Parametry ovlivňující vysvětlovanou charakteristiku pacienta • Rovnice umožňující predikci • Platnost modelu pouze v rozsahu prediktorů • Nebezpečí „přeučení" modelu • Testování modelu na známých datech • Krosvalidace • Individuální predikce stavu nenámých pacientů • Model musí být podložen korektní statistikou a rozsáhlými daty Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy regresní analýzy Regrese - funkční vztah dvou nebo více proměnných Jednorozměrná y = f(x) Deterministický Vztah x, y Vícerozměrná y = f(x1, x2, x3,......xp) Y Y Regresní, stochastický X Y X X Pro každé x existuje pravděpodobnostní rozložení y Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Regresní analýza přímky: lineární regrese a + p- X + s Y = a + b - x + e « a « a (intercept) : a = y _ b - x p- X « b - x (sklon; slope) s « e - náhodná složka : Komponenty tvořící y se sčítají s - náhodná složka modelu přímky = rezidua přímky * (*2y x) ^ rozptyl reziduí Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 1 x 1 y Základní regresní analýzy: model přímky v datech I i y ! [ [ "j" n n x Y y : • y e 1 ■ i ■ " 1" 1 n J = a + b . i —* i X Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Y y Základní regresní analýzy: model přímky v datech II x y s y x y 2 2 m • „r.*;...*.-* -----b = 0 * • • • • • . • • X Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek y y Y y e 2 e = 0 b > 0 22 X /v d C Y * x 1 rY )>---^^PC;Y] >Ý x ) dy • x = y - y Smysl proložení přímky minimalizace odchylek dy x = y - y - b (x, - X) y = y+ y + b \Xi - x ) dlx - Z [y -a - ß(x, - x)] Metoda nejmenších čtverců 1) X: Pevná, nestochastická proměnná 2) Rozložení hodnot y pro každé x je normální 3) Rozložení hodnot y pro každé x má stejný rozptyl 2 4) ...Rez.i.du .....N(0;at,) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek i. b ~ P : b = S = y-x S = y-x S = y - x mean squared deviation from regression sample standard deviation from regression Sk- - x) —\2 Sy - x n - 2 n - 2 ii. intercept 7 a s = a 1 + X2 n S x S iii. 0 , , Y : modelová hodnota 7. = a - b - X i 1 (x,. - X )2 n S X Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 2 2 X: Množství spáleného odpadu (tuny) Y: Koncentrace kovu ve vzduchu(ng/m3) Y 10 Y Y 200 X Platí: X = 0; 10; 100; 150; 200; 250; 300 tun Model: Y = a + b . X Výsledek: Y = 14 + 0,123 • X; Y — ng kov m3 Např. : Skutečná data pro X = 200 t: Yi = 16; 25; 41; 28; 31; 20 => Yi = 26.8 Y = Y + b • (x - X) Y = a + b • X } a — Y - b • X Odhadnuto z modelu pro X = 200 t: Y = 14 + 0,123 . 200 = 38,6 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek analýza v grafech I Grafy residuí modelů (příklady) y (i; x) y (i; x) y (i; x) Obecné tvary residuí modelů (schéma) Regresní analýza v grafech II y 1) Y vs. X 2) Y vs. Y x y x y V ▼ x y y y ••ví • y Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek y 4-7 T y Lineární regrese - příklad X: Koncentrace drogy: 0; 2; 6; 8; 10; 12; 15 mg/ml krve Y: Koncentrace volných metabolitů Pro každé X: 3 opakování Y Model: Y = a + b . x Y = 0,11 + 0,092 . X 4^75) = 2,093 I. H0 : P = 0;a = 0,05 b = 0,092 ; sb = 0,023 b , ™ > t =-= 4,00 P : b ± t(n_-a22 • Sb P < 0,01 P(0,044 < P < 0,140 )= 0,95 II. H0 : a = 0;a = 0,05 v a = 0,11; sa = 0,029 a t = — = 3,793 t0^9=7159) = 2,093 a : a± t(a 2\ • Sa P(0,049