I. Statistika ve vědecké praxi Pozice statistické analýzy ve vědě a klinické praxi Význam statistických výstupů Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace • Statistická analýza biologických dat je jedním z nástrojů, s jejichž pomocí se snažíme zjistit odpovědi na naše otázky týkající se pochopení živé přírody. Jako každý nástroj je i statistickou analýzu nezbytné na jedné straně korektně využívat a na druhou stranu nepřeceňovat její možnosti. • Klíčovým faktem při statistické analýze dat je nahlížení na realitu prostřednictvím vzorku a přijmutí toho, že výsledky naší analýzy jsou jen tak dobré, jak dobrý je náš vzorek. Reprezentativnost a náhodnost vzorku spolu s jeho velikostí jsou důležité faktory ovlivňující věrohodnost našich závěrů. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Výzkum, realita, statistika • Výzkum je naším způsobem porozumění realitě • Ale jak přesné a pravdivé je naše porozumění? Statistika je jedním z nástrojů vnášejících do našich výsledků určitou spolehlivost. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Naše realita je variabilní a statistika je vědou zabývající se variabilitou • Korektní analýza variabilita a její pochopení přináší užitečné informace o naší realitě • V případě deterministického světa by statistická analýza nebyla potřebná Biostatistika - různé přístupy k variabilitě /v\/ Data chyba 2.1 2.8 3.2 1,2 5,2 2.9 Včjriííljilita znaku v popude; A 165 cm 140 cm 182 cm 163 cm rozptyl znaku, přirozená variabilita 1 modelovaných dat j y • i •>* * • i x • • chyba = nepřesnost modelu i y čas fluktuace, časová proměnlivost DRUH 1 15 DRUH 2 30 DRUH 3 40 DRUH 4 14 biodiverzita Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Pojem VARIABILITA má mnoho významů......... .... a ty určují přístup k jejímu hodnocení Maskování a minimalizace vlivu Respektování a odhadování vlivu Přímé využití k predikcím chování systému Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistika - význam a definice WWW.WIKIPEDIA.ORG: Statistika je matematickou vědou zabývající se shromážděním, analýzou, interpretací, vysvětlením a prezentací dat. Může být aplikována v širokém spektru vědeckých disciplín od přírodních až po sociální vědy. Statistika je využívána i jako podklad pro rozhodování, kdy nicméně může být záměrně i nevědomky zneužita. Statistika využívá matematické modely reality k zobecnění výsledků experimentů a vzorkování. Statistika funguje korektně pouze poku d jsou splněny předpoklady jejích metod a modelů. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Co může statistika říci o naší realitě? Možnosti Realita Vzorek Data t Informace Statistika Znalost t Pochopení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistika není schopna činit závěry o jevech neobsažených v našem vzorku. Statistika je nasazena v procesu získání informací z vzorkovaných dat a je podporou v získání naší znalosti a pochopení problému. Statistika není náhradou naší inteligence !!! Cílová populace • Cílová populace -klíčový pojem statistického zpracování o Skupina objektů o nichž se chceme něco dozvědět (např. pacienti s danou diagnózou, všichni lidé nad 60 let, měření hemoglobinu v dané laboratoři) o Musí být definována ještě před zahájením sběru dat o Na cílové populaci probíhá vzorkování dat, které musí cílovou populaci dobře (reprezentativně) charakterizovat Cílová populace Klíčové faktory Design Vzorkování a Statistika a zobecnění výsledků Neznámá cílová populace Vzorek Analýza Díky zobecnění výsledků známe vlastnosti cílové populace • Cílem analýzy není pouhý popis a analýza vzorku, ale zobecnění výsledků ze vzorku na jeho cílovou populaci Pokud vzorek nereprezentuje cílovou populaci, vede zobecnění k chybným závěrům Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vzorkování a jeho význam ve statistice Statistika hovořío realitě prostřednictvím vzorku!!! o Statistické předpoklady korektního vzorkování Representativnost: struktura vzorku musí maximálně reflektovat realitu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Velikost vzorku a přesnost statistických výstupů Existuje skutečné rozložení a skutečný průměr měřené proměnné IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Z jednoho měření nezjistíme nic .Vzorek: ^ —► ????? Vzorek určité velikosti poskytuje odhad reálné hodn oty s definovanou spolehlivostí Vzorek: Odhad průměru atd. Vzorkování všech existujících objektů poskytne skutečnou hodnotu dané popisné statistiky, nicméně tento přístup je ve většině případech nereálný. Různá role statistiky při různě velkém vzorku Malá data Velká data Obrovská data uchopit Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Přístup biostatistiky Pacient Clovek aLeu aTy% aSe% aNeu% aLy% aTy aLy aHtc aCLsk aCLNeus aCLOZ aCLNeuO 7,6 0,6 4,4 b,0 1,8 0,1 2,1 2,2 1,6 6,S 5,a S,6 —m-1-30- 3,3 4,1 ata 4,0 7,2 2,2 3,8 6,4 8,b S,3 S,2 10,0 6,0 7,2 10,3 b,0 7,2 10,8 17,0 1.0 0.8 0.6 0.4 0.2 0.0 0,4 0,1 0,6 0,7 0,3 0,1 0,2 0,7 0,1 0,1 0,1 0,2 3,S 0,2 0,8 1,8 4,6 2,3 2,7 1,1 4,S b,0 1,1 b,7 6,3 2,2 b,3 6,0 3,3 7,7 8,0 0,1 4,0 4,1 0,7 6,1 6,3 2,6 8,3 S,0 0,8 b,6 8,8 3,7 3,8 i|3 í j Ji ^ b,4 13,S 7,2 I i ^ 600 I_I ljSOO I j 2^ 000 I I 2,200 I I 2,400 I I 2,600 I I 2,800 I I 3,000 I I 3,200 I I 3,400 I 1 above _ ^?jr L- 'tí) ? Ú f. Ú 0 100 200 300 400 Schopnost: vidět data - komunikovat - interpretovat - prodávat Vytvořil institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek aSe aNeu % % % % % cell.10 I cell.10 I cell.10 I cell.10 I cell.10 I mV.s.10 3 4 33 72 4 2 8 b8 66 24 33 35 8 3 4 3 b2 bb 40 22 77 11 4 6,1 b 5S 64 3b 0,3 3,6 3,y 2,1 33 103 12 b 37 81 14 6 32 137 bb 0 16 7 8 18 7b 7,4 0,6 34 1b1 20 8 3 72 40 77 21 6 10 67 1,1 32 120 22 10 3,3 bb 2,0 ,3 28 81 37 11 10 60 70 30 32 111 38 12 2 76 78 17 2b 366 3S 13 6,8 b7 b8 3y 0,1 3,y 3,y 2,7 20 234 4S 14 7 67 74 26 30 1b6 b1 1b 7 b7 64 3b 3b 12S b2 16 2,2 10 b6 66 34 0,2 1,2 1,b 0,7 33 46 bb 17 3 78 81 10 30 18S b6 18 b 2 80 82 13 26 101 6 8,8 11 72 83 12 1,0 6,3 7,3 1,1 44 268 y 2 2 66 68 28 42 168 13 3 7 83 S0 8 b4 181 1b 4 S,6 7b 76 23 0,1 7,2 17 b 1S 6 2 78 80 18 24 7 8,2 72 73 2b 0,1 b,S 26 8 8b 86 3 2S S 74 7b 21 30 10 11,S b1 b2 47 0,1 6,1 31 11 3 b3 b6 2S 32 12 36 b0 76 8 33 13 11,8 22 b4 76 16 2,6 6,4 34 14 82 83 16 40 1b 8 72 80 4 Experimentální design: nezbytná výbava biologa Účel analýzy: Popisný cílová populace <.................. výběr dle optimálního plánu reprezentativní vzorek n jedinců (faktor F) ••O měření znaku OO00OOO0O0 *variabilita "hodnot* ve výběrovém souboru VÝSLEDKY .................... Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek a: >LU > N Reprezentativnost Spolehlivost Přesnost 4) oOO ... analyzovaný znak cílové populace (X) ••O ... jiný významný faktor charakterizující cílovou populaci (F) Experimentální design: nezbytná výbava biologa Účel analýzy: Srovnávací (2 ramena) cílová populace v\ /17 výběr subjektů pro vstup do hodnocení / studie -Y- RANDOMIZACE vzájemně srovnatelné vzorky (faktor F) rameno A měření znaku X rameno B OooOO 0O0O0 <.........................................► <.........................................\ variabilita hodnot X variabilita hodnot X v rameni A v rameni B VÝSLEDKY................................ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek x A n e m a r z o r r e m a r 4) oOO ... analyzovaný znak cílové populace (X) ••O ... jiný významný faktor charakterizující cílovou populaci (F) ■ Srovnatelnost Spolehlivost Přesnost Praktická a statistická významnost • • Samotná statistická významnost nemá žádný reálný význam, je pouze měřítkem náhodnosti hodnoceného jevu Pro vyhodnocení reálné významnosti je nezbytné znát i reálně významné hodnoty Praktická významnost ANO NE Statistická významnost ANO OK, praktická i statistická významnost je ve shodě, jednoznačný závěr Významný výsledek je statistický artefakt velkého vzorku, prakticky nevyužitelné NE Výsledek může být pouhá náhoda, neprůkazný výsledek OK, praktická i statistická významnost je ve shodě, jednoznačný závěr Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Obecné schéma využití statistické analýzy Experimentální design Jak velký vzorek je nezbytný pro statisticky relevantní výsledky? Klíčová stratifikační kritéria cílové populace. Vzorkovací plán zabezpečující náhodnost a reprezentativnost vzorku. Uložení dat ve vhodné formě a jejich vyčištění předcházející vlastní analýze je klíčovým krokem statistické analýzy. Grafická inspekce dat je nezbytným krokem analýzy vzhledem ke schopnosti lidského mozku primárně akceptovat obrazová data. Poskytne vhled do dat, představu o jejich rozložení, vazbách proměnných apod. Popisná analýza umožňuje vyhodnotit srovnáním s existující literaturou realističnost naměřených rozsahů dat. Testování vazeb mezi různými proměnnými s cílem navzájem vysvětlit jejich variabilitu a tím přispět k pochopení řešeného problému. Vzorkování Uložení a management dat Vizualizace dat Popisná analýza Testování hypotéz Modelování Možným vyvrcholením analýzy je využití získaných znalostí a pochopení problému k vytvoření prediktivních modelů. m m Vytvořil Institut biostatistiky a analýz, Masarykova univerzita jjj^ J. Jarkovský, L. Dušek Stochastické modelování: predikce neurčitých jevů Prospektivně - modelově - postihuje chování jevu při respektování variability Pravděpodobnostní vztahy Anamnéza x Výsledek vyšetření pacienta Karcinom Benigní léze Benigní riziková Zdravá Pozitivní anamnéza 2,22 34,44 0,00 63,33 100% Negativní anamnéza 1,06 28,23 0,96 69,75 100% p < 0.05 Vícerozměrná diskriminace Znak Xi -,o6 * O w , ;' O 6 O cQ}\ Znak X2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Stochastické modelování: predikce neurčitých jevů n O ^ »fl) o. 1,0 0,8 0,6 0,4 0,2 0,0 ^ -4,0 -2,0 0,0 2,0 1,0 0,8 0,6 0,4 0,2 4,0 0,0 Age = 55 years 0 10 20 30 40 50 60 70 80 Osa X Parametr nebo kombinace parametrů Data konkrétních pacientů (subjektů) k přímému hodnocení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Stochastické modelování: predikce neurčitých Stádium I - II Stádium III - IV 1.0 1.0 % Grade = 2 O Grade = 1 0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Inde x Mitosis / (Apoptosis + 0.5) Schopnost: vytvářet prakticky využitelné nástroje Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek jevů Maligní lymfomy: Pravděpodobnost časného relapsu Klíčový význam korektního uložení získaných dat Pravidla pro ukládání dat Čištění dat před analýzou Vytvořil Institut biostatistiky a analýz, Masarykova univerzita , _ ^ J. Jarkovský, L. Dušek IBA Anotace • Současná statistická analýza se neobejde bez zpracování dat pomocí statistických software. Předpokladem úspěchu je správné uložení dat ve formě „databázové" tabulky umožňující jejich zpracování v libovolné aplikaci. • Neméně důležité je věnovat pozornost čištění dat předcházející vlastní analýze. Každá chyba, která vznikne nebo není nalezeno ve fázi přípravy dat se promítne do všech dalších kroků a m ů že zapříčinit neplatnost výsledků a nutnost opakování analýzy. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek DATA - ukázka uspořádání datového souboru Parametry (znaky) Pacient Clovek aLeu aTy% aSe% aNeu% aLy% aTy aSe aNeu aLy aHtc aCLsk aCLNeus aCLOZ aCLNeuO cell.10G/ % % % % cell.10G/ cell.10G/ cell.10G/ cell.10G/ % mV.s.10S mV.s.10S mV.s.10S mV.s.10S S 1 4 SS ľ2 S2 4 2 ľ,G B 5B GG 24 0,G 4,4 5,0 1,B SS 95 19 4B 10 B S 4 S 52 55 40 0,1 2,1 2,2 1,G 22 ľľ S5 SS 15 11 4 G,1 5 59 G4 S5 0,S S,G S,9 2,1 SS 10S 2G 49 1S 12 5 G,9 S B5 BB 9 0,2 5,9 G,1 0,G Sľ B1 1S 45 ľ 14 G 5,9 15 55 ľ0 19 0,9 S,S 4,1 1,1 S2 1Sľ SS G1 15 1G ľ B 1B ľ5 9S ľ 1,4 G,0 ľ,4 0,G S4 151 20 59 B 20 B 9,G S ľ2 ľ5 2S 0,S G,9 ľ,2 2,2 40 ľľ 11 SB 5 21 9 G 10 Gľ ľľ 19 0,G 4,0 4,G 1,1 S2 120 2G 52 11 22 10 S,S 4 55 59 S9 0,1 1,B 2,0 1,S 2B B1 42 24 12 Sľ 11 S,B 10 G0 ľ0 S0 0,4 2,S 2,ľ 1,1 S2 111 42 29 11 SB 12 G,4 2 ľG ľB 1ľ 0,1 4,9 5,0 1,1 25 SGG ľS 115 2S S9 1S G,B 1 5ľ 5B S9 0,1 S,9 S,9 2,ľ 20 2S4 59 ľ1 1B 49 14 B,5 ľ Gľ ľ4 2G 0,G 5,ľ G,S 2,2 S0 15G 25 10B 1ľ 51 15 9,S ľ 5ľ G4 S5 0,ľ 5,S G,0 S,S S5 129 21 2S 4 52 1G 2,2 10 5G GG S4 0,2 1,2 1,5 0,ľ SS 4G S0 12 B 55 1ľ 9,9 S ľB B1 10 0,S ľ,ľ B,0 0,1 S0 1B9 24 140 1B 5G 1B 5 2 B0 B2 1S 0,1 4,0 4,1 0,ľ 2G 101 25 54 1S G 1 B,B 11 ľ2 BS 12 1,0 G,S ľ,S 1,1 44 2GB SG,G 145 19,9 9 2 9,2 2 GG GB 2B 0,2 G,1 G,S 2,G 42 1GB 2G,9 ľG 12,2 1S S 10,0 ľ BS 90 B 0,ľ B,S 9,0 0,B 54 1B1 20,1 B1 9 15 4 9,G 1 ľ5 ľG 2S 0,1 ľ,2 ľ,S 2,2 45 S4S 4ľ 124 1G,9 1ľ 5 G,0 45 40 21 19 G ľ,2 2 ľB B0 1B 0,1 5,G 5,B 1,S 44 10S 1ľ,B GS 10,9 24 ľ B,2 1 ľ2 ľS 25 0,1 5,9 G,0 2,1 41 209 S4,9 5ľ 9,G 2G B 10,S 1 B5 BG S 0,1 B,B B,9 0,S 41 SG4 41,1 112 12,G 29 9 5,0 1 ľ4 ľ5 21 0,1 S,ľ S,B 1,1 S9 BS 22,1 S2 B,5 S0 10 11,9 1 51 52 4ľ 0,1 G,1 G,2 5,G SS BS 1S,4 52 B,4 S1 11 ľ,2 S 5S 5G 29 0,2 S,B 4,0 2,1 2B 109 2ľ,1 GS 15,5 S2 12 10,B SG 50 ľG B S,9 5,4 9,S 0,9 2ľ 14G 15,ľ 10G 11,4 SS 1S 11,B 22 54 ľG 1G 2,G G,4 9,0 1,9 45 24G 2ľ,4 GS ľ S4 14 1ľ,0 1 B2 BS 1G 0,2 1S,9 14,1 2,ľ S4 440 S1,2 119 B,4 40 15 10,0 B ľ2 B0 4 0,B ľ,2 B,0 0,4 Sľ 1ľG 22,0 52 G,5 Vytvořil Institut biostatistiky a analýz, M J. Jarkovský, L. Dušek asarykova univerzita • Správné a přehledné uložení dat je základem jejich pozdější analýzy • Je vhodné rozmyslet si předem jak budou data ukládána • Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě • Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky o Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce o Každý řádek obsahuje minimální jednotku dat (např. pacient, jedna návštěva pacienta apod.) o Je nepřípustné kombinovat v jednom sloupci číselné a textové hodnoty o Komentáře jsou uloženy v samostatných sloupcích o U textových dat nezbytné kontrolovat překlepy v názvech kategorií o Specifickým typem dat jsou datumy u nichž je nezbytné kontrolovat, zda jsou datumy uloženy v korektním formátu • Takto uspořádaná data je v tabulkových nebo databázových programech možné převést na libovolnou výstupní tabulku • Pro základní uložení a čištění dat menšího rozsahu je možné využít aplikací MS Office YL Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek IBA • MS Excel a Kontingenční tabulky - rychlá sumarizace rozsáhlých tabulek a Možnost výpočtů a grafových výstupů přímo v aplikaci a Visual Basic -složitější aplikace - Omezení tabulky na 256x65536 buněk (do verze 2003) - Omezená kontrola chyb při zadávání • MS Access a Plnohodnotná databáze vhodná pro velké množství dat, řádky omezeny v podstatě jen dostupnou pamětí b Kontrola typu dat a Relace tabulek - omezení velikosti souboru a Visual Basic a formuláře - složitější aplikace - Omezení tabulky na 255 sloupců - Výpočty a grafy jsou složitější než v Excelu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Správa a práce s tabulárními daty Řazení dat, výběry z dat, přehledy dat Formátování a přehledné zobrazení dat Zobrazení dat ve formě grafů Různé druhy výpočtů pomocí zabudovaných funkcí Tvorba tiskových sestav Makra - zautomatizování častých činností Tvorba aplikací (Visual Basic for Aplications) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Import a export dat • Import dat o Manuální zadávání o import - podpora importu ze starších verzí Excelu, textových souborů, databází apod. o kopírování přes schránku Windows - vkládání z nejrůznějších aplikací - MS Office, Statistica atd. o využití textových souborů jako kompatibilního formátu pro přenos dat mezi různými aplikacemi • Export dat o Ukládáním souborů ve formátech podporovaných jinými SW, časté jsou textové soubory, dbf soubory nebo starší verze Excelu o Přímé kopírování přes schránku Windows Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Tipy a triky • Výběr buněk o CTRL+A -výběr celého listu o CTRL + klepnutí myší do buňky -výběr jednotlivých buněk o SHIFT + klepnutí myší na jinou buňku - výběr bloku buněk o SHIFT + šipky - výběr sousedních buněk ve směru šipky o SHIFT+CTRL+END (HOME) - výběr do konce (začátku) oblasti dat v listu o SHIFT+CTRL+šipky - výběr souvislého řádku nebo sloupce buněk o SHIFT + klepnutí na objekty - výběr více objektů • Kopírování a vkládání o CTRL+C - zkopírování označené oblasti buněk o CTRL+V - vložení obsahu schránky - oblast buněk, objekt, data z jiné aplikace • Myš a okraje buňky o Chycení myší za okraj umožňuje přesun buňky nebo bloku buněk o Při chycení čtverečku v pravém dolním rohu výběru je tažením možno vyplnit více buněk hodnotami původní buňky (ve vzorcích se mění relativní odkazy, je také možné vyplnění hodnotami ze seznamu -např. po sobě jsoucí názvy měsíců. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Databázová struktura dat v Excelu Sloupce tabulky = parametry záznamů, hlavička udává obsah sloupce - stejný údaj v celém sloupci Jednotlivé záznamy .—\ (taxon, lokalita atd.) J^""^ \3 Formát Nástroje Data Okno Nápověda Nápověda - zadejte ( * ífe a - -n . | % x . m ii a # 100% . A B C D E F G H 1 Číslo Značka Společ Pohlaví Délka Váha P. anguillae 2 1 1 1 m 27,5 23,0 2 2 3 2 2 2 34,0 62,5 0 2 4 3 5 3 58,0 230,0 0 0 5 4 6 4 42,0 155,0 0 0 6 5 , 7 5 44,0 149,8 0 0 7 6 8 6 56,0 323,0 0 1 8 7 9 7 m 48,5 178,2 0 0 9 8 10 8 30,5 47,7 4 6 10 9 11 9 47,0 175,9 5 14 11 10 12 10 40,0 85,1 5 9 12 11 14 11 40,0 101,0 0 0 13 12 15 12 31,0 84,0 15 9 14 13 18 13 f? 22,0 9,0 0 0 15 14 17 14 42,0 108,0 1 3 16 15 18 15 44,0 130,0 0 0 17 16 19 16 37,0 85,0 2 5 18 17 20 17 50,0 212,0 1 8 H 4 ► N|\data / společenstva / List? / ListlO / List 12 / ListlJ /Lblll Připraven Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Automatický zadávací formulář • Slouží k usnadnění zadávání dat do databázových tabulek • Načítá automaticky hlavičky sloupců jako zadávané položky Nový záznam Názvy sloupců Obsah dané buňky - editovatelný Vyhledávání Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Vytváříse z hodnot buněk v daném sloupci a umožňují vložit hodnotu výběrem ze seznamu již zadaných hodnot - usnadnění zadávání Taxon Sloupec z nějž je seznam vytvořen a pro který platí Abundance Lokalita Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek etc. Buňka, do níž se vloží vybraná hodnota • Umožňuje ověřit typ, rozsah nebo povolit pouze určitý seznam hodnot zadávaných do sloupce databázové tabulky komunikace s uživatelem /> <\ Co je povoleno - definiční obory čísel, seznamy, vzorce atd. Rozsahy hodnot, načtení seznamů apod. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Skupiny hodnot zachovávající logické pořadí, některé jsou zabudované (např. dny v týdnu, měsíce v roce), další je možné uživatelsky vytvořit, slouží pro účely řazení a automatického vyplňování dat Existující seznamy Výběr buněk pro nový seznam Načtení nového seznamu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Řazení dat je nejjednodušším způsobem jejich zpřehlednění, užitečným hlavně u menších/výsledkových tabulek t » \ Zkontrolujte, zda seřazení nezničívazby mezi buňkami = kontrola oblasti, kterou řadíte. Podle čeho řadit Další možnosti - řazení řádků, řazení podle seznamu Směr řazení - vzestupně, sestupně Využít první řádek oblasti jako záhlaví Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Pomocí automatického filtru je snadné vybírat úseky dat pro další zpracování na základě hodnot ve sloupcích databázové tabulky, výběr je možný i podle více sloupců (např. určitá skupina pacientů) Funkce automaticky rozezná hlavičky sloupců v souvislé oblasti buněk • U sloupců použitých pro filtraci jsou rozbalovací seznamy zbarveny modře Výhodné pro čištění dat (vyhledávání překlepů, kombinace textu a čísel) • • Výběr hodnot pro filtraci Rozbalení seznamu hodnot nalezených ve sloupci Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Typy grafické vizualizace Rizika desinterpretace grafického zobrazení dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita , _ ^ J. Jarkovský, L. Dušek IBA Anotace • Prvním krokem v analýze dat je jejich vizualizace. Různé typy dat nám umožňující získání představy o rozložení dat, zastoupení kategorií i vztazích proměnných navzájem. Prostřednictvím vizualizace získáváme vhled do dat a začínáme vytvářet hypotézy o zákonitostech panujících mezi proměnnými v hodnoceném souboru dat. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 1. Výskyt kategorií (1, 2, 3,) Koláčový (výsečový) graf Sloupcový graf □ Řada2 Sloupcový graf □ Řada2 ty o p 40 20 % D 100 50 n 2. Vývoj hodnot (v čase) Y vs. X (t) Řada 30 Y 15 Spojnicový graf 1 2 3 10 20 X Bodový graf Řada Y 30 15 Y 30 15 0 5 10 15 20 25 X Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 40% 30% 30% 1 □ 2 □ 3 1 40% 2 D3 30%] Plošný graf □ Řada2 2 3 10 20 X 0 0 1 2 3 1 2 3 0 0 0 1 3. Vztahy mezi proměnnými - korelace X1 X1 Bodový - korelační diagram Řada2 X1 1 2 3 10 20 X2 Řada2 X1 1 2 3 10 20 X2 Řada2 0 5 10 15 20 25 X2 Řada2 •I J X2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Bodový - korelační diagram .■irilhl 0 0 8 o*" „ 0 0*0*8° * QD »' 0 ^ 0 "q 00 0 0 0 0 o) 00 0 0 % liJjL 0 o 0 o ° 0 o <*> 0 u □ 0 ° 0 0° ° 0 ° o ° 00 »°° "o" » o u ,«" ° »00 L °°o 0 iiIiiIm 0 o °o o o ° ' * 0^° 0 0° 0 0 „ 0 0 On 0 °o - 0 o » o ■ilk.. 0 0°* ° 00j » ■> 0 D 0 0 0 0 0 °o o o 0 8 o „ o° » o ° ° ° ° 0 0 „ o0o □P 0 °° °o llh-i... 30 30 15 15 0 0 30 30 15 15 0 0 2 3 10 20 Grafická prezentace dat - umění komunikace 4. Kvantitativní hodnoty parametru(ů) - X - v rámci kategorií A, B, C i >*■— „vše je možné": pouze jev s pravděpodobností 0 nikdy nenastane <{> pravděpodobnost lze zkoumat retrospektivně i prospektivně pravděpodobnost výskytu ▲ plocha = pravděpodobnost výskytu + 0 1 2 3 4 5 x počet chlapců v rodině s X dětmi x výška postavy Vytvořil Institut biostatistiky a analýz, Masaryko a univerzita J. Jarkovský, L. Dušek V. Základní typy dat Spojitá a kategoriální data Základní pop isné statistiky Grafický popis dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace • Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod - od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené. • Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací -histogramů. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? -ruzne typy dat znamenají různou informaci Data poměrová Data intervalová O kolik ? Data ordinální Data nominální Spojitá data Kategoriální otázky Diskrétní data Otázky „Ano/Ne" Podíl hodnot větší/menši než specifikovaná hodnota ? Procenta odvozené hodnoty Samotná znalost typu dat ale na dosažení informace nestačí............. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jak vznikají informace ? -různé typy dat znamenaj í různou informaci Statistika středu Data poměrová PRŮMĚR 1 Spoji data Y = f Data intervalová Data ordinální MEDIÁN X Data nominální MODUS Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Y: frekvence absolutní / relativní y B 1 y ■ IIP IIP IIP ■ ■ ■ ■ P I II III IV V x A** X: měřený znak Diskrétní data Spojitá data Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Odvozená data: Pozor na odvozené indexy Příklad I: Příklad II: Znak X: Hmotnost Znak Y: Plocha X: Průměrný počet výrobků v prodejně Y: Odhad prostoru průměrně nabízeného k vystavení výrobku průměr : (min - max) X: 1,2 : (1,1b - 1,24) Y: 1,8 : (1,7b - 1,84) + i - 3,8 % + I - 2,5 % XIY = 0,667 : (JL15 V 1,84 1J24) 1,75/ + I - 6,2 % Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená Vytvořil Institut biostatistiky a analýz, Masaryko 'a univerzita J. Jarkovský, L. Dušek II 8 Q. "O O .N O CL DISKRÉTNÍ DATA Primární data o 0 1 2 i i S i 1 2 n = ioo Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Frekvenční sumarizace N: 100 dětí (hemofiliků) x: znak: počet krvácivých epizod za měsíc x n(x) p(x) N(x) F(x) 0 20 0,2 20 0,2 1 10 0,1 30 0,3 2 30 0,3 60 0,6 3 40 0,4 100 1,0 n(x) - absolutní četnost x p(x) - relativní četnost; p(x) = n(x) / n N(x) - kumulativní četnost hodnot n epřevyšujících x N(x) = 2 n(t) t t x F(x) - kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n n(x) 0 12 3 x p(x) 0 12 3 x N(x) 0123 x F(x) 0 12 3 x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek SPOJITÁ DATA Příklad: x: koncentrace látky v krvi n = 100 pacientů O co O II Q. Primární data 1,21 1,48 1,56 0,31 1,21 1,33 0,33 Frekvenční sumarizace n = 100 opakovaných měření (100 pacientů) x: koncentrace sledované látky v krvi (20 - 100 jednotek) interv ) n(l) n(l)/n N(x'') F(x'') <20, 40) 20 20 0,2 20 0,2 <40, 60) 20 l0 0,1 B0 0,B <60, 80) 20 40 0,4 70 0,7 <80, 100) 20 B0 0,B 100 1,0 n = 100 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek d(l) - šířka intervalu n(l) - absolutní četnost n(l) / n - intervalová relativní četnost N(x'') - interval ová kumu lativní četnost do horní hranice X'1 F(x'') - intervalová relativní ku mulativn í četnost do horní hranice X'' Histogram Výběrová distribuční funkce Plocha: n(l) / n 0.025 0.020 0.015 0.010 0.005 0.000 -f 1-\ 20 40 60 80 100 x 0 20 40 60 80 100 x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 1 Počet zvolených tříd a velikost souboru určují kvalitu výstupu 5 H 4 3 2 1 0 k = 10 tříd ■ 8 7 6 5 4 3 2 1 0 k = 5 tříd 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 2 3 4 5 5 4 3 2 1 0 J k = 20 tříd 1,0 2,0 3,0 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 4,0 5,0 1 Histogram vyjadřuje tvar výběrového rozložení f(x) f(x) i i n I I I I x I_I x f(x) _llllllllllllll I f(x) I llllllllllllll I f(x) 1_ x 1 11 —1 ■1 — 11 r" ■ x JIH x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad: věk účastníků vážných dopravních nehod 3 > O O i- O Q. 350 300 250 200 150 100 50 0 0 35 i 30 25 20 15 H 10 5 0 0 Správný histogram ? td 1020 30 40 50 Věk (roky) 60 70 80 Správný histogram ? Věk 0 -4 5 -9 10 -15 16 -19 20 -24 25 - 59 > 60 10 20 30 40 50 60 70 80 Věk (roky) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek f 28 46 58 20 114 316 103 9(x) L 0 F(x) u 0 Rozložení x Distribuční funkce x Je - li dána distribuč ní funkce, je dáno rozložení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek f(x) f(x) x ■ x lllllllllllllllllllllllllll I_L x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 66) ? Z x - // g 9 P (x > 66 )= 1 - P (x < 66) a platí, že P (X < x) = F (x ) tedy P(x > 66) = 1 - P(x < 66) = 1 - P(< 66-60) = 1 - f(0,6) = 0,27425 s 10 Kolik kostí mělo zřejmě délku větší než 66 cm ? p(x>66)*n=0,27425*2000=548 Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ? P(60 < x < 66)= P 60 - 60 < Z < 66 -60 F .10 10 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek (0,6)-F(0)= 0,22575 ||^ 22,6% kostí leží v rozsahu 60-66cm Stručný přehled modelových rozložení I. Rozložení Parametry Stručný popis Normální Průměr Rozptyl (ct2) Symetrická funkce popisující intervalovou hustotu četnosti; nej pravděpodobnějš í jsou průměrné hodnoty znaku v populaci. Log-normální Medián Geometrický průměr Rozptyl (ct2) Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení. Weibullovo a - parametr tvaru P - parametr rozsahu hodnot Změnou parametru a lze modelovat distribuci doby přežití, např. stresovaného organismu. Rozložení využívané i jako model k odhahu LC50 nebo EC50 u testů toxicity. Rovnoměrné Medián Geometrický průměr Rozptyl (ct2) Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení. Triangulární f(x) = [b - ABS (x - a)] / b2 a - b < x < a + b Pravděpodobnostní funkce pro typ rozložení, kdy jsou střední hodnoty výrazně pravděpodobnější než hodnoty okrajové. Gamma Parametry distribuční funkce: a - parametr tvaru P - parametr rozsahu hodnot Umožňuje flexibilně modelován í distribučních funkcí nejrůznějších tvarů. N apř. x2 rozložení je rozložení typu Gamma. Gamma rozložení s a = 1 je známo jako exponenciální rozložení. .. . J. Jarkovský, L. Dušek Stručný přehled modelových rozložení II. Rozložení Parametry Stručnýpopis Beta Parametry distribuční funkce: a - parametr tvaru P - parametr rozsahu hodnot Pravděpodobnostní funkce pro proměnnou omezenou rozsahem do inte rvalu [0; 1]. Je matematicky komplikovanější, ale velmi flexibilní při popisu změn hodnot proměnné v ohraničeném intervalu. Studentovo Stupně volnosti -uvažuje velikost vzorku Průměr Rozptyl Simuluje normální rozložení pro menší vzorky čísel. Pro větší soubory (n > 100) se limitně blíží k normálnímu rozložení. Pearsonovo Stupně volnosti -uvažuje velikost vzorku Slouží především k porovnání četností jevů ve dvou a více kategoriích. Používá se k modelování rozložení odhadu rozptylu normálně rozložených dat. Fisher-Snedecorovo Dvojí stupně volnosti -uvažuje velikost dvou vzorků Používá se k testování hodnot průměrů -F test pro porovnání dvou výběrových rozptylů; F test, ANOVA atd. m Vytvořil Institut biostatistiky a analýz, Masarykova univerzita jjj^ J. Jarkovský, L. Dušek Medián Průměr x U asymetrických rozložení je medián velmi vhodným alternativním ukazatelem středu Medián - frekvenční střed • • • x Průměr - těžiště osy x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Medián Průměr EXP (Y) = Geometrický průměr X Medián = Průměr — Y = y — i= 1 n Y ± Standardní chyba Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu _ogaritmická transformace Logaritmická transformace je velmi vhodná pro data s odlehlými hodnotami na horní hranici rozsahu. Při porovnání průměrů u více souborů dat je pro tuto transformaci indikující situace, kdy se s rostoucím průměrem mění p roporcionálně i směrodatná odchylka, a tedy jednotlivé proměnné mají stejný koeficient v ariance, ačkoli mají různý průměr. Za takovéto situace přináší logaritmická transformace nejen zeslabení asymetrie původního rozložení, ale ta ké vyšší homogenitu rozptylu proměnných. Pro transformaci se nejčastěji používá přirozený logar itmus a pokud jsou v původním souboru dat nulové hodnoty, je vhodné použít operaci Y = ln (X+1). Je-li průměr logaritmovaných dat (tedy průměrný logaritmus) zpětně transformován do původních hodnot, výsledkem není aritmetický, ale geometr ický průměr původních dat. MU IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Transformace dat - legitimní úprava rozložení Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu Odmocninová transformace Transformace je vhodná pro proměnné mající Poissonovo rozložení, tedy proměnné vyjadřující celkový počet nastání určitého jevu (spíše vzácného) v n nezávisle opakovaných poku sech. Obecněji lze tento typ transformace doporučit v případě normalizace dat typu počtu jedinců (buněk, apod.). Jde o transformaci: Y = Vx nebo Y = Vx + 1 nebo Y= Vx +V x+1 Transformace s přičtenou hodnotou 1 jsou efektivní, pokud X nabývá velmi malých nebo nulových hodnot. Situace indikující vhodnost odmocninov é transformace je také proporcionalita výběrového rozptylu a průměru, tedy obecn ě jestliže s2x = k (výběrový průměr). Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Transformace dat - legitimní úprava rozložení Arcsin transformace Tzv. úhlová transformace - velmi vhodná pro data typu podílů výskytu určitého jevu (znaku) mezi n hodnocenými jedine i - tedy pro data mající binomické rozložení. Pokud se určitý znak vyskytuje r-krát mezi n možnostmi (jedinci, opakováními), pak lze vyjádřit relativní četnost jeho výskytu jako p = r/n s variabilitou p.(1-p)/n. Arcsin transformace odstraní ze so uborů dat podíly blízké 0 nebo 1, a tak efektivně sníží variabilitu odhadů středu. Transformace vš ak není schopná odstranit variabilitu vyvolanou rozdílným počtem opakování v jednotlivých variantách - v takovém případě lze doporučit provedení vážených transformací dat. Velmi častou formou této transformace je: ,— Y = arcsin ^p - tedy transformace podílů do hodnot, jejichž sinus je roven druhé odmocnině původních hodnot. Pokud celkový poč et jedinců (opakování), mezi kterými je výskyt znaku monitorován, je n < 50, pak lze doporučit velmi efektivní empirická opatření pro transformaci podílů blízkých 0 nebo 1. Pro tento případ lze nahrazovat nulové podíly hodnotou 1/4n a 100 % podíly hodnotou (n-1/4)/n. Pokud se mezi hodnotami vyskytuje větší množství krajních hodnot (menší než 0,2 a větší než 0,8), lze doporučit x . x +1 arcsin J-+ arcsin - \n+1 \n+1 transformaci: 1 Y 2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek VII. Popisná statistika dat Popisné statistiky dat Vizualizace dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek IBA Anotace • Popisná analýza dat je po vizualizaci dat dalším krokem v procesu statistického hodnocení. Poskytuje představu o rozsazích hodnocených dat a umožňuje vyhodnotit, srovnámís literárními údaji nebo dosavadní zkušeností, jejich realističnost. • Již při výběru vhodné popisné statistiky se uplatňuje znalost rozložení dat. Některé popisné statistiky, odvozené od modelových rozložení, je možné využít pouze v případě, že data mají dané modelové rozložení. Typickým příkladem je průměr a směrodatná odchylka, jejichž předpokladem je přítomnost normálního rozložení. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Typy proměnných • Kvalitativní/kategorická o binární - ano/ne o nominální - A,B,C ...několik kategorií o ordinální-1<2<3 ..několik kategorií a můžeme se ptát, která je VětSI • Kvantitativní o nespojitá - čísla, která vSak nemohou nabývat vSech hodnot (např. počet porodů) o spojitá - teoreticky jsou možné vSechny hodnoty (např. krevní tlak) IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Řada dat a její vlastnosti IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kategorie Četnost B S C B D 1 Kvalitativní data Tabulka s četností jednotlivých kategorií. Kvantitativní data Četnost hodnot rozl ožení v jednotlivých intervalech. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametry • Soubor dat (řada čísel) můžeme charakterizovat parametry jeho rozložení • Hlavní skupiny těchto parametrů můžeme charakterizovat jako ukazatele: o Středu (medián, průměr, geometrický průměr) o Šířky rozložení (rozsah hodnot, rozptyl, směrodatná odchylka) o Tvaru rozložení (skewness, kurtosis) o Kvantily rozložení - kolik % řady dat leží nad a pod kvantilem YL Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek IBA Populace a vzorek • Populace představuje veškeré možné objekty vzorkování, např. veškeré obyvatelstvo ČR při sledování na úrovni ČR, z populace získáme reálné parametry rozložení • Z populace je prováděno vzorkování za účelem získání reprezentativního vzorku (sample) populace, toto vzorkování by mělo být náhodné, důležitá je také velikost vzorku, ze vzorku získáme odhady parametrů rozložení í i i Populace Sample Průměr, SD atd. Odhad průměru, SD YL IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Průměr -vhodný ukazatel středu u normálního/symetrického rozložení, kde Xj jsou jednotlivé hodnoty a n jejich počet E (x) = x = V — n i=1 • Medián - jde vlastně o 50% kvantil, tj. polovina hodnot leží nad a polovina pod mediánem • V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele středu rozložení II. • Geometrický průměr - antilogaritmus průměru logaritmovaných dat, je vhodný pro doleva asymetrická data (lognormální rozložení), která jsou v biologii velmi častá, jeho hodnota v podstatě odpovídá mediánu • Takto asymetrická data je možné převést logaritmickou transformací na normální rozložení log Průměr (logaritmovaných dat) t Průměr Medián, geometrický průměr t Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Ukazatele šířky rozložení • • • • Rozptyl je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru. 2 Y (xi -x)2 2 S = n-1 Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení Směrodatná odchylka je druhá odmocnina z rozptylu Koeficient variance - podíl SD ku průměru (u normálního rozložení by se 95% hodnot mělo vejít do průměr 4-3 SD), pokud je SD větší než 1/3 průměru jsou teoreticky pravděpodobné záporné hodnoty v rozložení - ukazatel problémů s normalitou dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • • Skewness - ukazatel „šikmosti" rozložení, asymetrie rozložení Kurtosis- ukazatel „špičatosti/plochosti" rozložení skewness>0 skewness<0 kurtosis<0 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek kurtosis>0 Další parametry rozložení • w Počet hodnot - důležitý ukazatel, znamená jak moc lze na data spoléhat • Střední chyba odhadu průměru - je založena na směrodatné odchylce rozloženia počtu hodnot, vlastně jde o směrodatnou odchylku rozložení průměru. Říká jak přesný je náš výpočet průměru. Čím větší počet hodnot rozloženi, tím je náš odhad skutečného průměru přesnější. Suma hodnot Modus -nejčastější hodnota, vhodný např. při kategoriálních datech Minimum, maximum Rozsah hodnot Harmonický průměr - převrácená hodnota průměru převrácených hodnot (vždy platí harmonický průměr < geometrický průměr < aritmetický průměr) ML IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Bodové a intervalové odhady Význam intervalu spolehlivosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek IBA Anotace • Dva základní přístupy statistického hodnocení jsou popis dat a testování hypotéz. Při popisu dat je třeba si uvědomit, že popisné statistiky získané ze vzorku nejsou skutečnou hodnotou v cílové populaci, ale pouze jejím odhadem. Přesnost odhadu závisí jednak na variabilitě dat, jednak na velikosti vzorku, při navzorkování celé cílové populace by výsledná popisná statistika již byla přesnou hodnotou, nikoliv odhadem. • Odhady a s nimy související intervaly spolehlivosti jsou univerzálním statistickým postupem a je možné je dopočítat k libovolné popisné statistice. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistika v průzkumném studiu INTERVAL SPOLEHLIVOSTI velmi užitečná míra věrohodnosti odhadů ODHADY Bodové Číslo (chyba) (Odhad parametru) Intervalové Interval pravděpodobných hodnot Spolehlivost (Pravděpodobnostní interpretace) Obecný tvar: Odhadovaný parametr P (L < Odhad < L2) t 1 - a/2 Kvantil ± modelového x SE (odhadu) rozložení KV pro (1 - a/2) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Cílová populace 0,95 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Interval spolehlivosti a) pro g2 : b) pro g : (n -1) 2 (n-1) X «/2 2 x2 (1-a 2) (n-1) (n-1) 2 (n-1) (n-1) ŕ (1-a 2) (n-1) c) pro G/Vň : (n-1) 2 (n-1) nx a/ŕ ' (n-1) 2 (n-1) nx (1-*l2 y } -směrodatná odchylka odhadu průměru (S.E .) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Interval spolehlivosti pro odhad rozptylu: příklad Příklad: měření produkce metabolitu (x) u buněk dvou nádorových linií Linie 1 n = 50 s2(x) = 10 (mg/ml)2 s(x) = 3,16 mg/ml x = 2 mg/ml sx = 0,447 mg/ml 95% IS 49 * 77,22 10 závěr testu Interpretace výsledků Cílová populace Závěr ? Interpretace ^> ^ Reprezentativnost ? ^ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Testy hypotéz Měření parametrů Nulová hypotéza HO HO: sledovaný efekt je nulový Alternativní hypotéza HA sledovaný efekt je různý mezi skupinami Testová statistika Testová statistika = Pozorovaná hodnota - Očekávaná hodnota Variabilita dat *\ Velikost vzorku Kritický obor testové statistiky 0 T Statistické testování odpovídá na otázku zda je pozorovaný rozdíl náhodný či nikoliv. K odpovědi na otázku je využit statistický model -testová statistika. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Co znamená náhodný rozdíl? Mnohokrát Rozložení možných náhodných rozdílů Je tu rozdíl? Jak by vypadal., rozdíl, kdyby byl náhodný? Nasimulujme si ho !!! © X1 X2 0 tt t Rozdíl ? Kde leží skutečný rozdíl? Jak moc je pravděpodobné,že je náhodný? Možné chyby při testování hypotéz • I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při rozhodnutí o zamítnutí/nezamítnutí nulové hypotézy dopustit chyby. Správné rozhodnutí Závěr testu Hypotézu nezamítáme 1- a Hypotézu zamítáme a 1- P Chyba I. druhu Správné rozhodnutí Chyba II. druhu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Význam chyb při testování hypotéz Pravděpodobnost chyby 1. druhu a v-\ Pravděpodobnost nesprávného -' zamítnutí nulové hypotézy Pravděpodobnost chyby 2. druhu Pravděpodobnost nerozpoznání neplatné nulové hypotézy Síla testu Pravděpodobnostně vyjádřená schopnost rozpoznat neplatnost hypotézy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametrické vs. neparametrické testy Parametrické testy • Mají předpoklady o rozložení vstupujících dat (např. normální rozložení) • Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy nepa rametrické • Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich síla testu prudce klesá a výsledek testu může být zcela chybný a nesmyslný Neparametrické testy • Nemají předpoklady o rozložení vstupujících dat, lze je tedy použít i při asymetrickém rozložení, odlehlých hod notách, či nedetekovatelném rozložení • Snížená síla těchto testů je způsobena redukcí informační hodnoty půvo dních dat, kdy neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek One-sample vs. two sample testy One - sample testy • Srovnávají jeden vzorek (one sample, jednovýběrové testy) s referenční hodn otou (popřípadě se statistickým parametrem cílové populace) • V testu je tedy srovnáváno rozložení hodnot (vzorek) s jediným číslem (referenční hodnota, hodnota cílové populace) • Otázka položená v testu může být vztažena k průměru, rozptylu, podílu hodn ot i dalším statistickým parametrům popisujícím vzorek Two - sample testy • Srovnávají navzájem dva vzorky (two sample, dvouvýběrové vzorky) • V testu jsou srovn ávány dvě rozložení hodnot • Otázka položená v testu může být opět vztažena k průměru, rozptylu, podíl u hodnot i dalším statistickým parametrům popisujícím vzorek • Kromě testů pro dvě skupiny hodnot existují samozřejmě i testy pro více skupin dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek One-tailed vs. Two-tailed testy One - tailed testy • Hypotéza testu je postavena asymetricky, tedy ptáme se na většínež/ menšínež • Test může mít pouze dvojí výstup - jedna z hodnot je větší (menší) než druhá a všechny ostatní případy Two - tailed testy • Hypotéza testu se ptá na otázku rovná se/nerovná se • Test může mít trojí výstup - menší - rovná se - větší než • Situace nerovná se je tedy souhrnem dvou možných výstupů testu (menší+větší) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kritický obor Kritický obor Nepárový vs. párový design Nepárový design • Skupiny srovnávaných dat jsou na sobě zcela nezávislé (též nezávislý, independent design), např. lidé z různých z emí, nezávislé skupiny pacientů s odlišnou léčbou atd. • Při výpočtu je nezbytné brát v úvahu charakteristiky obou skupin dat Párový design • Mezi objekty v srovnávaných skupinách existuje vazba, daná např. člověkem před a po operaci, reakce stejného kmene krys atd. • Vazba může být buď přímo dána nebo pouze předpokládána (v tom přípa dě je nutné ji ověřit) • Test je v podstatě prováděn na diferencích skupin, nikoliv na jejich původních datech Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistické testy a normalita dat • • Normalita dat je jedním z předpokladů tzv. parametrických testů (testů založených na předpokladu nějakého rozložení) -např. t-testy Pokud data nejsou normální, neodpovídají ani modelovému rozložení, které je použito pro výpočet (t-rozložení) a test tak může lhát • Řešením je tedy: o Transformace dat za účelem dosažení normality jejich rozložení o Neparametrické testy - tyto testy nemají žádné předpoklady o rozložení dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 250 200 150 100 50 Testy normality pracují s nulovou hypotézou, že není rozdíl mezi zpracovávaným rozložením a normálním rozložením. Vždy je ovšem dobré prohlédnout si i histogram, protože některé odchylky od normality, např. bimodalitu některé testy neodhalí. •Test dobré shody Vtestu dobré shody jsou data rozdělena do kategorií (obdobně jako při tvorbě histogramu), tyto intervaly jsou normalizovány (převedeny na normální rozložení) a podle obecných vzorců normálního rozložení jsou knim dopočítány očeká vané hodnoty vintervalech, pokud by rozložení bylo normální. Pozorované normalizované četnosti jsou poté srovnány sočekávanými četnostmi pomocí x 2 testu dobré shody. Test dává dobré výsledky, ale je náročný na n, tedy množství dat, aby bylo možné vytvořit dostatečný počet tříd hodnot. •Kolgomorov Smirnov test Tento test je často používán, dokáže dobře najít odlehlé hodnoty, ale počítá spíše se symetrií hodnot než přímo s normalitou. Jde o neparametrický test pro srovnání rozdílu dvou rozložení. Je založen na zjištění rozdílu mezi reálným kumulativním rozložením (vzorek) a teoretickým kumulativním rozložením. Měl by být počítán pouze vpřípadě, že známe průměr a směrodatnou odchylku hypotetického rozložení, pokud tyto hodnoty neznáme, měla by být použita jeho modifikace - Lilieforsův test. •Shapiro-Willťs test Jde o neparametrický test použitelný i při velmi malých n (10) sdobrou sílou testu, zvláště ve srovnání s alternativními typy testů, je zaměřen na testování symetrie. 145 155 165 175 185 195 205 215 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0 Šikmost a špičatost jako testy normality • Parametry normálního rozložení, skewness a kurtosis mohou být využity pro testování normality, ale pouze pro velké vzorky (šikmost -100, špičatost -500). Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Grafická diagnostika normality Rootgram Rootgram 2.5 2 1.5 1 0.5 0 -0.5 -1 -1.5 -2 11 0 20 40 Zn 60 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 -0.8 -1 íl 11 80 0 5 10 15 20 25 30 Pb Grafická diagnostika normality Hanging Histobars. Hanging Histobars. 0,32 0,12 -0,8 -0,28 -0,48 0 0,2 0,15 0,1 0,05 0 -0, 05 -0,1 0 -50 -10 10 30 Zn 50 70 90 -50 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 10 20 Pb 30 Grafická diagnostika normality n q- o Normal Probability Plot ee,e ee es so so 20 • s • i • 0,1. 2o 4o Zn so so Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek n o) ee,e ee es so so 2o s i Grafická diagnostika normality Frequency Histogram Frequency Histogram 0,8 0,6 0,4 0,2 0 20 40 Zn 60 80 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0,3 0,25 0,2 0,15 0,1 0,05 0 5 10 15 20 25 30 Pb X. Statistické testy o parametrech jednoho výběrů Jednovýběrový t-test Jednovýběrový test rozptylu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace • Jednovýběrové statistické testy srovnávají některou popisnou statistiku vzorku (průměr, směrodatnou odchylku) s jediným číslem, jehož význam je ze statistické hlediska hodnota cílové populace • Z hlediska statistické teorie jde o ověření, zda daný vzorek pochází z testovanécílovépopulace. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek "One sample" testy I Vpřípadě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení. I ^ Průměr - cílová vs. výběrová populace_ s H0 Ha Testová statistika Interval spolehlivosti x < // x > u t t > x > jU x < u t x = u x ^ u t Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vpřípadě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení. CZ^ Rozptyl - cílová vs. výběrová populace H0 Ha Testová statistika Interval spolehlivosti 22 s > a 22 x2 x2 > x L(n-1) s t 24 1-a/ 2 H0 zamítnuta při a<0,05 od jiné hodnoty bychom zachytili při daných hodnotách? 2. otázka - jakou minimální odchylku X od jiné hodnoty bychom zachytili při daných hodnotách? t = IzEjn =d-4~n * d = ^s * d = 2'°64 s s 1 5 3. za předpokladu, že z praktického hlediska je významná odchylka již 0,2 jednotky, jaký minimální počet měření musíme provést, abychom ji byli schopni prokázat ? x-u r d r ^ t =-v n =—V n n = s s l1-a/2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 2 XI. Statistické testy o parametrech dvou výběrů Dvouvýběrový párový a nepárový t-test Neparametrické alternativy t-testu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace • Jedním z nejčastějších úkolů statistické analýzy dat je srovnání spojitých dat ve dvou skupinách pacientů. Na výběr je celá škála testů, výběr konkrétního testu se pak odvíjí od toho, zda je o srovnání párové nebo nepárové a zda je vhodné použít test parametrický (má předpoklady o rozložení dat) nebo neparametrický (nemá předpoklady o rozložení dat, nicméně má nižší vypovídací sílu). • Nejznámějšími testy z této skupiny jsou tzv. t-testy používané pro srovnání průměrů dvou skupin hodnot Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrové testy: párové a nepárové I • Při použití two sample testů srovnáváme spolu dvě rozložení. Jejich základním dělením je podle designu experimentu na testy párové a nepárové. • Základním testem pro srovnání dvou nezávislých rozložení spojitých čísel je nepárový two-sample t-test 1 ť ľiepárový two sample test X2 S í 1I • Základním testem pro srovnání dvou závislých rozložení spojitých čísel je párový two-sample t-test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrové testy: párové a nepárové II Data X1 X2 r -\ r ~s Nezávislé uspořádání X1-X2 = D 12 Párové uspořádání | Design uspořádání zásadně ovlivňuje interpretaci parametrů n Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek D 2 s D J L J n1 n2 x2 x 2 2 1 s 2 H):D - o (n = n2 = ni) Dvouvýběrové testy: párové a nepárové III iuui i li i irxcio^ p cil \j v Xi m m Vytvoril Institut biostatistiky a analýz, Masarykova un jjj^ J. Jarkovský, L. Dušek 1 LUOLi yi\ui ciauc, r\wvai lai iucy r = 0,954 (p< 0,001) r = 0,218 (p< 0,812) •••• verzita Předpoklady nepárového dvouvýběrového t-testu • Náhodný výběr subjektů jednotlivých skupin zjejich cílových populaci • Nezávislost obou srovnávaných vzorků • Přibližně normální rozložení proměnné ve vzorcích, drobné odchylky od normality ovšem nejsou kritické, test je robustní proti drobným odchylkám od tohoto předpokladu, normalita může být testována testy normality • Rozptyl vobou vzorcích by měl být přibližně shodný (homoscedastic). Tento předpoklad je testován několika možnými testy - Levenův test nebo F-test. • Vždy je vhodné prohlédnout histogramy proměnné v jednotlivých vzorcích pro okometrické srovnání a ověření předpokladů normality a homogenity rozptylu - nenahradí statistické testy, ale poskytne prvotní představu. X 0 r M Varianta 1 Varianta 2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Nepárový dvouvýběrový t-test - výpočet I 1. nulová hypotéza: průměry obou skupin jsou shodné, alternativní hypotéza je, že nejsou shodné, two tailed test 2. prohlédnout průběh dat, průměr, medián apod. pro zjištění odchylek od normality a nehomogenita rozptylu, provést F -test H0 Ha Testová statistika gi2 í g22 22 gi >g2 s 2 F = > G2 > G2 Gi >CJ1 22 gi t0975 (52)= a nulovou hypotézu můžeme zamítnout, skutečná pravděpodobnost je pak 0,018. Rozdíl mezi skupinami je 1,59 kg ve prospěch skupiny s lepší výživou. t Rozdíl _ průrůmě SE (rozdílprůo ěrů) xi - x 2 f\ 1 > — + — ni n2 J s2 = (ni - 1)s12 + {n2 - l)s n1 + n2 - 2 u = n1 + n2 2 Pro rozdíl mezi oběma soubory jsou spočítány 95% konfidenční intervaly jako 1,59±2.01*(0,655) kg, což odpovídá rozsahu 0,28 až 2,91 kg. To, že konfidenční interval nezahrnuje 0 je dalším potvrzením, že mezi skupinami je významný rozdíl - jde o další způsob testování významnosti rozdílů mezi skupinami dat - nulovou hypotézu o tom, že rozdíl průměrů dvou skupin dat je roven nějaké hodnotě zamítáme v případě, kdy 95% konfidenční interval rozdílu nezahrnuje tuto hodnotu (v tomto případě 0). f (X1 X2 ) ± t0,975 SE(X1 X2 ) — (X1 X2 ) ± t0,975t 'S 11 -+ — n n v"1 2 J • • 2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Neparametrické alternativy nepárového t-testu X1 X2 ALL Rank ALL X1 rank X2 rank 27 25 25 5 6 5 35 29 29 7,5 11 7,5 38 31 31 9 13 9 37 23 23 4 12 4 39 18 18 2 14 2 29 17 17 1 7,5 1 41 32 32 10 15 10 19 19 3 3 27 6 35 11 38 13 37 12 39 14 29 7,5 41 15 Mann Whitney U-test •Stejně jako řada jiných neparametrických testů počítá i tento test spořadím dat v souborech namísto s originálními daty. Jde o neparametrickou obdobu nepárovéh o t-testu a ztěchto neparametrických testů má nejvyšší sílu testu (95% párového t-testu). •V případě Mann-Whitney testu jsou nejprve čísla obou souborů sloučena a je vytvořeno jejich pořadí v tomto sloučeném souboru, pak jsou hodnoty vráceny do původních souborů a nadále se pracuje již jen s jejich pořadím. •Pro oba soubory je tedy vytvořen součet pořadí a menší z obou součtů je porovnán skritickouhodnotou testu, pokud je tato hodnota menší než kritická hodnota testu, zamítáme nulovou hypotézu shod y distribučních funkcí obou skupin. •Podobným způsobem je počítán i Wilcoxon rank sum test (pozor, existuje ještě Wilcoxnův párový test!!!) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • • • • • • 17 štěňat bylo trénováno v chození na záchod metodou pozitivního posilování (pochvala, když jde na záchod venku) nebo negativního (trest, když jde na záchod doma). Jako parametr bylo měřeno, za kolik dní je štěně vycvičeno. nulová hypotéza je, že není rozdíl vmetodáchtréninku, tedy, že oběma metodami je štěně vycvičeno za stejnou dobu. po srovnání rozložení + malý počet hodnot je vhodné použít neparametrický test je vytvořeno pořadí sloučených hodnot pořadí hodnot v jednotlivých skupinách dat je sečteno a menší ze součtů je použit pro srovnání s kritickou hodnotou testu výsledkem testu je p \ i \ ( < 3 : \ i i - - NI -o- pes1 -□- pes2 o pes3 pes4 -• pes5 -■- pes6 ♦ pes7 a pes8 pes9 pes10 pes11 low high Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Neparametrická obdoba párového t-testu Wilcoxon test • Jsou vytvořeny diference mezi soubory, je vytvořeno jejich pořadí bez ohledu na znaménko a poté je sečteno pořadí kladných a pořadí záporných rozdílů. Menší z těchto dvou hodnot je srovnána skritickou hodnotou testu a pokud je menší než kritická hodnota testu, pak zamítáme hypotézu shody obou souborů hodnot. Pro test existuje aproximace na normální rozložení, ale pouze pro velká n>25. Menší _ suma _ diferencí n (n+1) 4 jn (n + l)(2n +1) 24 Před zásahem Po zásahu Změna Absolutní pořadí 6 2 4 10 2,5 3 -0,5 1,5 6,3 5 1,3 6 8,1 9 -0,9 5 1,5 2 -0,5 1,5 3,4 4 -0,6 3 2,5 1 1,5 8 1,11 2 0,89 4 2,6 4 -1,4 7 1 3 -2 9 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek t Wilcoxonův test - příklad I Cl člověk A B diference pořadí 1 142 138 4 4,5 2 140 136 4 4,5 3 144 147 -3 3 4 144 139 5 7 5 142 143 -1 1 6 146 141 5 7 7 149 143 6 9,5 8 150 145 5 7 9 142 136 6 9,5 10 148 146 2 2 A.......parametr krve před podáním léku B.......parametr krve po podání léku W+ ...... I pořadí kladných rozdílů = 51 W. ...... = 4 W = min(W+;W_) = 4 počet párů = n = 10 Pokud je W menší než kritická hodnota testu, pak zamítáme hypotézu shody distribučních funkcí obou skupin. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Wilcoxonův test - příklad II Byla testována nová dieta pro laboratorní krysy, při pokusu byl zjišťován její vliv na různých liniích krys, bylo proto zvoleno párové uspořádání kdy krysy vobou dietách jsou spojeny přes svoji linii, tj. na začátku byly dvojice krys stejné linie, jedna znich byla náhodně přiřazena kdietě, druhá z dvojice pak do druhé diety. 1. nulová hypotéza je, že váha krys není ovlivněna použitou dietou, alternativní, že ovlivnění dieto u existuje 2. spočítáme diference - tyto diference jsou nenormální a proto je vhodné využít neparametrický test 3. Spočítáme sumu pořadí kladných a záporných diferencí, zde je menší suma záporných diferencí-31 4. výsledkem výpočtu je p>0,05 a tedy nemáme dostatečné důkazy pro zamítnutí nulové hypotézy, nelze říci, že by nová dieta byla efektivnější než stará 5. pro doplnění výsledků je vhodné zjistit také skutečnou velikost rozdílu hmotností ve skupinách, např. v e formě mediánu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Znaménkový test - příklad I Párově uspořádaný experiment pro nominální data I. Dva preparáty, každý na V2 listu - sledovaná veličina: počet skvrn (hodnoceno pouze jako rozdíl) Počet skvrn A V V M V V M M V V V B M M V M M V V M M M n = 10 listů s rozdílnými výsledky je větší: + n+ = 7 jev B je menší: - n = 3 m in(n+; n) = 3 II. dvě protilátky z různých zdrojů (A;B) - aplikované na vzorek s antigenem n = 10 A + + - + - + - + + - _ + + - - + - B — — + — n - nenulových rozdílů: 6 A: n+ = 4 A: n = 2 min(n+; n) = 2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Znaménkový test - příklady II • Na konferenci veterinářů bylo předneseno,že průměrný čas konzultace je 12 minut. Následovala debata, zda je lepší použít medián nebo průměr. Jeden znich se rozhodl ověřit teorii, že průměrná konzultace trvá 12 minut na vlastní praxi a zaznamenal si trvání svých 43 konzultací. K otestování hypotézy, že podíl konzultací kratších a delších než 12 minut použil znaménkový test. Délka konzultace Počet <12 22 12 6 >12 15 Celkem 43 Další výpočet probíhá obdobně jako vpřípadě klasického znaménkového testu na diferencích dvou skupin dat. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrové testy: schéma analýzy Nezávislé uspořádání NE NE X2 test Kolmogorov-Smirnov test Shapiro-Wilks test neparametrické testy NE aproximace testy: Man - Whitney Mediánový test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýbérové testy: schéma analýzy Diference. D NE y N normalita ? transformace ANO t-test párový NE c2 test Kolmogorov-Smirnov test Shapiro-Wilks test neparametrické testy testy: Znaménkový test Wilcoxonův test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Párové uspořádání Popis binomického rozložení Testování hypotéz binomicky rozložených dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek IBA Anotace • Kromě spojitých dat se setkáváme také s daty kategoriálními, jejichž nejjednodušším případem jsou data binární. Binární data jsou popsána binomickým rozložením, od chování binomického rozložení je odvozena popisná statistika binárních dat (procento výskytu jevu), její interval spolehlivosti a binomické testy pro srovnání procentuálního výskytů jevů v různých skupinách. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Alternativní rozložení W n(x) = n pro x = 1 > n(x) = 1 - n pro x = 0 ? X = 1 jev n(x) = 0 jinak > n < _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _1 • 1-n 0 1 X Vytvořil Institut biostatistiky a analýz, Masarykova univerzita jjj^ J. Jarkovský, L. Dušek X..... celkový počet nastání jevu v n nezávislých pokusech E(x)= n . n d(x)= n . n (1-n) n ~ p jediný parametr distribuce určuje tvar distribuce n = 0,5 Vytvoril Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek n = 0,1 ±_L n.....počet nezávislých opakování (dotazů) X.....počet lidí s jistým symptomem r znamená celkový počet nastání jevu v n nezávislých experimentech r : 0 n n = 0,5 p ~ tt .. jediný parametr binomického rozložení p .... relativní četnost nastání jevu určuje tvar distribuce X Binomická proměnná X n = 0,2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Binomické rozložení jako model Jev: narození chlapce n: rodina s 5 dětmi r: 0,1,2,3,4,5 chlapců P(r ) = í " 1 lr J n = 0,5 n ! r ! (n - r)! • pr • q(n-r) r = 0 : 5 ! r = 1 : (0 j" 5 !) -(0,5 )-(0,5 ) = 0,031 (0,5 )1 -(0,5 )4 = 0,15625 5 ! r = 2: P(r) = 0,3125 r = 3: P(r) = 0,3125 r = 4: P(r) = 0,15625 r = 5: P(r) = 0,031 H _ [IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek X: Binomická proměnná Střed rozložení: E( x ) n • p Rozptyl: D(x) = n • p • (1 - p) Příklad: n = 100 respondentů r = 20 má symptom E(x) = n • p = 20 je střed rozložení a nejpravděpodobnější hodnota Binomické rozložení jako model 0,30,250,20,150,1 - 0,05 0 0,2 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 P (x = r ) = n ! r ! (n - r )! • P ' q (n - r ) q = 1 - p n = 10 p = 0,3 n n 01 23456789 10 n = 50 p = 0,1 0,3 0,25 0,2 0,15 0,1 0,05 0 0,12 0,1 0,08 0,06 0,04 0,02 n = 30 p = 0,3 n = 50 p = 0,5 0,15 0,1 0,05 0 0,2 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 n = 100 p = 0,3 Ikhík 10 20 30 40 50 60 70 80 90 100 n = 50 p = 0,9 L 0 5 10 15 20 25 30 35 40 45 50 0 5 10 15 20 25 30 35 40 45 50 0 5 10 15 2 0 25 30 35 40 45 50 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0,3 0,25 0,2 0 5 10 15 20 25 30 0 0 Aplikace binomického rozložení Výskyt krevní skupiny B v určité populaci: p = 0,08 Number in blood group B Probability B B 2 not B B 1 B not B 1 not B not B 0 0,0064 0,0736 0,0736 0,8464 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 b Binomial distribution of number of people out of two in blood group B Number: blood group B in 2 cases Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 0,5 0,4 0,3 0,2 0,1 0| Binomial distribution showing the number of subjects out of ten in blood group B based on the probability of being in in blood group B of 0,08. U u u □ 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 01 23456789 10 Number of subjects i A Binomial distribution showing the number of subjects out of 100 in blood group B based on the probability of being in in blood group B of 0,08. 0 10 20 30 40 50 60 70 80 90 100 Number of subjects 0 1 2 Aplikace binomického rozložení Populace: 60% jedinců má zvýšenou hladinu cholesterolu Výběr: 5 lidí I. Kolik lidí má ve výběru vyšší hladinu cholesterolu ? n. p = 5 . 0,6 = 3 lidé ~ E(x) n . p (1-p) = 1,2 ~ D(x) II. Jaká je P, že právě 3 lidé budou mít vyšší hladinu cholesterolu ? ~ Tzn. Vý běr přesně odpovídá dané populaci ? P(3) = ? P(3 )" 5 ! 3 ! (5-3) ! (0,6)3 • (0,4)2 = 0,346 P(3) = 35% Jaká je P, že většina jedinců (tedy minimálně 3) má vyšší hladinu cholesterolu ? ~ Tzn. výběr alespoň obecně odpovídá zkoumané populaci ? P(X > 3) = P(3) + P(4) + P (5) = 0,346 + 0,259 + 0,078 = 68 % IBA p(x) I I 1/ X Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Odhad parametru n binomického rozložení Při vícenásobném odhadu se parametr íl chová jako normálně rozložen n1;p1 n2;p2 n3;p3 ~l-^-ri-r" P U malých nebo velkých hodnot p (II) je však předpoklad normality omezen cp(x) 0 c (x) n 1 Pp 0 n 1 p Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Odhad parametru n binomického rozložení n « p ; p n 1------------------------------------------------------------------------------------------------------------1 1)Bodový p ^2 p(l - p) I n -1 i------------------------------------------------ 2) Intervalový - aproxima p - v-ip(l~p; n: ± Zi-a/2^ ce p + V J p (l"f) 1 n V n -1 |p(l - p) n -1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek X: % jedinců s daným znakem n = 100 jedinců r = 60; p - 0,6 sp - 0,049 Interval spolehlivosti : 95 % Z 0,975 = 1,96 0,6 -1,96 • 0,049 < n < 0,6 +1,96 • 0,049 0,504 < n < 0,697 P (0,504 0,95 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Odhad parametru n binomického rozložení t j 1 r n 11 • r ri r 1 2Ĺ. r Intervalový odhad bez aproximací na normální rozložení T _ r !► r + (n - r+!)• F^'2) spodní limit intervalu vi - 2(n - r +1); v2 - 2r u (r + 1 )• F^1^ " n - r + (r + 1 )• F}1"))2) horní limit intervalu )- 2(r + l)-v2 + 2 ) -2(n-r)-v1 -2 '1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek P (L1 <7i< L2 )> 1 -a Náhodný vzorek n = 200 jedinců. Zjištěno pouze r = 4 jedinci bez určitého znaku. p = 4/ = 0,02 95% interval spolehlivosti = ? v1 Spodní hranice 2 (n — r + l) = 2 (200 — 4 + l)= 394 v2 = 2 r = 2 • 4 = 8 F(394/8) = 3 67 1 /2 — 4 4 + (200 — 4 + l). 3,67 = 0,0055 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Horní hranice v/ = 2 (r + 1 )= 10 v2 = 2 (n — r )= 2 (200 — 4 )= 392 F;^ > = 2,08 1 '2 Z 2 = (4 + 1 ). 2, 8 2 4 + (4 + 1 ). 2, 8 0,051 Binomické rozložení v datech: vizualizace Statistické testování binomických dat I. Liší se odhad p od předpokládané hodnoty P ? Liší se dva nebo více odhadů p ? - závislé odhady -nezávislé odhady Je výskyt kategorií dvou jevů nezávislý ? Hodnocení relativního rizika z výskytu určitého jevu v rámci sku piny lidí Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jednovýběrový binomický test Ho Testová statistika Interval spolehlivosti p L n p > n z z > z 1-a p i n p < n z z < z a p = n p q n z II 1 /z/ > z i-a/2 = n • p - n ,\ n • p (1- •;r n • p - n •tt- 0,5 a__ -p)- > • i> (1 - i>) ^ ŕ \ Korekce na kontinuitu v j Ho Testová statistika Interval spolehlivosti p L n p > n L i - ( r + 1 ) F , , p = r / n > Li n - r + ( r + 1) F , . p í n p < n L 2 = r r + (n - r + 1) F , , p < L2 p = n MU p q n L1; L2 (F a/2' F 1-a/ž) p < L2 vp > L1 ■ ■ vyLvu......SLILUL uiusLOLisLiky a anaiyz, masaiykuva univoiziLa jjj^ J. Jarkovský, L. Dušek J Stromy s pozměněným tvarem koruny n = 9 000 jedinců r = 2 250 změněných jedinců ? ? Jak je pravděpodobná změna u až 1/3 jedinců? v_ n • p - n -n _ 2250 - 3000 _ 10 Vp C1 - P )• n V0,25 • 0,75 • 9000 ^=^= a = 5 %; Z i-a/2 = 1,96; Z ^ = 1,645 Z > Z 1-a/2.........zamítáme H0: p < 0,01 95 % Interval spolehlivosti ... p: (0,241; 0,258) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test n ? p Příklad testu bez aproximace na normální rozložení 12 jedinců bylo zkoumáno pro výskyt určitého znaku, 10 jedinců znak nemělo Jak hodně se tento výsledek liší od výsledku 6 - 6: tedy od situace, kdy polovina jedinců znak má? a) Využití distribuční funkce r P(r) 0 1 0,0002 4 2 3 0,0029 3 4 0,0161 1 5 0,0537 1 0,1208 5 6 7 0,1933 5 8 0,2255 9 9 0,1933 6 0,1208 5 10 0,0537 1 11 0,0161 1 0,0029 3 12 0,0002 4 P (r > 10) = 0,01611 + 0,00393 + 0,00024 = 0,01928 H0: p = 0,5 je tedy značně nepravděpodobná b) Pozorované p = = 0,833 překročilo horní limit 95 % intervalu (6 +l)-2,64 spolehlivosti pro p: p = 0,5 : L2 12 - 6 + (6 +1)-2,64 0,755 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrový binomický test (pl ? p2) Z /v /v — i?2 _ (1 — _) + _ (1 — _) n 2 n 1 + n 2 _(1 — _) + _(1 — _) V n1 n 2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrový binomický test (pl ? p2) Tento příklad je ukázkou testování rozdílů mezi dvěma binomickými populacemi (tedy srovnání dvou odhadů parametru p). Celkem 49 pokusných myší bylo použito k testování toxického preparátu během dvouměsíční kultivace. Následující tabulka obsahuje původní data zároveň s testem nulové hypotézy: Podíl přežívajících jedinců je u zasažené populace stejný. Z Alive Dead Total Proportion alive Proportion dead Treated 1S 9 24 p1 = 0,625 q, = 0,375 Not Treated 10 1S 2S p2 = 0,400 q2 = 0,600 Total 2S 24 49 p = 0,510 q = 0,490 0,625 - 0,400 0,225 (0,510) (0,490) + (0,510) (0,490) ^0,010413 + 0,009996 = 1,573 Z0,05(2) = t0,05(2) = 1,96 24 25 H y Nezamítáme H0: 0,10 < P < 0,20 S korekcí na kontinuitu: 15 - 0,5 10 + 0,5 Z 24 25 0,604 - 0,420 1,287 0,143 0,143 ^> Nezamítáme H0: 0,10 < P < 0,20 Z0,05(2) = t0,05(2) = 1,96 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad I Q a) Pravděpodobnost narození chlapce je asi 1/2. Máte zhodnotit výsledky průzkumu populace, která žije v silně poškozeném životním prostředí. Průzkum se týká 1000 náhodně vybraných rodin a zjištěný podíl narozených chlapců je 0.41. Jaké jsou vaš e závěry o této populaci? Jak se váš odhad zpřesní, když použijete vzorek n = 10 000 rodin při zachování odhadu p = 0.41? Použijeme jednovýběrový binomický test s nulovou hypotézou H0: p=n, hladina významnost i a=0,05 n • p - n •n 1000 • 0,41 -1000 • 0,5 testová statistika Z -5,79 a příslušný kvantil Z a = Z0 975 = 1,96 In • p(1 - p) ^1000 • 0,41 • 0,59 protože Z > Z0 975 nulovou hypotézu zamítáme. Chlapci se ve zkoumavé populaci nerodí s pravděpodobností 0,5. interval spolehlivosti n: p±Zi-a/ 1 /2 p(1 - p) n -1 0,4±Z0 975 • 0,046 = 0,41 ± 1,96• 0,016 = 0,41 ±0,03 pokud použijeme n=10 000, bude int. spolehlivosti užší n : p ± Z 2 p n-1 0,41 ± 1,96 • 0,005 = 0,41 ± 0,01 b) Jaká je pravděpodobnost, že rodina se třemi dětmi bude mít 2 (3) chlapce? Podrobně analyzujte problém a použijte obecného definičního vztahu pro binomické rozložení. n = 3 r = 2 P(r ) = v r j p (1 - pf n ! „r In-r) r ! (n - r)! p=0,5 (stejná pravděpodobnost narození ^ chlapce jako narození dívky) v 2 j •0,52 • 0,5(1) 3 ! p ^ qv • 0,52 • 0,5(1) = 0,375 2!(1)! pravděpodobnost narození 2 chlapců v rodině se třemi dětmi je 0,375 pravděpodobnost narození 3 chlapců r = 3 platí p(3)= 3 ^0,53 ^0,50 =10,53 ^0,50 = 0,125 v rodině se třemi dětmi je 0,125 v 3j Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad II Předpokládá se, že lidé trpící určitou krevní chorobou mají abnormální jeden z chromozómů. S cílem odhadnout podíl takto postižených chromozómů bylo studováno 5 buněk od každého ze 120 pacientů a byl zjišťován počet buněk s postiženým chromozómem (tento počet = sledovaný jev = r). Výsledky jsou uvedeny v následující tabulce. Odhadněte podíl postižených chromozómů u populace nemocných lidí. E w, E f Pro odhad p se používá vztah p i=1 i=1 n r(četnost jevu) 0 1 2 3 4 5 celkem f(poč. pacientů) 6 31 42 29 10 2 120 Xi fi xifi 0 6 0 1 31 31 2 42 84 3 29 87 4 10 40 5 2 10 i=1 t f = 120 m i=1 n = 5 p 252/120 5 0,42 pravděpodobnost výskytu postiženého chromozómu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek XIII. Kontingenční tabulky Test dobré shody Fisherův přesný test McNemar test Odds ratio a relativní riziko Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace • Analýza kontingenčních tabulek umožňuje analyzovat vazbu mezi dvěma kategoriálními proměnnými. Základním způsobem testování je tzv. chi-square test, který srovnává pozorované četnosti kombinací kategorií oproti očekávaným četnostem, které vychází z teoretické situace, kdy je vztah mezi prom ěnnými náhodný. • Test dobré shody je využíván také pro srovnání pozorovaných četností proti očekávaným četnostem daným určitým pravidlem (typickým příkladem je Hardy-Weinbergova rovnováha v genetice) • Specifickým typem výstupů odvozených z kontingenčních tabulek jsou tzv. odds ratia a relativní rizika, využívaná často v medicíně pro identifikaci a popis rizikových skupin pacientů . Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Binomické jevy (1/0) x pozorovaná četnost očekávaná četnost ] 2 pozorovaná očekávaná | 2 četnost " četnost (1) očekávaná četnost + očekávaná četnost I. jev 1 II. jev 2 Příklad 10 000 lidí hází mincí rub: 4 000 případů (R) líc: 6 000 případů (L) Lze výsledek považovat za statisticky význ amně od lišný (nebo neodlišný) od očekávaného poměru R : L = 1 : 1 ? x (4000 (1) 5000 5000 )2 (6000 —— + -— 5000 )2 5000 400 Tabulková hodnota: (v-1) - M4 (0,95 -1 - a) Rozdíl je vysoc statisticky významný (p << 0,001] Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 2 jjítabulkaji ■ 2 x 2| + Podíl (+) + - a b c d a b (a + c ) (b + d ) Podíl (+) a (a + b ) (c + d ) N = a + b + c + d (a + b ) P (B + ) = P (B ) = N (c + d ) N Očekávané četnosti: F = F = (a + b )(a + c) N (a + b )(b + d) N F (C) (a + c) (d + c) N (b + d )(c + d) N v = 1 7 = 1 F. v = 1 = (r - 1)*(c -1) IBA (/y - ľ„ - 0,5) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 2 Kontingenční tabulky: příklad Ano Ne Z Ano 20 82 102 Ne 10 54 64 Z 30 136 166 FA = 102 * 30 / 166 = 18,43 FB = 102 * 136 / 166 = 83,57 FC = 11,57 Fd = 52,43 , =(20-18,43)2 (82- 83,57)2 (10-11,57)2 (54- 52,43)2 10/10 11C7 CO/IO 18,43 = 0,423 0,423 2,706) = 0,10. Dále lze zjistit pro P (x2 > 3,841) = 0,05. V řešené úloze jsme dospěli k hodnotě testové statistiky x2 = 4,320. Pro tento případ l ze tedy psát 0,025 < P (x2 > 4,320) < 0,05; a jednodušeji 0,025 < P < 0,05. Jde v podstatě o přibližné určení hranic chyby 1. druhu. Vytvořil Institut iostatistiy a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test dobré shody: příklad II Tento příklad je rozšířením problému z příkladu 1 na srovnání pozorovaných a očekávaných frekvencí pro více kategorií sledovaného znaku: Celkem bylo zkoumáno 250 semen určitého druhu rostliny a roztříděno do následujících kategorií: žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité. Předpokládaný poměr výskytu těchto kategorií v populaci je 9 : 3 : 3 : 1. Následující tabulka obsahuje původní data z pozorování a dále postup při testování H0. v = k -1 = 3 žluté/hladk é žluté/vrásčité zelené/hladké zelené/vrásčité n f poz. 152 39 53 6 250 f - ■ 140,6250 46,8750 46,8750 15,6250 11,37502 7,8750z 6,1250z 9,6250 2 2 x2 2 + + + 140,6250 46,8750 46,8750 15,6250 8,972 ID Zamítáme hypotézu shody pozorovaných četností s očekávanými Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test dobré shody: příklad III Složitější příklady řešené srovnáváním frekvencí je možné rozdělit na testování dílčích hypotéz: Předpokládejme, že chceme pro data z předchozí úlohy testovat hypotézu existence štěpného poměru 9 : 3 : 3 pro první tři kategorie semen: žluté/hladké žluté/vrásčité zelené/hladké n f poz. 152 39 53 244 n = k -1 = 2 oček. 146,400 48,800 48,800 x2 5,600 + 9,800 146 ,40 48 ,80 + 4,200 48 ,80 2,544 Nezamítáme hypotézu shody pozorovaných četností s očekávanými. Nyní otestujeme hypotézu štěpného poměru kategorií zelené/vrásčité:ostatní typy = 1:15 f f oček zelené/vrásčité 6 15,625 ostatní 244 234,375 n 25 n = k-1 = 1 9,625 15 ,625 + 9 , 625 234 ,375 6,324 Zamítáme hypotézu shody pozorovaných četností s očekávanými. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 2 2 2 2 Test dobré shody: příklad IV - využití aditivity testu /U 193 párů dvojčat byly zjištěny následující poměry pohlaví: 56 Ch - Ch 72 Ch - H 4» 65 H - H f Za předpokladu, že narození chlapečka má stejnou pravděpodobnost jako narození holčičky, lze očekávat poměry pro výše uvedené skupiny = 0,25: 0,5: 0,25. Ověřte tento předpoklad na uvedeném vzorku populace. Z193 párů 1/4 : 1/2 : 1/4 2 = 1328 očekávan é četnost i = 48,25 : 96,50 : 48,25 X(2) ' Proč lze v předchozím případě očekávat zamítnutí H0? Testujte následující hypotézy: 1) Jsou relativní počty párů se shodným pohlavím ve shodě s očekávanými četnostmi? (ignorujte Ch H páry) 2) Je relativní četnost kombinace Ch - Ch a H - H párů oproti párům s rozdílným pohlavím ve shodě s očekávanými četnostmi? Z 121 párů 1 : 1 očekávané četnosti = 60,5 : 60,5 X(1) = 0,669 H Ch - H - Ch Z 193 párů 1 : 1 očekávané četnost i = 96,5 : 96,5 X( 1) = 12,44 mí IBA Vytvořil Institut biostatistiky a analýz, asarykova univerzita J. Jarkovský, L. Dušek 1 -a ~ X 0,95 — Zamítáme hypotézu shody pozorovaných četností s očekávanými. Příspěvek kategorií A, B, C, D k celkové hodnotě x2 C (0 3 O 0/ íi(SSSSSSSSSSS5 A B C D hÉÉÉÉÉÉÉÉÉÉÉÉÉÉh A B C D Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test homogenity binomických rozložení E E Jev: Úmrtnost na leukemii Předpoklad: n = 0,6 Absolutní četnost jevu označena ri Sledovalo s autorů z s zemí: Autor 2 p S Test homogenity binomických rozložení Po možném sloučení s výběrů Test shody reálného r r) a n n Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ni n pi S n - N S-1 p (1 - p) f x2 S r> - N •n 2 (1) n n(1 -n) 1 s 2 Test homogenity binomických četností: příklad Pomocí y2 rozložení lze rovněž posuzovat homogenitu většího množství nezávislých pokusů testujících tutéž hypotézu. Bylo provedeno 6 nezávislých výběrů z populace mladých mu žů, kteřív dětství onemocněli těžkým zánětem mozkových blan. H0: V této populaci se vyskytují praváci a leváci v poměru 1 : 1. Nalezněte v literatuře příslušné vztahy pro testování homogenity všech šesti výběrových populací a na základě výsledků tohoto testu rozhodněte o dalším postupu. Následující tabulka obsahuje původní data a výsledek testování (v závorkách jsou uvedeny očekávané četnosti): Vzorek Praváci Leváci n X2 St. volnosti 1 3 (7) 11 (7) 14 4,5714 1 2 4 (8) 12 (8) 16 4,000 1 3 15 (10) 5 (10) 20 5,000 1 4 14 (9) 14 (9) 18 5,5556 1 5 13 (8,5) 4 (8,5) 17 4,7647 1 6 17 (11) 5 (11) 22 6,5455 1 y1 =30 2 A heterogeni ta ' v = s - 1 = 5 P < 0,001 Jednoduchým testováním lze zjistit, že všechny testy pro jednotlivé výběry jsou významné, což znamená, že ani v jednom případě nebyla potvrzena shoda očekávaných a pozorovaných četností. Test homogenity štěpného poměru v zkoumaných populacích rovněž vedl k zamítnutí možnosti sloučit jednotlivé výběry a posuzovat je jako celek (kromě testovaného poměru 1 : 1 neexistuje tedy v datech žádný jiný jednotný štěpný poměr mezi oběma vlastnostmi. V případě, že by tento test neprokázal odchyl ky mezi jednotlivými výběrovými populacemi, bylo by možné jednotli vé odběry sloučit a posuzovat jako homogenní vzorek. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek %2 test - příklad složitější kontingenční tabulky I Caffeine consumption and marital status in antenatal patiens (from Martin and Bracken, 1987) Caffeine consumption (mg/day) Marital status 0 1 -150 151 - 300 > 300 Total Married 652 1537 598 242 3029 Divorced, separed or widowed 36 46 38 21 141 Single 218 327 106 67 718 Total 906 1910 742 330 3888 Caffeine consumption and marital status data Caffeine consumption (mg/day) Marital status 0 1 -150 151 - 300 > 300 Total Married 22 % 51 % 20 % 8 % 3029 (100 %) Divorced, separed or widowed 26 % 33 % 27 % 15 % 141 (100 %) Single 30 % 46 % 15 % 9 % 718 (100%) Total 23 % 49 % 19 % 8 % 3888 (100 %) VyivuTii inoiiiui biuaiaiiaiiky a analýz, maaaiykuva univoiziia J. Jarkovský, L. Dušek X2 test - příklad složitější kontingenční tabulky II Expected frequencies Caffeine consumption (mg/day) Marital status O l - lSO lSl - BOO > BOO Total Married 70S,S 14SS S7S,1 2S7,1 B029 Divorced, separed or widowed B2,9 69,B 26,9 12,0 141 Single 167,B BS2,7 1B7 60,9 718 Total 906 1910 742 BB0 B888 Contributions of each cell Caffeine consumption (mg/day) Marital status O l - lSO lSl - BOO > BOO Total Married 4,11 1,61 0,69 0,89 7,B0 Divorced, separed or widowed 0,B0 7,82 4,S7 6,82 19,S1 Single 1S,B6 1,88 7,02 0,60 24,86 Total 19,77 11,B1 12,28 8,B1 S1,66 m m Vytvořil Institut biostatistiky a analýz, Masarykova univerzita jjj^ J. Jarkovský, L. Dušek X2 test - příklad frakcionace složitější kontingentní tabulky I C y Cílem rozsáhlejšího průzkumu populace bylo prozkoumat vztah mezi dvěma typy chorob a krevními skupinami u lidí. Konkrétní data jsou uvedena v tabulce: Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola Celkem 0 983 383 2892 4258 A 679 416 2625 3720 B 134 84 570 788 Celkem 1796 883 6087 8766 Vypočítejte testovou charakteristiku pro tuto kontingenční tabulku a otestujte nulovou hypotézu nezávislosti jevů (x2 = 40,54; 4 st. voln osti) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 1 X2 test - příklad frakcionace složitější kontingenční tabulky II K podrobnějšímu průzkumu složitějších tabulek výrazně napomáhá přepis původní tabulky do podoby procentického zastoupení kategorií: ní Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola 0 983 383 2892 A 679 416 2625 B 134 84 570 Celkem 1796 883 6087 Z této tabulky je patrné: 1. Jsou jenom malé rozdíly v distribuci krevních skupin u kontroly a u skupiny nemocných rakovinou žaludku. 2. Pacienti s vředy mají mnohem častěji krevní skupinu 0. Na základě těchto poznatků je možné sestrojit menší kontingenční tabulku, která otestuje hypotézu o shodné distribuci krevn ích skupin pro nemocné rakovinou a pro zdravé lidi. Sestavte tuto tabulku a otestujte nulovou hypotézu. (X2 = 5,64 (2 st. v.), P je přibližně rovna 0,06) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Z tohoto dílčího testu vyplývá možnost sloučení skupiny nemocných rakovinou a zdravých lidí neboť se vzhledem k distribuci krevních skupin chovají jako homogenní populace. Dalším logickým krokem v podrobné analýze je testování shody relativních č etností výskytu krevních skupin A a B mezi kombinovaným vzorkem (sloučená skupina s rakovinou a kontrola) a mezi vzorkem lidí nemocných žaludečními vředy - tzn. nyní neuvažujeme krevní skupinu 0. Výsledkem tohoto testu je x2 = 0,68 (1 st. vol.); P > 0,7. Vzorky pro krevní skupiny A a B lze tedy sloučit do směsného vzorku A + B. • Nyní otestujeme shodu relativních četností výskytu skupiny 0 oproti A + B, a to mezi kombinovanou populací (kontrola + nemocní rakovinou) a mezi vzorkem nemocných vředařů (x2 = 34,29; 1 st. vol.). Lze tedy shrnout, že vysoká hodnota původního x2 se 4 st. voln osti byla způsobena zvýšenou četností lidí s krevní skupinou 0 mezi nemocnými žaludečními vředy. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Z2 test - příklad frakcionace složitější kontingenční tabulky IV Průběh hodnocení lze shrnout do tabulky: Srovnání St. volnosti 5C2 0, A, B skupina u pacientů s rakovinou (r) x kontrola (k) 2 5,64 A, B skupina u pacientů s vředy x kombinovaný vzorek (r + k) 1 0,68 0, A, B skupina u pacientů s s vředy x kombinovaný vzorek (r + k) 1 34,29 Celkem 4 40,61 Celkový součet testových statistik x2 (40,61) odpovídá přibližně původní hodnotě x2 (40,54). Což platí i o stupních volnosti (4). Tato skutečnost potvrzuje, že jsme detailním rozborem vyčerpa l i informační obsah původní kontingenční tabulky a kromě popsané závislosti (zvýšený výskyt krevní skupiny 0 u lidí s žaludečn ími vředy) jsou jednotlivé ka tegorie zkoumaných jevů zcela nezávislé. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kontingenční tabulka 2 x 2: Řešení při nedostatečné velikosti vzork u Yates' corection Fisher's exact test Ho! Nezávislost jevů Test analyzuje všechny možné 2 x 2 tabulky, které dávají stejnou sumu řádků a sloupců jako tabulka zdrojová. Algoritmus každé tabulce přiřazuje pravděpodobnost, že taková situace nastane, je-li H0 pravdivá. Spectacle wearing among juvenile delinquents and non-delinquents who failed a vision test (Weindling et al., 1986) Juvenile delinquents Non- deliquents Total Spectacle wearers Yes l S 6 No S 2 10 Total 9 ľ 16 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kontingenční tabulka 2 x 2: Řešení při nedostatečné velikosti vzork u Všechny možné varianty tabulky s danou sumou řádků a sloupců (I) 0 e 9 1 (II) 1 s 8 i (III) i 4 (IV) 7 B B B e 4 (V) (VI) (VII) 4 s s 4 e B i s 1 e 0 7 Pravděpodobnost náhodného vzniku variant tabulky a b c d P ( I ) 0 e 9 1 0,00087 ( II ) 1 s 8 i 0,0iBe0 ( III ) i 4 7 B 0,1s7B4 ( IV ) B B e 4 0,B671B ( V ) 4 i s s 0,BB04i ( VI ) s 1 4 e 0,11014 ( VII ) e 0 B 7 0,01049 Total 0,99999 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad: Srovnání 2 metod stanovení antigenu v krvi (antigen vždy přítomen) H0: metoda 1 = metoda 2 Metoda 1 Metoda 2 Frekvence úspěch úspěch 202 úspěch neúspěch 60 neúspěch úspěch 42 neúspěch neúspěch 10 X (c ) (60 - 42 I - 1) = 2,83 10 Tabulky : xí- <"=1) 1-a 3,84 }2 102 H0 nezamítnuta Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek jsou prospektivně vyskytne nějaká VÝBĚR JE DÁN SLOUPCEM OBECNĚ PŘÍKLAD Znak Skupina Skupina Retardace plodu 1 2 Symetrická Asymetrická ANO a b Agar skore ANO 2 33 NE c d > 7 NE 14 58 Riziko: a b (a + c) (b + d) rr 2/16 33 /91 0,345 a RR (a + c ) b (b + d ) Riziko u "symetrické skupiny" je asi 35 % rizika u asymetrické skupiny H0: RR = 1 SE (ln RR )= — V a IS: ln RR -Z ln RR + Z 1 1 1 -+ — - a + c b b + d 1-a/2 ' 1-a/2 SE (ln RR) . SE (ln RR) Vytvořil Institut biostatistik a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Aplikace analýzy 2 x 2 tabulky pro hodnocení rizika II. Retrospektivní studie - "ODDS RATIO" Zcela zásadně odlišný přístup od retrospektivní studie VÝBĚR JE DÁN VLASTNOSTÍ - ŘÁDKEM Není tedy možné analyzovat relativní riziko, protože přípravou řádků můžeme měnit velikost kontrol. OBECNĚ ANO Znak Odds ratio : aIc bid SE(inOR)= llll -+-+-+— abcd PŘÍKLAD Skupina Skupina Vady chrupu 1 2 ANO NE a b Plavání < 6h 32 118 —aŽc— bíd týdně *6h 17 127 OR = (32117)l (118I127)= 2,026 in (OR )= 0,706 SE (in (OR ))= 0,326 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Relative risk vs. Odds ratio ? Relative risk #Jp Odds ratio (relativní riziko) WV (poměr šancí) • Smysl RR a OR • Výpočet • Srovnatelnost • Interpretace • Výhody a nevýhody • Aplikace v klinickém hodnocení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Popis vlivu faktoru (léčba, klinický parametr) na výskyt události (úmrtí, progrese aj.) 0 0 Relative risk (relativní riziko) Odds ratio (poměr šancí) Snadná přirozená interpretace rizik vyjádřených jako procento událostí ALE Matematická omezení pro některé aplikace 0 Pouze málo lidí má přirozenou schopnost interpretovat OR ALE 0 OR v řadě aplikací výhodnější matematické vlastnosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • ji event bez eventu Srovnání výskytu události mezi dvěma rameny (A,B) studie RR= Relative risk (relatívni riziko) fftttt 6^ 10 2 10 ft AB TT * TT TT m TT t * * T T OR= Odds ratio (poměr šanci) I ŤŤŤŤ tii 6 = i = 3.5 7 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Relative risk (relativní riziko) 10 Odds ratio (pom ěr šancí) 1 S 8 0.7 0.5 03 0.1 RR a OR je přímo srovnatelné pouze při nízkém bazálním riziku RR = 0.75 RR = 0.5 RR = 0-3 1 5 10 Zhang, J. et al. JAMA 1998;280:1690-1691. 20 30 AO 50 Incidence Among the Nonexposed. % 60 I 70 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Srovnatelnost RR a OR I: maximum ( Relative risk Odds ratio (relativní riziko) • RR mění své maximum podle bazálního rizika cľ 20 C >N 15 E 0% 20% 40% 60% Bazálni riziko 80 % 100% 0 RR ve studiích s různým bazálním rizikem jsou nesrovnatelná !!!! Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek (poměr šancí) 0 Odds ratio má vždy rozsah od 0 do nekonečna 0 Velikost OR není závislá na velikosti bazálního rizika 0 OR lze použít pro srovnání studií s různým bazálním rizikem !!!! 0 Výhodné pro metaanalýzu Srovnatelnost RR a OR I: symetrie • Existuje mezi RR a O rozdíl v případě Relative risk (relativní riziko) tttt RR(I)= iiiiii RR(II)= IM RR (I) * RR( II) 4 lO 7 lO ó lO O.57 = lO = 3 2 ft výměny definice eventu a non-eventu? Odds ratio 0 i f i í • • 11 t i f i t i tí • vs. 11 t i i t ft 1t tí t i t1 • • 11 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Odds ratio (poměr šancí) MM OR(I)= MMM MMMt M! MMM OR(II)= MM M! MMMt OR(I) l OR(II) 6 = O.29 6 4 = 35 3 7 l RR a OR ve studiích s různou mírou bazálního rizika re ^ 3ř <-i rsj Ť( oo ó d d d ŕ í í í q r-; <3 f*i i/i i-i d Výskyt eventu (%) Odds ratio Ve skupině „Case" připadá na jednoho pacienta bez eventu 4x tolik pacientů s eventem než ve skupině „Control" O 1 ' 5? S? S? í >h r*j oo m d d d d T-i g S? S? g S? £ O (n iH O ft o no l/> xH o f> o iH íN rťt iy> si> -vO >vp s£> \D vpi ~ D '~ D KjO ů~ fl^V (jfx. B ^ ^, v, tfi, ^Tv O * ůd-Hfiríi/i^drfiddd -H (M n> l/l U} 00 Vytvořil InstitutYýSttaytkeyfMilyy, C'fŽÄlOykova univerzita J. Jarkovský, L. Dušek Bazálni (control) výskyt eventu (%) Relative risk Pacient ve skupině „Case" má x-krát zvýšenou pravděpodobnost výskytu eventu než pacient ve skupině „Control". X-krát závisi na basálnim výskytu eventu. 0 0 Sledování výskytu eventu a následná analýza jeho příčin Převážně kohortní studie 0 Zpětné sledování příčin eventu 0 Převážně case-control studie 0 Výběrem pacientů ovlivňujeme bazální výskyt eventu 0 Bazální výskyt eventu je dán vlastnostmi kohorty pacientů 0 Bezproblémové využití RR Relative risk (relativní riziko) ko) 0 RR nelze použít -ovliněno bazálním výskytem eventu 0 Využití OR -neníovliněno designem studie Odds ratio (poměr šancí) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Relative risk vs. Odds ratio: shrnutí Relative risk (relativní riziko) 0 Intuitivně snadno interpretovatelné 0 Pro prospektivní studie 0 Standardní výstup Coxovy regrese 0 Maximum se liší podle bazální hodnoty výskytu eventu Odds ratio (poměr šancí) 0 Retrospektivní studie 0 Aplikace v metaanalýze 0 Standardní výstup logistické regrese 0 Rozsah vždy 0 až nekonečno, není ovlivněno bazálním výskytem eventu 0 Obtížnější interpretace Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek XIV. Poissonovo rozložení Popis rozložení a jeho využití Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Poissonovo rozložení se používá pro popis četnosti výskytu jevu na experimentální jednotku, příkladem může být počet mutací bakterií na Petriho misku nebo počet srdečních poruch na jednotku času Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Celkový počet jevů v n nezávislých pokusech D(x) = n p } E(x) = D(x) .v e-"-M' Ä Är P (r ) =-— = e r ! r ! jU=A= průměrný počet jevů z n pokusů (X = 2 ) = = e ~" - ju 2 = 2 U P (x = 4 ) = e~u -u4 (4)(3)(2) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Poissonovo rozložení jako model P (x = r ) = e -x r ! 1,1 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 x = 0,01 0123456789 10 x= 1 1 - 0,9~ 0,8" 0,7" 0,6" 0,5" 0,4" 0,30,20,1 - 0- 0,20,180,160,140,120,1 -0,080,060,040,020- x = 0,1 0123456789 10 X = 5 .1 0,7" 0,60,50,40,30,20,1 - 00,140,120,1 -0,080,060,040,020- Hu X = 0,5 01 23456789 10 □ 0 x= 10 JU 0123456789 10 0123456789 10 0123456789 1011 1213141516 17181920 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Poissonovo rozložení v přírodě existuje Mutace bakterií na inkubačních miskách ooo© ©OGO Výskyt jevu v prostoru (počet žížal na určitou plochu pole) Orientační stanovení jevu (při produkci plynu bakteriemi) A + The most probable number technique Výskyt jevu v čase (srdeční arytmie v určitých časových intervalech) 1 111 1 •-1-1-1-1- čas Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Předpoklad: náhodná distribuce jevu mezi studovanými objekty (příp. v čase, v prostoru). jU o2 Uniform Clustered Random Poisson Pokud je X spíše větší (~ 5 -10), pak Poisson odpovídá spíše binomickému až n ormálnímu rozložení. Vytvořil Institut biostatistiky a analýz, Masarykova univerzi J. Jarkovský, L. Dušek Formální prezentace Poissonova rozložení Př: pokus......10 000 bakterií na misce n = 10 misek Jev: mutace (r=25) X..........průměrný počet mutantů na jednu misku r = 25 x *Ä=25/10= 25 95 % IS: x Z 1-a2 'Vn x 10}) 0,0677 13 0 V 1 l r> — 1 ^ SI n = 2608 2608,00 12,8849 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Poissonovo rozložení: jednovýběrový test ľ n = ( r ) Př: Počet hnízd křepelek na dané ploše n = 8 000 "pod lokalit" r = 28 } p = 0,0035 Nechť je srovnávací soubor (předchozí p růzkum) Po = 0,0020 po • 8 000 = 16 = ju = A H0 : p < Po ~ ju < 16 ? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 1) Vzít data jako pocházející z populace: e "16-1628 P (r = 28) = ——— = 0,00192 28 ! < 0,05 => Ho zamítnuta 2) P(r > 28) = [0,00411 ] / i r = 28 je příliš velké pro populaci s po aby r = 28 bylo p > p0, pravděpodobnější r ! XV. Analýza rozptylu Parametrická analýza rozptylu Post hoc testy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace • Analýza rozptylu je základním nástrojem pro analýzu rozdílů mezi průměry v několika skupinách pacientů. • Základní myšlenka, na níž je ANOVA založena, je rozdělení celkové variability v datech (neznámé, dané pouze náhodným rozložením) na část systematickou (spjatou s kategoriemi pacientů, vysvětlená variabilita) a část náhodnou. Pokud systematická, tedy nenáhodná a vysvětlitelná část variability převažujeme, považujeme daný kategoriální faktor za významný pro vysvětlení variability dat. • Analýza rozptylu vyhodnocuje pouze celkový vliv faktoru na variabilitu, v případě analýzy jednotlivých kategorií je třeba využít tzv. post-hoc testy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA Základní technika sloužící k posouzení rozdílů mezi více úrovněmi pokusného zásahu Rostoucí koncentrace testované látky / látek I Celkově významné změny v reakci biologického systému I Vzájemné rozdíly účinku jednotlivých dávek ^> Rozdíly účinku dávek od kontroly Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA Významné kroky analýzy, vedoucí k efektivnímu srovnání variant Rostoucí koncentrace testované látky / látek Splnění předpokladů analýzy Transformace dat Relevantnost kontroly (vliv vlastní aplikace látek) Vhodnost modelu ANOVA pro účely testu Vlastní srovnání variant Minimalizace c hyb při ověřování hypotéz Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek SPLNĚNÍ PŘEDPOKLADŮ ANOVA JE NEZBYTNOU PODMÍNKOU POUŽITÍ TÉTO TECHNIKY A Předpoklad nezávislosti opakování experimentu ANOVA j = parametrická analýza dat Homogenita 2. rozptylu v rámci pokusných variant Normalita rozložení 3. v rámci pokusných variant ALTERNATIVOU JSOU NEPARAMETRICKÉ METODY Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA Analýza rozptylu - ANOVA Iß MT /i álw% y^Ä ť 1 rm sít * ľ/ľ7fi^it/n ir/ifi m/i^Ak^m/i ///ic/i^/im/ c^Ati ^ y-1 r* -41 g ±reupoKiuuy analýzy rozptylu jsou nezbytné pro dosazeni sily testu • Symetrické rozložení hodnot a normalita odchylek od hodnoceného modelu ANOVA. Velkou část dat lze adekvátně normalizovat použitím logaritmické transformace. Předpoklad lognormální transformace může pochopitelně být teoreticky vyloučen u mnoha datových souborů obsahujících diskrétní parametry, kde je indikována vhodnost jiného typu transformace. U asymetricky rozložených a u diskrétních dat je nutné využít neparametrické alternativy analýzy rozptylu. • Homogenita rozptylu je nutným předpokladem pro smysluplnost vzájemných srovnání pokusných variant. U testů toxicity by splnění tohoto předpokladu mělo být ověřováno (Bartlettův test), neboť vážné rozdíly (až řádové) v jednotkách testovaného parametru mohou nastat v důsledku inhibice dávka mi látky. Nehomogenita rozptylu je často ve vztahu k nenormalitě (asymetrii) dat a lze ji odstranit vhodnou normalizující transformací. • Statistická nezávislost reziduí vyhodnocovaného modelu ANOVA. Pokud odhad a posouzení korelačních vztahů mezi pokusnými variantami není přímo předmětem výzkumu, lze jejich vliv na vyhodnoc ení odstranit znáhodněním dat v rámci pokusných va riant - tedy změnou pořadí v náhodné. Rozsah vlivu těchto autokorelačních vztahů musí být ovšem primárně omezen správností experimentálního uspořádání. • Aditivita jako předpoklad týkající se složitějších experimentálních uspořádání. Exaktní otestování aditivity více pokusných faktorů je procedura poměrně náročná na experimentální design vyvážený co do počtu opakování. Je rovn ěž obtížné testovat int erakci na nestandardních datech, neboť případná transformace může změnit charakter odchylek původních dat od hodnoceného modelu ANOVA. m m Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA W/l/l y'j pw W/% -m /fM 1-m 1t~ y» ft a l\.Tŕ%Tf á /^T/l Ě^S9 W 4 omezeni upiiKuce anova lze resn • Chybějící data. Vážným problémem jsou chybějící údaje o celé skupině kombinací testovanýc h látek, například u faktoriálních pokusů, kdy je znemožněno hodnocení experimentu jako celku. • Nehomogenita rozptylu. Velmi častý nedostatek experimentálních dat, často související s nenormalitou rozložení nebo s odlehlými hodnotami. • Různé počty opakování Jde o typický jev pro experimentální datové soubory. Při různých počtech opakován í v experimentálních variantách jsou testy ANOVA citlivější na nenormalitu dat. Pokud jsou počty opakování zcela odlišné(až na řádové rozdíly), je nutno použít neparametrické techniky nebo analýzu rozptylu nevyvážených pokusů. • Nenormalita dat. I v tomto případě lz situaci upravit vyloučením odlehlých hodnot nebo normalizující transformací. • Neaditivita kombinovaného vlivu více pokusných zásahů. Tuto situaci lze testovat jednak speciálními testy aditivity nebo přímo F testem kontrolujícím významnost vlivu interakce pokusných zásahů. Při významné interakci je nutné prozkoumat především její charakter ve vhodném experimentálním uspořádání. • Odlehlé hodnoty. Ojedinělé odlehlé hodnoty musí být před parametrickou analýzou rozptylu vyloučeny. • Nedostatek nezávislosti mezi rezidui modelu. Jde o závažný nedostatek, zkreslující výsledek F -testu. Velmi často je tato skutečnost důsledkem špatného provedení nebo naplánování experimentu. m Vytvořil Institut biostatistik a analýz, Masarykova univerzita jjj^ J. Jarkovský, L. Dušek Modely analýzy rozptylu Model I. Pevný model Model II. Náhodný model X0 X1 X2 X3 X4 u Y + X0 X1 X2 X3 X4 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek A B C D E Y A B C D E • o Základním principem ANOVY je porovnání rozptylu připadajícího na: o Rozdělení dat do skupin (tzv. effect, variance between groups) Variabilitu objektů uvnitř skupin (tzv. error, variance within groups), předpokládá se, že jde o náhodnou variabilitu (=error) SS between 1. Variabilita mezi skupinami Rozptyl je poč ítán pro celkový průměr (tzv. grand mean) a průměry v jednotlivých skupinách dat Stupně volnosti jsou odvozeny od počtu skupin (= počet skupin -1) 2. Variabilita uvnitř skupin Rozptyl je poč ítán pro průměry jednotlivých skupin a objekty uvnitř příslušných, celková variabilita je pak sečtena pro všechny skupiny Stupně volnosti jsou odvozeny od počtu hodnot (= počet hodnot počet skupin) SS within v2 = n - k Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek F between _ groups within _ groups Výsledný poměr (F) porovnáme s tabulkami F rozložení pro v 1 a v2 stupňů volnosti SS=sum of squares Jednoduchý ANOVA design Nejjednodušším případem ANOVA designu je rozdělení na skupiny podle jednoho parametru. dělící parametr Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Rozdělení skupin na náhodné podskupiny (např. opakování experimentu) • Cílem je zjistit, zda data v jedné skupině nejsou pouhou náhodou • Nejprve je testována shoda podskupin v hlavních skupinách, • pokud jsou shodné, je vše v pořádku • pokud nejsou, stále lze zjišťovat, zda se variabilita uvnitř hlavních skupin liší od celkové variability Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Pro rozdělení do kategorií je zde více parametrů Na rozdíl od nested ANOVY nejde o náhodná opakování experimentu, ale o řízené zásahy (např.vliv pH a koncentrace O2) Kromě vlivu hl avních faktorů se uplatňuje i jejich interakce Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Modely analýzy rozptylu - základní výstup Základním výstupem analýzy rozptylu je Tabulka ANOVA - frakcionace komponent rozptylu Zdroj rozptylu St. v. SS MS F Pok. zásah (mezi skupinami) Uvnitř skupin a -1 SSB SSB/(a -1) MSB/MSE N - a SSE SSE/(N - a) Celkem N -1 SST SSb/SSt >-) Kvantifikovaný podíl rozdílu mezi pokusnými zásahy na celkovém rozptylu MSb/MSt > ) Statistická významnost rozdílu m Vytvoril Institut biostatistiky a analýz, Masarykova univerzita jjj^ J. Jarkovský, L. Dušek obecný F test H0: m1 = m2 = m3 = .... = mp F test: H H0 platí H0 neplatí Látka nep ůsobí Látka působí Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 03 S" 3í o — 03 N 03 O < CD B i—t-Q) Kontrola Koncentrace X1 Koncentrace X- Koncentrace X, CD Í t—t- j> O o1 3 N q- 0) Q) 3 00 -> (—I- t—ť c (—1- Q) > N O N Koncentrace Xp es Q) -> (Q O CD Q) CO CO ■ O o 2 2 < C Q) I V_/ {/í Příklad: Anova - One way Dávka rostlinného stimulátoru (0, 4, B, 12 mg/l) A = 4 ; n = B I. ANOVA Bartlett's test: P = 0,9B47 K-S test: P = 0,4B2 - 0,6525 pro jednotlivé kategorie Source D. f. SS MS F Between Groups Within Groups 3 2B 305,B 322,2 101,9 11,9 B,56 Total (corr.) 31 63B,0 II. Multiple Range Test NKS -test Level 0 4 12 B Average 34,B 41,4 41,B 52,6 Homogenous Groups x x x x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek I. Zásah: 4 klinická stadia virové choroby (napadá kr. buňky) Sledovaná veličina: aktivita enzymu v těchto krevních buňkách Ho ' M M2 M M4 n = 3 MODEL = ? I II III IV II. 22,8 16,4 11,2 14,2 19,4 17,8 18,2 10,1 _12,5 19,1 15,8 12,8 E 65,7 53,3 45,2 37,1 průměr 21,9 17,8 15,1 12,4 III. Komponenta rozptylu: Source D.f. MS F P Between groups 3 49,6 8,39 0,0075 Within groups 8 5,9 Total (corr.) 11 - IV. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Srovnání variant v testech Srovnáváni variant po celkovém testu ANOVA Mnoho existujících algoritmů není vhodných pro konkrétní případ Day and Quin Ecological Monographs,1989 Test Využití Poznámka Dunnett Williams Srovnání s kontrolou Ex. i modifikace pro různá n. ANOVA testy (F) Orthogonální kontrasty Plánovaná srovnání Ryan Q test Jednoduché kontrasty Vyhodnocen jako nejlepší test Testy pro jednoduché kontrasty Scheffe Tukey LSD Bonferroni Dunn-Sidák Kramer Testy nevhodné Duncan Student -Newmann-Keuls Waller-Duncan k ratio Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Řada post-hoc testů v různých SW Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Rozšíření ANOVA Současná analýza kategoriálních a spojitých prediktorů Testování hypotézy paralelismu regresních vztahů • kategorie kategorie Spojitý prediktor Spojitý prediktor Kategorie pacientů (pokusný zásah) neovlivňuje vztah proměnných Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kategorie pacientů (pokusný zásah) ovlivňuje vztah proměnných XVI. Korelace a regrese Parametrická a neparametrická korelace Lineární regrese Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace • Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých proměnných. Obdobně jako jiné statistické metody, i korelace mohou být parametrické nebo neparametrické • Regresní analýza vytvářímodel vztahu dvou nebo více proměnných, tedy jakým způsobem jedna proměnná (vysvětlovaná) závisí na jiných proměnných (prediktorech). Regresní analýza je obdobně jako ANOVA nástrojem pro vysvětlení variability hodnocené proměnné Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy korelační analýzy -1. Korelace - vztah (závislost) dvou znaků (parametrů) Parametrické míry korelace Kovariance Cov(x, y) = E(X; - x).{yl - y) 0 t 0 --x --y ô 0 Pearsonův koeficient korelace Y2 r = 1 r = -1 X1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek PI (zem) 10 14 15 32 40 20 16 50 PI (rostl.) 19 22 26 41 35 32 25 40 I = 1,....., n; n = 8; v = 6 Cov(x,y) r = I. H 0 : p = (:a = 0,05 tab: r (v = 6) = 0,7076 0,7176 II. p = ( r 0,7176 0,6965 ■Á n - 2) ;0,975 ^6 = 2,524 tab : 10n975) = 2,447 Vl - r P < 0,05 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ■\ln - 2 v = n - 2 2 t 1. n = 1258 2. n2 = 462 r1 = 0,682 *r2 = 0,402 Krevní tlak x koncentrace kysl. radikálů (1 + r,) Z1 = 0,833 1.1513 - log (1 - r,) Z 2 = 0,426 Test: H0 :p1 =p2 ; a=0,05 Z z1 - z 2 0,407 1 1 + 0,0545 7,461 n 1 - 3 n 2 - 3 tabulky : Z 0 975 = 1,96 7,461 >> 1,96 => P << 0,01 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek _ _ _ P, v půdě 1 2 3 6 7 5 4 8 P, v rostl. 1 2 4 8 6 5 3 7 d, 0 0 1 2 -1 0 -1 -1 r s = i = 1,.....n; n = 8 => v = 6 6 - £ di 2 n (n 2 - 1 ) tab : rs (v = 6)= 0,89 = 0 ,9048 Pacient č. 1 2 3 4 5 6 7 Lékař 1 4 1 6 5 3 2 7 Lékař 2 4 2 5 6 1 3 7 d, 0 -1 1 -1 2 -1 0 r s = 1 6 - 8 7 (49 - 1) = 0,857 P = 0,358 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Korelace v grafech I. Y w . Y y f X X Vztahy velmi často implikují funkční vztah mezi Y a X. ^^^1 Y = a + b . X Y = a + b1 . X1 + b2. X2 Y = a + b1 . X1 + b2 . X2 + b3 . X1 . X2 MĹ IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Problém rozložení hodnot Y r = 0,981 (p < 0,001) X Y Problém typu modelu • \i •• •• • r = 0,761 (p < 0,032) X Problém velikosti vzorku Y r = 0,891 (p < 0,214) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Y r = 0,212 (p < 0,008) • • •• • • X Modelování klinických dat l.Tvorba modelu 2.Validace modelu 3. Aplikace modelu > O Prediktory • Parametry ovlivňující vysvětlovanou charakteristiku pacienta • Rovnice umožňující predikci • Platnost modelu pouze v rozsahu prediktorů • Nebezpečí„přeučení" modelu • Testování modelu na známých datech • Krosvalidace • Individuální predikce stavu nenámých pacientů • Model musí být podložen korektní statistikou a rozsáhlými daty Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy regresní analýzy Regrese - funkční vztah dvou nebo více proměnných Vícerozměrná y = f(x1, x2, x3,......xp) Y Deterministický Vztah x, y X Y Regresní, stochastický Y X X Pro každé x existuje pravděpodobnostní rozložení y Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Regresní analýza přímky: lineární regrese Y = a + b - x + e « a + J3-X + s a « a (intercept) : a = j - b - x } j- P-X «b• x (sklon; slope) s « e - náhodná složka : N(0; Gez ) = JV (0; g; x L--/ N(0; g] )= V (0; gJ x ) s - náhodná složka modelu přímky = rezidua přímky &l (gI x) rozptyl reziduí Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 1 x n i y n Y : • X .—. i y x y ^—. y e = a + b . — - n m - - - - ■ - - - ■ ■ - Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základní regresní analýzy: model přímky v datech II Y x x y 2 2 • • • . • •. • y s y b = 0 X Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek y y Y y e 2 e = 0 b > 0 22 X Základní regresní analýzy: model přímky v datech I Y Y__^ } b ■(xi -~X) } Y X Xj X dy. X = y - y Smysl proložení přímky minimalizace odchylek d . = y - y y = y+ y + b (X, - X ) dl x - Z [y -« ((, - x )] Metoda nejmenších čtverců 1) X: Pevná, nestochastická proměnná 2) Rozložení hodnot y pro každé x je normální 3) Rozložení hodnot y pro každé x má stejný rozptyl , , 4) ..Rezi^ N{0;<7t;..) IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek I. b ~ P : b = X (x, - xXy, - y) S 2 ~ rr1 • Sy x = mean squared deviation from regression sample standard deviation from regression S 2 —\2 y • x w - 2 w - 2 II. a ~ a • a = Y - b • X intercept a S = a 1 + X2 y • x III a Y : modelová hodnota Y = a - b • X, Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 1 (x , - x )2 2 2 X: Množství spáleného odpadu (tuny) Y: Koncentrace kovu ve vzduchu(ng/m3) Y Y 10 Y Y 200 X Platí: X = 0; 10; 100; 150; 200; 250; 300 tun Model: Y = a + b . X Výsledek: Y = 14 + 0,123 • X; Y — ng kov m' Např. : Skutečná data pro X = 200 t: Yi = 16; 25; 41; 28; 31; 20 => Yi = 26.8 Y = Y + b •(X - X) Y = a + b • X } a — Y - b • X Odhadnuto z modelu pro X = 200 t: Y = 14 + 0,123 . 200 = 38,6 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Regresní analýza v grafech I Grafy residuí modelů (příklady) 8 0 8 u— I y (i; x) Obecné tvary residuí modelů (schéma) A e a A e b i, Xj, y i, Xj, y Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • • «— 0 e • • • ... « y (i; x) c /s e i, xj, y ■ y (i; x) i, xj, y Regresní analýza v grafech II 1) Y vs.X Y Y 2) Y vs. Y X Y Y Y Vytvoril Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek X Y Y Y V* X Y Lineární regrese - příklad X: Koncentrace drogy: 0; 2; 6; 8; 10; 12; 15 mg/ml krve Y: Koncentrace volných metabolitů Pro každé X: 3 opakování Y Model: Y = a + b . x Y = 0,11 + 0,092 . X I. H0 : P = 0;a = 0,05 0,023 b = 0,092 ; sb P < 0,01 b S 4,00 tív=-19 ) = 0,975 2,093 P : b ± 11- (n - 2 ) _ s a / 2 P (0,044 t = - = S 3,793 t0v9759) = 2,093 a P(0,049