Přednáška 10 Korelace a regrese Parametrická a neparametrická korelace Lineární regrese Institut biostatistiky a analýz, PřF a LF MU Anotace • Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých proměnných. • Obdobně jako jiné statistické metody, i korelace mohou být parametrické nebo neparametrické • Regresní analýza vytváří model vztahu dvou nebo více proměnných, tedy jakým způsobem jedna proměnná (vysvětlovaná) závisí na jiných proměnných (prediktorech). • Regresní analýza je obdobně jako ANOVA nástrojem pro vysvětlení variability hodnocené proměnné Institut biostatistiky a analýz, PřF a LF MU Základní rozhodování o výběru statistických testů Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýběrový t-test Párový t-test Dvouvýběrový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Jednovýběrový Wilcoxonův test Wilcoxonův / znaménkový test Mannův- Whitneyho test KruskalůvWallisův test Jednovýběrový binomický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Institut biostatistiky a analýz, PřF a LF MU Popis vztahu spojitých proměnných • Základním nástrojem popisu vztahu spojitých proměnných je XY graf umožňující posoudit typ a sílu jejich vztahu. Silný kladný lineární vztah Silný lineární záporný vztah Kladný lineární vztah Záporný lineární vztahNáhodný vztah Nelineární vztah Institut biostatistiky a analýz, PřF a LF MU Předpoklady parametrické korelační analýzy • Korektní interpretace parametrické korelační analýzy předpokládá lineární vztah mezi proměnnými a normální rozložení hodnot obou proměnných. Institut biostatistiky a analýz, PřF a LF MU Bimodální rozložení hodnot vstupujících do korelační analýzy • V případě bimodálního rozložení hodnot vstupujících do korelační analýzy není vhodné korelační analýzu počítat; výsledek není možné interpretovat jako popis lineárního vztahu spojitých proměnných, ale jako důsledek existence podskupin objektů v datech. Institut biostatistiky a analýz, PřF a LF MU Přítomnost odlehlých hodnot v datech vstupujících do korelační analýzy • V případě přítomnosti odlehlých hodnot v datech vstupujících do korelační analýzy není vhodné korelační analýzu počítat; výsledek není možné interpretovat jako popis lineárního vztahu spojitých proměnných, ale jako důsledek přítomnosti odlehlých hodnot v datech. Institut biostatistiky a analýz, PřF a LF MU Korelace a kovariance – parametrické míry vztahu spojitých proměnných • Kovariance a Pearsonův korelační koeficient jsou základní metody pro popis lineárního vztahu spojitých proměnných • Předpokladem výpočtu kovariance a Pearsonova korelačního koeficientu je: • Normalita dat v obou dimenzích • Linearita vztahu proměnných x y x y x y Lineární vztah – bezproblémové použití kovariance nebo Pearsonova korelačního koeficientu Korelace je dána dvěma skupinami hodnot – vede k identifikaci skupin objektů v datech Korelace je dána odlehlou hodnotu – analýza popisuje pouze vliv odlehlé hodnoty Institut biostatistiky a analýz, PřF a LF MU Výpočet kovariance I 1; 2 8; 16 9; 18 0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 X Y Kovariance = sdílený rozptyl Jak číselně popsat vztah proměnných? Institut biostatistiky a analýz, PřF a LF MU Výpočet kovariance II 1; 2 8; 16 9; 18 6; 12 0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 X Y Kovariance = sdílený rozptyl Jak číselně popsat vztah proměnných? Data se vyskytují v různých kvadrantech dle průměru ! Průměr Institut biostatistiky a analýz, PřF a LF MU Výpočet kovariance III 1; 2 8; 16 9; 18 6; 12 0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 X Y Kovariance = sdílený rozptyl Jak číselně popsat vztah proměnných? Data se vyskytují v různých kvadrantech dle průměru ! Sdílený rozptyl počítejme obdobně jako rozptyl !! Průměr Institut biostatistiky a analýz, PřF a LF MU Výpočet kovariance IV 1; 2 8; 16 9; 18 6; 12 0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 X Y Kovariance = sdílený rozptyl Jak číselně popsat vztah proměnných? Data se vyskytují v různých kvadrantech dle průměru ! Sdílený rozptyl počítejme obdobně jako rozptyl !! Průměr 𝐶𝑜𝑣(𝑥, 𝑦) = σ𝑖=1 𝑁 𝑥𝑖 − ҧ𝑥 ∗ 𝑦𝑖 − ത𝑦 𝑁 − 1 Institut biostatistiky a analýz, PřF a LF MU Výpočet kovariance IV Cov = ? Cov = ? Cov = ? Institut biostatistiky a analýz, PřF a LF MU Výpočet kovariance IV Cov = kladné číslo Cov = 0 Cov = záporné číslo Existuje nějaké dané minimum a maximum kovariance? Institut biostatistiky a analýz, PřF a LF MU Výpočet kovariance IV Cov = kladné číslo Cov = 0 Cov = záporné číslo Existuje nějaké dané minimum a maximum kovariance? Neexistuje, teroeticky může být kovariance od - ∞ do +∞; nevýhoda při interpretaci Institut biostatistiky a analýz, PřF a LF MU Kovariance standardizovaných dat • Jak dopadne výpočet kovariance na datech se standardním normálním rozložením (průměr = 0, rozptyl =1)? 1; 2 8; 16 9; 18 6; 12 0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 -1.15; -1.15 0.46; 0.46 0.69; 0.69 0; 0 -1.5 -1 -0.5 0 0.5 1 -1.5 -1 -0.5 0 0.5 1 Cov = 38 Cov = 1 Institut biostatistiky a analýz, PřF a LF MU Výpočet Pearsonova korelačního koeficientu • Pearsonův korelační koeficient představuje standardizovanou formu kovariance 1; 2 8; 16 9; 18 6; 12 0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 -1.15; -1.15 0.46; 0.46 0.69; 0.69 0; 0 -1.5 -1 -0.5 0 0.5 1 -1.5 -1 -0.5 0 0.5 1 Cov = 38; r = 1 Cov = 1; r=1 𝑟 𝑥, 𝑦 = 𝐶𝑜𝑣(𝑥, 𝑦) 𝑠 𝑥 𝑠 𝑦 Institut biostatistiky a analýz, PřF a LF MU Výpočet Pearsonova korelačního koeficitu r = kladné číslo ≤ 1 r = 0 r = záporné číslo ≥ -1 Existuje nějaké dané minimum a maximum Pearsonova korelačního koeficientu? Ano, Pearsonův korelační koeficient se pohybuje v rozsahu <-1;1> Institut biostatistiky a analýz, PřF a LF MU Testování Pearsonova korelačního koeficientu PI (zem) 10 14 15 32 40 20 16 50 PI (rostl.) 19 22 26 41 35 32 25 40 6;8;,.....,1 === vnnI ( ) ( ) 7176,0 11 1 . ),( 2222 =     −    − − ==       iiii iiii yx y n yx n x yx n yx SS yxCov r I. 05,0::0 == H ( ) 7076,06 ==vr:tab II.  =:0H 2 1 2 −      − = n r r t 2−= nv 0,05P      = == − 447,2 524,26 6965,0 7176,0 )2( 975,0 n t t :tab Institut biostatistiky a analýz, PřF a LF MU Srovnání dvou korelačních koeficientů (r) 1. 2. 682,0 1258 1 1 = = r n 402,0 462 2 2 = = r n Krevní tlak x koncentrace kysl. radikálů ( ) ( )i i i r r Z − + = 1 1 log1513.1 833,01 =Z 426,02 =Z 05,0: 210 ==  ;H:Test 461,7 0545,0 407,0 3 1 3 1 21 21 == − + − − = nn ZZ Z 96,1975,0 =Z:tabulky 7,461 >> 1,96 => P << 0,01 Institut biostatistiky a analýz, PřF a LF MU Neparametrická korelace (Spearmanův korelační koeficient - rs) PI v půdě 1 2 3 6 7 5 4 8 PI v rostl. 1 2 4 8 6 5 3 7 dI 0 0 1 2 -1 0 -1 -1 i = 1, ….. n; n = 8 => v = 6 ( ) 9048,0 1 6 1 2 2 = −  −=  nn di rs ( ) 89,06 ==vrs:tab ( ) 857,0 1497 86 1 = −  −=sr P = 0,358 Pacient č. 1 2 3 4 5 6 7 Lékař 1 4 1 6 5 3 2 7 Lékař 2 4 2 5 6 1 3 7 dI 0 -1 1 -1 2 -1 0 Institut biostatistiky a analýz, PřF a LF MU Pearsonův a Spearmanův korelační koeficient • Porovnání hodnot Pearsonova (r) a Spearmanova (rs) korelačního koeficientu umožňuje posoudit typ vztahu promenných Obdobná hodnota r a rs Vysoké r (díky odlehlé hodnotě) a nízké rs (odlehlá hodnota odstraněna transformací na pořadí) Nízké r (díky nelinearitě vztahu) a vysoké rs (v pořadích jde o silný vztah obou proměnných) Institut biostatistiky a analýz, PřF a LF MU Korelace v grafech I. Y X Y X Vztahy velmi často implikují funkční vztah mezi Y a X. Y = a + b . X Y = a + b1 . X1 + b2 . X2 + b3 . X3 Y = a + b1 . X1 + b2 . X2 Y = a + b1 . X1 + b2 . X2 + b3 . X1 . X2 Institut biostatistiky a analýz, PřF a LF MU Korelace v grafech II. Problém rozložení hodnot Problém typu modelu X Y X r = 0,981 (p < 0,001) r = 0,761 (p < 0,032) Y Problém velikosti vzorku Y X Y X r = 0,891 (p < 0,214) r = 0,212 (p < 0,008) Institut biostatistiky a analýz, PřF a LF MU Vytváření modelů Prediktory Vysvětlovaná proměnná 1.Tvorba modelu •Parametry ovlivňující vysvětlovanou charakteristiku pacienta • Rovnice umožňující predikci • Platnost modelu pouze v rozsahu prediktorů 2.Validace modelu • Nebezpečí „přeučení“ modelu • Testování modelu na známých datech •Krosvalidace 3. Aplikace modelu • Individuální predikce stavu nenámých pacientů • Model musí být podložen korektní statistikou a rozsáhlými daty ? ? ? Institut biostatistiky a analýz, PřF a LF MU Cíl stochastického modelování • Obecným cílem je snaha vysvětlit variabilitu predikované proměnné (endpoint, Y) pomocí prediktorů (vysvětlující proměnná, faktor, X) • Jak predikovaná proměnná, tak prediktor mohou být různého typu • Binární • Kategoriální • Ordinální • Spojitá • Cenzorovaná (-> analýza přežití) • Kombinace datového typu predikované proměnné a prediktoru určuje použitou metodu analýzy 4 4 .5 5 5 .5 6 6 .5 7 7 .5 8 8 .5 Proč variabilita ? 4 4 .5 5 5 .5 6 6 .5 7 7 .5 8 8 .5 Vysvětluje kategoriální prediktor? 0 0 .2 0 .4 0 .6 0 .8 1 1 .2 1 .4 1 .6 1 .8 2 2 .2 2 .4 2 .6 4 4 .5 5 5 .5 6 6 .5 7 7 .5 8 8 .5 Vysvětluje spojitý prediktor? Institut biostatistiky a analýz, PřF a LF MU Základy regresní analýzy • Regrese - funkční vztah dvou nebo více proměnných Jednorozměrná y = f(x) Vícerozměrná y = f(x1, x2, x3, ……xp) Vztah x, y Deterministický Regresní, stochastický Y X Y X Y X Pro každé x existuje pravděpodobnostní rozložení y Institut biostatistiky a analýz, PřF a LF MU Lineární regrese I  ++++= XexbaY y xbyaa −= :)(intercept slope)(sklon;xbX  ( ) ( )xNe ye 22 ;0;0  = :složkanáhodná} Komponenty tvořící y se sčítají  - náhodná složka modelu přímky = rezidua přímky ( ) reziduírozptyl 22 xye  Institut biostatistiky a analýz, PřF a LF MU Lineární regrese II y 1 n x y1 n 1 n = a + b . x y - y = e Y X Institut biostatistiky a analýz, PřF a LF MU Lineární regrese III x x y y y y e e = 0 2 ys 2 es Y X y b = 0 22 ey ss = Y X y b > 0 22 ey ss  Institut biostatistiky a analýz, PřF a LF MU Lineární regrese IV • Metoda nejmenších čtverců • X: Pevná, nestochastická proměnná • Rozložení hodnot y pro každé x je normální • Rozložení hodnot y pro každé x má stejný rozptyl • Rezidua jsou navzájem nezávislá a mají normální rozložení yyd xy  −= ( )XXbyy i −+= ( )XXbyyd ixy −−−= Smysl proložení přímky minimalizace odchylek ( )  −−−→ XXyd ixy  2 Y X Y + [X;Y] X Xi }Y } ( )XXb i − ( )XXb i − ( )XXb i − {xy d  xy d  xy d  Y Y Institut biostatistiky a analýz, PřF a LF MU Lineární regrese V I. ( )( ) ( )  − −− = 2 ~ XX YYXX bb i ii : ( ) 2 2 22 1 :~ xy i b S XX S  −  regressionfromdeviationstandardsample regressionfromdeviationsquaredmean = =   xy xy S S2 ( ) 22 22 2 2 2 2 − −−− = − =      n XXb n Y Y n d S i i i xy xy II. XbYaa −=:~  intercept 2 2 2 222 1 ~ xya S X X n SS          +=  III. Y : modelová hodnota ii XbaY −=  ( ) ( )  − +=  2 2 1 X XX n SS i xyyi  Institut biostatistiky a analýz, PřF a LF MU Vyčerpaná variabilita a její statistická významnost • Základním ukazatelem kvality modelu je množství varibility, které je modelem vysvětleno • Obecně se značí R2 a uvádí se v procentech nebo podílu celkové variability (v případe lineární regrese jde o Pearsonův korelačnín koeficient na druhou) • Statistickou významnost vyčepané variability je možné testovat pomocí analýzy rozptylu 6 7 8 9 10 11 12 13 14 15 6 7 8 9 10 11 12 13 14 15 V2cov1:V3cov1: r2 = 1.0000 6 7 8 9 10 11 12 13 14 6 7 8 9 10 11 12 13 14 15 V1cov07:V2cov07: r2 = 0.5763 5 6 7 8 9 10 11 12 13 14 6 7 8 9 10 11 12 13 14 V1noCov:V2noCov: r2 = 0.0013 Institut biostatistiky a analýz, PřF a LF MU Analýza rozptylu v regresi • Výpočet statistické významnosti rozptylu vyčerpaného regresním modelem Celková ANOVA SSB/SST (variance ratio) MSB/MSE = F Analýza rozptylu regresního modelu (zde přímky) (SSMOD/SST) . 100 = % rozptylu Y "vyčerpaného" přímkou = koeficient determinace (R2) Zdroj rozptylu st.v. SS MS F Model (přímka) 1 SSMOD MSMOD MSMOD / MSR Residuum na - 2 SSR MSR celkem na - 1 SST Institut biostatistiky a analýz, PřF a LF MU Lineární regrese: analýza reziduí  0 0 ! y (i; x) 0  0 y (i; x)  0 y (i; x) ! Grafy residuí modelů (příklady) Obecné tvary residuí modelů (schéma) e i, xj, y e i, xj, y a b e i, xj, y e i, xj, y c dd Institut biostatistiky a analýz, PřF a LF MU Adjustace proměnných na vliv jiných proměnných 1. V prvním kroku definujeme regresní model vztahu věku a adjustovaného parametru 2. Pro každého pacienta je vypočteno jeho reziduum od regresní přímky 3. Reziduum (představující hodnotu parametru po odečtení vlivu věku, jeho průměr je 0) je přičteno k průměrné hodnotě parametru 4. Výsledná adjustovaná hodnota má odečten vliv věku, ale zároveň není změněna číselná hodnota parametru Původní data Adjustovaná data Institut biostatistiky a analýz, PřF a LF MU Ověření modelu na nezávislém souboru • Při tvorbě modelů může dojít k problému, kdy vytvořený model je perfektně „vycvičen“ řešit danou úlohu na datovém soubor na němž byla vytvořena • Z tohoto důvodu je problematické testovat výsledky modelu na stejném souboru, na němž byla vytvořena -> jde o důkaz kruhem • Řešením je testování výsledků modelu na souboru se známým výsledkem (zde známým zařazením objektů do skupin), který se nepodílel na definici modelu • Krosvalidace • datový soubor je náhodně rozdělen na několik podsouborů (2 nebo více) • Na jednom podsouboru je vytvořen model a jeho výsledky testovány na zbývajících podsouborech • Výpočet je proveden postupně na všech podsouborech • One out leave out • Model je vytvořen na celém souboru bez jednoho objektu • na tomto objektu je model testován • postup je zopakován pro všechny objekty • Permutační metody • Jackknife, bootstrap – model je postupně vytvářen na náhodných podvýběrech souboru a testován na zbytku dat Podsoubor I Model I Podsoubor II Model II Testování Model I Testování Model II Institut biostatistiky a analýz, PřF a LF MU Statistická významnost vs. praktické využití modelu • Při aplikaci modelu v praxi je třeba zohlednit jak zjištěné statistické významnosti, tak praktický význam výstupů modelu • Jde o analogii k statistické vs. praktické významnosti rozdílů např. v t –testu • Statistická významnost = vztah mezi proměnnými, rozdíl mezi skupinami není pouhá náhoda (respektivě je dostatečně nízká pravděpodobnost, že nejde o náhodu) • Praktický význam modelu • Z hlediska prediktorů: změna predikované hodnoty při změně prediktoru je prakticky významná (např. velikost nárůstu krevního tlaku při změně věku o 10 let) • Z hlediska objektů: Individuální predikce pacienta je dostatečně přesná aby byla prakticky využitelná (predikce různých událostí – hospitalizace, úmrtí, vznik komplikací, výsledek léčby atd.) Institut biostatistiky a analýz, PřF a LF MU Rozsah aplikovatelnosti modelu • Modely je možné aplikovat pouze v rozsahu prediktorů, na nichž byly vyvinuty • Důvodem je naše neznalost chování vztahů mezi prediktory a predikovanou proměnnou mimo hranice v nichž byl model definován (typickými příklady jsou např. křivky dávka-odpověď, růst dětí v závislosti na věku, růst baktérií v závislosti na substrátu apod.) 0 20 40 60 80 100 120 140 160 180 200 0 5 10 15 20 mean-3SD mean-2SD mean-SD mean mean+SD mean+2SD mean+3SD Výška(cm) Věk (roky) Lineární model odvozený z části dat Model dobře funguje v tomto rozsahu Při aplikaci v této oblasti model nadhodnocuje Data: WHO Growth reference 5-19 years Institut biostatistiky a analýz, PřF a LF MU Rozsah aplikovatelnosti modelu: příklad Institut biostatistiky a analýz, PřF a LF MU Obecné zásady tvorby predikčních modelů • Požadavky na kvalitní predikční model • Maximální predikční síla • Maximální interpretovatelnost • Minimální složitost • Tvorba modelů • Neobsahuje redundantní proměnné • Je otestován na nezávislých datech • Výběr proměnných • Algoritmy typu dopředné a zpětné eliminace jsou pouze pomocným ukazatelem při výběru proměnných finálního modelu • Při výběru proměnných se uplatní jak klasické statistické metody (ANOVA), tak expertní znalost významu proměnných a jejich zastupitelnosti Institut biostatistiky a analýz, PřF a LF MU Dopředná a zpětná eliminace • Dopředná a zpětná eliminace proměnných z modelu (forward, backward stepwise) je obecná technika používaná při tvorbě regresních, diskriminačních a jiných modelů • Proměnné jsou do modelu postupně přidávány (ubírány) podle jejich významu v modelu Každá proměnná je individuálně zhodnocena co do významu pro diskriminaci skupin V 1. kroku je vybrána proměnná s největším individuálním významem pro diskriminaci skupin K vybrané proměnné jsou postupně přidávány další proměnné a je hodnocen význam dvojic proměnných pro diskriminaci skupin V 2. kroku je do modelu přidána ta proměnná, která v kombinaci s již dříve vybranými proměnnými nejvíce přispívá k diskriminaci skupin Postup je opakován až do vyčerpání všech proměnných nebo do situace kdy přidání další proměnné již nevylepšuje diskriminační schopnosti modelu Schéma dopředné eliminace proměnných v modelu V případě zpětné eliminace začíná proces od modelu se všemi proměnnými a postupně jsou vyřazovány proměnné s nejmenším příspěvkem k diskriminační síle modelu Proces je třeba expertně kontrolovat, riziková je např. přítomnost redundantních proměnných Institut biostatistiky a analýz, PřF a LF MU Kroky regresní analýzy • Regresní analýza (a obecně i jiné stochastické modely) by měla probíhat v následujících krocích 1. Ověření obecných předpokladů – normalita dat, linearita vztahu 2. Výpočet modelu 3. Analýza reziduí modelu umožňující ověřit vhodnost aplikace lineárního nebo jiného modelu 4. Analýza vyčepané variability testující, zda model variabilitu dat významně vysvětluje 5. Testování regresních koeficientů 1. Posouzení významnosti komponent modelu 2. Praktická smysluplnost modelu 6. Závěr o využitelnosti a smysluplnosti modelu Predikce binárních endpointů ROC analýza Logistická regrese Institut biostatistiky a analýz, PřF a LF MU ROC analýza • Nástroj pro identifikaci cut-off (hranice rozdělení spojitých dat) ve spojitých datech vzhledem k co nejlepšímu odlišení binárního endpointu • Výsledkem je binarizace spojité proměnné, která je často lépe interpretovatelná než výsledky na spojitých datech • Identifikace konkrétního cut-off souvisí s preferencí buď sensitivity nebo specificity pro identifikaci endpointu • Upřednostnění sensitivity nebo specificity je do určité míry subjektivní dle reálného cíle analýzy • Vysoká sensitivita – screeningový test, kdy je třeba zachytit všechny možné nemocné (např. závažné onemocnění, které je třeba zachytit v počátečním stadiu) • Vysoká specificita – pokud je nezbytné odchytit pouze skutečně nemocné pacienty (např. nechceme vystavovat pacienty zbytečné léčbě málo závažného onemocnění) Institut biostatistiky a analýz, PřF a LF MU ROC analýza • Identifikace cutt offs pro kategorizaci spojitých proměnných aby při jejich užití v modelech byla maximalizována jejich sensitivita a specificita Kde leží optimální hranice mezi skupinami? Identifikace hranice s nejvyšší sensitivitou a specificitou pro odlišení skupin Institut biostatistiky a analýz, PřF a LF MU Sensitivita a specificita • Klíčové pojmy v popisu vztahu dvou binárních proměnných = situace kdy predikujeme binární endpoint binárním prediktorem 1 – nemocný 0 - zdravý 1 – riziková skupina Skutečně pozitivní Falešně pozitivní 0 – neriziková skupina Falešně negativní Skutečně negativní 𝑠𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑎 = 𝑠𝑘𝑢𝑡𝑒č𝑛ě 𝑝𝑜𝑧𝑖𝑡𝑖𝑣𝑛í 𝑠𝑘𝑢𝑡𝑒č𝑛ě 𝑝𝑜𝑧𝑖𝑡𝑖𝑣𝑛í + 𝑓𝑎𝑙𝑒š𝑛ě 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑛í 𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑎 = 𝑠𝑘𝑢𝑡𝑒č𝑛ě 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑛í 𝑠𝑘𝑢𝑡𝑒č𝑛ě 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑛í + 𝑓𝑎𝑙𝑒š𝑛ě 𝑝𝑜𝑧𝑖𝑡𝑖𝑣𝑛í Institut biostatistiky a analýz, PřF a LF MU Výstupy ROC • Sensitivita a specificita v každém bodě křivky – mohou být doplněny o IS • Nejlepší kombinace sensitivity a specificity určuje příslušný dělící bod spojité proměnné • Při identifikaci cut-off je třeba také kontrolovat, aby výsledná riziková skupina neobsahovala pouze minimum hodnot (cut-off oddělující jednoho pacinta nemá téměř smysl) AUC (plocha pod křivkou) + IS Čím odlišnější od 0.5, tím lepší identifikace endpointu Testování významnosti AUC Institut biostatistiky a analýz, PřF a LF MU ROC – příklad Odlišení dvou skupin pacientů (modří=zdraví; červení=nemocní) 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 20 40 60 80 100 120 140 160 sensitivita specificita sensitivita + specificita Analyzovaná spojitá proměnná Optimální cut-off s nejvyšší specificitou a sensitivitou Institut biostatistiky a analýz, PřF a LF MU Logistická regrese • Logistická regrese je základním nástrojem pro analýzu závislosti binárního endpointu (úmrtí, komplikace, výskyt taxonu, příslušnost do kategorie atd.) na spojitých nebo binárních prediktorech • Cílem analýzy je: • Identifikace vztahů mezi prediktory a endpointem a jejich popis (odds ratio) • Vytvoření predikčního modelu umožňujícího zařazení pacientů do hodnocených skupin • Logistická regrese patří do skupiny zobecněných lineárních modelů (lineární statistické modely s linkovací funkcí) y=exp(-28.41096581446+(.29929760633475)*x)/(1+exp(-28.41096581446+ (.29929760633 40 60 80 100 120 140 160 0.0 0.2 0.4 0.6 0.8 1.0 Příklad logistické regrese: predikce binární charakteristiky (osa y) za pomoci spojité proměnné (osa x) Model logistické regrese Institut biostatistiky a analýz, PřF a LF MU Princip logistické regrese • V logistické regresi modelujeme vliv spojitých nebo binárních prediktorů na endpoint s binomickým rozdělením - > není možné použít klasickou lineární regresi • Predikujeme pravděpodobnost výskytu jevu pomocí rovnice: • Kde je tzv. logit, linkovací funkce pro logistickou regresi a rovnice a+b*x je použitý lineární model • Pojem linkovací funkce je spjat se zobecněnými lineárními modely, kdy linkovací funkce převádí problém nelineární závislosti y na x na lineární model • Zjednodušeně řečeno „nelineární vztah=linkovací funkce(lineární model)“ • Zobecněný lineární model s linkovací funkcí „identita“ = lineární model 𝑃 𝑥 = exp(𝑎 + 𝑏 ∗ 𝑥) 1 + exp(𝑎 + 𝑏 ∗ 𝑥) exp(𝑟𝑜𝑣𝑛𝑖𝑐𝑒) 1 + exp(𝑟𝑜𝑣𝑛𝑜𝑐𝑒) Institut biostatistiky a analýz, PřF a LF MU Odds ratio a logistická regrese • Popisuje míru rizika spjatou: • U spojitých proměnných se změnou hodnoty o 1 (z tohoto důvodu se spojité proměnné často převádí na interpretovatelné jednotky – např. věk po destiletích, koncentrace po stovkách jednotek) • U binárních proměnných spjatých s výskytem vlastnosti (kódováno jako 1) • U klasických dummies jde o riziko vůči všem ostatním pacientům bez dané vlastnosti • U binárních proměnných kódovaných vůči referenční kategorii jde o nárůst oproti pacientům v referenční kategorii • Odds ratio je exponenciální hodnota koeficientu regresní rovnice Institut biostatistiky a analýz, PřF a LF MU Logistická regrese: shrnutí • Základní nástroj pro identifikaci faktorů ovlivňujících výskyt binárních endpointů a predikci individuální pravděpodobnosti výskytu endpointů • Použitelná jako obdoba diskriminační analýzy pro 2 skupiny • Popisuje míru rizikovosti prediktorů pro binární endpoint ve formě odds ratia • Pro vícerozměrné modely je důležité analyzovat redundanci parametrů a stabilitu vícerozměrných modelů • Pro praktické nasazení modelů je nezbytná jejich krosvalidace, popřípadě jiné metody testování nasazení modelů na nezávislých datech • Neumí pracovat s cenzorovanými daty (analýza přežití) • Standardní metodika analýzy rizikových faktorů pro binární endpointy (výskyt něčeho – úmrtí, taxon atd.) Vícerozměrná analýza dat: úvod Principy a využití vícerozměrné analýzy dat Institut biostatistiky a analýz, PřF a LF MU Anotace • Vícerozměrná analýza dat představuje nadstavbu nad klasickou, jednorozměrnou statistikou a je zvláště vhodná pro biologická a medicínská data, která jsou vícerozměrná již svou podstatou • Při vícerozměrné analýze je nicméně nezbytné si uvědomit, že povětšinou vychází ze stejných principů jako jednorozměrné analýzy a tedy i zde je nezbytné dodržovat předpoklady na nichž je výpočet založen. Tento fakt je důležité si uvědomit zejména vzhledem k relativní dostupnosti vícerozměrných analýz v moderních statistických software. Institut biostatistiky a analýz, PřF a LF MU Vztah klasické a vícerozměrné statistiky • Vícerozměrná analýza dat využívá přístupů klasické statistiky • Zároveň je citlivá i na jejich problémy • Agregace dat přes sumární statistiku nebo kontingenční tabulky – korespondenční analýza • Korelace – analýza hlavních komponent, faktorová analýza, diskriminační analýza ! Institut biostatistiky a analýz, PřF a LF MU Vícerozměrné vnímání skutečnosti - nová kvalita analýzy dat x1 x2 n skupina 1 x1 skupina 2 Vícerozměrný systém skup. 1 skup. 2 x 1 x2 x2 skup. 2skup. 1 Klasická jednorozměrná analýza Institut biostatistiky a analýz, PřF a LF MU Běžná sumarizace dat „likviduje“ individualitu jedince Průměr ± SE BĚŽNÁ STATISTICKÁ SUMARIZACE ✓ Zpřehlednění dat ✓ Neodliší původní měření ? Institut biostatistiky a analýz, PřF a LF MU Vícerozměrné hodnocení X2 X3 …… Xp X3 …… Xp W X1 X3 …… Xp . . . . . . . . . . . X1 . . . . . . . . . . . X2 X1 X2 … s ohledem na individualitu ! Institut biostatistiky a analýz, PřF a LF MU Vícerozměrné hodnocení – nová kvalita A A A A A A A A AA A A A A A A A A A B B B B B B B B B B B B B B B B B B B B A X2 X1 B B Pouze kombinované parametry mají odpovídající informační sílu Institut biostatistiky a analýz, PřF a LF MU Příklady vícerozměrného rozdělení • R – knihovna MSBVAR Institut biostatistiky a analýz, PřF a LF MU Vícerozměrné charakteristiky rozdělení • Základní charakteristikou vícerozměrného rozdělení je vektor středních hodnot (vektor průměrů) • a kovariační matice • kde je kovariance dvou náhodných veličin, tj. ( )               = )E(X )E(X )E(X E p 2 1  X               === 2 21 2 2 212 121 2 1 )cov()var( ppp p p        XXΣ ij ( ) ( )( ) ( )( )jjiijiij XEXXEXEX,Xcovσ −−== Institut biostatistiky a analýz, PřF a LF MU Příklad vícerozměrného rozdělení I vmat1=matrix(c(1,0,0, 0,1,0, 0,0,1),3,3) x1<-rmultnorm(1000,c(10,10, 10), vmat1, tol = 1e-10) write.table(x1,"x1.txt") vmat2=matrix(c(1,0.5,0.5, 0.5,1,0.5, 0.5,0.5,1),3,3) x2<-rmultnorm(1000,c(10,10, 10), vmat2, tol = 1e-10) write.table(x2,"x2.txt") Institut biostatistiky a analýz, PřF a LF MU Příklad vícerozměrného rozdělení II vmat4=matrix(c(1,0.7,0.7, 0.7,1,0.7, 0.7,0.1,1),3,3) x4<-rmultnorm(1000,c(10,10, 10), vmat4, tol = 1e-10) write.table(x4,"x4.txt") vmat3=matrix(c(1,1,1, 1,1,1, 1,1,1),3,3) x3<-rmultnorm(1000,c(10,10, 10), vmat3, tol = 1e-10) write.table(x3,"x3.txt") Institut biostatistiky a analýz, PřF a LF MU Vícerozměrné hodnocení vychází z jednoduchých principů • Nejsnáze představitelným měřítkem vztahu dvou objektů ve vícerozměrném prostoru je jejich vzdálenost • Nejjednodušším typem této vzdálenosti (bohužel s omezeným použitím na data společenstev) je Euklidovská vzdálenost vycházející z Pythagorovy věty a b c y11 y12 y21 y22 2 211211 )(),( jj p j yyxxD −= = X1 X2 Institut biostatistiky a analýz, PřF a LF MU Korelace jako princip výpočtu vícerozměrných analýz • Kovariance a Pearsonův korelační koeficient je základem analýzy hlavních komponent, faktorové analýzy jakož i dalších vícerozměrných analýz pracujících s lineární závislostí proměnných • Předpokladem výpočtu kovariance a Pearsonova korelačního koeficientu je: • Normalita dat v obou dimenzích • Linearita vztahu proměnných • Pro vícerozměrné analýzy je nejzávažnějším problémem přítomnost odlehlých hodnot x y x y x y Lineární vztah – bezproblémové použití Pearsonova korelačního koeficientu Korelace je dána dvěma skupinami hodnot – vede k identifikaci skupin objektů v datech Korelace je dána odlehlou hodnotu – analýza popisuje pouze vliv odlehlé hodnoty Institut biostatistiky a analýz, PřF a LF MU Analýza kontingenčních tabule jako princip výpočtu vícerozměrných analýz • Abundance taxonů (nebo počet jakýchkoliv objektů) na lokalitách lze brát jako kontingenční tabulku a mírou vztahu mezi řádky (lokality) a sloupci (taxony) je velikost chi-kvadrátu  2 )1( pozorovaná četnost očekávaná četnost očekávaná četnost= 2 Počítáno pro každou buňku tabulky  ☺ A 10 0 B 0 10 Pozorovaná tabulka  ☺ A 5 5 B 5 5 Očekávaná tabulka Hodnota chi-kvadrátu definuje míru odchylky dané buňky (v našem kontextu vztahu taxon-lokalita) od situace, kdy mezi řádky a sloupci (taxon-lokalita) není žádný vztah Institut biostatistiky a analýz, PřF a LF MU Pojmy vícerozměrných analýz • Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena jednotlivými objekty a každý z nich je charakterizován svými parametry a každý z těchto parametrů můžeme považovat za jeden rozměr objektu. • Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty. • NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem vstupu dat do vícerozměrných analýz. • Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají další výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv. metriky) buď objektů (Q mode analýza) nebo parametrů (R mode analýza).Měřítko podobnosti se liší podle použité metody a typu dat, některé metody umožňují použití uživatelských metrik. Institut biostatistiky a analýz, PřF a LF MU Vstupní matice vícerozměrných analýz Hodnoty parametrů pro jednotlivé objekty NxP MATICE ASOCIAČNÍ MATICE Korelace, kovariance, vzdálenost, podobnost Výpočet metriky podobností/ vzdáleností Institut biostatistiky a analýz, PřF a LF MU Základní typy vícerozměrných analýz • vytváření shluků objektů na základě jejich podobnosti • identifikace typů objektů • zjednodušení vícerozměrného problému do menšího počtu rozměrů • principem je tvorba nových rozměrů, které lépe vyčerpávají variabilitu dat SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY KLASIFIKACE  Model zařazení neznámých pacientů do předem daných skupin  Řada algoritmů MODELOVÁNÍ  Predikční modely s více prediktory  Regresní metody i další typy algoritmů Institut biostatistiky a analýz, PřF a LF MU Typy vícerozměrných analýz Diskriminační prostor y x SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY x y Faktorové osy y x podobnost KLASIFIKACE Institut biostatistiky a analýz, PřF a LF MU Děkuji za pozornost, doufám jste si ze semestru něco odnesli ☺