‹#› 1 * ‹#› 2 STATISTIKA © Biochemický ústav LF MU (V.P.) 2010 ‹#› 3 Účelem není znát vzorce a výpočty (to by bylo zcela zbytečné), ale vědět, co to znamená ! The purpose is not the knowledge of formulas and calculations (it would be useless), however to know what it means ! useless [,ju:sləs] = zbytečný, marný, neúčelný ‹#› 4 Některé technické jevy ® konstantnost ® „jistota“ Lipno I  Lipno II Vyšší Brod  Hněvkovice  Kořensko  Orlík  Kamýk  Slapy  Štěchovice  Vrané  Praha Podolí, okr. Písek  „podolský most“, Tábor – Písek, Orlická přehrada, stavba 1938-42, příprava od 1935, celkem 510 m, parabolický oblouk 150 m, patřil k největším v Evropě: ve své době měly větší mosty jen F, E a S. ‹#› 5 Biologické jevy ® variabilita ® pravděpodobnost ‹#› 6 živý organismus ® biologická variabilita rozdělení četnosti biologických jevů symetrické, asymetrické „normální rozdělení“ „Gaussovské rozdělení“ („Z rozdělení“) ‹#› 7 Carl Friedrich Gaub (1777 – 1855) německý matematik the German mathematician Gaussova křivka the Gaussian curve mathematician ['mae0əmə,tišn] = matematik ‹#› 8 Carl Friedrich Gaub (1777 – 1855) německý matematik the German mathematician Gaussova křivka the Gaussian curve DM10O mathematician ['mae0əmə,tišn] = matematik ‹#› 9 Gauss, (věk 9 let) : „ součet číselné řady 1 až 100 “ ‹#› 10 1 + 100 2 + 99 3 + 98 4 + 97 …. …. 50 + 51 = 101 (1. dvojice) = 101 (2. dvojice) = 101 (3. dvojice) = 101 (4. dvojice) … …. = 101 (50. dvojice) 50 • 101 = 5.050 Gauss, (věk 9 let) : „ součet číselné řady 1 až 100 “ ‹#› 11 Gauss2 The curve of the probability density function is symmetrical and bell-shaped (= „normal distribution“, „the Gaussian distribution“) Křivka rozložení funkce pravděpodobnosti je symetrická a zvonovitého tvaru (= „normální rozdělení“, „Gaussovské rozdělení“) ‹#› 12 ‹#› 13 Gauss3 Intervaly pravděpodobnosti rozložení v % jsou dány aritmetickým průměrem a standardními odchylkami (s) . ‹#› 14 Gauss4 „Normální hodnoty“ : v medicínských a biologických studiích je to dohodnuté rozpětí hodnot vymezené 95 % intervalem spolehlivosti (oboustranně ohraničený interval spolehlivosti) ‹#› 15 Gauss4 „Normální hodnoty“ („referenční hodnoty“) : Podle běžné konvence referenční hodnoty zahrnují celou populaci. Interval je však ohraničen oboustranně 2,5 % pásmem očekávaných hodnot. Ve skutečnosti tedy 5 % výsledků „normální“ zdravé populace bude ležet mimo referenční hodnoty. od …. do ‹#› 16 Nesymetrické rozdělení : modus median průměr levostranně asymetrické rozdělení, „logaritmicko-normální“ (lognormální) rozdělení ‹#› 17 pravostranná Nesymetrické rozdělení : pravostranně asymetrické rozdělení, „logaritmicko-normální“ (lognormální) rozdělení u symetrického rozdělení: ‹#› 18 ‹#› 19 neGauss 95 % interval spolehlivosti odvozený z jednotlivých hodnot, seřazených podle své velikosti ‹#› 20 základní soubor population výběrový soubor sample průměr mean, average směrodatná odchylka standard deviation σn σn-1 Dohodnutá symbolika / conventional symbolism : conventional [kən‘venšənl] = konvenční, dohodnutý, symbolism [,simbəlizəm] = symbolika / symbolismus mean [mi:n] = průměr / znamenat, myslet / ale také: skoupý, lakomý, skromný, podlý, hanebný, opovržení hodný aj. ( angličtina = opovržení hodný jazyk) average [,aevəridž] = průměr (matem.) / the law of averages = zákon velkých čísel, zákon pravděpodobnosti population ['popju‚leišn] = základní soubor / populace, obyvatelstvo, celkový počet, stav sample [,sa:mpl] = vzorek, výběr / vzorový, ukázkový μ [mju:] , σ , Σ ['sigmə], σ[n] = sigma sub n ['sigmə sab en], Σ = sum [sam] = součet x: x band [eks baend], x bar = x s pruhem square root (of …) [skweər ru:t] = druhá odmocnina numerator [,nju:məreitər] = čitatel (zlomku), denominator [di,nomineitər] = jmenovatel (zlomku), fraction [,fraekšn] = zlomek power [,pauər] = mocnina / síla, moc, vláda … 2^2 = two square(d), two to the second / to the power of two ‹#› 21 21,51 ± 3,397 (n = 33) rozpětí / range 08/25 …… 25/25 (krajní hodnoty / utmost values) 21,51 ± 4,009 (n = 33) sn základní soubor / population sn-1 výběrový soubor / sample ‹#› 22 Student t-test p = 0,86 (parametric/ký test) Rozdíly ? Differences ? Rozdíly nejsou statisticky významné na 5% hladině významnosti (není dosaženo p £ 0,05) → soubor lze použít jako celek / the files make a whole SE(M) = s / Ö n krabicový graf / box plot 2 soubory / 2 files ‹#› 23 PROBLÉM STATISTICKÉHO ZPRACOVÁNÍ DAT : relativně malé soubory (dáno skladbou vhodných pacientů) předpoklad neparametrického rozložení dat použití neparametrických testů problém: neparametrické testy mají většinou menší vypovídací schopnost než testy parametrické snažíme se použít parametrické testy, pokud má soubor normální rozložení dat (na předchozím schématu bylo proto použito parametrického testu …) ‹#› 24 NORMÁLNÍ (PARAMETRICKÉ) ROZLOŽENÍ ? normální rozložení souboru (normální distribuce dat) normální rozložení/rozdělení Gaussovo (zvonovitá křivka), ale i jiná, podobná rozložení = parametrické rozložení (je závislé na parametrech: průměr, směrodatná odchylka …) použití parametrických testů testy hodnotí parametry rozdělení: (míry polohy + míry variability) parametrické testy pracují s průměrem, neparametrické s mediánem ‹#› 25 „parametrické“ rozložení (závislost na „parametrech“: μ , σ ) „parametric“ distribution (dependence on „parameters“: μ , σ ) ‹#› 26 NORMÁLNÍ (PARAMETRICKÉ) ROZLOŽENÍ ? daty lze proložit křivkou obdobnou křivce Gaussově (test Shapiro – Wilk) → soubor dat má parametrické rozložení n = 22 ‹#› 27 NORMÁLNÍ (PARAMETRICKÉ) ROZLOŽENÍ ? daty lze proložit křivkou obdobnou křivce Gaussově (test Shapiro – Wilk) → soubor dat má parametrické rozložení n = 10 ‹#› 28 NORMÁLNÍ (PARAMETRICKÉ) ROZLOŽENÍ ? křivku se daty nepodařilo proložit → soubor dat NEMÁ parametrické rozložení → musí být hodnocen NEPARAMETRICKÝMI testy ! n = 35 ‹#› 29 Student t-test p = 0,000002 (parametrický test) STATISTICKY VYSOCE VÝZNAMNÝ ROZDÍL (p £ 0,001) n = 22 n = 10 ‹#› 30 Mann-Whithey U test p = 0.000087 (neparametrický test) STATISTICKY VYSOCE VÝZNAMNÝ ROZDÍL (p £ 0,001) stejná závislost, hodnocená neparametrickým testem, poskytne výsledek obdobný (preferovanému) testu parametrickému n = 22 n = 10 ‹#› 31 Student t-test p = 0.647314 (parametrický test) PARAMETRICKÝ TEST U NEPARAMETRICKÉHO ROZLOŽENÍ ? nesprávné použití parametrického testu: není zde dosaženo statisticky významného rozdílu, tj. neplatí, že p £ 0,05 n = 22 n = 35 ‹#› 32 Mann-Whithey U test p = 0.042093 (neparametrický test) STATISTICKY VÝZNAMNÝ ROZDÍL (p £ 0,05) správné použití neparametrického testu zde rozdíl zachytilo (p £ 0,05) n = 22 n = 35 ‹#› 33 Směrodatná odchylka : výukový vzorec praktický vzorec „s“ nebo „σn-1“ = pro výběrový soubor, v angl. literatuře také SD (standard deviation) standard deviation [staendəd 'di:‚vieišn] = směrodatná odchylka didactic / practical [di,daektik / ,praektikl] = výukový / praktický formula [,fo:mjulə] = vzorec ( ) = (round) brackets [,braekit] = kulaté závorky, parentheses [pə,ren0əsis] = kulatá závorka / vsuvka ‹#› 34 · · · · · · · · · · · · · · · · · (+) (-) součet prostých odchylek jednotlivých hodnot od aritmetického průměru je nulový součet čtverců odchylek se nerovná nule, proto je tento typ součtu používán pro výpočty odchylky od aritmetického průměru mají kladné a záporné hodnoty Statistika potřebuje nenulové hodnoty : ‹#› 35 Jak získá statistika nenulové hodnoty ? 1/ druhé mocniny všech čísel (kladných nebo záporných) jsou kladné, proto vidíte: nebo 2/ po provedených výpočtech jsou druhé mocniny „vráceny“ do původního stavu druhou odmocninou, proto vzorce: …… …… ‹#› 36 T-skóre + Z-skóre : +3 +2 +1 0 -1 SD ‹#› 37 T-skóre + Z-skóre : +3 +2 +1 0 -1 SD -1 SD ‹#› 38 · · · · · · · · · · · · · · · · · · pravdivě/správně, přesně Spolehlivost = pravdivost/správnost + přesnost : Charakteristikou přesnosti je variabilita. Mírou variability je např. rozptyl (s2) nebo variační koeficient (VK). reliability [rilaiə‚bility] = spolehlivost accuracy ['aekjurəsi] = správnost accurate [aekjurit] = správně precision [pri‘sižən] = přesnost precise [pri‘sais] = přesně coefficient of variation = [,koui‘fišnt əv ,veəri‘eišn] = variační koeficient variance [,veəriəns] = rozdíl, odlišnost, neshoda ‹#› 39 · · · · · · · · · · · · · · · přesně, nepravdivě/nesprávně Spolehlivost = pravdivost/správnost + přesnost : Nesprávné výsledky jsou dány odchylkou od správné hodnoty (nenáhodná, systematická chyba, bias) reliability [rilaiə‚bility] = spolehlivost accuracy ['aekjurəsi] = správnost accurate [aekjurit] = správně trueness [ ] = pravdivost precision [pri‘sižən] = přesnost precise [pri‘sais] = přesně ‹#› 40 Celková chyba / the total error (TE) : ‹#› 41 ‹#› 42 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · pravdivě/správně, nepřesně Spolehlivost = pravdivost/správnost + přesnost : reliability [rilaiə‚bility] = spolehlivost accuracy ['aekjurəsi] = správnost accurate [aekjurit] = správně precision [pri‘sižən] = přesnost precise [pri‘sais] = přesně ‹#› 43 biologické jevy variabilita pravděpodobnost : 1/ prostá (nepodmíněná) 2/ podmíněná ‹#› 44 · · · · · · · · · · · · · · · · · Počet hodů: 100 / 16,66 = 6 Počet hodů: 100 / 2,7 = 37 Počet hodů: 100 / 0,4 = 250 Pravděpodobnost prostá (nepodmíněná) : ( hra v kostky ) ‹#› 45 · · · · · · · · Počet hodů: 100 / 2,7 = 37 Pravděpodobnost prostá (nepodmíněná) : navzájem nezávislé jevy součin pravděpodobností ( nikoliv součet ! ) probability [probə'biliti] = pravděpodobnost unconditioned ['ankən,dišənt] = nepodmíněný dice [dais] = hrací kostka, hra v kostky roll [roul] = kutálet, válet / házet kostky ; throw [0rou] , threw [0ru:] , thrown [0roun] (1,2,1n) = házet event [i'vent] = případ, událost, akce ‹#› 46 · · · · · · · · · · · · · · · · · Pravděpodobnost prostá (nepodmíněná) : Čím více jevů, tím nižší celková pravděpodobnost ! probability [probə'biliti] = pravděpodobnost unconditioned ['ankən,dišənt] = nepodmíněný dice [dais] = hrací kostka, hra v kostky roll [roul] = kutálet, válet / házet kostky ‹#› 47 P = 0,951 = 95 % P = 0,952 = 90,25 % P = 0,953 = 85,74 % Pravděpodobnost prostá (nepodmíněná) : Čím více současně požadovaných laboratorních stanovení, tím menší pravděpodobnost, že výsledek jediného z nich bude ležet uvnitř 95 % intervalu spolehlivosti (u zdravého jedince). ‹#› 48 n = 1 n = 10 P = 0,95n p = (1 - 0,95n) P = 0,951 p = (1 - 0,951) = 95 % = 5 % P = 0,9510 p = (1 - 0,9510) = 0,5987 = 0,4013 ~ 60 % ~ 40 % Pravděpodobnost prostá (nepodmíněná) : pravděpodobnost výskytu 1 výsledku (zdravý jedinec) : 95 % interval spolehlivosti - uvnitř - mimo obecně : ‹#› 49 22stanovení P = 0,9522 = 0,3235 p = (1 - 0,95 22) = 0,6765 = 32,35 % = 67,65 % 22 stanovení / 22 determinations : ‹#› 50 KONEC „pravděpodobnosti prosté (nepodmíněné)“ ! THE END of „the simple probability (unconditional)“ ! ZAČÁTEK „podmíněné pravděpodobnosti“ ! THE START of „the conditional probability“ ! ‹#› 51 Podmíněná pravděpodobnost : P (T/D) = pravděpodobnost jevu „T“ za podmínky „D“ podmínka „D“ je vždy přítomna T = test T+ = positivní test T- = negativní test D = diagnóza, nemoc (disease) D+ = daná diagnóza je přítomna, nemoc je přítomna D- = daná diagnóza není přítomna, nemoc není přítomna ‹#› 52 Validita diagnostických testů : Tento typ diagnostických testů dává jen dva druhy odpovědi: „test negativní“ nebo „test positivní“ Validitu takových testů vyjadřují dva základní poměrné ukazatele: „sensitivita“ a „specificita“ (viz dále) ‹#› 53 kritická hodnota pro diferenciaci dvě překrývající se křivky ‹#› 54 správná pozitivita správná negativita ‹#› 55 falešná pozitivita falešná negativita ‹#› 56 správná pozitivita správná negativita falešná pozitivita falešná negativita ‹#› 57 pacient s nemocí (D+) pacient bez nemoci (D-) test je pozitivní (T+) a c test je negativní (T-) b d a = správná pozitivita b = falešná negativita c = falešná pozitivita d = správná negativita ST = a / (a + b) SF = d / (c + d) ‹#› 58 Podmíněná pravděpodobnost : P (T-/D-) = správná negativita, specifičnost, specificita (SF) SF = 0,7 ® použitelná metoda SF > 0,95 ® velmi dobrá metoda P (T+/D+) = správná pozitivita, senzitivita (ST) efektivita (vydatnost) = nejvyšší pravděpodobnost shody testu s diagnózou ‹#› 59 Senzitivita = podíl správné pozitivity testu „senzitivita“ ST = P (T+/D+) ~ „pozitivita“ = podmíněná pravděpodobnost P (T+/D+), že pacient s hledanou nemocí (D+) má pozitivní výsledek testu (T+) = pravděpodobnost pozitivního testu (T+) u pacientů s nemocí (D+) = schopnost testu dát pozitívní odpověď (T+) v případě, že vyšetřovaná osoba trpí danou nemocí (D+) ‹#› 60 Specificita = podíl správné negativity testu SF = P (T-/D-) = podmíněná pravděpodobnost P (T-/D-), že pacient bez hledané nemoci (D-) má negativní výsledek testu (T-) = pravděpodobnost negativního testu (T-) u pacientů bez nemoci (D-) = schopnost testu dát zápornou odpověď (T-) v případě, že vyšetřovaná osoba nemá danou nemoc (D-) ‹#› 61 ROC Operativní charakteristická křivka : ST 1 - SF • nespecifita ‹#› 62 senzitivita „ST“, citlivost = správná pozitivita = 1 – falešná negativita „1 – FN“ 1 – specificita „1 – SP“ = nespecificita = falešná positivita „FP“ ROC - křivka ‹#› 63 ~ 100 % správné pozitivity a 0 % falešné pozitivity ROC - křivka • ideální bod (nedosažitelný) ‹#› 64 • ‹#› 65 Dva soubory S-albuminu : normální hodnoty 1 D+ 2 D- D+ : hnísání rány, dehiscence rány, bronchopneumonie, sepse, tvorba dekubitů ‹#› 66 normální hodnoty • Kritická hodnota pro diferenciaci a ROC křivka (1) : ‹#› 67 normální hodnoty • Kritická hodnota pro diferenciaci a ROC křivka (2) : ‹#› 68 normální hodnoty • Kritická hodnota pro diferenciaci a ROC křivka (3) : ‹#› 69 ‹#› 70 A = analytická variabilita (reprodukovatelnost po dnech) B = biologická variabilita (proměnlivost u daného jedince) (95 % interval spolehlivosti) 2 srovnávané hodnoty Kritický rozdíl je veličina k posouzení statisticky významné odlišnosti dvou srovnávaných hodnot u stejného pacienta („sám sobě kontrolou“) ‹#› 71 Cholesterol: minulé stanovení 8,0 mmol/l (~ 100 %) dnešní stanovení 6,0 mmol/l (~ 75 %) - 25 % (pokles) Kritický rozdíl : ‹#› 72 Cholesterol: minulé stanovení 8,0 mmol/l (~ 100 %) dnešní stanovení 6,0 mmol/l (~ 75 %) - 25 % (pokles) Laboratoří sdělený kritický rozdíl pro cholesterol byl 19 % . Rozdíl u našeho pacienta (25 %) je větší než kritický rozdíl. Rozdíl u pacienta je tedy statisticky významný, (je větší než součet analytické a biologické variability). Pouhou náhodou může být způsoben jen výjimečně (s pravděpodobností < 5 %) Kritický rozdíl : ‹#› 73 Referenční hodnoty („normální hodnoty“) : referenční jedinec ® NE : 1.těhotné ženy 2.dítě / věk ? muž / žena ? 3.jedinci po fyzické námaze / po vystavení stresu 4.po požití potravy (výjimka: zátěžové stavy) 5.po podání léků 6.nemoc / rizikové faktory 7. .... „zdraví dárci krve“ ‹#› 74 Preanalytická variabilita : Standardní odběr : • poloha (vleže vs. ambulantně) • denní doba • nalačno • komprese žíly / prstu • doba a způsob srážení (druh a koncentrace antikoagulantu) • skladování (teplota, UV, ...) • doba dodání do laboratoře ‹#› 75 KONTROLA PROVOZU ‹#› 76 figurka1 ‹#› 77 xs Regulační diagram ‹#› 78 figurka3 ‹#› 79 Westgard Westgard ‹#› 80 Westgard2 ‹#› 81 skenovat0036 ‹#› 82 skenovat0043 ‹#› 83 skenovat0035 ‹#› 84 kontroly1 ‹#› 85 kontroly2 ‹#› 86 figurka2 ‹#› 87 Nedorozumění laboratorních a klinických oddělení : 1/ 95 % interval spolehlivosti 2/ „kvalita samotného laboratorního výsledku nikdy nemůže být lepší než kvalita dodaného vzorku !“ 3/ biochemický „make up“ ‹#› 88