1 STATISTIKA © Biochemický ústav LF MU (V.P.) 2008 2 STATISTICS © Department of Biochemistry, Faculty of Medicine, MU (V.P.) 2008 3 Účelem není znát vzorce a výpočty (to by bylo zcela zbytečné), ale vědět, co to znamená ! The purpose is not the knowledge of formulas and calculations (it would be useless), however to know what it means ! 4 Některé technické jevy — konstantnost — „jistota" Some technical events —> constancy —> ^confidence" Biologické jevy —> variabilita — pravděpodobnost Biological events —> variability —> probability živý organismus —» biologická variabilita rozdělení četnosti biologických jevů symetrické, asymetrické „normální rozdělení" „Gaussovské rozdělení" 9 living organismus —> biological variability the frequency distribution of biological V^^^^events symmetrical, non-symmetrical „the normal distribution", „the Gaussian distribution" 10 Carl Friedrich Gauß (1777 -1855) Gaussova křivka the Gaussian curve 11 Křivka rozložení funkce pravděpodobnosti je symetrická a zvonovitého tvaru (= „normální rozdělení", „Gaussovské rozdělení") The curve of the probability density function is symmetrical and bell-shaped (= „normal distribution", „the Gaussian distribution") 12 Intervaly pravděpodobnosti rozložení x + 3s — 13 14 Normální hodnoty66 : = 2.5% x + 1,96a i---> p = 5" % <---• i v medicínských a biologických studiích je to dohodnuté rozpětí hodnot vymezené 95 % intervalem spolehlivosti (oboustranně ohraničený interval spolehlivosti) 15 he ^normal range66 : = 2.5% h'4°) x + 1,96s■ P = ? % i in medical and biological studies this range is conventionally given by the 95 % interval of confidence (two-sided limits of confidence interval) 16 Normální hodnoty" („referenční hodnoty") : od .... do PROB - 35 % <—Z- x + 1,96a Podle běžné konvence referenční hodnoty zahrnují celou populaci. Interval je však ohraničen oboustranně 2,5 % pásmem očekávaných hodnot. Ve skutečnosti tedy 5 % výsledků „normální" zdravé populace bude ležet mimo referenční hodnoty. 17 The „normal range" (the ^reference range") : from .... to PROB - 35 % <—Z- x + 1,96s By current convention, the reference range includes all. But the top and bottom are 2,5 % of results expected from a population of healthy people. So that 5 % of „normal" healthy population will have test values falling outside the reference range. 18 Nesymetrické rozdělení : X modus levosti an uč asymetrické rozdělení, „logaritmicko-normální" (lognormální) rozdělení Non-symmetrical distribution : X modus X median there is: left-hand side non-symmetrical, logarithmic-normal (lognormal) distribution Nesymetrické rozdělení: x > x > x pravostranné asymetrické rozdělení, „logaritmicko-normální" (lognormální) rozdělení u symetrického rozdělení: x = x = x 21 Non-symmetrical distribution : x > x > x there is: right-hand side non-symmetrical, logarithmic-normal (lognormal) distribution in symmetrical distribution: x = x = x 22 95 % interval spolehlivosti odvozenýzjednotlivýchhodnot, seřazených podle své velikosti 97,5 2,5 % min kuli T 50 % 95 % 100 % (n) ! f < Y I i I I 1 1 I I I « t I I I 1 I X max 23 The 95 % interval of confidence derived fromindividual valuesarranged according to their size 97,5 % 2,5 % Jrffl T min 50 % I' 95 % 100 % (n) S f ax Dohodnutá symbolika / conventional symbolism : základní soubor population výběrový soubor sample průměr mean, average x směrodatná odchylka standard deviation s s °n-1 1 1 V n in - 1 25 Směrodatná odchylka Z (x - x) n - 1 2 „ — 2 x - n x n - 1 výukový vzorec praktický vzorec „s" nebo „an-1" = pro výběrový soubor, v angl. literatuře také SD (standard deviation) 26 The standard deviation £ (x - x) n - 1 £ x2 n x 2 n - 1 the didactic formula the practical formula „s" or „on-1" = for the sample, also „SD" (standard deviation). 27 Statistika potřebuje nenulové hodnoty : (+) (-) x (x - X) odchylky od aritmetického průměru mají kladné a záporné hodnoty Z (x - X) 0 součet prostých odchylek jednotlivých hodnot od aritmetického průměru je nulový Z (x - X)2 * 0 součet čtverců odchylek se nerovná nule, proto je tento typ součtu používán pro výpočty 28 The statistics needs non-zero values : (+) x (x - x) the differences from the arithmetic mean have positive and negative values £ (x - x) 0 the sum of simple differences of individual values from the arithmetic mean is zero (x - x)2 * 0 the sum of squared differences is not zero, for that reason this type of sum is used for calculations 29 Jak získá statistika nenulové hodnoty ? 1/ druhé mocniny všech čísel (kladných nebo záporných) jsou kladné, proto vidíte: I (x - x)2 nebo vka + vkb ...... 2/ po provedených výpočtech jsou druhé mocniny „vráceny" do původního stavu druhou odmocninou, proto vzorce: /I (x - x)2 ji x2- n x2 V n - 1 V n - 1 k VvkA + vkB ...... 30 How does the statistics obtain the non-zero values ? 1/ squared values of all numbers (positive or negative) are positive, therefore you can see: X (x - x)2 or cva + cvb2 ...... 2/ after calculations the squared values are „retained" to the previous one by the square root, therefore the formulas: E (x - X)2 E x2- n x2 V n - 1 V n - 1 K VCVA + CVb2 ...... 31 Spolehlivost = pravdivost/správnost + přesnost : Charakteristikou přesnosti je variabilita. Mírou variability je např. rozptyl (s2) nebo variační koeficient (VK). pravdivě/správně, přesně VK = ± ■ 100 (%) x 32 Reliability = trueness/accuracy + precision : accurate, precise The characteristic of precision is variability. The measure of variability are for example: variance (s2) or coefficient of variation (CV) . CV = 4- • 100 (%) x 33 Spolehlivost = pravdivost/správnost + přesnost : Nesprávné výsledky jsou dány odchylkou od správné hodnoty (nenáhodná, systematická chyba, bias) přesně, nepravdivě/nesprávně 34 Reliability trueness/accuracy + precision : Non-accurate results are due to the difference from the accurate value (non-accidental, systematic error, bias). precise, inaccurate 35 Celková chyba I the total error (TE) i TE= 1,96 s + bias 36 37 Spolehlivost = pravdivost/správnost + přesnost i • • • • • • • • • L Z * • • • • • pravdivěIsprávně, nepřesně 38 Reliability = trueness/accuracy + precision : • • • • • • • • • L Z * • • • • • • accurate, imprecise 39 biologické jevy variabilita pravděpodobnost : 1/ prostá (nepodmíněná) 2/ podmíněná 40 biological events variability probability : 1/ the simple probability (unconditional) 2/ the conditional probability 41 Pravděpodobnost prostá (nepodmíněná) ( hra v kostky ) • • • • • • 1 P = ~ = 0,166 = 16,6 % Počet hodů: 100 / 16,66 = 6 P = - • - = 0,166 • 0,166 = 0,1662 = 0,027 = 2,7 % 6 6 Počet hodů: 100 / 2,7 = 37 P = - • 1 • 1 = 0,1663 = 0,004 = 0,4 % 6 6 6 Počet hodů: 100 / 0,4 = 250 42 The simple probability (unconditional) • • • ( dice ) 1 P = ~ = 0,166 = 16,6 % Number of rolls: 100 / 16,66 = 6 P = - • - = 0,166 • 0,166 = 0,1662 = 0,027 = 2,7 % 6 6 Number of rolls: 100 / 2,7 = 37 P = - • - • - = 0,1663 = 0,004 = 0,4 % 6 6 6 Number of rolls: 100 / 0,4 = 250 43 Pravděpodobnost prostá (nepodmíněná) : • • • • i • • • • P = -6 • - = 0,166 • 0,166 = 0,1662 = 0,027 = 2,7 % 6 Počet hodů: 100 / 2,7 = 37 navzájem nezávislé jevy r součin pravděpodobností ( nikoliv součet ! ) 44 The simple probability (unconditional) : P = - • - = 0,166 • 0,166 = 0,1662 = 0,027 = 2,7 % 6 6 Number of rolls: 100 / 2,7 = 37 the events independent of one another the product of probabilities ( not the sum !) 45 Pravděpodobnost prostá (nepodmíněná) • • P _ 16,6 % p _ 27 % Cím více jevů, P _ 2,7 % tím nižší celková pravděpodobnost ! P _ 0,4 % 46 The simple probability (unconditional) • • • • • • P = 16,6 % The more events, P = 2,7 % the lower whole probability ! P = 0,4 % 47 Pravděpodobnost prostá (nepodmíněná) : P = C951 95 % P = 0,952 = 90,25 % Čím více současně požadovaných laboratorních stanovení, tím menší pravděpodobnost, že výsledek jediného z nich bude ležet uvnitř 95 % intervalu spolehlivosti (u zdravého jedince). \j \j \j P = 0,953 = 85,74 % 48 The simple probability (unconditional) : P = 0,95* = 95 % P = 0,952 = 90,25 % \J \J \J P = 0,953 = 85,74 % The more laboratory determinations together demanded, the lower probability, that the only one result will lie within the 95 % confidence interval (in healthy individual). 49 Pravděpodobnost prostá (nepodmíněná) : pravděpodobnost výskytu 1 výsledku (zdravý jedinec) : uvnitř - mimo 95 % interval spolehlivosti I I obecně : P = 0,95n D n = 1 P = c951 = 95 % p (1 - 0,95n) p = (1 - 0,951) = 5 % C- n = 10 10 P = 0,95 = 0,5987 ~ 60 % 10 p = (1 - 0,95") 0,4013 40 % 50 The simple probability (unconditional) : the probability of occurence of one result (healthy individual) : within outside the 95 % confidence interval i in general: P 0,95n n n=1 P = 0,951 = 95 % p (1 - 0,95n) p = (1 - 0,951) = 5 % n = 10 10 P = 0,95 = 0,5987 ~ 60 % 10 p = (1 - 0,95") 0,4013 40 % 51 22 stanovení I 22 determinations i Nasev vyšetrení Výsledek Jednotky Referenční interval Hodnocení 41 4? 43 28 29 46 9 i 0 12 16 18 14 lb 2' rťi 38Í S/P-Ure- 7.0 ľlClQ 1 / 1 ( i .7, , 8,3 S/P~Kreatínin 36,0 umol/l ( 62 , 0. . Í15.0 t - X 2 ) S/F-Kys. řtQČuvá 34 i unal/l \ 02. „ 41 7 í .X. ) S/P-Na í 41 mmoI/I < 136.. 145 ( . x. ) S/P-K 3.6 flfflO l /1 ( 3 , 5. . 5. 1 í x - . ) S/P-CL .105 mmol / l í 98. . 107 í . x . ) S/P-Ca 2» .19 itno 1 / l 2 - 55 S/P~Fasfát snorg 0 = 86 n m o 1 /1 c 871 1,43 !___ ^. x ( «. » ) 5/F-Mg TTľaT m pí o L / !. m,. 1 .05 ( n >■:. ) S/F-Bil i r ub i h T 12,9 una l/1 . Ú.. 21.0 í »x» ) S/P-ALT 0. .33 ukat/l ( 0. 17. , 0.85 ( l-x b ) S/P.....AST 0.47 ukat/l í 0. 17. , o. es Í « X a ) Ö/fMSBT 0.40 ukat/l < 0, 13. , i , 02 í « X » ) S/F-ALP 0,77 ukat/l í 0. 67= , 2=15 S/P-LD 3.73 ukat/l í ž J7 CT. 3 = 75 \ S H / S/P-B í 1 k ovi na 63 t. 7 g/L í ^4 83.0 \__ ^. X ( n . „ ,! S/P~Albumin 4 o . U q,-J l í j^ľ 48.0 ( .X. ) S/P-Gluko5s 4.4 mmo1/l < 3 .i.. 5 ■ 6 ( . x« 3 S/P-Chol es terol. 4. 2 it R C; l / l < 3 . i.. 5.2 ( . X . ) S/P-Triylyceridy 1.01 mmol/l < 0 - 60. . 2.00 ( ■ x . ) S/P-CRP < 1 .0 mg/ l ( 0 .0. - 5.0 total PSA 0.50 ug/ l ( 0. 00. - 4 .00 í x - . > *■ -ä- # » a- i * * * -ä •*•■■■*■■■■*■■■■«"■■*■ # » * # * * * ■ä * ■a- •* * -a * K # *• # * * P 0,9522 = 0,3235 = 32,35 % /; = (1 0,95 22) = 0,6765 = 67,65 % 52 KONEC of ,,the conditional probability" ! Podmíněná pravděpodobnost : P (T/D) = pravděpodobnost jevu „T" za podmínky „D" podmínka „D" je vždy přítomna T = test T+ = positivní test T- = negativní test D = diagnóza, nemoc (disease) D+ = daná diagnóza je přítomna, nemoc je přítomna D- = daná diagnóza není přítomna, nemoc není přítomna The conditional probability : P (T/D) = the probability of the event „T" given the condition „D" the condition „D" is always present T = test T+ = positive test T- = negative test D = diagnose, disease D+ = the given diagnose is present, the disease is present D- = the given diagnose is not present, the disease is not present 55 Validita diagnostických testů : Tento typ diagnostických testů dává jen dva druhy odpovědi: „test negativní" nebo „test positivní" Validitu takových testů vyjadřují dva základní poměrné ukazatele: „sensitivita" a „specificita" (viz dále) 56 The validity of diagnostic tests : These diagnostic tests give two kinds of answers only: „test negative" or „test positive" The validity of such tests is expressed by two basic relative indicators: „sensitivity" and „specificity" (see next) 57 dvě překrývající se křivky D- kritická hodnota pro diferenciaci two overlapping cutoff value 59 správná pozitivita správná negativita 60 správná pozitivita správná negativita c| l | b falešná pozitivita t falešná negativita 64 T+ T— <— —> D+ D- 65 pacient s nemocí (D+) pacient bez nemoci (D-) test je pozitivní (T+) a c test je negativní (T-) b d a = správná pozitivita b = falešná negativita c = falešná pozitivita d = správná negativita ST = a / (a + b) SF = d / (c + d) 66 pacient with disease (D+) pacient without disease (D-) test is positive (T+) a c test is negative (T-) b d a = true positivity b = false negativity c = false positivity d = true negativity ST = a / (a + b) SF = d / (c + d) 67 Podmíněná pravděpodobnost : P (T-/D-) = správná negativita, specifičnost, specificita (SF) SF = 0,7 ® použitelná metoda SF >0,95 ® velmi dobrá metoda P (T+/D+) = správná pozitivita, senzitivita (ST) efektivita (vydatnost) = nejvyšší pravděpodobnost shody testu s diagnózou 68 The conditional probability : P (T-/D-) = the true negativity, the specificity (SF) SF = 0,7 ® the usable method SF > 0,95 ® the very good method P (T+/D+) = the true positivity, the sensitivity (ST) the efficiency = the greatest probability of concordance of the test with the diagnose 69 Senzitivita = podíl správné pozitivity testu „senzitivita" ST= P (T+/D+) -„pozitivita" = podmíněná pravděpodobnost P (T+/D+), že pacient s hledanou nemocí (D+) má pozitivní výsledek testu (T+) = pravděpodobnost pozitivního testu (T+) u pacientů s nemocí (D+) = schopnost testu dát pozitívní odpověď (T+) v případě, že vyšetřovaná osoba trpí danou nemocí (D+) 70 Sensitivity = the proportion of true positivity of the test „sensitivity" ST = P (T+/D+) -„positivity" = the conditional probability P (T+/D+), that the pacient with given disease (D+) has a positive result of the test (T+) = the probability of a positive test (T+) among patients with disease (D+) = the ability of the test to give a positive response (T+), when the tested person suffers from the given disease (D+) 71 Specificita = podíl správné negativity testu SF = P (T-/D-) = podmíněná pravděpodobnost P (T-/D-), že pacient bez hledané nemoci (D-) má negativní výsledek testu (T-) = pravděpodobnost negativního testu (T-) u pacientů bez nemoci (D-) = schopnost testu dát zápornou odpověď (T-) v případě, že vyšetřovaná osoba nemá danou nemoc (D-) 72 Specificity = the proportion of true negativity of the test SF = P (T-/D-) = the conditional probability P (T-/D-), that the pacient without given disease (D-) has a negative result of the test (T-) = probability of a negative test (T-) among patients without disease (D-) = the ability of the test to give a negative response (T-), when the tested person does not suffer from the given disease (D-) 73 Operativní charakteristická křivka : 1,00 i __ "---■ I ST < 0,75- I = 0,50*> 0,25 J 0,00 0,25 0,50 0,75 1,00 nespecifita * ~ SF Receiver operating characteristic curve : 1,00 ) ___ ■---■ ST 0,75- 3 = 0,50*> 0T25H 0,00 0.25 D,50 0575 1,00 nonspeciilty 1 ~ SF i senzitivita „ST", citlivost = správná pozitivita = 1 -falešná negativita „1 -FN" ROC - křivka 1 - specificita „1 - SP" = nespecificita = falešná positivita „FP" 76 i sensitivity „ST" = true positive rate „TPR" = 1 -false negativity rate „1 - FNR" ROC - curve 1 - specificity „1 - SP" = nonspecificity = false positive rate „FPR" n 1 *- ideální bod (nedosažitelný) ~ 100 % správné pozitivity a 0 % falešné pozitivity ROC - křivka 78 1 4- the ideal point (unattainable) ~ 100 % true positivity and 0 % false positivity ROC - curve 79 0,5 I-SF sc 40 frekvence 20- normální hodnoty albumin (9/1) Dva soubory S-albuminu : 2 D+ D- D+ : hnisání rány, dehiscence rány, bronchopneumonie, sepse, tvorba dekubitů 81 40 frekvence 20- normal values albumin (9/1) Two data files of S-albumin : z D+ D- D+ : suppuration of wounds, dehiscence of wounds, bronchopneumonia, sepsis, pressure sores 82 frekvence 35 40 45 normální hodnoty albumin (9/1) Kritická hodnota pro diferenciaci a ROC křivka (1) 83 frekvence 35 40 45 normální hodnoty albumin (9/1) Kritická hodnota pro diferenciaci a ROC křivka (2) 85 frekvence 35 40 45 normální hodnoty albumin (9/1) Kritická hodnota pro diferenciaci a ROC křivka (3) 87 Kritický rozdíl je veličina k posouzení statisticky významné odlišnosti dvou srovnávaných hodnot u stejného pacienta („sám sobě kontrolou") krkkký roaffl = K • JvK^ + VK B A = analytická variabilita (reprodukovatelnost po dnech) B = biologická variabilita (proměnlivost u daného jedince) K = 2,77 = 1,96 • V2 1 2 srovnávané hodnoty x ± 1,96 S (95 % interval spolehlivosti) 90 The critical difference is the quantity to judge the significant difference of two comparing values in the same patient (the reference value is the previous value of the same patient) critical difference = K • ^CV^Tcvjf A = analytical variability (reproducibility day to day) B = biological variability (variability in given individual) K = 2,77 = 1,96 • V2 1 2 comparing values x ± 1,96 s (the 95 % interval of confidence) 91 Kritický rozdíl : Cholesterol: minulé stanovení 8,0 mmol/l (~ 100 %) - 25 % (pokles) dnešní stanovení 6,0 mmol/l (~75 %) 92 The critical difference : Cholesterol: previous determination 8,0 mmol/l (~ 100 %) 1 - 25 % (decrease) today determination 6,0 mmol/l (~ 75 %) 93 Kritický rozdíl : Cholesterol: minulé stanovení 8,0 mmol/l (~ 100 %) - 25 % (pokles) dnešní stanovení 6,0 mmol/l (~75 %) Laboratoří sdělený kritický rozdíl pro cholesterol byl 19 % . Rozdíl u našeho pacienta (25 %) je větší než kritický rozdíl. Rozdíl u pacienta je tedy statisticky významný, (je větší než součet analytické a biologické variability). Pouhou náhodou může být způsoben jen výjimečně (s pravděpodobností < 5 %) 94 The critical difference : Cholesterol: previous determination 8,0 mmol/l (~ 100 %) - 25 % (decrease) today determination 6,0 mmol/l (~ 75 %) The critical difference for cholesterol according to the laboratory was 19 % . The difference in our patient (25 %) is grater than the critical difference. The pacient difference is statistical significant, (it is grater than the sum of analytical and biological variability). The change can be done accidentally only exceptionaly (with the probability < 5 %) 95 Referenční hodnoty („normální hodnoty") : referenční jedinec ® NE : 1. těhotné ženy 2. dítě / věk ? muž / žena ? 3. jedinci po fyzické námaze / po vystavení stresu 4. po požití potravy (výjimka: zátěžové stavy) 5. po podání léků 6. nemoc / rizikové faktory 7..... „zdraví dárci krve" 96 Reference range („normal values") : reference individual ® NO : 1. pregnant women 2. child / age ? male / female ? 3. individuals after physical exersise / after exposure of stress 4. after ingestion of food (the exception: load tests) 5. after application of drugs 6. disease / risk factors 7..... „healthy donators of blood" Preanalytická variabilita : Standardní odběr: • poloha (vleže vs. ambulantně) • denní doba • nalačno • komprese žíly / prstu • doba a způsob srážení (druh a koncentrace antikoagulantu) • skladování (teplota, UV, ...) • doba dodání do laboratoře 98 Preanalvtical variability : The standard withdrawal : • position (laying vs. sitting) • day time • in the fasting state • compression of vein / finger • the time and the way of clotting (kind and concentration of antikoagulant) • storage (temperature, UV, ...) • the time of delivery to the laboratory 99 KONTROLA PROVOZU 100 Regulační diagram 3 >. ca q u ■M = o - +3s ■-+2s - + s 5 10 15 . . ■ -■- -s -■- -2s ■ - -3s den měření Kontr, dat Westgard NE 12S pod kontrolou uvolni sérii ANO NE NE y^X NE /\ JME IS 10. ANO T ANO 1 ANO jf ANO | mimo kontrolu odvrhni sťrii kontroluje se, jestli alespoň jeden výsledek kontroly překročil ± 2s kontroluje se, jestli alespoň jeden výsledek kontroly překročil ± 3s 22s kontroluje se, jestli dva po sobě jdoucí výsledky kontroly překročily bud'2s nebo -2s R4s kontroluje se, jestli rozdíl (variační rozpětí) mezi dvěma výsledky kontrolního vzorku > 4s 4ls kontroluje se, jestli 4 po sobě jdoucí výsledky téhož kontrolního vzorku přesahují buď4 x ls nebo 4 x (-ls) kontroluje se, zda 10 po sobě jdoucích výsledku stanovení téhož kontrolního vzorku je na jedné nebo druhé straně O v průměru 105 Analvtv moče, G426 Cyklus: 010/98, strana 2 z 3 mmol/l 12,38 -- CQ 9,58 - (D u. O N 6,78 - - 3,98 8,83 Kreatinin Mimo: 8 i* 13,53 18,23 Vzorek A 22,93 27,63 106 lc7 Nedorozumění laboratorních a klinických oddělení : 1/ 95 % interval spolehlivosti 2/ „kvalita samotného laboratorního výsledku nikdy nemůže být lepší než kvalita dodaného vzorku !" 3/ biochemický „make up" 109 Misunderstanding of laboratory and clinical departments : 1/ 95 % confidence interval 2/ „the quality of laboratory determination cannot be better than he quality of delivered sample !" 3/ biochemical „make up" 110 111