Téma 3: Využití systému STATISTICA při řešení příkladů na opakované pokusy a při stanovení prediktivní validity diagnostických testů 1. Opakované nezávislé pokusy Opakované nezávisle provádíme týž náhodný pokus a sledujeme nastoupení jevu, kterému říkáme úspěch. V každém z těchto pokusů nastává úspěch s pravděpodobností ϑ , 10 <ϑ< . a) Binomické rozložení pravděpodobností Pravděpodobnost, že v prvních n pokusech úspěch nastane právě x-krát ( nx0 ≤≤ ): ( ) ( ) xnx n 1 x n xP − ϑ−ϑ      = . K výpočtu v systému STATISTICA slouží funkce Binom(x; ϑ; n) Pravděpodobnost, že v prvních n pokusech úspěch nastane nejvýše x1-krát ( nx0 1 ≤≤ ): ( )∑= 1x 0x n xP . K výpočtu v systému STATISTICA slouží funkce IBinom(x1; ϑ; n) Pravděpodobnost, že v prvních n pokusech úspěch nastane aspoň x0-krát ( nx0 0 ≤≤ ): ( )∑= n xx n 0 xP . Výpočet lze provést takto: 1 - IBinom(x0 - 1; ϑ; n) Pravděpodobnost, že v prvních n pokusech úspěch nastane aspoň x0-krát a nejvýše x1-krát: ( )∑= 1 0 x xx n xP . Výpočet lze provést takto: IBinom(x1; ϑ; n) - IBinom(x0 - 1; ϑ; n) Příklad na binomické rozložení pravděpodobností: Pojišťovna zjistila, že 12% pojistných událostí je způsobeno vloupáním. Jaká je pravděpodobnost, že mezi 30 náhodně vybranými pojistnými událostmi bude způsobeno vloupáním a) nejvýše 6, b) aspoň 6, c) právě 6, d) od dvou do pěti? Řešení: Počet pokusů: n = 30, pravděpodobnost úspěchu: ϑ = 0,12 ad a) ( ) ( ) ( )∑∑∑ = − == ==      == 6 0x x30x 6 0x 30 x 0x n 9393,030;12,0;6IBinom88,012,0 x 30 xPxP 1 S pravděpodobností 93,93% bude mezi 30 náhodně vybranými pojistnými událostmi způsobeno vloupáním nejvýše 6 událostí. ad b) ( ) ( ) ( ) ( ) 1431,030;12,0;5IBinom188,012,0 x 30 1xP1xPxP 5 0x x30x 5 0x 30 30 6x 30 n xx n 0 =−=      −=−== ∑∑∑∑ = − === S pravděpodobností 14,31% bude mezi 30 náhodně vybranými pojistnými událostmi způsobeno vloupáním aspoň 6 událostí. ad c) ( ) ( ) ( ) 0825,030;12,0;6Binom88,012,0 6 30 6PxP 246 30n ==      == S pravděpodobností 8,25% bude mezi 30 náhodně vybranými pojistnými událostmi způsobeno vloupáním právě 6 událostí. ad d) ( ) ( ) ( ) ( ) ( ) ( ) 7469,030;12,0;1IBinom30;12,0;5IBinom 88,012,0 x 30 88,012,0 x 30 xPxPxPxP 1 0x x30x 5 0x x30x 1 0x 30 5 0x 30 5 2x 30 x xx n 1 0 =−= =      −      =−== ∑∑∑∑∑∑ = − = − ==== S pravděpodobností 74,69% bude mezi 30 náhodně vybranými pojistnými událostmi způsobeno vloupáním od 2 do 5 událostí. Návod: Otevřeme nový datový soubor se čtyřmi proměnnými a o jednom případu. Do Dlouhého jména 1. proměnné napíšeme =IBinom(6;0,12;30). Do Dlouhého jména 2. proměnné napíšeme =1-IBinom(5;0,12;30). Do Dlouhého jména 3. proměnné napíšeme =Binom(6;0,12;30). Do Dlouhého jména 4. proměnné napíšeme =IBinom(5;0,12;30)-IBinom(1;0,12;30). Upozornění: Podobným způsobem postupujeme při řešení dalších příkladů Příklady k samostatnému řešení Příklad 1.: V rodině je 10 dětí. Za předpokladu, že chlapci i dívky se rodí s pravděpodobností 0,5 a pohlaví se formuje nezávisle na sobě, určete pravděpodobnost, že v této rodině je a) právě 5 chlapců b) nejméně 3 a nejvýše 8 chlapců. n = 10, úspěch = narození chlapce, pravděpodobnost úspěchu ϑ = 0,5 Výsledek: ad a) 0,246, ad b) 0,935 Příklad 2.: Na dvoukolejném železničním mostě se potkají během 24 hodin nejvýše dva vlaky, a to s pravděpodobností 0,2. Za předpokladu, že denní provozy jsou nezávislé, určete pravděpodobnost, že během týdne se dva vlaky na mostě potkají a) právě třikrát b) nejvýše třikrát c) alespoň třikrát. n = 7, úspěch = potkání dvou vlaků během 24 hodin, pravděpodobnost úspěchu ϑ = 0,2 Výsledek: ad a) 0,115, ad b) 0,967, ad c) 0,148 Příklad 3.: Je pravděpodobnější vyhrát se stejně silným soupeřem tři partie ze čtyř nebo pět partií z osmi, když nerozhodný výsledek je vyloučen a výsledky jsou nezávislé? Úspěch je výhra partie se stejně silným soupeřem, když remíza je vyloučena, pravděpodobnost úspěchu ϑ = 0,5. a) n = 4, x = 3 b) n = 8, x = 5 Výsledek: ad a) 0,25, ad b) 0,219 Příklad 4.: Dvacetkrát nezávisle na sobě házíme třemi mincemi. Jaká je pravděpodobnost, že alespoň v jednom hodě padnou tři líce? n = 20, úspěch je padnutí tří líců při hodu třemi mincemi, ϑ = 1/8 = 0,125, Výsledek: 0,931 b) Geometrické rozložení pravděpodobností Pravděpodobnost, že prvnímu úspěchu bude předcházet x neúspěchů: ( ) ( ) ϑϑ−= x 1xP . K výpočtu v systému STATISTICA slouží funkce Geom(x; ϑ ) Pravděpodobnost, že prvnímu úspěchu bude předcházet nejvýše x1 neúspěchů: ( )∑= 1x 0x xP K výpočtu v systému STATISTICA slouží funkce IGeom(x1; ϑ ) Pravděpodobnost, že prvnímu úspěchu bude předcházet aspoň x0 neúspěchů: ( )∑ − = − 1x 0x 0 xP1 Výpočet lze provést takto: 1 - IGeom(x0-1; ϑ ) Příklad na geometrické rozložení pravděpodobností: Jaká je pravděpodobnost, že při hře „Člověče, nezlob se!“ nasadíme figurku nejpozději při třetím hodu? Řešení: Počet neúspěchů: x = 0, 1, 2, pravděpodobnost úspěchu: 6 1 =ϑ ( ) ( ) ( ) 4213,06/1;2IGeom 6 1 6 5 1xP 2 0x x2 0x x 2 0x ==      =ϑϑ−= ∑∑∑ === Pravděpodobnost, že figurku nasadíme nejpozději při třetím hodu, je 42,13%. Příklad k samostatnému řešení: Studenti biologie zkoumají barvu očí octomilek. Pravděpodobnost, že octomilka má bílou barvu očí, je 0,25, červenou 0,75. Jaká je pravděpodobnost, že až čtvrtá zkoumaná octomilka má bílou barvu očí? Počet neúspěchů: x = 3, pravděpodobnost úspěchu: 25,0=ϑ Výsledek: Pravděpodobnost, že až 4. zkoumaná octomilka má bílou barvu očí, je 10,55 %. 2. Opakované závislé pokusy Hypergeometrické rozložení pravděpodobností Máme N objektů, mezi nimi je M objektů označeno NM0 ≤≤ . Náhodně bez vracení vybereme n objektů ( Nn0 ≤≤ ). Pravděpodobnost, že ve výběru je právě x označených objektů ( { } { }M,nminxnNM,0max ≤≤+− ): ( )             − −       = n N xn MN x M xP n,M,N . Ve STATISTICE: =Combin(M;x)* Combin(N-M;n-x)/Combin(N;n) Pravděpodobnost, že ve výběru je nejvýše x1 označených objektů: ( ) { } ∑ +−= 1x nNM,0maxx n,M,N xP . Pravděpodobnost, že ve výběru je aspoň x0 označených objektů: ( ) { } ∑= M,nmin xx n,M,N 0 xP . Příklad na hypergeometrické rozložení pravděpodobností: Koupili jsme 10 cibulek červených tulipánů a 5 cibulek žlutých tulipánů. Zasadili jsme 8 náhodně vybraných cibulek. a) Jaká je pravděpodobnost, že žádná nebude cibulka žlutých tulipánů? b) Jaká je pravděpodobnost, že jsme zasadili všech 5 cibulek žlutých tulipánů? c) Jaká je pravděpodobnost, že aspoň dvě budou cibulky žlutých tulipánů? Řešení: Počet objektů: N = 15, počet označených objektů: M = 5, počet vybraných objektů: n = 8 ad a) ( ) ( ) ( ) 007,08;15Combin/8;10Combin 8 15 8 10 8 15 8 10 0 5 0P 8,5,15 ==             =                   = Mezi 8 náhodně vybranými cibulkami se s pravděpodobností 0,7 % nevyskytne žádná cibulka žlutých tulipánů. ad b) ( ) ( ) ( ) 0186,08;15Combin/3;10Combin 8 15 3 10 8 15 3 10 5 5 5P 8,5,15 ==             =                   = S pravděpodobností 1,86 % bude mezi 8 náhodně vybranými cibulkami právě 5 cibulek žlutých tulipánů. ad c) ( ) ( ) ( ) ( ) ( ) ( ) 8998,08;15Combin/7;10Combin*58;15Combin/8;10Combin1 8 15 7 10 5 8 15 8 10 1 8 15 7 10 1 5 8 15 8 10 0 5 11P0P1 8,5,158,5,15 =−−= =             ⋅ −             −=                   −                   −=−− S pravděpodobností 89,98 % budou mezi 8 náhodně vybranými cibulkami aspoň dvě cibulky žlutých tulipánů. Příklad k samostatnému řešení: Dítě dostalo sáček, v němž bylo 5 červených a 5 žlutých bonbónů. Dítě náhodně vybralo ze sáčku 6 bonbónů. Jaká je pravděpodobnost, že mezi vybranými bonbóny budou právě 2 červené? Výsledek: Pravděpodobnost, že mezi 6 vybranými bonbóny budou právě 2 červené, je 23,8%. 3. Diagnostické testy Příklad: Provádělo se ověřování kvality nového testu pro diagnostikování jisté poruchy sluchu, která se vyskytuje u 12 % osob v populaci. Test byl ověřován u 1245 osob, u nichž byl stav sluchu vyšetřen již dříve podrobnými klinickými postupy. Výsledky máme v tabulce: skutečnostvýsledek testu H (pozitivní) H (negativní) celkem A (pozitivní) a=50 b=300 350 A (negativní) c=25 d=870 895 celkem 75 1170 1245 Vypočtěte prediktivní validitu pozitivního i negativního testu. Výpočet prediktivní validity diagnostického testu provedeme pomocí makra diagnosticky_test.svb. Otevřeme nový datový soubor o sedmi proměnných a jednom případu. Proměnná prevalence … obsahuje pravděpodobnost výskytu sledované vlastnosti. Proměnná a … počet pozitivních objektů, které test označil za pozitivní. Proměnná b … počet negativních objektů, které test označil za pozitivní. Proměnná c … počet pozitivních objektů, které test označil za negativní. Proměnná d … počet negativních objektů, které test označil za negativní. Proměnná PPV … vypočtená prediktivní validita pozitivního testu. Proměnná NPV … vypočtená prediktivní validita negativního testu. Do proměnné prevalence napíšeme hodnotu 0,12 a do proměnných a, b, c, d postupně 50, 300, 25, 870. Dále otevřeme makro diagnosticky_test.svb a spustíme ho klávesou F5. V proměnných PPV a NPV se objeví hodnoty 0,2617 a 0,9424. Znamená to, že pouze u 26,17 % osob, které nový diagnostický test označil za osoby s danou poruchou sluchu, můžeme tuto poruchu očekávat. Naopak, 94,24 % osob, o nichž test prohlásil, že danou poruchu nemají, danou poruchu skutečně nemá.