ANABNR2 •1 4_Pravděpodobnost a pravděpodobnostní rozložení Stationery anabnr2 •2 Co je pravděpodobnost nZpůsob jak kvantifikovat nejistotu n=pravděpodobnost/šance výskytu možných výsledků náhodného fenoménu (např.pokus/experiment/výběr) např. výhra v loterii, při hodu kostkou padne 6, bude pršet?…. nMožné výsledky jsou známy, ale je nejisté který nastane nPříklady náhodného procesu: loterie, ruleta, hod kostkou/mincí, ale i výběr vzorku n Stationery anabnr2 •3 Dlouhodobé chování náhodných jevů a „objektivní“ definice pravděpodobnosti nSe 4 hody mincí nebude překvapivé dostat 4 pany, se 100 hodů velice překvapivé dostat 100 panen n s narůstajícím počtem pokusů/observací nabývá proporce výskytu daného jevu očekávaných hodnot – tato proporce v dlouhodobém horizontu vytváří základ pro definici pravděpodobnosti… n…p(A) = n (A) / n (S) n…kdy pravděpodobnost (p) konkrétního výsledku odpovídá proporci (relativní četnosti) výskytu tohoto výsledku v dlouhodobém horizontu n n n Stationery anabnr2 •4 Stanovení pravděpodobnosti n1. Definujeme základní množinu/prostor (S) n= zjistíme sadu všech možných výsledků nNapř. kostka = 1, 2, 3, 4, 5, 6 nHod mincí 2 x = PP,PO,OP,OO nOdpovědi na 3 otázky každá o 2 odpovědích (správně=A/chybně=N) = 8 možných výsledků (2*2*2)=AAA,AAN,ANA,ANN,NAA,NAN,NNA,NNN n Stationery anabnr2 •5 n2. Definujeme podmnožinu základního prostoru = jev/jevy nSada/skupina výsledků – např. jev „lichá čísla“=1,3,5, nebo jev „studenti odpověděli alespoň 2 správně“=AAN, ANA, NAA, AAA nKaždý výsledek i jev má určitou (p) n2 základní pravidla: n1. (p) každého jednotlivého výsledku je v rozmezí 0 až 1 n2. Součet (p) všech jednotlivých výsledků (pozor ne však jevů, mezi kterými může být průnik(jeden výsledek obsažený ve více jevech)= 1 nPokud jsou všechny výsledky stejně pravděpodobné, pak p(jevu A) = počet výsledků obsahujících jev A / počet všech možných výsledků v prostoru nNapř. p (lichá čísla)=3/6=1/2=0.5 nP (studenti alespoň 2 správně) = 4/8 = 1/2 = 0.5 n Stationery anabnr2 •6 Výpočet pravděpodobností z kontingenční tabulky Příjem Prošlo kontrolou Neprošlo kontrolou Celkem Pod 200tis 1260 132147 133407 200tis-1mil 131 4311 4442 Více než 1mil 22 371 393 Celkem 1413 136829 138242 n • • nKont.t. ukazuje četnosti kombinací kategorií dvou kategorických proměnných n nPodmíněné proporce = 22/393 = 0,05 nNepodmíněné/marginální proporce = 1413/138242= 0,01 Stationery anabnr2 •7 Příjem Prošlo kontrolou Neprošlo kontrolou Celkem Pod 200tis 1260 132147 133407 200tis-1mil 131 4311 4442 Více než 1mil 22 371 393 Celkem 1413 136829 138242 nZákladní prostor = všechny možné výsledky = 6 nPravděpodobnost že plátce daně je kontrolován = 1413/138242 = 0,01 nPravděpodobnost příjmu nad 1 mil. = 393/138242=0,003 Stationery anabnr2 •8 Základní pravidla pro výpočet pravděpodobností dvou událostí nNěkteré jevy jsou vyjádřeny jako výsledky které na) nejsou obsaženy v jiných jevech = DOPLNĚK, VZÁJEMNĚ SE VYLUČUJÍCÍ JEVY nb) jsou v jednom jevu a zároveň i v druhém jevu = PRŮNIK nc) jsou v jednom jevu nebo v jiném = SJEDNOCENÍ n Stationery anabnr2 •9 a) Doplněk • • •NNN •AAA,AAN,ANA,ANN,NAA,NAN,NNA • • •S(8) n nDoplněk jevu A obsahuje všechny výsledky základního prostoru které nejsou v jevu A nSoučet pravděpodobností „A“ a „ne A“=1 n a proto p(~A) = 1 – p(A) nPř. kontingenční tabulka: Jev A=„příjem 1mil a méně“ je doplňkem jevu B=„příjem nad 1mil“ n P(A)=1 – p(B) = 1 - 0,003 = 0,997 nPř. studenti: P(nejméně jednu otázku správně) = 1 – p(žádná správně) = 1 – 1/8 = 7/8 = 0,875 n n n n n n Stationery anabnr2 •10 a) Vzájemně se vylučující jevy • • •ANN •NAN •NNA •AAN •ANA •NAA n n= Jevy které nesdílejí žádný výsledek nNapř. Jev X =„právě 1 otázku správně“ a jev Y =„právě 2 otázky správně“ jsou vylučující se (oproti tomu žádný z jevů není vylučující se s jevem Z =„první otázka správně“, neboť tento jev má výsledky společné s X i Y n n n n n n n • •AAA •NNN •S=8 Stationery anabnr2 •11 b) Průnik (A a B) n n= jev kdy nastane více jevů zároveň nJe složen z výsledků které jsou zároveň v jevu A i B nP(A a B) = p(A) * p(B) pokud jsou jevy nezávislé a p(B)*p(A|B) pokud jsou jevy závislé nPř. studenti: průnikem jevu A = student odpoví první otázku dobře a jevu B=student odpoví 2 otázky dobře je jev C = AAN, ANA = 2/8 = 0,25 nUžití vzorce: 3/8 * 2/3 = 2/8 =0,25 nPř. daně: průnik jevu „plátce je kontrolován“ a jevu „příjem nad mil.“ = 22/138242=0,0002 nužití vzorce….vyzkoušejte si!J n n n n n n n • • •NAA •AAA •ANN • •NAN •NNA •NNN •S=8 •AAN •ANA Příjem Prošlo kontrolou Neprošlo kontrolou Celkem Pod 200tis 1260 132147 133407 200tis-1mil 131 4311 4442 Více než 1mil 22 371 393 Celkem 1413 136829 138242 •S=6 Stationery anabnr2 •12 c) Sjednocení (A nebo B) n n= sjednocení A a B je složeno z výsledků které jsou v A nebo v B nebo v obou jevech nP (A nebo B) = p(A) + p(B) – p(A a B) nPř. daně: sjednocení jevu „plátce je kontrolován“ a jev „příjem nad mil.“ = (1260+131+22+371)/138242=0,013 nužití vzorce: 1413/138242 + 393/138242 – 22/138242=0,013 nPř. studenti: sjednocením jevu A = student odpoví první otázku dobře a jevu B=student odpoví 2 otázky dobře je jev C = AAA, AAN, ANA, ANN, NAA = 5/8 = 0,625 nUžití vzorce: 4/8 + 3/8 – 2/8 = 5/8 = 0,625 n n n n n n n n n • • •NAA •AAA •ANN • •NAN •NNA •NNN •S=8 •AAN •ANA Příjem Prošlo kontrolou Neprošlo kontrolou Celkem Pod 200tis 1260 132147 133407 200tis-1mil 131 4311 4442 Více než 1mil 22 371 393 Celkem 1413 136829 138242 •S=6 Stationery anabnr2 •13 Závislé vs. nezávislé pokusy nPokusy jsou nezávislé pokud to co se stane v jednom pokusu neovlivňuje co nastane v jakémkoli jiném pokusu nPak p(A a B) = p(A)*p(B) nPř. basket: hráč hází 2x na koš, p(koš)=0,8, jaká je (p) že dá oba koše?: p(A a B) = 0,8*0,8=0,64. KK=0,64, KO=0,8*0,2=0,16, OK=0,2*0,8=0,16 a OO=0,2*0,2=0,04. Bez ohledu na to zda první koš dal nebo ne, zůstává pro druhý koš pravděpodobnost stejná tedy 0,8. nNaopak závislé pokusy jsou tehdy, pokud výsledek prvního ovlivňuje výsledek druhého nPř. studenti odpovídají na dvě otázky buďto správně (A) nebo špatně (N). Jev 1A=„první otázka dobře“ a jev 2A=„druhá otázka dobře“. Jev 1A=AA,AN=0,05+0,58=0,63. Jev 2A=AA,NA=0,58+0,11=0,69. nPokud by tyto jevy byly nezávislé pak p(1A a 2A) = p(1A) * p(2A) = 0,63 * 0,69 = 0,43. Ve skutečnosti však p(1A a 2A)=0,58, jevy jsou tedy závislé. nInterpretace: Pokud student odpověděl první otázku správně, má vyšší pravděpodobnost, že odpověděl i druhou správně, než člověk který první neodpověděl správně. 2A 2N celkem 1A 0,58 0,05 0,63 1N 0,11 0,26 0,37 Celkem 0,69 0,31 1 Stationery anabnr2 •14 Podmíněná pravděpodobnost n= pravděpodobnost že nastane jev A když víme, že výsledek se nachází v nějaké konkrétní části základního prostoru nPodmíněná pravděpodobnost jevu A pokud nastal jev B je rovna proporci výsledků v průniku A a B z celkového počtu výsledků v B, tedy P(A | B) = p (A a B) / p(B) nNapř. pravděpodobnost kontroly daňového přiznání (A) když patřím do příjmové skupiny nad 1mil (B). nP(A | B) = p (A a B) / p(B) = 0,0002 / 0,0029 = 0,07 nPravděpodobnost správné odpovědi na druhou otázku když vím že jsem správně odpověděl první otázku nPravděpodobnost koše při druhém hodu když jsem dal koš v prvním hodu Příjem Prošlo kontrolou Neprošlo kontrolou Celkem Pod 200tis 0,0091 (1260) 0,9559 (132147) 0,9650 (133407) 200tis-1mil 0,0009 (131) 0,0312 (4311) 0,0321 (4442) Více než 1mil 0,0002 (22) 0,0027 (371) 0,0029 (393) Celkem 0,0102 (1413) 0,9898 (136829) 1 (138242) Příjem Prošlo kontrolou Neprošlo kontrolou Celkem Pod 200tis 0,01 (1260) 0,99 (132147) 1 (133407) 200tis-1mil 0,03 (131) 0,97 (4311) 1 (4442) Více než 1mil 0,07 (22) 0,93 (371) 1 (393) • •Tabulka podmíněných pravděpodobností Stationery anabnr2 •15 Statistická nezávislost nJevy jsou statisticky nezávislé, pokud p(A|B) = P(A) tedy pokud pravděpodobnost že člověk prošel kontrolou je stejná jako pravděpodobnost že člověk prošel kontrolou pokud patří např. do nejvyšší příjmové skupiny nZ předchozího snímku víme, že P(A | B) = 0,07, zatímco P(A) =0,01. Jevy tedy nejsou nezávislé – je mezi nimi souvislost/vztah nZe znalosti o průniku již víme, že jevy jsou také statisticky nezávislé pokud n p(A a B) = p(A)*p(B). Z předchozího snímku víme, že p(A a B)=0,0002 a p(A)*p(B)=0,000029. Jevy tedy nejsou nezávislé. nV praxi se častěji užívá třetí způsob ověření statistické nezávislosti pomocí podmíněných pravděpodobností: jevy jsou nezávislé pokud p(A|B1) = p(A|B2) , tedy když podmíněné pravděpodobnosti „kontroly“ se u jednotlivých příjmových podskupin neliší. nZ tabulky vidíme, že tomu tak není. Čím větší příjem člověk má, tím je větší pravděpodobnost, že bude kontrolován ((p) stoupá z 0,01 přes 0,03 na 0,07. P(„prošel kontrolou“ | „prijem nad 1mil“)=0,07. P(„prosel kontrolou“ | „prijem 200 až 1mil“)=0,05 a P(„prosel kontrolou“ | „prijem pod 200“)= 0,01) Příjem Prošlo kontrolou Neprošlo kontrolou Celkem Pod 200tis 0,01 (1260) 0,99 (132147) 1 (133407) 200tis-1mil 0,03 (131) 0,97 (4311) 1 (4442) Více než 1mil 0,07 (22) 0,93 (371) 1 (393) Stationery anabnr2 Ukázka stat. nezávislosti 2 •16 Příjem Prošlo kontrolou Neprošlo kontrolou Celkem Pod 200tis 0,01 (1364) 0,99 (132043) 1 (133407) 200tis-1mil 0,01 (45) 0,99 (4397) 1 (4442) Více než 1mil 0,01 (4) 0,99 (389) 1 (393) Příjem Prošlo kontrolou Neprošlo kontrolou Celkem Pod 200tis 0,01 (1364) 0,955 (132043) 0,965 (133407) 200tis-1mil 0,0003 (45) 0,032 (4397) 0,0323 (4442) Více než 1mil 0,00003 (4) 0,003 (389) 0,00303 (393) Celkem 0,01 (1413) 0,99 (136829) 1 (138242) Stationery anabnr2 •17 Ukázka stat.nezávislosti 2koš 2mimo celkem 1koš 0,64 (41) 0,16 (10) 0,8 (51) 1mimo 0,16 (10) 0,04 (3) 0,2 (13) celkem 0,8 (51) 0,2 (13) 1 (např. 64) nPodmíněné pravděpodobnosti že hráč dá druhý koš když dal první p(2koš|1koš) = 0,64/0,8=0,8 a že dá druhý koš když první nedal p(2koš|1mimo) = 0,16/0,2=0,8 se rovnají - jevy „2koš“ a „1koš“ jsou tedy nezávislé. Jinými slovy, hráčova úspěšnost při druhém hodu není ovlivněna jeho úspěšností v hodu prvním. n nZnovu př. basket: hráč (a nebo např. 64 hráčů) hází 2x na koš….. 2koš 2mimo celkem 1koš 0,8 (41) 0,2 (10) 1 (51) 1mimo 0,8 (10) 0,2 (3) 1 (13) •Vypočteme podmíněné pravděpodobnosti… Stationery anabnr2 •18 Rozložení pravděpodobností nDistribuce (p-tí) výskytů všech možných výsledků náhodného procesu (náhodný výběr, experiment) = (p-stní) rozložení náhodné proměnné n(p-ti) všech možných výskytů se sčítají do 1 = součet (p-tí) v rozložení (p-tí) n(p-stní) rozložení diskrétní vs. spojité proměnné n Stationery anabnr2 •19 nDiskrétní náhodná proměnná nabývá oddělených hodnot 0, 1, 2, 3…. nPravděpodobnostní distribuce diskrétní proměnné přiděluje každé možné hodnotě pravděpodobnost nPro každou takovou hodnotu (p) mezi 0 a 1 nSuma p-stí pro všechny možné výsledky =1 nPř. kostka x=1, 2, 3, 4, 5, 6 n p(1)=p(2)=p(3)=p(4)=p(5)=p(6)=1/6 n6*1/6=1 nPř. dvě kostky x=součet hodnot na obou kostkách nX = 2….12 nP(2)=1/36 + p(3)=1/18 + p(4)=1/12 + p(5)=1/9 + p(6)=5/36 + p(7)=1/6 + p(8)=5/36 + p(9)=1/9 + p(10)=1/12 + p(11)=1/18 + p(12)=1/36 nSoučet =1 •Rozložení (p-stí) diskrétní proměnné File:Dice Distribution (bar).svg Stationery anabnr2 •20 nU spojitých proměnných sleduje p-ti intervalů hodnot spíše než konkrétních hodnot nProtože spojitá proměnná může nabývat jakýchkoli hodnot, je (p) konkrétní hodnoty blízká nule – proto hovoříme o hustotě pravděpodobnosti nKaždý interval má p-nost mezi 0 a 1, pravděpodobnost konkrétního intervalu výsledků odpovídá velikosti oblasti pod křivkou nad daným intervalem nInterval obsahující všechny možné výsledky má p-nost 1, celková plocha pod křivkou = 1 npř. normální rozložení n Rozložení (p-stí) spojité proměnné File:Standard deviation diagram.svg Stationery anabnr2 •21 Parametry pravděpodobnostního rozložení nPrůměr = jakou hodnotu očekáváme když zprůměrujeme všechna pozorování v dlouhodobém horizontu = očekávaná hodnota nPř. hod kostkou: (1*1/6) + (2*1/6) + (3*1/6) + (4*1/6) + (5*1/6) + (6*1/6) = 3.5 npř. počet homerunů během zápasu (0*0.3889) + (1*0.3148) + (2*0.2222)+(3*0.05556)+(4*0.0185)= 1 nVážený průměr neboť každý výsledek má jinou (p) výskytu Stationery anabnr2 •22 Binomické rozložení nP-nostní rozdělení pro diskrétní proměnné nBinární/dichotomická data/proměnná nPř. přijat vs. nepřijat, ano vs. ne, žena vs. nežena nZajímá nás počet/proporce případů, kdy nastane sledovaný výsledek nPř. kolik/jaká proporce šestek padne na kostce padne když hodím 6krát? Proměnná nabývá hodnot 0, 1, 2, 3, 4, 5, 6. nPř. Jaká je pravděpodobnost že nebude vybrána žádná žena do skupiny 10 zaměstnanců určených ke školení, pokud se jedná o náhodný výběr? Stationery anabnr2 •23 nKaždý z pokusů/pozorování (tj.hody kostkou, velikost výběru) má dva možné výsledky: výsledek který sledujeme=úspěch (ano, šestka…) a ostatní výsledky=neúspěch (to ostatní) nPravděpodobnost úspěchu = p, pravděpodobnost neúspěchu tedy 1 – p (doplněk), pravděpodobnosti jsou stejné pro každý pokus nPokusy jsou nezávislé – výsledek prvního pokusu neovlivňuje výsledek druhého atd. n •Binomické rozložení - definice Stationery anabnr2 •24 Pravděpodobnosti binomického rozložení nTřikrát házíme mincí, zajímají nás počty pannen, např. jaká je p(dvakrát panna) nZe základního prostoru=(PPP,PPO,POP,OPP,POO,OPO,OOP,OOO) obsahují tři možnosti/sekvence výsledků 2xpanna a sice PPO,POP,OPP. Každý z výsledků má p=0.5*0.5*0.5=0.125, a proto p(2 panny)=3*(0.5*0.5*0.5)=0.375 nKdyž je počet pokusů velký používáme vzorec nn! / (n-x)!x! * px(1-p)n-x n1. část vzorce tzv. binomický koeficient určuje počet sekvencí/výsledků s hledaným počtem úspěchů (x) ze všech pokusů (n) – zde 3! / (3-2)!2! = (3*2*1) / (2*1) *(1) = 3 n2. část pak pravděpodobnost každého takového kýženého výsledku - zde (0.5)2*0.5=0,125 n n Stationery anabnr2 •25 Binomická distribuce pro N=3,p=0.5, p(x=2)=0.375 Stationery anabnr2 •26 Normální rozložení nSpeciální a nejpoužívanější druh pravděpodobnostního rozložení (rozdělení pravděpodobností) pro spojitá data (dalšími (p) rozděleními např. binomické, chi, poisson, F atd.) nJedná se o teoretické rozdělení, jemuž se rozložení v realitě více či méně blíží nIntervalová/poměrová proměnná n Stationery anabnr2 •27 Vlastnosti normálního rozložení nSymetrická distribuce, zvonovitý tvar nŠikmost, špičatost = 0 nModus=median=průměr=nejvyšší bod nKřivka se nedotýká osy x: extrémní hodnoty + proměnlivost populace nOsa x rozdělená do 6 rovných jednotek = každá jednotka odpovídá 1 σ (1 SD) nPravděpodobnost mezi nějakými konkrétními směrodatnými odchylkami (např. mezi 0 a 1 SD=0.34) je stejná pro všechna normální rozložení n n n n Stationery anabnr2 •28 Proč je normální rozložení užitečné? nRealita je často normálně rozložená nKdyž není, lze ji často transformovat tak aby se normálnímu rozložení blížila, neboť některé statistické procedury předpokládají normální rozložení nPři velkém počtu možných výsledků se normálnímu rozložení blíží i mnoho diskrétních rozložení nDíky centrálnímu limitnímu teorému lze pomocí normálního rozložení za určitých podmínek analyzovat i v populaci nenormálně rozložená data = klíčová funkce při inferenční statistice n Stationery anabnr2 •29 nRůzné normální křivky - různé průměry a různé σ nvyšší křivka = menší standardní odchylka 4_8 Různé tvary normálního rozložení Stationery anabnr2 •30 4_9 n50% oblasti pod křivkou (=naměřených hodnot proměnné) leží pod průměrem a 50% nad = symetrie n68% leží +/- 1 SD n95% leží +/- 2 SD n99 % leží +/- 3 SD nPř. Pokud prům. výška=170cm a σ =5, pak 68% studentek sociální práce je vysokých 165 až 175 cm Rozložení pravděpodobností v normálním rozložení Stationery anabnr2 •31 Normální rozložení a z-skor nV normálním rozložení lze tedy zjistit kumulativní pravděpodobnost výskytu jakéhokoli intervalu hodnot zkoumané proměnné n nA to prostřednictvím standardizace - převodu absolutní hodnoty proměnné na z-skor ANABNR2 •32 obrazek2 •Příklady kumulativní pravděpodobnosti normálního rozložení Stationery anabnr2 •33 Z skóre - základ n= z-skor pro hodnotu x náhodné proměnné představuje jak daleko (kolik směrodatných odchylek) od průměru se hodnota x nachází n= rozdíl mezi individuální hodnotou (Xi) a průměrnou hodnotou (X prům) relativně k rozptylu distribuce (s) nZ = (Xi – X prům) / s nProto Z = 0 = průměr (μ) nA také 1 z = 1 SD, 2 z = 2 SD atd. nDůkaz: z = (X – X prům) / s = (110-100)/10=s / s = 1 n(120-100)/10=20/10=2 atd. n nstandardizací původních hodnot distribuce vzniká Standardizované normální rozložení Z~N(0, 1) Stationery anabnr2 •34 Standardizované normální rozložení normal-distrubution-large nMnoho statistických metod se vztahuje ke speciálnímu normálnímu rozložení zvanému standardizované normální rozložení nStandardizované normální rozložení má průměr 0 a odchylku 1, Z~N(0, 1) nPř. z = 2 se nachází 2 odchylky od průměru, z = -1.3 leží -1.3 odchylky od průměru n n n Stationery anabnr2 •35 nÚčel č.1: Zjištění relativní pozice individua k populaci n nPř. Výsledky IQ testu jsou aproximovány (blíží se) normálním rozložením o průměru μ = 100 a σ=16. Bob skóroval 125. Jak „chytrý“ je Bob vzhledem k ostatním? nZ = (X – μ) / σ = (125-100) / 16 = 1.56 nBob skóroval 1.56 standardní odchylky nad průměrem nJaká část populace skórovala více (nebo méně)? Viz tabulka n Z skóre - výklad Stationery anabnr2 •36 nHodnota v tabulce odpovídá oblasti pod normální křivkou mezi průměrem a z-skórem nZ=1.56 odpovídá hodnotě 44.06 n50 + 44.06 = 94.06 nInterpretace: na) bob leží na 94.06 percentilu, je chytřejší než 96% ostatních dětí v populaci nb) protože n 1 – 94 = 6, tak existuje 6% šance že člověk v populaci má vyšší skóre než Bob n 4_10 Stationery anabnr2 •37 Kde leží Bob? •Bob • •1 – Bob = 6% Stationery anabnr2 •38 nÚčel č.2: Porovnání relativních pozic dvou individuí z rozdílných vzorků (populací?) n nPř. Dvě kamarádky Rita a Miriam se účastnili jiných skupin kurzu praxe sociální práce, v ½ semestru složili zkoušku, Rita získala 21, Miriam 85 bodů, kdo byl lepší? nSrovnat maximální počet bodů v obou testech nRita 21 z 25 = 84 %, Miriam 85 ze 100 = 85 %, je Miriam lepší? Co když je Miriaminých 85 % nejhorší výsledek ve skupině zatímco Ritiných 85 % nejlepší výsledek? n nebo srovnat jednotlivé výsledky s výsledky ostatních studentů pomocí z-skóru Stationery anabnr2 •39 nPř. Deborah pracuje jako sociální pracovnice ve studentském zdravotním centru a vede kurzy pro léčbu chronické úzkosti. Uvolnilo se jí místo ve skupině. Do skupiny se přijímá na základě testu „Škála úzkosti A“ (μ =70, σ =10) . Pouze studenti kteří dosáhnou min. 80 bodů na škále A mohou být přijati. Deborah se podívala do seznamu potenciálních klientů a zjistila že nejvyššího skóre 78 dosáhla Gina. Deborah však právě dostala doporučení o novém studentovi který trpí úzkostí a potřebuje pokračovat v léčbě. Doporučení také obsahovalo že student Tom dosáhl 66 bodů na jiné škále „Škále B“ (μ =50, σ =12). n nCo může Deborah udělat aby srovnala oba uchazeče a vybrala potřebnějšího? nA) Nechat Toma otestovat „Škálou A“ nB) Zná-li průměr a směrodatnou odchylku obou škal, může porovnat Z-skóry. Stationery anabnr2 •40 nŘešení: nZ Gina = (78 – 70) / 10 = 0.8 nTabulka Z 0.8 = 28.81 + 50 = 78.81 = 79th percentil nZ Tom = (66 – 50) / 12 = 1.33 nTabulka Z 1.33 = 40.82 + 50 = 90.82 = 91st percentil nTom byl vybrán jako potřebnější na základě relativně vyšší úrovně úzkosti n 4_11 Stationery anabnr2 •41 nÚčel č. 3: Odvození syrového skóre z percentilu (z-skóru) nSociální pracovnice Lauren chce vytvořit skupinu pro léčbu studentů s vysokou úrovní úzkosti, na základě výsledků z testů na „Škále B“(μ =50, σ =12), přičemž chce přijmout jen horních 10 procent nejvážnějších případů. nŘešení: nLauren musí najít mezní bod (cut-off point) pro syrové skóre, který by nejlépe odpovídal 90th percentilu. Studenti nad toto skóre budou přijati, ostatní ne. nX = μ + z* σ nPostup: najít z-skor pro kumulativní pravděpodobnost 90 – 50 = 40 nJaké Z odpovídá hodnotě 40?: Z = 1.28 n1.28 (Z-skóre)= (x – 50) / 12 n (12*1.28) + 50 = x n 65.36 = x nOdpověď: Pro vstup do skupiny je třeba získat 66 bodů. n Stationery anabnr2 •42 Příloha 1: Shrnutí základních pojmů nJednoduchý/náhodný pokus nAkt vedoucí k jednomu výsledku - např. hod kostkou, zatočení ruletou, vytažení karty z balíčku, výběr osoby na ulici nVýsledkem je výskyt jednoduchého jevu/události nJednoduchý výsledek nčlen základní množiny nvýsledek jednoduchého pokusu - např. hodnota 1 na kostce, 0 na ruletě, sedmička srdcová, modrooká paní nJev/třída jevů nsada jednoduchých výsledků, podmnožina základního prostoru - např. lichá čísla, „srdce“, „piky“ nZákladní množina/prostor (S) nsada všech jednoduchých jevů / všech možných výsledků nSpojené jevy – nastávají když výsledek pokusu spadá pod jevy A(„srdce“) i B(„král“) např. „srdcový král“, popřípadě A nebo B např. „srdce“ nebo „král“ nPrůnik (∩) – např. průnik jevů A a B = A ∩ B nebo-li A a B nsoučasné nastání dvou nebo více jevů nSjednocení (U) - např. sjednocení jevů = A U B nebo-li A nebo B nsečtení dvou nebo více jednoduchých jevů bez průniku nDoplněk (~A) ndoplňkem jevu A je sada všech zbývajících jevů z S nVzájemně vylučující se/neslučitelné jevy nnemohou nastat současně, jejich ∩ = 0 nVyčerpávající jevy njevy vyplňují celý S, jejich U = S nPravděpodobnost (p) nmíra jistoty nastání každého jevu ze základního prostoru - např. pravděpodobnost že padne 1 na kostce nPodmíněná pravděpodobnost (p (A|B)) n pravděpodobnost výskytu jevu A za předpokladu, že zároveň nastane jev B – nnapř. experiment: hod dvěma kostkami, událost: součet hodnot, otázka: jaká je pravděpodobnost výskytu události 4 když na jedné kostce padne 5? nStatistická nezávislost nnepodmíněná pravděpodobnost jevu A a podmíněná pravděpodobnost jevu A stane-li se zároveň B jsou si rovny ntj. p(A) = p(A | B) nnebo když p (A ∩ B) = p (A) * p (B) n n n Stationery anabnr2 •43 Příloha 2: Pravidla pravděpodobnosti np(~A) = 1 – p(A) („doplňková pravděpodobnost“) nPř. Jaká je pravděpodobnost že vyberu „ne červenou“ kuličku tj. jinou než „červenou“? np(~červená) = 1 - p (červená) = .7 n n0 ≤ p(A) ≤ 1 („rozsah pravděpodobnosti“) n (důkaz: pokud by nějaký jev měl p větší než 1 pak by podle pravidla 1 měl doplněk jevu p zápornou a to by odporovalo axiomu 1) n np(Ø) = 0, pro jakékoli S („nemožný jev“) nPř. Jaká je pravděpodobnost že vyberu „bezbarvou“ kuličku tj. jinou než „červenou“ nebo „bílou“ nebo „černou“? np(bez barvy)=0 n np (A U B) = p (A) + p (B) – p (A ∩ B) (tzv.“nebo“ pravidlo) nPř. Balíček 52 karet. Jaká je pravděpodobnost „krále“ nebo „srdce“? nP (král) = 1/13, p(srdce)=1/4, p (král ∩ srdce)=1/52 (jeden z králů je srdcový) n p (král nebo srdce) = 1/13 + 1/4 – 1/52 = 16/52 = 4/13 nSpeciální případ: když jsou jevy vzájemně se vylučující, pak p (A ∩ B) =0 n a proto p (A U B) = p (A) + p (B) nPř. p(červená nebo bílá) = .30 + .50 = .80 n nPokud A,…., L tvoří segmenty S, pak p (A U ...... U L) = p (A) + …p (L) = 1 nPokud jsou jevy A až L vylučující se a vyčerpávající, pak tvoří celý prostor S a součet jejich pravděpodobností musí být 1 nPř. p(červená nebo bílá nebo černá kulička) = .30 + .20 + .50 = 1.00 n 1. Stationery anabnr2 •44 • • • • •A(král) •B (dáma) •C (eso) •Příloha 3: A, B a C jsou vzájemně se vylučující jevy •S(52) Stationery anabnr2 •45 •Příloha 4: A, B a C jsou vzájemně se vylučující a vyčerpávající jevy • •A (bílá) •B (červená) •C (černé) •S(52) Stationery anabnr2 Příloha 5: užití podmíněné (p) při posuzování „přesnosti“ diagnostického testu TEST D(„ano“) D(„ne“) celkem D(ano) 48 6 54 D(ne) 1307 3921 5228 Celkem 1355 3927 5282 nUžitečnost testu: nNa jednu stranu pouze 4% pozitivně diagnostikovaných žen ve skutečnosti disponují Downovým syndromem, neboť podmíněná pravděpodobnost že dítě má syndrom když test řekne ano = p(Dano|D“ano“) = 48/1355=0.035 nNa druhou stranu snižuje riziko výskytu syndromu z P(Dano)=54/5282=0.01 na P(Dano | D“ne“) = 6/3927=0.0015 nJedním ze způsobů určení „přesnosti testu“ je spočítat pravděpodobnosti dvou typů chyb, které chceme minimalizovat: nFalešná pozitivita = test říká, že nemoc je přítomná, ale ve skutečnosti přítomná není nFalešná negativita = test říká, že nemoc přítomna není, ale ve skutečnosti přítomna je nPř. N=5282 žen nad 35 let, 48 Downových syndromů z 54 se podařilo tímto testem odhalit, zatímco 25 procent těhotenství bylo chybně identifikováno jako ohrožené Downovým syndromem nFalešná pozitivita = p(D „ano“| D (ne)) = 1307/5228 = 0,25 nFalešná negativita = p(D „ne“ | D (ano)) = 6 / 54 = 0,11