Induktivní statistika o8. seminář C:\WINWORD\CLIPART\CROWD.WMF Statistické šetření oEtapy statistického šetření 1.Plán šetření 2.Sběr dat 3.Popis a technické zpracování 4.Rozbory a závěry o Statistická indukce – 4. etapa oTeorie odhadů -Odhad průměru základního souboru -Odhad pravděpodobnosti oTestování statistických hypotéz -Srovnání dvou průměrů -Srovnání pravděpodobností oHodnocení zavislosti -Závislost kvantitativních veličin -Závislost kvalitativních veličin - oZOBECNĚNÍ VÝSLEDKŮ VÝBĚROVÉHO ŠETŘENÍ NA CELÝ ZÁKLADNÍ SOUBOR o! PRAVDĚPODOBNOST, NÁHODNÁ VELIČINA A JEJÍ ROZDĚLENÍ Pravděpodobnost (skripta kapitola 4) oVšechny stat. výroky – pravděpodobnostní charakter a jejich věrohodnost vyjadřuje: o- spolehlivost - pravděpodobnost, že tento výrok platí o- riziko - pravděpodobnost, že neplatí daný výrok oPravděpodobnost náhodného jevu je kvantitativní charakteristika, která je mírou častosti jeho ovýskytu. oPravděpodobnost je vlastnost náhodného jevu stejně jako např. délka nebo hmotnost jsou ovlastnosti určitého předmětu. oKlasická definice P (A) = m/n (např. hod kostkou, pravděpodobnost 1/6, že padne dané číslo) om = počet příznivých výsledků v experimentu on = počet všech možných výsledků oPříklady: kostka, mince, karty, sportka, narození chlapce/dívky oPodmínkou je komplex podmínek – souhrn předpisů, za nichž se experiment provádí (např. homog. kostky) oPravděpodobnost reakce pacienta na určitou léčbu? oPouze odhad pomocí relativních četností on pacientů ox vyléčeno oPodíl x/n odhaduje pravděpodobnost vyléčení P o Vlastnosti pravděpodobnosti 1.0 < nebo = P (A) < nebo = 1 2.P (A) = 0 pro jevy nemožné 3.P (A) =1 pro jevy jisté oPravidla pro počítání a)Pravidlo pro sčítání o A, B disjunktní – vzájemně se vylučují (pravděpodobnost, že nastane jeden jev nebo druhý). o P (A nebo B) = P (A) + (B) kostka(strany) 5, 6 je rovno 1/6 + 1/6 = 1/3 o o A, B nejsou disjunktní – vzájemně se nevylučují (pravděpodobnost, že nastanou oba jevy) o P (A nebo B) = P (A) + P (B) – P (A i B) opř. A = diabetes (D) o B = hypertenze (H) oP (D nebo H) = P (D) + P (H) – P (D i H) Vlastnosti pravděpodobnosti ob) Pravidlo pro násobení oA, B nezávislé jevy (výskyt jednoho jevu není ovlivněn výskytem druhého jevu) oP (A i B) = P (A) . P (B) oA, B závislé jevy (jeden jev podmiňuje druhý jev) oP (A i B) = P (A) . P (B/A) – podmíněná pravd. jevu B, že nastal jev A. o = P (B) . P (A/B) př. dvě nemoci u člověka oV praxi – máme určit podmíněn. pravd. P (A/B) ev. P (B/A), kdy P (A i B) je oznáma: P (A/B), P (B/A) jsou tzv. podmíněné pravděpodobnosti. oPlatí: P (A/B) = P (A i B)/ P (B) o P (B/A) = P (A i B)/P (A) oPravidlo pro sčítání i násobení se dá rozšířit na více jevů. oPodmíněné pravděpodobnosti jsou užitečné pro hodnocení rizika nemoci v populaci Vlastnosti pravděpodobnosti oNapř. Ze srovnání pravděpodobností oP (Ca), P (Ca/K), P(Ca/N) oLze usuzovat na riziko kouření (K,N) na výskyt karcinomu plic (Ca) oNapř. P (Ca/K) / P (Ca) - udává, kolikrát je větší pravděpodobnost výskytu karcinomu plic u kuřáků než v celé populaci. o P (Ca/K) / P (Ca/N) - udává, kolikrát je větší pravděpodobnost výskytu karcinomu plic u kuřáků než u nekuřáků. Výběrový/základní soubor oVýběrový soubor Základní soubor o- reprez. náhodný výběr - soubor, který nás zajímá o- výběrové (empirické) - teoretické rozdělení četností o rozdělení četností (matematický model) o- popis rozdělení: tabulka, graf - popis rozdělení: pravděpodobnostní o- stat. ukazatele = výběrové charakteristiky: rozdělení om, s, p (ozn. latinkou) - stat. ukazatele = parametry: μ,σ, π o- jsou to charakteristiky náhodných veličin, (ozn. řeckou abecedou) otzn. mění se výběr od výběru + je nutné počítat - jsou to konstanty, zpravidlaneznámé, os chybami (výběrové, náhodné) pro o o o o oStatistická indukce = usuzování z vlastností výběru na vlastnosti základního souboru o o Snímek 040.jpg Empirické a pravděpodobnostní rozdělení -každá veličina, kterou zkoumáme, je ovlivněna řadou nepatrných náhodných vlivů, což způsobuje její variabilitu – tzn. veličina nabývá u různých subjektů různých hodnot. -měříme-li veličinu ve výběrovém souboru, pak rozložení hodnot této veličiny znázorňujeme na základě empiricky zjištěných četností -každá veličina má své pravděpodobnostní (teoretické) rozdělení -v takovém rozložení jsou na ose x všechny hodnoty, kterých může veličina potenciálně nabývat, a na ose y jsou zaneseny pravděpodobnosti, se kterými se dané hodnoty vyskytují. -v empirickém rozdělení (polygon četností) jsou popsány četnosti, se kterými se naměřené hodnoty vyskytovaly ve výběrovém souboru oX o Pravděpodobnostní rozdělení (pravděpodobnostní křivka) vyjadřuje očekávání, jak často se budou jednotlivé hodnoty vyskytovat v nekonečně velkém souboru Typy pravděpodobnostních rozdělení oDiskrétní veličiny -binomické rozdělení (jev – nejev) -rovnoměrné rozdělení -Poissnovo rozdělení (vzácné jevy) - oSpojité veličiny -normální rozdělení -Studentovo t-rozdělení -Snedecorovo F-rozdělení (Fisherovo – Snedecorovo rozdělení) -Chí-kvadrát rozdělení o oPozn. o- s veličinou zacházíme jako s normálně rozdělenou, pokud nemáme dostatečné důvody pro vyvrácení této domněnky -rozložení většiny veličin lze převést na normální rozdělení Normální rozdělení -matematický model rozdělení četností náhodné veličiny o - - - - o o frekvenční křivka normálního rozdělení je jednoznačně určena dvěma parametry: µ, σ o µ určuje polohu křivky (analogie m) mí o σ určuje tvar křivky (analogie s) sigma o x – o e – základ přirozených logaritmů = 2,72 o π – Ludolfovovo číslo = 3,14 o o Snímek 038.jpg Normální rozdělení o µ určuje polohu křivky (analogie m - VS) mí - ZS o σ určuje tvar křivky (analogie s - VS) sigma - ZS o o Snímek 039.jpg Vlastnosti normálního rozložení -Frekvenční křivky normálního rozložení mají pro různé veličiny různý tvar o (σ) a polohu (µ) o -Pro všechny ale platí, že intervaly, ve kterých se odhadovaná proměnná nachází s pravděpodobností 95% nebo 99%, lze vyjádřit jako odchylky od µ v násobcích σ : o Snímek 036.jpg Snímek 037.jpg Odhady parametrů – bodové, intervalové o1)Bodové odhady = odhad jedním číslem o průměr o relativní četnost o směrod. odchylka o oPožadavky na bodové odhady: a)Konzistence – s rostoucím VS se výběrová charakteristika více blíží k parametru b)Nestrannost – odhady parametru provedené na základě různých VS kolísají kolem hodnoty neznámého parametru na obě strany c)Minimální rozptyl – uvedené kolísání musí být co nejmenší d) oNevýhody bodových odhadů: o- neznáme jejich spolehlivost a přesnost Snímek 035.jpg Intervalové odhady -Neznámý parametr odhadujeme intervalem vytvořeným kolem tzv. nejlepšího nestranného bodového odhadu = charakteristika s minimálním rozptylem. -Interval spolehlivosti (konfidenční interval - CI) -Spolehlivost si určujeme sami (na začátku výzkumu) – buď 95% nebo 99% o jde o pravděpodobnost, že odhadovaný parametr se nachází v daném intervalu o 95% CI (-;-) o 99% CI (-;-) -doplněk spolehlivosti vyjadřuje riziko odhadu – tj. riziko, že odhadovaný parametr leží mimo interval o při spolehlivosti 95% je riziko odhadu 5% o při spolehlivosti 99% je riziko odhadu 1% Odhad průměru základního souboru (parametru µ ) [mí] 1.Nejlepší bodový odhad parametru µ je výběrový průměr m 2.V souborech, kde n > 30, se výběrový průměr chová jako náhodná veličina, která má normální rozdělení 3.V souborech, kde n < 30, používáme model Studentova rozdělení (konstanty 1,96, příp. 2,58 se nahrazují jinými – viz. skripta statistiky str. 25 - tabulka) 4.Každý výběrový průměr je zatížen chybou – jde o tzv. standardní chybu průměru SEm , kterou odhadujeme ze vztahu: (střední chyba) o o o Závěr: Snímek 033.jpg Snímek 034.jpg Vlastnosti odhadu 1)Spolehlivost – volí se předem, jde o stanovení pravděpodobnosti, obvykle 0,95 nebo 0,99 2)Přesnost – je dána délkou intervalu, čím kratší je interval, tím je vyšší přesnost odhadu o o o o o o o Obě vlastnosti spolu souvisí oPřesnost odhadu lze ovlivnit: a)snížením či zvýšením P spolehlivosti b)snížením či zvýšením n (velikost souboru) c)snížením či zvýšením s (homogenita souboru) Snímek 032.jpg Odhad pravděpodobnosti ZS (parametru π) [pí] 1.Nejlepší bodový odhad je relativní četnost o o o n = počet pozorování o k = počet pozorování, u nichž nastal sledovaný jev 2.Pro pravděpodobnosti sice platí binomické rozdělení, ale pokud chceme pracovat s normálním rozdělením, platí o o můžeme vycházet z normálního rozdělení o3. Standardní chybu SE odhadujeme ze vztahu: o o o o Snímek 031.jpg Snímek 030.jpg Snímek 029.jpg Příklad 1: oPříklad: oOdhadněte pravděpodobnost výskytu zrakové vady u studentů LF na základě ovýběrového šetření u 200 studentů on = 200 k = 80 p = 0,40 (40%) o o!Ověřit platnost podmínky! Řešení 1: img223.jpg Příklad 2: oSkupina A: oOdhadněte průměrnou hladinu hemoglobinu v populaci zdravých mužů z onáhodného výběru 100 jedinců s průměrnou hodnotou m = 152,4 g/l a osměrodatnou odchylkou s = 18,2 g/l se spolehlivostí: a) 95% b)99% oSkupina B: oOdhadněte průměrnou hladinu hemoglobinu v populaci zdravých mužů z onáhodného výběru 35 jedinců s průměrnou hodnotou m = 152,4 g/l a osměrodatnou odchylkou s = 18,2 g /l se spolehlivostí: a) 95% b) 99% oSkupina C: oOdhadněte průměrnou hladinu hemoglobinu v populaci zdravých mužů z onáhodného výběru 100 jedinců s průměrnou hodnotou m = 152,4 g/l a osměrodatnou odchylkou s = 14,8 g/l se spolehlivostí: a) 95% b) 99% Řešení 2: img222.jpg Děkuji za pozornost C:\WINWORD\CLIPART\CROWD.WMF