8. SEMINÁŘ • •INDUKTIVNÍ STATISTIKA • •1. ODHADY PARAMETRŮ • • • STATISTICKÁ INDUKCE • • • • • •Vlastnosti a složení výběrového souboru je přesně známé. •Vlastnosti a složení základního souboru odhadujeme s určitou mírou nejistoty. •Metody induktivní statistiky nejistotu neodstraňují, ale dokáží určit míru této nejistoty. ? Pravděpodobnost náhodného jevu • Pravděpodobnost je mírou „častosti“ výskytu tohoto jevu • Pravděpodobnost je vlastnost náhodného jevu •Pravděpodobnost NJ zjistíme opakováním pokusů, jejichž výsledkem může být daný jev a „měříme“ ji relativní četností (p) tohoto jevu v řadě opakovaných pokusů ( p = k/n). Pravděpodobnost náhodného jevu •Klasická definice pravděpodobnosti – pst NJ • je dána podílem příznivých a všech možných výsledků (v experimentu, jehož možné výsledky jsou stejně pravděpodobné). •Pravděpodobnost jevů spojených s karetními hrami, (hod kostkou, mincí ..) – dle definice •Nelze dle def. vypočítat pravděpodobnost jevů v medicíně, můžeme pst jen odhadovat pomocí relativních četností NÁHODNÁ VELIČINA (NV) •Spojitá NV – její rozdělení je dáno hustotou pravděpodobností – frekvenční křivka (funkce). • •Matematicky – rovnice frekvenční funkce • •Graficky - hladká, plynulá čára • • Prezentace kvantitativních dat Příklad frekvenční fce spojité NV Základní a výběrový soubor •VÝBĚROVÝ SOUBOR • •reprezentativní náhodný výběr •výběrové (empirické) rozdělení četností • •popis rozdělení: • tabulka, graf • •stat. ukazatele = výběrové charakteristiky: m, s, p (ozn. latinkou) •jsou to charakteristiky náhodných veličin a také se jako náhodné veličiny chovají, tzn. mění se výběr od výběru (nutno počítat s chybami) •ZÁKLADNÍ SOUBOR • •soubor, který nás zajímá •teoretické rozdělení četností (matematický model) • •popis rozdělení: pravděpodobnostní rozdělení • •stat. ukazatele = parametry: μ, σ, π (ozn. řeckou abecedou) • •jsou to neměnné konstanty, zpravidla neznámé, pro n ® ∞ platí, že m ® μ, s ® σ, p ® π. Empirické a pravděpodobnostní rozdělení •Každá veličina je ovlivňována řadou nepatrných vlivů, což způsobuje její variabilitu – tzn. veličina nabývá u různých subjektů různých hodnot – náhodná veličina (proměnná). • •Měříme-li veličinu ve výběrovém souboru, pak rozložení hodnot této veličiny znázorňujeme na základě empiricky zjištěných četností (histogram) = výběrové rozdělení. • •Každá veličina má své pravděpodobnostní (teoretické) rozdělení. •V takovém rozložení jsou na ose x všechny hodnoty, kterých může veličina potenciálně nabývat, a na ose y jsou pravděpodobnosti, se kterými se dané hodnoty vyskytují. • Empirické a pravděpodobnostní rozdělení •V empirickém rozdělení (histogram,polygon četností) jsou popsány četnosti, se kterými se naměřené hodnoty vyskytovaly ve výběrovém souboru • X •Pravděpodobnostní rozdělení (pravděpodobnostní křivka) vyjadřuje očekávání, jak často se budou jednotlivé hodnoty vyskytovat v nekonečně velkém souboru • • •Pravděpodobnostní rozdělení náhodných veličin jsou teoretické (matematické) modely, jejichž pomocí popisujeme nejrůznější reálné situace. Navzdory různorodosti a mnohotvárnosti přírodních a společenských jevů vystačíme v praxi s malým počtem modelů(tj. typů rozdělení). • Typy pravděpodobnostních rozdělení • •Diskrétní veličiny • binomické rozdělení (jev – nejev) • rovnoměrné rozdělení • Poissonovo rozdělení (vzácné jevy) • •Spojité veličiny • normální (Gaussovo) rozdělení • Studentovo t-rozdělení • Snedecorovo F-rozdělení • Chí-kvadrát rozdělení • •Pozn.: • S veličinou zacházíme jako s normálně rozdělenou, pokud nemáme dostatečné důvody pro vyvrácení této domněnky. • Rozložení většiny veličin lze převést na normální rozdělení. • NORMÁLNÍ (GAUSSOVO) ROZDĚLENÍ • nejdůležitější spojité rozdělení • • NV má normální rozdělení tehdy, je - li tvořena nahromaděním velkého počtu nepatrných nezávislých příčin nahodilé povahy. • •př.- tělesná výška NORMÁLNÍ ROZDĚLENÍ (GAUSSOVA KŘIVKA) • • • • • • • • • •Frekvenční křivka NR je jednoznačně určena dvěma parametry: μ a σ. •μ - určuje polohu křivky na ose x (analogie m) •σ - určuje tvar křivky (analogie s) •Symetrické rozdělení četností, parametr μ = průměr a zároveň nejčetnější hodnota, která půlí plochu pod křivkou na dvě stejně velké části Matematický model rozdělení četností spojité náhodné veličiny NORMÁLNÍ ROZDĚLENÍ •Frekvenční křivky normálního rozdělení se stejnými směrodatnými odchylkami a odlišnými průměry ( μ1 ≠ μ2; σ1 = σ2 ) img173 NORMÁLNÍ ROZDĚLENÍ •Frekvenční křivky normálního rozdělení se stejnými průměry a odlišnými směrodatnými odchylkami ( μ1 = μ2; σ1≠ σ2) img175 VLASTNOSTI NORMÁLNÍHO ROZDĚLENÍ VLASTNOSTI NORMÁLNÍHO ROZDĚLENÍ • • • • • •Častěji nás ale zajímá, v jakém intervalu leží 95% (99%) hodnot sledované veličiny –pak lze tvrdit, že s pravděpodobností 95% (99%) se hodnoty sledované veličiny nacházejí právě v tomto intervalu resp., že 95% hodnot, kterých sledovaná veličina nabývá, leží v tomto intervalu –tento interval je vymezen tzv. kritickými hodnotami normálního rozdělení • P ( µ - 1,96σ ≤ x ≤ µ + 1,96σ)= 0,95 • P (µ - 2,58σ ≤ x ≤ µ + 2,58σ)= 0,99 • • KRITICKÉ HODNOTY NORMÁLNÍHO ROZDĚLENÍ • • • • • • •Kritické hodnoty normálního rozložení: 1,96σ a 2,58σ •V intervalu (μ - 1,96σ; μ + 1,96σ) se nachází 95 % všech možných hodnot sledované veličiny •V intervalu (μ – 2,58σ; μ + 2,58σ) se nachází 99% všech možných hodnot sledované veličiny • • • v v v v μv v v v 99% v 95% μ -1,96σ 1,96σ -2,58σ 2,58σ Tabulky normálního rozdělení •Pro nematematiky •Pro zvolené hranice intervalu a,b lze najít odpovídající pravděpodobnost a obráceně •Tabelace je možná proto, že •1/ normální rozdělení je symetrické •2/ hranice a, b lze vyjádřit jako odchylky od µ v násobcích směrodatné odchylky σ • (zásada: plocha = pravděpodobnost!) ODHADY PARAMETRŮ •Bodové odhady • •Intervalové odhady 1. • BODOVÉ ODHADY •Neznámý parametr odhadujeme jedním číslem tj. bodem. •Např. výběrový aritmetický průměr m je bodovým odhadem parametru µ • ( µ ≈ m, σ ≈ s, π ≈ p) •Bodové odhady se „nestrefí“ přesně do odhadovaného parametru INTERVALOVÉ ODHADY INTERVALOVÉ ODHADY • •Doplněk spolehlivosti do jedné (do 100%) vyjadřuje riziko odhadu (riziko induktivního úsudku) – tj. pravděpodobnost, že odhadovaný parametr leží mimo interval: •při spolehlivosti 95% je riziko odhadu 5%, •při spolehlivosti 99% je riziko odhadu 1%. • 2. • INTERVALOVÉ ODHADY Změna kritických hodnot u jednostranného odhadu pro spolehlivost 0,95 Pravostranný odhad P= 0,95 Oboustranný odhad P= 0,95 Riziko odhadu Riziko odhadu Riziko odhadu ODHAD PRŮMĚRU ZÁKLADNÍHO SOUBORU (PARAMETRU μ) ODHAD PRŮMĚRU ZÁKLADNÍHO SOUBORU (PARAMETRU μ) •Z vlastností normálního rozdělení vyplývá: • P(μ – 1,96 σm ≤ m ≤ μ + 1,96 σm ) = 0,95 • P(μ – 2,58 σm ≤ m ≤ μ + 2,58 σm ) = 0,99 •úprava nerovnosti uvnitř závorky → • hranice pro 95 % CI a 99% CI pro μ •dolní hranice: m – 1,96 σm m – 2,58 σm • •horní hranice: m + 1,96 σm m + 2,58 σm • • • Odhad průměru ZS (µ) - příklad • Odhadněte průměrnou vitální kapacitu plic mužů ve věku 40-50 let na podkladě výběrového šetření 200 mužů s výsledky: • • m = 4,83 s = 0,66 n = 200 Řešení Snímek 032.jpg •SE = 0,66 /√200-1 = 0,66/ 14,107= 0,04678 • Pro spolehlivost 0,95 •a = m - 1,96 .SE a = 4,83 – (1,96 . 0,04678)= 4,74 •b = m + 1,96.SE b = 4,83 + (1,96 . 0,04678)= 4,92 •Přesnost = 1,96.SE = 1,96.0,04678 = 0,09 •3 formy zápisu: 1/ µ = 4,83 ± 0,09 • 2/ P (4,74 ≤ µ ≤ 4,92) = 0,95 • 3/ 95% CI (4,74 ; 4,92) Interpretace •Průměrná vitální kapacita plic v ZS mužů věkové kategorie 40 - 50 let se pohybuje s pravděpodobností 0,95 v rozmezí 4,83 ± 0,09, • tj. od 4,74 do 4,92 litrů. • • • Proveďte odhad se spolehlivostí 0,99. VLASTNOSTI INTERVALOVÉHO ODHADU Vlastnosti odhadu • •95%CI (4,74 ; 4,92) přesnost ± 0,09 • •99%CI (4,71; 4,95) přesnost ± 0,12 • •Porovnejme spolehlivost, délku a přesnost intervalů Vztahu mezi rozsahem výběru, přesností a spolehlivostí odhadu mohu použít ke stanovení potřebného rozsahu výběru ODHAD NEZNÁMÉ PRAVDĚPODOBNOSTI NÁHODNÉHO JEVU (PARAMETRU π) Snímek 003.jpg ODHADY PARAMETRŮ - SHRNUTÍ