Z1069 Statistické metody a zpracování dat III. Pravděpodobnost, teoretická rozdělení K čemu je to dobré? • Popisné a průzkumové metody umožňují přehledné shrnutí informací, které se týkají jen objektů měřených či pozorovaných. Příklady: • Jak často se takováto povodeň může opakovat? • Jakou hodnotu měřené veličiny nejpravděpodobněji získáme opakovaným měřením? • Je vysoký počet dvojčat narozených v určitém okrese „normální“? • Je rozdíl mezi dvěma jevy významný? • Činíme závěry pouze z určitého zpracovávaného souboru – výběrového, popisujeme jen to, co bylo zjištěno, naměřeno. • S popisnou statistikou často nevystačíme, potřebujeme činit zobecňující úsudky. Náhodný jev, náhodná proměnná Přírodní či společenské jevy mohou mít povahu jevů • deterministických • náhodných Náhodný jev - za určitého souboru podmínek může nastat jeden z množiny výsledků, který závisí nejen na vstupních podmínkách, ale obsahuje i prvek náhody (tahání karet, měření teploty vzduchu, …). Náhodná proměnná – proměnná, u které nelze na základě určité zákonitosti předem stanovit její konkrétní hodnotu. • Spojitá – může nabývat jakékoliv hodnoty z určitého intervalu (teplota vzduchu) • Diskrétní – může nabývat pouze konkrétních hodnot (házení kostkou, pohlaví narozeného dítěte) Pravděpodobnost • Řada jevů a procesů studovaných v geografických disciplínách má charakter náhodné proměnné, má pravděpodobnostní charakter (mohu nastat s určitou pravděpodobností) – např. výsledky prognóz (demografie, meteorologie apod.) • Použití teorie pravděpodobnosti (např. pro testování, odhady) vyžaduje data získaná náhodným výběrem (náhodné proměnné). • Vyjadřuje míru nejistoty, s jakou určitý náhodný jev může nastat. • Vyjadřuje míru nejistoty s jakou může náhodná veličina nabývat určité hodnoty • Ve statistice tuto míru nejistoty (pravděpodobnost) můžeme kvantifikovat. Pravděpodobnost • Pravděpodobnost jako vyjádření míry nejistoty o výskytu náhodného jevu, o výsledku náhodného jevu. • Pravděpodobnost, že nastane určitý náhodný jev se pohybuje v intervalu <0,1> resp. <0,100> %. • Jev možný – množina všech možných výsledků - náhodný jev • Jev jistý – padne něco mezi 1 až 6 • Jev nemožný – padne 7 • Jev elementární – padne 6 • Jev složený – více možných výsledků (padne sudé číslo) Pravděpodobnost P(A) - Určení pravděpodobnosti P, s jakou náhodný jev A nastane, můžeme povést dvěma způsoby: 1. Určení pravděpodobnosti „a priori“: Podíl počtu požadovaných výsledků a počtu všech možných výsledků: Př.: S jako pravděpodobností padne při házení kostkou šestka: n m AP =)( A – jev který sledujeme P(A) – pravděpodobnost jevu A m - Počet požadovaných výsledků n – počet všech možných výsledků V našem případě: P(A=6): m=1 (šestku můžeme hodit jen jedním způsobem), n=6 (může padnout 6 různých čísel), tedy: 1667,0 6 1 )6( ==== n m AP Pravděpodobnost, že při hodu kostkou padne šestka je 16,67% Pravděpodobnost 2. Určení pravděpodobnosti „a posteriori“: Pomocí relativní četnosti výskytu studovaného jevu: n n AP i =)( ni – počet požadovaných výsledků, které nastaly při realizaci jevu (absolutní četnost) n – celkový počet pokusů (rozsah souboru) Příklad: Z deseti hodů kostkou (n=10) jsme získali následující výsledky: 2,4,6,1,6,3,5,6,2,1. Spočteme frekvenci výskytu jednotlivých výsledků a následně relativní četnost výsledku, při kterém padla šestka, tedy počet případů příznivých jevu A k počtu případů možných. 3,0 10 3 )6( ==== n n AP i Empiricky zjištěná pravděpodobnost, že padne 6 je 30%. Obě pravděpodobnosti se liší. Čím více realizací náhodného pokusu provedeme, tím si budou výsledky bližší, pro budou shodné.∞→n Rozdělení náhodné proměnné Každému výsledku náhodného jevu či procesu přísluší určitá pravděpodobnost. Konstruujeme model umožňující zobecnění našich poznatků o chování hromadných náhodných jevů – teoretické rozdělení pravděpodobnosti Můžeme určit s jakou pravděpodobností náhodný jev nabývá určité výsledné hodnoty či hodnoty z určitého intervalu. Teoretická rozdělení – základní pojmy 1. Pro diskrétní náhodnou proměnnou konstruujeme: • rozdělení pravděpodobností diskrétní náhodné proměnné (frekvenční funkci) • distribuční funkci diskrétní náhodné proměnné Pro spojitou náhodnou proměnnou konstruujeme: • hustotu pravděpodobností spojité náhodné proměnné (frekvenční funkci) • distribuční funkci spojité náhodné proměnné Teoretická rozdělení ve statistice charakterizujeme: 1. průběhem frekvenční a distribuční funkce 2. parametry rozdělení 2. Parametry rozdělení – čísla (statistiky) Neznámé hodnoty základních statistických charakteristik základního souboru, které můžeme jen odhadnout z charakteristik výběrových Teoretická rozdělení pravděpodobnosti Rozdělení pravděpodobnosti f(X) náhodné proměnné X je funkce f(X), která každé hodnotě X přiřazuje určitou pravděpodobnost p(x), se kterou tato nabývá konkrétní velikosti. Teoretická rozdělení spojité náhodné veličiny K tzv. frekvenční funkci f(x). Můžeme dospět jednoduše z histogramu relativních četností Frekvenční funkce f(x) představuje teoretické rozdělení četností základního souboru o parametrech µ, σ. Cíl – nahradit výběrové soubory základními a pro ně odvozovat potřebné charakteristiky (Příklad - hodnocení stupně normality výskytu určitých hodnot – povodně) Teoretická rozdělení spojité náhodné veličiny Analogicky lze ze součtové čáry definovat tzv. distribuční funkci F(x). Distribuční funkce udává pravděpodobnost, se kterou náhodná proměnná nabývá hodnoty menší nebo rovné určité konkrétní velikosti x. ∑< ==<= Xx i i xXPxXPxF )()()( Normální rozdělení • Nejčastěji používané rozdělení spojité náhodné veličiny • Opakované měření stejné veličiny za stejných podmínek • Naměřené veličiny více méně kolísají kolem skutečné hodnoty • Má dva parametry µ, σ 2 2 2 )( 2 1 )( σ µ πσ − − ⋅= x exf ∫∞− − − ⋅= x x dxexF 2 2 2 )( 2 1 )( σ µ πσ Frekvenční funkce: Distribuční funkce: Normální rozdělení Normované normální rozdělení Protože se µ i σ výběr od výběru liší, má i frekvenční funkce (normální křivka) různý tvar. Proto se zavádí tzv. normovaná náhodná proměnná Normované normální rozdělení již potom nezáleží na parametrech µ i σ a jeho frekvenční a distribuční funkce mají následující tvar: σ µ− = x z 2 2 2 1 )( z ezf − ⋅= π ∫∞− − ⋅= z z dzezF 2 2 2 1 )( π Normované normální rozdělení Pro hodnoty distribuční funkce F(x) normálního rozdělení N[µ,σ] a hodnoty distribuční funkce F(z) normovaného normálního rozdělení N[0,1] platí: σ µ− = 0 0 x zJestliže potom F(x0) = F(z0) Obsahy ploch pod křivkami hustoty navzájem si odpovídajících si hodnot F(x0) = F(z0) jsou stejné (a tedy stejné jsou i pravděpodobnosti výskytu těchto hodnot). Například: N[3400,600], x0 = 4000 N[0,1], x0 = 1 1 600 340040000 0 = − = − = σ µx zProtože potom 84134,0)1()4000( =≤=≤ zPxP Hlavní vlastnosti normální křivky • zvonovitý tvar, asymptoticky se blíží k ose x, může nabývat hodnot • souměrná podle osy procházející jejím vrcholem. x-ová souřadnice vrcholu je aritmetickým průměrem • aritmetický průměr, medián a modus se rovnají • s osou x omezuje normální křivka plochu o velikosti 100 % (1) N[µ,σ 2 ] infl. bod µ µ+1σµ-1σ µ+2σµ-2σ x f(x) µ-3σµ-3σ 68,3% 95,5% 99,7% Pomocí násobků směrodatné odchylky lze stanovit pravděpodobnosti, s nimiž leží hodnoty v určitém intervalu: Vlastnosti normální křivky a naopak • 95% pravděpodobnosti odpovídá interval • 99% pravděpodobnosti odpovídá interval σµ 96,1± σµ 58,2± Stanovení mezí extremity c – tzv. pravděpodobná chyba: c = 0,6745s Příklad použití • Pro danou hodnotu jevu hledáme pravděpodobnost jejího výskytu • Pro zadanou pravděpodobnost hledáme hodnotu studovaného jevu. Dvě možnosti výpočtu • převod na normované normální rozdělení a využití statistických tabulek • pomocí sw modelujícího hodnoty f(x) a F(x) příslušného rozdělení Příklad: Plochu obhospodařované zemědělské půdy u sledovaného souboru farmářů modelujeme normálním rozdělením. Zjistili jsme, že parametry rozdělení N [3400 m2, 600 m2]. Vypočtěte pravděpodobnost, že náhodně vybraný zemědělec bude mít: a) méně než 4000 m2 půdy b) více než 4200 m2 půdy c) méně než 3000 m2 půdy d) mezi 2800 a 4000 m2 půdy Příklad řešení při použití tabulek distribuční funkce normovaného normálního rozdělení Ad a) Farmář má méně než 4000 m2 půdy Transformace hodnoty x na normovanou veličinu z (z-skóre): 1 600 34004000 = − = − = σ µx z Můžeme psát: (tuto hodnotu nalezneme v tabulkách) 84134,0)1()4000( =≤=≤ zPxP Ad b) Farmář má více než 4200 m2 půdy Transformace hodnoty x na normovanou veličinu z (z-skóre): 33,1 600 34004200 = − = − = σ µx z Pravděpodobnost, že normovaná proměnná překročí hodnotu 1,33 v tabulkách není. Určujeme obsah plochy pod křivkou hustoty rozdělení za hodnotou 1,33: 09176,090824,01)33,1(1)33,1()4200( =−=≤−=≥=≥ zPzPxP Ad c) Farmář má méně než 3000 m2 půdy Transformace hodnoty x na normovanou veličinu z (z-skóre): Pravděpodobnost určíme na základě symetrie normovaného normálního rozdělení, platí tedy: 67,0 600 34003000 −= − = − = σ µx z )67,0( −≤zP 25143,074857,01)67,0(1)67,0()67,0( =−=≤−=≥=−≤ zPzPzP Ad d) Farmář má mezi 2800 a 4000 m2 půdy Transformace hodnoty x na normovanou veličinu z (z-skóre): 1 600 340028001 1 −= − = − = σ µx z 1 600 340040002 2 = − = − = σ µx z Plocha mezi hodnotami 2800 a 4000 m2 u rozdělení N [3400, 600] je stejná jako plocha mezi hodnotami -1 a 1 u rozdělení N [0, 1]. )11()40002800( ≤≤−=≤≤ zPxP Od plochy před hodnotu 1 odečteme plochy před hodnotou -1, tedy: 68268,0]84134,01[84134,0)]1(1[)1( )1()1()11( =−−=≤−−≤ =−≤−≤=≤≤− zPzP zPzPzP Řešení při použití pomocí sw modelujícího hodnoty f(x) a F(x) příslušného rozdělení STATISTICA – Pravděpodobnostní kalkulátor Rozdělení diskrétní náhodné proměnné Příklad: Třikrát hodíme kostkou. Jaká je pravděpodobnost, že šestka nepadne, že padne jednou, dvakrát, třikrát? Rozdělení pravděpodobnosti Distribuční funkce Binomické rozdělení Rozdělení diskrétní náhodné proměnné. Udává rozdělení výsledků jednoho a téhož pokusu za stejných podmínek, kdy výsledkem pokusu mohou být pouze dvě alternativy A nebo B. Pravděpodobnost, že nastane alternativa A značíme p, pravděpodobnost, že nastane alternativa B značíme q. Přitom platí: 1=+ qp Pokus provedeme n-krát a hledáme pravděpodobnost, že alternativa A nastane právě x-krát. Výpočet této pravděpodobnosti určuje výraz: ( ) xnxxnx qp xnx n qp x n xf −− ⋅⋅ − =⋅⋅      = !! ! )( Uvedený vztah vyjadřuje rozdělení pravděpodobností binomického rozdělení (analogie frekvenční funkce u spojitých veličin). Binomické rozdělení U binomického rozdělení nabývá náhodná veličina diskrétních hodnot od 0 do n. Rozdělení pravděpodobnosti binomického rozdělení pro n=8 a různé hodnoty pravděpodobnosti p Je-li p = q = 0,5, potom je binomické rozdělení souměrné Základní momenty binomického rozdělení pn⋅=µ qpn ⋅⋅=σ qpn p ⋅⋅ − = 21 α qpn qp ⋅⋅ ⋅− = 61 ε Příklady použití binomického rozdělení • rozdělení počtu dní s určitým meteorologickým jevem za měsíc • pravděpodobnost narození dvou chlapců v rodinách se třemi dětmi • pravděpodobnost pozdního příchodu na jednu ze 12 přednášek ze statistiky Binomické rozdělení Příklad: Pravděpodobnost, že se v určitém roce vyskytne na studovaném toku povodeň je 0,25. Jaká je pravděpodobnost, že se během příštích čtyř let vyskytnou 3 povodně? • každý rok je nezávislý „pokus“ • každý rok se povodeň může vyskytnout či nemusí • pravděpodobnost výskytu povodně p=0,25 • pro 4 roky (n=4) hledáme pravděpodobnost výskytu tří povodní (x=3) 0469,075,025,0 3 4 )( 343 =⋅⋅      =⋅⋅      = −−xnx qp x n xf Pravděpodobnost výskytu tří povodní ve 4 rocích je necelých 5 procent. Binomické rozdělení řešení příkladu z programu Statistica – Pravděpodobnostní kalkulátor Poissonovo rozdělení ! )( x e xf x λ λ − ⋅ = Pro aritmetický průměr a rozptyl platí: λσµ == 2 Označuje se jako rozdělení vzácných případů (bouřky v zimě, výskyt krupobití v roce, …). Jeho použití se doporučuje, pokud n > 30 (resp. 50) a nebo .1,0≤p 9,0≥p Popisuje pravděpodobnost výskytu vzácných jevů. Je vhodné v případech, kdy p v binomickém rozdělení je příliš malé nebo naopak příliš blízké 1. Náhodná veličina s Poissonovým rozdělením může nabývat hodnot x = 0,1,2,3,... (kolikrát jev nastal v určitém časovém úseku) a to s rozdělením pravděpodobnosti: kde lambda (λ) je očekávaná hodnota a jediný parametr Poissonova rozdělení: pn ⋅=λ Poissonovo rozdělení Použití tohoto rozdělení lze charakterizovat následujícími vlastnostmi: 1. Pravděpodobnost výskytu jedné události v daném intervalu (čase nebo prostoru) je úměrná délce tohoto intervalu. 2. Události se vyskytují nezávisle jak ve stejném intervalu, tak mezi po sobě jdoucími intervaly. 3. Událost může nastat v kterémkoliv okamžiku 4. Výskyt dvou či většího počtu událostí během krátkého časového okamžiku (ale i v malém prostoru) je prakticky nemožný Použití: - počet dětí ztracených v obchodním domě v určité časovém úseku - počet telefonních hovorů v určitém časovém úseku - počet borovic na jednotku plochy smíšeného lesa S rostoucí hodnotou λ se tvar tohoto rozdělení blíží normálnímu Poissonovo rozdělení - příklad Průměrný počet těžkých dopravních nehod na určité křižovatce za měsíc je 5. Rozdělení četností nehod modelujeme Poissonovým rozdělením. Jaká je pravděpodobnost, že počet nehod bude více než 4. • Rozdělení četností nehod obecně pro x = 0,1,2,3,4 má tvar: ! 5 ! )( 5 x e x e xf xx −− ⋅ = ⋅ = λ λ • Vypočteme pravděpodobnosti f(x) pro jednotlivá x: f(0),…. f(4) • Součet těchto pravděpodobností je 0,44 • Hledaná pravděpodobnost – tedy že počet nehod přesáhne 4: 1 - 0,44 = 0,56 Poissonovo rozdělení – příklad řešený v programu EXCEL a v programu Statistica 1 - 0,44 = 0,56 Výsledek: Rozdělení CHÍ - kvadrát 2 χ Ze základního souboru s normovaným normálním rozdělením provedeme náhodný výběr n prvků, které označíme Součet čtverců těchto hodnot se označuje jako („chí – kvadrát“): .,...,, 21 nxxx 2 χ 2 1 2 χ=∑= n i ix Hodnota může nabývat v různých výběrech různých hodnot v intervalu a má své vlastní rozdělení - rozdělení s vlastní frekvenční ( ) a distribuční funkcí ( ) Symbol značí počet stupňů volnosti a je jediným parametrem rozdělení. Je roven rozsahu náhodného výběru. Každé hodnotě přísluší jiná křivka. S rostoucím se rozdělení blíží rozdělení normálnímu. )( 2 χνf )( 2 χνF 2 χ ( )∞;0 ν n=ν ν Rozdělení CHÍ - kvadrát 2 χ Frekvenční funkce chí-kvadrát rozdělení pro různý počet stupňů volnosti Použití: • v teorii odhadu a testování hypotéz • při ověřování předpokladu zda empirické rozdělení četností má určité teoretické pravděpodobností rozdělení • testování rozptylu dvou výběrových souborů při neznámé střední hodnotě • při ověřování nezávislosti kvalitativních znaků • pro testy nezávislosti v kontingenčních tabulkách. Využívá se především pro hodnocení odchylek hodnot aritmetického průměru základního souboru a aritmetického průměru výběrového souboru . Pro hodnocení odchylek se definuje náhodná veličina S rostoucím počtem stupňů volnosti se t-rozdělení blíží rozdělení normálnímu. Teoreticky se shodují při . V praxi však postačuje . Rozdělení t (Studentovo) 1− − = n s x t µ µ x Této přísluší tzv. t-rozdělení (Studentovo). Spojitá náhodná veličina t může nabývat hodnot . Frekvenční funkce je souměrná podle osy procházející vrcholem a má jeden parametr . ( )∞∞− ; ( )tqν 1−= nν ∞=ν 30>ν )( µ−x Rozdělení F (Fisherovo-Snedecorovo) Uvažujeme dvě nezávislé náhodné veličiny, které mají rozdělení s a stupni volnosti. Veličina F, určená jako jejich poměr1ν 2ν 2 χ 2 2 2 1 2 1 : ν χ ν χ =F Jak je patrné z obrázku, náhodná veličina F nabývá pouze kladných hodnot. Frekvenční funkce je nesymetrická s dvěma parametry a1ν 2ν)(21 , Fh νν má tzv. F – rozdělení. Používá se u testů v regresní analýze, při analýze rozptylu a při testu shody rozptylů dvou výběrů z normálního rozdělení. Frekvenční funkce log-normálního rozdělení: Příklady: • rozdělení věku obyvatelstva v populaci • koncentrace stopových prvků v horninách (stopová analýza), Lognormální rozdělení Proměnná X má lognormální rozdělení pravděpodobností, když logaritmickou transformací (Y=lnX) získá právě rozdělení normální s parametry µ a σ2. 2 2 2 )(ln 2 2 1 )( σ µ πσ − − = x e x xf Další v geografii využívaná teoretická rozdělení • Gama rozdělení • Gumbelovo rozdělení • GEV (General Extreme Value) Pearsonova křivka III. typu • Na řadu souborů geografických údajů nelze aplikovat normální rozdělení. • Je to v případech, že studovaná veličina nemá teoreticky zdůvodněnou možnost nabývat nekonečných hodnot či je omezena z obou stran konečnými čísly. • V těchto případech lze často využít některé z 12 křivek Pearsonovy systému. • Především v meteorologii, klimatologii či hydrologii se ke konstrukci tzv. čar překročení využívá Pearsonovy křivky III. typu. Průběh křivky je určen třemi parametry: • aritmetickým průměrem • variačním koeficientem • koeficientem asymetrie Pearsonova křivka III. typu Tvar rovnice: b a b x a x eyy       +⋅= − 10 Hodnota y0 značí největší pořadnici křivky a odpovídá modu rozdělení. b – vzdálenost pořadnice procházející aritmetickým průměrem od y0, a – vzdálenost y0 od počátku křivky. ∫ ∞ minx ydx Čára překročení je součtová čára četností a lze z ní stanovit pravděpodobnost, se kterou bude znak určité hodnoty dosažený a překročený (či nebude dosažený). Ke konstrukci čáry překročení musíme znát tři parametry: Spočteme aritmetický průměr Označíme-li i i k x x = potom variační koeficient bude: ( ) 1 1 2 − − = ∑ n k v i Koeficient asymetrie je roven v b2 =α a nebo 3 3 )1( )1( vn ki ⋅− − = ∑α a nebo v2=α Uvedená podmínka je často nutná pro fyzikálně zdůvodnitelné výsledky Čára překročení Čára překročení Tvar čáry překročení pro různá v2=α v2>α v2<α α Konstrukce čáry překročení I 1) Seřadíme hodnoty Ri v klesajícím pořadí 2) Vypočteme aritmetický průměr 3) Stanovíme hodnoty 4) Vypočteme výrazy a jejich sumy 5) Vypočteme hodnoty variačního koeficientu v a koeficientu asymetrie R R R k i i = 32 )1(,)1(),1( −−− iii kkk α ( ) 447,0 1 1 2 = − − = ∑ n k v i 4,0 3,0 + − = n m Pc cP T 1 = pravděpdobnost překročení doba opakování 90,02 =≈ vα Konstrukce čáry překročení II 6) Pro jednotlivé hodnoty pravděpodobnosti překročení p a pro vypočtenou hodnotu koeficientu asymetrie vypočteme pomocí tabelovaných hodnot E pro případ v = 1 pořadnice čáry překročení – teoretické hodnoty R. 7) Každé hodnotě R odpovídá určité p a určitá doba opakování (T) α Pravděpodobnosti překročení pro koeficient asymetrie 0,9 Konstrukce čáry překročení III Hodnocení extremity jevu na základě procenta pravděpodobnosti překročení určeného z čáry překročení: Křivka překročení průměrných ročních průtoků Dunaje v Bratislavě v období 1901-1950 a hodnocení vodnosti roků Řešení při použití pomocí sw modelujícího hodnoty f(x) a F(x) příslušného rozdělení EXCEL – soubor XL_Stat.rar – viz. studijní materiály v IS Asymetrická rozdělení • vzdálenosti na které se lidé stěhují, cestují na dovolenou, do práce … • osobní příjmy • vzdálenost dojížďky Většina těchto rozdělení má kladnou asymetrii Nalezněte příklady pro rozdělení se zápornou asymetrií (?!) Jak lze charakterizovat rozdělení takových veličin jako: • počet členů domácnosti • četnost zaměstnanců podle průměrné měsíční mzdy Exponenciální rozdělení Frekvenční funkce f(x) má následující tvar a její sklon klesá s rostoucí hodnotu x x exf λ λ − =)( 0≥xpro Rozdělení má jeden parametr (λ), jeho velké hodnoty indikují velký sklon frekvenční funkce a naopak. Hodnoty pravděpodobnosti lze určovat přímo z distribuční funkce: x exXpxF λ− −=<= 1)()( Očekávaná hodnota průměru je 1/λ, a očekávaná hodnota rozptylu 1/λ2. Z očekávané hodnoty průměru potom lze určit hodnotu parametru (λ). Hodláme-li výběrovým souborem, který má silně pozitivní asymetrii proložit exponenciální rozdělení, určíme průměrnou hodnotu výběrového souboru a parametr rozdělení λ bude jeho převrácenou hodnotou. Exponenciální rozdělení - příklad 40 studentů dojíždí do školy z průměrné vzdálenosti 7 km. Histogram hodnot vzdálenosti vykazuje pozitivní asymetrii. Hodnota parametru exponenciálního rozdělení bude λ = 1/7 = 0,143. Jaká je pravděpodobnost, že student dojíždí ze vzdálenosti 15 km a delší? Exponenciální rozdělení - příklad Zadání – viz. předchozí příklad Řešení v programu Statistica – Pravděpodobnostní kalkukátor Beta rozdělení U - rozdělení α,β – parametry tvaru rozdělení A,B – dolní a horní mez