Testy dobré shody při neznámých parametrech, ověřování exponenciálního rozdělení Pavel Hellebrand 20.března 2008 Brno, 20. března 2008 2 Obsah Multinomické rozdělění Testy dobré shody při známých parametrech Testy dobré shody při neznámých parametrech Ověřování exponenciálního rozdělení Brno, 20. března 2008 3 Multinomické rozdělení 1Multinomické rozdělení 1 Mějme urnu a v ní kuličky k různých barev. Nechť pravděpodobnost vytažení kuličky i-té barvy je rovna i = 1, 2, ... , k, přičemž Za těchto podmínek n-krát nezávisle na sobě vybereme (s vracením) po jedné kuličce. Označme počet kuliček i-té barvy, které takto byly vybrány. Je zřejmé, že sdružené rozdělení pravděpodobnosti náhodných veličin je dáno vzorcem pro Rozdělení dané vzorcem (2) se nazývá multinomické s parametry pi 1 0 pik p1... pk=1. X i X 1, ... , X k 2 P X 1=x1 ,... , X k=xk = n! x1!... xk! p1 x1 ... pk xk xi=0,1,... ,n i=1,2 ,... , k , x1...xk=n n , p1, ... , pk Brno, 20. března 2008 4 Multinomické rozdělení 2 Pro multinomické rozdělení platí, že všechna jeho marginální podmíněná rozdělení jsou opět multinomická. Všechna jednorozměrná marginální rozdělení jsou binomická. ( má binomické rozdělení s parametry n a ) Jestliže má multinomické rozdělění (2), pak náhodná veličina má při asymptoticky rozdělení X i pi EX i=npi , var X i=npi 1- pi , 1ik , cov X i , X j =-npi p j , 1i jk. X = X i ,... , X k ' 3 2 = i=1 k X i-npi 2 npi n k-1 2 Brno, 20. března 2008 5 Multinomické rozdělení 3 Vzorec (3) lze snadno upravit na tvar který je vhodnější pro výpočet, avšak v praxi se dává přednost vzorci (3), protože je z něj lépe vidět jakou měrou přispívá každý sčítanec k celkovému součtu . 2 = i=1 k X i 2 npi -n 2 Brno, 20. března 2008 6 Test dobré shody při známých parametrech 1 Předpokládejme, že výsledky pozorování byly uspořádány do k tříd s četnostmi (empirické četnosti) Dále předpokládejme, že teoretické modelové rozdělení četností je reprezentováno četnostmi (očekávané četnosti) Potom shodu mezi empirickým a teoretickým rozdělením posuzujeme pomocí testovacího kriteria Tzv. Pearsonův Chí-kvadrát test Pro to aby se tato veličina řídila asymproticky chí-kvadrát rozdělěním o k-1 stupni volnosti je žádoucí aby n > 50. X 1 ,... , X k npi 3 2 = i=1 k X i-npi 2 npi Brno, 20. března 2008 7 Test dobré shody při známých parametrech 2 Dále je nutné, aby pro teoretické četnosti platilo Nevyhovují-li některé četnosti této podmínce, lze dosáhnout jejího splnění sloučením několika sousedních tříd. Tím se sníží počet stupňů volnosti, neboť k je rovno počtu tříd po sloučení. Pokud pro hodnotu testovací statistiky platí pak testovanou hypotézu nezamítáme na hladině významnosti alpha. npi5 2 2 k-1 Brno, 20. března 2008 8 Chí-kvadrát test dobré shody ­ příklad se zmrzlinou Řetězec cukráren, který nabízí 4 druhy zmrzliny otevřel provozovnu v nové lokalitě. Ve stávajících provozovnách řetězce byla dosud struktura prodeje podle druhů zmrzliny následující: vanilková 62%, čokoládová 18%, jahodová 12%, pistáciová 8%. Po otevření provozovny v nové lokalitě máme záznam o následujícím prodeji: vanilková 120, čokoládová 40 jahodová 18, pistáciová 22. Vyjádřete se pomocí statistického testu ke shodě či odlišnosti struktury prodeje v nové lokalitě oproti dosavadním prodejům řetězce. Brno, 20. března 2008 9 Příklad se zmrzlinou - řešení Pro získání očekávaných četností u prodeje zmrzliny (při platnosti stávající struktury prodeje pro novou lokalitu) aplikujeme dosavadní strukturu prodeje na celkové prodané množství v nové lokalitě (kde je prodáno celkem 200 kusů zmrzliny): Např. u vanilkové: očekávaná četnost při 200 prodaných kusech = 62% * 200 = 134 kusů Tyto očekávané četnosti konfrontujeme se skutečně pozorovanými (chíkvadrát test dobré shody), výpočet testového kritéria: 2 = i=1 k X i-npi 2 npi =...=4,32 Brno, 20. března 2008 10 Výpočet je naznačen v následující tabulce: Příklad se zmrzlinou ­ řešení vanilková čokoládová jahodová pistáciová strukturaprodeje 62% 18% 12% 8% 100% nováprovozovna 120 40 18 22 200 oč.přistejnéstruktuře 124 36 24 16 200 chi-square: 0,13 0,44 1,50 2,25 4,32 Brno, 20. března 2008 11 Příklad se zmrzlinou - řešení Spočtenou hodnotu testového kritéria porovnáme s příslušným kvantilem rozdělení 2 s (k-1), tedy se 3 stupni volnosti. Pro 5% hladinu významnosti půjde o kvantil 2 (1-), tedy o kvantil 2 0,95 = 7,82 Spočtená hodnota testového kritéria (4,32) nepřekračuje mez vymezující kritický obor (7,82), nachází se v oboru přijetí a na zvolené 5%ní hladině významnosti hypotézu o shodě struktury prodeje nezamítáme. Brno, 20. března 2008 12 Testy dobré shody při neznámých parametrech V praxi se často stává, že pravděpodobnosti uvažovaného multinomického rozdělení závisejí na nějakých neznámých parametrech . Vzniká pak problém jak pozměnit testovací kritérium, aby se hodilo i na tento příklad. Nabízí se možnost tyto parametry odhadnout, odtud získat i odhady pro pravděpodobnosti a do vzorce (3) pak dosadit tyto odhady. Lze očekávat, že pak rozdělení chí-kvadtrát bude mít o tolik stupňů volnosti méně, kolik parametrů jsme museli odhadovat. p1 ,... , pk a1 ,... ,am p1 ,... , pk Brno, 20. března 2008 13 Testy dobré shody při neznámých parametrech Označme . Předpokládejme, že jsou dostatečně hladké funkce proměnné a . Protože platí pro každé a derivováním dostaneme Nyní vzniká problém, jakým způsobem pořídit odhady parametru a. Jedna možnost spočívá v tom, že se za odhad vezme ta hodnota a, která při daných veličinách minimalizuje ve vzorci (3) Jedná se o jakousi analogii metody nejmenších čtverců. Říkáme, že jde o odhad parametru a pořízený metodou minimálního a=a1 ,... ,am' p1= p1a,... , pk= pk a 4 p1a...Pk a=1, 5 p1a a j ... pk a a j =0 j=1,2 ,... ,m. X 1 ,... , X k 2 2 Brno, 20. března 2008 14 Testy dobré shody při neznámých parametrech Po derivaci vzorce (3) dostaneme tuto soustavu rovnic Ukazuje se, že vliv druhého členu v (6) při velkém n není příliš podstatný, takže řešení soustavy rovnic se příliš neliší od řešení soustavy (6). Vzhledem k (5) lze soustavu (7) upravit na tvar 7 i=1 k X i-npi a pi a pi a a j =0, j=1,2 ,... ,m , 6 - 1 2 2 a j = i=1 k {X i-npi a pi a [ X i-npi a] 2 2npi 2 a } pi a a j =0, j=1,2 ,... ,m. 8 i=1 k X i pi a pi a a j =0, j=1,2 ,... ,m. Brno, 20. března 2008 15 Testy dobré shody při neznámých parametrech Řešením soustavy (8) je tzv. odhad parametru a modifikovanou metodou minimálního Věta: Budiž dáno k funkcí Předpokládejme, že Nechť pro všechny body a nedegenerovaného konečného uzavřeného intervalu A z platí: 1. 2. Existuje takové c > 0, že 3. Každá funkce má spojité derivace 4. Matice má hodnost m. Nechť je vnitřním bodem A. Označme 2 p1a,... , pk a, kde a=a1, ... ,am' . mk-1. Rm p1a... pk a=1 pi ac pro i=1,2 ,... ,k. pi a pi a/a j a 2 pi a/a j as j , s=1,2 ,... ,m pi a/a j i=1, j=1 k ,m a 0 pi 0 = pi a 0 . Brno, 20. března 2008 16 Testy dobré shody při neznámých parametrech Nechť má multinomické rozdělení s parametry Pak soustava rovnic (8) má právě jeden kořen a takový, že a konverguje k podle pravděpodobnosti při . Dosadíme-li tento kořen do výrazu má veličina asymptoticky rozdělení chí-kvadrát s k ­ m - 1 stupni volnosti. Důkaz: například v Andělovi (Matematická statistika) Tato věta se používá hlavně k ověřování typu rozdělění a při hodnocení kontigenčních tabulek. X = X 1 ,... , X k ' n , p1 0, ... , pk 0 . a 0 n 2 = i=1 k [ X i-npi a] 2 npi a , 2 při n Brno, 20. března 2008 17 Ověřování exponenciálního rozdělení Chceme ověřit, zda daný výběr pochází z exponenciálního rozdělení s hustotou kde > 0 je neznámý parametr. Položme je vhodně zvolená délka třídy. Nechť . Máme třídy jejichž četnosti nechť jsou ; opět položíme Pravděpodobnost, že jednotka padne do i-té třídy, je rovna 9 f x= 1 e-x/ pro x0, bi=ih ,i=0,1,... ,k-1kdeh0 bk= 10 0,b1 ,b1, b2 ,... ,bk-2 ,bk-1 , bk-1 , X 1 ,... , X k X 1... X k=n. 11 pi=e -bi -1/ -e -bi/ , i=1, 2,... , k. Brno, 20. března 2008 18 Ověřování exponenciálního rozdělění Položíme- li , máme Rovnice (8) má pak tvar Odtud e- =0 d pi d = 1 2 bi-1 e -bi-1/ -bi e -bi / , i=1, 2,... ,k. 1 2 i=1 k X i bi-1 e -bi-1/ -bi e -bi/ e -bi-1/ -e -bi/ =0. i=1 k X i bi-1-bi e -bi-1-bi/ 1-e bi-1-bi/ =0. Brno, 20. března 2008 19 Ověřování exponenciálního rozdělení Dosazením za dostaneme Označme Pak máme Takže bi e-h/ = hX 22hX3...k-1hX k hX 12hX2...khX k-hXk . 12 X =hX 12hX2...khX k /n. e-h/ = n X -nh n X -hX k , 13 =-h/ln n X -nh n X -hX k . Brno, 20. března 2008 20 Ověřování exponenciálního rozdělení Hodnotu z (13) dosadíme do (11) a vypočteme V případě zamítneme hypotézu o exponenciálním rozdělení na hladině, která je asymptoticky rovna 14 2 = i=1 k X i-npi 2 npi 2 k-2 2 Brno, 20. března 2008 21 Literatura Anděl J., Matematická statistika, SNTL, Praha, 1978 Zvára K., Štěpán J., Pravděpodobnost a matematická statistika, MATFYZPRESS,Praha, 2001