Ústav matematiky a statistiky Prírodovedecká fakulta Masarykova univerzita Štatistická inferencia I a II Sylabus ZS-2016 a JS-2017 Stanislav Katina katina@math.muni.cz 3. marca 2017 Katina, S., 2017: Štatistická inferencia I a II 1 Sylabus predmetu Štatistická inferencia I a II 1. Širšie chápanie matematickej štatistiky: plánovanie (dizajn) štúdie - systematický prehľad, plánovanie rozsahu súboru, efekty (parametre), ciele, hypotézy (bio-medicínska a štatistická forma; voľba hypotézy z troch typov - obojstranná a dve jednostranné), štatistický model a model rozdelenia pravdepodobnosti, interpretácie výsledkov (štatistická a bio-medicínska forma) 2. Základné pojmy a definície: náhodný výber, náhodná premenná (+príklady), náhodný vektor (+príklady), štatistická inferencia (definícia), iid, srs, jednoduchý náhodný výber bez vrátenia a s vrátením, diskrétna a spojitá náhodná premenná (+príklady), distribučná funkcia diskrétnej a spojitej náhodnej premennej, hustota diskrétnej a spojitej náhodnej premennej; výberový priestor, parametrický priestor, nosič (aj anglické názvy) 3. Model rozdelenia pravdepodobnosti a štatistický model: typy modelov, parametrický a neparametrický model (definície), parameter a vektor parametrov (definícia + príklady), spojité rozdelenia - normálne, štandardizované normálne, dvojrozmerné normálne, štandardizované dvojrozmerné normálne rozdelenie; diskrétne - binomické, multinomické, súčinové multino-mické, Poissonovo, mnohorozmerné Poissonovo, negatívne binomické rozdelenie (definície, zobrazovanie + príklady); aproximácie (odlišnosti od teoretického rozdelenia na príklade normálneho rozdelenia; binomického rozdelenia normálnym, binomického rozdelenia Poissonovým, multinomického rozdelenia mnohorozmerným Poissonovým); over- a underdispersion (overdis-persion v binomickom modeli, underdispersion v binomickom modeli, overdispersion v Poisso-novom modeli + príklady), hypergeometrické a mnohorozmerné hypergeometrické rozdelenie (+ príklady), zmes dvoch normálnych (jedno a viacrozmerných) rozdelení (+ príklady) 4. Simulačný experiment: MC experiment a jeho história, 3 kritériá simulačného experimentu, CĽV, slabý a silný ZVC; generovanie pseudonáhodných čísel; 5 typov simulačných experimentov (a) simulačný experiment rozdelenia náhodnej premennej (princípy + príklady), (b) simulačný experiment aproximácie nejakého rozdelenia náhodnej premennej iným rozdelením (princípy + príklady), (c) simulačný experiment rozdelenia štatistiky (princípy + príklady), (d) simulačný experiment rozdelenia testovacej štatistiky (princípy + príklady), (e) simulačný experiment vlastností intervalu spoľahlivosti (princípy + príklady) 5. Štatistika: štatistika, postačujúca štatistika a testovacia štatistika (definície a príklady napr. pre binomické a normálne rozdelenie) 6. Funkcia vierohodnosti — teoretická časť: definícia funkcie vierohodnosti, prirodzený logaritmus funkcie vierohodnosti, odhadnutá a profilová vierohodnosť, jadro vierohodnosti, slabý a silný princíp vierohodnosti a ich využitie v praxi (príklad), štatistická teória, maximálne vierohodný odhad parametra; definície funkcií vierohodnosti - normálneho, dvojrozmerného normálneho, štandardizovaného normálneho, štandardizovaného dvojrozmerného normálneho, binomického, Poissonovho, multinomického rozdelenia; maximálne vierohodné odhady parametrov - normálneho, dvojrozmerného normálneho, štandardizovaného normálneho, štandardizovaného dvojrozmerného normálneho, binomického, Poissonovho, multinomického rozdelenia; aproximácia funkcie vierohodnosti alebo jej logaritmu nejakou funkciou (+ dôležitosť polohy maxima a zakrivenie v maxime) [pre parameter ako skalár a parameter ako vektor]; skóre funkcia, vierohodnostné (skóre) rovnice, (pozorovaná) Fisherova miera informácie, hessián, maximálne vierohodný odhad rozptylu (definície + príklady pre jednotlivé rozdelenia), Taylorov (3. marca 2017) Katina, S., 2017: Štatistická inferencia I a II 2 rozvoj r-tého rádu, Taylorova veta, kvadratická aproximácia logaritmu funkcie vierohodnosti pomocou Taylorovho rozvoja druhého rádu, relatívna (štandardizovaná) vierohodnosť, kvadratická aproximácia logaritmu relatívnej funkcie vierohodnosti pomocou Taylorovho rozvoja druhého rádu; dva spôsoby kontroly vhodnosti kvadratickej aproximácie funkcie vierohodnosti - pomocou relatívnej vierohodnosti a skóre funkcie (+ príklad binomického a normálneho rozdelenia) [pre parameter ako skalár a parameter ako vektor]; profilová a odhadnutá funkcia vierohodnosti a jej zakrivenie; invariantnosť maximálne vierohodného odhadu, kvadratická aproximácia profilovej a odhadnutej vierohodnosti [pre parameter ako skalár a parameter ako vektor]; invariantnosť maximálne vierohodného odhadu, delta metóda [pre parameter ako skalár a parameter ako vektor] 7. Funkcia vierohodnosti — numerická časť: maximalizácia funkcie vierohodnosti; Newtonova (Newton-Raphsonova) metóda (metóda dotyčníc) pre parameter ako skalár - kvadratická aproximácia využívaná algoritmom, iteračná funkcia, iteračný algoritmus, prahová hodnota, zastavenie algoritmu, geometrická interpretácia, implementácia v ; metóda zlatého rezu a metóda sukcesívnej parabolickej interpolácie; Newtonova (Newton-Raphsonova) metóda (metóda dotyčníc) pre parameter ako vektor - kvadratická aproximácia využívaná algoritmom, iteračná funkcia, iteračný algoritmus, prahová hodnota, zastavenie algoritmu, geometrická interpretácia, implementácia Fisherova skóringová metóda, quasi Newtonova metóda, centrálna rozdielová aproximácia, BFGS metóda, Nelder-Meadova metóda (metóda simplexov) - geometrická interpretácia, implementácia v ^B$; princípy aproximácie skóre funkcie a hessiánu [príklady + zobrazovanie; napr. pre normálne a dvojrozmerné normálne rozdelenie, pre binomické a trinomické rozdelenie] 8. Praktické dôsledky odchýlok od normality: tri odporúčania - (a) transformácia dát, (b) urezávanie a winsorizácia a (c) nahradenie asymptotického rozdelenia testovacej štatistiky bootstrapovým alebo permutačným rozdelením 9. Charakteristiky polohy a variability: stredná hodnota, výberový aritmetický priemer, aritmetický priemer; rozptyl, výberový rozptyl, odhad rozptylu; koeficient variácie a jeho rozptyl; poriadkové štatistiky; medián, výberový medián, odhad mediánu; percentily, výberové per-centily, odhad percentilov, kvantily, výberové kvantily, odhady kvantilov; dolný a horný kvar-til, výberový dolný a horný kvartil, odhad dolného a horného kvartilu; rozptyl poriadkovej štatistiky (všeobecne a za platnosti normality), stredná (očakávaná) hodnota mediánu a rozptyl mediánu (všeobecne a za platnosti normality); distribučná funkcia a jej interval spoľahlivosti 10. Testovanie hypotéz 1: štatistická inferencia, štatistický test, liberálny a konzervatívny štatistický test, nulová a alternatívna hypotéza (definícia, obojstranná a dve jednostranné), oblasť (obor) nezamietania nulovej hypotézy a oblasť (obor) zamietania nulovej hypotézy (pre testovaciu štatistiku, pre parameter, pre náhodnú premennú), tabulka rozhodovania voči skutočnosti, chyba prvého druhu a jej pravdepodobnosť, chyba druhého druhu a jej pravdepodobnosť, hladina významnosti, koeficient spoľahlivosti, sila testu, silofunkcia, pravdepodobnosť pokrytia, Neyman-Pearsonov prístup; kvantil a kritická hodnota (definícia všeobecne a pre nasledovné rozdelenia - normálne, štandardizované normálne, %2, Studentovo a Fisherovo), stupne voľnosti (definícia + príklady pre spojitý a diskrétny prípad), rovnomerne najsilnejší test, monotónny pomer vierohodnosti (príklad - binomické a normálne rozdelenie), rovnomerne najsilnejší test pre jednostrannú alternatívu (príklad - binomické a normálne rozdelenie) (3. marca 2017) Katina, S., 2017: Štatistická inferencia I a II 3 11. Testovacie štatistiky: relatívna (štandardizovaná) vierohodnosť, jednoduchý pomer vierohodnosti, testovacia štatistika pomerom vierohodnosti, aproximácie testovacej štatistiky pomerom vierohodnosti - Waldova testovacia štatistika a skóre testovacia štatistika (odvodenie + geometrická interpretácia), asymptotické rozdelenia testovacích štatistík (pre parameter ako skalár a parameter ako vektor), testy všetkých parametrov a testy podmnožiny parametrov; tri testovacie štatistiky za predpokladu normality X ~ N(n,a2), kde a2 je známe (odvodenie a asymptotické rozdelenie) 12. Intervaly spoľahlivosti — teoretická a numerická časť: interval spoľahlivosti (IS; definícia, obojstranný a dva jednostranné IS, zovšeobecnenia na elipsu a elipsoid spoľahlivosti), empirický IS, koeficient spoľahlivosti, liberálny a konzervatívny IS; porovnanie IS a tolerančného intervalu; Waldov IS, spätne transformovaný Waldov IS, skóre IS, vierohodnostný IS; výpočet hraníc vierohodnostného IS - metóda bisekcie - iteračná funkcia, iteračný algoritmus, prahová hodnota, zastavenie algoritmu, tri typy aproximačnej chyby, implementácia v Brentova metóda (Brent-Dekkerova metóda), metóda sečníc - princíp, geometrická interpretácia, implementácia v ÍS 13. Asymptotické vlastnosti odhadov: bodový odhad, konvergencia skoro všade, konvergencia v kvadratickom strede, konvergencia podľa pravdepodobnosti, konvergencia v distribúcii, nevychýlený odhad, lepší odhad, asymptoticky nevychýlený odhad, konzistentný odhad, asymptoticky eficientný odhad, asymptoticky normálny odhad; príklady odhadov z normálneho a mnohorozmerné normálneho rozdelenia, koeficient variácie, zmena parametrizácie 14. Testovanie hypotéz 2: testovanie Hq oproti Hi, test, testovacie kritérium, testovanie pomocou kritického oboru, testovanie pomocou intervalu spoľahlivosti, testovanie pomocou pozorovanej hladiny významnosti, p-hodnota, štatistická signifikancia, hraničná štatistická signifikancia, konzervatívny a liberálny test, konzervatívny a liberálny interval spoľahlivosti 15. Asymptotické testy o parametroch: (a) Jednovýberové testy: asymptotické testy strednej hodnoty, asymptotické testy o rozptyle, asymptotické testy o korelačnom koeficiente, asymptotické testy o pravdepodobnosti. (b) Dvojvýberové testy: asymptotické testy rozdielu stredných hodnôt, asymptotické testy o podiele rozptylov, asymptotické testy o rozdiele korelačných koeficientov, asymptotické testy o dvoch pravdepodobnostiach. (c) Viacvýberové testy: asymptotické testy o viacerých stredných hodnotách, asymptotické testy o viacerých rozptyloch, asymptotické testy o viacerých korelačných koeficientoch, asymptotické testy o viacerých pravdepodobnostiach. Teória k jednotlivým testovacím procedúram: (a) Definícia testovacej štatistiky a jej názov, definícia hypotéz (iioi vs Hu, Hq2 vs H12 a Hqz vs i/13), definícia kritických oborov (Wi, W2 a VV3), definícia silofunkcií, definícia p-hodnoty, definícia Waldovho a vierohodnostného IS. (b) Odvodenie silofunkcie, minimálneho rozsahu súboru, Waldovej testovacej štatistiky (hlavné črty odvodenia), testovacej štatistiky pomerom vierohodnosti (hlavné črty odvodenia) a skóre testovacej štatistiky (hlavné črty odvodenia). (c) Waldove IS, skóre IS a IS pomerom vierohodnosti (hlavné črty odvodenia) (3. marca 2017) Katina, S., 2017: Štatistická inferencia I a II 4 Simulačně štúdie k jednotlivým testovacím procedúram a intervalom spoľahlivosti: (a) Simulačně štúdie o asymptotických vlastnostiach testovacích štatistík za platnosti Hq. (b) Simulačně štúdie o asymptotických vlastnostiach testovacích štatistík za platnosti H\. (c) Simulačně štúdie o asymptotických vlastnostiach IS. 16. Príklady aplikácií: biológia, antropológia, medicína, poisťovníctvo a bankovníctvo a pod. (3. marca 2017)