Ústav matematiky a statistiky Přírodovědecká fakulta Masarykova univerzita Štatistická inferencia I Sylabus ZS-20í4 Stanislav Katina katina@math.muni.cz 6. januára 2015 Stanislav Katina: Štatistická inferencia I 1 Sylabus predmetu Statistická inferencia I ZS 2014 1. Širšie chápanie matematickej statistiky: plánovanie (dizajn) štúdie - systematický prehľad, plánovanie rozsahu súboru, efekty (parametre), ciele, hypotézy (bio-medicínska a štatistická forma; voľba hypotézy z troch typov - obojstranná a dve jednostranné), štatistický model a model rozdelenia pravdepodobnosti, interpretácie výsledkov (štatistická a bio-medicínska forma) 2. Základné pojmy a definície: náhodný výber, náhodná premenná (+príklady), náhodný vektor (+príklady), štatistická inferencia (definícia), iid, srs, jednoduchý náhodný výber bez vrátenia a s vrátením, diskrétna a spojitá náhodná premenná (+príklady), distribučná funkcia diskrétnej a spojitej náhodnej premennej, hustota diskrétnej a spojitej náhodnej premennej: výberový priestor, parametrický priestor, nosič (aj anglické názvy) 3. Model rozdelenia pravdepodobnosti a štatistický model: typy modelov, parametrický a neparametrický model (definície), parameter a vektor parametrov (definícia + príklady), spojité rozdelenia - normálne, štandardizované normálne, dvojrozmerné normálne, štandardizované dvojrozmerné normálne rozdelenie; diskrétne - binomické, multinomické, súčinové multino-mické, Poissonovo, mnohorozmené Poissonovo, negatívne binomické rozdelenie (definície, zobrazovanie + príklady); aproximácie (odlišnosti od teoretického rozdelenia na príklade normálneho rozdelenia; binomického rozdelenia normálnym, binomického rozdelenia Poissonovým, multinomické rozdelenia mnohorozmerným Poissonovým); over- a underdispersion (overdispersion v binomickom modeli, underdispersion v binomickom modeli, overdispersion v Poissonovom modeli + príklady) 4. Simulačný experiment: MC experiment a jeho história, 3 kritériá simulačného experimentu, CLV, slabý a silný ZVC; generovanie pseudonáhodných čísel; 5 typov simulačných experimentov (a) simulačný experiment rozdelenia náhodnej premennej (princípy + príklady), (b) simulačný experiment aproximácie nejakého rozdelenia náhodnej premennej iným rozdelením (princípy + príklady), (c) simulačný experiment rozdelenia štatistiky (princípy + príklady), (d) simulačný experiment rozdelenia testovacej štatistiky (princípy + príklady), (e) simulačný experiment vlastností intervalu spoľahlivosti (princípy + príklady) 5. Štatistika: štatistika, postačujúca štatistika a testovacia štatistika (definície a príklady napr. pre binomické a normálne rozdelenie) 6. Punkcia vierohodnosti — teoretická časť: definícia funkcie vierohodnosti, prirodzený logaritmus funkcie vierohodnosti, jadro vierohodnosti, slabý a silný princíp vierohodnosti a ich využitie v praxi (príklad), štatistická teória, maximálne vierohodný odhad parametra; definície funkcií vierohodnosti - normálneho, dvojrozmerného normálneho, štandardizovaného normálneho, štandardizovaného dvojrozmerného normálneho, binomického, Poissonovho, mul-tinomického rozdelenia; maximálne vierohodné odhady parametrov - normálneho, dvojrozmerného normálneho, štandardizovaného normálneho, štandardizovaného dvojrozmerného normálneho, binomického, Poissonovho, multinomického rozdelenia; aproximácia funkcie vierohodnosti alebo jej logaritmu nejakou kvadratickou funkciou (+dôležitosť polohy maxima a zakrivenie v maxime) [pre parameter ako skalár a parameter ako vektor]; skóre funkcia, vierohodnostné (skóre) rovnice, (pozorovaná) Fisherova miera informácie, hessián, maximálne vierohodný odhad rozptylu (definície + príklady pre jednotlivé rozdelenia), Taylorov rozvoj r-tého rádu, Taylorova veta, kvadratická aproximácia logaritmu funkcie vierohodnosti pomocou Taylorovho rozvoja druhého rádu, relatívna (štandardizovaná) vierohodnosť, kvadratická aproximácia logaritmu relatívnej funkcie vierohodnosti pomocou Taylorovho rozvoja druhého rádu; dva spôsoby kontroly vhodnosti kvadratickej aproximácie funkcie vierohodnosti - pomocou relatívnej vierohodnosti a skóre funkcie (+ príklad binomického a normálneho rozdelenia) [pre parameter (6. januára 2015) Stanislav Katina: Štatistická inferencia I 2 ako skalár a parameter ako vektor]; profilová funkcia vierohodnosti a jej zakrivenie; invarian-tnosť maximálne vierohodného odhadu, kvadratická aproximácia profilovej vierohodnosti [pre parameter ako skalár a parameter ako vektor]; invariantnosť maximálne vierohodného odhadu, delta metóda [pre parameter ako skalár a parameter ako vektor] 7. Punkcia vierohodnosti — numerická časť: maximalizácia funkcie vierohodnosti; Newtonova (Newton-Rapsonova) metóda (metóda dotyčníc) pre parameter ako skalár - kvadratická aproximácia využívaná algoritmom, iteračná funkcia, iteračný algoritmus, prahová hodnota, zastavenie algoritmu, geometrická interpretácia, implementácia v ^Ä; metóda zlatého rezu a metóda sukcesívnej parabolickej interpolácie; Newtonova (Newton-Rapsonova) metóda (metóda dotyčníc) pre parameter ako vektor - kvadratická aproximácia využívaná algoritmom, iteračná funkcia, iteračný algoritmus, prahová hodnota, zastavenie algoritmu, geometrická interpretácia, implementácia v <®, Fisherova skóringová metóda, quasi Newtonova metóda, centrálna rozdielová aproximácia, BFGS metóda, Nelder-Meadova metóda (metóda simplexov) - geometrická interpretácia, implementácia v <5t; princípy aproximácie skóre funkcie a hessiánu [príklady + zobrazovanie; napr. pre normálne a dvojrozmerné normálne rozdelenie, pre binomické a trino-mické rozdelenie] 8. Praktické dôsledky odchýliek od normality: tri odporúčania (a) transformácia dát, (b) urezávanie a winsorizácia a (c) nahradenie asymptotického rozdelenia testovacej štatistiky bootstrapovým alebo permutačným 9. Charakteristiky polohy a varibility: stredná hodnota, výberový aritmetický priemer, aritmetický priemer; rozptyl, výberový rozptyl, odhad rozptylu; koeficient variácie a jeho rozptyl: poriadkové štatistiky; medián, výberový medián, odhad mediánu; percetily, výberové percen-tily, odhad percentilov, kvantily, výberové kvantily, odhady kvantilov; dolný a horný kvar-til, výberový dolný a horný kvartil, odhad dolného a horného kvartilu; rozptyl poriadkovej štatistiky (všeobecne a za platnosti normality), stredná (očakávaná) hodnota mediánu a rozptyl mediánu (všeobecne a za platnosti normality); distribučná funkcia a jej interval spoľahlivosti 10. Testovanie hypotéz: štatistická inferencia, štatistický test, liberálny a konzervatívny štatistický test, nulová a alternatívna hypotéza (definícia, obojstranná a dve jednostranné), oblasť (obor) nezamietania nulovej hypotézy a oblasť (obor) zamietania nulovej hypotézy (pre testovaciu štatistiku, pre parameter, pre náhodnú premennú), tabulka rozhodovania voči skutočnosti, chyba prvého druhu a jej pravdepodobnosť, chyba druhého druhu a jej pravdepodobnosť, hladina významnosti, koeficient spoľahlivosti, sila testu, silofunkcia, pravdepodobnosť pokrytia, Neyman-Pearsonov prístup; kvantil a kritická hodnota (definícia všeobecne a pre nasledovné rozdelenia - normálne, štandardizované normálne, chi-kvadrát, Studentovo a Fisherovo), stupne voľnosti (definícia + príklady pre spojitý a diskrétny prípad) 11. Testovacie štatistiky: relatívna (štandardizovaná) vierohodnosť, jednoduchý pomer vierohodnosti, testovacia štatistika pomerom vierohodnosti, aproximácie testovacej štatistiky pomerom vierohodnosti - Waldova testovacia štatistika a skóre testovacia štatistika (odvodenie + geometrická interpretácia), asymptotické rozdelenia testovacích štatistík (pre parameter ako skalár a parameter ako vektor); tri testovacie štatistiky za predpokladu normality X ~ N(fi,a2), kde a2 je známe (odvodenie a asymptotické rozdelenie) 12. Intervaly spoľahlivosti — teoretická a numerická časť: interval spoľahlivosti (IS; definícia, obojstranný a dva jednostranné IS, zovšeobecnenia na elipsu a elipsoid spoľahlivosti), empirický IS, koeficient spoľahlivosti, liberálny a konzervatívny IS; porovnanie IS a tolerančného intervalu; Waldov IS, spätne transformovaný Waldov IS, skóre IS, vierohodnostný IS; výpočet hraníc vierohodnostného IS - metóda bisekcie - iteračná funkcia, itaračný algoritmus, prahová hodnota, zastavenie algoritmu, tri typy aproximačnej chyby, implementácia v Qt, Brentova metóda (6. januára 2015) Stanislav Katina: Štatistická inferencia I (Brent-Dekkerova metoda), metoda sečníc - princip, geometrická interpretácia, implementácia v m 13. Príklady aplikácií: biológia, antropológia, medicína, poisťovníctvo a bankovníctvo a pod. (6. januára 2015)