P033 Zpracování vědecko-výzkumných dat

Fakulta informatiky
jaro 2000
Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Vladimír Znojil, CSc. (přednášející)
Garance
prof. PhDr. Karel Pala, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Vladimír Znojil, CSc.
Předpoklady
M011 Statistika I || X022 Pravděpodobnost a statistika I
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Osnova
  • Datový soubor, objekty a znaky, typy dat: alternativní, kategoriální, kvantitativní. Základní charakteristika metod získávání dat. Metody popisu dat: histogram, průměr, medián, modus, hráze. Četnostní funkce a četnostní hustota. Aplikace na jednorozměrné a dvourozměrné datové soubory.
  • Základní pojmy teorie pravděpodobnosti. Diskrétní a spojitá pravděpodobnost. Hustota pravděpodobnosti a distribuční funkce. Stochasticky nezávislé a závislé jevy, podmíněná pravděpodobnost. Bayesův vztah.
  • Základní typy distribučních funkcí, binomické, Poissonovo, normální a logaritmicko-normální rozdělení. Jejich základní charakteristiky a aplikace. Některé typy speciálních distribučních funkcí, useknutá rozdělení.
  • Zákon velkých čísel, centrální limitní věty. Jejich význam pro statistická šetření a omezující předpoklady jejich platnosti.
  • Charakteristiky distribučních funkcí, momenty a jejich vlastnosti, principy testování různých typů distribucí. Role normálního rozložení ve statistice.
  • Intervalové odhady, intervaly spolehlivosti separátní a simultánní. Testování hypotéz, typy testů, sekvenční testy. Chyby prvého a druhého typu, jejich vzájemný vztah. Parametrické a neparametrické postupy. Některé další moderní přístupy a srovnání různých metod.
  • Běžné statistické výpočty: korelace a regrese, analýza variance v jednoduchých i složitějších případech. Metoda nejmenších čtverců a její výhody a nevýhody. Některé zajímavé aplikace MNČ jako náhrady ANOVY.
  • Porovnání průměrů a rozptylů experimentálních hodnot, skupinová porovnání, Holmova metoda.
  • Vícerozměrná data a metody jejich zpracování: redukce počtu dimensí a exploatační metody analýzy dat. Representativnost dat a problémy zkreslení dat. Statistické modely datových souborů.
  • Metoda hlavních komponent (PCA), metoda zpětného průměrování (RA) a detrendovaná analýza korespondence (DCA). Faktorová analýza, její cíle a metody, hledání faktorů a základní typy faktorových rotací. Souvislosti a problémy s interpretací výsledků. Využití faktorové analýzy.
  • Shluková analýza: metriky podobnostních prostorů, využití alternativních a kategoriálních dat, "mixovaná data" a jejich metriky. Metody posuzování vzdáleností shluků. Hierarchické metody shlukování "zdola" a "shora", nehierarchické metody shlukování. Výhody a nevýhody jednotlivých metod. Metody "dvoucestného shlukování". Aplikace shlukové analýzy v ekologii a biologii.
  • Diskriminační analýza, volba prostoru parametrů. Smysl aposteriorních pravděpodobností příslušnosti ke skupině. Využití diskriminačních metod v biologii a medicíně.
  • Heuristické metody analýzy dat, metoda GUHA. Jejich využití a rizika s nimi spojená.
  • Malý přehled toho, na co nezapomenout a co kdy použít. Balíky statistických programů a jejich obsah (Statgraf, BMDP, SPSS, SyStat, Statistica).
Další komentáře
Předmět je vyučován každoročně.
Výuka probíhá každý týden.
Předmět je zařazen také v obdobích léto 1996, léto 1997, léto 1998, jaro 1999, jaro 2001, jaro 2002.