1 Mgr. Monika Šulc, PhD.et PhD. 2 Metódy spracovania a hodnotenia hydrologických dát 3 Prietok (Q) – množstvo vody, ktoré preteká plochou prietočného profilu za jednotku času Prietok je najdôležitejšou hydrologickou veličinou. Vyjadruje sa v l.s-1 alebo (najčastejšie) v m3.s-1. Prietok sa v krajine nemeria pravidelne – je spravidla odvodenou hodnotou. Prietok sa odvodzuje z hodnoty vodného stavu (H). Vodný stav je výška vodnej hladiny v mernom profile nad zvolenou úrovňou, t.j. 0 hodnotou. Hydrometria - Prehľad základných pojmov •Prehľad základných pojmov •Chronologická čiara – grafické znázornenie časového priebehu hodnôt hydrologického prvku spojitou alebo stupňovitou čiarou •Hydrologický rad – chronologicky zoradený súbor hodnôt hydrologických prvkov alebo hydrologických charakteristík zo súvislého obdobia (napr. vodné stavy, prietoky atď.). •Čiara vodných stavov – chronologická čiara vodných stavov vo vodočetnom profile. •Čiara prietokov, hydrogram – chronologická čiara prietokov v uvažovanom profile. •Reálny hydrologický rad – hydrologický rad z pozorovaných, prípadne v krátkych časových úsekoch doplnených hodnôt za konkrétne časové obdobie. •Odvodený hydrologický rad – hydrologický rad vytvorený pomocou analógie alebo matematických vzťahov z radu hodnôt podmieňujúcich prvkov za konkrétne časové obdobie. Chronologická čiara vývoja financií študenta vždy ráno o 8.00 hod 0 20 40 60 80 100 120 N edeľa Pondelok U torok Streda Štvrtok Piatok Sobota N edeľa (vEuro) •Metódy hodnotenia hydrologických prvkov •Vodné stavy, prietoky •Po nameraní hodnôt vodných stavov je základným spôsobom ich vyhodnotenia vykreslenie chronologickej čiary vodných stavov (prietokov) za určité zvolené obdobie. •Z množiny nameraných dát sa týmto zoradením stáva hydrologický rad. •Už z chronologickej čiary je možné zistiť maximálny a minimálny vodný stav za sledované obdobie. Rozdiel týchto hodnôt nazývame variačné rozpätie – amplitúda. •Ďalšie hodnoty zaujímavé z hľadiska hodnotenia hydrologického radu získame využitím jednoduchých metód matematickej štatistiky. Čiara vodných stavov 0 100 200 300 400 500 600 700 1.1.1996 15.1.1996 29.1.1996 12.2.1996 26.2.1996 11.3.1996 25.3.1996 8.4.1996 22.4.1996 6.5.1996 20.5.1996 3.6.1996 17.6.1996 1.7.1996 15.7.1996 29.7.1996 12.8.1996 26.8.1996 9.9.1996 23.9.1996 7.10.1996 21.10.1996 4.11.1996 18.11.1996 2.12.1996 16.12.1996 30.12.1996 Čas Vodnýstav(cm) Qd •Minimum •Maximum •Priemerné hodnoty – mesačná, ročná, dlhodobá •Medián, modus ... •Pre riešenie praktických hydrologických úloh je potrebné hydrologické dáta detailnejšie spracovať. •Najpoužívanejšou metódou hodnotenia hydrologických prvkov je čiara prekročenia, a to buď empirická alebo teoretická. •Empirická čiara prekročenia je zostrojená z reálne nameraných údajov. •Teoretická čiara (krivka – hydrologický model) prekročenia je zostrojená s využitím ďalších, najmä štatistických závislostí. •Čiara prekročenia vyjadruje dĺžku (dobu), počas ktorej je dosiahnutá a prekročená hodnota určitého vodného stavu. •Zistíme, koľko vodných stavov sledovaného radu patrí do príslušného intervalu a vypočítame kumulatívnu početnosť. •Na základe týchto hodnôt vykreslíme čiaru prekročenia vodných stavov tak, že na os x nanášame hodnoty kumulatívnej početnosti a na os y hodnoty vodných stavov (hornú hranicu intervalu). •Tieto hodnoty označujeme ako M-denné vodné stavy, kde M je počet dní (najčastejšie 30, 60, 90 atď.). Uvedené hodnoty sú vyznačené aj na čiare prekročenia. 0 20 40 60 80 100 120 140 160 0 30 60 90 120 150 180 210 240 270 300 330 360 390 dni Vodnéstavy •Hodnoty prvkov hydrologického radu sú náhodné hodnoty a platia pre ne zákony počtu pravdepodobnosti. •Ak vychádzame z empirickej pravdepodobnosti, potom pravdepodobnosť výskytu zistíme pomerom: n m p  •kde m je počet kladných výsledkov javu pri n–násobnom opakovaní pokusu. •Aplikácia tohto vzťahu v hydrológii vyzerá tak, že množinu prietokov zoradíme do klesajúceho radu a každej hodnote priradíme hodnotu pravdepodobnosti, pričom m je poradové číslo prvku v rade a n je celkový počet prvkov. •Použitím vzorca by však posledný, n-tý prvok mal pravdepodobnosť výskytu 1, čiže 100% a to je v hydrologickej praxi nereálne. •Vzorec preto rôzni autori upravili nasledovne: %100. 4,0 3,0 %,100. 1 %,100. 5,0        n m p n m p n m p •V strednej časti čiary prekročenia dávajú všetky tri vzorce približne rovnaké výsledky, no pri nízkych a vysokých hodnotách pravdepodobností sa odlišujú. •Vynesením hodnoty p na os x a prislúchajúcich hodnôt Q na os y dostaneme empirickú čiaru pravdepodobnosti prekročenia denných prietokov. 0 100 200 300 400 500 600 700 0 20 40 60 80 100 % Vodnéstavy •V súčasnosti je najpoužívanejší tretí vzorec. •Empirická čiara pravdepodobnosti prekročenia •Doteraz sme zaoberali empirickým rozdelením početnosti. Ale empíria má svoje limity... %100. 1 %100. 1 P N alebo N P   •Od empirického rozdelenia musíme prejsť k teoretickému ... •V hydrológii v praxi využívame teoretické rozdelenie početnosti, ktoré môžeme považovať za matematický model daného empirického rozdelenia, ktorý zostrojíme na základe parametrov získaných z empirického radu. •Teoretické rozdelenie početnosti môže byť symetrické alebo asymetrické. •Symetrické rozdelenie početnosti vyjadruje Gaussova – Laplaceova krivka normálneho rozdelenia. Keďže krivka je symetrická, priemer, medián a modus sú totožné. •V hydrologickej praxi sa stretávame prevažne s asymetrickým rozdelením početnosti, keď sú hydrologické rady ohraničené konečnými maximálnymi a minimálnymi hodnotami. •Z asymetrických kriviek rozdelenia početnosti je najznámejšia jedna z dvanástich kriviek štatistika Pearsona, známa ako Pearsonova krivka III. typu. •Tvar a priebeh krivky sú určené tromi parametrami: •1. aritmetickým priemerom radu •2. koeficientom variácie Cv •3. koeficientom asymetrie Cs •Pri výpočte koeficientu variácie zavedieme do vzorca pre výpočet Cv hodnotu ki, ako: x x k i i  •kde xi je aktuálna hodnota prietoku a xje priemerná hodnota celého radu •Matematický aparát „modelu“ potom vyzerá nasledovne: )1.( ).1( )1( 1 )1( , 3 3 2 ps i i xQp Cvn k Cs n k Cv          •Teoretická krivka pravdepodobnosti prekročenia •Ďalšie štatistické rozdelenia: • Logaritmicko – normálne rozdelenie, ktoré je vhodné pri súboroch s veľkou asymetriou (Cs > 3Cv). U nás je využívané najmä pri maximálnych prietokoch. • Goodrichovo exponenciálne rozdelenie (na hodnotenie maximálnych prietokov) najmä pri väčšom počte ročných kulminácií. • Weibullovo rozdelenie (na hodnotenie minimálnych prietokov). • Gumbelovo rozdelenie. • Na základe Pearsonovej krivky odvodili svoju krivku Krickij a Menkeľ, používa sa aj logaritmický variant Pearsonovej krivky. •Jednotlivé parametre, potrebné na zostrojenie kriviek, môžeme získať viacerými spôsobmi. Najčastejšie sa používajú metóda momentov a metóda kvantilov. •Pri metóde momentov sa parametre Qa, Cv a Cs vypočítajú zo známych vzťahov. •Krivku prekročenia konštruujeme s využitím Foster– Rybkinových tabuliek. •Sú v nich uvedené odchýlky súradníc kriviek – od priemeru pre x = 1 a Cv = 1 pre rôzne hodnoty Cs. •Teoretické krivky pravdepodobnosti prekročenia sme nazvali matematickým modelom empirického rozdelenia prvkov hydrologického radu. •Je to skutočne tak, pretože teoretické krivky (modely) umožňujú určiť hodnoty prietoku Q aj takej pravdepodobnosti, akú z empirickej krivky určiť nevieme. •Niektoré tieto hodnoty sú v praxi veľmi dôležité (napr. pri stavbe priehrad, hrádzí, mostov a pod.). •Krivky prekročenia, či už empirické alebo teoretické, môžeme vykresliť buď v normálnej, semilogaritmickej alebo v logaritmickej sieti pravouhlých súradníc. •Rozdiel v priebehu tej istej krivky v rôznej sieti zreteľne vidieť na obrázkoch (naštudovať v skriptách). •V súčasnosti sa v hydrologickej praxi konštruujú krivky prekročenia najmä v semi- a logaritmickej sieti. Vyplýva to z potreby ďalšieho spracovania kriviek prekročenia. •Napríklad pri extrapolácii je výhodnejšie použiť logaritmickú sieť, pretože krivka prekročenia má v podstate lineárny priebeh a extrapolácia je jednoduchšia. Dvojrozmerná induktívna štatistika Jednoduchá lineárna regresia, Pearsonov korelačný koeficient Jednoduchá lineárna regresia  Párová regresná analýza skúma lineárnu závislosť medzi dvoma kvantitatívnymi premennými (napr. hmotnosťou a výškou človeka) a je špecifickým prípadom viacnásobnej regresie. Jednoduchá regresia odhaduje regresné koeficienty β0 a β1 v rovnici:  yi = β0 + β1xi + εi  kde: yi – hodnota závislej premennej Y (kritéria) v i-tom pozorovaní xi – hodnota nezávislej premennej X (prediktora) v i-tom pozorovaní β0 – regresná konštanta (priesečník regresnej priamky s osou x) β1 – regresný koeficient (smernica regresnej priamky) εi – náhodná chyba i-teho pozorovania  Regresný koeficient sa interpretuje v závislosti od typu výskumu. V prípade experimentu (v ktorom sa premennou X manipuluje), vyjadruje o koľko sa zvýši očakávaná hodnota premennej Y ak sa hodnota premennej X zvýši o 1 jednotku.  V prípade pozorovacej štúdie sa koeficient interpretuje ako očakávaný rozdiel hodnôt premennej Y dvoch pozorovaní, ktorých hodnota premennej X sa líši o jednu jednotku.  Za predpokladu, že údaje predstavujú náhodnú vzorku z populácie, sú vypočítané regresné koeficienty a korelačný koeficient najlepšími bodovými odhadmi neznámych parametrov. Okrem toho možno testovať hypotézy (nulová hypotéza, že koeficient sa rovná nule vyjadruje, že medzi premennými v základnom súbore neexistuje vzťah) a zostrojiť ich intervalové odhady.  Testy hypotéz a intervalové odhady regresných koeficientov predpokladajú, že chyby εi sú vzájomne nezávislé (z čoho vyplýva, že aj yi sú nezávislé), normálne rozdelené s priemerom 0 a rovnakým rozptylom pre všetky hodnoty X. Jednoduchá lineárna regresia Jednoduchá lineárna regresia  Na základe vzorky n pozorovaní premenných X a Y, metóda najmenších štvorcov odhadne neznáme parametre β0 a β1 tak, aby bol súčet druhých mocnín rezíduí minimálny. Rezíduum ei je rozdiel medzi skutočnou hodnotou závislej premennej yi a hodnotou vypočítanou z regresnej funkcie dosadením hodnoty xi:  Rezíduum predstavuje vertikálnu vzdialenosť medzi bodom a regresnou priamkou: Ciele regresnej analýzy môžu byť rôzne: 1. Nájdenie rovnice, ktorá opisuje vzťah medzi premennými 2. Odhad koeficientov - regresná analýza môže potvrdiť teóriu o vzťahu medzi premennými. Najčastejšie je záujem sústredený na znamienka a veľkosti koeficientov 3. Predikcia - Cieľom je predpovedať hodnoty závislej premennej  Korelačný koeficient meria silu štatistickej závislosti medzi dvoma kvantitatívnymi premennými. Korelačná analýza na rozdiel od regresie nevyjadruje príčinno-následný vzťah Y=f(X).  Premenná Y nezávisí na premennej X ale dve náhodné premenné X a Y sa spoločne menia.  Regresná analýza predpokladá, že premenná Y je náhodná a premenná X fixná.  Pod pojmom korelačný koeficient sa najčastejšie myslí Pearsonov korelačný koeficient (Pearson's product moment) z roku 1896, ktorý je mierou lineárnej závislosti dvoch premenných. Pearsonov korelačný koeficient ρ (ró) odhadnutý z náhodnej vzorky sa zapisuje r a vypočíta sa:  Čitateľ sa nazýva kovariancia a vyjadruje ako sa súčasne menia hodnoty dvoch premenných. Kladná hodnota znamená, že sa menia spoločne jedným smerom, záporná hodnota znamená že sa menia opačným smerom a nula, že sa menia nezávisle.  Vydelením kovariancie štandardnými odchýlkami sa vypočíta korelačný koeficient, ktorého hodnota sa nachádza v intervale od −1 do 1. Pearsonov korelačný koeficient sa rovná −1 v prípade, že všetky pozorovania ležia na klesajúcej priamke a 1 ak pozorovania ležia na stúpajúcej priamke.  Interpretácia korelačného koeficientu závisí od kontextu.  Hodnota 0,8 pri overení fyzikálneho zákona použitím presných meracích prístrojov je veľmi nízka, v sociálnych vedách je však veľmi vysoká.  Cohen (1988) vytvoril jednoduchú pomôcku pre interpretáciu korelačných koeficientov v psychologickom výskume: Korelácia (v absolútnej hodnote) pod 0,1 je triviálna, 0,1–0,3 malá, 0,3–0,5 stredná a nad 0,5 veľká.  Hodnota r 2 (R-squared) sa nazýva koeficient determinácie a vyjadruje podiel spoločnej variability medzi dvoma premennými. Test významnosti Pearsonovho korelačného koeficientu a intervalový odhad vyžadujú nezávislé pozorovania a bivariačné normálne rozdelenie.  Pearsonov korelačný koeficient je silne ovplyvniteľný extrémnymi hodnotami (outliers) a to v oboch smeroch.  Jediný extrémista vo veľkom súbore môže významne znížiť silnú závislosť, ale aj vyrobiť silnú závislosť tam, kde žiadna nie je.  Touto citlivosťou na extrémne hodnoty netrpia poradové korelačné koeficienty.  Dôležité závery sa nesmú robiť iba na základe hodnoty koeficientu. Vždy je nutné preskúmať X-Y graf.  Z grafu možno zistiť aj nelineárny ale silný vzťah medzi premennými. V takom prípade treba vzťah linearizovať transformáciou premenných (napr. logaritmovaním Y), ktoré sa následne použijú na výpočet korelácie.  Príklady: Existuje vzťah medzi množstvom konzumácie kávy (X) a krvným tlakom (Y)? Aká silná je závislosť medzi veľkosťou predaja výrobku (Y) a výdavkami na reklamu (X)? Aký nárast predaja možno očakávať, ak zvýšime výdavky na reklamu o 1 mil. Sk? Testy štatistických hypotéz (testy štatistickej významnosti)  Štatistická hypotéza je tvrdenie týkajúce sa základného súboru. V prípade parametrických testov je hypotéza tvrdenie o neznámej hodnote parametra základného súboru.  Iba na základe výskumu celého základného súboru by bolo možné s úplnou istotou rozhodnúť o správnosti alebo nesprávnosti hypotézy. Takýto vyčerpávajúci výskum by však bol neekonomický, technicky neuskutočniteľný alebo neetický.  Preto sa výskumu podrobuje iba časť základného súboru - výberový súbor (vzorka). Proces overovania správnosti alebo nesprávnosti hypotézy pomocou výsledkov získaných náhodným výberom sa nazýva testovanie štatistických hypotéz.  Základným predpokladom štatistickej indukcie je náhodný výber. Postup testovania hypotéz:  1) Formulácia nulovej hypotézy (H0) Konečným cieľom väčšiny štatistických testov je zhodnotenie vzťahu medzi premennými. Nulová hypotéza potom vyjadruje nezávislosť premenných. Napríklad nulová hypotéza t-testu vyjadruje rovnosť priemerov dvoch základných súborov. Rozdiel zistený vo vzorke sa považuje za náhodný (je dôsledkom náhodného výberu).  2) Formulácia alternatívnej hypotézy (Ha) Väčšinou chceme dokázať pravdivosť alternatívnej hypotézy, ktorá najčastejšie vyjadruje štatistickú závislosť premenných. Pravdivosť alternatívnej hypotézy sa dokazuje vždy iba nepriamo a to tak, že ukážeme, že nulová hypotéza je nepravdepodobná a alternatívna (jediná zostávajúca) je teda pravdepodobná.  3) Stanovenie hladiny významnosti (α) Hladina významnosti je pravdepodobnosť chyby I. druhu, ktorú urobíme ak zamietneme nulovú hypotézu, ktorá v skutočnosti platí. Teda ak prídeme k záveru, že medzi premennými existuje vzťah, pričom medzi nimi vzťah nie je. Alfa sa tradične stanovuje na 5 % (= 0,05) alebo 1 %.  4) Výpočet testovacej štatistiky a pravdepodobnosti Zo vzorky sa vypočíta testovacia štatistika, ktorá má za predpokladu pravdivosti nulovej hypotézy príslušné rozdelenie pravdepodobnosti (Chi-kvadrát, t).  P-hodnota (P-Value, Probability Level) predstavuje pravdepodobnosť, že testovacia štatistika za predpokladu pravdivosti nulovej hypotézy dosiahne pri najmenšom tak extrémnu hodnotu ako je hodnota vypočítaná zo vzorky.  P-hodnota je pravdepodobnosť, že vzťah zistený z našich údajov je iba dôsledkom nešťastnej vzorky a ak by sme vybrali ďalšiu náhodnú vzorku, nemuseli by sme nájsť nič.  P-hodnota je najnižšia hodnota hladiny významnosti, ktorá vedie k zamietnutiu nulovej hypotézy.  P-hodnota je odhadovaná pravdepodobnosť zamietnutia pravdivej nulovej hypotézy. Čím menšia je P, tým viac sme presvedčení, že nulová hypotéza nie je pravdivá a mala by byť zamietnutá. 5) Rozhodnutie  Ak P < α, nulová hypotéza sa voči príslušnej alternatívnej hypotéze zamietne. Znamená to, že rozdiel nameraný vo vzorke je príliš veľký na to aby bol iba náhodný. Medzi premennými teda existuje vzťah.  Ak P ≥ α, nulovú hypotézu nemožno zamietnuť. Znamená to, že rozdiel nameraný vo vzorke môže byť iba náhodný. Často sa v takomto prípade nesprávne hovorí, že nulová hypotéza sa prijíma. Správny je výrok, že nemáme dostatočné dôkazy na to, aby sme nulovú hypotézu zamietli. Teda nemáme dostatok dôkazov na to, aby sme tvrdili, že medzi premennými existuje vzťah.  V praxi sa veľmi často hladina významnosti nestanovuje vopred, teda P-hodnota sa interpretuje samostatne. Väčšina autorov uvádza P < 0,05 ako štatisticky významný a P < 0,01 ako štatisticky vysoko významný vzťah. Situácie, ktoré môžu nastať pri testovaní hypotéz Rozhodnutie Skutočnosť H0 nezamietnutá H0 zamietnutá H0 pravdivá Správne rozhodnutie (p = 1−α) Chyba I. druhu (p = α) H0 nepravdivá Chyba II. druhu (p = β) Správne rozhodnutie (p = 1−β) •H0: Nulová hypotéza p: Pravdepodobnosť nastatia danej situácie α: Significance level (hladina významnosti) 1−α: Confidence level (spoľahlivosť) 1−β: Power (sila testu) Zhluková analýza  Zhluková analýza (Cluster analysis) sa zaoberá tým, ako by mali byť objekty (štatistické jednotky) zaradené do skupín tak, aby bola čo najväčšia podobnosť v rámci skupín a čo najväčšia rozdielnosť medzi skupinami.  Zhluková analýza sa používa napr. pri segmentácii trhu, pričom klasifikácia spotrebiteľov je založená na kombinácii viacerých premenných. Premennými, teda segmentačnými kritériami môžu byť: pohlavie, vek, vzdelanie, životný štýl, náboženstvo, skúsenosti s produktom, veľkosť spotreby, frekvencia spotreby a pod.  Pri zohľadnení iba jednej premennej (1-D) je nájdenie zhlukov veľmi jednoduché: hodnoty premennej sa nanesú na číselnú os a zhluky sa identifikujú vizuálne (napr. podľa veku nájdeme v súbore 2 skupiny respondentov: jednu okolo 15 rokov a druhú okolo 40 rokov).  Podobne použitím X-Y grafu možno jednoducho identifikovať zhluky pri zohľadnení 2 premenných (2-D). V priestore (3-D) sa pomocou interaktívneho X-Y-Z grafu tiež dajú nájsť zhluky vizuálne. Vizuálne identifikovať zhluky pri zohľadnení viac ako 3 premenných súčasne sa však už nedá. Práve vtedy sa používa zhluková analýza. Zhluková analýza  Zhluková analýza zahŕňa množstvo metód. Rozlišujú sa dve základné skupiny: 1. Hierarchické zhlukovacie metódy 2. Nehierarchické zhlukovacie metódy  Hierarchické zhlukovacie metódy vychádzajú z jednotlivých objektov, ktoré reprezentujú zhluky. Ich spájaním sa v každom kroku počet zhlukov postupne zmenšuje až sa nakoniec všetky zhluky spoja do jedného celku.  Hierarchické metódy vedú k hierarchickej (stromovej) štruktúre, ktorá sa graficky zobrazuje ako stromový diagram (dendrogram). Stromové zhlukovacie metódy začínajú výpočtom vzdialenosti medzi objektmi.  Euklidovská vzdialenosť medzi objektmi i a j s n charakteristikami (premennými) sa vypočíta:   Alternatívnu vzdialenosť prestavuje vzdialenosť Manhattan (City-block):   Euklidovská vzdialenosť vyjadruje vzdušnú vzdialenosť medzi dvoma objektmi a vzdialenosť Manhattan najkratšiu vzdialenosť, ktorú musí chodec prejsť aby sa v meste dostal z jedného miesta na druhé. Výhoda vzdialenosti Manhattan spočíva v znížení dopadu extrémnych prípadov (outliers) na výsledky.  Euklidovská vzdialenosť vyjadruje vzdušnú vzdialenosť medzi dvoma objektmi a vzdialenosť Manhattan najkratšiu vzdialenosť, ktorú musí chodec prejsť aby sa v meste dostal z jedného miesta na druhé. Výhoda vzdialenosti Manhattan spočíva v znížení dopadu extrémnych prípadov (outliers) na výsledky.  Existujú ešte viaceré iné typy vzdialeností, ktoré sa používajú napr. pri kategorických premenných.  Keď už máme vypočítané vzdialenosti medzi všetkými dvojicami objektov musíme určiť pravidlo podľa ktorého sa budú objekty spájať do zhlukov, teda ako sa bude určovať vzdialenosť medzi zhlukmi. Existujú viaceré pravidlá spájania:  Single linkage (Nearest Neighbour) – jednoduché spájanie (najbližší sused) Vzdialenosť medzi dvoma zhlukmi je definovaná ako vzdialenosť dvoch najbližších členov.  Complete linkage (Furthest Neighbour) – kompletné spájanie (najvzdialenejší sused) Vzdialenosť medzi dvoma zhlukmi je definovaná ako vzdialenosť dvoch najvzdialenejších členov.  Unweighted pair-group average (Group Average) – nevážený párový priemer (priemer skupín) Vzdialenosť medzi zhlukmi je definovaná ako priemerná vzdialenosť medzi všetkými pármi, pričom 1.člen je z 1.zhluku a 2.člen z 2.zhluku.  Weighted pair-group average (Simple Average) – vážený párový priemer (jednoduchý priemer) Podobná ako predošlá z tým rozdielom, že veľkosti zhlukov (počty objektov) sa berú ako váhy.  Unweighted pair-group centroid (Centroid) – nevážený centroid (centroid) Vzdialenosť medzi dvoma zhlukmi je definovaná ako vzdialenosť centroidov týchto dvoch zhlukov. Centroid je vektor priemerov (každá súradnica je priemer príslušných súradníc objektov v zhluku).  Weighted pair-group centroid (Median) – vážený centroid (medián) Podobná ako predošlá z tým rozdielom, že veľkosti zhlukov (počty objektov) sa berú ako váhy.  Wardova metóda Táto metóda sa zreteľne odlišuje od všetkých ostatných pretože na určenie vzdialenosti medzi zhlukmi využíva prístup analýzy rozptylu. S touto metódou sa zhluky vytvárajú tak, aby sa vnútrozhlukový súčet štvorcov minimalizoval. Nehierarchické zhlukovacie metódy  nevytvárajú stromovú štruktúru. Najznámejšia nehierarchická zhlukovacia metóda je metóda k-priemerov (k-means).  Táto metóda sa vyznačuje tým, že vyprodukuje presne k-zhlukov tak, aby bol vnútroskupinový súčet štvorcov minimálny. Najvhodnejšia je na formovanie malého počtu zhlukov z veľkého počtu pozorovaní. Vyžaduje však intervalové premenné bez extrémnych hodnôt (outliers).  Nominálne premenné sa dajú použiť ale môžu spôsobovať problémy. Užitočnou metódou je neurčité zhlukovanie (Fuzzy clustering), ktoré na rozdiel od ostatných zhlukovacích metód, umožňuje čiastočné zaradenie objektu do viacerých zhlukov a to pomocou pravdepodobnosti.  Cieľom je zabrániť skresleniu zhlukovania kvôli prítomnosti nezaraditeľných objektov. Takéto indivíduum sa nepriradí ku žiadnemu zhluku (od každého sa príliš odlišuje), ale priradia sa mu pravdepodobnosti s ktorými sa bude nachádzať v jednotlivých zhlukoch.  Metóda sa často používa pri odhaľovaní podvodov v rôznych oblastiach. Napr. v bankovníctve sa bez vopred formulovanej definície podozrivej operácie z miliónov operácií klientov identifikuje pár desiatok takých, ktoré sa od zvyšných (zoskupených do niekoľkých zhlukov) pri použití viacerých premenných (napr. obrat, typ operácie, konštantný symbol, čas od zadania po jej splatnosť atď.) výrazne odlišujú. Jednofaktorová analýza rozptylu  Jednosmerná analýza rozptylu (One-Way ANOVA) je najjednoduchšou formou ANOVA (ANalysis Of VAriance). Jednosmerná (jednoduchá) ANOVA skúma vzťah medzi intervalovou a nominálnou premennou (faktorom), napr. množstvom cholesterolu v krvi a typom diéty alebo predajnosťou výrobku a druhom obalu.  Cieľom analýzy rozptylu je odhaliť, či vo vzorke zistené rozdiely priemerov jednotlivých skupín (podľa úrovne faktora) sú štatisticky významné (medzi premennými je vzťah) alebo môžu byť iba náhodné (medzi premennými nie je vzťah).  Overuje sa to tak, že sa celková variabilita (suma štvorcov odchýlok hodnôt premennej od jej priemeru) rozdelí na vnútroskupinovú (náhodná chyba) a medziskupinovú (daná rozdielom priemerov skupín). F-štatistika sa vypočíta ako pomer medziskupinovej a vnútroskupinovej variability a použije sa na testovanie nulovej štatistickej hypotézy o rovnosti priemerov.  Ak je P-hodnota nižšia ako zvolená hladina významnosti (tradične 5 % = 0,05), nulová hypotéza sa zamietne. Znamená to, že rozdiel medzi aspoň jednou dvojicou priemerov vypočítaných zo vzorky je príliš veľký na to, aby mohol byť iba dôsledkom náhodného výberu, je teda štatisticky významný – medzi premennými je vzťah.  Ak je P-hodnota rovná alebo vyššia ako zvolená hladina významnosti, nulovú hypotézu nemožno zamietnuť. Znamená to, že rozdiel medzi každou dvojicou priemerov vypočítaných zo vzorky môže byť iba dôsledkom náhodného výberu, nie je teda štatisticky významný – medzi premennými nie je vzťah.  Jednofaktorová analýza rozptylu predstavuje rozšírenie dvojvzorkového t-testu. V prípade porovnávania dvoch skupín (faktor má iba dve úrovne) ANOVA vedie k rovnakému výsledku ako t-test.  ANOVA sa typicky zameriava na testovanie významnosti nie sily asociácie. Pritom v prípade veľkých vzoriek sa môže stať, že priemery skupín sa významne líšia, ale tieto rozdiely sú malé.  Preto pri použití ANOVA treba uvádzať aj silu asociácie pre významné efekty. Veľkosť efektu, ktorý má faktor na závislú premennú sa meria pomocou Eta2 a Omega2.  Eta2 (η2) sa vypočíta ako podiel medziskupinovej a celkovej sumy štvorcov a vyjadruje podiel celkovej variability, ktorá sa prisudzuje faktoru. Eta2 je obdobou koeficientu determinácie R2, ktorý sa používa v regresnej analýze. Nevýhodou Eta2 je skreslenosť odhadu efektu v populácii - efekt systematicky nadhodnocuje.  Omega2 (ω2) predstavuje alternatívu mieru veľkosti efektu k Eta2 s rovnakou interpretáciou poskytujúcou neskreslené odhady efektu. Eta2 predstavuje stupeň asociácie medzi efektom a závislou premennou vo vzorke a Omega2 odhad stupňa asociácie v základnom súbore. Sila testu a veľkosti vzoriek  Sila testu (pravdepodobnosť zachytenia existujúceho významného rozdielu) závisí od: 1. Variability 2. Veľkosti vzorky 3. Pravdepodobnosti chyby I. druhu (α) 4. Veľkosti efektu  Čím je vyššia variabilita hodnôt premennej, tým je nižšia sila testu. Zvýšenie zvyšných troch faktorov zvyšuje silu testu. Veľkosť efektu je veľkosť rozdielu parametrov (napr. rozdiel priemerov pri t-teste), ktorý možno zachytiť napr. experimentom. Na zachytenie veľkého efektu stačí menšia vzorka ako na zachytenie malého efektu. Voliť sa má vždy taká veľkosť efektu, ktorá je pre daný výskum užitočná.  Vzťahmi medzi variabilitou, veľkosťou vzorky, alfou, veľkosťou efektu a silou testu sa zaoberá analýza sily (Power Analysis). Analýzou sily sa treba zaoberať už pri plánovaní výskumu. Nedostatočná veľkosť vzorky, môže spôsobiť nezachytenie relevantného efektu. Príliš veľká vzorka stojí zbytočne veľa času a peňazí s minimálnym úžitkom. Analýza sily je značne komplikovaná, preto sa veľmi často vôbec nerobí. Na analýzu sily je nutné použiť kvalitný software. Nevýhody testovania hypotéz  Výsledok testovania hypotéz je rozhodnutie o tom, či zamietnuť alebo nezamietnuť nulovú hypotézu. Veľmi často je takýto výsledok nepostačujúci - napr. v prípade testovania efektívnosti novej liečby. Výskumník sa zaujíma o silu efektu nie o to, či sa efekt rovná presne 0. Porovnávanie P-hodnôt (aj v rámci jednej štúdie) bez doplňujúcich informácií a následným vyvodením záverov nemusí byť správne. Ak napríklad vo viacfaktorovej ANOVA faktor A má P=0,0001 a faktor B P=0,049, nemôžeme jednoducho povedať, že faktor A má silnejší efekt ako faktor B. Samotná P-hodnota 0,001 môže v skutočnosti znamenať 3 situácie:  1) triviálny (z praktického hľadiska nevýznamný) efekt v základnom súbore zistený z veľkej vzorky  2) silný efekt v základnom súbore zistený zo stredne veľkej vzorky  3) obrovský efekt v základnom súbore zistený z malej vzorky. Výhody intervalových odhadov  Intervalové odhady odpovedajú na otázku v akých hraniciach možno očakávať skutočný efekt v základnom súbore. Poskytujú teda viac informácií ako testy hypotéz. V prípade, že chceme zistiť, či je liek proti vysokému krvnému tlaku účinný, môžeme použiť párový t-test.  Vzorke pacientov zmeriame tlak pred a po podávaní lieku. Ak sa priemerný rozdiel tlakov významne odlišuje od 0, potom má liek účinok. Silu účinku však možno určiť len intervalovým odhadom priemerného rozdielu. Intervalový odhad nám s danou spoľahlivosťou (pravdepodobnosťou v %) povie, aký pokles tlaku môžeme očakávať v základnom súbore tvorenom pacientmi s vysokým krvným tlakom. Veľkou výhodou intervalových odhadov je ich vypovedacia schopnosť. Z intervalu, ktorý je príliš široký (vykazuje veľkú chybu) jasne vidno, že veľkosť vzorky je nedostatočná. Naopak, z intervalu ktorý je úzky, pričom vyjadruje triviálny efekt vidno, že štatistická významnosť je dosiahnutá veľkou vzorkou (teda príliš veľkou silou testu).  Jediný intervalový odhad poskytuje dostatok informácií na priame uskutočnenie teoreticky nekonečného množstva testov hypotéz. Ak je 95%ný interval spoľahlivosti rozdielu dvoch priemerov od 10 do 15, znamená to zamietnutie nulovej hypotézy (na 5%-nej hladine významnosti), že rozdiel priemerov dvoch základných súborov sa rovná 0 (pretože 0 sa nachádza mimo intervalu od 10 do 15.) Pre ten istý interval však s 95%-nou spoľahlivosťou nemožno zamietnuť hypotézu, že rozdiel priemerov základných súborov sa rovná 12 (lebo 12 patrí do intervalu od 10 do 15). Dvojrozmerná induktívna štatistika - poradové premenné  Neparametrické korelačné koeficienty  Korelačný koeficient meria silu štatistickej závislosti medzi dvoma číselnými premennými. Hodnoty všetkých korelačných koeficientov sa nachádzajú v intervale od −1 do 1. Hodnoty blízko 0 znamenajú žiadny vzťah a absolútne hodnoty blízko 1 silný vzťah. Kladné hodnoty znamenajú, že premenné majú tendenciu meniť sa rovnakým smerom, záporné hodnoty rôznym smerom.  Interpretácia korelačného koeficientu závisí od kontextu. Napr. hodnota 0,8 pri overení fyzikálneho zákona použitím presných meracích prístrojov je veľmi nízka, v sociálnych vedách je však veľmi vysoká. Cohen (1988) vytvoril jednoduchú pomôcku pre interpretáciu korelačných koeficientov v psychologickom výskume: Korelácia pod 0,1 je triviálna, 0,1–0,3 malá, 0,3–0,5 stredná a nad 0,5 veľká. Počítať a interpretovať korelačné koeficienty treba vždy až po prezretí X-Y grafu. Dvojrozmerná induktívna štatistika - poradové premenné  Kendallov poradový korelačný koeficient (1948) meria silu závislosti medzi dvoma poradovými premennými a poskytuje neparametrický test nezávislosti (test významnosti koeficientu).  Kendalovo tau vyjadruje rozdiel medzi pravdepodobnosťou, že hodnoty dvoch premenných sú v rovnakom poradí oproti pravdepodobnosti, že hodnoty nie sú v rovnakom poradí. V prípade väčšieho výskytu nerozhodných párov sa použije tau-b. V prípade absencie nerozhodných párov sa tau-b rovné tau. Ak jedna premenná nadobúda odlišný počet unikátnych hodnôt ako druhá (kontingenčná tabuľka m×n), treba uprednostniť tau-c, ktoré sa tiež nazýva Stuartovo tau-c alebo Kendall-Stuartovo tau-c:  Kendallovo tau vyjadruje rozdiel medzi pravdepodobnosťou, že hodnoty dvoch premenných sú v rovnakom poradí oproti pravdepodobnosti, že hodnoty nie sú v rovnakom poradí. V prípade väčšieho výskytu nerozhodných párov sa použije tau-b. V prípade absencie nerozhodných párov sa tau-b rovné tau. Ak jedna premenná nadobúda odlišný počet unikátnych hodnôt ako druhá (kontingenčná tabuľka m×n), treba uprednostniť tau-c, ktoré sa tiež nazýva Stuartovo tau-c alebo KendallStuartovo tau-c: Analýza hlavných komponentov  Analýza hlavných komponentov (Principal Components Analysis vytvorená v roku 1901 Pearsonom) je analytický nástroj, ktorý sa zvyčajne používa na redukciu rozmernosti (počtu premenných) veľkého počtu vzájomne súvisiacich premenných na hlavné komponenty, pri čo najmenšej strate informácií (variability).  PCA vypočíta súbor vzájomne nezávislých premenných (hlavných komponentov), ktoré sú lineárnou kombináciou (váženým priemerom) originálnych premenných.  Prvý hlavný komponent vysvetľuje najväčšiu časť variability premenných, druhý komponent vysvetľuje druhú najväčšiu časť variability, atď. až kým je vysvetlená všetka variabilita. Komponenty sú vzájomne nezávislé a niekoľko z nich často vysvetľuje okolo 80 % variability. Tieto sa potom skúmajú, graficky znázornia, prípadne použijú ako vstupy do lineárnej regresie, diskriminačnej analýzy alebo zhlukovej analýzy. PCA na rozdiel od príbuznej faktorovej analýzy (FA) prinesie vždy rovnaké výsledky. Analýza hlavných komponentov  FA aj PCA sa snažia zredukovať rozmernosť skupiny údajov. Hlavný rozdiel medzi FA a PCA je ten, že PCA vysvetľuje všetku variabilitu medzi originálnymi premennými (vyjadrenú v korelačnej matici) a FA iba variabilitu, ktorú majú premenné spoločnú.  Cieľom PCA (Rao 1964) je odvodenie malého množstva lineárnych kombinácií (hlavných komponentov) z množiny premenných pri zachovaní čo najviac informácií obsiahnutých v pôvodných premenných. Cieľom FA (Mulaik 1972) je vysvetliť korelácie alebo kovariancie medzi premennými pomocou malého množstva nepozorovateľných, latentných premenných. Latentné premenné nemožno všeobecne vypočítať ako lineárnu kombináciu originálnych premenných. FA predpokladá lineárne vzťahy medzi premennými nebyť nekorelovanej náhodnej chyby (unikátnej variability) v každej premennej, pričom lineárne vzťahy aj množstvo unikátnej variability možno odhadnúť. Faktorová analýza (FA) Viacrozmerné metódy •U3 •U10•U7•U4 •U8 •U9•U6•U5 •U11•U1 •U2 •1 •2 •3 •4 •5 •n •UR •Metódy analýzy skrytých vzťahov •premenné Viacrozmerné metódy  Metódy analýzy skrytých vzťahov • premenné nemožno logicky rozdeliť do dvoch skupín na závislé a nezávislé • cieľom je pochopiť alebo identifikovať prečo a ako sú premenné navzájom korelované t.j. ako sa navzájom ovplyvňujú • ak sú premenné navzájom prepojené – korelované, možno rovnaký objem informácií vystihnúť menším počtom premenných – zníženie dimenzie Viacrozmerné metódy Kvantitatívne Kvalitatívne Dve Typ údajov Jednoduchá korelácia Faktorová analýza Analýza dvojrozmerných kontingenčných tabuliek Počet premenných Loglineárne modely Viac ako dve Analýza hlavných komponentov Analýza viacrozmerných kontingenčných tabuliek Loglineárne modely Korešpondenčná analýza •Metódy analýzy skrytých vzťahov Faktorová analýza  Charakteristika • predmetom analýzy je skupina kvantitatívnych premenných • merateľné veličiny môžeme vyjadriť ako lineárne funkcie menšieho počtu skrytých – spoločných faktorov a jedného špecifického faktora Faktorová analýza  Charakteristika • k dispozícii máme výsledky testov študentov z rôznych predmetov • matematika (M) • fyzika (F) • chémia (CH) • anglický jazyk (AJ) • dejepis (D) • francúzština (FR) • môžeme predpokladať, že výsledky testu sú funkciou: • všeobecnej inteligencie študenta (I) • jeho záujmu o daný predmet (Z)  Charakteristika • na základe uvedených predpokladov platí napr.: • M = 0,8 I + Z(m) • F = 0,7 I + Z(f) • CH = 0,9 I + Z(ch) • AJ = 0,6 I + Z(aj) • D = 0,5 I + Z(d) • FR = 0,65 I + Z(fr) Faktorová analýza •I •M •F •CH •AJ •D •FR •Z(m) •Z(f) •Z(ch) •Z(aj) •Z(d) •Z(fr) •0,8 •0,7 •0,9 •0,6 •0,5 •0,6 5  Charakteristika Faktorová analýza •I •M •F •CH •AJ •D •FR •Z(m) •Z(f) •Z(ch) •Z(aj) •Z(d) •Z(fr) •0,8 •0,7 •0,9 •0,6 •0,5 •0,6 5 •indikátor •faktorové saturácie •(pattern loading) •skrytý faktor •špecifický faktor  Princípy • indikátory sú navzájom korelované, pretože zdieľajú minimálne jeden spoločný znak • ktorý je zodpovedný za koreláciu medzi indikátormi • nemôže byť priamo zmeraný • pôsobí minimálne na dva indikátory súčasne – sa nazýva spoločný alebo skrytý faktor • variabilita indikátorov nevysvetlená skrytým faktorom je spôsobená špecifickými vplyvmi – tzv. špecifickými faktormi resp. náhodnou chybou Faktorová analýza  Princípy • každý indikátor možno vyjadriť ako Faktorová analýza •X1 = a11 f1 + a12 f2 + a13 f3 + …. + a1q fq + e1 •X2 = a21 f1 + a22 f2 + a23 f3 + …. + a2q fq + e2 •X3 = a31 f1 + a32 f2 + a33 f3 + …. + a3q fq + e3 •Xk = ak1 f1 + ak2 f2 + ak3 f3 + …. + akq fq + ek •…. •saturácia, váha  Princípy • cieľom je teda odhadnúť model, ktorý je podobný všeobecnému lineárnemu modelu • avšak pri lineárnom modely poznáme X aj Y, čo nám umožňuje nájsť jedinečné riešenie pre  a E • pri FA máme len X, z ktorých vychádzame pri hľadaní riešenia pre F,  a E • pre FA tak možno určiť nekonečné množstvo riešení • každé z nájdených riešení bude odhadovať údaje rovnako kvalitne Faktorová analýza •Y = X + E •X = F + E  Princípy • odhad vychádza z rozkladu variability • celkovú variabilitu každého indikátora možno rozložiť na dve zložky • komunalita – časť rozptylu indikátora, ktorú je možné vysvetliť pôsobením skrytých faktorov • unicita – časť rozptylu indikátora, ktorú možno vysvetliť len pôsobením špecifických faktorov alebo náhody Faktorová analýza •D(Xj) = sj 2 = (aj1 2 + aj2 2 + …. + ajq 2 ) + uj 2 •D(Xj) = sj 2 = hj 2 + uj 2 •D(Xj) = sj 2 = komunalita + unicita  Princípy • ak poznáme odhady rozptylov, môžeme odhadnúť saturácie • východiskom je korelačná matica indikátorov • Rh – redukovaná korelačná matica – diagonála obsahuje odhady komunalít – mimo diagonály sú koeficienty korelácie • E – reziduálna korelačná matica – na diagonále sú rozptyly špecifických faktorov Faktorová analýza •R = Rh + E  Princípy • predpoklady • R je korelačná matica indikátorov s viacerými štatisticky významnými koeficientmi korelácie • spoločné faktory sú navzájom nekorelované • špecifické faktory sú navzájom nekorelované • spoločné a špecifické faktory sú navzájom nekorelované Faktorová analýza  Postup • inicializačný odhad komunalít • extrakcia spoločných faktorov • určenie počtu spoločných faktorov • rotácia faktorov • odhad faktorových saturácií, komunalít, unicít • interpretácia spoločných faktorov • odhad faktorových skóre Faktorová analýza  Postup • inicializačný odhad komunalít • najvyšší korelačný koeficient danej premennej s ostatnými premennými • štvorec viacnásobného koeficienta determinácie • priemerný korelačný koeficient • najvyššia korelácia – pomer štvorca j-teho stĺpcového súčtu k celkovej sume štvorcov všetkých koeficientov • iteratívny odhad faktorov Faktorová analýza  Postup • extrakcia spoločných faktorov • metóda HK (principal components factoring) – inicializačné komunality = 1 – korelačná matica s komunalitami je vstupom pre klasickú PCA • metóda hlavných osí (principal axis factoring) – iteratívny odhad inicializačných komunalít – PCA, kým zmena komunality nie je menšia ako stanovené kritérium • metóda maximálnej vierohodnosti • image factor analysis • alpha factor analysis Faktorová analýza  Postup • určenie počtu spoločných faktorov • analýza scree grafu – podiel komunality • vlastné číslo > 1 • Bartletov test: – Ho : posledných k-q faktorov nie je štat. významných – H1 : neplatí Ho Faktorová analýza  Postup • rotácia faktorov • cieľom je získať lepšie interpretovateľný odhad faktorov • typy – ortogonálna (nekorelované) » VARIMAX » EQUAMAX » QUARTIMAX » PARSIMAX – šikmá (korelované) » PROCRUSTES » PROMAX Faktorová analýza  Postup • odhad faktorových saturácií, komunalít, unicít • interpretácia spoločných faktorov • vychádza vo všeobecnosti z dvoch matíc – matica faktorových saturácií (factor pattern matrix) » koeficienty pre výpočet indikátorov zo skrytých faktorov – matica faktorovej štruktúry (factor structure matrix) » koeficienty korelácie medzi faktormi a indikátormi • pre ortogonálne rotácie sú obe matice zhodné tzv. factor loading matica Faktorová analýza • Doštudovať: 1. Ďalšie hydrologické veličiny 2. Teplotný a ľadový režim tokov 3. Klasifikácia tokov podľa režimu odtoku (Ľvovič, Pardé) a Dub feat. Zaťko, Šimo •Skriptá, s. 98 – 109.