1/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Návrh a vyhodnocování experimentů Petr Holub a Radka Svobodová-Vařeková , <4056@mail.muni.cz> DUVOD 2010–12–07 2/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Přehled přednášky Motivace Měření Zpracování měření Regresní metody Zadání Literatura 3/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Délka zpracování obrázku 4/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura velikost obrázku čas běhu 640 × 480 124,12983930928 1280 × 720 539,98450298239 1920 × 1080 1529,02398429008 4096 × 2160 10210,09238488922 5/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura velikost obrázku čas běhu 640 × 480 124,12983930928 1280 × 720 539,98450298239 1920 × 1080 1529,02398429008 4096 × 2160 10210,09238488922 6/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Měříme délku výpočtu v Javě 7/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura ~$ R ... > library(psych) > runlength <- read.csv(file="java-example.table", head=FALSE, sep=",") > summary(runlength$V1) Min. 1st Qu. Median Mean 3rd Qu. Max. 92.08 104.70 108.80 166.80 187.20 594.70 > describe(runlength$V1) var n mean sd median trimmed mad min max range skew 1 1 30 166.82 113.67 108.78 142.1 20.88 92.08 594.71 502.63 2.14 kurtosis se 1 4.55 20.75 8/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura N = 30 x = 166,82 sx = 113,67 sx = sx√ N = 20,75 t0,05;29 = 2,045 x ± t0,05;N−1sx = 167 ± 42ms 0 100 200 300 400 500 600 051015 Javové měření Čas [ms] Četnost 9/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura N = 30 x = 166,82 sx = 113,67 sx = sx√ N = 20,75 t0,05;29 = 2,045 x ± t0,05;N−1sx = 167 ± 42ms 0 100 200 300 400 500 600 051015 Javové měření Čas [ms] Četnost 10/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura 0 5 10 15 20 25 30 100200300400500600 Javové měření Měření Čas [ms] 11/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura 0 5 10 15 20 25 30 100200300400500600 Javové měření Měření Čas [ms] HotSpot garbage collector 12/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Proč experimenty? Informatika má silné nástroje pro zjišťování faktů ◾ důkazy ◾ výpočty ◾ simulace Praktické studium vlastností systémů ◾ některé vlastnosti neumíme nebo z důvodu obtížnosti nemůžeme simulovat Podpoření nebo vyvrácení hypotézy ◾ pozor... nedokazujeme! 13/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Soustava jednotek pro informatiky Zdroj: http://www.icrf.nl/Portals/106/SI_units_diagram(1).jpg 14/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Soustava jednotek pro informatiky Předpony nejen speciálně informatické yocto- 10−24 y – – – zepto- 10−21 z – – – atto- 10−18 a – – – femto- 10−15 f – – – pico- 10−12 p – – – nano- 10−9 n – – – micro- 10−6 µ – – – milli- 10−3 m – – – kilo- 103 k kibi 210 Ki mega- 106 M mebi 220 Mi giga- 109 G gibi 230 Gi tera- 1012 T tebi 240 Ti peta- 1015 P pebi 250 Pi exa- 1018 E exbi 260 Ei zetta- 1021 Z zebi 270 Zi yotta- 1024 Y yobi 280 Yi Amendment 2 to “IEC 60027-2: Letter symbols to be used in electrical technology – Part 2: Telecommunications and electronics” (1999) 15/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Typy měřících metod Subjektivní × objektivní metody ◾ subjektivní: působí bezprostředně na lidské smysly ◾ objektivní: působí na měřící zařízení Přímé × nepřímé metody ◾ přímé: přímé srovnání se známou hodnotou veličiny ◾ nepřímé: na základě jiných veličin, pomocí nichž lze měřenou veličinu spočítat Absolutní × relativní metody ◾ absolutní: měření přímo v příslušné jednotce ◾ relativní: měření srovnáním Statické × dynamické metody ◾ statické: z klidového stavu přístroje ◾ dynamické: na základě dynamiky měřícího přístroje 16/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Výsledky měření Rozlišení měření Chyby měření ◾ skládání většího počtu mikroskopických jevů ◾ subjektivní vliv u měřících metod Jedno číslo zdaleka nepostihuje tyto informace 17/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Výsledky měření x = (ˆµx ± zx) [jednotka] ˆµx... nejpravděpodobnější hodnota měřené veličiny zx... interval spolehlivosti / přesnost jak tyto věci spočítat / odhadnout? 18/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Výsledky měření Protokolování podmínek, na nichž měření probíhalo ◾ zachycení všech podmínek, které mohou mít na měření vliv konfigurace hardware popis síťové topologie instalovaný operační systém instalovaný software popis konfigurace a souběžně běžících procesů uschování vlastního měřeného software/hardware přesný popis použitých měřících metod přesná identifikace měřících nástrojů/přístrojů ◾ důležité pro reprodukovatelnost měření 19/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Chyby měření Klasifikace chyb podle místa vzniku ◾ instrumentální (přístrojové) chyby ◾ metodické chyby ◾ teoretické chyby (principy, model) ◾ chyby zpracování Klasifikace chyb podle původu ◾ hrubé (omyly) ◾ systematické ◾ náhodné 20/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Chyby měření 2 3 4 5 6 7 8 9 10 2 3 4 5 6 7 8 9 10 2 3 4 5 6 7 8 9 10 2 3 4 5 6 7 8 9 10 21/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Chyby měření dle norem Metrologické normy ČSN 01 0250 Statistické metody v průmyslové praxi. Všeobecné základy ČSN 01 0251 Vzájemná shoda výsledků zkušebních metod. Stanovení opakovatelnosti a reprodukovatelnosti normalizované zkušební metody pomocí mezilaboratorních zkoušek ČSN 25 0008 Metrológia. Chyby primárnych etalónov. Spôsoby vyjadrovania ČSN 25 1202 Posuvná měřidla. Technické požadavky ČSN 25 1401 Mikrometrická měřidla na vnější měření. Technické požadavky ČSN 25 8304 Provozní termoelektrické snímače teploty ČSN 25 8305 Prevádzkové termoelektrické snímače teploty. Metody skúšania pri úradnom overování ČSN 25 8306 Provozní odporové snímače teploty ČSN 25 8307 Prevádzkové odporové snímače teploty. Metody overovania ČSN 35 6505 Elektronické měřicí přístroje. Všeobecné technické podmínky ... a mnoho dalších 22/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Chyby měření dle norem Termíny z ČSN 35 6505 Chyba rozdíl mezi údajem přístroje a skutečnou hodnotou Absolutní chyba Relativní chyba v % Vztažná hodnota k níž se vztahuje relativní chyba Základní chyba stanovená v referenčních podmínkách Přídavná chyba jedna z hodnot nabývá libovolné hodnoty, ostatní jsou mají referenční hodnoty (a pak se neuvažuje základní chyba) Chyba stálosti (stabilita) průběh chyby vytvářené samotným přístrojem v čase Meze chyb maximální hodnoty chyb pro jakýkoli parametr ve stanovených podmínkách (referenčních, jmenovitých, pracovních, ...) 23/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Chyby měření dle norem Termíny z ČSN 35 6505 Naměřená hodnota Referenční podmínky souhrn podmínek arozsahů pro parametry a ovlivňující veličiny, při nichž přístroj splňuje ustanovení o dovolených chybách, při kterých se u přístroje ověřuje základní chyba a/nebo se přístroje nastavují. Jmenovitý rozsah použití rozsah hodnot, u nichž přístroj splňuje požadavky na chyby Jmenovité pracovní podmínky souhrn pracovního hodnot, rozsahů, parametrů a ovlivňujících veličin, pro něž jsou udány technické vlastnosti přístroje Doba náběhu přístroje 24/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Přesnost měřících nástrojů Přesnost přístroje ... náhodná chyba Správnost přístroje ... systematická chyba Aditivní vs. multiplikativní chyby Mezní hodnota chyb Třída přesnosti přístroje Aditivní model skutečná hodnota změřenáhodnota Multiplikativní model skutečná hodnota změřenáhodnota Kombinovaný model skutečná hodnota změřenáhodnota 25/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Přesnost měření času v počítači gettimeofday() – unixové API ◾ přesnost závislá na použitém HW ◾ v patologických případech může přeskočit i zpět ◾ potenciální režie systémového volání clock_gettime() – POSIXové API ◾ přesnost lze zjistit pomocí clock_getres() ◾ CLOCK_REALTIME ve standardu ◾ CLOCK_MONOTONIC jsou běžně dostupné ◾ různé systémy poskytují různá rozšíření typu hodin (např. CLOCK_REALTIME_FAST, CLOCK_REALTIME_PRECISE, CLOCK_PROCESS_CPUTIME_ID, CLOCK_THREAD_CPUTIME_ID) ◾ potenciální režie systémového volání 26/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Přesnost měření času v počítači TSC – přístup k čítači x86 procesorů (od Pentia) ◾ frekvence tiků rovna frekvenci procesoru ◾ nízká režie – přímý přístup k čítači z ASM ◾ problém absence synchronizace mezi procesory nastavit afinitu ◾ problém s dynamickou změnou frekvence procesoru příznak constant_tsc v /proc/cpuinfo na Linuxu ◾ problém s out-of-order vykonáváním instrukcí předřadit serializující CPUID instrukci ◾ problém resetu při uspání ◾ ne všechny procesory jej mají (např. Cyrix 6x86) 27/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Přesnost měření času v počítači QueryPerformanceCounter – Windows ◾ frekvenci lze zjistit pomocí QueryPerformanceFrequency ◾ opět třeba zamknout na procesor System.currentTimeMillis() – Java ◾ ekvivalent gettimeofday()/clock_gettime(CLOCK_REALTIME) ◾ nominální rozlišení 1 ms, fakticky i 10 ms v závislosti na OS System.nanoTime() – Java ◾ přidání od JDK 1.5 ◾ aproximace TSC 28/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Hrubé chyby Hrubé chyby se musí ze sady měření vyloučit 29/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Hrubé chyby Volba měřící metody / měřících metod – příklad pro Javu ◾ Problém garbage collection -verbose:gc krátká měření: vybrat pouze běhy, v nichž nedošlo ke GC dlouhé běhy: dostatečně dlouhé, aby se přítomnost GC projevila representativně ◾ Problém HotSpot kompilace -XX:+PrintCompilation dostatečný warm-up (minuty!) mohou se vyskytovat rekompilace (optimalizace, nahrání nové třídy která zruší dosavadní předpoklady) housekeeping tasks: oddělení nesouvisejících měření pauzou nebo restartem JVM 30/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Náhodné chyby aneb proč se běžně pracuje s normálním rozdělením chyb? Hypotéza elementárních chyb [1] ◾ každá náhodná chyba v měření je složena z řady malých chyb ◾ při velkém počtu měření se vyskytne zhruba stejný počet chyb kladných i záporných a malé chyby jsou početnější než velké 1. m elementárních náhodných vlivů 2. každý elementární vliv generuje chybu α (dále označováno jako případ a) nebo −α (dále případ b) 3. chyby a a b jsou stejně časté ◾ dostáváme binomické rozdělení kumulace vlivů elementárních chyb ( m 0 )am ,( m 1 )am−1 b, . . . ,( m l )am−l bl , . . . ,( m m )bm P(0) = 1 2m ( m m/2 ) P(εl) = 1 2m ( m l ),εl = (l−(m−l))α = (2l−m)α = 2sα 31/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Náhodné chyby aneb proč se běžně pracuje s normálním rozdělením chyb? Co se stane, pokud m → ∞? ◾ pro sudá m = 2k ⇒ k → ∞ (sudá, abychom měli P(0)) P(ε) = P(2sα) = 1 22k ( 2k k + s ) P(2sα) P(0) = ( 2k k+s ) (2k k ) = k(k − 1)⋯(k − s + 1) (k + 1)(k + 2)⋯(k + s) = (1 − 1 k ) (1 − 2 k ) ⋯ (1 − s−1 k ) (1 + 1 k ) (1 + 2 k ) ⋯ (1 + s k ) ◾ pro s ≪ k ln(1 + x) = x − x2 2 + x3 3 − ⋅ ⋅ ⋅ ≈ x ln P(2sα) P(0) = − 1 k − 2 k −⋅ ⋅ ⋅− s − 1 k − 1 k − 2 k −⋅ ⋅ ⋅− s k = − 2 k s(s − 1) 2 − s k = − s2 k P(2sα) = P(0)e− s2 k = P(0)e − ε2 4kα2 32/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Náhodné chyby aneb proč se běžně pracuje s normálním rozdělením chyb? Co se stane, pokud m → ∞? ◾ převod na spojité rozdělení h2 = 1 lim k→∞ 4kα2 , η(ε) = h √ π e−h2 ε2 ◾ šikmost binomického rozdělení 1 − 2p √ np(1 − p) , lim n→∞ 1 − 2p √ np(1 − p) = 0 a také 0 pro p = 0,5 ◾ další studium: Central Limit Theorem, [2] 33/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Binomické vs. normální rozdělení Binomické rozdělení (n k )pk (1 − p)n−k 0 10 20 30 40 0.000.050.100.150.200.25 p=0.5 and n=20 p=0.7 and n=20 p=0.5 and n=40 Zdroj: http://en.wikipedia.org/wiki/File:Binomial_distribution_pmf.svg 34/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Binomické vs. normální rozdělení Normální rozdělení 1√ 2πσ2 e− (x−µ)2 2σ2 φμ,σ2( 0.8 0.6 0.4 0.2 0.0 −5 −3 1 3 5 x 1.0 −1 0 2 4−2−4 x) 0,μ= 0,μ= 0,μ= −2,μ= 2 0.2,σ = 2 1.0,σ = 2 5.0,σ = 2 0.5,σ = Zdroj: http://en.wikipedia.org/wiki/File:Normal_Distribution_PDF.svg 35/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Binomické vs. normální rozdělení Srovnání binomického a normálního rozdělení pro p = 0,5 a n = 6 0 1 2 3 4 5 6 k P[X=k] 0 0.05 0.15 0.25 0.3 0.2 0.1 Zdroj: http://en.wikipedia.org/wiki/File:Binomial_Distribution.svg 36/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Studentovo rozdělení t Používá se pro normální rozdělení při malém vzorku (neznámé směrodatné odchylky) f(t) = Γ(ν+1 2 ) √ νπΓ(ν 2 ) (1 + t2 ν ) −(ν+1)/2 kde ν je počet stupňů volnosti. ◾ odhad průměrů a chyby ◾ t-test – odlišení průměrů 37/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Studentovo rozdělení t Srovnání s normálním rozdělením (modré) počet stupňů volnosti ν = 3 Zdroj: http://en.wikipedia.org/wiki/File:T_distribution_3df.png 38/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Poissonovo rozdělení Počty událostí v daném časovém okně, odehrávají se nezávisle se známou průměrnou rychlostí f(k;λ) = λk e−λ k! k ... počet výskytů událostí, λ ... očekávaný počet událostí ve studovaném intervalu Příklady – Poissonovské procesy ◾ počet telefonních hovorů na ústředně za minutu ◾ počet přístupů k webovému serveru (nemění-li se λ v čase – předpoklad homogenity) ◾ radioaktivní rozpad atomů Pro λ → ∞ je opět dobrou aproximací normální rozdělení 39/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Poissonovo rozdělení Zdroj: http://en.wikipedia.org/wiki/File:Poisson_pmf.svg 40/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Jiná rozdělení Weibullovo f(x;λ,k) = { k λ ( x λ ) k−1 e−(x/λ)k x ≥ 0, 0 x < 0. ◾ používá se k popisu času do selhání, úmrtí ◾ k < 1 – rychlost selhání klesá v čase, jak z vzorku mizí kusy (např. úmrtnost novorozenců) k = 1 – rychlost selhání je konstantní v čase, typicky způsobena vnějšími vlivy (např. úmrtnost vojáků ve válce) k > 1 – selhání vzrůstá v čase, typický proces stárnutí komponent Zdroj: http://en.wikipedia.org/ wiki/File:Weibull_PDF.svg 41/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Jiná rozdělení modely rozdělení specifické pro aplikace ◾ Rayleighovo rozdělení – rychlost větru ve 2D složkách ◾ záření černého tělesa nejedná se o ,,chyby‘‘, ale o charakteristiku 42/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Normalizace rozdělení chyb Ověření normality rozdělení ◾ vizuální ◾ šikmost vzorku (sample skewness) g1 = 1 n ∑i=1 N(xi − x)3 (1 n ∑i=1 N(xi − x)2) 3/2 Zdroj: http://en.wikipedia.org/wiki/File:Skewness_Statistics.svg 43/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Normalizace rozdělení chyb Ověření normality rozdělení ◾ špičatost vzorku (sample kurtosis) g2 = 1 n ∑i=1 N(xi − x)4 (1 n ∑i=1 N(xi − x)2) 2 − 3 lehké konce (leptokurtic), g2 > 0 × těžké konce (platycurtic), g2 < 0 Zdroj: http://en.wikipedia.org/wiki/File:T_distribution_3df.png 44/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Normalizace rozdělení chyb Techniky normalizace ◾ šikmá rozdělení g1 > 0: transformace hodnot n √ x log(x) 1 x ◾ šikmá rozdělení g1 < 0: převrácení hodnot (reflection) −x + c s vhodně zvolenou konstantou c ◾ špičatá rozdělení: problém ◾ další čtení: [3] 45/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Odhad spolehlivosti x = (ˆµx ± zx) [jednotka] Statistická definice [4]: Je-li výsledek měření ˆµxa zxje chyba tohoto měření odpovídající míře jistoty p, pak skutečná hodnota měřené veličiny leží v intervalu (ˆµx ± zx) s pravděpodobností p. Intervaly ◾ 0,68 – střední kvadratická chyba ◾ 0,95 ◾ 0,99 – krajní chyba Zaokrouhlování ◾ zxnejvýše na 2 platná místa ◾ ˆµxpodle zx 46/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Odhad spolehlivosti x = (ˆµx ± zx) [jednotka] Pro normální rozdělení chyby ˆµx = x = ∑ N i=1 xi n s směrodatná odchylka jednoho měření, D rozptyl s = √ D = √ ∑ N i=1(x − xi)2 n − 1 sx = √ ∑ N i=1(1 n )2sxi a protože měření byly prováděny za stejných podmínek sx = sx √ n = ∑ N i=1(x − xi)2 n(n − 1) 47/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Odhad spolehlivosti x = (ˆµx ± zx) [jednotka] Pro normální rozdělení chyby zx = t(p;n−1)sx H H HHn P 0,683 0,954 0,99 H H HHn P 0,683 0,954 0,99 1 1,8395 13,8155 63,6567 16 1,0329 2,1633 2,9208 2 1,3224 4,5001 9,9248 18 1,0292 2,1433 2,8784 3 1,1978 3,2923 5,8409 20 1,0263 2,1276 2,8453 4 1,1425 2,8585 4,6041 30 1,0176 2,0817 2,75 5 1,1113 2,6396 4,0321 40 1,0133 2,0595 2,7045 6 1,0913 2,5084 3,7074 50 1,0108 2,0463 2,6778 7 1,0775 2,4214 3,4995 60 1,0091 2,0377 2,6603 8 1,0673 2,3594 3,3554 70 1,0078 2,0315 2,6479 9 1,0594 2,3131 3,2498 80 1,0069 2,0269 2,6387 10 1,0533 2,2773 3,1693 90 1,0062 2,0234 2,6316 12 1,0441 2,2253 3,0545 100 1,0057 2,0206 2,6259 14 1,0377 2,1895 2,9768 48/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Odhad spolehlivosti x = (ˆµx ± zx) [jednotka] Příklad – měření výšky válečku [4]: výška v [mm] 4,6 4,5 4,7 4,4 4,5 4,6 4,4 4,4 4,3 4,5 n = 10 v = 4,49[mm] sv = 0,038[mm] t(0,68;9) = 1,059 t(0,99;9) = 3,250 v = (4,49 ± 0,04) mm pro p = 0,68 v = (4,49 ± 0,12) mm pro p = 0,99 49/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Chyba nepřímo měřené veličiny K odhadu střední hodnoty a rozptylu lze použít ◾ Taylorův rozvoj funkce f(x + ε) = f(x) + ∞ ∑ n=1 f(n) (x) n! εn kde f(n) (x) je n-tá derivace f, ◾ dvoubodovou aproximaci y = f(x1, . . . ,xm) y = m ∑ i=1 f(xi + sxi ) + f(xi + sxi ) 2m s2 y = m ∑ i=1 [f(xi + sxi ) − f(xi − sxi )]2 4m ◾ Monte Carlo simulace 50/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Zákon přenosu chyb Na základě Taylorova rozvoje do druhého členu s2 z = N ∑ i=1 ( ∂z ∂xi ) 2 s2 xi + 2 N−1 ∑ i=1 N ∑ j=i+1 ∂z ∂xi ∂z ∂xj sxi sxj ij , kde s2 xi je rozptyl (variance) xi a ij je kovariance xi a xj. Pro jednoduché případy, kdy x a y jsou nezávislé ( ij = 0): ◾ aditivní funkce z = ax ± by sz = √ a2s2 x + b2s2 y , (1) ◾ multiplikativní funkce z = axb yc sz = z ( bsx x ) 2 + ( csy y ) 2 . (2) kde z = axb yc , protože N ∑ i=1 ( ∂z ∂xi ) 2 s 2 i = ⎛ ⎝ abxb yc sx x ⎞ ⎠ 2 + ⎛ ⎝ axb cyc sy y ⎞ ⎠ 2 = z 2 (( bsx x ) 2 + ( csy y ) 2 ) ◾ Příklad použití: http://www.phy.ohiou.edu/~murphy/courses/sample.pdf 51/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Model Mapování matematického modelu na naměřené hodnoty ◾ hledáme parametry modelu ◾ minimalizujeme odchylky (rezidua) modelu od naměřených dat ri(x) = yi − M(x) příp. vyjádřeno jako minimalizace normy vektoru r(x) = (r1(x), . . . ,rm(x))T ◾ nejčastěji pracujeme s euklidovskou L2 normou (metoda nejmenších čtverců) f(x) = r(x)T r(x) = m ∑ i=1 ri(x)2 ◾ lze použít např. i L1 (součet absolutních hodnot – méně citlivé na data s větší kumulací chyb, příp. zatížená hrubou chybou) či L∞ (maximum z absolutních hodnot) 52/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Model Metoda nejmenších čtverců ◾ mějme data (xi,yi), kde xi je nezávislá proměnná a yi je závislá (měřená proměnná) ◾ minimalizujeme S = ∑ n i=1 r2 i = ∑ n i=1(yi − f(xi,c))2 , kde c je vektor parametrů ◾ hledáme minimum vzhledem k c, tedy ∂S ∂cj = 2 ∑ i ri ∂ri ∂cj = −2 ∑ i ∂f(xi,c) ∂cj ri = 0 j = 1, . . . ,m 53/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Model Lineární kombinace elementárních funkcí f(xi,c) = m ∑ j=1 cjφj(xi) ◾ φj mohou být polynomy, podíly polynomů, trigonometrické funkce, exponenciální funkce, ... Xij = ∂f(xi,c) ∂cj = φj(xi) ˆc = (XT X)−1 XT y 54/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Model Příklad lineární funkce f(xi,(a,b)) = a + bxi ◾ minimalizujeme Q = n ∑ i=1 (yi − a − bxi)2 ∂Q ∂a = 2na + n ∑ i=1 (−2yi + 2bxi) = 0 (3) ∂Q ∂b = n ∑ i=1 (−2yixi + 2axi + 2bx2 i ) = 0 (4) ◾ dvě rovnice (3) a (4) o dvou neznámých a a b a = − − ∑ n i=1 yi ∑ n i=1 xi 2 + ∑ n i=1 xi ∑ n i=1 yixi n ∑ n i=1 xi 2 − (∑ n i=1 xi)2 b = n ∑ n i=1 yixi − ∑ n i=1 xi ∑ n i=1 yi n ∑ n i=1 xi 2 − (∑ n i=1 xi)2 55/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Hodnocení modelu Pearsonův korelační koeficient rx,y = ∑ n i=1((xi − x)(yi − y)) √ ∑ n i=1(xi − x)2 ⋅ ∑ n i=1(yi − y)2 ◾ lineární závislost dvou veličin x a y a nabývá hodnot [-1;1] ◾ 1 ... přesná souhlasná závislost, -1 ... přesná inverzní závislost, 0 nezávislé ◾ využívá se často jako r2 x,y Root mean square deviation – RMSD RMSDx,y = √ ∑ n i=1(xi − yi)2 n ◾ srovnání mezi získaným modelem a originálními hodnotami 56/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Zadání vlastní práce Zadání: Změřte chování chemického programu solver na sadě vstupů specifikujících strukturu molekul (soubory *.mol). Experimentálně ověřte, že složitost implementace odpovídá teoretickému předpokladu O(n3 ). Zpracujte protokol o měření. 57/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Zdroje wget http://arwen.ics.muni.cz/~hopet/tmp/solver.tgz tar zxvf solver.tgz cd solver cc -lm -o eem_solver_proteins eem_solver_proteins.c ./eem_solver_proteins molecule_9.mol params_out.txt 0 58/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Literatura I Zdeněk Horák. Praktická fysika. Státní nakladatelství technické literatury, Praha, 1958. Patrick L. Brockett. On the misuse of the central limit theorem in some risk calculations. The Journal of Risk and Insurance, 50(4):727–731, December 1983. http://www.jstor.org/stable/pdfplus/252712.pdf. Jason W. Osborne. Normalizing data transformations. ERIC digest. Technical report, ERIC Clearinghouse on Assessment and Evaluation College Park MD, August 2002. http://www.ericdigests.org/2003-3/data.htm. 59/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Literatura II František Šťastný. Zpracování experimentálních dat. Katedra obecné fyziky PřF MU, Brno, 1997. http://amper.ped.muni.cz/jenik/nejistoty/frst_ zed.pdf. Milan Meloun and Jiří Militký. Data analysis in the chemical laboratory part 1. analysis of indirect measurements. Analytica Chimica Acta, 293(1-2):183–189, 1994. http://www.sciencedirect.com/science/article/ B6TF4-44HT11Y-6D/2/ eb0dc71f565eaf9211806cb31425a66a. George E. P. Box, J. Stuart Hunter, and William G. Hunter. Statistics for Experimenters: Design, Innovation, and Discovery. Wiley-Interscience, second edition, May 2005. 60/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Literatura III C. F. Jeff Wu and Michael Hamada. Experiments: Planning, Analysis, and Parameter Design Optimization. Wiley-Interscience, April 2000. William G. Cochran and Gertrude M. Cox. Experimental Designs. Wiley, second edition, April 1992. 61/61 Motivace Měření Zpracování měření Regresní metody Zadání Literatura Inovace doktorského studia na Fakultě informatiky MU (IDSnaFI) (CZ.1.07/2.2.00/15.0196)