{ "cells": [ { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "Modely\n", "============\n", "\n", "smysl statistických modelů je \n", "\n", "- redukovat (komprimovat) data - popsat výsledek měření několika parametry\n", "- činit předpovědi - pokud závěry učiněné na daném vzorku extrapolujeme na zbytek populace\n", "- lze parametrizovat i simulovaná data (ušetření výpočetního času)\n", "\n", "paradigma: *získání spolehlivých údajů z nedokonalých dat*\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "mohou být \n", "\n", "- parametrické (tušíme funkční závislost) \n", "- neparametrické (vyhlazování / kubický spline)\n", "\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "$Y=r(X) + e$, $r(X)$ je nějaký model\n", "\n", "pro \"správný\" model platí $E(e)=0$, i když obecně rozdělení $e$ závisí na $X$\n", "\n", "z daného vzorku máme jen odhad $\\hat{r}(X)$, který se liší od skutečné $r(X)$ vlivem nejistot parametrů (a použití jen konečného vzorku pro jejich odhad, což dává možný **bias**)\n", "\n", "$$V(Y-\\hat{r}) = \\sigma^2 + E((\\hat{r}-r)^2)= \\sigma^2 + (E(\\hat{r})-r)^2 + V(\\hat{r})$$\n", "\n", "**bias - variance decomposition** – větší počet parametrů snižuje rezidua, ale zvyšuje nejistoty modelu (v důsledku korelací parametrů)\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### lineární model:\n", "mnohorozměrná regrese je analogií vzorce pro proložení přímkou ($\\sigma^2_{xy}/\\sigma^2_{xx}$)\n", "\n", "$$\\beta= V^{-1} D(\\vec{X},Y)$$\n", "\n", "(platí po \"vycentrování\" komponent modelu $\\vec{X}$ a měření $Y$) \n", "\n", "transformace pomocí $V^{-1}$ odstraňuje vazby mezi komponentami modelu\n", "\n", "vektor reziduí $Y-\\beta X$ musí být dekorelován (ortogonální) s vektorem $\\vec{X}$" ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "collapsed": false }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "%matplotlib inline\n", "from matplotlib.pyplot import *\n", "import matplotlib\n", "from numpy import array,r_,sin\n", "matplotlib.rcParams['figure.figsize'] = [10, 5]\n", "from numpy import random\n", "freq=100\n", "func=lambda x:2+0.05*sin(freq*x)\n", "x=random.uniform(-1,1,size=100)\n", "rx=r_[-1:1:200j]\n", "y=func(x)+random.normal(0,1,x.size)\n", "plot(x,y,'+')\n", "plot(rx,func(rx),label=\"true model\")\n", "ok=legend()" ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "parametry,nejistoty,rezid. suma\n" ] }, { "data": { "text/plain": [ "(array([ 2.08966209, -0.05047858, 0.11152736]),\n", " array([ 0.10064753, 0.15847813, 0.1522184 ]),\n", " 112.51524941476872)" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model=array([ones(x.size),x,sin(freq*x)]).T\n", "covr=inv(model.T.dot(model))\n", "errs=sqrt(covr.diagonal())\n", "pars=covr.dot(model.T.dot(y))\n", "dif=((y-model.dot(pars))**2).sum()\n", "print(\"parametry,nejistoty,rezid. suma\")\n", "pars,errs,dif" ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/plain": [ "array([[ 1. , -0.01238217, -0.00349425],\n", " [-0.01238217, 1. , 0.07150181],\n", " [-0.00349425, 0.07150181, 1. ]])" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "covr/errs.reshape(1,3)/errs.reshape(3,1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "porovnání s konstantním modelem (ekvivalent aritmetického průměru)" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(array([ 2.08065144]), array([ 0.1]), 113.23512939040886)" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "modelc=array([ones(x.size)]).T\n", "covrc=inv(modelc.T.dot(modelc))\n", "errsc=sqrt(covrc.diagonal())\n", "parsc=covrc.dot(modelc.T.dot(y))\n", "difc=((y-modelc.dot(parsc))**2).sum()\n", "parsc,errsc,difc" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "event. lineárním modelem (bez periodické funkce)" ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/plain": [ "(array([ 2.08141319, -0.06710682]),\n", " array([ 0.10001585, 0.15684466]),\n", " 113.05206925264098)" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "modell=array([ones(x.size),x]).T\n", "covrl=inv(modell.T.dot(modell))\n", "errsl=sqrt(covrl.diagonal())\n", "parsl=covrl.dot(modell.T.dot(y))\n", "difl=((y-modell.dot(parsl))**2).sum()\n", "parsl,errsl,difl" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "konstrukce modelu\n", "---------------------\n", "\n", "máme-li diskrétní hodnoty (kategorie) - může stačit *pruměrování* (očekávaná hodnota) a rozptyl v rámci kategorie \n", "\n", "v praxi spíš hledáme pro model spojitou funkci (interpolace mezi měřenými hodnotami)\n", "\n", "- hledáme funkce z nějaké množiny \"rozumných\"\n", "\n", "otázka \"jak přesně sledujeme data\" vede k vyvažování vztahu \"*bias-variance*\" ...\n", "\n", "lineární model $r = A H^{-1} A^T Y$ patří do skupiny lineárního vyhlazování (*linear smoother*) daného obecnější formulí\n", "\n", "$$ \\hat{r}(x) = \\sum_i {y_i\\ w(x_i,x)} $$ \n", "\n", "(uvedený maticový zápis dává hodnoty jen v bodech měřeni, první modelovou matici ale lze nahradit vektorem funkcí $a_i(x)$ a dostaneme funkci $r(x)$)\n", "\n", "pro polynom řádu 1 máme $w(x_i,x)=(x_i/n s^2_x) x$ (platí pro centrovanou nezávislou proměnnou $\\bar x=0$)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### další příklady \n", "#### k-nejbližších sousedů\n", "\n", "$w(x_i,x)=1/k$ pokud jde o jednoho z k sousedů bodu $x$, jinak 0\n", "\n", "#### vyhlazování s kernelem\n", "\n", "$w(x_i,x)=K(x-x_i)/\\sum_j K(x-x_j)$, kde nezáporný **kernel** splňuje podmínky\n", "$\\int x K(x) dx=0$, $\\int x^2 K(x) dx< \\infty$\n", "\n", "pro rovnoměrně rozdělená data vypadá jako konvoluce" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "parametrizace\n", "---------------\n", "\n", "náš odhad parametrů $\\theta$ minimalizuje \"loss function\" $L(\\bf{z}_n;\\theta)$ (může to být např. záporný logaritmus věrohodnosti) v prostoru parametrů\n", "\n", "tato funkce se pro každý vzorek (měření) $\\bf{z}_n$ liší od její \"střední hodnoty\" určované nad celou populací dat $\\bf{Z}$ (a která by minimalizací \n", "dala *skutečné* hodnoty parametrů)\n", "\n", "$$L(\\bf{z}_n;\\theta)=E(L(\\bf{Z};\\theta)) + \\eta_n(\\theta)$$\n", "\n", "druhý člen je náhodná odchylka pro daný konečný vzorek $\\bf{z}_n$" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "\n", "### skryté a přebytečné proměnné\n", "\n", "rozdíl mezi věrohodností třídy $\\pi$ modelů obecnějších a $\\rho$ modelů s omezenými (fixovanými)\n", "parametry je úměrný $\\chi^2_{p-q}$ (p-q je počet fixovaných parametrů)\n", "\n", "\n", "rezidua jsou z definice nekorelována s modelem (nezávislými parametry), nicméně by měly splňovat také podmínky pro **bílý šum**\n", "\n", "- normální rozdělení\n", "- *stejné* rozdělení (zejména rozptyl) pro různá x\n", "- navzájem nekorelované\n", "\n", "testování dalších parametrů \n", "\n", "- t-test parametrů s nejistotami\n", "- F-test tříd modelů\n", "\n", "kovarianční matice klesá s 1/N (objemem měřených dat), stále více parametrů může být \n", "statisticky významných, ale skutečné fyzikální mechanismy na velikosti vzorku nezávisí\n", "\n", "- *přidání dalšího parametru do modelu musí mít fyzikální opodstatnění*\n", "- pouhá korelace neznamená příčinnou souvislost\n", "- pokud není splněna podmínka normálnosti rozdělení parametrů, standardní testy nepomůžou (lze aplikovat *bootstraping*)\n" ] }, { "cell_type": "code", "execution_count": 10, "metadata": { "collapsed": false, "slideshow": { "slide_type": "slide" } }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "from numpy import polyfit,polyval,arange\n", "x=r_[-3:3:20j]\n", "#x=random.uniform(-3,3,20)\n", "tres=[7,0,-.5,-2,0]\n", "ytrue=polyval(tres,x)\n", "plot(x,ytrue,'k')\n", "y=ytrue+random.normal(size=x.shape)\n", "plot(x,y,'*')\n", "ords=arange(1,10)\n", "res=[polyfit(x,y,i,cov=True) for i in ords]\n", "#[[round(p,3) for p in r[0][::-1]] for r in res]" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "**validace** spočívá v aplikaci modelů na nový vzorek dat\n", "\n", "pokud nemáme nový vzorek, můžeme dělat podvýběry ze stávajícího \n", "\n", "- rozdělení na poloviny, obecněji *k*-dílů, jeden díl se použije na testování\n", "- jackknife ([viz](http://nymeria.physics.muni.cz/face/praxis/fdoc/id393/) redukce biasu)\n", "- [bootstrap](http://nymeria.physics.muni.cz/face/praxis/fdoc/id394/)" ] }, { "cell_type": "code", "execution_count": 15, "metadata": { "collapsed": false, "slideshow": { "slide_type": "slide" } }, "outputs": [ { "data": { "text/plain": [ "Text(0.5,0,'stup. polynomu modelu')" ] }, "execution_count": 15, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "chi2=r_[[((y-polyval(res[i-1][0],x))**2).sum()/(len(x)) for i in ords]]\n", "semilogy(ords,chi2,'s')\n", "grid()\n", "semilogy(ords,chi2/(len(x)-ords-1)*len(x),'d')\n", "ynew=ytrue+random.normal(size=x.shape)\n", "gme=r_[[((ytrue-polyval(res[i-1][0],x))**2).sum()/(len(x)) for i in ords]]\n", "semilogy(ords,gme,'o')#,fillcolor=None)\n", "valme=r_[[((ynew-polyval(res[i-1][0],x))**2).sum()/(len(x)-i-1) for i in ords]]\n", "semilogy(ords,valme,'v')\n", "legend(['mse','red. chi2','gme','valid.'])\n", "ylim(0.02,10000)\n", "xlim(1,10)\n", "xlabel(\"stup. polynomu modelu\")\n", "#savefig(\"/tmp/general_err.png\",dpi=100)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**legenda**\n", "\n", "- mse = průměrná hodnota čtverce rezidua\n", "- red. chi2 = suma čtverců reziduí dělená počtem stupňů volnosti\n", "- valid. = suma čtverců reziduí u nové (validační) sady dat\n", "- gme = generalizační chyba - suma čtverců reziduí modelu a skutečné střední hodnoty $y$" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "anaconda-cloud": {}, "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.5" }, "toc": { "toc_cell": false, "toc_number_sections": true, "toc_threshold": 6, "toc_window_display": false } }, "nbformat": 4, "nbformat_minor": 2 }