{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "Lineární model\n", "==============\n", "\n", "Ve zhuštěné podobě se řešení lineární regrese zapisuje pomocí matic.\n", "\n", "Hledáme hodnoty *K* parametrů $\\theta_j$ pomocí *N* měření: $E(Y_i|\\theta)=\\sum_j^N a_{ij} \\theta_j$, či v maticové formě $E(\\mathbf{Y}|\\theta)=\\mathbf{A}\\mathbf{\\theta}$.\n", "Matice $a_{ij}=f_j(x_i)$ jsou hodnoty sady $j=1..K$ funkcí (např. různé mocniny v případě polynomiálního modelu) vyjádřených v $i=1..N$ měřených bodech $x_i$.\n", "Předpokládáme, že měření $y_i$ jsou nezávislá, tedy disperzní matice $D(\\mathbf{Y})=\\sigma^2 \\mathbf{W}^{-1}$ je diagonální (váhy mohou být normovány na $Tr(\\mathbf{W})=1$). \n", "\n", "Zobecněním dvojpar. postupu dostaneme pro ML odhad soustavu rovnic\n", "\n", "$$\\mathbf{A}^T \\mathbf{W} \\mathbf{Y} = (\\mathbf{A}^T \\mathbf{W} \\mathbf{A}) \\widehat{\\mathbf{\\theta}}$$ \n", "\n", "kde součin v závorce je Hessián $\\mathbf{H}$, regulární symetrická matice; k ní inverzní označ. $\\mathbf{D}$ určuje disperzi. Platí\n", "\n", "$$D(\\widehat{\\mathbf{\\theta}})=\\sigma^2 \\mathbf{D}$$\n", "\n", "kdy $\\widehat{\\mathbf{\\theta}} = D \\mathbf{A}^T \\mathbf{W} \\mathbf{Y}$ je lineární kombinace normálně rozdělených NP (těmi jsou měřené hodnoty $Y$), tedy také normální NP.\n", "\n", "Pokud $\\sigma^2$ neznáme, odhadujeme ji pomocí \"reziduálního součtu čtverců\"\n", "\n", "$$\\widehat{\\sigma^2}=\\frac{1}{N-p}(\\mathbf{Y}-\\widehat{\\mathbf{Y}})^T \\mathbf{W} (\\mathbf{Y}-\\widehat{\\mathbf{Y}}) = \\frac{1}{N-p} \\sum_{i}^{N} w_i (y_i-\\widehat{y_i})^2 = \\frac{S_0}{N-p}$$ \n", "\n", "kde $\\widehat{\\mathbf{Y}}=\\mathbf{A}\\widehat{\\mathbf{\\theta}}$ (předpověď modelu) a $p$ je počet parametrů (dimenze $\\theta_j$). \n", "\n", " " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Mnohorozměrné problémy\n", "======================\n", "\n", "Základní otázky otázka potřebnosti dalšího parametru - jaký nejmenší počet proměnných vysvětluje dostatečně data?\n", "\n", "Hlavní komponenty - principal component analysis (PCA)\n", "-------------------------\n", "\n", "Matice $A$ popisuje transformaci (rotaci/inverzi) měřených veličin\n", "$$Y=A X$$\n", "\n", "- hledáme takovou kombinaci $a_1 X$, kdy $V(a_1 X)$ bude největší za normalizační podmínky $a_1 b_1=1$ -> _první hlavní komponenta_\n", "- pak hledáme takovou kombinaci $a_2 X$ , kdy $V(a_2 X)$ bude největší za podmínky $a_2 b_2=1$ a $Cov(a_1 X, a_2 X)=0$ -> _druhá hlavní komponenta_\n", "\n", "Nechť proměnné X mají kovarianční matici $\\Sigma$\n", "\n", "řešení: najdeme vlastní čísla $\\lambda_i$ a vlastní vektory $\\pi_i$ kovar. matice, předpokládáme, že budou ortogonální (autom. splněno, pokud jsou vlastní čísla různá).\n", "\n", "Matice W vlastních vektorů matice $X^T X$ a sdružená matice V vlastních vektorů matice $X X^T$\n", "(ident. v případě čtvercové matice X) jsou transformačními maticemi **singulární dekompozice** matice X ve tvaru $X=W L V$, kde L je matice pouze s diagonálními nezápornými elementy.\n", "\n", "Stopa kovar. matice je při transformaci zachována - součet variancí je součtem vlastních čísel. Vlastní vektory obvykle uspořádáme podle velikosti vlast. čísel.\n", "\n", "#### Reference:\n", "[Francis] Paul J. Francis, Beverley J. Wills + [code ref.](http://www.mso.anu.edu.au/~pfrancis/pca_public.f)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Faktorová analýza\n", "--------------------------\n", "\n", "jde o rozklad kovarianční matice $\\Sigma$ na několik (*m*) společných faktorů a zbylé \"specifické\" faktory\n", "\n", "$E(X)=\\mu$\n", "\n", "$X-\\mu=L F + \\epsilon$\n", "\n", "$E(F)=0, Cov(F)=I$ (ortogonální faktory);\n", "$E(\\epsilon)=0, Cov(\\epsilon)=\\Psi$ (diagonální)\n", "\n", "pak $Cov(X)=LL' + \\Psi$\n", "\n", "faktory $F$ jsou určeny až na ortogonální rotaci, \"loading\" L určíme jako $L=Cov(X,F)$\n", "\n", "faktorizace může vycházet z PCA - $L=\\sqrt(\\lambda) e$,\n", "kdy zahrneme jen *m* nejvýznamnějších vlastních vektorů \n", "\n", "**Faktorová analýza** je termín používaný i pro [plány experimentů](http://nymeria.physics.muni.cz/face/praxis/fdoc/mmzm_factorial/) " ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.4.1" }, "widgets": { "state": {}, "version": "1.1.1" } }, "nbformat": 4, "nbformat_minor": 0 }