Dosud všechny příklady odpovídali situaci, kdy očekávaná hodnota všech prvků vzorku byla stejná - výsledkem ML odhadu byl (nějak vhodně vážený) průměr. Reálné situace mnohem častěji vyžadují modelovou funkci (s větším počtem parametrů), která předpovídá změnu očekávané hodnoty v závislosti na nějaké nezávislé veličině $x_j$: $$E(y_j) = m(x_j|{\mathbf \theta})$$ pak je cílem analýzy odhad vektoru parametrů ${\mathbf \theta}= [\theta_1, \theta_2\dots \theta_k]$ včetně nejistot resp. jejich celé kovarianční matice.
První taková závislost, se kterou jste se setkali, byl pravděpodobně lineární trend $m(x_j)=\theta_1+x_j \theta_2$; funkce to mohou být ale libovolně komplikovaný (třeba pokud je nezávislá proměnná vlnočet či energie fotonu, Drudeho závislost dielektrické funkce - nejjednodušší pouze 2-parametrická disperze - bude $$\varepsilon_j=\frac{\theta_1}{x_j\ (x_j+i \theta_2)}=\frac{\theta_1\ (x_j-i \theta_2)}{x_j\ (x_j^2+\theta_2^2)},$$ přičemž měřená veličina pravděpodobně bude souviset s počtem naměřených fotonů, v případě měření kolmé reflektivity polonekonečného vzorku bude model $$m(x_j|{\theta_1, \theta_2})=R(x_i)=\left|\frac{(n_j-1)+i\ k_j}{(n_j+1)+i\ k_j}\right|^2,$$ kdy komplexní index lomu je odmocninou $\varepsilon$, tedy - $$n=[(\varepsilon_r+\sqrt{\varepsilon_r^2+4\varepsilon_i})/2]^{1/2},$$ $$k=\varepsilon_i/n.$$ Dosazení všech vztahů do sebe pro čtenáře necháme jako algebraické cvičení, z uvedeného je ale zjevné, že závislost modelu na hledaných parametrech je hodně netriviální.
Toto ale není úplně konec cesty. Pokud jsou měřené hodnoty normálně rozdělené, vychází logaritmus věrohodosti (až na konstantní posun) jako $$- \sum_j \ln \sigma_j - \sum_j \frac{r_j^2}{2\sigma_j^2}, $$ kde $r_j=y-m(x_j|\theta)$ je takzvané reziduum, rozdíl mezi předpovědí modelu a měřením v daném bodě. Jsou to opět normálně rozdělené veličiny se střední hodnotou $E(r_j)=E(y_j)-m(x_j|\theta)=0$, pokud model není systematicky vychýlený (lidově řečeno "správný"), tedy platí první vztah nahoře. Rozptyl $r_i$ je stejný jako $y_i$ (pokud neuvažujeme nejistoty způsobené vlivem dosazení odhadu parametrů $\hat\theta$ do modelu - situace analogická použití průměru vzorku při výpčtu směrodatné odchylky). Označujeme je $\sigma_i$, potom poměr $r_j/\sigma_j$ má standardní normální rozdělení, $tedy N(0,1)$, pak $E((r_j/\sigma_j)^2)=D(r_j/\sigma_j) =1$, pak suma $$E\left(\sum_j \frac{r_j^2}{2\sigma_j^2}\right)=\frac{n}{2}.$$
Maximalizace věrohodnosti je ekvivalentní minimalizaci této sumy; z toho vyplývá obecně známá metoda nejmenších čtverců. Pokud jsou rozptyly všech měření $y_j$ stejné, minimalizuje se také veličina $MSE=\sum r_j^2 \ /n$, označení je z anglického "Mean Square Error". Očekávaná hodnota takovéto veličiny je $\sigma^2$ (toto může sloužit i k odhadu hodnoty $\sigma^2$, pokud ji neznáme předem - detaily v další lekci).
Derivování podle parametru je (za předpokladu, že $\sigma_j$ na těchto parametrech nezávisí) $$\frac{\partial \ln L({\mathbf y}|{\mathbf \theta})}{\partial \theta_l}=\sum_j \frac{r_j}{\sigma_j^2} \frac{\partial m(x_j|{\mathbf \theta})}{\partial \theta_l}=0$$
Jak jsme ukazovali výše, obecná závislost modelu na parametrech může být velmi komplikovaná. Specifické místo mezi modely tak zaujímá třída lineárních modelů, které závisejí lineárně na každém z parametrů $\theta_l$; uvedené derivace ${\partial m(x_j|{\mathbf \theta})}/{\partial \theta_l}$ jsou pak konstanty (nezávisející na $\theta$) a podmínky (pro $k$ derivací) výše pak soustavu lineárních rovnic, kterou lze řešit standardními algebraickými technikami.
Na okolí extrému $\hat \theta$ (kde jsou první derivace nulové) se pak $\ln L$ pro lineární model (a měření s normálním rozdělením) chová jako kvadratická funkce
$$\ln L({\mathbf y}|t) = \ln L({\mathbf y}|\hat\theta) + \frac{1}{2} \sum_{lm} (t_l-\hat\theta) h_{lm} (t_m-\hat\theta),$$ kde $$h_{lm}=\left.\frac{\partial^2 \ln L({\mathbf y}|t)}{\partial t_l\ \partial t_m}\right|_{t=\hat\theta}$$
Derivováním prvních derivací výše (kde na parametrech již závisí jen $r_j$ lze vyjádřit matici druhých derivací jako $$ \frac{\partial^2 \ln L({\mathbf y}|t)}{\partial t_l\ \partial t_m} = - \sum_j \frac{\partial m(x_j|{\mathbf \theta})}{\partial \theta_l} \frac{1}{\sigma_j^2} \frac{\partial m(x_j|{\mathbf \theta})}{\partial \theta_m} = - A^T\ V^{-1} A,$$
kde matice prvních derivací $$A_{ij}=\frac{\partial m(x_i|{\mathbf \theta})}{\partial \theta_j}$$ zároveň definuje model $m(x_i|\theta)=\sum_j A_{ij}\ \theta_j$. Matice $V$ je pak diagonální $n \times n$ matice rozptylů jednotlivých měřených bodů: $V_{ii}=\sigma_i^2$; v obecnosti to ale může být kompletní kovarianční matice vektoru ${\mathbf y}$ (zatím předpokládáme, že jednotlivé měřené body jsou nezávislé, ale např. u spektrometrie je korelace mezi sousedními body docela běžná, daná rozlišením).
Pro lineární model je uvedený předpis pro $\ln L$ platný pro všechna t (vyšší derivace jsou nulové) - funkce má jen jeden extrém a samotná věrohodnost formálně popisuje vícerozměrné normální rozdělení vektoru náhodných proměnných $\theta$ svázaných kovarianční maticí danou inverzí matice $H= A^T\ V^{-1} A$.
Na malém okolí extrému lze ovšem do druhého řádu podobným způsobem rozvinout libovolný model, chování vektoru $\theta$ se bude až ve větších vzdálenostech od optimálního řešení odchylovat od normálního rozdělení (a objevit se mohou i další lokální extrémy).