本章复习梳理了机器学习中常用的概率论知识——极大似然估计(MLE)
极大似然估计(MLE)
假设随机变量服从某项分布 $X ~ P(x;\theta)$
我们想通过已有的N个样本,求这个分布是什么,那么定义式子:
$\widetilde{L} = P(x_1;\theta)P(x_2;\theta)…P(x_N;\theta)$
那么求一个概率分布$P$,使得$\widetilde{L}$最大,这个概率分布$P$就可以近似认为是这N个样本的真实分布
式子$\widetilde{L}$称为似然函数,求这个近似的概率分布称为极大似然估计
因为$\widetilde{L}$式子是乘积的形式,不利于计算,转换为就$\widetilde{L}$对数的最大值,乘积转换为加和的形式,可以简化后续的计算,称作对数似然函数。
例如,已知P(x)是服从高斯分布,$P(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-u)^2}{2\sigma^{2}}}$
已知样本:$x_1,x_2…x_N$
对数似然函数:$L = ln[\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_1-u)^2}{2\sigma^{2}}}\ast…\ast\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_N-u)^2}{2\sigma^{2}}}]$
$ L = -Nln\sqrt{2\pi} - Nln\sigma -[\frac{(x_1-u)^2}{2\sigma^2}+…+\frac{(x_N-u)^2}{2\sigma^2}]$
求$argmax_{u,\sigma}L$
分别对$u和\sigma$求导得:
$\frac{\mathrm{d}L}{\mathrm{d}u} = 2(x_1-u)+2(x_2-u)+…+2(x_N-u)=0$
$\frac{\mathrm{d}L}{\mathrm{d}\sigma} = -\frac{N}{\sigma}+\frac{\sum_{i}(x_i-u)^2}{\sigma^3}=0$
因此$u=\frac{x_1+x_2+…+x_N}{N}$,$\sigma^2 = \frac{\sum_{i}(x_i-u)^2}{N}$
正好符合平均值和方差的公式
利用极大似然估计 ,可以证明误差的高斯分布于最小二乘的等价性:
过程1、假设误差$e_i = y_i - w^Tx_i$服从标准高斯分布,利用极大似然估计
可推导出$w = \lbrack \sum_{i}^{}(x_i{x_i}^{T})\rbrack^{-1} \sum_{i}^{}x_iy_i$
等价于前面利用最小二乘得到的:$w = (x^Tx)^{(-1)}x^Ty$
有偏估计和无偏估计
上述篇幅描述高斯分布的极大似然估计,得到$u=\frac{x_1+x_2+…+x_N}{N}$,$\sigma^2 = \frac{\sum_{i}(x_i-u)^2}{N}$
这两个估计值前一个是无偏估计,后一个是有偏估计
证明估计是否有偏大致步骤:
$bias(\hat{u}_m) = E(\hat{u}_m)-u = \frac{1}{m} E(\sum_{i=1}^{m} x_i)-u = \frac{1}{m} \sum_{i=1}^{m} E( x_i)-u = \frac{1}{m} \sum_{i=1}^{m}(u - u) = 0$
因此均值$u$是无偏估计,但是可以证明$\sigma^2 = \frac{\sum_{i}(x_i-u)^2}{N} $ 是有偏的,$\sigma^2 = \frac{\sum_{i}(x_i-u)^2}{N-1} $ 才是无偏的