【概率论知识梳理】--贝叶斯估计

本章复习梳理了机器学习中常用的概率论知识——最大后验估计、贝叶斯估计

贝叶斯公式:$P(x|\theta ) = \frac{P(\theta|x)P(x)}{P(\theta )}$
估计分频率派和贝叶斯派,频率派一般直接用极大似然估计、贝叶斯派还会考虑先验知识

最大后验估计(maximum a posteriori estimation)

极大似然估计(MLE)是求一组能够使似然函数最大的参数,即$argmax_{\theta} p(x|\theta )$
如果我们对$\theta$有一些先验知识,可以把先验知识也考虑进来,例如抛硬币问题我们的先验知识知道正面向上的概率是0.5,这时候我们就用到了最大后验概率(MAP):$argmax_{\theta } p(\theta|x)$
利用贝叶斯公式,上式=$argmax_{\theta } \frac{p(x|\theta)\ast p(\theta)}{p(x)}$(式1)
因为$p(x)$是不变的,因此上式=$argmax_{\theta } p(x|\theta)\ast p(\theta)$

贝叶斯估计

贝叶斯估计是在MAP上做进一步的拓展,这时候我们不直接估计参数的值,而是允许参数服从一定的概率分布,我们估计参数的分布,因为我们不是求后验概率最大,因此需要求(式1)的$p(x)$,利用全概率公式:$p(x) = \int p(x|\theta )p(\theta )d\theta $
当我们要求一个值$\hat x$的概率,可以用:$ p(\hat x |x) = \int p(\hat x | \theta)p(\theta | x) d\theta = \int p(\hat x | \theta)\frac{p(x|\theta )p(\theta)}{p(x)} d\theta $