详解最大似然估计、最大后验概率估计，以及贝叶斯公式的理解

[TOC]

我们先从概率和统计的区别讲起。

概率和统计的区别

概率（probability）和统计（statistic）看上去是两个相近的概念，其实研究的问题刚刚好相反。

概率研究的问题是，已知数据的模型和参数，怎么预测这个模型产生的结果，包括研究这些结果的特性(均值，方差，协方差等等)。

统计研究的问题则相反。在实际中我们观察或者测试得到一组数据，要利用这组数据去预测模型和参数。找到最好最适合这些数据的模型（高斯分布，泊松分布，指数分布，拉普拉斯分布等等）

一句话总结：概率是已知模型和参数，推数据；统计是已知数据，推模型和参数。

本文中的最大似然估计（MLE）和最大后验估计（MAP）都是统计领域的问题。都是用来推测参数的方法，为什么会有两种不同的方法，我们先来看贝叶斯公式。

贝叶斯公式

贝叶斯定理（英语：Bayes’ theorem）是概率论中的一个定理，描述在已知一些条件下，某事件的发生概率。比如，如果已知某人妈妈得癌症与寿命有关，使用贝叶斯定理则可以通过得知某人年龄，来更加准确地计算出他妈妈罹患癌症的概率。
通常，事件A在事件B已发生的条件下发生的概率，与事件B在事件A已发生的条件下发生的概率是不一样的。然而，这两者是有确定的关系的，贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途，即透过已知的三个概率而推出第四个概率。贝叶斯定理跟随机变量的条件概率以及边际概率分布有关。
作为一个普遍的原理，贝叶斯定理对于所有概率的解释是有效的。这一定理的主要应用为贝叶斯推断，是推论统计学中的一种推断法。这一定理名称来自于托马斯·贝叶斯。

贝叶斯公式的定义

贝叶斯定理是关于随机事件A和B的条件概率的一则定理。

$P(A\mid B)={\frac {P(A)P(B\mid A)}{P(B)}}$

其中A以及B为随机事件，且P(B)不为零。 $P(A\mid B)$ 是指在事件 $B$ 发生的情况下事件 $A$ 发生的概率。前提是两个事件发生的概率有联系。

在贝叶斯定理中，每个名词都有约定俗成的名称：

$P(A\mid B)$ 是已知 $B$ 发生后， $A$ 的条件概率]。也称作 $A$ 的后验概率。
$P(A)$ 是 $A$ 的先验概率（或边缘概率）。其不考虑任何 $B$ 方面的因素。
$P(B\mid A)$ 是已知 $A$ 发生后， $B$ 的条件概率。也可称为 $B$ 的后验概率。某些文献又称其为在特定 $B$ 时， $A$ 的似然性，因为 $P(B\mid A)=L(A\mid B)$ 。
$P(B)$ 是 $B$ 的先验概率。

按这些术语，贝叶斯定理可表述为：

后验概率 = (似然性*先验概率)/标准化常量

也就是说，后验概率与先验概率和相似度的乘积成正比。

另外，比例![{\displaystyle P(B

A)/P(B)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/ac57e2dbf1c0bc467a4c8d80da217924d22bff66)也有时被称作标准似然度（standardised likelihood)，贝叶斯定理可表述为：

后验概率 = 标准似然度*先验概率

二选一的形式

贝叶斯理论通常可以再写成下面的形式：

![P(B)=P(A,B)+P(A^{C},B)=P(B

A)P(A)+P(B

A^{C})P(A^{C})](https://wikimedia.org/api/rest_v1/media/math/render/svg/4da5a989fc6ee3c6ece9478f476af4a1e98db269)

其中$A^C$是A的补集（即非A）。故上式亦可写成：

![{\displaystyle P(A

B)={\frac {P(B

A)\,P(A)}{P(B

A)P(A)+P(B

A^{C})P(A^{C})}}!}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f52d6b5876b084d1bc6f467f56995c00a45946b5)

在更一般化的情况，假设${A_i}$是事件集合里的部分集合，对于任意的${A_i}$ ，贝叶斯理论可用下式表示：

![{\displaystyle P(A_{i}

B)={\frac {P(B

A_{i})\,P(A_{i})}{\sum _{j}P(B

A_{j})\,P(A_{j})}}!}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4b66ebf00ba50f5f3a16b61f83fd2304022119d6)

贝叶斯公式就是在描述，你有多大把握能相信一件证据？（how much you can trust the evidence） $P(B|A^{C})P(A^{C})=0$

似然函数

似然（likelihood）这个词其实和概率（probability）是差不多的意思，Colins字典这么解释：The likelihood of something happening is how likely it is to happen. 你把likelihood换成probability，这解释也读得通。但是在统计里面，似然函数和概率函数却是两个不同的概念（其实也很相近就是了）。

对于这个函数： $P(x|\theta)$ 输入有两个：x表示某一个具体的数据；θ表示模型的参数。

如果θ是已知确定的，x是变量，这个函数叫做概率函数(probability function)，它描述对于不同的样本点x，其出现概率是多少。
如果x是已知确定的，θ是变量，这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数，出现x这个样本点的概率是多少。

比如， $f(x,y)=x^y$ , 即x的y次方。如果x是已知确定的(例如x=2)，这就是 $f(y)=2^y$ , 这是指数函数。如果y是已知确定的(例如y=2)，这就是 $f(x)=x^2$ ，这是二次函数。同一个数学形式，从不同的变量角度观察，可以有不同的名字。

接下来我们来看看MLE和MAP是什么：

最大似然估计（MLE）

假设有一个造币厂生产某种硬币，现在我们拿到了一枚这种硬币，想试试这硬币是不是均匀的。即想知道抛这枚硬币，正反面出现的概率（记为θ）各是多少？

这是一个统计问题，回想一下，解决统计问题需要什么？数据！

于是我们拿这枚硬币抛了10次，得到的数据（x0 ）是：反正正正正反正正正反。我们想求的正面概率θ是模型参数，而抛硬币模型我们可以假设是二项分布。

那么，出现实验结果x_0（即反正正正正反正正正反）的似然函数是多少呢？

$f(x_0 ,\theta) = (1-\theta)\times\theta\times\theta\times\theta\times\theta\times(1-\theta)\times\theta\times\theta\times\theta\times(1-\theta) = \theta ^ 7(1 -\theta)^3$ 注意，这是个只关于θ的函数。而最大似然估计，顾名思义，就是要最大化这个函数。我们可以画出f(θ)的图像：

likeli

可以看出，在θ=0.7时，似然函数取得最大值。

这样，我们已经完成了对θ的最大似然估计。即，抛10次硬币，发现7次硬币正面向上，最大似然估计认为正面向上的概率是0.7。（ummm…这非常直观合理，对吧？）

且慢，一些人可能会说，硬币一般都是均匀的啊！就算你做实验发现结果是“反正正正正反正正正反”，我也不信θ=0.7。

这里就包含了贝叶斯学派的思想了——要考虑先验概率。为此，引入了最大后验概率估计。

为什么在一般定义中会取对数？

如下图所示，一般定义中，极大似然估计我们会对似然函数取对数。

最大后验概率估计

最大后验概率估计最大似然估计是求参数θ, 使似然函数$ P(x_0|\theta) $最大。求得的$\theta$不单单让似然函数大，$\theta$自己出现的先验概率也得大。（这有点像正则化里加惩罚项的思想，不过正则化里是利用加法，而MAP里是利用乘法）

MAP其实是在最大化 $P(\theta|x_0) = \frac{P(x_0|\theta)P(\theta)}{P(x_0)}$ ，不过因为$x_0$ 是确定的（即投出的“反正正正正反正正正反”），$P ( x_0 )$是一个已知值，所以去掉了分母。（假设“投10次硬币”是一次实验，实验做了1000次，“反正正正正反正正正反”出现了n次，则$P(x_0)=n/1000$。总之，这是一个可以由数据集得到的值）。最大化$P(\theta | x_0)$的意义也很明确，$x_0$已经出现了，要求$ \theta$取什么值使$ P(\theta | x_0)$最大。顺带一提，$ P(\theta | x_0)$即后验概率，这就是“最大后验概率估计”名字的由来。

对于投硬币的例子来看，我们认为（”先验地知道“）

$\theta$取0.5的概率很大，取其他值的概率小一些。我们用一个高斯分布来具体描述我们掌握的这个先验知识，例如假设$P(\theta)$为均值0.5，方差0.1的高斯函数，如下图：

ptheta