最大似然估计再理解 - Jiaxiang Li's Blog

【干货】从最大似然估计开始，你需要打下的机器学习基石

最大似然估计是一种确定模型参数值的方法。确定参数值的过程，是找到能最大化模型产生真实观察数据可能性的那一组参数。

回想一下高斯分布有两个参数：均值\(\mu\)和标准差\(\sigma\)。这些参数的不同值会对应不同的曲线（就像上面的直线一样）。我们想知道「哪条曲线最可能产生我们观察到的数据点」？（见下图）。用最大似然估计法，我们会找到与数据拟合得最好的\(\mu\)、\(\sigma\)的值。

这段话如何和我的理解相通呢？

比如，我想 \(\min \sigma(\epsilon)\) ，实际上，就是让\(y \sim x\)越准，来\(\min \sigma(\epsilon)\)。

最准的时候是，\(y = x\)，\(P(y|y)=1\)这一定是最大似然估计了。

和吴恩达的视频相互衔接。

这里假设了 \(y = P(x;\mu, \sigma) = P(9,9.5,11;\mu, \sigma)\)，要取用最大值。

对于最小二乘参数估计，我们想要找到最小化数据点和回归线之间距离平方之和的直线（见下图）。在最大似然估计中，我们想要最大化数据同时出现的总概率。当待求分布被假设为高斯分布时，最大概率会在数据点接近平均值时找到。由于高斯分布是对称的，这等价于最小化数据点与平均值之间的距离。

逻辑是一致的，用\(x\)去描述\(y\)，在\(y = \beta_0 + \beta_1 x + \epsilon\)中，要最大化\(9,9.5,11\)同时出现的概率\(\to\) 那么就是要最大化\(\epsilon_1, \epsilon_2, \epsilon_3\)同时出现的概率，那么就是一起同时出现在\(0\)附近。

为什么叫「最大似然（最大可能性）」，而不是「最大概率」呢？

\[L(\mu,\sigma;data) = P(data;\mu,\sigma)\]

我们先来定义\(P(data;\mu,\sigma)\)它的意思是「在模型参数\(\mu,\sigma\)条件下，观察到数据\(data\) 的概率」。值得注意的是，我们可以将其推广到任意数量的参数和任何分布。

另一方面， \(L(\mu,\sigma;data\)的意思是「我们在观察到一组数据 \(data\) 之后，参数\(\mu,\sigma\)取特定的值的似然度。」

上面的公式表示，给定参数后数据的概率等于给定数据后参数的似然度。但是，尽管这两个值是相等的，但是似然度和概率从根本上是提出了两个不同的问题——一个是关于数据的，另一个是关于参数值的。这就是为什么这种方法被称为最大似然法（极大可能性），而不是最大概率。

我们是用数据去最大化\(\mu,\sigma\)的可能性，而不是用\(\mu,\sigma\)去最大化\(data\)的概率。

贝叶斯定理

贝叶斯定理的意义在于使我们能利用已有的知识或信念（通常称为先验的）帮助计算相关事件的概率。例如，如果想知道在炎热和晴朗的天气中卖出冰淇淋的概率，贝叶斯定理可以使用「在其它类型天气中可能卖出冰淇淋数量」的先验知识。

\[P(A=icecream \space sale | B=type \space of \space weather)\]

先验，利用已有的知识或信念，\(P(A)\)，可主观和客观。

贝叶斯简化，

\[P(\Theta|data) \propto P(data||Theta) \times P(\Theta)\]

蓝色表征先验分布，黄色表征似然分布，粉红表征后验分布。

我们在上述氢键长度实例中产生的数据表明，2.8Å是最佳估计(\(P(data|\Theta)\))。但是，如果我们的估计只依据数据，则存在过拟合的风险。如果数据收集过程出现差错，这将是一个严重的问题。我们可以在贝叶斯框架中使用先验解决这一问题。在我们的实例中，使用一个以3.6Å(\(P(\Theta)\))为中心的高斯先验得到了一个后验分布，给出的氢键长度的 MAP 估计为 3.2Å(\(P(\Theta|data)\))。这表明我们的先验在估计参数值时可以作为 regulariser。

正则化就是对模型过拟合而处理。

我们可以看到均匀分布给 \(X\) 轴（水平线）上的每个值分布相同的权重。直观讲，它表征了最有可能值的任何先验知识的匮乏。在这一情况中，所有权重分配到似然函数，因此当我们把先验与似然相乘，由此得到的后验极其类似于似然。因此，最大似然方法可被看作一种特殊的 MAP。

\[P(\Theta|data) \propto P(data|\Theta)P(\Theta) \to P(\Theta|data) \propto P(\Theta)\]