最大似然估计是一种确定模型参数值的方法。确定参数值的过程,是找到能最大化模型产生真实观察数据可能性的那一组参数。
回想一下高斯分布有两个参数: 均值\(\mu\)和标准差\(\sigma\)。 这些参数的不同值会对应不同的曲线(就像上面的直线一样)。我们想知道「哪条曲线最可能产生我们观察到的数据点」?(见下图)。用最大似然估计法,我们会找到与数据拟合得最好的\(\mu\)、\(\sigma\)的值。
这段话如何和我的理解相通呢?
比如,我想 \(\min \sigma(\epsilon)\) , 实际上,就是让\(y \sim x\)越准,来\(\min \sigma(\epsilon)\)。
最准的时候是,\(y = x\),\(P(y|y)=1\)这一定是最大似然估计了。
和吴恩达的视频相互衔接。
这里假设了 \(y = P(x;\mu, \sigma) = P(9,9.5,11;\mu, \sigma)\), 要取用最大值。
对于最小二乘参数估计,我们想要找到最小化数据点和回归线之间距离平方之和的直线(见下图)。 在最大似然估计中,我们想要最大化数据同时出现的总概率。 当待求分布被假设为高斯分布时,最大概率会在数据点接近平均值时找到。 由于高斯分布是对称的,这等价于最小化数据点与平均值之间的距离。
逻辑是一致的, 用\(x\)去描述\(y\),在\(y = \beta_0 + \beta_1 x + \epsilon\)中, 要最大化\(9,9.5,11\)同时出现的概率\(\to\) 那么就是要最大化\(\epsilon_1, \epsilon_2, \epsilon_3\)同时出现的概率,那么就是一起同时出现在\(0\)附近。
为什么叫「最大似然(最大可能性)」,而不是「最大概率」呢?
\[L(\mu,\sigma;data) = P(data;\mu,\sigma)\]
我们先来定义\(P(data;\mu,\sigma)\)它的意思是「在模型参数\(\mu,\sigma\)条件下,观察到数据\(data\) 的概率」。 值得注意的是,我们可以将其推广到任意数量的参数和任何分布。
另一方面, \(L(\mu,\sigma;data\)的意思是「我们在观察到一组数据 \(data\) 之后,参数\(\mu,\sigma\)取特定的值的似然度。」
上面的公式表示,给定参数后数据的概率等于给定数据后参数的似然度。但是,尽管这两个值是相等的,但是似然度和概率从根本上是提出了两个不同的问题——一个是关于数据的,另一个是关于参数值的。这就是为什么这种方法被称为最大似然法(极大可能性),而不是最大概率。
我们是用数据去最大化\(\mu,\sigma\)的可能性,而不是 用\(\mu,\sigma\)去最大化\(data\)的概率。
贝叶斯定理
贝叶斯定理的意义在于使我们能利用已有的知识或信念(通常称为先验的)帮助计算相关事件的概率。例如,如果想知道在炎热和晴朗的天气中卖出冰淇淋的概率,贝叶斯定理可以使用「在其它类型天气中可能卖出冰淇淋数量」的先验知识。
\[P(A=icecream \space sale | B=type \space of \space weather)\]
- 先验,利用已有的知识或信念,\(P(A)\),可主观和客观。
贝叶斯简化,
\[P(\Theta|data) \propto P(data||Theta) \times P(\Theta)\]
蓝色表征先验分布,黄色表征似然分布,粉红表征后验分布。
我们在上述氢键长度实例中产生的数据表明,2.8Å是最佳估计(\(P(data|\Theta)\))。但是,如果我们的估计只依据数据,则存在过拟合的风险。 如果数据收集过程出现差错,这将是一个严重的问题。我们可以在贝叶斯框架中使用先验解决这一问题。在我们的实例中,使用一个以3.6Å(\(P(\Theta)\))为中心的高斯先验得到了一个后验分布,给出的氢键长度的 MAP 估计为 3.2Å(\(P(\Theta|data)\))。这表明我们的先验在估计参数值时可以作为 regulariser。
正则化就是对模型过拟合而处理。
我们可以看到均匀分布给 \(X\) 轴(水平线)上的每个值分布相同的权重。 直观讲,它表征了最有可能值的任何先验知识的匮乏。在这一情况中,所有权重分配到似然函数,因此当我们把先验与似然相乘,由此得到的后验极其类似于似然。因此,最大似然方法可被看作一种特殊的 MAP。
\[P(\Theta|data) \propto P(data|\Theta)P(\Theta) \to P(\Theta|data) \propto P(\Theta)\]