学习内容概览
本节课程主要涵盖以下核心概念:
- 过拟合(Overfitting):模型复杂度过高导致泛化能力下降
- 局部加权回归(Locally Weighted Regression):非参数回归方法
- 线性回归的理论基础:频率学派视角下的解释
- 极大似然估计与逻辑回归:从概率角度理解分类问题
- 梯度上升算法:优化逻辑回归参数的方法
学习心得
吴恩达教授的机器学习课程内容非常丰富,虽然这是2008年的课程,但其理论深度和实践价值至今仍然具有重要意义。通过系统学习这些基础概念,能够为后续的机器学习研究打下坚实基础。
过拟合(Overfitting)
过拟合是机器学习中常见的问题,当模型过于复杂时,虽然能够完美拟合训练数据,但在新数据上的表现会很差。
示例说明: 假设我们有7个数据点,如果使用6个特征(除去截距项),理论上可以完美拟合所有数据点。但这种完美拟合往往意味着模型过于复杂,失去了泛化能力。

局部加权回归(Locally Weighted Regression)
基本概念
局部加权回归是一种非参数回归方法,与传统的参数回归方法形成对比:
- 参数方法(Parametric):使用固定的参数集合\(\theta\)
- 非参数方法(Non-parametric):参数依赖于训练数据
核心思想
非参数方法的特点是不需要预先选择特征,而是根据训练数据动态确定模型参数。局部加权回归的基本思路是:对每个预测点,只使用其邻近的数据点进行线性回归,然后将所有局部回归结果组合起来形成全局的非线性估计。

损失函数与权重定义
局部加权回归的损失函数定义为:
\[\sum_{i}w^{(i)}(y^{(i)}-\theta^{T}x^{(i)})^2\]
其中权重\(w^{(i)}\)使用高斯核函数定义:
\[w^{(i)} = e^{-\frac{(x^{(i)}-x)^2}{2\tau^2}}\]
权重函数的作用: - 当预测点\(x\)距离训练点\(x^{(i)}\)较远时,权重\(w^{(i)}\)很小,对损失函数贡献小 - 当预测点\(x\)距离训练点\(x^{(i)}\)较近时,权重\(w^{(i)}\)较大,对损失函数贡献大
这种机制类似于支持向量机中的核函数思想,能够实现局部敏感的学习。
带宽参数\(\tau\)
\(\tau\)是带宽参数,控制着权重函数的衰减速度。虽然参数选择很重要,但本节主要关注算法原理。
算法特点分析
优势:
- 能够处理复杂的非线性关系
- 不需要预先假设函数形式
- 在回归问题中表现良好
局限性:
- 大样本情况下计算开销较大
- 需要存储全部训练数据
- 预测时需要重新计算权重
扩展阅读: Andrew Moore的KS Tree算法提供了更高效的实现方式。
线性回归的理论基础
频率学派视角
在线性回归中,我们通常假设误差项服从正态分布:
\[\epsilon \sim \mathcal N(0,\sigma)\]
由此推导出条件分布:
\[Y|X;\theta \sim \mathcal N(\theta^{T}X,\sigma)\]
重要说明:
- \(\theta\)是固定参数,不是随机变量
- 符号\(;\)表示”以…为参数”(parameter by)
- 这是频率学派的观点,与贝叶斯学派不同
正态分布假设的合理性
选择正态分布假设主要基于:
- 中心极限定理:多个独立随机变量的和趋向于正态分布
- 数学处理的便利性:正态分布具有良好的数学性质
- 实际应用的广泛性:许多自然现象近似服从正态分布
极大似然估计与线性回归
基本思想
极大似然估计的核心思想是:选择能够使观测数据出现概率最大的参数值。在线性回归中,我们希望误差项\(\epsilon\)尽可能接近0。
假设误差项服从标准正态分布,这意味着我们希望误差项处于概率密度较大的区域(即接近0的区域)。
数学推导
我们的目标是最大化似然函数:
\[\max P(\epsilon) = P(Y | X;\theta)\]
假设误差项独立同分布(i.i.d.),似然函数可以分解为:
\[P(\epsilon) = \prod P(\epsilon^{(i)})\]
具体推导过程:
\[\begin{alignat}{2} \max P(\epsilon) & = \max P(Y| X;\theta) \\ & = \max \prod P(y^{(i)} | X;\theta) \\ & = \max \prod \frac{1}{\sqrt{2\pi}\sigma} e^{(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})}\\ & \to \max \sum -\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2} \\ & \to \min \sum \frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2} \\ & \to \min \sum (y^{(i)}-\theta^Tx^{(i)})^2 \\ \end{alignat}\]
结论:极大似然估计等价于普通最小二乘法(OLS)的目标函数。
极大似然概率定律对逻辑回归的理解、梯度上升
感觉极大似然概率定律就是线性回归、逻辑回归的核心。
假设 \(P(Y =1|X;\theta) = \frac{1}{1+e^{-\theta^TX}}\), 因为这样,依然可以\(\theta^TX \propto P(Y =1|X;\theta)\)。 所以, \(P(Y =0|X;\theta) = 1-P(Y =1|X;\theta)\), 所以, \(P(y^{(i)} =1|X;\theta) = P(y^{(i)}=1|X;\theta)^{y^{(i)}} \cdot P(y^{(i)}=0|X;\theta)^{1-y^{(i)}}\)。
前面知道, \(P(Y =1|X;\theta)\)是为了\(\epsilon\)为0,处于大事件概率, 因此这又是一个\(\max P(Y =1|X;\theta)\)的问题了。
但是这里是个梯度上升的问题。
\[\theta_j:=\theta_j+\alpha \nabla_{\theta}\ell(]theta)\]1
这个之后说。
nabla: [’næblə] n. 劈形算符;微分算符 专门用于矩阵求导的符号。 主要是我不会读啊。↩︎