课程资源
学习内容概览
本节课程主要涵盖以下核心概念:
- 过拟合(Overfitting):模型复杂度过高导致泛化能力下降
- 局部加权回归(Locally Weighted Regression):非参数回归方法
- 线性回归的理论基础:频率学派视角下的解释
- 极大似然估计与逻辑回归:从概率角度理解分类问题
- 梯度上升算法:优化逻辑回归参数的方法
学习心得
吴恩达教授的机器学习课程内容非常丰富,虽然这是2008年的课程,但其理论深度和实践价值至今仍然具有重要意义。通过系统学习这些基础概念,能够为后续的机器学习研究打下坚实基础。
过拟合(Overfitting)
过拟合是机器学习中常见的问题,当模型过于复杂时,虽然能够完美拟合训练数据,但在新数据上的表现会很差。
示例说明: 假设我们有7个数据点,如果使用6个特征(除去截距项),理论上可以完美拟合所有数据点。但这种完美拟合往往意味着模型过于复杂,失去了泛化能力。

局部加权回归(Locally Weighted Regression)
基本概念
局部加权回归是一种非参数回归方法,与传统的参数回归方法形成对比:
- 参数方法(Parametric):使用固定的参数集合$\theta$
- 非参数方法(Non-parametric):参数依赖于训练数据
<!-- 注:局部加权回归也称为LOESS(Locally Estimated Scatterplot Smoothing) -->
核心思想
非参数方法的特点是不需要预先选择特征,而是根据训练数据动态确定模型参数。局部加权回归的基本思路是:对每个预测点,只使用其邻近的数据点进行线性回归,然后将所有局部回归结果组合起来形成全局的非线性估计。

损失函数与权重定义
局部加权回归的损失函数定义为:
$$\sum_{i}w^{(i)}(y^{(i)}-\theta^{T}x^{(i)})^2$$
其中权重$w^{(i)}$使用高斯核函数定义:
$$w^{(i)} = e^{-\frac{(x^{(i)}-x)^2}{2\tau^2}}$$
权重函数的作用: - 当预测点$x$距离训练点$x^{(i)}$较远时,权重$w^{(i)}$很小,对损失函数贡献小 - 当预测点$x$距离训练点$x^{(i)}$较近时,权重$w^{(i)}$较大,对损失函数贡献大
这种机制类似于支持向量机中的核函数思想,能够实现局部敏感的学习。
带宽参数$\tau$
$\tau$是带宽参数,控制着权重函数的衰减速度。虽然参数选择很重要,但本节主要关注算法原理。
算法特点分析
优势:
- 能够处理复杂的非线性关系
- 不需要预先假设函数形式
- 在回归问题中表现良好
局限性:
- 大样本情况下计算开销较大
- 需要存储全部训练数据
- 预测时需要重新计算权重
扩展阅读: Andrew Moore的KS Tree算法提供了更高效的实现方式。
线性回归的理论基础
频率学派视角
在线性回归中,我们通常假设误差项服从正态分布:
$$\epsilon \sim \mathcal N(0,\sigma)$$
由此推导出条件分布:
$$Y|X;\theta \sim \mathcal N(\theta^{T}X,\sigma)$$
重要说明:
- $\theta$是固定参数,不是随机变量
- 符号$;$表示"以…为参数"(parameter by)
- 这是频率学派的观点,与贝叶斯学派不同
正态分布假设的合理性
选择正态分布假设主要基于:
- 中心极限定理:多个独立随机变量的和趋向于正态分布
- 数学:处理的便利性:正态分布具有良好的数学:性质
- 实际应用的广泛性:许多自然现象近似服从正态分布
极大似然估计与线性回归
基本思想
极大似然估计的核心思想是:选择能够使观测数据出现概率最大的参数值。在线性回归中,我们希望误差项$\epsilon$尽可能接近0。
假设误差项服从标准正态分布,这意味着我们希望误差项处于概率密度较大的区域(即接近0的区域)。
数学:推导
我们的目标是最大化似然函数:
$$\max P(\epsilon) = P(Y | X;\theta)$$
假设误差项独立同分布(i.i.d.),似然函数可以分解为:
$$P(\epsilon) = \prod P(\epsilon^{(i)})$$
具体推导过程:
$$\begin{alignat}{2} \max P(\epsilon) & = \max P(Y| X;\theta) \ & = \max \prod P(y^{(i)} | X;\theta) \ & = \max \prod \frac{1}{\sqrt{2\pi}\sigma} e^{(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})}\ & \to \max \sum -\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2} \ & \to \min \sum \frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2} \ & \to \min \sum (y^{(i)}-\theta^Tx^{(i)})^2 \ \end{alignat}$$
**结论:**极大似然估计等价于普通最小二乘法(OLS)的目标函数。
极大似然概率定律对逻辑回归的理解、梯度上升
感觉极大似然概率定律就是线性回归、逻辑回归的核心。
假设 $P(Y =1|X;\theta) = \frac{1}{1+e^{-\theta^TX}}$, 因为这样,依然可以$\theta^TX \propto P(Y =1|X;\theta)$。 所以, $P(Y =0|X;\theta) = 1-P(Y =1|X;\theta)$, 所以, $P(y^{(i)} =1|X;\theta) = P(y^{(i)}=1|X;\theta)^{y^{(i)}} \cdot P(y^{(i)}=0|X;\theta)^{1-y^{(i)}}$。
前面知道, $P(Y =1|X;\theta)$是为了$\epsilon$为0,处于大事件概率, 因此这又是一个$\max P(Y =1|X;\theta)$的问题了。
但是这里是个梯度上升的问题。
$$\theta_j:=\theta_j+\alpha \nabla_{\theta}\ell(]theta)$$1
这个之后说。
-
nabla: [’næblə] n. 劈形算符;微分算符 专门用于矩阵求导的符号。 主要是我不会读啊。 ↩︎