"吴恩达《机器学习导论》：局部加权回归详解

课程资源

斯坦福大学公开课：机器学习课程 - 欠拟合与过拟合的概念

学习内容概览

本节课程主要涵盖以下核心概念：

过拟合（Overfitting）：模型复杂度过高导致泛化能力下降
局部加权回归（Locally Weighted Regression）：非参数回归方法
线性回归的理论基础：频率学派视角下的解释
极大似然估计与逻辑回归：从概率角度理解分类问题
梯度上升算法：优化逻辑回归参数的方法

学习心得

吴恩达教授的机器学习课程内容非常丰富，虽然这是2008年的课程，但其理论深度和实践价值至今仍然具有重要意义。通过系统学习这些基础概念，能够为后续的机器学习研究打下坚实基础。

过拟合（Overfitting）

过拟合是机器学习中常见的问题，当模型过于复杂时，虽然能够完美拟合训练数据，但在新数据上的表现会很差。

示例说明： 假设我们有7个数据点，如果使用6个特征（除去截距项），理论上可以完美拟合所有数据点。但这种完美拟合往往意味着模型过于复杂，失去了泛化能力。

局部加权回归（Locally Weighted Regression）

基本概念

局部加权回归是一种非参数回归方法，与传统的参数回归方法形成对比：

参数方法（Parametric）：使用固定的参数集合$\theta$
非参数方法（Non-parametric）：参数依赖于训练数据

<!-- 注：局部加权回归也称为LOESS（Locally Estimated Scatterplot Smoothing） -->

核心思想

非参数方法的特点是不需要预先选择特征，而是根据训练数据动态确定模型参数。局部加权回归的基本思路是：对每个预测点，只使用其邻近的数据点进行线性回归，然后将所有局部回归结果组合起来形成全局的非线性估计。

损失函数与权重定义

局部加权回归的损失函数定义为：

$$\sum_{i}w^{(i)}(y^{(i)}-\theta^{T}x^{(i)})^2$$

其中权重$w^{(i)}$使用高斯核函数定义：

$$w^{(i)} = e^{-\frac{(x^{(i)}-x)^2}{2\tau^2}}$$

权重函数的作用： - 当预测点$x$距离训练点$x^{(i)}$较远时，权重$w^{(i)}$很小，对损失函数贡献小 - 当预测点$x$距离训练点$x^{(i)}$较近时，权重$w^{(i)}$较大，对损失函数贡献大

这种机制类似于支持向量机中的核函数思想，能够实现局部敏感的学习。

带宽参数$\tau$

$\tau$是带宽参数，控制着权重函数的衰减速度。虽然参数选择很重要，但本节主要关注算法原理。

算法特点分析

优势：

能够处理复杂的非线性关系
不需要预先假设函数形式
在回归问题中表现良好

局限性：

大样本情况下计算开销较大
需要存储全部训练数据
预测时需要重新计算权重

扩展阅读： Andrew Moore的KS Tree算法提供了更高效的实现方式。

线性回归的理论基础

频率学派视角

在线性回归中，我们通常假设误差项服从正态分布：

$$\epsilon \sim \mathcal N(0,\sigma)$$

由此推导出条件分布：

$$Y|X;\theta \sim \mathcal N(\theta^{T}X,\sigma)$$

重要说明：

$\theta$是固定参数，不是随机变量
符号$;$表示"以…为参数"（parameter by）
这是频率学派的观点，与贝叶斯学派不同

正态分布假设的合理性

选择正态分布假设主要基于：

中心极限定理：多个独立随机变量的和趋向于正态分布
数学：处理的便利性：正态分布具有良好的数学：性质
实际应用的广泛性：许多自然现象近似服从正态分布

极大似然估计与线性回归

基本思想

极大似然估计的核心思想是：选择能够使观测数据出现概率最大的参数值。在线性回归中，我们希望误差项$\epsilon$尽可能接近0。

假设误差项服从标准正态分布，这意味着我们希望误差项处于概率密度较大的区域（即接近0的区域）。

数学：推导

我们的目标是最大化似然函数：

$$\max P(\epsilon) = P(Y | X;\theta)$$

假设误差项独立同分布（i.i.d.），似然函数可以分解为：

$$P(\epsilon) = \prod P(\epsilon^{(i)})$$

具体推导过程：

$$\begin{alignat}{2} \max P(\epsilon) & = \max P(Y| X;\theta) \ & = \max \prod P(y^{(i)} | X;\theta) \ & = \max \prod \frac{1}{\sqrt{2\pi}\sigma} e^{(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})}\ & \to \max \sum -\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2} \ & \to \min \sum \frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2} \ & \to \min \sum (y^{(i)}-\theta^Tx^{(i)})^2 \ \end{alignat}$$

**结论：**极大似然估计等价于普通最小二乘法（OLS）的目标函数。

极大似然概率定律对逻辑回归的理解、梯度上升

感觉极大似然概率定律就是线性回归、逻辑回归的核心。

假设 $P(Y =1|X;\theta) = \frac{1}{1+e^{-\theta^TX}}$，因为这样，依然可以$\theta^TX \propto P(Y =1|X;\theta)$。所以， $P(Y =0|X;\theta) = 1-P(Y =1|X;\theta)$，所以， $P(y^{(i)} =1|X;\theta) = P(y^{(i)}=1|X;\theta)^{y^{(i)}} \cdot P(y^{(i)}=0|X;\theta)^{1-y^{(i)}}$。

前面知道， $P(Y =1|X;\theta)$是为了$\epsilon$为0，处于大事件概率，因此这又是一个$\max P(Y =1|X;\theta)$的问题了。

但是这里是个梯度上升的问题。

$$\theta_j:=\theta_j+\alpha \nabla_{\theta}\ell(]theta)$$¹

这个之后说。

nabla: [’næblə] n. 劈形算符；微分算符专门用于矩阵求导的符号。主要是我不会读啊。 ↩︎

"吴恩达《机器学习导论》：局部加权回归详解

"吴恩达《机器学习导论》系列导航

课程资源

学习内容概览

学习心得

过拟合（Overfitting）

局部加权回归（Locally Weighted Regression）

基本概念

核心思想

损失函数与权重定义

带宽参数$\tau$

算法特点分析

线性回归的理论基础

频率学派视角

正态分布假设的合理性

极大似然估计与线性回归

基本思想

数学：推导

极大似然概率定律对逻辑回归的理解、梯度上升

"吴恩达《机器学习导论》系列导航

"吴恩达《机器学习导论》：局部加权回归详解

"吴恩达《机器学习导论》 系列导航

课程资源

学习内容概览

学习心得

过拟合（Overfitting）

局部加权回归（Locally Weighted Regression）

基本概念

核心思想

损失函数与权重定义

带宽参数$\tau$

算法特点分析

线性回归的理论基础

频率学派视角

正态分布假设的合理性

极大似然估计与线性回归

基本思想

数学：推导

极大似然概率定律对逻辑回归的理解、梯度上升

"吴恩达《机器学习导论》 系列导航

"吴恩达《机器学习导论》系列导航

"吴恩达《机器学习导论》系列导航