1 min read

吴恩达《机器学习导论》:局部加权回归详解

学习内容概览

本节课程主要涵盖以下核心概念:

  • 过拟合(Overfitting):模型复杂度过高导致泛化能力下降
  • 局部加权回归(Locally Weighted Regression):非参数回归方法
  • 线性回归的理论基础:频率学派视角下的解释
  • 极大似然估计与逻辑回归:从概率角度理解分类问题
  • 梯度上升算法:优化逻辑回归参数的方法

学习心得

吴恩达教授的机器学习课程内容非常丰富,虽然这是2008年的课程,但其理论深度和实践价值至今仍然具有重要意义。通过系统学习这些基础概念,能够为后续的机器学习研究打下坚实基础。

过拟合(Overfitting)

过拟合是机器学习中常见的问题,当模型过于复杂时,虽然能够完美拟合训练数据,但在新数据上的表现会很差。

示例说明: 假设我们有7个数据点,如果使用6个特征(除去截距项),理论上可以完美拟合所有数据点。但这种完美拟合往往意味着模型过于复杂,失去了泛化能力。

局部加权回归(Locally Weighted Regression)

基本概念

局部加权回归是一种非参数回归方法,与传统的参数回归方法形成对比:

  • 参数方法(Parametric):使用固定的参数集合\(\theta\)
  • 非参数方法(Non-parametric):参数依赖于训练数据

核心思想

非参数方法的特点是不需要预先选择特征,而是根据训练数据动态确定模型参数。局部加权回归的基本思路是:对每个预测点,只使用其邻近的数据点进行线性回归,然后将所有局部回归结果组合起来形成全局的非线性估计。

损失函数与权重定义

局部加权回归的损失函数定义为:

\[\sum_{i}w^{(i)}(y^{(i)}-\theta^{T}x^{(i)})^2\]

其中权重\(w^{(i)}\)使用高斯核函数定义:

\[w^{(i)} = e^{-\frac{(x^{(i)}-x)^2}{2\tau^2}}\]

权重函数的作用: - 当预测点\(x\)距离训练点\(x^{(i)}\)较远时,权重\(w^{(i)}\)很小,对损失函数贡献小 - 当预测点\(x\)距离训练点\(x^{(i)}\)较近时,权重\(w^{(i)}\)较大,对损失函数贡献大

这种机制类似于支持向量机中的核函数思想,能够实现局部敏感的学习。

带宽参数\(\tau\)

\(\tau\)是带宽参数,控制着权重函数的衰减速度。虽然参数选择很重要,但本节主要关注算法原理。

算法特点分析

优势:

  • 能够处理复杂的非线性关系
  • 不需要预先假设函数形式
  • 在回归问题中表现良好

局限性:

  • 大样本情况下计算开销较大
  • 需要存储全部训练数据
  • 预测时需要重新计算权重

扩展阅读: Andrew Moore的KS Tree算法提供了更高效的实现方式。

线性回归的理论基础

频率学派视角

在线性回归中,我们通常假设误差项服从正态分布:

\[\epsilon \sim \mathcal N(0,\sigma)\]

由此推导出条件分布:

\[Y|X;\theta \sim \mathcal N(\theta^{T}X,\sigma)\]

重要说明:

  • \(\theta\)是固定参数,不是随机变量
  • 符号\(;\)表示”以…为参数”(parameter by)
  • 这是频率学派的观点,与贝叶斯学派不同

正态分布假设的合理性

选择正态分布假设主要基于:

  1. 中心极限定理:多个独立随机变量的和趋向于正态分布
  2. 数学处理的便利性:正态分布具有良好的数学性质
  3. 实际应用的广泛性:许多自然现象近似服从正态分布

极大似然估计与线性回归

基本思想

极大似然估计的核心思想是:选择能够使观测数据出现概率最大的参数值。在线性回归中,我们希望误差项\(\epsilon\)尽可能接近0。

假设误差项服从标准正态分布,这意味着我们希望误差项处于概率密度较大的区域(即接近0的区域)。

数学推导

我们的目标是最大化似然函数:

\[\max P(\epsilon) = P(Y | X;\theta)\]

假设误差项独立同分布(i.i.d.),似然函数可以分解为:

\[P(\epsilon) = \prod P(\epsilon^{(i)})\]

具体推导过程:

\[\begin{alignat}{2} \max P(\epsilon) & = \max P(Y| X;\theta) \\ & = \max \prod P(y^{(i)} | X;\theta) \\ & = \max \prod \frac{1}{\sqrt{2\pi}\sigma} e^{(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})}\\ & \to \max \sum -\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2} \\ & \to \min \sum \frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2} \\ & \to \min \sum (y^{(i)}-\theta^Tx^{(i)})^2 \\ \end{alignat}\]

结论:极大似然估计等价于普通最小二乘法(OLS)的目标函数。

极大似然概率定律对逻辑回归的理解、梯度上升

感觉极大似然概率定律就是线性回归、逻辑回归的核心。

假设 \(P(Y =1|X;\theta) = \frac{1}{1+e^{-\theta^TX}}\), 因为这样,依然可以\(\theta^TX \propto P(Y =1|X;\theta)\)。 所以, \(P(Y =0|X;\theta) = 1-P(Y =1|X;\theta)\), 所以, \(P(y^{(i)} =1|X;\theta) = P(y^{(i)}=1|X;\theta)^{y^{(i)}} \cdot P(y^{(i)}=0|X;\theta)^{1-y^{(i)}}\)

前面知道, \(P(Y =1|X;\theta)\)是为了\(\epsilon\)为0,处于大事件概率, 因此这又是一个\(\max P(Y =1|X;\theta)\)的问题了。

但是这里是个梯度上升的问题。

\[\theta_j:=\theta_j+\alpha \nabla_{\theta}\ell(]theta)\]1

这个之后说。


  1. nabla: [’næblə] n. 劈形算符;微分算符 专门用于矩阵求导的符号。 主要是我不会读啊。↩︎