1 min read

吴恩达 机器学习导论 局部加权回归 学习笔记

内容很多,真累。 感觉这是2008年的视频,唉,现在是2018年,美帝远超我们10年啊。

overfitting

如果有7个点,那么个\(X_i\),除去截距,那么六个特征就可以全部点预测准了,但是也过拟合了,这也是变量太多的问题。

locally weighted regression

parametric: fix set of params, \(\theta\). non-parametric: keep with train.

非参数事根据训练集而定的。 非参数不要考虑特征的选择。

看到现在,其实就是取一个局部数据做线性回归,那么当每个局部合成的时候,就形成了非线性的估计。

损失函数的定义,

\[\sum_{i}w^{(i)}(y^{(i)}-\theta^{T}x^{(i)})^2\]

其中,\(w^{(i)}\)定义为,

\[w^{(i)} = e^{-\frac{x^(i)-x}{2\tau}}\]

因此如果选择的\(x\)\(x^{(i)}\)太远,\(w^{(i)}\)会很小,对损失函数的贡献也很小。 因此对于太远的情况,损失函数反映不敏感,可以忽略。 然而对于太远的情况,损失函数反映敏感,进行了强调了。 类似于支持向量机。

\(\tau\)是带宽,不是很重要,这里不讨论。

这里感觉既然是非参数,那么大样本的话,不是训练起来很耗时间,但是预测value,不是分类模型的,岂不是很好?

\(\Box\)可以看看,Andrew Moore, KS Tree.


对线性回归的一点理论解释

假设 \(\epsilon \sim \mathcal N(0,\sigma)\), 所以, \(Y|X;\theta \sim \mathcal N(0,\sigma)\), 这里说明\(\theta\)不是随机变量,不能和\(X^{i}\)相提并论。因此这里是频率学派的观点,不是贝叶斯学派的观点。 所以\(;\)意思为parameter by 。 所以, \(Y \sim \mathcal N(\theta^{T} X ,\sigma)\)

还有为什么假设是正态分布,因为 中心极限定理假设了多种随机变量的结果就是正态分布, 这个可以下次再说。

对极大似然概率定律的理解

我们知道 \(\epsilon^{(i)} = y^{(i)} | X;\theta\)。 我们的直觉是要使得\(\epsilon\)尽量等于0的, 如果我们假设\(\epsilon\)满足标准正态分布,那么我们也就假设了\(\epsilon\)尽量处于大概率的时候,因为标准正态分布的时候,\(\epsilon \to 0\)

因此我们的目的是, \(\max P(\epsilon) = P(Y | X;\theta)\),注意这里\(\epsilon\)\(Y\)都是向量,也就是要假设\(\epsilon^{(i)}\)整体都处于大概率事件中。

为了简化计算我们假设\(\epsilon \sim i.i.d.\),也就是独立同分布,因为为了简化计算, \(P(\epsilon) = \prod P(\epsilon^{(i)})\)

于是,

\[\begin{alignat}{2} \max P(\epsilon) & = \max P(Y| X;\theta) \\ & = \max \prod P(y^{(i)} | X;\theta) \\ & = \max \prod \frac{1}{\sqrt{2\pi}\sigma} e^{(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})}\\ & \to \max \sum -\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \\ & \to \min \sum \frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \\ & \to \min \sum (y^{(i)}-\theta^Tx^{(i)})^2) \\ \end{alignat}\]

因此, 极大似然概率定律就是OLS回归的假设。

极大似然概率定律对逻辑回归的理解、梯度上升

感觉极大似然概率定律就是线性回归、逻辑回归的核心。

假设 \(P(Y =1|X;\theta) = \frac{1}{1+e^{-\theta^TX}}\), 因为这样,依然可以\(\theta^TX \propto P(Y =1|X;\theta)\)。 所以, \(P(Y =0|X;\theta) = 1-P(Y =1|X;\theta)\), 所以, \(P(y^{(i)} =1|X;\theta) = P(y^{(i)}=1|X;\theta)^{y^{(i)}} \cdot P(y^{(i)}=0|X;\theta)^{1-y^{(i)}}\)

前面知道, \(P(Y =1|X;\theta)\)是为了\(\epsilon\)为0,处于大事件概率, 因此这又是一个\(\max P(Y =1|X;\theta)\)的问题了。

但是这里是个梯度上升的问题。

\[\theta_j:=\theta_j+\alpha \nabla_{\theta}\ell(]theta)\]1

这个之后说。


  1. nabla: [’næblə] n. 劈形算符;微分算符 专门用于矩阵求导的符号。 主要是我不会读啊。