吴恩达机器学习导论局部加权回归学习笔记

斯坦福大学公开课：机器学习课程_欠拟合与过拟合的概念_网易公开课
overfitting
locally weighted regression.
对线性回归的一点理论解释
极大似然概率定律对逻辑回归的理解、梯度上升
感知器

内容很多，真累。感觉这是2008年的视频，唉，现在是2018年，美帝远超我们10年啊。

overfitting

如果有7个点，那么个 $X_{i}$ ，除去截距，那么六个特征就可以全部点预测准了，但是也过拟合了，这也是变量太多的问题。

locally weighted regression

parametric: fix set of params, $θ$ . non-parametric: keep with train.

非参数事根据训练集而定的。 非参数不要考虑特征的选择。

看到现在，其实就是取一个局部数据做线性回归，那么当每个局部合成的时候，就形成了非线性的估计。

损失函数的定义，

$\sum_{i} w^{(i)} (y^{(i)} - θ^{T} x^{(i)})^{2}$

其中， $w^{(i)}$ 定义为，

$w^{(i)} = e^{- \frac{x^{(} i) - x}{2 τ}}$

因此如果选择的 $x$ 离 $x^{(i)}$ 太远， $w^{(i)}$ 会很小，对损失函数的贡献也很小。因此对于太远的情况，损失函数反映不敏感，可以忽略。然而对于太远的情况，损失函数反映敏感，进行了强调了。类似于支持向量机。

$τ$ 是带宽，不是很重要，这里不讨论。

这里感觉既然是非参数，那么大样本的话，不是训练起来很耗时间，但是预测value，不是分类模型的，岂不是很好？

$◻$ 可以看看，Andrew Moore, KS Tree.

对线性回归的一点理论解释

假设 $ϵ \sim N (0, σ)$ ，所以， $Y | X; θ \sim N (0, σ)$ ，这里说明 $θ$ 不是随机变量，不能和 $X^{i}$ 相提并论。因此这里是频率学派的观点，不是贝叶斯学派的观点。所以 $;$ 意思为parameter by 。所以， $Y \sim N (θ^{T} X, σ)$ ，

还有为什么假设是正态分布，因为中心极限定理假设了多种随机变量的结果就是正态分布，这个可以下次再说。

对极大似然概率定律的理解

我们知道 $ϵ^{(i)} = y^{(i)} | X; θ$ 。我们的直觉是要使得 $ϵ$ 尽量等于0的，如果我们假设 $ϵ$ 满足标准正态分布，那么我们也就假设了 $ϵ$ 尽量处于大概率的时候，因为标准正态分布的时候， $ϵ \to 0$ 。

因此我们的目的是， $max P (ϵ) = P (Y | X; θ)$ ，注意这里 $ϵ$ 和 $Y$ 都是向量，也就是要假设 $ϵ^{(i)}$ 整体都处于大概率事件中。

为了简化计算我们假设 $ϵ \sim i . i . d .$ ，也就是独立同分布，因为为了简化计算， $P (ϵ) = \prod P (ϵ^{(i)})$

于是，

$\begin{aligned} max P (ϵ) & = max P (Y | X; θ) \\ = max \prod P (y^{(i)} | X; θ) \\ = max \prod \frac{1}{\sqrt{2 π} σ} e^{(- \frac{(y^{(i)} - θ^{T} x^{(i)})^{2}}{2 σ^{2}})} \\ \to max \sum - \frac{(y^{(i)} - θ^{T} x^{(i)})^{2}}{2 σ^{2}}) \\ \to min \sum \frac{(y^{(i)} - θ^{T} x^{(i)})^{2}}{2 σ^{2}}) \\ \to min \sum (y^{(i)} - θ^{T} x^{(i)})^{2}) \end{aligned}$

因此，极大似然概率定律就是OLS回归的假设。

极大似然概率定律对逻辑回归的理解、梯度上升

感觉极大似然概率定律就是线性回归、逻辑回归的核心。

假设 $P (Y = 1 | X; θ) = \frac{1}{1 + e^{- θ^{T} X}}$ ，因为这样，依然可以 $θ^{T} X \propto P (Y = 1 | X; θ)$ 。所以， $P (Y = 0 | X; θ) = 1 - P (Y = 1 | X; θ)$ ，所以， $P (y^{(i)} = 1 | X; θ) = P (y^{(i)} = 1 | X; θ)^{y^{(i)}} \cdot P (y^{(i)} = 0 | X; θ)^{1 - y^{(i)}}$ 。

前面知道， $P (Y = 1 | X; θ)$ 是为了 $ϵ$ 为0，处于大事件概率，因此这又是一个 $max P (Y = 1 | X; θ)$ 的问题了。

但是这里是个梯度上升的问题。

$θ_{j} := θ_{j} + α \nabla_{θ} ℓ (] t h e t a)$ ¹

这个之后说。

nabla: [’næblə] n. 劈形算符；微分算符专门用于矩阵求导的符号。主要是我不会读啊。↩