1 min read

吴恩达 机器学习导论 局部加权回归 学习笔记

内容很多,真累。 感觉这是2008年的视频,唉,现在是2018年,美帝远超我们10年啊。

overfitting

如果有7个点,那么个Xi,除去截距,那么六个特征就可以全部点预测准了,但是也过拟合了,这也是变量太多的问题。

locally weighted regression

parametric: fix set of params, θ. non-parametric: keep with train.

非参数事根据训练集而定的。 非参数不要考虑特征的选择。

看到现在,其实就是取一个局部数据做线性回归,那么当每个局部合成的时候,就形成了非线性的估计。

损失函数的定义,

iw(i)(y(i)θTx(i))2

其中,w(i)定义为,

w(i)=ex(i)x2τ

因此如果选择的xx(i)太远,w(i)会很小,对损失函数的贡献也很小。 因此对于太远的情况,损失函数反映不敏感,可以忽略。 然而对于太远的情况,损失函数反映敏感,进行了强调了。 类似于支持向量机。

τ是带宽,不是很重要,这里不讨论。

这里感觉既然是非参数,那么大样本的话,不是训练起来很耗时间,但是预测value,不是分类模型的,岂不是很好?

可以看看,Andrew Moore, KS Tree.


对线性回归的一点理论解释

假设 ϵN(0,σ), 所以, Y|X;θN(0,σ), 这里说明θ不是随机变量,不能和Xi相提并论。因此这里是频率学派的观点,不是贝叶斯学派的观点。 所以;意思为parameter by 。 所以, YN(θTX,σ)

还有为什么假设是正态分布,因为 中心极限定理假设了多种随机变量的结果就是正态分布, 这个可以下次再说。

对极大似然概率定律的理解

我们知道 ϵ(i)=y(i)|X;θ。 我们的直觉是要使得ϵ尽量等于0的, 如果我们假设ϵ满足标准正态分布,那么我们也就假设了ϵ尽量处于大概率的时候,因为标准正态分布的时候,ϵ0

因此我们的目的是, maxP(ϵ)=P(Y|X;θ),注意这里ϵY都是向量,也就是要假设ϵ(i)整体都处于大概率事件中。

为了简化计算我们假设ϵi.i.d.,也就是独立同分布,因为为了简化计算, P(ϵ)=P(ϵ(i))

于是,

maxP(ϵ)=maxP(Y|X;θ)=maxP(y(i)|X;θ)=max12πσe((y(i)θTx(i))22σ2)max(y(i)θTx(i))22σ2)min(y(i)θTx(i))22σ2)min(y(i)θTx(i))2)

因此, 极大似然概率定律就是OLS回归的假设。

极大似然概率定律对逻辑回归的理解、梯度上升

感觉极大似然概率定律就是线性回归、逻辑回归的核心。

假设 P(Y=1|X;θ)=11+eθTX, 因为这样,依然可以θTXP(Y=1|X;θ)。 所以, P(Y=0|X;θ)=1P(Y=1|X;θ), 所以, P(y(i)=1|X;θ)=P(y(i)=1|X;θ)y(i)P(y(i)=0|X;θ)1y(i)

前面知道, P(Y=1|X;θ)是为了ϵ为0,处于大事件概率, 因此这又是一个maxP(Y=1|X;θ)的问题了。

但是这里是个梯度上升的问题。

θj:=θj+αθ(]theta)1

这个之后说。


  1. nabla: [’næblə] n. 劈形算符;微分算符 专门用于矩阵求导的符号。 主要是我不会读啊。