overfitting
locally weighted regression.
对线性回归的一点理论解释
极大似然概率定律对逻辑回归的理解、梯度上升
感知器
内容很多,真累。 感觉这是2008年的视频,唉,现在是2018年,美帝远超我们10年啊。
overfitting
如果有7个点,那么个,除去截距,那么六个特征就可以全部点预测准了,但是也过拟合了,这也是变量太多的问题。
locally weighted regression
parametric: fix set of params, . non-parametric: keep with train.
非参数事根据训练集而定的。 非参数不要考虑特征的选择。
看到现在,其实就是取一个局部数据做线性回归,那么当每个局部合成的时候,就形成了非线性的估计。
损失函数的定义,
其中,定义为,
因此如果选择的离太远,会很小,对损失函数的贡献也很小。 因此对于太远的情况,损失函数反映不敏感,可以忽略。 然而对于太远的情况,损失函数反映敏感,进行了强调了。 类似于支持向量机。
是带宽,不是很重要,这里不讨论。
这里感觉既然是非参数,那么大样本的话,不是训练起来很耗时间,但是预测value,不是分类模型的,岂不是很好?
可以看看,Andrew Moore, KS Tree.
对线性回归的一点理论解释
假设 , 所以, , 这里说明不是随机变量,不能和相提并论。因此这里是频率学派的观点,不是贝叶斯学派的观点。 所以意思为parameter by 。 所以, ,
还有为什么假设是正态分布,因为 中心极限定理假设了多种随机变量的结果就是正态分布, 这个可以下次再说。
对极大似然概率定律的理解
我们知道 。 我们的直觉是要使得尽量等于0的, 如果我们假设满足标准正态分布,那么我们也就假设了尽量处于大概率的时候,因为标准正态分布的时候,。
因此我们的目的是, ,注意这里和都是向量,也就是要假设整体都处于大概率事件中。
为了简化计算我们假设,也就是独立同分布,因为为了简化计算,
于是,
因此, 极大似然概率定律就是OLS回归的假设。
极大似然概率定律对逻辑回归的理解、梯度上升
感觉极大似然概率定律就是线性回归、逻辑回归的核心。
假设 , 因为这样,依然可以。 所以, , 所以, 。
前面知道, 是为了为0,处于大事件概率, 因此这又是一个的问题了。
但是这里是个梯度上升的问题。
这个之后说。
nabla: [’næblə] n. 劈形算符;微分算符 专门用于矩阵求导的符号。 主要是我不会读啊。↩