@Tibshirani1996 提出Lasso,全名为Least Absolute Shrinkage and Selection Operator,因此主要功能是 Shrinkage 和 Selection。
L = ∑(y−ŷ)2 + ∑|β|
这里损失函数L加入∑|β|后,导致模型会向β → 0的方向收缩,因此有 Shrinkage的作用。
同时,L可改写为
$$L = \sum (y - \hat y )^2 \\ \text{s.t. } \sum |\beta| < \epsilon$$
ϵ是常数,假设β = [β1,β2],那么就是一个平面空间,∑|β| < ϵ表示一个菱形,
可直观看出,∑|β| < ϵ菱形,∑(y−ŷ)2类似圆或者椭圆,因此两个图形大概率有corner solution,就是顶端有解。 我们发现顶端恰好是部分βi为0的时候,因此lasso的解相当于得到一组β,有一些β = 0,因此这达到了变量筛选的功能,因此是Selection的作用。
还有其它模型进行合成,如弹性网估计量”(Elastic Net),将ridge 和lasso都考虑进来。