1 min read

lasso 的理解

Tibshirani (1996) 提出Lasso,全名为Least Absolute Shrinkage and Selection Operator,因此主要功能是 ShrinkageSelection

\[L = \sum (y - \hat y )^2 + \sum |\beta|\]

这里损失函数\(L\)加入\(\sum |\beta|\)后,导致模型会向\(\beta \to 0\)的方向收缩,因此有 Shrinkage的作用。

同时,\(L\)可改写为

\[L = \sum (y - \hat y )^2 \\ \text{s.t. } \sum |\beta| < \epsilon\]

\(\epsilon\)是常数,假设\(\beta = [\beta_1, \beta_2]\),那么就是一个平面空间,\(\sum |\beta| < \epsilon\)表示一个菱形,

可直观看出,\(\sum |\beta| < \epsilon\)菱形,\(\sum (y - \hat y )^2\)类似圆或者椭圆,因此两个图形大概率有corner solution,就是顶端有解。 我们发现顶端恰好是部分\(\beta_i\)为0的时候,因此lasso的解相当于得到一组\(\beta\),有一些\(\beta =0\),因此这达到了变量筛选的功能,因此是Selection的作用。

还有其它模型进行合成,如弹性网估计量”(Elastic Net),将ridge 和lasso都考虑进来。

参考文献

Tibshirani, Robert. 1996. “Regression Shrinkage and Selection via the Lasso.” Journal of the Royal Statistical Society 58 (1): 267–88.