今天看到一篇文章,正则化解释得很通俗,因此写了一些笔记,方便自己理解。
正则化是为了防止过拟合,顾名思义, 下面这张图在学习lasso和ridge的时候见到很常见。
这里的解释很好。
规则化就是说给需要训练的目标函数加上一些规则(限制),让他们不要自我膨胀。
矩阵求导
行向量\(y^T=\{1,2,3,...,n\}\)和 列向量 \[y=\begin{bmatrix} 1 \\ \vdots \\ n \end{bmatrix}\]
的表示,这里设计到一部分Latex的符号,见LaTeX 各种命令,符号 - CSDN博客 。
举一个例子
\[Y = \begin{bmatrix} y_{11} & \cdots & y_{1n} \\ \vdots & \ddots & \vdots \\ y_{m1} & \cdots & y_{mn} \end{bmatrix} = \begin{bmatrix} y_{1}^T \\ \vdots \\ y_{m}^T \\ \end{bmatrix}\]是一个\(m \times n\)矩阵, \[X = \begin{bmatrix} x_{11} & \cdots & x_{1q} \\ \vdots & \ddots & \vdots \\ x_{p1} & \cdots & x_{pq} \end{bmatrix} = \begin{bmatrix}x_1,x_2,\cdots,x_q\end{bmatrix}\]
因此,
\[ \frac{\partial Y}{\partial X}= \begin{bmatrix}\frac{\partial Y}{\partial x_1}, \cdots, \frac{\partial Y}{\partial x_q}\end{bmatrix} =\begin{bmatrix} \frac{\partial y_{1}^T}{\partial X} \\ \vdots \\ \frac{\partial y_{m}^T}{\partial X}\\ \end{bmatrix} =\begin{bmatrix} \frac{\partial y_{1}^T}{\partial x_1} & \cdots & \frac{\partial y_{1}^T}{\partial x_q} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_{1}^T}{\partial x_1} & \cdots & \frac{\partial y_{1}^T}{\partial x_q} \\ \end{bmatrix} \]
误差函数求导
\(\Box\)还是没看懂正则化这个公式如何求导!
范数
对后面的范数理解不太明白了,也不知道可操作性如何,以后学习过程中再精进。