特色栏目： python 批处理 net编程 Javascript Php Asp Css Html5 Android seo centos

L1 正则化和 L2 正则化

来源：互联网收集：自由互联发布时间：2022-05-30

介绍L1 正则化和L2正则化的作用 L1 正则化与 L2 正则化1. 1-范数、2-范数 1-范数： $||X||_1=|x_1|+|x_2|+...+|x_n|$ 2-范数： $||X||_2=(|x_1|^2+|x|^2+...+|x_n|^2)^\frac 12$ , 其实2-范数就是通常意义下的距

介绍L1 正则化和L2正则化的作用 L1 正则化与 L2 正则化 1. 1-范数、2-范数

1-范数： $||X||_1=|x_1|+|x_2|+...+|x_n|$
2-范数： $||X||_2=(|x_1|^2+|x|^2+...+|x_n|^2)^\frac 12$, 其实2-范数就是通常意义下的距离

2. L1 和 L2 正则化

我们所说的正则化，就是在原来的loss function的基础上，加上了一些正则化项或者称为模型复杂度惩罚项。现在我们还是以最熟悉的线性回归为例子。

优化目标：

\[min \frac 1N \sum_{i=1}^N(y_i-w^Tx_i)^2 \]

加上 L1 正则项

\[min \frac 1N\sum_{i=1}^N(y_i-w^Tx_i)^2+C||w||_1 \]

加上 L2 正则项

\[min\frac 1N \sum_{i=1}^N (y_i-w^T x_i)^2+C||w||_2^2 \]

我们的目标是使损失越小越好。

那加了 L1 正则化和 L2 正则化之后，对目标函数的求解有什么作用呢？

3. L1 和 L2 正则化作用

假设 $X$ 为一个二维样本，那么要求解的参数 $w$ 也是二维：

原函数曲线等高线（同颜色曲线上，每一组 $w_1,w_2$带入值都相同）

图1 目标函数等高线

加入 L1 和 L2 正则化的函数图像

图2 加入 L1 和 L2 正则的等高线

从上边两幅图中我们可以看出：

如果不加L1和L2正则化的时候，对于线性回归这种目标函数凸函数的话，我们最终的结果就是最里边的紫色的小圈圈等高线上的点。
当加入L1正则化的时候，我们先画出 $|w_1|+|w_2|=F$ 的图像，也就是一个菱形，这些曲线上的点算出来的 1 范数 $|w_1|+|w_2|$ 都为 $F$ 。那现在的目标不仅是原曲线算的值要小，即越来越接近中心的紫色圆圈，还要是的这个菱形越来越小（F 越来越小）。那么还和原来一样的话，过中心紫色圈圈的那个菱形明显很大，因此我们要取到一个恰好的值。那么如何求值呢？

图3 带 L1 正则化的目标函数求解 3.1 为什么说菱形和等高线相切的时候损失最小？

以原目标函数的曲线来说，在同一条等高线上，以最外圈的红色等高线为例。我们可以看到，对于红色曲线上的每个点都可以做一个菱形，根据上图3可知，当这个菱形与某条等高线相切的时候，这个菱形最小。

证明：同一等高线上的点能够使得 $\frac 1N\sum_{i=1}^N(y_i-w^Tx_i)^2$ 值相同，但是在相切的时候 $C||w||$ 小，即 $|w_1|+|w_2|$ 小，所以能够使得 $\frac 1N\sum_{i=1}^N(y_i-w^Tx_i)+C||w||_1$ 更小。

那么加入 L1 范数得到的解，一定是某个菱形和某条原函数等高线的切点。

3.2 为什么加入 L1 正则化的解更容易稀疏？

我们可以观察到，几乎对于很多原函数等高线，和某个菱形相交的时候容易相交在坐标轴上，即最终结果解的某个维度及其容易为0，比如上图最终解释 $w=(0,x)$ , 这也就是我们所说的 L1 更容易得到稀疏解（解向量中 0 比较多）的原因。

证明：假设只有一个参数为$w$，损失函数为$L ( w )$，分别加上 $L1$ 正则项和 $L2 $正则项后有：

\[J_{L1}(w)=L(w)+\lambda|w| \\ J_{L2}(w)=L(w)+\lambda|w|^2 \]

假设$L ( w )$ 在 0 处的导数为$d_0$ ，即

\[ \frac{\partial L(w)}{\partial w} \bigg |_{w=0} =d_0 \]

则可以推导使用L1正则和L2正则时的导数。

引入L2正则项，在0处的导数

\[\frac{\partial J_{L2}(w)}{\partial w} \bigg |_{w=0} =d_0 + 2 \times \lambda \times w = d_0 \]

引入 L1 正则项，在0处的导数

\[\frac{\partial J_{L1}(w)}{\partial w} \bigg |_{w=0^-} =d_0 - \lambda \\ \frac{\partial J_{L1}(w)}{\partial w} \bigg |_{w=0^-} =d_0 + \lambda \]

可见，引入 L2 正则时，代价函数在0处的导数仍是 $d_0$，无变化。

而引入L1正则后，代价函数在0处的导数有一个突变。从$d_0 + \lambda$ 到 $d_0 - \lambda$, 如果$d_0 + \lambda$ 和$d_0 - \lambda$异号，则在0处会是一个极小值点。因此，优化时，很可能优化到该极小值点上，即 $w=0$ 处。

这里只解释了有一个参数的情况，如果有更多的参数，也是类似的。因此，用L1正则更容易产生稀疏解。

3.4 加入 L2 正则化的结果

当加入L2正则化的时候，分析和L1正则化是类似的，也就是说我们仅仅是从菱形变成了圆形而已，同样还是求原曲线和圆形的切点作为最终解。当然与L1范数比，我们这样求的L2范数的从图上来看，不容易交在坐标轴上，但是仍然比较靠近坐标轴。因此这也就是我们老说的，L2范数能让解比较小（靠近0），但是比较平滑（不等于0）。

综上所述，我们可以看见，加入正则化项，在最小化经验误差的情况下，可以让我们选择解更简单（趋向于0）的解。

参考链接

上一篇：CASIA-WebMaskedFace 模拟佩戴口罩人脸数据集
下一篇：没有了

L1 正则化和 L2 正则化

相关文章