当前位置 : 主页 > 编程语言 > 其它开发 >

L1 正则化和 L2 正则化

来源:互联网 收集:自由互联 发布时间:2022-05-30
介绍L1 正则化和L2正则化的作用 L1 正则化与 L2 正则化1. 1-范数、2-范数 1-范数: \(||X||_1=|x_1|+|x_2|+...+|x_n|\) 2-范数: \(||X||_2=(|x_1|^2+|x|^2+...+|x_n|^2)^\frac 12\) , 其实2-范数就是通常意义下的距
介绍L1 正则化和L2正则化的作用 L1 正则化与 L2 正则化 1. 1-范数、2-范数
  • 1-范数: \(||X||_1=|x_1|+|x_2|+...+|x_n|\)
  • 2-范数: \(||X||_2=(|x_1|^2+|x|^2+...+|x_n|^2)^\frac 12\), 其实2-范数就是通常意义下的距离
2. L1 和 L2 正则化

我们所说的正则化,就是在原来的loss function的基础上,加上了一些正则化项或者称为模型复杂度惩罚项。现在我们还是以最熟悉的线性回归为例子。

  • 优化目标

\[min \frac 1N \sum_{i=1}^N(y_i-w^Tx_i)^2 \]

  • 加上 L1 正则项

\[min \frac 1N\sum_{i=1}^N(y_i-w^Tx_i)^2+C||w||_1 \]

  • 加上 L2 正则项

\[min\frac 1N \sum_{i=1}^N (y_i-w^T x_i)^2+C||w||_2^2 \]

​   我们的目标是使损失越小越好。

​ 那加了 L1 正则化和 L2 正则化之后,对目标函数的求解有什么作用呢?

3. L1 和 L2 正则化作用

​ 假设 \(X\) 为一个二维样本,那么要求解的参数 \(w\) 也是二维:

  • 原函数曲线等高线(同颜色曲线上,每一组 \(w_1,w_2\)带入值都相同)
image-20220414093134635
图1 目标函数等高线
  • 加入 L1 和 L2 正则化的函数图像
image-20220414093525982
图2 加入 L1 和 L2 正则的等高线

从上边两幅图中我们可以看出:

  • 如果不加L1和L2正则化的时候,对于线性回归这种目标函数凸函数的话,我们最终的结果就是最里边的紫色的小圈圈等高线上的点。
  • 当加入L1正则化的时候,我们先画出 \(|w_1|+|w_2|=F\) 的图像,也就是一个菱形,这些曲线上的点算出来的 1 范数 \(|w_1|+|w_2|\) 都为 \(F\) 。那现在的目标不仅是原曲线算的值要小,即越来越接近中心的紫色圆圈,还要是的这个菱形越来越小(F 越来越小)。那么还和原来一样的话,过中心紫色圈圈的那个菱形明显很大,因此我们要取到一个恰好的值。那么如何求值呢?
image-20220414093525982
图3 带 L1 正则化的目标函数求解 3.1 为什么说菱形和等高线相切的时候损失最小?

​ 以原目标函数的曲线来说,在同一条等高线上,以最外圈的红色等高线为例。我们可以看到,对于红色曲线上的每个点都可以做一个菱形,根据上图3可知,当这个菱形与某条等高线相切的时候,这个菱形最小。

​ 证明:同一等高线上的点能够使得 \(\frac 1N\sum_{i=1}^N(y_i-w^Tx_i)^2\) 值相同,但是在相切的时候 \(C||w||\) 小,即 \(|w_1|+|w_2|\) 小,所以能够使得 \(\frac 1N\sum_{i=1}^N(y_i-w^Tx_i)+C||w||_1\) 更小。

​ 那么加入 L1 范数得到的解,一定是某个菱形和某条原函数等高线的切点。

3.2 为什么加入 L1 正则化的解更容易稀疏?

​ 我们可以观察到,几乎对于很多原函数等高线,和某个菱形相交的时候容易相交在坐标轴上,即最终结果解的某个维度及其容易为0,比如上图最终解释 \(w=(0,x)\) , 这也就是我们所说的 L1 更容易得到稀疏解(解向量中 0 比较多)的原因。

​ 证明:假设只有一个参数为\(w\),损失函数为\(L ( w )\),分别加上 \(L1\) 正则项和 $L2 $正则项后有:

\[J_{L1}(w)=L(w)+\lambda|w| \\ J_{L2}(w)=L(w)+\lambda|w|^2 \]

假设\(L ( w )\) 在 0 处的导数为\(d_0\) ,即

\[ \frac{\partial L(w)}{\partial w} \bigg |_{w=0} =d_0 \]

则可以推导使用L1正则和L2正则时的导数。

引入L2正则项,在0处的导数

\[\frac{\partial J_{L2}(w)}{\partial w} \bigg |_{w=0} =d_0 + 2 \times \lambda \times w = d_0 \]

引入 L1 正则项,在0处的导数

\[\frac{\partial J_{L1}(w)}{\partial w} \bigg |_{w=0^-} =d_0 - \lambda \\ \frac{\partial J_{L1}(w)}{\partial w} \bigg |_{w=0^-} =d_0 + \lambda \]

可见,引入 L2 正则时,代价函数在0处的导数仍是 \(d_0\),无变化。

而引入L1正则后,代价函数在0处的导数有一个突变。从\(d_0 + \lambda\) 到 \(d_0 - \lambda\), 如果\(d_0 + \lambda\)\(d_0 - \lambda\)异号,则在0处会是一个极小值点。因此,优化时,很可能优化到该极小值点上,即 \(w=0\) 处。

这里只解释了有一个参数的情况,如果有更多的参数,也是类似的。因此,用L1正则更容易产生稀疏解。

3.4 加入 L2 正则化的结果

​   当加入L2正则化的时候,分析和L1正则化是类似的,也就是说我们仅仅是从菱形变成了圆形而已,同样还是求原曲线和圆形的切点作为最终解。当然与L1范数比,我们这样求的L2范数的从图上来看,不容易交在坐标轴上,但是仍然比较靠近坐标轴因此这也就是我们老说的,L2范数能让解比较小(靠近0),但是比较平滑(不等于0)。

综上所述,我们可以看见,加入正则化项,在最小化经验误差的情况下,可以让我们选择解更简单(趋向于0)的解。

参考链接
上一篇:CASIA-WebMaskedFace 模拟佩戴口罩人脸数据集
下一篇:没有了
网友评论