1.4 正则化（Regularization）

深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据

$\frac{\lambda}{2m}$ 乘以 $w$ 范数的平方，欧几里德范数的平方等于 $w_j$ （ $j$ 值从1到 $n_x$ ）平方的和，也可表示为 $ww^T$ ，也就是向量参数 $w$ 的欧几里德范数（2范数）的平方，此方法称为 $L2$ 正则化。因为这里用了欧几里德法线，被称为向量参数 $w$ 的 $L2$ 范数。

J(w,b)=\frac1m\sum_{i=1}^mL(\hat y^{(i)},y^{(i)})+\frac{\lambda}{2m}||w||_2^2

||w||_2^2=\sum_{j=1}^{n_x}w_j^2=w^Tw

为什么不再加上参数 $b$ 呢？因为通常 $w$ 是一个高维参数矢量，几乎涵盖所有参数，已经可以表达高偏差问题，所以参数很大程度上由 $w$ 决定，而 $b$ 只是众多参数中的一个，改变 $b$ 值对整体模型影响较小,所以通常省略不计,如果加了参数 $b$ ，也没太大影响

$L2$ 正则化是最常见的正则化类型， $L1$ 正则化是正则项 $\frac{\lambda}{m}$ 乘以 $\sum_{j=1}^{n^x}|w|$ ， $\sum_{j=1}^{n^x}|w|$ 也被称为参数向量 $w$ 的 $L1$ 范数无论分母是， $m$ 还是 $2m$ ，它都是一个比例常量

J(w,b)=\frac1m\sum_{i=1}^mL(\hat y^{(i)},y^{(i)})+\frac{\lambda}{2m}||w||_1

||w||_1=\sum_{j=1}^{n_x}|w_j|

如果用的是 $L1$ 正则化， $w$ 最终会是稀疏的，也就是说 $w$ 向量中有很多0，虽然 $L1$ 正则化使模型变得稀疏，却没有降低太多存储内存,实际上L1 regularization在解决high variance方面比L2 regularization并不更具优势。而且，L1的在微分求导方面比较复杂

$\lambda$ 是正则化参数，可以设置 $\lambda$ 为不同的值，在Dev set中进行验证，选择最佳的 $\lambda$ ,通常使用验证集或交叉验证集来配置这个参数

在深度学习模型中，L2 regularization的表达式为：

J(w^{[1]},b^{[1]},\cdots,w^{[L]},b^{[L]})=\frac1m\sum_{i=1}^mL(\hat y^{(i)},y^{(i)})+\frac{\lambda}{2m}\sum_{l=1}^L||w^{[l]}||^2

||w^{[l]}||^2=\sum_{i=1}^{n^{[l]}}\sum_{j=1}^{n^{[l-1]}}(w_{ij}^{[l]})^2

$||w^{[l]}||^2$ 称为Frobenius范数，记为 $||w^{[l]}||_F^2$ 。一个矩阵的Frobenius范数就是计算所有元素平方和再开方，如下所示：

||A||_F=\sqrt {\sum_{i=1}^m\sum_{j=1}^n|a_{ij}|^2}

由于加入了正则化项，梯度下降算法中的 $dw^{[l]}$ 计算表达式需要做如下修改：

dw^{[l]}=dw^{[l]}_{before}+\frac{\lambda}{m}w^{[l]}

w^{[l]}:=w^{[l]}-\alpha\cdot dw^{[l]}

L2 regularization也被称做weight decay。这是因为，由于加上了正则项， $dw^{[l]}$ 有个增量，在更新 $w^{[l]}$ 的时候，会多减去这个增量，使得 $w^{[l]}$ 比没有正则项的值要小一些。不断迭代更新，不断地减小

\begin{aligned}w^{[l]} &:=w^{[l]}-\alpha\cdot dw^{[l]}\\ &=w^{[l]}-\alpha\cdot(dw^{[l]}_{before}+\frac{\lambda}{m}w^{[l]})\\ &=(1-\alpha\frac{\lambda}{m})w^{[l]}-\alpha\cdot dw^{[l]}_{before} \end{aligned}

其中， $(1-\alpha\frac{\lambda}{m})<1$

Previous1.3 机器学习基础（Basic Recipe for Machine Learning）Next1.5 为什么正则化有利于预防过拟合呢？（Why regularization reduces overfitting?）

Last updated 6 years ago

Was this helpful?