# 1.4 正则化（Regularization）

深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据

$$\frac{\lambda}{2m}$$乘以$$w$$范数的平方，欧几里德范数的平方等于$$w\_j$$（ $$j$$值从1到$$n\_x$$）平方的和，也可表示为$$ww^T$$，也就是向量参数$$w$$的欧几里德范数（2范数）的平方，此方法称为$$L2$$正则化。因为这里用了欧几里德法线，被称为向量参数$$w$$的$$L2$$范数。

$$
J(w,b)=\frac1m\sum\_{i=1}^mL(\hat y^{(i)},y^{(i)})+\frac{\lambda}{2m}||w||\_2^2
$$

$$
||w||*2^2=\sum*{j=1}^{n\_x}w\_j^2=w^Tw
$$

为什么不再加上参数$$b$$呢？因为通常$$w$$是一个高维参数矢量，几乎涵盖所有参数，已经可以表达高偏差问题，所以参数很大程度上由$$w$$决定，而$$b$$只是众多参数中的一个，改变$$b$$值对整体模型影响较小,所以通常省略不计,如果加了参数$$b$$，也没太大影响

![](http://www.ai-start.com/dl2017/images/84c4e19130a91a09120087dd704bbaa4.png)

$$L2$$正则化是最常见的正则化类型，$$L1$$正则化是正则项$$\frac{\lambda}{m}$$乘以$$\sum\_{j=1}^{n^x}|w|$$，$$\sum\_{j=1}^{n^x}|w|$$也被称为参数向量$$w$$的$$L1$$范数无论分母是，$$m$$还是$$2m$$，它都是一个比例常量

$$
J(w,b)=\frac1m\sum\_{i=1}^mL(\hat y^{(i)},y^{(i)})+\frac{\lambda}{2m}||w||\_1
$$

$$
||w||*1=\sum*{j=1}^{n\_x}|w\_j|
$$

如果用的是$$L1$$正则化，$$w$$最终会是稀疏的，也就是说$$w$$向量中有很多0，虽然$$L1$$正则化使模型变得稀疏，却没有降低太多存储内存,实际上L1 regularization在解决high variance方面比L2 regularization并不更具优势。而且，L1的在微分求导方面比较复杂

$$\lambda$$是正则化参数，可以设置$$\lambda$$为不同的值，在Dev set中进行验证，选择最佳的$$\lambda$$,通常使用验证集或交叉验证集来配置这个参数

在深度学习模型中，L2 regularization的表达式为：

$$
J(w^{\[1]},b^{\[1]},\cdots,w^{\[L]},b^{\[L]})=\frac1m\sum\_{i=1}^mL(\hat y^{(i)},y^{(i)})+\frac{\lambda}{2m}\sum\_{l=1}^L||w^{\[l]}||^2
$$

$$
||w^{\[l]}||^2=\sum\_{i=1}^{n^{\[l]}}\sum\_{j=1}^{n^{\[l-1]}}(w\_{ij}^{\[l]})^2
$$

$$||w^{\[l]}||^2$$称为Frobenius范数，记为$$||w^{\[l]}||\_F^2$$。一个矩阵的Frobenius范数就是计算所有元素平方和再开方，如下所示：

$$
||A||*F=\sqrt {\sum*{i=1}^m\sum\_{j=1}^n|a\_{ij}|^2}
$$

由于加入了正则化项，梯度下降算法中的$$dw^{\[l]}$$计算表达式需要做如下修改：

$$
dw^{\[l]}=dw^{\[l]}\_{before}+\frac{\lambda}{m}w^{\[l]}
$$

$$
w^{\[l]}:=w^{\[l]}-\alpha\cdot dw^{\[l]}
$$

L2 regularization也被称做weight decay。这是因为，由于加上了正则项，$$dw^{\[l]}$$有个增量，在更新$$w^{\[l]}$$的时候，会多减去这个增量，使得$$w^{\[l]}$$比没有正则项的值要小一些。不断迭代更新，不断地减小

$$
\begin{aligned}w^{\[l]}
&:=w^{\[l]}-\alpha\cdot dw^{\[l]}\\
&=w^{\[l]}-\alpha\cdot(dw^{\[l]}*{before}+\frac{\lambda}{m}w^{\[l]})\\
&=(1-\alpha\frac{\lambda}{m})w^{\[l]}-\alpha\cdot dw^{\[l]}*{before}
\end{aligned}
$$

其中，$$(1-\alpha\frac{\lambda}{m})<1$$
