1.5 为什么正则化有利于预防过拟合呢？（Why regularization reduces overfitting?）

如果正则化 $\lambda$ 设置得足够大，权重矩阵 $W$ 被设置为接近于0的值，直观理解就是把多隐藏单元的权重设为0，于是基本上消除了这些隐藏单元的许多影响。如果是这种情况，这个被大大简化了的神经网络会变成一个很小的网络，小到如同一个逻辑回归单元，可是深度却很大，它会使这个网络从过度拟合的状态更接近左图的高偏差状态。但是 $\lambda$ 会存在一个中间值，于是会有一个接近“Just Right”的中间状态。

正则化为什么可以预防过拟合:

假设激活函数是 $tanh$ 函数。 $tanh$ 函数的特点是在 $z$ 接近零的区域，函数近似是线性的，而当 $|z|$ 很大的时候，函数非线性且变化缓慢。当使用正则化， $\lambda$ 较大，即对权重 $w^{[l]}$ 的惩罚较大， $w^{[l]}$ 减小。因为 $z^{[l]}=w^{[l]}a^{[l]}+b^{[l]}$ 。当 $w^{[l]}$ 减小的时候， $z^{[l]}$ 也会减小。则此时的 $z^{[l]}$ 分布在 $tanh$ 函数的近似线性区域。那么这个神经元起的作用就相当于是linear regression。如果每个神经元对应的权重 $w^{[l]}$ 都比较小，那么整个神经网络模型相当于是多个linear regression的组合，即可看成一个linear network。得到的分类超平面就会比较简单，不会出现过拟合现象

Previous1.4 正则化（Regularization）Next1.6 dropout 正则化（Dropout Regularization）

Last updated 6 years ago

Was this helpful?