> For the complete documentation index, see [llms.txt](https://baozoulin.gitbook.io/neural-networks-and-deep-learning/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://baozoulin.gitbook.io/neural-networks-and-deep-learning/di-er-men-ke-gai-shan-shen-ceng-shen-jing-wang-luo-chao-can-shu-tiao-shi-zheng-ze-hua-yi-ji-you-hua/improving-deep-neural-networks/practical-aspects-of-deep-learning/15-wei-shi-yao-zheng-ze-hua-you-li-yu-yu-fang-guo-ni-he-ni-ff1f-ff08-why-regularization-reduces-over.md).

# 1.5 为什么正则化有利于预防过拟合呢？（Why regularization reduces overfitting?）

如果正则化$$\lambda$$设置得足够大，权重矩阵$$W$$被设置为接近于0的值，直观理解就是把多隐藏单元的权重设为0，于是基本上消除了这些隐藏单元的许多影响。如果是这种情况，这个被大大简化了的神经网络会变成一个很小的网络，小到如同一个逻辑回归单元，可是深度却很大，它会使这个网络从过度拟合的状态更接近左图的高偏差状态。但是$$\lambda$$会存在一个中间值，于是会有一个接近“**Just Right**”的中间状态。

![](http://www.ai-start.com/dl2017/images/2aafa244c3f184cc271b26d1d95d70c9.png)

正则化为什么可以预防过拟合:

假设激活函数是$$tanh$$函数。$$tanh$$函数的特点是在$$z$$接近零的区域，函数近似是线性的，而当$$|z|$$很大的时候，函数非线性且变化缓慢。当使用正则化，$$\lambda$$较大，即对权重$$w^{\[l]}$$的惩罚较大，$$w^{\[l]}$$减小。因为$$z^{\[l]}=w^{\[l]}a^{\[l]}+b^{\[l]}$$。当$$w^{\[l]}$$减小的时候，$$z^{\[l]}$$也会减小。则此时的$$z^{\[l]}$$分布在$$tanh$$函数的近似线性区域。那么这个神经元起的作用就相当于是linear regression。如果每个神经元对应的权重$$w^{\[l]}$$都比较小，那么整个神经网络模型相当于是多个linear regression的组合，即可看成一个linear network。得到的分类超平面就会比较简单，不会出现过拟合现象

![](http://www.ai-start.com/dl2017/images/8248be8e83121535b73969a4599fbb08.png)
