1.5 为什么正则化有利于预防过拟合呢?(Why regularization reduces overfitting?)

如果正则化λ\lambda设置得足够大,权重矩阵WW被设置为接近于0的值,直观理解就是把多隐藏单元的权重设为0,于是基本上消除了这些隐藏单元的许多影响。如果是这种情况,这个被大大简化了的神经网络会变成一个很小的网络,小到如同一个逻辑回归单元,可是深度却很大,它会使这个网络从过度拟合的状态更接近左图的高偏差状态。但是λ\lambda会存在一个中间值,于是会有一个接近“Just Right”的中间状态。

正则化为什么可以预防过拟合:

假设激活函数是tanhtanh函数。tanhtanh函数的特点是在zz接近零的区域,函数近似是线性的,而当z|z|很大的时候,函数非线性且变化缓慢。当使用正则化,λ\lambda较大,即对权重w[l]w^{[l]}的惩罚较大,w[l]w^{[l]}减小。因为z[l]=w[l]a[l]+b[l]z^{[l]}=w^{[l]}a^{[l]}+b^{[l]}。当w[l]w^{[l]}减小的时候,z[l]z^{[l]}也会减小。则此时的z[l]z^{[l]}分布在tanhtanh函数的近似线性区域。那么这个神经元起的作用就相当于是linear regression。如果每个神经元对应的权重w[l]w^{[l]}都比较小,那么整个神经网络模型相当于是多个linear regression的组合,即可看成一个linear network。得到的分类超平面就会比较简单,不会出现过拟合现象

Last updated