1.5 为什么正则化有利于预防过拟合呢?(Why regularization reduces overfitting?)
Last updated
Last updated
如果正则化设置得足够大,权重矩阵被设置为接近于0的值,直观理解就是把多隐藏单元的权重设为0,于是基本上消除了这些隐藏单元的许多影响。如果是这种情况,这个被大大简化了的神经网络会变成一个很小的网络,小到如同一个逻辑回归单元,可是深度却很大,它会使这个网络从过度拟合的状态更接近左图的高偏差状态。但是会存在一个中间值,于是会有一个接近“Just Right”的中间状态。
正则化为什么可以预防过拟合:
假设激活函数是函数。函数的特点是在接近零的区域,函数近似是线性的,而当很大的时候,函数非线性且变化缓慢。当使用正则化,较大,即对权重的惩罚较大,减小。因为。当减小的时候,也会减小。则此时的分布在函数的近似线性区域。那么这个神经元起的作用就相当于是linear regression。如果每个神经元对应的权重都比较小,那么整个神经网络模型相当于是多个linear regression的组合,即可看成一个linear network。得到的分类超平面就会比较简单,不会出现过拟合现象