1.8 其他正则化方法(Other regularization methods)

除了L2 regularization和dropout regularization之外,其它减少过拟合的方法:

  • 增加训练样本数量。但是通常成本较高,难以获得额外的训练样本。但是可以对已有的训练样本进行一些处理来“制造”出更多的样本,称为data augmentation(数据扩增)。例如图片识别问题中,可以对已有的图片进行水平翻转、垂直翻转、任意角度旋转、缩放或扩大等

在数字识别中,也可以将原有的数字图片进行任意旋转或者扭曲,或者增加一些noise,如下图所示:

  • early stopping。一个神经网络模型随着迭代训练次数增加,train set error一般是单调减小的,而dev set error 先减小,之后又增大。即训练次数过多时,模型会对训练样本拟合的越来越好,但是对验证集拟合效果逐渐变差,发生了过拟合。可以通过train set error和dev set error随着迭代次数的变化趋势,选择合适的迭代次数,即early stopping。

当还未在神经网络上运行太多迭代过程的时候,参数ww接近0,因为随机初始化ww值时,它的值可能都是较小的随机值,但在迭代过程和训练过程中ww的值会变得越来越大,所以early stopping要做就是在中间点停止迭代过程

机器学习训练模型有两个目标:一是优化cost function,尽量减小J;二是防止过拟合。这两个目标彼此对立的,即减小J的同时可能会造成过拟合,反之亦然。二者之间的关系称为正交化orthogonalization

  • Early stopping的做法通过减少迭代训练次数来防止过拟合,这样J就不会足够小。即early stopping将上述两个目标融合在一起,同时优化,但可能没有“分而治之”的效果好。

  • 与early stopping相比,L2 regularization可以实现“分而治之”的效果:迭代训练足够多,减小J,而且也能有效防止过拟合。而L2 regularization的缺点之一是最优的正则化参数λ\lambda的选择比较复杂。而early stopping比较简单。

  • 总的来说,L2 regularization更加常用一些

Last updated