2.10 局部最优的问题(The problem of local optima)
以前对局部最优解的理解是形如碗状的凹槽,如下图左边所示。但是在神经网络中,local optima的概念发生了变化。大部分梯度为零的“最优点”并不是这些凹槽处,而是形如右边所示的马鞍状,称为saddle point(鞍点)。即梯度为零并不能保证都是convex(极小值),也有可能是concave(极大值)。特别是在神经网络中参数很多的情况下,所有参数梯度为零的点很可能都是右边所示的马鞍状的saddle point,而不是左边那样的local optimum
类似马鞍状的plateaus(平稳端)会降低神经网络学习速度。Plateaus是梯度接近于零的平缓区域,在plateaus上梯度很小,前进缓慢,到达saddle point需要很长时间。到达saddle point后,由于随机扰动,梯度一般能够沿着图中绿色箭头,离开saddle point,继续前进,只是在plateaus上花费了太多时间
local optima的两点总结:
只要选择合理的强大的神经网络,一般不太可能陷入local optima
Plateaus可能会使梯度下降变慢,降低学习速度
动量梯度下降,RMSprop,Adam算法都能有效解决plateaus下降过慢的问题,大大提高神经网络的学习速度
Last updated