RMSprop是另外一种优化梯度下降速度的算法。每次迭代训练过程中,其权重WWW和常数项bbb的更新表达式为:
令水平方向为WWW的方向,垂直方向为bbb的方向
梯度下降(蓝色折线)在垂直方向(bbb)上振荡较大,在水平方向(WWW)上振荡较小,表示在bbb方向上梯度较大,即dbdbdb较大,而在WWW方向上梯度较小,即dWdWdW较小。因此,上述表达式中SdbS_{db}Sdb较大,而SdWS_{dW}SdW较小。在更新WWW和bbb的表达式中,变化值dWSdW\frac{dW}{\sqrt{S_{dW}}}SdWdW较大,而dbSdb\frac{db}{\sqrt{S_{db}}}Sdbdb较小。也就使得WWW变化得多一些,bbb变化得少一些。即加快了WWW方向的速度,减小了bbb方向的速度,减小振荡,实现快速梯度下降算法,其梯度下降过程如绿色折线所示。总的来说,就是如果哪个方向振荡大,就减小该方向的更新速度,从而减小振荡
为了避免RMSprop算法中分母为零,通常可以在分母增加一个极小的常数ε\varepsilonε:
ε=10−8\varepsilon=10^{-8}ε=10−8,或者其它较小值
Last updated 6 years ago