RMSprop是另外一种优化梯度下降速度的算法。每次迭代训练过程中,其权重W和常数项b的更新表达式为:
SdW=βSdW+(1−β)dW2 Sdb=βSdb+(1−β)db2 W:=W−αSdWdW, b:=b−αSdbdb RMSprop算法的原理解释
令水平方向为W的方向,垂直方向为b的方向
梯度下降(蓝色折线)在垂直方向(b)上振荡较大,在水平方向(W)上振荡较小,表示在b方向上梯度较大,即db较大,而在W方向上梯度较小,即dW较小。因此,上述表达式中Sdb较大,而SdW较小。在更新W和b的表达式中,变化值SdWdW较大,而Sdbdb较小。也就使得W变化得多一些,b变化得少一些。即加快了W方向的速度,减小了b方向的速度,减小振荡,实现快速梯度下降算法,其梯度下降过程如绿色折线所示。总的来说,就是如果哪个方向振荡大,就减小该方向的更新速度,从而减小振荡
为了避免RMSprop算法中分母为零,通常可以在分母增加一个极小的常数ε:
W:=W−αSdW+εdW, b:=b−αSdb+εdb ε=10−8,或者其它较小值