2.7 RMSprop( root mean square prop)

RMSprop是另外一种优化梯度下降速度的算法。每次迭代训练过程中,其权重WW和常数项bb的更新表达式为:

SdW=βSdW+(1β)dW2S_{dW}=\beta S_{dW}+(1-\beta)dW^2
Sdb=βSdb+(1β)db2S_{db}=\beta S_{db}+(1-\beta)db^2
W:=WαdWSdW, b:=bαdbSdbW:=W-\alpha \frac{dW}{\sqrt{S_{dW}}},\ b:=b-\alpha \frac{db}{\sqrt{S_{db}}}

RMSprop算法的原理解释

令水平方向为WW的方向,垂直方向为bb的方向

梯度下降(蓝色折线)在垂直方向(bb)上振荡较大,在水平方向(WW)上振荡较小,表示在bb方向上梯度较大,即dbdb较大,而在WW方向上梯度较小,即dWdW较小。因此,上述表达式中SdbS_{db}较大,而SdWS_{dW}较小。在更新WWbb的表达式中,变化值dWSdW\frac{dW}{\sqrt{S_{dW}}}较大,而dbSdb\frac{db}{\sqrt{S_{db}}}较小。也就使得WW变化得多一些,bb变化得少一些。即加快了WW方向的速度,减小了bb方向的速度,减小振荡,实现快速梯度下降算法,其梯度下降过程如绿色折线所示。总的来说,就是如果哪个方向振荡大,就减小该方向的更新速度,从而减小振荡

为了避免RMSprop算法中分母为零,通常可以在分母增加一个极小的常数ε\varepsilon

W:=WαdWSdW+ε, b:=bαdbSdb+εW:=W-\alpha \frac{dW}{\sqrt{S_{dW}}+\varepsilon},\ b:=b-\alpha \frac{db}{\sqrt{S_{db}}+\varepsilon}

ε=108\varepsilon=10^{-8},或者其它较小值

Last updated