2.7 RMSprop( root mean square prop)

RMSprop是另外一种优化梯度下降速度的算法。每次迭代训练过程中，其权重 $W$ 和常数项 $b$ 的更新表达式为：

S_{dW}=\beta S_{dW}+(1-\beta)dW^2

S_{db}=\beta S_{db}+(1-\beta)db^2

W:=W-\alpha \frac{dW}{\sqrt{S_{dW}}},\ b:=b-\alpha \frac{db}{\sqrt{S_{db}}}

RMSprop算法的原理解释

令水平方向为 $W$ 的方向，垂直方向为 $b$ 的方向

梯度下降（蓝色折线）在垂直方向（ $b$ ）上振荡较大，在水平方向（ $W$ ）上振荡较小，表示在 $b$ 方向上梯度较大，即 $db$ 较大，而在 $W$ 方向上梯度较小，即 $dW$ 较小。因此，上述表达式中 $S_{db}$ 较大，而 $S_{dW}$ 较小。在更新 $W$ 和 $b$ 的表达式中，变化值 $\frac{dW}{\sqrt{S_{dW}}}$ 较大，而 $\frac{db}{\sqrt{S_{db}}}$ 较小。也就使得 $W$ 变化得多一些， $b$ 变化得少一些。即加快了 $W$ 方向的速度，减小了 $b$ 方向的速度，减小振荡，实现快速梯度下降算法，其梯度下降过程如绿色折线所示。总的来说，就是如果哪个方向振荡大，就减小该方向的更新速度，从而减小振荡

为了避免RMSprop算法中分母为零，通常可以在分母增加一个极小的常数 $\varepsilon$ ：

W:=W-\alpha \frac{dW}{\sqrt{S_{dW}}+\varepsilon},\ b:=b-\alpha \frac{db}{\sqrt{S_{db}}+\varepsilon}

$\varepsilon=10^{-8}$ ，或者其它较小值

Previous2.6 动量梯度下降法（Gradient descent with Momentum ）Next2.8 Adam 优化算法(Adam optimization algorithm)

Last updated 6 years ago

Was this helpful?