# 2.7 RMSprop( root mean square prop)

RMSprop是另外一种优化梯度下降速度的算法。每次迭代训练过程中，其权重$$W$$和常数项$$b$$的更新表达式为：

$$
S\_{dW}=\beta S\_{dW}+(1-\beta)dW^2
$$

$$
S\_{db}=\beta S\_{db}+(1-\beta)db^2
$$

$$
W:=W-\alpha \frac{dW}{\sqrt{S\_{dW}}},\ b:=b-\alpha \frac{db}{\sqrt{S\_{db}}}
$$

## RMSprop算法的原理解释

令水平方向为$$W$$的方向，垂直方向为$$b$$的方向

![](https://2314428465-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-Le0cHhI0S0DK8pwlrmD%2F-Le0cKOp1vaxoORIi4ak%2F-Le0cdnCjSE44fCHQ9Fo%2F8.bmp?generation=1556953090647999\&alt=media)

梯度下降（蓝色折线）在垂直方向（$$b$$）上振荡较大，在水平方向（$$W$$）上振荡较小，表示在$$b$$方向上梯度较大，即$$db$$较大，而在$$W$$方向上梯度较小，即$$dW$$较小。因此，上述表达式中$$S\_{db}$$较大，而$$S\_{dW}$$较小。在更新$$W$$和$$b$$的表达式中，变化值$$\frac{dW}{\sqrt{S\_{dW}}}$$较大，而$$\frac{db}{\sqrt{S\_{db}}}$$较小。也就使得$$W$$变化得多一些，$$b$$变化得少一些。即加快了$$W$$方向的速度，减小了$$b$$方向的速度，减小振荡，实现快速梯度下降算法，其梯度下降过程如绿色折线所示。总的来说，就是如果哪个方向振荡大，就减小该方向的更新速度，从而减小振荡

为了避免RMSprop算法中分母为零，通常可以在分母增加一个极小的常数$$\varepsilon$$：

$$
W:=W-\alpha \frac{dW}{\sqrt{S\_{dW}}+\varepsilon},\ b:=b-\alpha \frac{db}{\sqrt{S\_{db}}+\varepsilon}
$$

$$\varepsilon=10^{-8}$$，或者其它较小值
