2.8 Adam 优化算法(Adam optimization algorithm)

Adam（Adaptive Moment Estimation）算法结合了动量梯度下降算法和RMSprop算法。其算法流程为：

$V_{dW}=0,\ S_{dW},\ V_{db}=0,\ S_{db}=0$

$On\ iteration\ t:$

\ \ \ \ Cimpute\ dW,\ db

\ \ \ \ V_{dW}=\beta_1V_{dW}+(1-\beta_1)dW,\ V_{db}=\beta_1V_{db}+(1-\beta_1)db

\ \ \ \ S_{dW}=\beta_2S_{dW}+(1-\beta_2)dW^2,\ S_{db}=\beta_2S_{db}+(1-\beta_2)db^2

\ \ \ \ V_{dW}^{corrected}=\frac{V_{dW}}{1-\beta_1^t},\ V_{db}^{corrected}=\frac{V_{db}}{1-\beta_1^t}

\ \ \ \ S_{dW}^{corrected}=\frac{S_{dW}}{1-\beta_2^t},\ S_{db}^{corrected}=\frac{S_{db}}{1-\beta_2^t}

\ \ \ \ W:=W-\alpha\frac{V_{dW}^{corrected}}{\sqrt{S_{dW}^{corrected}}+\varepsilon},\ b:=b-\alpha\frac{V_{db}^{corrected}}{\sqrt{S_{db}^{corrected}}+\varepsilon}

Adam算法包含了几个超参数，分别是： $\alpha,\beta_1,\beta_2,\varepsilon$ , $\beta_1$ 通常设置为0.9， $\beta_2$ 通常设置为0.999， $\varepsilon$ 通常设置为 $10^{-8}$ 。一般只需要对 $\beta_1$ 和 $\beta_2$ 进行调试

Adam算法结合了动量梯度下降和RMSprop各自的优点，使得神经网络训练速度大大提高

Previous2.7 RMSprop( root mean square prop)Next2.9 学习率衰减(Learning rate decay)

Last updated 6 years ago

Was this helpful?