1.10 梯度消失/梯度爆炸（Vanishing / Exploding gradients）

当训练一个层数非常多的神经网络时，计算得到的梯度可能非常小或非常大，甚至是指数级别的减小或增大

令各层的激活函数为线性函数，即 $g(Z)=Z$ 。且忽略各层常数项b的影响，令b全部为零。该网络的预测输出 $\hat Y$ 为：

\hat Y=W^{[L]}W^{[L-1]}W^{[L-2]}\cdots W^{[3]}W^{[2]}W^{[1]}X

如果各层权重 $W[l]$ 的元素都稍大于1，例如1.5，则预测输出 $\hat Y$ 将正比于 $1.5^L$ 。L越大， $\hat Y$ 越大，且呈指数型增长。称之为梯度爆炸。

如果各层权重 $W[l]$ 的元素都稍小于1，例如0.5，则预测输出 $\hat Y$ 将正比于 $0.5^L$ 。网络层数L越多， $\hat Y$ 呈指数型减小。称之为梯度消失

Last updated 6 years ago

Was this helpful?