# 1.10 梯度消失/梯度爆炸（Vanishing / Exploding gradients）

当训练一个层数非常多的神经网络时，计算得到的梯度可能非常小或非常大，甚至是指数级别的减小或增大

![](https://2314428465-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-Le0cHhI0S0DK8pwlrmD%2F-Le0cKOp1vaxoORIi4ak%2F-Le0co1y-pyloB51Wgz_%2F6.bmp?generation=1556953122557360\&alt=media)

令各层的激活函数为线性函数，即$$g(Z)=Z$$。且忽略各层常数项b的影响，令b全部为零。该网络的预测输出$$\hat Y$$为：

$$
\hat Y=W^{\[L]}W^{\[L-1]}W^{\[L-2]}\cdots W^{\[3]}W^{\[2]}W^{\[1]}X
$$

如果各层权重$$W\[l]$$的元素都稍大于1，例如1.5，则预测输出$$\hat Y$$将正比于$$1.5^L$$。L越大，$$\hat Y$$越大，且呈指数型增长。称之为**梯度爆炸**。

如果各层权重$$W\[l]$$的元素都稍小于1，例如0.5，则预测输出$$\hat Y$$将正比于$$0.5^L$$。网络层数L越多，$$\hat Y$$呈指数型减小。称之为**梯度消失**
