> For the complete documentation index, see [llms.txt](https://baozoulin.gitbook.io/neural-networks-and-deep-learning/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://baozoulin.gitbook.io/neural-networks-and-deep-learning/di-er-men-ke-gai-shan-shen-ceng-shen-jing-wang-luo-chao-can-shu-tiao-shi-zheng-ze-hua-yi-ji-you-hua/improving-deep-neural-networks/practical-aspects-of-deep-learning/110-ti-du-xiao-5931-ti-du-bao-zha-ff08-vanishing-exploding-gradients.md).

# 1.10 梯度消失/梯度爆炸（Vanishing / Exploding gradients）

当训练一个层数非常多的神经网络时，计算得到的梯度可能非常小或非常大，甚至是指数级别的减小或增大

![](/files/-Le0co1y-pyloB51Wgz_)

令各层的激活函数为线性函数，即$$g(Z)=Z$$。且忽略各层常数项b的影响，令b全部为零。该网络的预测输出$$\hat Y$$为：

$$
\hat Y=W^{\[L]}W^{\[L-1]}W^{\[L-2]}\cdots W^{\[3]}W^{\[2]}W^{\[1]}X
$$

如果各层权重$$W\[l]$$的元素都稍大于1，例如1.5，则预测输出$$\hat Y$$将正比于$$1.5^L$$。L越大，$$\hat Y$$越大，且呈指数型增长。称之为**梯度爆炸**。

如果各层权重$$W\[l]$$的元素都稍小于1，例如0.5，则预测输出$$\hat Y$$将正比于$$0.5^L$$。网络层数L越多，$$\hat Y$$呈指数型减小。称之为**梯度消失**
