1.10 梯度消失/梯度爆炸(Vanishing / Exploding gradients)

当训练一个层数非常多的神经网络时,计算得到的梯度可能非常小或非常大,甚至是指数级别的减小或增大

令各层的激活函数为线性函数,即g(Z)=Zg(Z)=Z。且忽略各层常数项b的影响,令b全部为零。该网络的预测输出Y^\hat Y为:

Y^=W[L]W[L1]W[L2]W[3]W[2]W[1]X\hat Y=W^{[L]}W^{[L-1]}W^{[L-2]}\cdots W^{[3]}W^{[2]}W^{[1]}X

如果各层权重W[l]W[l]的元素都稍大于1,例如1.5,则预测输出Y^\hat Y将正比于1.5L1.5^L。L越大,Y^\hat Y越大,且呈指数型增长。称之为梯度爆炸

如果各层权重W[l]W[l]的元素都稍小于1,例如0.5,则预测输出Y^\hat Y将正比于0.5L0.5^L。网络层数L越多,Y^\hat Y呈指数型减小。称之为梯度消失

Last updated