1.10 梯度消失/梯度爆炸(Vanishing / Exploding gradients)
Last updated
Last updated
当训练一个层数非常多的神经网络时,计算得到的梯度可能非常小或非常大,甚至是指数级别的减小或增大
令各层的激活函数为线性函数,即。且忽略各层常数项b的影响,令b全部为零。该网络的预测输出为:
如果各层权重的元素都稍大于1,例如1.5,则预测输出将正比于。L越大,越大,且呈指数型增长。称之为梯度爆炸。
如果各层权重的元素都稍小于1,例如0.5,则预测输出将正比于。网络层数L越多,呈指数型减小。称之为梯度消失