当训练一个层数非常多的神经网络时,计算得到的梯度可能非常小或非常大,甚至是指数级别的减小或增大
令各层的激活函数为线性函数,即g(Z)=Zg(Z)=Zg(Z)=Z。且忽略各层常数项b的影响,令b全部为零。该网络的预测输出Y^\hat YY^为:
如果各层权重W[l]W[l]W[l]的元素都稍大于1,例如1.5,则预测输出Y^\hat YY^将正比于1.5L1.5^L1.5L。L越大,Y^\hat YY^越大,且呈指数型增长。称之为梯度爆炸。
如果各层权重W[l]W[l]W[l]的元素都稍小于1,例如0.5,则预测输出Y^\hat YY^将正比于0.5L0.5^L0.5L。网络层数L越多,Y^\hat YY^呈指数型减小。称之为梯度消失
Last updated 6 years ago