1.10 梯度消失/梯度爆炸(Vanishing / Exploding gradients)

当训练一个层数非常多的神经网络时,计算得到的梯度可能非常小或非常大,甚至是指数级别的减小或增大

Last updated