1.11 神经网络的权重初始化(Weight Initialization for Deep Networks)
忽略了常数项b
Previous1.10 梯度消失/梯度爆炸(Vanishing / Exploding gradients)Next1.12 梯度的数值逼近(Numerical approximation of gradients)
Last updated
忽略了常数项b
Last updated
深度神经网络模型中,以单个神经元为例,该层()的输入个数为,其输出为:
为了让不会过大或者过小,应该越小才好。方法是在初始化时,令其方差为
激活函数是相应的python伪代码为:
如果激活函数是,权重的初始化一般令其方差为:
另外一种初始化的方法,令其方差为: