3.5 将 Batch Norm 拟合进神经网络(Fitting Batch Norm into a neural network)
Previous3.4 归一化网络的激活函数( Normalizing activations in a network)Next3.6 Batch Norm 为什么奏效?(Why does Batch Norm work?)
Last updated
Last updated
前向传播的计算流程:
实现梯度下降:
for t = 1 … num (这里num 为Mini Batch 的数量):
更新参数:
经过Batch Norm的作用,整体流程如下:
除了传统的梯度下降算法之外,还可以使用动量梯度下降、RMSprop或者Adam等优化算法
在每一个 上进行前向传播(forward prop)的计算:
在每个隐藏层都用 Batch Norm 将替换为
使用反向传播(Back prop)计算各个参数的梯度:
Batch Norm对各隐藏层有去均值的操作,Batch Norm 要做的就是将归一化,结果成为均值为0,标准差为1的分布,再由 和 进行重新的分布缩放,意味着无论 值为多少,在这个过程中都会被减去,不会再起作用。所以常数项可以消去,其数值效果完全可以由中的来实现。在使用Batch Norm的时候,可以忽略各隐藏层的常数项。在使用梯度下降算法时,分别对,和进行迭代更新