3.5 将 Batch Norm 拟合进神经网络(Fitting Batch Norm into a neural network)

前向传播的计算流程:

实现梯度下降:

for t = 1 … num (这里num 为Mini Batch 的数量):

  • 在每一个XtX^t 上进行前向传播(forward prop)的计算:

  • 使用反向传播(Back prop)计算各个参数的梯度:dw[l],dγ[l],dβ[l]dw^{[l]},d\gamma^{[l]},d\beta^{[l]}

  • 更新参数:

    • w[l]:=w[l]αdw[l]w^{[l]}:=w^{[l]}-\alpha dw^{[l]}

    • γ[l]:=γ[l]αdγ[l]\gamma^{[l]}:=\gamma^{[l]}-\alpha d\gamma^{[l]}

    • β[l]:=β[l]αdβ[l]\beta^{[l]}:=\beta^{[l]}-\alpha d\beta^{[l]}

经过Batch Norm的作用,整体流程如下:

除了传统的梯度下降算法之外,还可以使用动量梯度下降、RMSprop或者Adam等优化算法

Last updated