3.9 (选修)直观理解反向传播(Backpropagation intuition )

单个训练样本反向过程可以根据梯度计算方法逐一推导:

dz[2]=a[2]ydz^{[2]}=a^{[2]}-y
dW[2]=dz[2]z[2]W[2]=dz[2]a[1]TdW^{[2]}=dz^{[2]}\cdot \frac{\partial z^{[2]}}{\partial W^{[2]}}=dz^{[2]}a^{[1]T}
db[2]=dz[2]z[2]b[2]=dz[2]1=dz[2]db^{[2]}=dz^{[2]}\cdot \frac{\partial z^{[2]}}{\partial b^{[2]}}=dz^{[2]}\cdot 1=dz^{[2]}
dz[1]=dz[2]z[2]a[1]a[1]z[1]=W[2]Tdz[2]g[1](z[1])dz^{[1]}=dz^{[2]}\cdot \frac{\partial z^{[2]}}{\partial a^{[1]}}\cdot \frac{\partial a^{[1]}}{\partial z^{[1]}}=W^{[2]T}dz^{[2]}\ast g^{[1]'}(z^{[1]})
dW[1]=dz[1]z[1]W[1]=dz[1]xTdW^{[1]}=dz^{[1]}\cdot \frac{\partial z^{[1]}}{\partial W^{[1]}}=dz^{[1]}x^T
db[1]=dz[1]z[1]b[1]=dz[1]1=dz[1]db^{[1]}=dz^{[1]}\cdot \frac{\partial z^{[1]}}{\partial b^{[1]}}=dz^{[1]}\cdot 1=dz^{[1]}

浅层神经网络(包含一个隐藏层),mm个训练样本的正向传播过程和反向传播过程分别包含了66个表达式,其向量化矩阵形式如下图所示:

Last updated