C=4,某个样本的预测输出y^\hat yy^和真实输出yyy:
从y^\hat yy^值来看,P(y=4∣x)=0.4P(y=4|x)=0.4P(y=4∣x)=0.4,概率最大,而真实样本属于第2类,该预测效果不佳
定义softmax classifier的loss function为:
L(y^,y)L(\hat y,y)L(y^,y)简化为:
让L(y^,y)L(\hat y,y)L(y^,y)更小,就应该让y^2\hat y_2y^2越大越好。y^2\hat y_2y^2反映的是概率
m个样本的cost function为:
预测输出向量A[L]A^{[L]}A[L]即Y^\hat YY^的维度为(4, m)
softmax classifier的反向传播过程:
先推导dZ[L]dZ^{[L]}dZ[L]:
所有m个训练样本:
Last updated 6 years ago