# 3.9 训练一个 Softmax 分类器（Training a Softmax classifier）

C=4，某个样本的预测输出$$\hat y$$和真实输出$$y$$：

$$
\hat y=\left\[
\begin{matrix}
0.3 \\
0.2 \\
0.1 \\
0.4
\end{matrix}
\right]
$$

$$
y=\left\[
\begin{matrix}
0 \\
1 \\
0 \\
0
\end{matrix}
\right]
$$

从$$\hat y$$值来看，$$P(y=4|x)=0.4$$，概率最大，而真实样本属于第2类，该预测效果不佳

定义softmax classifier的loss function为：

$$
L(\hat y,y)=-\sum\_{j=1}^4y\_j\cdot log\ \hat y\_j
$$

$$L(\hat y,y)$$简化为：

$$
L(\hat y,y)=-y\_2\cdot log\ \hat y\_2=-log\ \hat y\_2
$$

让$$L(\hat y,y)$$更小，就应该让$$\hat y\_2$$越大越好。$$\hat y\_2$$反映的是概率

m个样本的cost function为：

$$
J=\frac{1}{m}\sum\_{i=1}^mL(\hat y,y)
$$

预测输出向量$$A^{\[L]}$$即$$\hat Y$$的维度为(4, m)

softmax classifier的反向传播过程:

先推导$$dZ^{\[L]}$$：

$$
da^{\[L]}=-\frac{1}{a^{\[L]}}
$$

![](https://2314428465-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-Le0cHhI0S0DK8pwlrmD%2F-Le0cKOp1vaxoORIi4ak%2F-Le0cu0_qkLHL8RCEl16%2F302import.png?generation=1556953147435547\&alt=media)

$$
\frac{\partial a^{\[L]}}{\partial z^{\[L]}}=\frac{\partial}{\partial z^{\[L]}}\cdot (\frac{e^{z^{\[L]}*i}}{\sum*{i=1}^Ce^{z^{\[L]}\_i}})=a^{\[L]}\cdot (1-a^{\[L]})
$$

![](https://2314428465-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-Le0cHhI0S0DK8pwlrmD%2F-Le0cKOp1vaxoORIi4ak%2F-Le0cu0cqh_x9Co4oUXR%2F304import.png?generation=1556953147400869\&alt=media)

![](https://2314428465-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-Le0cHhI0S0DK8pwlrmD%2F-Le0cKOp1vaxoORIi4ak%2F-Le0cu0eFYBxfRSGIihb%2F299import.png?generation=1556953147405445\&alt=media)

![](https://2314428465-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-Le0cHhI0S0DK8pwlrmD%2F-Le0cKOp1vaxoORIi4ak%2F-Le0cu0gWv6UdF6fa9tV%2F301import.png?generation=1556953147473978\&alt=media)

所有m个训练样本：

$$
dZ^{\[L]}=A^{\[L]}-Y
$$
