3.5 激活函数（Activation functions）

sigmoid函数

tanh函数

ReLU函数

Leaky ReLU函数

对于隐藏层的激活函数， $tanh$ 函数要比 $sigmoid$ 函数表现更好一些。因为 $tanh$ 函数的取值范围在 $[-1,+1]$ 之间，隐藏层的输出被限定在[ $-1,+1]$ 之间，可以看成是在 $0$ 值附近分布，均值为 $0$ 。这样从隐藏层到输出层，数据起到了归一化（均值为 $0$ ）的效果

对于输出层的激活函数，因为二分类问题的输出取值为 $\{0,+1\}$ ，所以一般会选择 $sigmoid$ 作为激活函数

选择 $ReLU$ 作为激活函数能够保证 $z$ 大于零时梯度始终为 $1$ ，从而提高神经网络梯度下降算法运算速度。但当 $z$ 小于零时，存在梯度为 $0$ 的缺点

$Leaky$ $ReLU$ 激活函数，能够保证 $z$ 小于零时梯度不为 $0$

Previous3.4 多样本向量化（Vectorizing across multiple examples ）Next3.6 为什么需要（非线性激活函数？（why need a nonlinear activation function?）

Last updated 6 years ago

Was this helpful?