2.9 学习率衰减(Learning rate decay)

减小学习因子α\alpha也能有效提高神经网络训练速度,这种方法被称为learning rate decay, Learning rate decay就是随着迭代次数增加,学习因子α\alpha逐渐减小

下图中,蓝色折线表示使用恒定的学习因子α\alpha,由于每次训练α\alpha相同,步进长度不变,在接近最优值处的振荡也大,在最优值附近较大范围内振荡,与最优值距离就比较远。绿色折线表示使用不断减小的α\alpha,随着训练次数增加,α\alpha逐渐减小,步进长度减小,使得能够在最优值处较小范围内微弱振荡,不断逼近最优值。相比较恒定的α\alpha来说,learning rate decay更接近最优值

Learning rate decay中对α\alpha的公式:

α=11+decay_rateepochα0\alpha=\frac{1}{1+decay\_rate*epoch}\alpha_0

deacy_rate是参数(可调),epoch是迭代次数。随着epoch增加,α\alpha会不断变小

其它计算公式:

α=0.95epochα0\alpha=0.95^{epoch}\cdot \alpha_0
α=kepochα0    or    ktα0\alpha=\frac{k}{\sqrt{epoch}}\cdot \alpha_0\ \ \ \ or\ \ \ \ \frac{k}{\sqrt{t}}\cdot \alpha_0

kk为可调参数,tt为mini-bach number

还可以设置α\alpha为关于tt的离散值,随着tt增加,α\alpha呈阶梯式减小。也可以根据训练情况灵活调整当前的α\alpha值,但会比较耗时间

Last updated