减小学习因子α\alphaα也能有效提高神经网络训练速度,这种方法被称为learning rate decay, Learning rate decay就是随着迭代次数增加,学习因子α\alphaα逐渐减小
下图中,蓝色折线表示使用恒定的学习因子α\alphaα,由于每次训练α\alphaα相同,步进长度不变,在接近最优值处的振荡也大,在最优值附近较大范围内振荡,与最优值距离就比较远。绿色折线表示使用不断减小的α\alphaα,随着训练次数增加,α\alphaα逐渐减小,步进长度减小,使得能够在最优值处较小范围内微弱振荡,不断逼近最优值。相比较恒定的α\alphaα来说,learning rate decay更接近最优值
Learning rate decay中对α\alphaα的公式:
deacy_rate是参数(可调),epoch是迭代次数。随着epoch增加,α\alphaα会不断变小
其它计算公式:
kkk为可调参数,ttt为mini-bach number
还可以设置α\alphaα为关于ttt的离散值,随着ttt增加,α\alphaα呈阶梯式减小。也可以根据训练情况灵活调整当前的α\alphaα值,但会比较耗时间
Last updated 6 years ago