1.4 正则化(Regularization)
Last updated
Was this helpful?
Last updated
Was this helpful?
深度学习可能存在过拟合问题——高方差,有两个解决方法,一个是正则化,另一个是准备更多的数据
乘以范数的平方,欧几里德范数的平方等于( 值从1到)平方的和,也可表示为,也就是向量参数的欧几里德范数(2范数)的平方,此方法称为正则化。因为这里用了欧几里德法线,被称为向量参数的范数。
为什么不再加上参数呢?因为通常是一个高维参数矢量,几乎涵盖所有参数,已经可以表达高偏差问题,所以参数很大程度上由决定,而只是众多参数中的一个,改变值对整体模型影响较小,所以通常省略不计,如果加了参数,也没太大影响
在深度学习模型中,L2 regularization的表达式为:
正则化是最常见的正则化类型,正则化是正则项乘以,也被称为参数向量的范数无论分母是,还是,它都是一个比例常量
如果用的是正则化,最终会是稀疏的,也就是说向量中有很多0,虽然正则化使模型变得稀疏,却没有降低太多存储内存,实际上L1 regularization在解决high variance方面比L2 regularization并不更具优势。而且,L1的在微分求导方面比较复杂
是正则化参数,可以设置为不同的值,在Dev set中进行验证,选择最佳的,通常使用验证集或交叉验证集来配置这个参数
称为Frobenius范数,记为。一个矩阵的Frobenius范数就是计算所有元素平方和再开方,如下所示:
由于加入了正则化项,梯度下降算法中的计算表达式需要做如下修改:
L2 regularization也被称做weight decay。这是因为,由于加上了正则项,有个增量,在更新的时候,会多减去这个增量,使得比没有正则项的值要小一些。不断迭代更新,不断地减小
其中,