2.6 定位数据不匹配(Addressing data mismatch)
Previous2.5 不匹配数据划分的偏差和方差(Bias and Variance with mismatched data distributions)Next2.7 迁移学习(Transfer learning)
Last updated
Last updated
解决train set与dev/test set样本分布不一致的两条建议:
为了让训练数据更接近开发集,可以人工合成数据(artificial data synthesis)。例如说话人识别问题,实际应用场合(dev/test set)是包含背景噪声的,而训练样本train set很可能没有背景噪声。为了让train set与dev/test set分布一致,可以在train set上人工添加背景噪声,合成类似实际场景的声音。这样会让模型训练的效果更准确。但是不能给每段语音都增加同一段背景噪声,会出现对背景噪音过拟合,这就是人工数据合成需要注意的地方
研发无人驾驶汽车,用计算机合成图像
如果只合成这些车中很小的子集,学习算法可能会对合成的这一个小子集过拟合