2.6 定位数据不匹配（Addressing data mismatch）

解决train set与dev/test set样本分布不一致的两条建议：

为了让训练数据更接近开发集，可以人工合成数据（artificial data synthesis）。例如说话人识别问题，实际应用场合（dev/test set）是包含背景噪声的，而训练样本train set很可能没有背景噪声。为了让train set与dev/test set分布一致，可以在train set上人工添加背景噪声，合成类似实际场景的声音。这样会让模型训练的效果更准确。但是不能给每段语音都增加同一段背景噪声，会出现对背景噪音过拟合，这就是人工数据合成需要注意的地方

研发无人驾驶汽车，用计算机合成图像

如果只合成这些车中很小的子集，学习算法可能会对合成的这一个小子集过拟合

Previous2.5 不匹配数据划分的偏差和方差（Bias and Variance with mismatched data distributions）Next2.7 迁移学习（Transfer learning）

Last updated 6 years ago

Was this helpful?