2.4 在不同的划分上进行训练并测试(Training and testing on different distributions)
Previous2.3 快速搭建你的第一个系统,并进行迭代(Build your first system quickly, then iterate)Next2.5 不匹配数据划分的偏差和方差(Bias and Variance with mismatched data distributions)
Last updated
Last updated
假设只收集到10,000张用户上传的照片和超过20万张网上下载的高清猫图:
做法一:将两组数据合并在一起,把这21万张照片随机分配到训练、开发和测试集中。假设已经确定开发集和测试集各包含2500个样本,训练集有205000个样本。
好处:训练集、开发集和测试集都来自同一分布
坏处:开发集的2500个样本中很多图片都来自网页下载的图片,并不是真正关心的数据分布,因为真正要处理的是来自手机的图片
2500个样本有张图来自网页下载,平均只有119张图来自手机上传。设立开发集的目的是告诉团队去瞄准的目标,而瞄准目标的大部分精力却都用在优化来自网页下载的图片
建议:开发集和测试集都是2500张来自应用的图片,训练集包含来自网页的20万张图片还有5000张来自应用的图片,现在瞄准的目标就是想要处理的目标,才是真正关心的图片分布
假设有很多不是来自语音激活后视镜的数据
分配:
训练集500k段语音,开发集和测试集各包含10k段语音(从实际的语音激活后视镜收集)
也可以拿一半放训练集里,训练集51万段语音,开发集和测试集各5000