1.6 开发集和测试集的大小(Size of dev and test sets)
Previous1.5 训练/开发/测试集划分(Train/dev/test distributions)Next1.7 什么时候该改变开发/测试集和指标?(When to change dev/test sets and metrics)
Last updated
Last updated
样本数量不多(小于一万)的时候,通常将Train/dev/test sets的比例设为60%/20%/20%
没有dev sets的情况下,Train/test sets的比例设为70%/30%
样本数量很大(百万级别)的时候,通常将相应的比例设为98%/1%/1%或者99%/1%
dev sets数量的设置,遵循的准则是通过dev sets能够检测不同算法或模型的区别,以便选择出更好的模型
test sets数量的设置,遵循的准则是通过test sets能够反映出模型在实际中的表现
实际应用中,可能只有train/dev sets,而没有test sets。这种情况也是允许的,只要算法模型没有对dev sets过拟合。但条件允许的话,最好有test sets,实现无偏估计