样本数量不多(小于一万)的时候,通常将Train/dev/test sets的比例设为60%/20%/20%
没有dev sets的情况下,Train/test sets的比例设为70%/30%
样本数量很大(百万级别)的时候,通常将相应的比例设为98%/1%/1%或者99%/1%
dev sets数量的设置,遵循的准则是通过dev sets能够检测不同算法或模型的区别,以便选择出更好的模型
test sets数量的设置,遵循的准则是通过test sets能够反映出模型在实际中的表现
实际应用中,可能只有train/dev sets,而没有test sets。这种情况也是允许的,只要算法模型没有对dev sets过拟合。但条件允许的话,最好有test sets,实现无偏估计
Last updated 6 years ago