1.8 为什么是人的表现?( Why human-level performance?)
Previous1.7 什么时候该改变开发/测试集和指标?(When to change dev/test sets and metrics)Next1.9 可避免偏差(Avoidable bias)
Last updated
Last updated
机器学习模型的表现通常会跟人类水平表现作比较:
当开始往人类水平努力时,进展很快,机器学习模型经过训练会不断接近human-level performance甚至超过它。超过之后,准确性会上升得比较缓慢,当继续训练算法时,可能模型越来越大,数据越来越多,但是性能无法超过某个理论上限,这就是所谓的贝叶斯最优错误率(Bayes optimal error)。理论上任何模型都不能超过它,即没有任何办法设计出一个到的函数,让它能够超过一定的准确度,bayes optimal error代表了最佳表现
对于语音识别来说,如果是音频片段,有些音频很嘈杂,基本不可能知道说的是什么,所以完美的准确率可能不是100%。对于猫图识别来说,也许一些图像非常模糊,不管是人类还是机器,都无法判断该图片中是否有猫。所以完美的准确度可能不是100
贝叶斯最优错误率有时写作Bayesian,即省略optimal,就是从到映射的理论最优函数,永远不会被超越。,无论在一个问题上工作多少年,紫色线永远不会超越贝叶斯错误率,贝叶斯最佳错误率
机器学习的进展直到超越人类的表现之前一直很快,当超越时,有时进展会变慢。有两个原因:
人类水平在很多任务中离贝叶斯最优错误率已经不远
只要表现比人类的表现更差,可以使用某些工具来提高性能。一旦超越了人类的表现,这些工具就没那么好用
只要人类的表现比任何其他算法都要好,就可以让人类看看算法处理的例子,知道错误出在哪里,并尝试了解为什么人能做对,算法做错