2.3 快速搭建你的第一个系统,并进行迭代(Build your first system quickly, then iterate)
Previous2.2 清楚标注错误的数据(Cleaning up Incorrectly labeled data)Next2.4 在不同的划分上进行训练并测试(Training and testing on different distributions)
Last updated
Was this helpful?
Last updated
Was this helpful?
如果正在开发全新的机器学习应用,应该尽快建立第一个系统原型,然后快速迭代
改进语音识别系统特定的技术:
对于几乎所有的机器学习程序可能会有50个不同的方向可以前进,并且每个方向都是相对合理的可以改善系统。但挑战在于如何选择一个方向集中精力处理。如果想搭建全新的机器学习程序,就是快速搭好第一个系统,然后开始迭代。首先快速设立开发集和测试集还有指标,决定目标所在,如果目标定错,之后改也可以。但一定要设立某个目标,然后马上搭好一个机器学习系统原型,找到训练集训练一下,看算法表现如何,在开发集测试集,评估指标表现如何。当建立第一个系统后,就可以马上用到偏差方差分析和错误分析,来确定下一步优先做什么。如果错误分析到大部分的错误来源是说话人远离麦克风,就有很好的理由去集中精力研究这些技术,所谓远场语音识别的技术,就是处理说话人离麦克风很远的情况
建立初始系统所有意义:是一个快速和粗糙的实现(quick and dirty implementation),有一个学习过的系统,有一个训练过的系统,确定偏差方差的范围,知道下一步应该优先做什么,能够进行错误分析,观察一些错误,然后想出所有能走的方向,哪些是实际上最有希望的方向
当这个领域有很多可以借鉴的学术文献,处理的问题和要解决的几乎完全相同,比如人脸识别有很多学术文献,如果搭建一个人脸识别设备,可以从现有大量学术文献为基础出发,一开始就搭建比较复杂的系统。但如果第一次处理某个新问题,还是构建一些快速而粗糙的实现,然后用来找到改善系统要优先处理的方向