3.10触发字检测(Trigger Word Detection)

触发字系统的例子如下:

对于这样的RNN结构,要做的就是计算出一个音频片段(an audio clip)的声谱图特征(spectrogram features),得到特征向量x<1>x^{<1>}, x<2>x^{<2>}, x<3>x^{<3>}..,然后把它放到RNN中,最后定义目标标签yy

假如音频片段中的这一点是某人刚刚说完一个触发字,比如"Alexa",那么在这一点之前,可以在训练集中把目标标签都设为0,在这个点之后把目标标签设为1。假如在一段时间之后,触发字又被说了一次,那么就可以再次在这个点之后把目标标签设为1

不过该算法一个明显的缺点:它构建了一个很不平衡的训练集(a very imbalanced training set),0的数量比1多太多

解决方法:在输出变回0之前,多次输出1,或说在固定的一段时间内输出多个1,就稍微提高了1与0的比例,即在音频片段中,触发字刚被说完之后,就把多个目标标签设为1

Last updated