3.10触发字检测(Trigger Word Detection)
Last updated
Last updated
触发字系统的例子如下:
对于这样的RNN结构,要做的就是计算出一个音频片段(an audio clip)的声谱图特征(spectrogram features),得到特征向量, , ..,然后把它放到RNN中,最后定义目标标签
假如音频片段中的这一点是某人刚刚说完一个触发字,比如"Alexa",那么在这一点之前,可以在训练集中把目标标签都设为0,在这个点之后把目标标签设为1。假如在一段时间之后,触发字又被说了一次,那么就可以再次在这个点之后把目标标签设为1
不过该算法一个明显的缺点:它构建了一个很不平衡的训练集(a very imbalanced training set),0的数量比1多太多
解决方法:在输出变回0之前,多次输出1,或说在固定的一段时间内输出多个1,就稍微提高了1与0的比例,即在音频片段中,触发字刚被说完之后,就把多个目标标签设为1