3.10触发字检测（Trigger Word Detection）

触发字系统的例子如下：

对于这样的RNN结构，要做的就是计算出一个音频片段（an audio clip）的声谱图特征（spectrogram features），得到特征向量 $x^{<1>}$ , $x^{<2>}$ , $x^{<3>}$ ..，然后把它放到RNN中，最后定义目标标签 $y$

假如音频片段中的这一点是某人刚刚说完一个触发字，比如"Alexa"，那么在这一点之前，可以在训练集中把目标标签都设为0，在这个点之后把目标标签设为1。假如在一段时间之后，触发字又被说了一次，那么就可以再次在这个点之后把目标标签设为1

不过该算法一个明显的缺点：它构建了一个很不平衡的训练集（a very imbalanced training set），0的数量比1多太多

解决方法：在输出变回0之前，多次输出1，或说在固定的一段时间内输出多个1，就稍微提高了1与0的比例，即在音频片段中，触发字刚被说完之后，就把多个目标标签设为1

Last updated 6 years ago