第三周 序列模型和注意力机制(Sequence models & Attention mechanism)

3.1 基础模型(Basic Models)

机器翻译

x<1>x^{< 1>}x<5>x^{< 5>}表示输入句子的单词,用y<1>y^{< 1>}y<6>y^{< 6>}表示输出句子的单词:

首先,建立一个RNN编码网络(encoder network)(编号1),单元可以是GRULSTM。每次只向该网络中输入一个法语单词,将输入序列接收完毕后,这个RNN网络会输出一个向量来代表这个输入序列

之后建立一个解码网络(编号2),以编码网络的输出作为输入,之后它可以被训练为每次输出一个翻译后的单词,一直到它输出序列的结尾或者句子结尾标记

在给出足够的法语和英语文本的情况下,训练模型,通过输入一个法语句子来输出对应的英语翻译,这个模型将会非常有效。这个模型简单地用一个编码网络来对输入的法语句子进行编码,然后用一个解码网络来生成对应的英语翻译

图像描述

给出猫的图片,能自动地输出该图片的描述:一只猫坐在椅子上

通过输入图像来输出描述:

将图片输入到卷积神经网络中(一个预训练的AlexNet结构)(编号2),然后让其学习图片的编码,或者学习图片的一系列特征。去掉最后的softmax单元(编号3),这个预训练的AlexNet结构会输出4096维的特征向量,向量表示的就是这只猫的图片,这个预训练网络可以是图像的编码网络

接着把这个向量输入到RNN中(编号4),RNN要做的就是生成图像的描述,每次生成一个单词:输入一个描述输入的特征向量,然后让网络一个一个地输出单词序列

3.2 选择最可能的句子(Picking the most likely sentence)

seq2seq机器翻译模型和第一周所用的语言模型之间有很多相似的地方,但也有许多重要的区别:

可以把机器翻译想成是建立一个条件语言模型,能够估计句子的可能性

绿色(编号2)表示encoder网络,紫色(编号3)表示decoder网络。不同在于语言模型总是以零向量(编号4)开始,而encoder网络会计算出一系列向量(编号2)来表示输入的句子,以这个向量作为输入,这叫做条件语言模型(conditional language model

相比语言模型输出任意句子的概率,翻译模型会输出句子的英文翻译(编号5),这取决于输入的法语句子(编号6)。即估计一个英文翻译的概率,比如估计"Jane is visiting Africa in September."翻译的概率,这句翻译是取决于法语句子,"Jane visite I'Afrique en septembre.",这就是英语句子相对于输入的法语句子的可能性,是一个条件语言模型

模型将法语翻译成英文,通过输入的法语句子模型将会告诉你各种英文翻译所对应的可能性

$x$是法语句子"Jane visite l'Afrique en septembre.",它将告诉你不同的英语翻译所对应的概率:从这个分布中进行取样得到P(yx)P(y|x),但不是从得到的分布中进行随机取样,而是要找到一个英语句子yy(编号1),使得条件概率最大化:

max P(y<1>,y<2>,,y<Ty>x<1>,x<2>,,x<Tx>)max\ P(y^{< 1>},y^{< 2>},\cdots,y^{< T_y>}|x^{< 1>},x^{< 2>},\cdots,x^{< T_x>})

而解决这种问题最通用的算法就是束搜索(Beam Search)

为什么不用贪心搜索(Greedy Search):

贪心搜索生成第一个词的分布以后,将会根据条件语言模型挑选出最有可能的第一个词进入机器翻译模型中,在挑选出第一个词之后将会继续挑选出最有可能的第二个词……这种算法就叫做贪心搜索,但是真正需要的是一次性挑选出整个单词序列,从y<1>y^{< 1>}y<2>y^{< 2>}y<Ty>y^{< T_{y}>}来使得整体的概率最大化。所以贪心算法先挑出最好的第一个词,在这之后再挑最好的第二词,然后再挑第三个,这种方法并不管用

第一串(编号1)翻译明显比第二个(编号2)好,但如果贪心算法挑选出了"Jane is"作为前两个词,因为在英语中going更加常见,于是对于法语句子来说"Jane is going"相比"Jane is visiting"会有更高的概率作为法语的翻译,所以如果仅仅根据前两个词来估计第三个词的可能性,得到的更可能是going,最终得到一个欠佳的句子

当想得到单词序列y<1>y^{< 1>}y<2>y^{< 2>}一直到最后一个词总体的概率时,一次仅仅挑选一个词并不是最佳的选择。如果字典中有10,000个单词,翻译有10个词,可能的组合就有10,000的10次方这么多,从这样大一个字典中来挑选单词,句子数量非常巨大,大大增加了运算成本,降低运算速度,不可能去计算每一种组合的可能性

所以最常用的办法就是用一个近似的搜索算法,它会尽力地将挑选出句子yy使得条件概率最大化,尽管不能保证找到的yy值一定可以使概率最大化

机器翻译模型和之前的语言模型一个主要的区别就是:相比之前的模型随机地生成句子,该模型是找到最有可能的翻译

Jane visite l'Afrique en Septembre.”翻译成英语"Jane is visiting Africa in September".,集束搜索算法首先做的就是挑选要输出的英语翻译中的第一个单词。这里列出了10,000个词的词汇表,忽略大小写,在集束搜索的第一步中用这个网络来评估第一个单词的概率值,给定输入序列xx,即法语作为输入,第一个输出yy的概率值是多少

集束搜索会考虑多个选择,集束搜索算法会有一个参数B,叫做集束宽(beam width)。这个例子中集束宽设成3,意味着集束搜索一次会考虑3个可能结果,比如对第一个单词有不同选择的可能性,最后找到injaneseptember,是英语输出的第一个单词的最可能的三个选项,然后集束搜索算法会把结果存到计算机内存里以便后面尝试用这三个词。为了执行集束搜索的第一步,需要输入法语句子到编码网络,然后解码这个网络,softmax层会输出10,000个概率值,然后取前三个存起来,概率表示为:

P(y^<1>x)P(\hat y^{< 1>} | x)

集束搜索算法的第二步:针对每个第一个单词考虑第二个单词是什么

为了评估第二个词的概率值,把y<1>y^{< 1>}设为单词in(编号3),输出就是y<2>y^{< 2>}(编号5),有了这个连接(编号6),这个网络就可以用来评估:在给定法语句子和翻译结果的第一个单词in的情况下第二个单词的概率

在第二步更关心的是要找到最可能的第一个和第二个单词对,所以不仅仅是第二个单词有最大的概率,而是第一个、第二个单词对有最大的概率(编号7)。可以表示成第一个单词的概率(编号8)乘以第二个单词的概率(编号9):

P(y^<1>,y^<2>x)=P(y^<1>x)P(y^<2>x,y^<1>)P(\hat y^{< 1>},\hat y^{< 2>}|x)=P(\hat y^{< 1>} | x)\cdot P(\hat y^{< 2>}|x,\hat y^{< 1>})

janeseptember跟上面一样

注意,如果集束搜索找到了第一个和第二个单词对最可能的三个选择是“in September”或者“jane is”或者“jane visits”,就意味着去掉了september作为英语翻译结果的第一个单词的选择,第一个单词现在减少到了两个可能结果,但是集束宽是3,还是有y<1>y^{< 1>}y<2>y^{< 2>}对的三个选择

接着,再预测第三个单词。分别以in september,jane is,jane visits为条件,计算每个词汇表单词作为预测第三个单词的概率。从中选择概率最大的3个作为第三个单词的预测值,得到:in september jane,jane is visiting,jane visits africa

概率表示为:

P(y^<3>x,y^<1>,y^<2>)P(\hat y^{< 3>}|x,\hat y^{< 1>},\hat y^{< 2>})

此时,得到的前三个单词的3种情况的概率为:

P(y^<1>,y^<2>,y^<3>x)=P(y^<1>x)P(y^<2>x,y^<1>)P(y^<3>x,y^<1>,y^<2>)P(\hat y^{< 1>},\hat y^{< 2>},\hat y^{< 3>}|x)=P(\hat y^{< 1>} | x)\cdot P(\hat y^{< 2>}|x,\hat y^{< 1>})\cdot P(\hat y^{< 3>}|x,\hat y^{< 1>},\hat y^{< 2>})

以此类推,每次都取概率最大的三种预测。最后,选择概率最大的那一组作为最终的翻译语句:

Jane is visiting Africa in September.

如果参数B=1,则就等同于greedy search。实际应用中,可以根据不同的需要设置B为不同的值。一般B越大,机器翻译越准确,但同时也会增加计算复杂度

长度归一化(Length normalization)是对束搜索算法稍作调整的一种方式,使之得到更好的结果

束搜索就是最大化概率P(y<1>y<Ty>X)P(y^{< 1 >}\ldots y^{< T_{y}>}|X),表示成:

P(y<1>X)P(y<2>X,y<1>)P(y<3>X,y<1>,y<2>)P(y<Ty>X,y<1>,y<2>y<Ty1>)P(y^{< 1>}|X)P(y^{< 2 >}|X,y^{< 1 >})P(y^{< 3 >}|X,y^{< 1 >},y^{< 2>})\cdots P(y^{< T_{y} >}|X,y^{< 1 >},y^{< 2 >}\ldots y^{< T_{y} - 1 >})

即乘积概率(the product probabilities):

arg maxt=1TyP(y^<t>x,y^<1>,,y^<t1>)arg\ max\prod_{t=1}^{T_y} P(\hat y^{< t>}|x,\hat y^{< 1>},\cdots,\hat y^{< t-1>})

这些概率值通常都远小于1,会造成数值下溢numerical underflow),即数值太小了,导致电脑的浮点表示不能精确地储存

因此在实践中,不会最大化这个乘积,而是取loglog值:

arg maxt=1TylogP(y^<t>x,y^<1>,,y^<t1>)arg\ max \sum_{t=1}^{T_y}\log P(\hat y^{< t>}|x,\hat y^{< 1>},\cdots,\hat y^{< t-1>})

会得到一个数值上更稳定的算法,不容易出现数值的舍入误差(rounding errors)或者说数值下溢(numerical underflow

参照原来的目标函数(this original objective),如果有一个很长的句子,那么这个句子的概率会很低,因为乘了很多项小于1的数字来估计句子的概率,就会得到一个更小的概率值,所以可能不自然地倾向于简短的翻译结果,因为短句子的概率是由更少数量的小于1的数字乘积得到的,所以乘积不会那么小。概率的loglog值也有同样的问题

解决:可以把它归一化,通过除以翻译结果的单词数量。即取每个单词的概率对数值的平均,这样很明显地减少了对输出长的结果的惩罚:

arg max 1Tyt=1TylogP(y^<t>x,y^<1>,,y^<t1>)arg\ max\ \frac{1}{T_y}\sum_{t=1}^{T_y}\log P(\hat y^{< t>}|x,\hat y^{< 1>},\cdots,\hat y^{< t-1>})

在实践中,会用一个更柔和的方法(a softer approach),在TyT_{y}上加上指数α\alpha

arg max 1Tyαt=1TylogP(y^<t>x,y^<1>,,y^<t1>)arg\ max\ \frac{1}{T_y^{\alpha}}\sum_{t=1}^{T_y}\log P(\hat y^{< t>}|x,\hat y^{< 1>},\cdots,\hat y^{< t-1>})

$\alpha$可以等于0.7。如果α\alpha等于1,就相当于完全用长度来归一化,如果α\alpha等于0,TyT_{y}的0次幂就是1,就相当于完全没有归一化,α\alpha就是算法另一个超参数(hyper parameter

总结一下如何运行束搜索算法:

当运行束搜索时,会看到很多长度分别等于1、2、3...的句子等等,针对这些所有的可能的输出句子,取概率最大的几个句子,然后对这些句子计算目标函数arg max 1Tyαt=1TylogP(y^<t>x,y^<1>,,y^<t1>)arg\ max\ \frac{1}{T_y^{\alpha}}\sum_{t=1}^{T_y}\log P(\hat y^{< t>}|x,\hat y^{< 1>},\cdots,\hat y^{< t-1>}),最后从经过评估的这些句子中挑选出在归一化的loglog 概率目标函数上得分最高的一个,也叫作归一化的对数似然目标函数a normalized log likelihood objective

如何选择束宽B:

  • B越大,考虑的选择越多,找到的句子可能越好,但是算法的计算代价越大,因为要把很多的可能选择保存起来,内存占用增大

  • 如果用小的束宽B,结果会没那么好,因为在算法运行中,保存的选择更少,但是算法运行的更快,内存占用也小

在产品中,经常可以看到把束宽设到10,当B很大的时候,性能提高会越来越少。对于很多应用来说,从束宽1,也就是贪心算法,到束宽为3、到10,会看到一个很大的改善。但是当束宽从1000增加到3000时,效果就没那么明显

相对广度优先搜索(BFS, Breadth First Search algorithms),深度优先搜索(DFS, Depth First Search)这些精确的搜索算法(exact search algorithms),束搜索运行的更快,但是不能保证一定能找到argmax的准确的最大值

束搜索算法是一种近似搜索算法an approximate search algorithm),也被称作启发式搜索算法a heuristic search algorithm),它不总是输出可能性最大的句子,它仅记录着B为前3或者10或是100种可能

人工标记为yy^*。束搜索算法翻译结果标记为y^\hat y,是一个十分糟糕的翻译,改变了句子的原意:

模型有两个主要部分,一个是神经网络模型,或说是序列到序列模型(sequence to sequence model),称作是RNN模型,另一部分是束搜索算法,以某个集束宽度B运行

RNN(循环神经网络)实际上是个编码器和解码器(the encoder and the decoder),它会计算P(yx)P(y|x)。如对于句子:Jane visits Africa in September,将Jane visits Africa填入这里(上图编号1),忽略字母的大小写,后面也是一样,计算得到P(yx)P(y^*|x)P(y^x)P(\hat y|x) 同样如此,然后比较一下这两个值哪个更大

  • P(yx)P(y^*|x) 大于P(y^x)P(\hat y|x),可束搜索算法却选择了y^\hat y , 因此能够得出束搜索算法实际上不能给出使P(yx)P(y|x)最大化的yy值,因为束搜索算法的任务就是寻找一个yy的值来使这项更大,但是它却选择了y^\hat y,而yy^*实际上能得到更大的值。因此这种情况下束搜索算法出错

  • P(yx)P(y^*|x)小于或等于P(y^x)P(\hat y|x)yy^* 是比 y^\hat y更好的翻译结果,不过根据RNN模型的结果,P(y)P(y^*) 是小于P(y^)P(\hat y)的,即相比于y^\hat yyy^*成为输出的可能更小。因此在这种情况下是RNN模型出了问题

以上都忽略了长度归一化(length normalizations)的细节,如果用了某种长度归一化,那么要比较长度归一化后的最优化目标函数值

误差分析过程:

  1. 先遍历开发集,找出算法产生的错误

  2. 假如P(yx)P(y^*|x)的值为2 x 1010^{-10},而P(y^x)P(\hat y|x)的值为 1 x1010^{-10},得知束搜索算法实际上选择了比yy^*可能性更低的y^\hat y,则束搜索算法出错,缩写为B

  3. 接着继续遍历第二个错误,若对于第二个例子是RNN模型出现了问题,用缩写R来代表RNN

  4. 接着遍历更多的例子,有时是束搜索算法出现了问题,有时是模型出现了问题,等等

  5. 执行误差分析,得出束搜索算法和RNN模型出错的比例是多少。对开发集中每一个错误例子,即算法输出了比人工翻译更差的结果的情况,尝试确定是搜索算法出了问题,还是生成目标函数(束搜索算法使之最大化)的RNN模型出了问题。找到这两个部分中哪个是产生更多错误的原因

  6. 只有当发现是束搜索算法造成了大部分错误时,才值得花费努力增大集束宽度B;如果发现是RNN模型出了更多错,那么可以进行更深层次的分析,来决定是需要增加正则化还是获取更多的训练数据,抑或是尝试一个不同的网络结构

3.6 Bleu 得分(选修)(Bleu Score (optional))

机器翻译(machine translation)的一大难题是一个法语句子可以有多种英文翻译而且都同样很好,常见的解决办法是通过一个BLEU得分(the BLEU score)的东西来解决,BLEU得分是一个有用的单一实数评估指标,用于评估生成文本的算法,判断输出的结果是否与人工写出的参考文本的含义相似

一般有多个人工翻译:

BLEU得分做的就是给定一个机器生成的翻译,它能够自动地计算一个分数来衡量机器翻译的好坏。只要机器生成的翻译与任何一个人工翻译的结果足够接近,那么它就会得到一个高的BLEU分数。BLEU代表bilingual evaluation understudy(双语评估替补)。且这些人工翻译的参考会包含在开发集或是测试集中

假设机器翻译 (MT)的输出是:the the the the the the the,是一个十分糟糕的翻译。衡量机器翻译输出质量的方法之一是观察输出结果的每一个词,看其是否出现在参考中,这被称做是机器翻译的精确度(a precision of the machine translation output)。这个情况下,机器翻译输出了七个单词并且这七个词中的每一个都出现在了参考1或是参考2,因此输出的精确度就是7/7,分母为机器翻译单词数目,分子为相应单词是否出现在参考翻译中。但是,这种方法很不科学,并不可取

改良后的精确度评估方法(the modified precision measure):把每一个单词的记分上限定为它在参考句子中出现的最多次数。在参考1中,单词the出现了两次,在参考2中,单词the只出现了一次。单词the的得分上限为2。输出句子的得分为2/7,分母是7个词中单词the总共出现的次数,分子是单词the出现的计数,在达到上限时截断计数

上述都只是关注单独的单词,在BLEU得分中,另外一种更科学的打分方法是bleu score on bigrams(二元词组),bigram的意思就是相邻的两个单词

定义截取计数the clipped count),也就是Count_clip:给算法设置得分上限,上限值为二元词组出现在参考12中的最大次数

假定机器翻译输出了稍微好一点的翻译,对MT output进行分解,得到的bigrams及其出现在MT output中的次数count为:

相应的bigrams precision为4/6也就是2/3,为二元词组改良后的精确度

将改良后的一元词组精确度定义为P1P_1PP代表的是精确度。下标1的意思是一元词组,即考虑单独的词,PnP_n 定义为nn元词组精确度,用n-gram替代掉一元词组。即机器翻译输出中的nn元词组的countclip之和除以nn元词组的出现次数之和

如果机器翻译输出与参考1或是参考2完全一致,那么所有的P1P_1P2P_2等等的值,都会等于1.0

最终的BLEU得分:

将得到的P1P_1P2P_2P3P_3...PnP_n 相加再取平均值

BLEU得分被定义为:

p=exp(1ni=1nPi)p=exp (\frac{1}{n}\sum\limits_{i=1}^{n}{P_i})

然后用BP(“简短惩罚”brevity penalty) 的惩罚因子(the BP penalty)来调整。它能够惩罚输出了太短翻译结果的翻译系统:

p=BPexp(1ni=1npi)p=BP\cdot exp(\frac1n\sum_{i=1}^np_i)

BLEU得分被用来评估许多生成文本的系统(systems that generate text),比如说机器翻译系统(machine translation systems),图像描述系统(image captioning systems)。不过它并没有用于语音识别(speech recognition)。因为在语音识别当中,通常只有一个答案

3.7 注意力模型直观理解(Attention Model Intuition)

给定一个很长的法语句子,在神经网络中,绿色的编码器要做的就是读整个句子,然后记忆整个句子,再在感知机中传递。紫色的神经网络,即解码网络(the decoder network)将生成英文翻译

对于短句子效果非常好,会有一个相对高的Bleu分(Bleu score),但是对于长句子而言,比如说大于30或者40词的句子,它的表现就会变差。Bleu评分随着单词数量变化,短的句子会难以翻译,因为很难得到所有词。对于长的句子,效果也不好,因为在神经网络中,记忆非常长句子是非常困难的。

而注意力模型翻译得很像人类,一次翻译句子的一部分。且机器翻译系统只会翻译句子的一部分,不会有一个巨大的下倾(huge dip),这个下倾衡量了神经网络记忆一个长句子的能力

对于句子里的每五个单词,使用双向的RNNa bidirectional RNN),使用另一个RNN生成英文翻译:

S^{< t>}$由原语句附近单元共同决定,注意力权重(attention weights)α<t,t>\alpha^{< t,t'>} 表示尝试生成第tt个英文词时应该花多少注意力在第tt'个法语词上面。直到最终生成<EOS>< EOS>。离得越近,注意力权重越大,相当于当前的注意力区域有个滑动窗。cc表示编码器激活函数在注意力权重加权后的结果,将cc输入到解码器用来生成翻译语句, 同时上一个时间步输出的翻译结果也加入

3.8 注意力模型(Attention Model)

注意力模型让一个神经网络只注意到一部分的输入句子。当它在生成句子的时候,更像人类翻译

假定有一个输入句子,并使用双向的RNN,或者双向的GRU或者双向的LSTM,去计算每个词的特征:

a<t>a^{< t{'}>}表示时间步tt上的特征向量。用tt{'}来索引法语句子里面的词,由于是双向RNN,每个a<t>a^{< t{'}>}

a<t>=(a<t>,a<t>)a^{< t{'}>}=(a^{\rightarrow < t{'}>},a^{\leftarrow < t{'}>})

注意力权重用α\alpha表示,C是各个RNN神经元经过注意力权重得到的参数值。例如α<1,t>\alpha^{< 1,t{'}>}表示机器翻译的第一个单词“jane”对应的第tt{'}个RNN神经元,C<1>C^{< 1>}表示机器翻译第一个单词“jane”对应的解码网络输入参数。满足:

tα<1,t>=1\sum_{t{'}}\alpha^{< 1,t{'}>}=1
C<1>=tα<1,t>a<t>C^{< 1>}=\sum_{t{'}}\alpha^{< 1,t{'}>}\cdot a^{< t{'}>}

用状态SS表示生成翻译。α<t,t>\alpha^{< t,t{'}>}是输出y^<t>\hat y^{< t>}tt{'}时对RNN单元花在a<t>a^{< t{ '}>}上的注意力权重因子。即在tt处生成输出词应该花多少注意力在第tt{'}个输入词上面

为了让α<t,t>\alpha^{< t,t{'}>}之和为1,利用softamx思想,引入参数e<t,t>e^{< t,t{'}>},使得:

a<t,t>=exp(e<t,t>)t=1Txexp(e<t,t>)a^{< t,t'>} = \frac{\text{exp}(e^{< t,t'>})}{\sum^{T_x}_{t'=1} \text{exp}(e^{< t,t'>})}

只要求出e<t,t>e^{< t,t{'}>},就能得到α<t,t>\alpha^{< t,t{'}>}

如何求出e<t,t>e^{< t,t{'}>}

建立一个简单的神经网络

输入s<t1>s^{< t-1>},即神经网络在上个时间步的状态和a<t>a^{< t{'}>},训练一个很小的神经网络,利用反向传播算法、梯度下降算法迭代优化,学到一个正确的函数e<t,t>e^{< t,t{'}>}α<t,t>\alpha^{< t,t{'}>}

缺点:计算量较大,TxT_x个输入单词和TyT_y个输出单词的注意力参数的总数是Tx×TyT_x\times T_y,但是在机器翻译的应用上,输入和输出的句子一般不会太长,消耗还是可以接受

注意力模型在图像捕捉方面也有应用。比如图片加标题(image captioning),即看一张图,写下这张图的标题

Attention model还能处理日期标准化的问题(the date normalization problem):

训练一个神经网络,输入任何形式的日期,生成标准化的日期形式

还有可视化的注意力权重(the visualizations of the attention weights)。颜色越白表示注意力权重越大,颜色越深表示权重越小。输出语句单词与其输入语句单词对应位置的注意力权重较大,即对角线附近

3.9 语音识别(Speech recognition)

输入音频片段xxan audio clip,x),生成文本yy

音频片段横轴是时间。麦克风的作用是测量出微小的气压变化,而气压随着时间而变化。音频数据的常见预处理步骤就是运行这个原始的音频片段,然后生成一个声谱图(a spectrogram),横轴是时间,纵轴是声音的频率(frequencies),图中不同的颜色显示了声波能量的大小(the amount of energy),也就是在不同的时间和频率上这些声音有多大

end-to-end模型中,可以构建一个系统,通过向系统中输入音频片段(audio clip),然后直接输出音频的文本(a transcript)。这种方法要用一个很大的数据集,需要上千上万个小时的语音素材

如何建立一个语音识别系统:

在输入音频的不同时间帧上,用一个注意力模型来输出文本描述,如"the quick brown fox"

另一种方法是CTC损失函数(CTC cost),即Connectionist Temporal Classification

输入xx和输出yy的数量都是一样,这里只是一个简单的单向RNN结构,在实际中有可能是双向的LSTM、GRU结构,并且通常是很深的模型

在语音识别中,通常输入的时间步数量(the number of input time steps)要比输出的时间步的数量(the number of output time steps)多出很多。如一段10秒的音频,并且特征(features)是100赫兹的,即每秒有100个样本,于是这段10秒的音频片段就会有1000个输入

算法思想如下:

把输出相应字符重复并加入空白(blank),形如:

ttt_h_eee______qqq__ttt \_ h\_eee\_ \_ \_ \sqcup\_ \_ \_ qqq\_ \_ \cdots

下划线”_“表示空白,“\sqcup“表示两个单词之间的空字符

CTC损失函数的一个基本规则是没有被空白符”_“分割的重复字符将被折叠到一起,即表示一个字符。thequick之间有一个空格符,这段序列折叠成"the q"

3.10 触发字检测(Trigger Word Detection)

触发字系统的例子如下:

对于这样的RNN结构,要做的就是计算出一个音频片段(an audio clip)的声谱图特征(spectrogram features),得到特征向量x<1>x^{< 1>}, x<2>x^{< 2>}, x<3>x^{< 3>}..,然后把它放到RNN中,最后定义目标标签yy

假如音频片段中的这一点是某人刚刚说完一个触发字,比如"Alexa",那么在这一点之前,可以在训练集中把目标标签都设为0,在这个点之后把目标标签设为1。假如在一段时间之后,触发字又被说了一次,那么就可以再次在这个点之后把目标标签设为1

不过该算法一个明显的缺点:它构建了一个很不平衡的训练集(a very imbalanced training set),0的数量比1多太多

解决方法:在输出变回0之前,多次输出1,或说在固定的一段时间内输出多个1,就稍微提高了1与0的比例,即在音频片段中,触发字刚被说完之后,就把多个目标标签设为1

Last updated