3.7 注意力模型直观理解(Attention Model Intuition)

给定一个很长的法语句子,在神经网络中,绿色的编码器要做的就是读整个句子,然后记忆整个句子,再在感知机中传递。紫色的神经网络,即解码网络(the decoder network)将生成英文翻译

对于短句子效果非常好,会有一个相对高的Bleu分(Bleu score),但是对于长句子而言,比如说大于30或者40词的句子,它的表现就会变差。Bleu评分随着单词数量变化,短的句子会难以翻译,因为很难得到所有词。对于长的句子,效果也不好,因为在神经网络中,记忆非常长句子是非常困难的。

而注意力模型翻译得很像人类,一次翻译句子的一部分。且机器翻译系统只会翻译句子的一部分,不会有一个巨大的下倾(huge dip),这个下倾衡量了神经网络记忆一个长句子的能力

对于句子里的每五个单词,使用双向的RNNa bidirectional RNN),使用另一个RNN生成英文翻译:

S<t>S^{<t>}由原语句附近单元共同决定,注意力权重(attention weights)α<t,t>\alpha^{< t,t'>} 表示尝试生成第tt个英文词时应该花多少注意力在第tt'个法语词上面。直到最终生成<EOS>< EOS>。离得越近,注意力权重越大,相当于当前的注意力区域有个滑动窗。cc表示编码器激活函数在注意力权重加权后的结果,将cc输入到解码器用来生成翻译语句, 同时上一个时间步输出的翻译结果也加入

Last updated