3.7 注意力模型直观理解（Attention Model Intuition）

给定一个很长的法语句子，在神经网络中，绿色的编码器要做的就是读整个句子，然后记忆整个句子，再在感知机中传递。紫色的神经网络，即解码网络（the decoder network）将生成英文翻译

对于短句子效果非常好，会有一个相对高的Bleu分（Bleu score），但是对于长句子而言，比如说大于30或者40词的句子，它的表现就会变差。Bleu评分随着单词数量变化，短的句子会难以翻译，因为很难得到所有词。对于长的句子，效果也不好，因为在神经网络中，记忆非常长句子是非常困难的。

而注意力模型翻译得很像人类，一次翻译句子的一部分。且机器翻译系统只会翻译句子的一部分，不会有一个巨大的下倾（huge dip），这个下倾衡量了神经网络记忆一个长句子的能力

对于句子里的每五个单词，使用双向的RNN（a bidirectional RNN），使用另一个RNN生成英文翻译：

$S^{<t>}$ 由原语句附近单元共同决定，注意力权重（attention weights） $\alpha^{< t,t'>}$ 表示尝试生成第 $t$ 个英文词时应该花多少注意力在第 $t'$ 个法语词上面。直到最终生成 $< EOS>$ 。离得越近，注意力权重越大，相当于当前的注意力区域有个滑动窗。 $c$ 表示编码器激活函数在注意力权重加权后的结果，将 $c$ 输入到解码器用来生成翻译语句，同时上一个时间步输出的翻译结果也加入

Previous3.6 Bleu 得分（选修）（Bleu Score (optional)）Next3.8注意力模型（Attention Model）

Last updated 6 years ago

Was this helpful?