3.7 注意力模型直观理解(Attention Model Intuition)
Last updated
Last updated
给定一个很长的法语句子,在神经网络中,绿色的编码器要做的就是读整个句子,然后记忆整个句子,再在感知机中传递。紫色的神经网络,即解码网络(the decoder network)将生成英文翻译
对于短句子效果非常好,会有一个相对高的Bleu分(Bleu score),但是对于长句子而言,比如说大于30或者40词的句子,它的表现就会变差。Bleu评分随着单词数量变化,短的句子会难以翻译,因为很难得到所有词。对于长的句子,效果也不好,因为在神经网络中,记忆非常长句子是非常困难的。
而注意力模型翻译得很像人类,一次翻译句子的一部分。且机器翻译系统只会翻译句子的一部分,不会有一个巨大的下倾(huge dip),这个下倾衡量了神经网络记忆一个长句子的能力
对于句子里的每五个单词,使用双向的RNN(a bidirectional RNN),使用另一个RNN生成英文翻译:
由原语句附近单元共同决定,注意力权重(attention weights) 表示尝试生成第个英文词时应该花多少注意力在第个法语词上面。直到最终生成。离得越近,注意力权重越大,相当于当前的注意力区域有个滑动窗。表示编码器激活函数在注意力权重加权后的结果,将输入到解码器用来生成翻译语句, 同时上一个时间步输出的翻译结果也加入