3.7 注意力模型直观理解(Attention Model Intuition)
给定一个很长的法语句子,在神经网络中,绿色的编码器要做的就是读整个句子,然后记忆整个句子,再在感知机中传递。紫色的神经网络,即解码网络(the decoder network)将生成英文翻译
对于短句子效果非常好,会有一个相对高的Bleu分(Bleu score),但是对于长句子而言,比如说大于30或者40词的句子,它的表现就会变差。Bleu评分随着单词数量变化,短的句子会难以翻译,因为很难得到所有词。对于长的句子,效果也不好,因为在神经网络中,记忆非常长句子是非常困难的。
而注意力模型翻译得很像人类,一次翻译句子的一部分。且机器翻译系统只会翻译句子的一部分,不会有一个巨大的下倾(huge dip),这个下倾衡量了神经网络记忆一个长句子的能力
对于句子里的每五个单词,使用双向的RNN(a bidirectional RNN),使用另一个RNN生成英文翻译:
Last updated