3.1 基础模型(Basic Models)

机器翻译

x<1>x^{<1>}x<5>x^{< 5>}表示输入句子的单词,用y<1>y^{<1>}y<6>y^{<6>}表示输出句子的单词:

首先,建立一个RNN编码网络(encoder network)(编号1),单元可以是GRULSTM。每次只向该网络中输入一个法语单词,将输入序列接收完毕后,这个RNN网络会输出一个向量来代表这个输入序列

之后建立一个解码网络(编号2),以编码网络的输出作为输入,之后它可以被训练为每次输出一个翻译后的单词,一直到它输出序列的结尾或者句子结尾标记

在给出足够的法语和英语文本的情况下,训练模型,通过输入一个法语句子来输出对应的英语翻译,这个模型将会非常有效。这个模型简单地用一个编码网络来对输入的法语句子进行编码,然后用一个解码网络来生成对应的英语翻译

图像描述

给出猫的图片,能自动地输出该图片的描述:一只猫坐在椅子上

通过输入图像来输出描述:

将图片输入到卷积神经网络中(一个预训练的AlexNet结构)(编号2),然后让其学习图片的编码,或者学习图片的一系列特征。去掉最后的softmax单元(编号3),这个预训练的AlexNet结构会输出4096维的特征向量,向量表示的就是这只猫的图片,这个预训练网络可以是图像的编码网络

接着把这个向量输入到RNN中(编号4),RNN要做的就是生成图像的描述,每次生成一个单词:输入一个描述输入的特征向量,然后让网络一个一个地输出单词序列

Last updated