3.1 基础模型（Basic Models）

机器翻译

用 $x^{<1>}$ 到 $x^{< 5>}$ 表示输入句子的单词，用 $y^{<1>}$ 到 $y^{<6>}$ 表示输出句子的单词：

首先，建立一个RNN编码网络（encoder network）（编号1），单元可以是GRU或LSTM。每次只向该网络中输入一个法语单词，将输入序列接收完毕后，这个RNN网络会输出一个向量来代表这个输入序列

之后建立一个解码网络（编号2），以编码网络的输出作为输入，之后它可以被训练为每次输出一个翻译后的单词，一直到它输出序列的结尾或者句子结尾标记

在给出足够的法语和英语文本的情况下，训练模型，通过输入一个法语句子来输出对应的英语翻译，这个模型将会非常有效。这个模型简单地用一个编码网络来对输入的法语句子进行编码，然后用一个解码网络来生成对应的英语翻译

图像描述

给出猫的图片，能自动地输出该图片的描述：一只猫坐在椅子上

通过输入图像来输出描述：

将图片输入到卷积神经网络中（一个预训练的AlexNet结构）（编号2），然后让其学习图片的编码，或者学习图片的一系列特征。去掉最后的softmax单元（编号3），这个预训练的AlexNet结构会输出4096维的特征向量，向量表示的就是这只猫的图片，这个预训练网络可以是图像的编码网络

接着把这个向量输入到RNN中（编号4），RNN要做的就是生成图像的描述，每次生成一个单词：输入一个描述输入的特征向量，然后让网络一个一个地输出单词序列

Previous第三周序列模型和注意力机制（Sequence models & Attention mechanism）Next3.2 选择最可能的句子（Picking the most likely sentence）

Last updated 6 years ago

Was this helpful?