# 3.1 基础模型（Basic Models）

## 机器翻译

用$$x^{<1>}$$ 到$$x^{< 5>}$$表示输入句子的单词，用$$y^{<1>}$$到$$y^{<6>}$$表示输出句子的单词：

[![](https://github.com/fengdu78/deeplearning_ai_books/raw/master/images/2d41c0090fd3d71e6f28eade62b7c97b.png)](https://github.com/fengdu78/deeplearning_ai_books/blob/master/images/2d41c0090fd3d71e6f28eade62b7c97b.png)

首先，建立一个**RNN**编码网络（**encoder network**）（编号1），单元可以是**GRU**或**LSTM**。每次只向该网络中输入一个法语单词，将输入序列接收完毕后，这个**RNN**网络会输出一个向量来代表这个输入序列

之后建立一个解码网络（编号2），以编码网络的输出作为输入，之后它可以被训练为每次输出一个翻译后的单词，一直到它输出序列的结尾或者句子结尾标记

在给出足够的法语和英语文本的情况下，训练模型，通过输入一个法语句子来输出对应的英语翻译，这个模型将会非常有效。这个模型简单地用一个编码网络来对输入的法语句子进行编码，然后用一个解码网络来生成对应的英语翻译

## 图像描述

[![](https://github.com/fengdu78/deeplearning_ai_books/raw/master/images/b9492d18803ebe3853e936098f08661c.png)](https://github.com/fengdu78/deeplearning_ai_books/blob/master/images/b9492d18803ebe3853e936098f08661c.png)

> 给出猫的图片，能自动地输出该图片的描述：一只猫坐在椅子上

通过输入图像来输出描述：

将图片输入到卷积神经网络中（一个预训练的**AlexNet**结构）（编号2），然后让其学习图片的编码，或者学习图片的一系列特征。去掉最后的**softmax**单元（编号3），这个预训练的**AlexNet**结构会输出4096维的特征向量，向量表示的就是这只猫的图片，这个预训练网络可以是图像的编码网络

接着把这个向量输入到**RNN**中（编号4），RNN要做的就是生成图像的描述，每次生成一个单词：输入一个描述输入的特征向量，然后让网络一个一个地输出单词序列
