1.12 深层循环神经网络（Deep RNNs）

$a^{\lbrack l\rbrack }$ 表示第 $l$ 层的激活值，<t>表示第 $t$ 个时间点

激活值 $a^{[l]<t>}$ 有两个输入:

a^{[l]<t>}=g(W_a^{[l]}[a^{[l]<t-1>},a^{[l-1]<t>}]+b_a^{[l]})

对于RNN来说，有三层就已经不少了。由于时间的维度，RNN网络会变得相当大，即使只有很少的几层

另外一种Deep RNNs结构是每个输出层上还有一些垂直单元：

即把输出去掉（编号1），在每一个上面堆叠循环层，然后换成一些深的层，这些层并不水平连接，只是一个深层的网络，然后用来预测 $y^{<t>}$

这些单元（编号3）没必要是标准的RNN，也可以是GRU单元或者LSTM单元，也可以构建深层的双向RNN网络，但深层的RNN训练需要很多计算资源，需要很长的时间

Last updated 6 years ago

Was this helpful?