a[l]表示第l层的激活值,<t>表示第t个时间点
激活值a[l]<t>有两个输入:
a[l]<t>=g(Wa[l][a[l]<t−1>,a[l−1]<t>]+ba[l]) 对于RNN来说,有三层就已经不少了。由于时间的维度,RNN网络会变得相当大,即使只有很少的几层
另外一种Deep RNNs结构是每个输出层上还有一些垂直单元:
即把输出去掉(编号1),在每一个上面堆叠循环层,然后换成一些深的层,这些层并不水平连接,只是一个深层的网络,然后用来预测y<t>
这些单元(编号3)没必要是标准的RNN,也可以是GRU单元或者LSTM单元,也可以构建深层的双向RNN网络,但深层的RNN训练需要很多计算资源,需要很长的时间