1.12 深层循环神经网络(Deep RNNs)

a[l]a^{\lbrack l\rbrack }表示第ll层的激活值,<t>表示第tt个时间点

激活值a[l]<t>a^{[l]<t>}有两个输入:

a[l]<t>=g(Wa[l][a[l]<t1>,a[l1]<t>]+ba[l])a^{[l]<t>}=g(W_a^{[l]}[a^{[l]<t-1>},a^{[l-1]<t>}]+b_a^{[l]})

对于RNN来说,有三层就已经不少了。由于时间的维度,RNN网络会变得相当大,即使只有很少的几层

另外一种Deep RNNs结构是每个输出层上还有一些垂直单元:

即把输出去掉(编号1),在每一个上面堆叠循环层,然后换成一些深的层,这些层并不水平连接,只是一个深层的网络,然后用来预测y<t>y^{<t>}

这些单元(编号3)没必要是标准的RNN,也可以是GRU单元或者LSTM单元,也可以构建深层的双向RNN网络,但深层的RNN训练需要很多计算资源,需要很长的时间

Last updated