1.7 对新序列采样(Sampling novel sequences)

基于词汇的RNN模型

序列模型模拟了任意特定单词序列的概率,要做的是对这些概率分布进行采样来生成一个新的单词序列。编号1所示的网络已经被上方所展示的结构训练过,编号2是进行采样

即无论得到什么样的用one-hot码表示的选择结果,都把它传递到下一个时间步,然后进行采样,直到最后一个时间步

怎样知道一个句子结束:

  • 如果代表句子结尾的标识在字典中,可以一直进行采样直到得到EOS标识(编号6),代表着已经抵达结尾,可以停止采样

  • 如果字典中没有这个词,可以决定从20个或100个或其他个单词进行采样,然后一直将采样进行下去直到达到所设定的时间步。不过这种过程有时候会产生一些未知标识(编号7),如果要确保算法不会输出这种标识,要做的是拒绝采样过程中产生任何未知的标识,一旦出现就继续在剩下的词中进行重采样,直到得到一个不是未知标识的词

这就是如何从RNN语言模型中生成一个随机选择的句子。以上所建立的是基于词汇的RNN模型,意思就是字典中的词都是英语单词(下图编号1)

基于字符的RNN结构

用以上字符组成字典(上图编号2所示)

优点:

不必担心会出现未知的标识,基于字符的语言模型会将Mau这样的序列也视为可能性非零的序列。而基于词汇的语言模型,如果Mau不在字典中,只能当作未知标识UNK

缺点:

最后会得到太多太长的序列,基于字符的语言模型在捕捉句子中的依赖关系也就是句子较前部分如何影响较后部分不如基于词汇的语言模型那样可以捕捉长范围的关系,并且基于字符的语言模型训练起来计算成本比较高

Last updated