2.7 负采样(Negative Sampling)

算法要做的是构造一个新的监督学习问题:给定一对单词,比如orangejuice,去预测这是否是一对上下文词-目标词(context-target

在这个例子中orangejuice就是个正样本,用1作为标记,orangeking就是个负样本,标为0。要做的就是采样得到一个上下文词和一个目标词,中间列叫做词(word)。然后:

  • 生成一个正样本,先抽取一个context,在一定词距内比如说正负10个词距内选一个target,生成这个表的第一行,即orange– juice -1的过程

  • 生成一个负样本,用相同的context,再在字典中随机选一个词,如king、book、the、of,标记为0。因为如果随机选一个词,它很可能跟orange没关联

如果从字典中随机选到的词,正好出现在了词距内,比如说在上下文词orange正负10个词之内,也没关系,如of被标记为0,即使of的确出现在orange词的前面

选取了context orange之后,如何选取负样本:

  • 通过单词出现的频率进行采样:导致一些类似a、the、of等词的频率较高

  • 均匀随机地抽取负样本:没有很好的代表性

(推荐)

Last updated