2.7 负采样(Negative Sampling)
算法要做的是构造一个新的监督学习问题:给定一对单词,比如orange和juice,去预测这是否是一对上下文词-目标词(context-target)
在这个例子中orange和juice就是个正样本,用1作为标记,orange和king就是个负样本,标为0。要做的就是采样得到一个上下文词和一个目标词,中间列叫做词(word)。然后:
生成一个正样本,先抽取一个context,在一定词距内比如说正负10个词距内选一个target,生成这个表的第一行,即orange– juice -1的过程
生成一个负样本,用相同的context,再在字典中随机选一个词,如king、book、the、of,标记为0。因为如果随机选一个词,它很可能跟orange没关联
如果从字典中随机选到的词,正好出现在了词距内,比如说在上下文词orange正负10个词之内,也没关系,如of被标记为0,即使of的确出现在orange词的前面
选取了context orange之后,如何选取负样本:
通过单词出现的频率进行采样:导致一些类似a、the、of等词的频率较高
均匀随机地抽取负样本:没有很好的代表性
(推荐):
Last updated