2.3 词嵌入的特性(Properties of Word Embeddings)
Last updated
Was this helpful?
Last updated
Was this helpful?
该例中,假设用的是四维的嵌入向量,假如向量和、和 分别进行减法运算,相减结果表明,“Man”与“Woman”的主要区别是性别,“King”与“Queen”也是一样
所以当算法被问及man对woman相当于king对什么时,算法所做的就是计算,然后找出一个向量也就是找出一个词,使得:
即当这个新词是queen时,式子的左边会近似地等于右边
在图中,词嵌入向量在一个可能有300维的空间里,箭头代表的是向量在gender(性别)这一维的差,为了得出类比推理,计算当man对于woman,king对于什么,要做的就是找到单词w来使得
等式成立,即找到单词w来最大化与的相似度,即
t-SNE算法所做的就是把这些300维的数据用一种非线性的方式映射到2维平面上,可以得知t-SNE中这种映射很复杂而且很非线性。在大多数情况下,由于t-SNE的非线性映射,不能总是期望使等式成立的关系会像左边那样成一个平行四边形
两个向量之间角度的余弦是衡量它们有多相似的指标,角度越小,两个向量越相似
即把全部放到等式的一边,另一边是。应用相似度函数,通过方程找到一个使得相似度最大的单词,如果结果理想的话会得到单词queen
关于相似函数,比较常用的是余弦相似度,假如在向量和之间定义相似度:
分子是和的内积。如果和非常相似,那么它们的内积将会很大,把整个式子叫做余弦相似度,是因为该式是和的夹角的余弦值
参考资料: 给定两个向量和,余弦相似度定义如下:
是两个向量的点积(或内积),是向量的范数(或长度), 是向量和之间的角度。这种相似性取决于角度在向量和之间。如果向量和非常相似,它们的余弦相似性将接近1; 如果它们不相似,则余弦相似性将取较小的值
还可以计算Euclidian distance来比较相似性,即。距离越大,相似性越小