2.8 GloVe 词向量（GloVe Word Vectors）

GloVe代表用词表示的全局变量（global vectors for word representation）

假定 $X_{ij}$ 是单词 $i$ 在单词 $j$ 上下文中出现的次数， $i$ 和 $j$ 与 $t$ 和 $c$ 的功能一样，可以认为 $X_{ij}$ 等同于 $X_{tc}$ 。根据context和target的定义，会得出 $X_{ij}$ 等于 $X_{ji}$

对于GloVe算法，可以定义context和target为任意两个位置相近的单词，假设是左右各10词的距离，那么 $X_{ij}$ 就是一个能够获取单词 $i$ 和单词 $j$ 彼此接近的频率计数器

GloVe模型做的就是进行优化，将差距进行最小化处理：

\text{mini}\text{mize}\sum_{i = 1}^{10,000}{\sum_{j = 1}^{10,000}}{f\left( X_{ij} \right)\left( \theta_{i}^{T}e_{j} + b_{i} + b_{j}^{'} - \log X_{ij} \right)^{2}}

$\theta_{i}^{T}e_{j}$ 即 $\theta_{t}^{T}e_{c}$ 。对于 $\theta_{t}^{T}e_{c}$ ，这两个单词同时出现的频率是多少受 $X_{ij}$ 影响，若两个词的embedding vector越相近，同时出现的次数越多，则对应的loss越小

当 $X_{ij}=0$ 时，权重因子 $f(X_{ij})=0$ 。这种做法直接忽略了无任何相关性的context和target，只考虑 $X_{ij}>0$ 的情况

出现频率较大的单词相应的权重因子 $f(X_{ij})$ 较大，出现频率较小的单词相应的权重因子 $f(X_{ij})$ 较小一些

因为 $\theta$ 和 $e$ 是完全对称的，所以 $\theta_{i}$ 和 $e_{j}$ 是对称的。因此训练算法的方法是一致地初始化 $\theta$ 和 $e$ ，然后使用梯度下降来最小化输出，当每个词都处理完之后取平均值：

e_{w}^{(final)}= \frac{e_{w} +\theta_{w}}{2}

GloVe算法不能保证嵌入向量的独立组成部分：

通过上面的很多算法得到的词嵌入向量，无法保证词嵌入向量的每个独立分量是能够理解的。但能够确定是每个分量和所想的一些特征是有关联的，可能是一些我们能够理解的特征的组合而构成的一个组合分量

使用上面的GloVe模型，从线性代数的角度解释如下：

\Theta_{i}^{T}e_{j} = \Theta_{i}^{T}A^{T}A^{-T}e_{j}=(A\Theta_{i})^{T}(A^{-T}e_{j})

加入的 $A$ 项，可能构成任意的分量组合

Last updated 6 years ago

Was this helpful?