2.4 嵌入矩阵（Embedding Matrix）

当应用算法来学习词嵌入时，实际上是学习一个嵌入矩阵

假设某个词汇库包含了10000个单词，每个单词包含的特征维度为300，那么表征所有单词的embedding matrix维度为300 x 10000，用 $E$ 来表示。某单词 $w$ 的one-hot向量表示为 $O_w$ ，维度为10000 x 1

则该单词的嵌入向量(embedding vector)表达式为：

e_w=E\cdot O_w

只要知道了embedding matrix $E$ ，就能计算出所有单词的embedding vector $e_w$

不过上述这种矩阵乘积运算 $E\cdot O_w$ 效率并不高，矩阵维度很大，且 $O_w$ 大部分元素为零。通常做法是直接从 $E$ 中选取第 $w$ 列作为 $e_w$

Last updated 6 years ago

Was this helpful?