当应用算法来学习词嵌入时,实际上是学习一个嵌入矩阵
假设某个词汇库包含了10000个单词,每个单词包含的特征维度为300,那么表征所有单词的embedding matrix维度为300 x 10000,用E来表示。某单词w的one-hot向量表示为Ow,维度为10000 x 1
则该单词的嵌入向量(embedding vector)表达式为:
ew=E⋅Ow 只要知道了embedding matrixE,就能计算出所有单词的embedding vector ew
不过上述这种矩阵乘积运算E⋅Ow效率并不高,矩阵维度很大,且Ow大部分元素为零。通常做法是直接从E中选取第w列作为ew