当应用算法来学习词嵌入时,实际上是学习一个嵌入矩阵
假设某个词汇库包含了10000个单词,每个单词包含的特征维度为300,那么表征所有单词的embedding matrix维度为300 x 10000,用EEE来表示。某单词www的one-hot向量表示为OwO_wOw,维度为10000 x 1
arrow-up-right
则该单词的嵌入向量(embedding vector)表达式为:
只要知道了embedding matrixEEE,就能计算出所有单词的embedding vector ewe_wew
不过上述这种矩阵乘积运算E⋅OwE\cdot O_wE⋅Ow效率并不高,矩阵维度很大,且OwO_wOw大部分元素为零。通常做法是直接从EEE中选取第www列作为ewe_wew
Last updated 6 years ago