2.5 学习词嵌入（Learning Word Embeddings）

embedding matrix $E$ 可以通过构建自然语言模型，运用梯度下降算法得到。若输入样本是：

I want a glass of orange (juice).

通过这句话的前6个单词，预测最后的单词“juice”。 $E$ 未知待求，每个单词可用embedding vector $e_w$ 表示。构建的神经网络模型结构如下图所示：

神经网络输入层包含6个embedding vectors，每个embedding vector维度是300，则输入层总共有1800个输入。Softmax层有10000个概率输出，与词汇表包含的单词数目一致。正确的输出label是“juice”。其中 $E,W^{[1]},b^{[1]},W^{[2]},b^{[2]}$ 为待求值。对足够的训练例句样本，运用梯度下降算法，迭代优化，最终求出embedding matrix $E$