2.10 词嵌入除偏（Debiasing Word Embeddings）

根据训练模型所使用的文本，词嵌入能够反映出性别、种族、年龄、性取向等其他方面的偏见：

假设已经完成一个词嵌入的学习，各个词的位置如图：

首先做的事就是辨别出想要减少或想要消除的特定偏见的趋势

怎样辨别出偏见相似的趋势：

一、对于性别歧视，对所有性别对立的单词求差值，再平均：

bias\ direction=\frac1N ((e_{he}-e_{she})+(e_{male}-e_{female})+\cdots)

二、中和步骤，对于定义不确切的词可以将其处理一下，避免偏见。像doctor和babysitter使之在性别方面中立。将它们在这个轴（编号1）上进行处理，减少或是消除他们的性别歧视趋势的成分，即减少在水平方向上的距离（编号2方框内所示的投影）

三、均衡步，babysitter和grandmother之间的距离或者说是相似度实际上是小于babysitter和grandfather之间的（编号1），因此这可能会加重不良状态，或者非预期的偏见，也就是说grandmothers相比于grandfathers最终更有可能输出babysitting。所以在最后的均衡步中，想要确保的是像grandmother和grandfather这样的词都能够有一致的相似度，或者说是相等的距离，做法是将grandmother和grandfather移至与中间轴线等距的一对点上（编号2），现在性别歧视的影响也就是这两个词与babysitter的距离就完全相同了（编号3）

最后，掌握哪些单词需要中立化非常重要。一般来说，大部分英文单词，例如职业、身份等都需要中立化，消除embedding vector中性别这一维度的影响

Previous2.9 情感分类（Sentiment Classification）NextOperations on word vectors

Last updated 6 years ago

Was this helpful?