2.10 词嵌入除偏(Debiasing Word Embeddings)

根据训练模型所使用的文本,词嵌入能够反映出性别、种族、年龄、性取向等其他方面的偏见:

假设已经完成一个词嵌入的学习,各个词的位置如图:

首先做的事就是辨别出想要减少或想要消除的特定偏见的趋势

怎样辨别出偏见相似的趋势:

一、对于性别歧视,对所有性别对立的单词求差值,再平均:

bias direction=1N((eheeshe)+(emaleefemale)+)bias\ direction=\frac1N ((e_{he}-e_{she})+(e_{male}-e_{female})+\cdots)

二、中和步骤,对于定义不确切的词可以将其处理一下,避免偏见。像doctorbabysitter使之在性别方面中立。将它们在这个轴(编号1)上进行处理,减少或是消除他们的性别歧视趋势的成分,即减少在水平方向上的距离(编号2方框内所示的投影)

三、均衡步,babysittergrandmother之间的距离或者说是相似度实际上是小于babysittergrandfather之间的(编号1),因此这可能会加重不良状态,或者非预期的偏见,也就是说grandmothers相比于grandfathers最终更有可能输出babysitting。所以在最后的均衡步中,想要确保的是像grandmothergrandfather这样的词都能够有一致的相似度,或者说是相等的距离,做法是将grandmothergrandfather移至与中间轴线等距的一对点上(编号2),现在性别歧视的影响也就是这两个词与babysitter的距离就完全相同了(编号3)

最后,掌握哪些单词需要中立化非常重要。一般来说,大部分英文单词,例如职业、身份等都需要中立化,消除embedding vector中性别这一维度的影响

Last updated