2.10 词嵌入除偏(Debiasing Word Embeddings)
Last updated
Last updated
根据训练模型所使用的文本,词嵌入能够反映出性别、种族、年龄、性取向等其他方面的偏见:
假设已经完成一个词嵌入的学习,各个词的位置如图:
首先做的事就是辨别出想要减少或想要消除的特定偏见的趋势
怎样辨别出偏见相似的趋势:
一、对于性别歧视,对所有性别对立的单词求差值,再平均:
二、中和步骤,对于定义不确切的词可以将其处理一下,避免偏见。像doctor和babysitter使之在性别方面中立。将它们在这个轴(编号1)上进行处理,减少或是消除他们的性别歧视趋势的成分,即减少在水平方向上的距离(编号2方框内所示的投影)
三、均衡步,babysitter和grandmother之间的距离或者说是相似度实际上是小于babysitter和grandfather之间的(编号1),因此这可能会加重不良状态,或者非预期的偏见,也就是说grandmothers相比于grandfathers最终更有可能输出babysitting。所以在最后的均衡步中,想要确保的是像grandmother和grandfather这样的词都能够有一致的相似度,或者说是相等的距离,做法是将grandmother和grandfather移至与中间轴线等距的一对点上(编号2),现在性别歧视的影响也就是这两个词与babysitter的距离就完全相同了(编号3)
最后,掌握哪些单词需要中立化非常重要。一般来说,大部分英文单词,例如职业、身份等都需要中立化,消除embedding vector中性别这一维度的影响