缓解知识图谱嵌入中的社会偏见
研究背景
问答系统通常依赖知识图谱——包含现实世界实体(人物、组织、国家等)事实的大型数据库。为利用知识图谱中的信息,机器学习模型常采用知识图谱嵌入技术,即将图中的实体表示为多维空间中的向量。这种方法潜在的问题是:知识图谱中的数据分布反映了当前和历史上的社会偏见。例如,大多数知识图谱中"银行家"职业的男性实体多于女性,或"芭蕾舞者"职业的白人实体多于非裔美国人实体。
如果知识图谱嵌入编码了这些偏见,使用这些嵌入的问答系统也会继承偏见。当小女孩向聊天机器人提问"我长大后应该做什么?“时,带有偏见的嵌入可能会排除知识图谱中主要与男性关联的职业答案。虽然某些职业(如"男中音”)的性别关联是合理的,但其他情况下的偏见可能是过去不平等时代的遗留物。
偏见测量方法
在AKBC知识图谱偏见研讨会上发表的研究中,使用标准嵌入技术分析了Wikidata中人物职业与人口统计因素(如性别、种族和宗教)之间的相关性。研究通过调整人类实体的嵌入,观察添加关系向量(如has_religion或has_gender)时模型对职业分配概率的变化,从而识别出嵌入编码的"最男性化"和"最女性化"职业。
研究发现知识图谱中实体数量的差异确实转化为嵌入中的偏见。虽然某些职业(如"家庭主妇")与特定性别的关联可能存在问题,但其他职业(如"女学者")的关联争议较小。
去偏见技术
在EMNLP会议上提出的"去偏见知识图谱嵌入"方法中,开发了一种轻量级的训练调整技术。该方法不仅要求嵌入模型准确重建三元组,还要求其近似均匀分布性别和其他敏感特征(如宗教)的分布。换句话说,通过更新人物嵌入使得模型无法预测性别,从而打破性别与职业之间的相关性。
为避免影响非争议性三元组的预测,该方法引入了属性嵌入概念。在需要使用敏感信息的情况下,只需将这些属性向量重新添加到嵌入中即可。
性能评估
与未去偏见的Basic TransE模型和Bose等人的去偏见方法相比,新方法在链接预测准确性(平均倒数排名MRR)上仅有轻微下降(约3%),但偏见显著降低。训练时间方面,新方法每轮耗时89.4秒,远低于Bose等人的533.3秒。
模型 | MRR | 性别偏见 | 每轮训练时间(秒) |
---|---|---|---|
Basic | 0.68 | 2.79 | 68.4 |
Bose et al. | 0.426 | 2.75 | 533.3 |
新方法 | 0.66 | 0.19 | 89.4 |
应用前景
随着知识图谱嵌入在机器学习社区的广泛应用,这项工作有助于提高对其可能编码偏见的认识,并推动实现有效去偏见的目标。该技术特别适用于对话AI和问答系统等下游应用,确保人工智能系统提供更加公平和包容的响应。
相关会议:EMNLP 2020
研究领域:信息与知识管理、对话式AI
技术标签:知识图谱、数据表示、偏见消除、负责任AI