知识图谱嵌入中的社会偏见缓解技术

本文介绍了一种减少知识图谱嵌入中社会偏见的创新方法,通过调整训练过程在保持链接预测性能的同时显著降低性别、宗教等敏感属性的偏见,适用于问答系统和对话AI等下游应用。

缓解知识图谱嵌入中的社会偏见

研究背景

问答系统通常依赖知识图谱——包含现实世界实体(人物、组织、国家等)事实的大型数据库。为利用知识图谱中的信息,机器学习模型常采用知识图谱嵌入技术,即将图中的实体表示为多维空间中的向量。这种方法潜在的问题是:知识图谱中的数据分布反映了当前和历史上的社会偏见。例如,大多数知识图谱中"银行家"职业的男性实体多于女性,或"芭蕾舞者"职业的白人实体多于非裔美国人实体。

如果知识图谱嵌入编码了这些偏见,使用这些嵌入的问答系统也会继承偏见。当小女孩向聊天机器人提问"我长大后应该做什么?“时,带有偏见的嵌入可能会排除知识图谱中主要与男性关联的职业答案。虽然某些职业(如"男中音”)的性别关联是合理的,但其他情况下的偏见可能是过去不平等时代的遗留物。

偏见测量方法

在AKBC知识图谱偏见研讨会上发表的研究中,使用标准嵌入技术分析了Wikidata中人物职业与人口统计因素(如性别、种族和宗教)之间的相关性。研究通过调整人类实体的嵌入,观察添加关系向量(如has_religion或has_gender)时模型对职业分配概率的变化,从而识别出嵌入编码的"最男性化"和"最女性化"职业。

研究发现知识图谱中实体数量的差异确实转化为嵌入中的偏见。虽然某些职业(如"家庭主妇")与特定性别的关联可能存在问题,但其他职业(如"女学者")的关联争议较小。

去偏见技术

在EMNLP会议上提出的"去偏见知识图谱嵌入"方法中,开发了一种轻量级的训练调整技术。该方法不仅要求嵌入模型准确重建三元组,还要求其近似均匀分布性别和其他敏感特征(如宗教)的分布。换句话说,通过更新人物嵌入使得模型无法预测性别,从而打破性别与职业之间的相关性。

为避免影响非争议性三元组的预测,该方法引入了属性嵌入概念。在需要使用敏感信息的情况下,只需将这些属性向量重新添加到嵌入中即可。

性能评估

与未去偏见的Basic TransE模型和Bose等人的去偏见方法相比,新方法在链接预测准确性(平均倒数排名MRR)上仅有轻微下降(约3%),但偏见显著降低。训练时间方面,新方法每轮耗时89.4秒,远低于Bose等人的533.3秒。

模型 MRR 性别偏见 每轮训练时间(秒)
Basic 0.68 2.79 68.4
Bose et al. 0.426 2.75 533.3
新方法 0.66 0.19 89.4

应用前景

随着知识图谱嵌入在机器学习社区的广泛应用,这项工作有助于提高对其可能编码偏见的认识,并推动实现有效去偏见的目标。该技术特别适用于对话AI和问答系统等下游应用,确保人工智能系统提供更加公平和包容的响应。

相关会议:EMNLP 2020
研究领域:信息与知识管理、对话式AI
技术标签:知识图谱、数据表示、偏见消除、负责任AI

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计