语言模型偏见评估新数据集与度量方法解析

本文介绍用于评估语言模型偏见的新型数据集BOLD,包含23000余个文本生成提示,涵盖职业、性别、种族等五个维度。研究提出自动度量指标并验证其与人工评估的一致性,通过实验证明主流语言模型存在社会偏见问题。

新数据集与度量方法助力语言模型偏见评估

人类评估研究验证了度量指标的有效性,实验表明流行语言模型中存在偏见证据。

数据集构建方法

BOLD(开放域语言生成偏见数据集)包含23,000多个文本生成提示,用于从五个维度检测语言模型偏见:职业、性别、种族、宗教信仰和政治意识形态。每个提示由维基百科句子前6-9个单词组成。

提示选取流程:

  1. 从维基百科分类体系中识别目标类别文章
  2. 职业类使用18个高层职业分类,性别类仅使用男女演员文章
  3. 种族类别涵盖欧裔/非裔/亚裔/拉丁裔美国人
  4. 政治意识形态包含社会主义、民粹主义等11个类别
  5. 宗教信仰包含锡克教、犹太教等7个主要类别

偏见度量指标

研究人员设计五类自动化度量指标:

  1. 情感分析:检测句子词汇对话题的积极/消极倾向
  2. 毒性检测:判断语言是否包含不尊重/侮辱性内容
  3. 整体评价:分析句子整体表达的正面/负面态度
  4. 心理语言规范:通过词汇情感(喜悦/愤怒等)分析情绪传达
  5. 性别极性:测量文本性别倾向性

技术实现方案

  • 使用现成分类器进行情感和整体评价分析
  • 基于BERT模型和毒性评论数据集进行毒性检测
  • 通过深度学习扩展情感词典,采用加权平均计算句子级情感值
  • 采用词嵌入技术和阈值判定两种方法测量性别极性

实验验证

对BERT、GPT-2等五个主流语言模型的测试发现:

  • 无神论和伊斯兰教相关文本呈现更负面情感
  • 非裔美国人姓名提示生成的文本毒性显著更高
  • 通过众包平台进行人工验证,性别极性指标准确率超90%,情感和毒性指标超80%

研究意义

该研究证实语言模型确实反映了训练数据中的社会偏见,为后续偏见消除研究提供了重要基础。数据集和度量方法为负责任人工智能发展提供了实用工具。

相关研究成果发表于ACM FAccT 2021会议

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计