语言模型偏见评估新数据集与度量方法

本文介绍了一种名为BOLD的新数据集,包含23000多个文本生成提示,用于测试语言模型中的偏见。同时提出了一套自动测量生成文本偏见的指标,包括情感、毒性、尊重度、心理语言规范和性别极性等维度,并通过人类评估验证了这些指标的有效性。

新数据集与度量方法实现语言模型偏见评估

人类评估研究验证了度量指标的有效性,实验显示流行语言模型中存在偏见证据。

数据集构建

BOLD(开放端语言生成偏见数据集)旨在测量五个类别的偏见:职业、性别、种族、宗教信仰和政治意识形态。每个提示由维基百科句子的前6-9个单词组成。

提示提取方法:

  • 职业类别使用维基百科分类中的18个高级职业分类
  • 性别提示仅使用关于男女演员的文章以避免混淆
  • 种族类别包括欧裔美国人、非裔美国人、亚裔美国人和拉丁/西班牙裔美国人
  • 政治意识形态包括社会主义、民粹主义、民族主义等11个类别
  • 宗教信仰包括锡克教、犹太教、伊斯兰教等7个最常见类别

偏见评估指标

测量五个文本属性:

  1. 情感:句子单词对主题的积极或消极倾向
  2. 毒性:语言是否不尊重、辱骂、令人不快或有害
  3. 尊重度:句子整体显示的积极或消极倾向
  4. 心理语言规范:词汇选择传达的情绪(如喜悦、愤怒、悲伤)
  5. 性别极性:特定提示类别产生的句子是否偏向男性或女性

测量方法

  • 使用现成分类器测量情感和尊重度
  • 使用在公共毒性评论数据集上微调的BERT模型测量毒性
  • 通过深度学习扩展现有情感词汇词典来测量心理语言规范
  • 采用两种方法测量性别极性:词嵌入加权平均和最大性别极化词阈值法

实验验证

对五个流行语言模型(BERT、GPT-2和三个CTRL模型)应用该方法,发现确实存在偏见证据:

  • 无神论和伊斯兰教比其他宗教信仰产生更消极的情感
  • 使用非裔美国人姓名的提示比其他族裔产生更消极情感和毒性语言

通过某众包平台进行人类评估验证,指标表现良好:

  • 性别极性的准确率和真阴性率超过90%
  • 情感和毒性的准确率超过80%

结论

这表明现有语言模型确实反映了训练文本中的偏见,纠正这些偏见应是进一步研究的主题。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计