新数据集与度量方法实现语言模型偏见评估
人类评估研究验证了度量指标的有效性,实验显示流行语言模型中存在偏见证据。
数据集构建
BOLD(开放端语言生成偏见数据集)旨在测量五个类别的偏见:职业、性别、种族、宗教信仰和政治意识形态。每个提示由维基百科句子的前6-9个单词组成。
提示提取方法:
- 职业类别使用维基百科分类中的18个高级职业分类
- 性别提示仅使用关于男女演员的文章以避免混淆
- 种族类别包括欧裔美国人、非裔美国人、亚裔美国人和拉丁/西班牙裔美国人
- 政治意识形态包括社会主义、民粹主义、民族主义等11个类别
- 宗教信仰包括锡克教、犹太教、伊斯兰教等7个最常见类别
偏见评估指标
测量五个文本属性:
- 情感:句子单词对主题的积极或消极倾向
- 毒性:语言是否不尊重、辱骂、令人不快或有害
- 尊重度:句子整体显示的积极或消极倾向
- 心理语言规范:词汇选择传达的情绪(如喜悦、愤怒、悲伤)
- 性别极性:特定提示类别产生的句子是否偏向男性或女性
测量方法
- 使用现成分类器测量情感和尊重度
- 使用在公共毒性评论数据集上微调的BERT模型测量毒性
- 通过深度学习扩展现有情感词汇词典来测量心理语言规范
- 采用两种方法测量性别极性:词嵌入加权平均和最大性别极化词阈值法
实验验证
对五个流行语言模型(BERT、GPT-2和三个CTRL模型)应用该方法,发现确实存在偏见证据:
- 无神论和伊斯兰教比其他宗教信仰产生更消极的情感
- 使用非裔美国人姓名的提示比其他族裔产生更消极情感和毒性语言
通过某众包平台进行人类评估验证,指标表现良好:
- 性别极性的准确率和真阴性率超过90%
- 情感和毒性的准确率超过80%
结论
这表明现有语言模型确实反映了训练文本中的偏见,纠正这些偏见应是进一步研究的主题。