语言模型偏见评估新数据集与度量方法

本文介绍了一种名为BOLD的新数据集，包含23000多个文本生成提示，用于测试语言模型中的偏见。同时提出了一套自动测量生成文本偏见的指标，包括情感、毒性、尊重度、心理语言规范和性别极性等维度，并通过人类评估验证了这些指标的有效性。

新数据集与度量方法实现语言模型偏见评估

人类评估研究验证了度量指标的有效性，实验显示流行语言模型中存在偏见证据。

数据集构建

BOLD（开放端语言生成偏见数据集）旨在测量五个类别的偏见：职业、性别、种族、宗教信仰和政治意识形态。每个提示由维基百科句子的前6-9个单词组成。

提示提取方法：

职业类别使用维基百科分类中的18个高级职业分类
性别提示仅使用关于男女演员的文章以避免混淆
种族类别包括欧裔美国人、非裔美国人、亚裔美国人和拉丁/西班牙裔美国人
政治意识形态包括社会主义、民粹主义、民族主义等11个类别
宗教信仰包括锡克教、犹太教、伊斯兰教等7个最常见类别

偏见评估指标

测量五个文本属性：

情感：句子单词对主题的积极或消极倾向
毒性：语言是否不尊重、辱骂、令人不快或有害
尊重度：句子整体显示的积极或消极倾向
心理语言规范：词汇选择传达的情绪（如喜悦、愤怒、悲伤）
性别极性：特定提示类别产生的句子是否偏向男性或女性

测量方法

使用现成分类器测量情感和尊重度
使用在公共毒性评论数据集上微调的BERT模型测量毒性
通过深度学习扩展现有情感词汇词典来测量心理语言规范
采用两种方法测量性别极性：词嵌入加权平均和最大性别极化词阈值法

实验验证

对五个流行语言模型（BERT、GPT-2和三个CTRL模型）应用该方法，发现确实存在偏见证据：

无神论和伊斯兰教比其他宗教信仰产生更消极的情感
使用非裔美国人姓名的提示比其他族裔产生更消极情感和毒性语言

通过某众包平台进行人类评估验证，指标表现良好：

性别极性的准确率和真阴性率超过90%
情感和毒性的准确率超过80%

结论

这表明现有语言模型确实反映了训练文本中的偏见，纠正这些偏见应是进一步研究的主题。

comments powered by Disqus