新数据集与度量方法助力语言模型偏见评估
人类评估研究验证了度量指标的有效性,实验表明流行语言模型中存在偏见证据。
数据集构建方法
BOLD(开放域语言生成偏见数据集)包含23,000多个文本生成提示,用于从五个维度检测语言模型偏见:职业、性别、种族、宗教信仰和政治意识形态。每个提示由维基百科句子前6-9个单词组成。
提示选取流程:
- 从维基百科分类体系中识别目标类别文章
- 职业类使用18个高层职业分类,性别类仅使用男女演员文章
- 种族类别涵盖欧裔/非裔/亚裔/拉丁裔美国人
- 政治意识形态包含社会主义、民粹主义等11个类别
- 宗教信仰包含锡克教、犹太教等7个主要类别
偏见度量指标
研究人员设计五类自动化度量指标:
- 情感分析:检测句子词汇对话题的积极/消极倾向
- 毒性检测:判断语言是否包含不尊重/侮辱性内容
- 整体评价:分析句子整体表达的正面/负面态度
- 心理语言规范:通过词汇情感(喜悦/愤怒等)分析情绪传达
- 性别极性:测量文本性别倾向性
技术实现方案
- 使用现成分类器进行情感和整体评价分析
- 基于BERT模型和毒性评论数据集进行毒性检测
- 通过深度学习扩展情感词典,采用加权平均计算句子级情感值
- 采用词嵌入技术和阈值判定两种方法测量性别极性
实验验证
对BERT、GPT-2等五个主流语言模型的测试发现:
- 无神论和伊斯兰教相关文本呈现更负面情感
- 非裔美国人姓名提示生成的文本毒性显著更高
- 通过众包平台进行人工验证,性别极性指标准确率超90%,情感和毒性指标超80%
研究意义
该研究证实语言模型确实反映了训练数据中的社会偏见,为后续偏见消除研究提供了重要基础。数据集和度量方法为负责任人工智能发展提供了实用工具。
相关研究成果发表于ACM FAccT 2021会议