不可靠新闻数据集中的隐藏偏见
在某中心2021年欧洲计算语言学会议(EACL)上,一篇关于不可靠新闻检测数据集中隐藏偏见的论文获得最佳长论文荣誉提名。该论文由某机构研究人员与北卡罗来纳大学教堂山分校的合作者共同完成。
数据收集方法分析
研究首先分析了不可靠新闻文章数据集的数据收集策略。创建此类数据集需要收集新闻文章及其对应标签(如"可靠"或"不可靠")。标签收集是最具挑战性的任务:一些事实核查网站(如PolitiFact、GossipCop)为单个文章分配标签,这种方法准确但耗时昂贵,导致数据集规模较小;另一种可扩展的方法是给每个新闻站点分配可靠性评分,这种方法可以创建大规模数据集但会产生噪声标签。
关键词关联偏差
以文章级标注的FakeNewsNet数据集为例,研究发现简单逻辑回归模型基于关键词预测标签的准确率(78%)接近最先进的BERT模型(81%)。驱动模型性能的关键词显示:名人姓名(“Brad”、“Pitt”、“Jenner"等)预测"不可靠"标签,而中性术语如"2018"或"season"预测"可靠"标签。这表明预测能力可能依赖于标识主题的简单关键词,而非更深层的模式,反映了数据集组成的偏见。
站点分类问题
在研究使用站点级标签的NELA数据集时,发现了更多挑战。文献报道的模型在标注NELA数据集的新闻文章时表现出高准确性,但研究发现这种准确性很大程度上源于训练和测试数据中包含相同站点的文章。模型可以忽略识别不可靠内容的任务,只需学习特定站点的可靠性。
通过"随机标签"实验证实了这一点:随机打乱所有站点级标签后,使用随机标签训练的模型准确率仅比使用真实标签训练的模型低2%。这些模型学会了识别站点,但这并不实用,因为站点名称已包含在文章网址中。
数据集划分的重要性
研究还表明,虽然使用干净的训练/测试站点划分是必要的,但不足以衡量模型的泛化能力。测试不同站点划分后发现,性能取决于测试集和训练集中站点的相似性:测试集准确率较高与训练集和测试集中站点相似性较高相关。
使用正确划分的数据集(训练集和测试集相似性低)训练模型后,检查最容易错误识别为可靠或不可靠的文章类型,发现模型在政治和世界新闻主题上最容易出错,在体育和娱乐方面最准确。
改进建议
为确保模型性能改进反映真实的不可靠新闻检测能力,研究提出了数据收集、数据集构建和实验设计方面的改进建议:
数据收集
- 从偏见较少或无偏见的资源(如原始新闻媒体)收集
- 从多样化资源(来源、主题、时间等)收集
- 尽可能收集精确的文章级标签
数据集构建
- 检查最显著词语以检查数据集中的偏见
- 运行简单的词袋基线以检查偏见的严重程度
- 提供具有非重叠来源/时间的训练/开发/测试划分
实验设计
- 在 biased 数据集上开发模型时应用去偏见技术
- 检查在训练集中未包含的来源/日期上的性能
- 检查在示例有限的来源上的性能
- 在多个互补数据集上测试模型
所有代码均基于Apache 2许可证在GitHub上提供。