首个儿童定向仇恨言论数据集ChildGuard发布

本文介绍ChildGuard数据集,这是首个专门针对儿童仇恨言论的大规模英语数据集,包含35万条标注样本,涵盖三个年龄组别,并分为语境和词汇两个子集用于细粒度分析,基准测试显示现有模型在该数据集上性能显著下降。

ChildGuard:专用于打击针对儿童仇恨言论的数据集

社交媒体上针对儿童的仇恨言论是一个严重且日益恶化的问题,然而现有的自然语言处理系统难以有效检测此类内容。这一差距主要源于现有数据集多聚焦于成年人、缺乏年龄特定标签、忽略细微语言特征,且通常规模过小难以支撑稳健建模。

数据集被划分为两个子集以进行细粒度分析:

  • 语境子集(15.7万条):专注于话语层面特征
  • 词汇子集(19.4万条):强调词汇级情感和用语特征

在ChildGuard上对最先进的仇恨言论检测模型进行基准测试时,发现模型性能出现显著下降,这凸显了检测针对儿童的仇恨言论所面临的特殊挑战。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计