本文介绍ChildGuard数据集，这是首个专门针对儿童仇恨言论的大规模英语数据集，包含35万条标注样本，涵盖三个年龄组别，并分为语境和词汇两个子集用于细粒度分析，基准测试显示现有模型在该数据集上性能显著下降。

ChildGuard：专用于打击针对儿童仇恨言论的数据集

社交媒体上针对儿童的仇恨言论是一个严重且日益恶化的问题，然而现有的自然语言处理系统难以有效检测此类内容。这一差距主要源于现有数据集多聚焦于成年人、缺乏年龄特定标签、忽略细微语言特征，且通常规模过小难以支撑稳健建模。

数据集被划分为两个子集以进行细粒度分析：

在ChildGuard上对最先进的仇恨言论检测模型进行基准测试时，发现模型性能出现显著下降，这凸显了检测针对儿童的仇恨言论所面临的特殊挑战。