ChildGuard:专用于打击针对儿童仇恨言论的数据集
社交媒体上针对儿童的仇恨言论是一个严重且日益恶化的问题,然而现有的自然语言处理系统难以有效检测此类内容。这一差距主要源于现有数据集多聚焦于成年人、缺乏年龄特定标签、忽略细微语言特征,且通常规模过小难以支撑稳健建模。
数据集被划分为两个子集以进行细粒度分析:
- 语境子集(15.7万条):专注于话语层面特征
- 词汇子集(19.4万条):强调词汇级情感和用语特征
在ChildGuard上对最先进的仇恨言论检测模型进行基准测试时,发现模型性能出现显著下降,这凸显了检测针对儿童的仇恨言论所面临的特殊挑战。