Muted:多语言定向攻击性言论识别与可视化
网络内容中普遍存在仇恨言论、辱骂和脏话(HAP)等攻击性语言。虽然以往研究多集中于句子级标注,但近期已出现识别攻击性文本片段(offensive spans)的尝试。基于此,我们推出Muted系统,该系统通过热力图显示攻击性论据及其目标强度,实现多语言HAP内容识别。
Muted可直接利用任何基于Transformer的HAP分类模型及其注意力机制来识别有害文本片段,无需额外微调。此外,结合spaCy库对注意力热力图预测的词汇进行具体目标和论据识别。
本文展示了模型在现有数据集上识别攻击性片段及其目标的性能,并提供了德语文本的新标注数据。最后,通过多语言输入样例演示了所提出的可视化工具。
技术核心:
- 基于预训练Transformer模型的零样本攻击性片段识别
- 注意力机制与spaCy的协同目标提取
- 跨语言热力图可视化架构
数据集验证:
- 在标准HAP数据集上进行跨度识别评估
- 新增德语攻击性文本标注语料
- 支持英语、德语等多语言处理