多语言定向攻击性言论识别与可视化技术

本文介绍Muted系统,利用基于Transformer的仇恨辱骂脏话分类模型及注意力机制,无需微调即可识别多语言攻击性内容,通过热力图显示攻击强度,并结合spaCy库识别具体目标和论据。

Muted:多语言定向攻击性言论识别与可视化

网络内容中普遍存在仇恨言论、辱骂和脏话(HAP)等攻击性语言。虽然以往研究多集中于句子级标注,但近期已出现识别攻击性文本片段(offensive spans)的尝试。基于此,我们推出Muted系统,该系统通过热力图显示攻击性论据及其目标强度,实现多语言HAP内容识别。

Muted可直接利用任何基于Transformer的HAP分类模型及其注意力机制来识别有害文本片段,无需额外微调。此外,结合spaCy库对注意力热力图预测的词汇进行具体目标和论据识别。

本文展示了模型在现有数据集上识别攻击性片段及其目标的性能,并提供了德语文本的新标注数据。最后,通过多语言输入样例演示了所提出的可视化工具。

技术核心

  • 基于预训练Transformer模型的零样本攻击性片段识别
  • 注意力机制与spaCy的协同目标提取
  • 跨语言热力图可视化架构

数据集验证

  • 在标准HAP数据集上进行跨度识别评估
  • 新增德语攻击性文本标注语料
  • 支持英语、德语等多语言处理
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计