Muted：多语言定向攻击性言论识别与可视化

网络内容中普遍存在仇恨言论、辱骂和脏话（HAP）等攻击性语言。虽然以往研究多集中于句子级标注，但近期已出现识别攻击性文本片段（offensive spans）的尝试。基于此，我们推出Muted系统，该系统通过热力图显示攻击性论据及其目标强度，实现多语言HAP内容识别。

Muted可直接利用任何基于Transformer的HAP分类模型及其注意力机制来识别有害文本片段，无需额外微调。此外，结合spaCy库对注意力热力图预测的词汇进行具体目标和论据识别。

本文展示了模型在现有数据集上识别攻击性片段及其目标的性能，并提供了德语文本的新标注数据。最后，通过多语言输入样例演示了所提出的可视化工具。