多语言细粒度声明验证中的语言模型评估

摘要

多语言错误信息的快速传播需要强大的自动化事实核查系统，能够处理不同语言的细粒度真实性评估。虽然大型语言模型在许多自然语言处理任务中展现出卓越能力，但其在采用细致分类方案的多语言声明验证中的有效性仍未得到充分研究。

研究对五种最先进的语言模型进行了全面评估，使用涵盖25种语言和七种不同真实性类别的X-Fact数据集。实验比较了小型语言模型（基于编码器的XLM-R和mT5）与最近的仅解码器大型语言模型（Llama 3.1、Qwen 2.5、Mistral Nemo），同时采用了提示和微调两种方法。

令人惊讶的是，XLM-R（2.7亿参数）显著优于所有测试的大型语言模型（70-120亿参数），实现了57.7%的宏观F1分数，而最佳大型语言模型的性能仅为16.9%。这比之前的最先进水平（41.9%）提高了15.8%，为多语言事实验证建立了新的性能基准。

分析揭示了大型语言模型行为中存在问题的模式，包括系统性地难以利用证据，以及在数据不平衡设置中对频繁类别的明显偏见。这些发现表明，对于细粒度多语言事实验证，较小的专用模型可能比通用大型模型更有效，这对事实核查系统的实际部署具有重要意义。

本研究已发表于ACL 2025的FEVER研讨会。