Fact2Fiction:针对智能事实核查系统的定向投毒攻击

本文提出Fact2Fiction,首个针对基于LLM的智能事实核查系统的投毒攻击框架。该攻击通过模仿系统分解策略并利用生成的解释来制作恶意证据,实验显示攻击成功率比现有方法高8.9%至21.2%,揭示了当前系统的安全弱点。

Fact2Fiction:针对智能事实核查系统的定向投毒攻击

作者:Haorui He, Yupeng Li, Bin Benjamin Zhu, Dacheng Wen, Reynold Cheng, Francis C. M. Lau
提交日期:2025年8月8日

摘要

最先进的事实核查系统通过部署基于大语言模型(LLM)的自主代理来大规模对抗错误信息。这些代理将复杂声明分解为较小的子声明,分别验证每个子声明,并聚合部分结果以生成带有理由(对判决的解释性推理)的判决。这些系统的安全性至关重要,因为被攻破的事实核查器(往往容易被忽视)可能会放大错误信息。

本文介绍了Fact2Fiction,这是首个针对此类智能事实核查系统的投毒攻击框架。Fact2Fiction模仿了系统的分解策略,并利用系统生成的解释来制作定制的恶意证据,以破坏子声明验证。大量实验表明,在各种投毒预算下,Fact2Fiction的攻击成功率比最先进的攻击方法高出8.9%至21.2%。Fact2Fiction暴露了当前事实核查系统的安全弱点,并强调了防御对策的必要性。

主题分类

  • 密码学与安全(cs.CR)
  • 计算与语言(cs.CL)

引用信息

arXiv:2508.06059 [cs.CR]
DOI:10.48550/arXiv.2508.06059

提交历史

  • 版本v1:2025年8月8日 06:44:57 UTC(450 KB)
  • 提交者:Haorui He

全文链接

许可

当前浏览上下文:cs.CR

相关工具与资源

本文涉及以下工具与资源:

  • Bibliographic Explorer:文献浏览工具
  • Connected Papers:相关论文查找
  • Litmaps:文献图谱
  • scite.ai:智能引用分析
  • alphaXiv:代码、数据与媒体关联
  • CatalyzeX:代码查找工具
  • DagsHub:数据科学协作平台
  • GotitPub:学术资源平台
  • Hugging Face:模型与数据集库
  • Papers with Code:带代码的论文
  • ScienceCast:科学传播平台

演示与实验

  • Replicate:实验复现平台
  • Hugging Face Spaces:模型演示空间
  • TXYZ.AI:AI研究工具

致谢

作者感谢Simons基金会、成员机构及所有贡献者的支持。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计