Fact2Fiction:针对智能事实核查系统的定向投毒攻击
作者:Haorui He, Yupeng Li, Bin Benjamin Zhu, Dacheng Wen, Reynold Cheng, Francis C. M. Lau
提交日期:2025年8月8日
摘要
最先进的事实核查系统通过部署基于大语言模型(LLM)的自主代理来大规模对抗错误信息。这些代理将复杂声明分解为较小的子声明,分别验证每个子声明,并聚合部分结果以生成带有理由(对判决的解释性推理)的判决。这些系统的安全性至关重要,因为被攻破的事实核查器(往往容易被忽视)可能会放大错误信息。
本文介绍了Fact2Fiction,这是首个针对此类智能事实核查系统的投毒攻击框架。Fact2Fiction模仿了系统的分解策略,并利用系统生成的解释来制作定制的恶意证据,以破坏子声明验证。大量实验表明,在各种投毒预算下,Fact2Fiction的攻击成功率比最先进的攻击方法高出8.9%至21.2%。Fact2Fiction暴露了当前事实核查系统的安全弱点,并强调了防御对策的必要性。
主题分类
- 密码学与安全(cs.CR)
- 计算与语言(cs.CL)
引用信息
arXiv:2508.06059 [cs.CR]
DOI:10.48550/arXiv.2508.06059
提交历史
- 版本v1:2025年8月8日 06:44:57 UTC(450 KB)
- 提交者:Haorui He
全文链接
- 查看PDF:Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System
- TeX源码:可用
- 其他格式:可用
许可
当前浏览上下文:cs.CR
相关工具与资源
本文涉及以下工具与资源:
- Bibliographic Explorer:文献浏览工具
- Connected Papers:相关论文查找
- Litmaps:文献图谱
- scite.ai:智能引用分析
- alphaXiv:代码、数据与媒体关联
- CatalyzeX:代码查找工具
- DagsHub:数据科学协作平台
- GotitPub:学术资源平台
- Hugging Face:模型与数据集库
- Papers with Code:带代码的论文
- ScienceCast:科学传播平台
演示与实验
- Replicate:实验复现平台
- Hugging Face Spaces:模型演示空间
- TXYZ.AI:AI研究工具
致谢
作者感谢Simons基金会、成员机构及所有贡献者的支持。