反事实评估用于基于LLM评估系统的盲攻击检测
摘要
本文研究针对基于大型语言模型(LLM)评估系统的提示注入防御方法。我们形式化了一类称为“盲攻击”的威胁,即候选答案独立于真实答案精心构造以欺骗评估器。为应对此类攻击,我们提出了一个框架,通过反事实评估(CFE)增强标准评估(SE),该框架针对故意错误的真实答案重新评估提交内容。如果系统在标准和反事实条件下均验证了某个答案,则检测到攻击。实验表明,虽然标准评估高度脆弱,但我们的SE+CFE框架通过以最小性能代价显著提升攻击检测能力,大幅改善了安全性。
主题分类
- 密码学与安全(cs.CR)
- 计算与语言(cs.CL)
引用信息
arXiv:2507.23453 [cs.CR]
DOI: 10.48550/arXiv.2507.23453
提交历史
- 提交日期: 2025年7月31日
- 版本: v1
- 提交作者: Lijia Liu
全文链接
相关工具与资源
本文提供以下辅助资源:
- Bibliographic Tools: 文献目录与引用工具
- Code, Data, Media: 相关代码、数据与媒体资源
- Demos: 演示项目
- Related Papers: 相关论文推荐
实验框架核心
盲攻击形式化
盲攻击指攻击者独立于真实答案构造候选答案,旨在欺骗LLM评估系统。
SE+CFE框架
- 标准评估(SE): 传统评估方法
- 反事实评估(CFE): 针对虚假真实答案重新评估提交内容
- 攻击检测机制: 当系统在标准与反事实条件下均验证答案时,触发攻击警报
实验结果
- 标准评估表现出高度脆弱性
- SE+CFE框架显著提升攻击检测率
- 性能代价最小化
社区与协作
本文通过arXivLabs与社区合作开发,遵循开放、社区、卓越和用户数据隐私的价值观。