反事实评估：提升基于LLM评估系统的盲攻击检测能力

Thu, 11 Sep 2025 05:33:19 +0800

反事实评估用于基于LLM评估系统的盲攻击检测

摘要

本文研究针对基于大型语言模型（LLM）评估系统的提示注入防御方法。我们形式化了一类称为“盲攻击”的威胁，即候选答案独立于真实答案精心构造以欺骗评估器。为应对此类攻击，我们提出了一个框架，通过反事实评估（CFE）增强标准评估（SE），该框架针对故意错误的真实答案重新评估提交内容。如果系统在标准和反事实条件下均验证了某个答案，则检测到攻击。实验表明，虽然标准评估高度脆弱，但我们的SE+CFE框架通过以最小性能代价显著提升攻击检测能力，大幅改善了安全性。

提示注入防御 on 办公AI智能小助手

反事实评估：提升基于LLM评估系统的盲攻击检测能力

反事实评估用于基于LLM评估系统的盲攻击检测

摘要