<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>提示注入防御 on 办公AI智能小助手</title>
    <link>https://blog.qife122.com/tags/%E6%8F%90%E7%A4%BA%E6%B3%A8%E5%85%A5%E9%98%B2%E5%BE%A1/</link>
    <description>Recent content in 提示注入防御 on 办公AI智能小助手</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>qife</copyright>
    <lastBuildDate>Thu, 11 Sep 2025 05:33:19 +0800</lastBuildDate>
    <atom:link href="https://blog.qife122.com/tags/%E6%8F%90%E7%A4%BA%E6%B3%A8%E5%85%A5%E9%98%B2%E5%BE%A1/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>反事实评估：提升基于LLM评估系统的盲攻击检测能力</title>
      <link>https://blog.qife122.com/p/%E5%8F%8D%E4%BA%8B%E5%AE%9E%E8%AF%84%E4%BC%B0%E6%8F%90%E5%8D%87%E5%9F%BA%E4%BA%8Ellm%E8%AF%84%E4%BC%B0%E7%B3%BB%E7%BB%9F%E7%9A%84%E7%9B%B2%E6%94%BB%E5%87%BB%E6%A3%80%E6%B5%8B%E8%83%BD%E5%8A%9B/</link>
      <pubDate>Thu, 11 Sep 2025 05:33:19 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E5%8F%8D%E4%BA%8B%E5%AE%9E%E8%AF%84%E4%BC%B0%E6%8F%90%E5%8D%87%E5%9F%BA%E4%BA%8Ellm%E8%AF%84%E4%BC%B0%E7%B3%BB%E7%BB%9F%E7%9A%84%E7%9B%B2%E6%94%BB%E5%87%BB%E6%A3%80%E6%B5%8B%E8%83%BD%E5%8A%9B/</guid>
      <description>&lt;h1 id=&#34;反事实评估用于基于llm评估系统的盲攻击检测&#34;&gt;反事实评估用于基于LLM评估系统的盲攻击检测&lt;/h1&gt;&#xA;&lt;h2 id=&#34;摘要&#34;&gt;摘要&lt;/h2&gt;&#xA;&lt;p&gt;本文研究针对基于大型语言模型（LLM）评估系统的提示注入防御方法。我们形式化了一类称为“盲攻击”的威胁，即候选答案独立于真实答案精心构造以欺骗评估器。为应对此类攻击，我们提出了一个框架，通过反事实评估（CFE）增强标准评估（SE），该框架针对故意错误的真实答案重新评估提交内容。如果系统在标准和反事实条件下均验证了某个答案，则检测到攻击。实验表明，虽然标准评估高度脆弱，但我们的SE+CFE框架通过以最小性能代价显著提升攻击检测能力，大幅改善了安全性。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
