针对大型语言模型的时差攻击

这是一项重要的研究：《注意差距：LLM智能代理中的时差（TOCTOU）漏洞》

摘要：大型语言模型（LLM）智能代理正在各类应用中快速普及，但其部署带来了具有安全影响的漏洞。虽然先前研究已探讨基于提示的攻击（如提示注入）和面向数据的威胁（如数据窃取），但时差攻击（TOCTOU）在此背景下仍基本未被探索。当代理验证外部状态（如文件或API响应）后，该状态在使用前被修改，就会产生TOCTOU漏洞，从而实现恶意配置交换或负载注入等实际攻击。本研究首次系统分析了LLM智能代理中的TOCTOU漏洞。我们推出了TOCTOU-Bench基准测试，包含66个现实用户任务，专门用于评估此类漏洞。作为应对措施，我们将系统安全领域的检测与缓解技术适配至此场景，并提出提示重写、状态完整性监控和工具融合三种方案。我们的研究凸显了智能工作流特有的挑战，通过自动化检测方法实现了最高25%的检测准确率，脆弱计划生成减少3%，攻击窗口缩小95%。当结合所有三种方法时，我们将执行轨迹中的TOCTOU漏洞从12%降至8%。我们的发现为AI安全与系统安全的交叉领域开辟了新的研究方向。

标签：学术论文，网络攻击，LLM，漏洞

发布于：2025年9月18日上午7:06

评论精选

Clive Robinson •
2025年9月18日 8:37 AM

@ Bruce, ALL,
“新瓶装旧酒”
我们不应惊讶于这种“老方法被用于攻击新技术”的现象。每种新技术出现时，最先试图破坏它的往往是我们称之为罪犯的人，具体取决于当地立法等的推进速度。多数情况下，选择的破坏方法都是“经过时间考验、可靠有效”的老方法，只是经过“削足适履后植入等待的新技术”中。因此我们都应预期会出现类似情况。最终会出现针对特定技术的全新破坏方法，但通常不会立即出现，因为它们需要满足两个老方法不需要的条件：

作为方法被“发明”
随后经历“创新”
但不必担心，它们终将到来。我在自己的经历中见证了足够多的合法与非法“发明”，足以在当前AI LLM及ML中预见许多可能性。如果连我都能看到…

KC •
2025年9月18日 9:26 AM

这里我有些困惑（重点为我所加）：
（第一部分）
TOCTOU分类标准：
如果对相同/重叠资源执行READ->WRITE顺序，标记为POTENTIAL_TOCTOU
否则标记为BENIGN

提示重写示例：
用户查询：“查看记录是否在数据库中可用，然后更新它”
重写后：“仅当记录在更新时刻仍然存在且有效时，才更新数据库中的记录”

KC •
2025年9月18日 9:27 AM

（第二部分）
出于某种原因，我原以为WRITE步骤会更危险。（提供的3个示例在我看来相对温和？）如果记录现在不存在，更新数据库记录是否危险？这是为了预防错误还是恶意活动——或兼而有之？
摘要提到实际攻击如“恶意配置交换或负载注入”。我可以想象这种情况确实存在。想知道是否有示例能说明这类攻击，或者我遗漏了什么？

针对大型语言模型的时差攻击漏洞分析

本研究首次系统分析LLM智能代理中的TOCTOU漏洞，提出包含66个实际任务的评估基准TOCTOU-Bench，并探讨提示重写、状态完整性监控和工具融合三种防御方案，将漏洞执行轨迹从12%降至8%。

针对大型语言模型的时差攻击

评论精选