运行在CIRCLE中？LLM代码解释器安全的简单基准测试

随着大型语言模型（LLM）日益集成原生代码解释器，它们实现了强大的实时执行能力，显著扩展了实用性。然而，这种集成引入了潜在的系统级网络安全威胁，与基于提示的漏洞有根本性不同。为系统评估这些解释器特定风险，我们提出CIRCLE（代码解释器韧性检查以应对LLM攻击），一个包含1260个针对CPU、内存和磁盘资源耗尽的提示的简单基准。每个风险类别包括明确恶意（“直接”）和看似良性（“间接”）的提示变体。

我们的自动化评估框架不仅评估LLM是否拒绝或生成风险代码，还在解释器环境中执行生成的代码以评估代码正确性、LLM为使代码安全而进行的简化或执行超时。通过评估来自OpenAI和Google的7个商业可用模型，我们发现了显著且不一致的漏洞。

例如，评估显示即使在提供商内部也存在显著差异——OpenAI的o4-mini正确拒绝风险请求的比例为7.1%，显著高于GPT-4.1的0.5%。结果特别强调，间接的社交工程提示显著削弱了模型防御。这凸显了迫切需要解释器特定的网络安全基准、专用缓解工具（如防护栏）以及清晰的行业标准来指导LLM解释器集成的安全负责任部署。基准数据集和评估代码已公开发布以促进进一步研究。

主题分类：
密码学与安全（cs.CR）；人工智能（cs.AI）

引用为：
arXiv:2507.19399 [cs.CR]
(或此版本的 arXiv:2507.19399v1 [cs.CR])

DOI：
https://doi.org/10.48550/arXiv.2507.19399

提交历史：
来自：Gabriel Chua [查看邮箱] [v1]
2025年7月25日星期五 16:06:16 UTC (404 KB)

揭秘LLM代码解释器安全：CIRCLE基准测试揭示重大漏洞

本文提出CIRCLE基准测试，针对大型语言模型代码解释器的系统级安全风险进行评估，涵盖CPU、内存和磁盘资源耗尽攻击，测试7个商业模型发现显著漏洞，间接社交工程提示极大削弱防御能力。

运行在CIRCLE中？LLM代码解释器安全的简单基准测试