揭秘LLM代码解释器安全:CIRCLE基准测试揭示重大漏洞

本文提出CIRCLE基准测试,针对大型语言模型代码解释器的系统级安全风险进行评估,涵盖CPU、内存和磁盘资源耗尽攻击,测试7个商业模型发现显著漏洞,间接社交工程提示极大削弱防御能力。

运行在CIRCLE中?LLM代码解释器安全的简单基准测试

随着大型语言模型(LLM)日益集成原生代码解释器,它们实现了强大的实时执行能力,显著扩展了实用性。然而,这种集成引入了潜在的系统级网络安全威胁,与基于提示的漏洞有根本性不同。为系统评估这些解释器特定风险,我们提出CIRCLE(代码解释器韧性检查以应对LLM攻击),一个包含1260个针对CPU、内存和磁盘资源耗尽的提示的简单基准。每个风险类别包括明确恶意(“直接”)和看似良性(“间接”)的提示变体。

我们的自动化评估框架不仅评估LLM是否拒绝或生成风险代码,还在解释器环境中执行生成的代码以评估代码正确性、LLM为使代码安全而进行的简化或执行超时。通过评估来自OpenAI和Google的7个商业可用模型,我们发现了显著且不一致的漏洞。

例如,评估显示即使在提供商内部也存在显著差异——OpenAI的o4-mini正确拒绝风险请求的比例为7.1%,显著高于GPT-4.1的0.5%。结果特别强调,间接的社交工程提示显著削弱了模型防御。这凸显了迫切需要解释器特定的网络安全基准、专用缓解工具(如防护栏)以及清晰的行业标准来指导LLM解释器集成的安全负责任部署。基准数据集和评估代码已公开发布以促进进一步研究。

主题分类:
密码学与安全(cs.CR);人工智能(cs.AI)

引用为:
arXiv:2507.19399 [cs.CR]
(或此版本的 arXiv:2507.19399v1 [cs.CR])

DOI:
https://doi.org/10.48550/arXiv.2507.19399

提交历史:
来自:Gabriel Chua [查看邮箱] [v1]
2025年7月25日星期五 16:06:16 UTC (404 KB)

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计