Buttercup在AIxCC挑战赛中斩获亚军:AI驱动的漏洞挖掘与修复系统

Trail of Bits的Buttercup系统在DARPA AI网络挑战赛中获得亚军,该系统利用LLM在20种CWE中发现漏洞准确率达90%,实现了自动化漏洞挖掘和修复,展示了AI在网络安全领域的突破性应用。

Trail of Bits的Buttercup在AIxCC挑战赛中荣获亚军

2025年8月8日,在拉斯维加斯DEF CON 33大会上,DARPA宣布我们的团队在人工智能网络挑战赛(AIxCC)中获得亚军,赢得300万美元奖金。来自佐治亚理工学院、KAIST、POSTECH和三星研究的工程师组成的混合团队Team Atlanta获得400万美元头奖,Theori以150万美元获得第三名。

AIxCC竞赛概述

AIxCC是一项为期两年的公开竞赛,旨在寻找能够构建最佳全自动开源软件安全防护系统的团队。评分算法根据发现漏洞、证明漏洞存在以及正确为开源软件打补丁的能力进行评判,同时奖励速度和准确性,严格禁止人工干预。

在去年的半决赛中,参赛队伍从42支缩减至7支决赛队伍。每支决赛队伍获得200万美元资金,用于在接下来的一年中完善其网络推理系统(CRSs)。决赛轮包含23个开源仓库的48个挑战,我们发现了28个漏洞并成功应用了19个补丁。

Buttercup的技术成就

跨越20种CWE发现漏洞,准确率达90%

Buttercup在Mitre的25种最危险CWE中发现了20种漏洞,并提交了漏洞证明(PoVs)。保护现实世界软件不仅仅是发现内存泄漏和缓冲区溢出,这种广度展示了我们系统对多样化漏洞类别的强大理解能力。

与其他团队相比,我们的优势在于能够以高准确率将发现的漏洞与漏洞证明(PoVs)以及正确补丁打包。虽然竞赛数据尚未发布,但我们相信这是我们获得亚军的关键因素。

LLM的投入物超所值

AIxCC为每支团队提供了LLM和计算预算。前两名团队在LLM查询上花费最多,Buttercup相对于我们的表现实现了显著效率。这种效率使得我们的方法对计算预算有限的开源社区特别有价值。

以下是获奖团队的支出对比:

团队 LLM支出 计算支出 总支出 每分成本
Team Atlanta $29.4k $73.9k $103.3k $263
Trail of Bits $21.1k $18.5k $39.6k $181
Theori $11.5k $20.3k $31.8k $151

其他显著成就

我们的补丁系统代表了自动化代码修复的突破。Buttercup提交了整个竞赛中最大的软件补丁,超过300行代码,这表明了对复杂代码库的理解以及安全准确实施重大修复的能力。

颁奖典礼后的深入分析显示,Buttercup还实现了以下成就:

  • 在任务开始不到5分钟内得分
  • 进行了超过100,000次LLM请求
  • 准确率超过90%
  • 发现了一个触发非竞赛植入漏洞的PoV
  • 通过单行更改的补丁得分
  • 成功打包SARIF、PoV和补丁

Buttercup的实际应用

作为一家在政府和开源社区参与方面享有声誉的网络安全服务公司,Trail of Bits在设计Buttercup时考虑了可访问性。我们的系统已准备好用于自动化漏洞发现,并证明世界级的自动化漏洞发现和修补不需要复杂的基础设施。您今天就可以下载Buttercup并在笔记本电脑上运行。

Buttercup的工作原理

Buttercup通过以下方式工作:

  • 使用LLM生成的测试用例增强libFuzzer和Jazzer
  • 集成静态分析工具如tree-sitter和代码查询系统
  • 采用多代理架构进行智能补丁,实现关注点分离
  • 理解调用图、依赖关系和漏洞上下文

Buttercup的故事才刚刚开始。我们已经在探索进一步优化系统的方法,DARPA和ARPA-H已慷慨地向每个AIxCC团队提供额外20万美元,将其CRS集成到关键软件中。

DARPA尚未向参赛者发布所有AIxCC竞赛数据和遥测数据,请继续关注未来几周分析结果的更多博客文章。

最后,祝贺所有团队推动我们在AI系统在开源安全领域所能实现的极限。行业的未来从今天开始。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计