Trail of Bits的Buttercup在AIxCC挑战赛荣获亚军
2025年8月8日,在拉斯维加斯DEF CON 33大会上,我们团队在DARPA人工智能网络挑战赛(AIxCC)中获得亚军,赢得300万美元奖金。来自佐治亚理工学院、KAIST、POSTECH和三星研究的混合团队Team Atlanta获得400万美元冠军奖金,Theori以150万美元获得季军。
AIxCC是一项为期两年的公开竞赛,旨在寻找最佳全自动化开源软件安全防护系统。评分算法奖励发现漏洞、证明漏洞存在以及正确修补开源软件的行为,同时注重速度与准确性,严格禁止人工干预。
在去年的半决赛中,参赛队伍从42支缩减至7支决赛队伍。每支决赛队伍获得200万美元资金,用于完善其网络推理系统(CRS)。决赛包含23个开源仓库的48项挑战,我们发现了28个漏洞并成功应用了19个补丁。
真正的胜利超越数字。这些耗费数千小时研发的系统已开源,供所有人使用。以下是我们目前的表现详情。
Buttercup在20类CWE漏洞中发现率达到90%准确率
AIxCC要求参赛者在Mitre最危险的25类CWE中发现软件漏洞,Buttercup在其中20类提交了漏洞证明(PoV)。保护现实世界软件不仅涉及发现内存泄漏和缓冲区溢出,这种广度展示了我们系统对从内存安全問題到注入漏洞等多样漏洞类的强大理解。
其他团队也有良好的CWE覆盖,但我们的优势在于能够以高准确率将发现的漏洞与漏洞证明(PoV)及正确补丁捆绑。补丁不正确或不准确会被扣分,尽管竞赛数据尚未发布,我们相信这是获得亚军的关键因素。
LLMs物有所值
每个AIxCC团队获得LLM和计算预算。前两名团队Team Atlanta和我们,在LLM查询上花费最多。季军Theori在LLM查询上的花费约为前两名的一半。
Buttercup在性能上实现了显著效率。这种效率使我们的方法对开源社区特别有价值,因为计算预算有限,成本效益对广泛采用至关重要。以下是获奖团队的支出比较。
团队 | LLM支出 | 计算支出 | 总支出 | 每点成本 |
---|---|---|---|---|
Team Atlanta | $29.4k | $73.9k | $103.3k | $263 |
Trail of Bits | $21.1k | $18.5k | $39.6k | $181 |
Theori | $11.5k | $20.3k | $31.8k | $151 |
fuzzing_brain | $12.2k | $63.2k | $75.4k | $490 |
Shellphish | $2.9k | $54.9k | $57.8k | $425 |
42-b3yond-6ug | $1.1k | $38.7k | $39.8k | $379 |
LACROSSE | $631 | $7.1k | $7.2k | $751 |
每点成本显示为赢得每个竞赛点在计算和LLM资源上花费的金额。Trail of Bits以仅181美元每点的成本实现了卓越效率,证明世界级自动化漏洞发现无需巨额基础设施投资。
其他显著成就
我们的补丁系统代表了自动化代码修复的突破。最自豪的时刻之一是得知Buttercup提交了整个竞赛中最大的软件补丁,超过300行代码。这展示了对复杂代码库的理解以及安全准确实施重大修复的能力。
颁奖典礼后深入分析结果,我们得知Buttercup还:
- 在任务开始后不到5分钟内得分
- 进行了超过100,000次LLM请求
- 准确率超过90%
- 发现了一个触发未插入挑战的漏洞的PoV
- 以单行更改的补丁得分
- 成功捆绑了SARIF、PoV和补丁
Buttercup能为您做什么
作为一家以政府和开源社区参与闻名的网络安全服务公司,Trail of Bits设计Buttercup时注重可访问性。我们的系统已为自动化漏洞发现做好生产准备,证明世界级自动化漏洞发现和修补无需复杂基础设施。您今天就可以下载Buttercup并在笔记本电脑上运行。
Buttercup如何工作?它通过LLM生成的测试用例增强libFuzzer和Jazzer,集成静态分析工具如tree-sitter和代码查询系统,使用多代理架构进行智能修补与关注点分离,并理解调用图、依赖关系和漏洞上下文。
Buttercup的故事刚刚开始。我们已在探索进一步优化系统的方法,DARPA和ARPA-H慷慨提供每个AIxCC团队额外20万美元,以将其CRS集成到关键软件中。如果您有代码仓库想用Buttercup保护,请联系我们。
DARPA尚未向参赛者发布所有AIxCC竞赛数据和遥测数据,请关注未来几周更多分析结果的博客文章。
最后,祝贺所有团队推动我们在AI系统开源安全领域取得突破。行业的未来从今天开始。