Trail of Bits 的 Buttercup 进军 DARPA 的 AIxCC
随着 DARPA 人工智能网络挑战赛(AIxCC)半决赛于 2024 年 DEF CON 大会今日启动,我们正式介绍我们的参赛作品——Buttercup。Buttercup 是一款网络推理系统(CRS),它融合了模糊测试、静态分析等传统网络安全技术与人工智能和机器学习,用于发现并修复软件漏洞。该系统设计用于在竞赛严格的时间和预算限制内运行。
自 DARPA 于三月向我们及其他六家小型企业授予 100 万美元用于开发 AIxCC 的 CRS 以来,我们一直在全力开发 Buttercup,并于七月中旬完成提交。我们很高兴参与半决赛,DARPA 将测试我们的 CRS 在发现和修复漏洞方面是否比人类更高效。许多开发 Buttercup 的 Trail of Bits 工程师将出席 DEF CON,欢迎前来交流!
Buttercup 的标识
本文将介绍 Buttercup 背后的团队,解释我们参赛的原因、面临的挑战以及未来的计划。
为什么参赛
在 Trail of Bits,我们的核心支柱之一是通过贡献开源软件、开发工具和分享知识来加强安全社区。开源软件至关重要,支撑着当今许多技术——从运行全球数百万台服务器的 Linux 操作系统,到服务互联网重要部分的 Apache HTTP 服务器。然而,真正的问题在于开源代码的数量庞大和复杂性高,使其难以保持安全。
Dan Guido 解释说:“代码量太大,复杂度太高,难以在全球范围内发现所有漏洞。我们每天都在编写更多软件,越来越依赖软件,但安全工程师的数量并未随工作需求的增长而增加。人工智能是一个机会,可能帮助我们发现和修复当前普遍且数量不断增长的安全问题。”
观看其他关于竞赛的访谈
我们在 Buttercup 上的工作旨在应对这些挑战,强化我们保护开源软件对更安全世界至关重要的信念。通过开发先进的 AI 驱动解决方案,Trail of Bits 不仅为创新而竞争,还为保护我们所有人依赖的系统这一更广泛使命做出贡献。
Buttercup 背后的团队
我们的 AIxCC 团队由 19 名工程师组成,每人属于一个具有特定目标和任务的子团队。我们是一个完全远程的团队,由于时区差异,几乎全天候工作,这带来了挑战和机遇。首先,介绍我们的团队领导:
开发 Buttercup 的核心团队
其他参与 Buttercup 工作的团队成员包括 Alan Cao、Alessandro Gario、Akshay Kumar、Boyan Milanov、Marek Surovic、Brad Swain、William Tan 和 Amanda Stickler。
Artem Dinaburg、Andrew Pan、Henrik Brodin 和 Evan Sultanik 在 Buttercup 开发的初始阶段做出了宝贵贡献。
介绍 Buttercup:我们的 AIxCC 参赛作品
Buttercup 是我们为 AIxCC 开发的 CRS,代表了自动化漏洞检测和修复的重大飞跃。以下是 Buttercup 的独特之处:
- 混合方法:Buttercup 结合了模糊测试、静态分析等传统网络安全技术与前沿的人工智能和机器学习。这种融合使我们能够利用两种方法的优势,克服各自的局限性。
- 自适应漏洞发现:我们的系统使用大型语言模型(LLM)生成模糊测试的种子输入,显著减少发现漏洞所需的时间。这种创新方法帮助我们在竞赛的严格时间限制内工作。
- 智能上下文理解:Buttercup 不仅发现漏洞,还理解它们。我们的系统能够识别导致错误的提交,并为有效修补提供关键上下文。
- AI 驱动的修补:我们采用了多交互 LLM 代理方法进行补丁生成。这些代理协作分析、调试,并根据验证反馈迭代改进补丁。
- 可扩展性和韧性:借鉴我们在 Cyber Grand Challenge 中 Cyberdyne 的经验,我们为 Buttercup 设计了分布式架构,确保可扩展性和对故障的韧性。
- 语言多样性:虽然竞赛初期专注于 C 和 Java,但 Buttercup 的架构设计为可扩展至其他编程语言。
通过结合这些能力,Buttercup 旨在自动化整个漏洞生命周期——从发现到修补——无需人工干预。这种方法不仅满足竞赛要求,还推动了自动化网络安全的可能性边界。
适应竞赛限制
竞赛并非没有挑战。Buttercup 的开发历时三个月,涉及构建和集成组件以及频繁的进度检查。团队不断适应不断变化的要求和 DARPA 的新竞赛规则,这常常迫使我们重做 Buttercup 的部分内容。
AIxCC 带来了独特挑战,包括严格的四小时时间限制和每个挑战 100 美元的 LLM 查询限制,推动我们以最初未预料的方式创新和适应:
- 优化种子生成:我们改进了使用 LLM 生成高质量模糊测试种子输入的方法,旨在更快发现漏洞。
- 简化工作流:我们的整个流程,从漏洞发现到补丁生成,都经过优化以在紧张的时间限制内工作。
- 优先级策略:我们实施了智能优先级机制,在有限时间内专注于最有希望的线索。
- 高效资源分配:Buttercup 动态分配计算资源,以在四小时窗口内最大化生产力。
- 战略使用 LLM:每个挑战 100 美元的 LLM 查询限制要求我们仔细预算 AI 资源,并强调在整个过程中高效、有针对性地使用 LLM。
除了时间限制和资源约束,我们还面临其他挑战:
- AI 不可预测性:AI 的不可预测性要求精确提示以获得有用输出。它生成概率性而非确定性的结果。我们的系统使用来自模糊测试等基本测试工具和方法的反馈来评估模糊或概率性输出。这让团队能够确定漏洞是误报还是真阳性。
- 并行开发:同时构建和集成组件需要卓越的团队合作和适应性。我们的全球团队几乎全天候工作,利用不同时区持续取得进展。
- 不断变化的要求:我们不断适应 DARPA 的新信息和规则澄清,有时不得不重新评估和调整我们的方法。
尽管我们认为更宽松的限制将允许发现更深层、更复杂的漏洞,但我们已将此挑战视为推动快速、自动化漏洞发现和修复可能性边界的机会。
未来计划
7 月 15 日,我们完成并提交了 Buttercup 参加 AIxCC 半决赛。这一提交展示了我们在漏洞发现、修补和协调方面的工作。我们的短期目标是在 DEF CON 半决赛的 42 支团队中进入前七名,并继续开发 Buttercup 以参加 2025 年的决赛。
展望未来,我们的长期目标是推进 AI 和 ML 算法在检测和修补漏洞中的应用,并将该技术转移给政府和行业合作伙伴。我们承诺按照竞赛要求发布 Buttercup,继续我们为更广泛网络安全社区贡献的理念。
随着我们进入 AIxCC 这一激动人心的阶段,我们邀请您加入我们的旅程:
- 保持关注:注册我们的通讯,并在 X、LinkedIn 和 Mastodon 上关注我们的账户,以获取竞赛进展更新和我们 AI 工作的见解。我们的 AI/ML 团队最近分享了通过报告 Ask Astro 和 Sleepy Pickle 中的漏洞来帮助保护 ML 系统的工作。
- 探索我们的开源工作:虽然 Buttercup 要到明年才会开源,但您可以在 GitHub 上查看我们的其他项目。我们对开源的承诺继续推动网络安全社区的创新。
- 在 DEF CON 联系我们:如果您参加 DEF CON,请来 AIxCC 村庄与我们的团队打招呼!我们很乐意讨论我们的方法并探索潜在合作。
- 与我们合作:我们帮助公司应用 LLM 应对网络安全挑战。我们在 Buttercup 上的经验为我们利用 AI 增强安全提供了独特见解——让我们讨论如何增强您的团队。
AIxCC 半决赛只是这一旅程的开始。通过参与这一开创性竞赛,我们不仅是在构建一个工具——我们是在塑造网络安全的未来。加入我们,共同推动自动化漏洞发现和修复的可能性边界。
半决赛正在进行中,请在社交媒体上关注我们以获取我们的整体进展和团队成就的最新信息。
如果您喜欢这篇文章,请分享: Twitter LinkedIn GitHub Mastodon Hacker News
页面内容 为什么参赛 Buttercup 背后的团队 介绍 Buttercup:我们的 AIxCC 参赛作品 适应竞赛限制 未来计划 近期文章 使用 Deptective 调查您的依赖项 系好安全带,Buttercup,AIxCC 的评分轮正在进行中! 超越私钥风险,成熟您的智能合约 Go 解析器中意想不到的安全陷阱 我们审查 Silence Laboratories 的首批 DKLs23 库的收获 © 2025 Trail of Bits。 使用 Hugo 和 Mainroad 主题生成。