以Buttercup开启AIxCC决赛征程 - The Trail of Bits博客
Michael D. Brown
2025年4月21日
aixcc, darpa, machine-learning
预算与时间扩展
决赛阶段最显著的变革是各团队可用资源的大幅提升。半决赛时竞赛系统在严格限制下运行:
- 时间:每个挑战仅4小时分析时间
- AI预算:每个挑战仅100美元用于商业AI API调用(如ChatGPT、Claude)
- 计算预算:固定分配的虚拟机,扩展选项有限
决赛阶段的约束条件(可能调整)变为:
- 时间:每个挑战8小时以上
- AI预算:每轮10,000美元用于商业AI API调用(每轮含多个挑战)
- 计算预算:每轮20,000美元用于Azure资源(服务器、VM、GPU)
这些新增资源使我们能在更符合实际的时间范围内执行更彻底的分析。凭借每个挑战更长的分析窗口和每轮增加的资源,Buttercup能够:
- 执行更深入的动态分析并对补丁进行更全面的测试
- 增加资源密集型任务(如模糊测试)的扩展规模
- 使用更多样化的商业AI模型处理比半决赛更广泛的任务
多轮竞赛机制
与半决赛的单轮计分不同,决赛包含三轮不计分的展示轮,让团队能在最终计分轮前迭代改进其CRS:
轮次 | 开放时间 | 计分方式 | 关键参数 |
---|---|---|---|
展示轮1 | 4月1日 | 不计分 | 2万计算预算 + 1万AI预算,2个挑战,最多2个并发,48小时挑战窗口,仅delta-scan挑战 |
展示轮2 | 5月6日 | 不计分 | 2万计算预算 + 1万AI预算,15-30个挑战,最多4个并发,8小时delta-scan,24小时full-scan挑战窗口,所有挑战类型 |
展示轮3 | 6月3日 | 不计分 | 参数待定(提前30天公布) |
决赛轮 | 6月24日 | 计分 | 参数待定(提前30天公布) |
表1:决赛竞赛结构
这种渐进式设计的重要意义在于鼓励系统能够适应不断变化的需求——这是现实世界安全工具的基本品质。它还允许参赛者根据前几轮的反馈迭代完善方法,使在DEFCON 2025上公布的最终系统更加健壮。
多样化挑战类型
技术上最重大的变化是引入多种挑战类型。半决赛只有一种挑战类型——具有少于100次提交的精简git历史记录的真实世界开源软件,每次提交可能引入也可能不引入漏洞。决赛的挑战仍然基于真实世界的开源软件,但现在包括:
1. Delta-scan挑战
这些挑战提供一个代码库和引入漏洞的单个diff。虽然代码库包含模糊测试工具作为起点,但diff为CRS提供了识别和修补漏洞的额外起点。
2. Full-scan挑战
这些挑战呈现一个已包含漏洞的扁平代码库。没有diff作为起点,CRS必须仅使用模糊测试工具作为起点对代码库进行更广泛的分析以发现漏洞。
3. SARIF广播挑战
这些挑战以SARIF格式提供静态分析警报,可能是真阳性或假阳性。CRS必须评估警报并确定是否代表真实漏洞,然后选择性地提供补丁。
这种多样化至关重要,因为现实世界的漏洞可以通过多种渠道发现——从代码审查、静态分析工具、模糊测试和运行时监控。能够处理所有这些输入的系统在实际安全环境中将显著更有价值。
支持自定义AI模型开发
可能是竞赛中最重大的政策变化,DARPA现在允许参赛者使用自定义AI/ML模型。在半决赛中,系统仅限于使用Anthropic、OpenAI和Google的第三方模型。现在,参赛者可以开发和部署自己的专业模型,只要它们获得竞赛批准并且可以复现。
团队现在可以:
- 专门针对安全漏洞检测微调模型
- 为漏洞分析的不同方面创建专业模型
- 为重复性任务开发轻量级、高效的模型
仍有保护措施确保公平竞争:自定义模型不能通过预训练来记忆开源软件中的历史漏洞信息。这防止团队简单地教授模型已知问题,并确保系统展示真正的推理能力。
灵活计算资源配置
另一个重大的技术转变是让参赛者直接控制其基础设施。与半决赛中固定分配计算资源不同,团队现在获得Azure订阅,每轮计算预算是唯一约束。
这意味着团队可以根据每个挑战的独特需求做出战略资源分配决策,例如:
- 将更强大的硬件专用于计算密集型模糊测试活动
- 分配昂贵的GPU实例来运行自定义AI模型
- 根据挑战复杂性动态扩展资源
- 并行运行多个分析管道
这种灵活性使团队能够在不计分轮次中试验不同的分配策略,确定哪些方法对不同类型的挑战产生最佳结果。
评分算法变更
AIxCC决赛保持了补丁价值远高于单纯漏洞发现的核心评分原则,但增加了新维度:
新增得分机会
- SARIF分类:正确将静态分析警报标记为真阳性或假阳性
- 捆绑提交:将SARIF广播与漏洞和补丁关联
新评分修正因子
- 早鸟奖励:较早提交获得更多分数
- 跨团队验证:补丁必须对所有团队发现的所有崩溃输入都有效才能得分
这些变化激励团队创建能够通过不同方法快速发现漏洞的系统,并创建真正解决漏洞根本原因而不是过滤特定崩溃输入的补丁。
Buttercup的下一步计划
Buttercup 2.0目前正在参加展示轮,我们的团队利用反馈来完善方法。我们的工作将在6月下旬的决赛轮达到高潮,结果将于8月在DEF CON 2025上公布。从这场竞赛中涌现的系统将代表自动漏洞发现和修复领域的重大飞跃。
请继续关注Buttercup在AIxCC决赛中旅程的更多更新!
免责声明:本文中引用的关于AIxCC规则、评分指南、基础设施和事件的信息可能会发生变化。本文不是权威文档。请参阅DARPA网站和官方文档获取第一手信息。