AIxCC决赛开启:Buttercup迎战多类型安全挑战
DARPA的AI网络挑战赛(AIxCC)决赛正式启动,我们的网络推理系统(CRS)Buttercup已准备就绪!最初严格受限的比赛现已变得更加雄心勃勃:团队可以构建自定义AI模型、控制自身基础设施,并同时处理多种安全挑战。伴随新挑战而来的是更多资源——每项挑战的预算从半决赛的100美元增至1000美元或更高。
这些变化不仅是电子表格上的数字增长,更使得参赛者能够构建更接近实际安全工具而非学术概念验证的系统。技术方法的灵活性扩展也意味着我们将看到AI在网络安全问题上更创新的应用——这些方法在半决赛约束下根本无法实现。
以下是竞赛的具体变化及其意义:
预算与时间扩展
决赛最显著的转变是每队可用资源的增加。半决赛中,竞争系统在严格约束下运行,限制了分析深度和方法:
- 时间:每项挑战仅4小时分析时间
- AI预算:每项挑战仅100美元用于商业AI API调用(如ChatGPT、Claude)
- 计算预算:固定分配的虚拟机,扩展选项有限
决赛中,这些约束(可能变更)调整为:
- 时间:每项挑战8小时以上
- AI预算:每轮10000美元用于商业AI API调用(每轮含多项挑战)
- 计算预算:每轮20000美元用于Azure资源(服务器、虚拟机、GPU)(每轮含多项挑战)
增加的资源使我们能够在更实际的时间范围内进行更彻底的分析。凭借每项挑战更长的分析窗口和每轮更多的资源,Buttercup可以:
- 执行更深入的动态分析,对补丁进行更全面的测试
- 增加资源密集型任务(如模糊测试)的扩展性
- 使用更广泛的商业AI模型处理更多样化的任务
多轮竞赛结构
与半决赛的单轮计分不同,决赛包含三轮不计分的展示轮,允许团队在最终计分轮前迭代改进其CRS:
| 轮次 | 开放时间 | 计分类型 | 关键参数 |
|---|---|---|---|
| 展示轮1 | 4月1日 | 不计分 | 20000美元计算预算和10000美元AI预算;2项挑战,最多2项并发;48小时挑战窗口;仅Delta-scan挑战 |
| 展示轮2 | 5月6日 | 不计分 | 20000美元计算预算和10000美元AI预算;15-30项挑战,最多4项并发;8小时Delta-scan、24小时Full-scan挑战窗口;所有挑战类型 |
| 展示轮3 | 6月3日 | 不计分 | 参数待定(提前30天公布) |
| 最终轮 | 6月24日 | 计分 | 参数待定(提前30天公布) |
表1:决赛竞赛结构
这一进展意义重大,因为它鼓励系统适应不断变化的需求——这是实际安全工具的基本品质。它还允许参赛者根据前几轮的反馈迭代改进方法,使得在DEFCON 2025上公布的最终系统更加稳健。
多类型挑战
技术最显著的变化是引入多种挑战类型。半决赛仅有一种挑战类型——基于真实世界开源软件,其git历史缩减至少于100次提交,每次提交可能引入漏洞。决赛的挑战仍基于真实世界开源软件,但现在包括:
1. Delta-scan挑战
这些挑战提供一个代码库和一个引入漏洞的单一差异(diff)。代码库包含模糊测试工具作为起点,差异为CRS提供识别和修补漏洞的额外起点。
2. Full-scan挑战
这些挑战呈现一个已包含漏洞的扁平代码库。没有差异作为起点,CRS必须仅使用模糊测试工具对代码库进行更广泛的分析以发现漏洞。
3. SARIF广播
这些挑战以SARIF格式提供静态分析警报,可能是真阳性或假阳性。CRS必须评估警报并确定是否代表真实漏洞,然后可选提供补丁。
这种多样化至关重要,因为实际漏洞可以通过多种渠道发现——从代码审查、静态分析工具、模糊测试到运行时监控。能够处理所有这些输入的系统在实际安全环境中将更有价值。
启用自定义AI模型开发
作为竞赛最重要的政策变化,DARPA现在允许参赛者使用自定义AI/ML模型。半决赛中,系统仅限于使用Anthropic、OpenAI和Google的第三方模型。现在,参赛者可以开发和部署自己的专业模型,前提是它们获得竞赛批准并可复现。
团队不再局限于通用商业模型,现在可以:
- 微调模型专门用于安全漏洞检测
- 为漏洞分析的不同方面创建专业模型
- 开发轻量、高效的模型处理重复性任务
为确保公平竞争,仍有护栏:自定义模型不能预训练以记忆开源软件中的历史漏洞信息。这防止团队简单教授模型已知问题,确保系统展示真正的推理能力。
灵活计算资源
另一个重要技术转变是让参赛者直接控制其基础设施。团队现在获得Azure订阅,每轮计算预算作为唯一约束,而非半决赛中的固定计算资源分配。
这意味着团队可以根据每项挑战的独特需求做出战略资源分配决策,例如:
- 将更强大的硬件专用于计算密集型模糊测试活动
- 分配昂贵的GPU实例运行自定义AI模型
- 根据挑战复杂性动态扩展资源
- 并行运行多个分析管道
这种灵活性使团队能够在不计分轮次中试验不同分配策略,确定哪些方法对不同挑战类型产生最佳结果。
评分算法变更
AIxCC决赛保持核心评分原则:补丁的价值远高于仅漏洞发现,但增加了新维度:
新得分机会
- SARIF分类:正确将静态分析警报标记为真阳性或假阳性
- 捆绑提交:将SARIF广播与漏洞和补丁关联
新评分修饰符
- 早鸟奖励:较早提交获得更多分数
- 跨团队验证:补丁必须对所有团队发现的崩溃输入有效才能得分
这些变化激励团队创建能够通过不同方法快速发现漏洞的系统,并生成真正解决漏洞根本原因而非过滤特定崩溃输入的补丁。
Buttercup的下一步
Buttercup 2.0目前正在参加展示轮,我们的团队利用反馈改进方法。我们的工作将在6月底的最终轮达到高潮,结果于8月DEF CON 2025公布。从这场竞赛中诞生的系统将代表自动漏洞发现和修复的重大飞跃。
敬请关注Buttercup在AIxCC决赛中的更多更新!
免责声明:本文中关于AIxCC规则、评分指南、基础设施和事件的信息可能变更。本文非权威文档。请参阅DARPA网站和官方文档获取第一手信息。