AIxCC决赛启动：Buttercup迎接挑战

DARPA的AI网络挑战赛（AIxCC）决赛正式启动，我们的网络推理系统（CRS）Buttercup已整装待发！这项最初限制严格的竞赛已变得更加雄心勃勃。参赛团队现在可以构建自定义AI模型、自主控制基础设施，并同时应对多种类型的安全挑战。随着挑战升级，资源也大幅增加——每项挑战的预算从半决赛的100美元提升至1000美元以上。

这些变化不仅仅是数字上的增长，更是为了让参赛者构建更接近实用安全工具的系统，而非学术概念验证。技术方法的灵活性扩展也意味着我们将看到AI在网络安全问题上更创新的应用——这些方法在半决赛限制下根本无法实现。

以下是竞赛的具体变化及其意义：

预算与时间扩展

决赛最显著的改变是每支团队可用资源的大幅增加。半决赛中，竞赛系统在严格限制下运行：

时间：每项挑战仅4小时分析时间
AI预算：每项挑战仅100美元用于商业AI API调用（如ChatGPT、Claude）
计算预算：固定分配的虚拟机，扩展选项有限

决赛阶段（可能调整）的限制变为：

时间：每项挑战8小时以上
AI预算：每轮10,000美元用于商业AI API调用（每轮含多项挑战）
计算预算：每轮20,000美元用于Azure资源（服务器、虚拟机、GPU）（每轮含多项挑战）

这些新增资源使Buttercup能够：

在更实际的时间范围内执行更深入的分析
进行更深入的动态分析，对补丁进行更全面的测试
扩展资源密集型任务（如模糊测试）的规模
使用更多种类的商业AI模型处理多样化任务

多轮竞赛机制

与半决赛的单轮计分不同，决赛包含三轮不计分的展示轮，允许团队在最终计分轮前迭代改进其CRS系统：

轮次	开放时间	计分方式	关键参数
展示轮1	4月1日	不计分	2万计算预算+1万AI预算，2项挑战，最多2项并发，48小时挑战窗口，仅增量扫描挑战
展示轮2	5月6日	不计分	2万计算预算+1万AI预算，15-30项挑战，最多4项并发，8小时增量扫描+24小时全扫描挑战窗口，所有挑战类型
展示轮3	6月3日	不计分	参数待定（提前30天公布）
决赛轮	6月24日	计分	参数待定（提前30天公布）

表1：决赛竞赛结构

这种渐进式机制鼓励系统适应变化的需求——这是现实世界安全工具的关键品质。参赛者还能基于前几轮的反馈迭代优化方法，使在DEFCON 2025展示的最终系统更加稳健。

多种挑战类型

最具技术意义的改变是多种挑战类型的引入。半决赛仅包含一种挑战类型——基于真实开源软件（git历史记录减少至100次提交以内，每次提交可能引入漏洞）。决赛挑战仍基于真实开源软件，但现在包含：

1. 增量扫描挑战

提供代码库和引入漏洞的单个差异文件。代码库包含模糊测试工具作为起点，差异文件为CRS提供识别和修补漏洞的额外起点。

2. 全扫描挑战

呈现已包含漏洞的扁平代码库。没有差异文件作为起点，CRS必须仅使用模糊测试工具对代码库进行更广泛的分析以发现漏洞。

3. SARIF广播挑战

提供SARIF格式的静态分析警报（可能为真阳性或假阳性）。CRS必须评估警报是否代表真实漏洞，并可选择提供补丁。

这种多样化至关重要，因为现实世界的漏洞可通过代码审查、静态分析工具、模糊测试和运行时监控等多种渠道发现。能处理所有这些输入的系统在实际安全环境中将更具价值。

启用自定义AI模型开发

作为竞赛最重要的政策变化，DARPA现在允许参赛者使用自定义AI/ML模型。半决赛中，系统仅限于使用Anthropic、OpenAI和Google的第三方模型。现在，参赛者可开发和部署自己的专业模型（需经竞赛批准且可复现）。

团队现在可以：

微调专门用于安全漏洞检测的模型
为漏洞分析的不同方面创建专业模型
开发轻量高效的模型处理重复性任务

为确保公平竞赛，仍有限制：自定义模型不能通过预训练记忆开源软件中的历史漏洞信息。这防止团队简单教授模型已知问题，确保系统展示真正的推理能力。

灵活的计算资源

另一重要技术转变是赋予参赛者直接控制基础设施的权限。团队现在获得Azure订阅，每轮计算预算成为唯一限制（取代半决赛的固定计算资源分配）。

这意味着团队可根据每项挑战的独特需求制定资源分配策略：

为计算密集型模糊测试活动分配更强大的硬件
为运行自定义AI模型分配昂贵的GPU实例
根据挑战复杂性动态扩展资源
并行运行多个分析管道

这种灵活性使团队能在不计分轮次试验不同分配策略，确定哪些方法对不同挑战类型最有效。

评分算法变更

AIxCC决赛保留"补丁价值远高于单纯漏洞发现"的核心评分原则，但新增以下维度：

新增得分机会

SARIF分类：正确标记静态分析警报为真/假阳性
捆绑提交：将SARIF广播与漏洞和补丁关联

新增评分修正因子

早鸟奖励：越早提交得分越高
跨团队验证：补丁必须对所有团队发现的崩溃输入均有效才能得分

这些变化激励团队创建能通过不同方法快速发现漏洞的系统，并生成真正解决漏洞根本原因（而非过滤特定崩溃输入）的补丁。

Buttercup的下一步计划

Buttercup 2.0目前正在参加展示轮，团队利用反馈优化方法。我们的工作将在6月下旬的决赛轮达到高潮，结果于8月DEF CON 2025公布。此次竞赛诞生的系统将代表自动化漏洞发现和修复领域的重大飞跃。

请持续关注Buttercup在AIxCC决赛中的进展！

免责声明：本文涉及的AIxCC规则、评分指南、基础设施和事件信息可能发生变化。本文非权威文档，请参阅DARPA网站和官方文档获取一手信息。

AIxCC决赛启动：Buttercup引领网络安全AI技术革新

本文详细介绍DARPA AI网络挑战赛决赛阶段的技术变革，包括资源扩展、多轮竞赛机制、新型漏洞挑战类型、自定义AI模型开发权限、灵活计算资源配置以及评分算法升级，展现网络安全AI系统的实战化演进。