AIxCC决赛启动:Buttercup引领网络安全AI新浪潮

本文详细介绍DARPA AI网络挑战赛决赛阶段的技术变革,包括自定义AI模型开发、弹性计算资源配置、多类型安全挑战设计等关键技术架构,展现网络安全AI系统Buttercup的实战能力提升。

以Buttercup开启AIxCC决赛征程

DARPA人工智能网络挑战赛(AIxCC)决赛正式启动,我们的网络推理系统Buttercup已整装待发!这项最初限制严格的赛事现已变得更加雄心勃勃。参赛团队现在可以构建自定义AI模型、自主控制基础设施,并同时应对多种类型的安全挑战。伴随新挑战而来的是更多资源——每项挑战的预算从半决赛的100美元提升至1000美元以上。

这些改变不仅是数字上的增长,更是让参赛者能够构建更接近实用安全工具的系统,而非学术概念验证。技术方法的弹性扩展也意味着我们将看到AI在网络安全问题上更创新的应用——这些在半决赛限制下根本无法实现。

预算与时间扩展

决赛最显著的改变是每支团队可用资源的大幅增加。半决赛中,参赛系统在严格限制下运行:

  • 时间:每项挑战仅4小时分析时间
  • AI预算:每项挑战仅100美元用于商业AI API调用(如ChatGPT、Claude)
  • 计算预算:固定分配的虚拟机资源,扩展选项有限

决赛阶段的约束条件(可能调整)现已变为:

  • 时间:每项挑战8+小时
  • AI预算:每轮10,000美元用于商业AI API调用(每轮含多项挑战)
  • 计算预算:每轮20,000美元用于Azure资源(服务器、VM、GPU)

这些新增资源让我们能在更实际的时间框架内进行更彻底的分析。Buttercup现在能够:

  • 执行更深入的动态分析并对补丁进行更全面的测试
  • 扩展资源密集型任务(如模糊测试)的规模
  • 使用更多样化的商业AI模型处理更广泛的任务

多轮竞赛机制

与半决赛单轮评分不同,决赛包含三轮不计分的展示赛,让团队能在最终评分轮前迭代改进其CRS系统:

轮次 开放时间 计分 关键参数
展示赛1 4月1日 不计分 2万计算预算+1万AI预算,2项挑战,最多2项并发,48小时窗口(仅差异扫描挑战)
展示赛2 5月6日 不计分 同预算,15-30项挑战,最多4项并发,8小时差异扫描/24小时全扫描窗口
展示赛3 6月3日 不计分 参数待定(提前30天公布)
决赛轮 6月24日 计分 参数待定(提前30天公布)

表1:决赛阶段竞赛结构

这种渐进式设计鼓励系统适应变化的需求——这是现实世界安全工具的关键品质。参赛者还能基于前几轮反馈迭代优化方案,使DEFCON 2025亮相的最终系统更加健壮。

多样化挑战类型

最具技术意义的变革是引入多种挑战类型。半决赛仅有一种挑战模式——提供少于100次提交的精简git历史的真实开源软件。决赛挑战仍基于真实开源软件,但现包含:

  1. 差异扫描挑战
    提供代码库和引入漏洞的单个diff文件。代码库包含初始模糊测试工具,diff文件则为CRS提供识别和修补漏洞的额外起点。

  2. 全扫描挑战
    呈现已包含漏洞的扁平化代码库。没有diff文件作为起点,CRS必须仅依靠模糊测试工具对代码库进行全面分析。

  3. SARIF广播挑战
    提供SARIF格式的静态分析警报(可能为真阳性或假阳性)。CRS需评估警报是否代表真实漏洞,并可选择提供补丁。

这种多样化至关重要,因为现实漏洞可能通过代码审查、静态分析工具、模糊测试和运行时监控等多种渠道发现。能处理所有这些输入的系统在实际安全环境中将更具价值。

支持自定义AI模型开发

这项赛事政策的最大变革是DARPA现在允许使用自定义AI/ML模型。半决赛中系统仅能使用Anthropic、OpenAI和Google的第三方模型。现在参赛者可开发部署自己的专用模型(需通过竞赛审核且可复现)。

团队现在能够:

  • 微调专门用于安全漏洞检测的模型
  • 为漏洞分析的不同环节创建专用模型
  • 开发轻量级高效模型处理重复性任务

为确保公平竞争仍有限制:自定义模型不能预训练记忆开源软件历史漏洞信息。这防止团队简单教授模型已知问题,确保系统展示真正的推理能力。

弹性计算资源配置

另一重大技术转变是赋予参赛者基础设施的直接控制权。团队现在获得Azure订阅,仅受轮次计算预算约束,而非半决赛的固定计算资源分配。

这意味着团队能基于每项挑战的独特需求制定资源分配策略:

  • 为计算密集型模糊测试分配更强硬件
  • 为运行自定义AI模型配置昂贵GPU实例
  • 根据挑战复杂度动态扩展资源
  • 并行运行多个分析管道

这种弹性让团队能在不计分轮次试验不同分配策略,确定哪种方案最适合各类挑战。

评分算法革新

AIxCC决赛保留"补丁价值远高于单纯漏洞发现"的核心评分原则,但新增维度:

新增得分机会

  • SARIF分类:正确标记静态分析警报的真/假阳性
  • 捆绑提交:将SARIF广播与漏洞和补丁关联

新评分修正项

  • 早鸟奖励:越早提交得分越高
  • 跨团队验证:补丁必须能抵御所有团队发现的崩溃输入才能得分

这些改变激励团队构建能快速通过不同方法发现漏洞的系统,并创建真正解决漏洞根源而非过滤特定崩溃输入的补丁。

Buttercup的下一步

Buttercup 2.0正在参与展示赛,团队利用反馈优化方案。我们的工作将在6月下旬的决赛轮达到高潮,结果于8月DEF CON 2025公布。这项赛事诞生的系统将代表自动化漏洞发现与修复领域的重大飞跃。

敬请关注Buttercup在AIxCC决赛中的更多进展!

免责声明:本文涉及的AIxCC规则、评分指南、基础设施和活动信息可能变更。本文非权威文档,请以DARPA官网和官方文件为准。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计