AIxCC总决赛启航:Buttercup引领AI网络安全新挑战
DARPA的AI网络挑战赛(AIxCC)总决赛正式启动,我们的网络推理系统(CRS)Buttercup已准备就绪!这场最初受到严格限制的竞赛现已变得更加雄心勃勃。参赛团队现在可以构建自定义AI模型、控制自己的基础设施,并同时应对多种类型的安全挑战。随着这些新挑战的到来,资源也大幅增加——每支团队现在拥有1000美元或更多资金来应对每个挑战,而半决赛时仅为100美元。
这些变化不仅仅是电子表格上数字的增大。它们使参赛者能够构建更接近实用安全工具而非学术概念验证的系统。技术方法的灵活性扩展也意味着我们将看到更多AI在网络安全问题上的创新应用——这些方法在半决赛的限制下根本无法实现。
以下是竞赛的变化及其重要性:
预算和时间扩展
总决赛最重大的变化是每支团队可用资源的增加。在半决赛中,竞赛系统在严格限制下运行,限制了分析深度和方法:
- 时间:每个挑战仅4小时分析时间
- AI预算:每个挑战仅100美元用于商业AI API调用(如ChatGPT、Claude)
- 计算预算:固定分配的虚拟机,扩展选项有限
对于总决赛,这些限制(可能会有变化)现在为:
- 时间:每个挑战8小时以上
- AI预算:每轮10,000美元用于商业AI API调用(每轮多个挑战)
- 计算预算:每轮20,000美元用于Azure资源(服务器、虚拟机、GPU)(每轮多个挑战)
这些增加的资源使我们能够在更实际的时间范围内进行更彻底的分析。随着每个挑战的分析时间延长和每轮资源的增加,Buttercup可以:
- 执行更深入的动态分析,并对补丁进行更全面的测试
- 增加资源密集型任务(如模糊测试)的扩展性
- 使用更多种类的商业AI模型处理更多类型的任务,这在半决赛中是不可能的
多轮竞赛
与半决赛的单一计分轮不同,总决赛包括三个不计分的展示轮,允许团队在最终的计分轮之前迭代改进其CRS:
轮次 | 开放时间 | 计分 | 关键参数 |
---|---|---|---|
展示轮1 | 4月1日 | 不计分 | 2万计算和1万AI预算,总共2个挑战,最多2个并发,48小时挑战窗口,仅delta-scan挑战 |
展示轮2 | 5月6日 | 不计分 | 2万计算和1万AI预算,15-30个挑战,最多4个并发,8小时delta-scan,24小时full-scan挑战窗口,所有挑战类型 |
展示轮3 | 6月3日 | 不计分 | 参数待定(提前30天公布) |
决赛轮 | 6月24日 | 计分 | 参数待定(提前30天公布) |
表1:总决赛竞赛结构
这种进展非常重要,因为它鼓励系统能够适应不断变化的需求——这是现实世界安全工具的基本品质。它还允许参赛者根据前几轮的反馈迭代改进他们的方法,使在DEFCON 2025上公布的最终系统更加稳健。
多种挑战类型
技术上最重大的变化是引入了多种挑战类型。半决赛只有一种挑战问题类型——具有少于100次提交的简化git历史的现实世界开源软件,每次提交可能引入漏洞,也可能不引入。总决赛的挑战仍然基于现实世界的开源软件,但现在包括:
1. Delta-scan挑战
这些挑战提供一个代码库和一个引入漏洞的单一差异。虽然代码库包括模糊测试工具作为起点,但差异为CRS提供了识别和修补漏洞的额外起点。
2. Full-scan挑战
这些挑战提供一个已包含漏洞的扁平代码库。没有差异作为起点,CRS必须仅使用模糊测试工具作为起点,对代码库进行更广泛的分析以发现漏洞。
3. SARIF广播
这些挑战以SARIF格式提供静态分析警报,这些警报可能是真阳性或假阳性。CRS必须评估警报并确定它是否代表真正的漏洞,然后选择性地提供补丁。
这种多样化至关重要,因为现实世界的漏洞可以通过多种渠道发现——从代码审查、静态分析工具、模糊测试和运行时监控。能够处理所有这些输入的系统在实际安全环境中将更有价值。
启用自定义AI模型开发
在可能是竞赛最重要的政策变化中,DARPA现在允许参赛者使用自定义AI/ML模型。在半决赛中,系统仅限于使用Anthropic、OpenAI和Google的第三方模型。现在,参赛者可以开发和部署自己的专业模型,只要它们获得竞赛批准并且可以复制。
团队现在可以:
- 专门针对安全漏洞检测微调模型
- 为漏洞分析的不同方面创建专业模型
- 为重复任务开发轻量级、高效的模型
仍有护栏确保公平竞争:自定义模型不能预先训练以记忆开源软件中历史漏洞的信息。这防止团队简单地教授他们的模型已知问题,并确保系统展示真正的推理能力。
灵活的计算资源
另一个重大的技术转变是让参赛者直接控制其基础设施。与半决赛中固定的计算资源分配不同,团队现在获得一个Azure订阅,其轮次计算预算是唯一的约束。
这意味着团队可以根据每个挑战的独特需求做出战略性的资源分配决策,例如:
- 将更强大的硬件专用于计算密集型模糊测试活动
- 分配昂贵的GPU实例用于运行自定义AI模型
- 根据挑战复杂性动态扩展资源
- 并行运行多个分析管道
这种灵活性使团队能够在不计分轮中试验不同的分配策略,确定哪些方法对不同类型的挑战产生最佳结果。
评分算法变化
AIxCC总决赛保持了补丁价值远高于仅漏洞发现的核心评分原则,但增加了新的维度:
新的得分机会
- SARIF分类:正确将静态分析警报标记为真阳性或假阳性
- 捆绑提交:将SARIF广播与漏洞和补丁关联
新的评分修饰符
- 早鸟奖励:较早提交获得更多分数
- 跨团队验证:补丁必须对所有团队发现的所有崩溃输入有效才能得分
这些变化激励团队创建能够通过不同方法快速发现漏洞的系统,并创建真正解决漏洞根本原因而非仅过滤特定崩溃输入的补丁。
Buttercup的下一步是什么?
Buttercup 2.0目前正在参加展示轮,我们的团队利用反馈来改进我们的方法。我们的工作将在6月下旬的决赛轮达到高潮,结果将于8月在DEF CON 2025上公布。从这场竞赛中涌现的系统将代表自动漏洞发现和修复的重大飞跃。
请继续关注Buttercup在AIxCC总决赛中旅程的更多更新!
免责声明:本文档中引用的关于AIxCC规则、评分指南、基础设施和事件的信息可能会有变化。本文档不是权威文件。请参考DARPA的网站和官方文件获取第一手信息。