系好安全带,Buttercup!AIxCC计分轮正式启动!
DARPA人工智能网络挑战赛(AIxCC)总决赛的唯一计分轮已正式开启!我们的网络推理系统(CRS)Buttercup正与另外六支队伍角逐,看哪个自主AI驱动系统能发现并修复最多的软件漏洞。经过两年艰苦开发,我们期待见证Buttercup的实战表现。
计分轮结束后,DARPA和ARPA-H将于8月8日在DEFCON 33主舞台宣布获胜者。最高分CRS将获得400万美元头奖,第二和第三名分别获得300万和150万美元奖金。我们的团队将现场观看结果揭晓,并通过多种方式参与AIxCC系列活动。如果您计划参加八月DEFCON,欢迎到AIxCC体验区展位交流,并参加我们关于Buttercup开发与竞赛经验的技术分享(时间待定)。
计分轮的技术挑战内容
每个参赛CRS需在数十个真实世界开源程序中发现并修复多个漏洞。这些程序选自最广泛使用的C和Java开源项目,其中包含的漏洞通常是竞赛组织者战略性地重新注入的历史真实漏洞。SQLite、Nginx、Apache Tika、Jenkins甚至Linux内核都曾出现在往轮比赛中。
每个CRS将面临基于这些开源程序的多轮挑战。每个挑战配备OSS-Fuzz兼容的模糊测试工具链,多数情况下还包含功能测试套件。CRS可通过以下方式得分:
- 通过触发程序崩溃或运行时检测器证明漏洞存在
- 修复漏洞并确保补丁根治问题且通过功能测试
- 对静态分析警报进行真/假阳性分类
为达成目标,每个CRS均获得大量计算资源和第三方AI预算。AIxCC计分轮规模庞大,因为获胜的CRS必须证明其能直接应用于保卫广阔的开源软件生态系统。
团队后续技术计划
在Buttercup参赛及等待结果期间,我们持续优化系统性能。接下来一个月,我们将准备在八月开源Buttercup。同时正在开发可在商用硬件上运行的版本,让所有人都能体验!
竞赛结束后,我们将首次分享Buttercup的技术细节。敬请关注我们如何用AI加速传统模糊测试并生成高质量漏洞补丁的技术深度解析!
有关背景信息,请参阅我们此前关于AIxCC的系列文章(原文列出7篇历史文章标题)。
版权声明:本文遵循技术博客标准格式,仅作技术内容客观呈现。