AIxCC决赛:技术策略全记录
DARPA人工智能网络挑战赛(AIxCC)决赛结果将于本周公布,揭晓哪支团队能获得400万美元头奖,奖励其构建了最佳AI系统来自动发现并修复现实代码中的漏洞。实时更新及我们的CRS工具Buttercup访问,请关注X上的@dguido或访问Buttercup网站。
过去几周,CTF Radiooo采访了七支决赛队伍,探讨了他们创建各自网络推理系统(CRS)的不同方法。这些采访揭示了技术方法的多样性和关于AI集成及风险容忍度的哲学差异。AI集成应取代还是补充传统工具?团队在提交漏洞证明(PoV)和补丁时应多激进?团队LLM预算的最佳使用方式是什么?虽然获胜者尚未公布,但这些差异表明,使用AI进行漏洞检测存在多条可行路径。
地理多样性领域
七支决赛队伍中,四支基于大学,三支来自私营公司。团队成员遍布全球,决赛队伍中有其他大学和公司的合作者混合。每支团队的总部均位于美国。
- 私营公司:Trail of Bits(纽约市);LACROSSE(明尼阿波利斯);Theori(德克萨斯州奥斯汀)
- 学术界:42-b3yond-6ug(西北大学);all_you_need_is_a_fuzzing_brain(德克萨斯A&M大学);Shellphish(亚利桑那州立大学);Team Atlanta(佐治亚理工学院)
图1:AIxCC决赛队伍位置
但地理多样性只是冰山一角。真正区分团队的是他们在漏洞发现、生成PoV和打补丁方面的独特方法。以下是我们基于CTF Radiooo采访对每支团队技术策略的最佳猜测。我们未查看他们的代码,但这是我们对其方法的推测。
漏洞发现
七支决赛队伍可根据漏洞发现激励其系统设计的哲学分为三个阵营。
用AI增强传统安全工具
Trail of Bits、Shellphish和LACROSSE构建了基于模糊测试、静态分析和漏洞研究的系统,并用LLM增强。Trail of Bits使用LLM为传统模糊测试工具生成种子输入,以提高代码覆盖率和触发特定类型漏洞的输入能力。Shellphish的“Grammar Guy”使用LLM基于分析未覆盖代码路径的反馈循环生成和演进渐进语法。LACROSSE部署300-500个模糊测试代理(规模类似Trail of Bits),由“Optimus Zero”协调,并使用LLM进行需要语义理解的高级推理任务。他们还使用LLM在崩溃发生时创建“漏洞对象”来描述、分类和规划补丁。
AI优先与传统验证
all_you_need_is_a_fuzzing_brain和Theori使用LLM作为主要推理引擎,传统安全工具用于验证和回退机制。所有决赛队伍中,all_you_need_is_a_fuzzing_brain最具AI前瞻性,使用LLM进行漏洞分析、系统架构、战略决策和代码生成。不仅如此,他们约90%的代码库使用AI辅助编写。Theori的方法使用遵循逆向工程工作流的LLM代理,受限以防止AI漫游。他们的系统使用静态分析工具(如Infer)生成数千个错误候选,LLM代理使用推理确定实际漏洞并减少误报。
混合方法
Team Atlanta和42-b3yond-6ug平衡AI与传统方法,各有独特专长。据我们所知,Team Atlanta是唯一使用在Llama 7B上精细调优自定义模型的团队,专门针对C编程语言分析进行广泛调优。42-b3yond-6ug应用“超级补丁”,这是一种基于LLM的补丁过程,能同时修复两个或更多不同错误,即使这些错误看似无关。他们的系统能识别多个不同崩溃是否源于同一底层漏洞。
漏洞证明(PoV)生成
PoV是AIxCC评分系统的基础,因为它们证明漏洞可被实际触发。PoV+补丁组合比未提交PoV的补丁获得显著更高分数。比赛评分系统还奖励速度和准确性。此外,PoV可用于绕过其他团队的补丁并降低竞争对手的准确性乘数,为比赛添加了有趣的博弈论元素。
基于传统模糊测试的PoV生成
LACROSSE的PoV生成通过既定模糊测试方法进行,专注于代理协调而非AI驱动的漏洞发现。他们的方法优先考虑经过验证的模糊测试可靠性 over 实验性AI技术,由Optimus Zero管理全局状态和传统安全工具间的任务分发。
42-b3yond-6ug也保持传统模糊测试作为核心PoV生成机制。他们的方法包括SARIF集成用于静态分析报告验证和通过基于强化学习的调度进行多模糊测试器协调。
AI增强的传统方法
Trail of Bits使用LLM生成Python程序,为传统模糊测试工具创建专用种子输入,利用对复杂格式(如SQL注入和路径遍历攻击)的隐式理解。这些专用输入已添加到模糊测试器的覆盖引导输入语料库中,以提高模糊测试性能。该方法专门优化以提高harness饱和时间(满足比赛时间约束)并使用AI生成传统变异模糊测试难以处理的语义感知输入。
Shellphish用“Grammar Guy”增强传统模糊测试,使用LLM生成基于覆盖反馈演进的渐进语法,针对复杂输入格式和协议。该方法提高了模糊测试SQL、URL和二进制协议等格式的能力,语法基于程序探索结果持续优化。这种AI驱动的语法生成方法消耗了其LLM预算的相当部分,但显著增加了错误发现能力。
Team Atlanta在其三个专业CRS系统中部署语言特定PoV策略,LLM生成针对C与Java漏洞模式的定制Python变异器和输入生成器。他们的方法包括由静态分析报告指导的定向模糊测试和LLM生成的函数级字典用于定向变异。
AI优先的PoV生成
all_you_need_is_a_fuzzing_brain通过直接AI推理生成约90%的PoV,使用数千个并发代理并行,通过规模和模型多样性克服AI不可靠性。传统模糊测试仅在AI方法失败时作为回退验证机制激活。
Theori的LLM代理使用语义理解生成需要格式合规的PoV。这使他们在传统模糊测试难以处理的复杂格式(如格式良好的URL和复杂二进制协议)上具有优势。当代理生成的PoV失败时,推理尝试成为传统模糊测试的种子,创建反馈循环,其中AI见解通知传统验证方法。
打补丁
每支团队的补丁策略揭示了他们的风险容忍度和对比赛评分机制的理解,这可能是决定最终排名的关键因素。
- 保守:Trail of Bits、Shellphish和Team Atlanta从未提交无PoV的补丁。Team Atlanta实际上在决赛前禁用了非PoV补丁功能以避免准确性惩罚。
- 激进:Theori开发了提交无PoV补丁的数学模型,实施2:1比率策略,每确认一个基于PoV的补丁提交最多两个推测性补丁。
- 整体:42-b3yond-6ug部署“超级补丁”,即单个补丁修复多个看似无关的漏洞,将准确性惩罚问题转化为评分优势。
- 战略:Trail of Bits实施交叉验证系统测试PoV对现有补丁,并战略提交可能破坏其他团队补丁的PoV。LACROSSE选择中间立场,补丁使用LLM共识和置信度算法提交。
我们目前的收获
我们渴望在DEFCON从团队学习更多技术细节,并兴奋地在其他团队CRS开源后查看。无论谁赢,AIxCC决赛证明AI辅助网络安全已达到实用转折点。每支团队实现了从漏洞发现到补丁生成之前需要人类专家的任务的有意义自动化。这里展示的创新,从基于语法的模糊测试到基于代理的分析,可能影响未来多年的网络安全工具。
最重要的是,比赛证明问题不是AI是否会改变网络安全,而是多快及以何种形式。进入决赛的七支团队各自找到了该问题的不同答案,本周我们将了解DARPA评委认为哪种方法最引人注目。
最后,我们基于所学评论每支团队的钦佩之处。
- 42-b3yond-6ug:我们钦佩他们使用“超级补丁”的创造力,尝试用一个补丁修复多个错误,即使错误看似无关。非常聪明!
- all_you_need_is_a_fuzzing_brain:他们获得“奇爱博士,或我如何学会停止担忧并爱上LLM奖”。我们非常印象深刻得知他们大部分代码用LLM代码生成编写。
- LACROSSE:这支团队将其近10年前的原始CRS升级并参加AIxCC!这说明了其编写持久软件的能力。
- Shellphish:我们热爱任何致力于使模糊测试工具更快更智能的人。凭借Shellphish的Grammar Guy,我们相信他们在改进安全社区模糊测试方面取得了重大飞跃。
- Team Atlanta:也符合比赛精神,Team Atlanta是唯一在其CRS上运行精细调优模型的团队。这显示他们对安全行业方向有良好感知。
- Theori:他们的方法共鸣比赛真实精神,使用非常LLM前瞻的方法构建策略。我们非常兴奋看到他们如何大规模减少误报。
- Trail of Bits:那是我们!
感谢CTF Radiooo花时间采访每支AIxCC决赛队伍!他们的辛勤工作将帮助每个人在结果公布时理解哪种策略最有效。