Codex与GPT-4在智能合约审计中仍无法超越人类——Trail of Bits实验报告

Trail of Bits团队通过Toucan项目验证了当前AI在智能合约安全审计中的局限性。实验表明,Codex和GPT-4虽能完成基础静态分析,但在高级概念推理、误报率控制等方面仍远不及人类审计员。文章详细揭示了LLM在安全审计领域的三重技术瓶颈与工具链缺失问题。

核心发现

我们的多学科团队(含审计师、开发者和ML专家)通过Toucan项目验证:现有AI技术尚无法胜任安全审计工作,主要原因包括:

  1. 高级概念推理缺陷:模型难以理解合约所有权、重入攻击、手续费分配等抽象概念
  2. 工具链生态贫瘠:缺乏处理不确定性的开发工具、类型系统和调试环境
  3. 提示工程瓶颈:没有可靠的方法评估提示词质量,失败模式难以预测

关键技术验证

能力边界测试

  • 所有权分析:在7个小型测试案例中成功识别6例,但在300+LOC的合约中产生15个疑似结果(含4个完全幻觉)
  • 整数溢出检测:11个小样本中检出10例真实漏洞,但在5个完整合约中产生12个阳性结果(6个误报)
  • 重入攻击识别:与Slither静态分析工具对比显示(图1),两者误报集存在显著差异
1
2
3
4
5
# 示例:我们的定制化提示框架
[[questions]]
name = "can-change"
query = "能否通过调用`{{ contract.name }}`合约函数修改`{{ contract | owner_variable }}`变量?逐步思考后回答'是'/'否'/'未知'"
is_decision = true

GPT-4增量改进

  • 在Solidity代码分析上较GPT-3.5有显著提升
  • 仍无法处理跨函数重入等复杂关系
  • 出现变量识别、算术表达式解析等能力倒退现象

工程实践挑战

  1. 提示框架开发:构建支持思维链(Chain of Thought)的多问题串联系统
  2. 数据安全策略:严格限制仅分析GitHub开源项目(已包含在Codex训练集)
  3. 工具链痛点
    • 缺乏提示调试可视化工具
    • 无标准化方法评估提示词泛化能力
    • 编程语言缺少概率型数据处理原语

未来展望

虽然当前LLM在审计场景存在局限,但其快速启动分析能力对缺乏专用工具的语言极具价值。我们期待:

  • GPT-4大上下文窗口带来新可能性
  • 开源社区填补工具链空白(如LangChain)
  • 类型系统革新以处理不确定性

“当LLM能稳定理解’所有权变更’这类概念时,才是技术成熟的转折点”——实验团队结论

完整技术细节与测试数据请参见原文

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计