Codex与GPT-4在智能合约审计中仍无法超越人类——Trail of Bits实验报告

Codex与GPT-4在智能合约审计中仍无法超越人类——Trail of Bits实验报告

Trail of Bits团队通过Toucan项目验证了当前AI在智能合约安全审计中的局限性。实验表明，Codex和GPT-4虽能完成基础静态分析，但在高级概念推理、误报率控制等方面仍远不及人类审计员。文章详细揭示了LLM在安全审计领域的三重技术瓶颈与工具链缺失问题。

核心发现

我们的多学科团队（含审计师、开发者和ML专家）通过Toucan项目验证：现有AI技术尚无法胜任安全审计工作，主要原因包括：

高级概念推理缺陷：模型难以理解合约所有权、重入攻击、手续费分配等抽象概念
工具链生态贫瘠：缺乏处理不确定性的开发工具、类型系统和调试环境
提示工程瓶颈：没有可靠的方法评估提示词质量，失败模式难以预测

关键技术验证

能力边界测试

所有权分析：在7个小型测试案例中成功识别6例，但在300+LOC的合约中产生15个疑似结果（含4个完全幻觉）
整数溢出检测：11个小样本中检出10例真实漏洞，但在5个完整合约中产生12个阳性结果（6个误报）
重入攻击识别：与Slither静态分析工具对比显示（图1），两者误报集存在显著差异

1
2
3
4
5


# 示例：我们的定制化提示框架
[[questions]]
name = "can-change"
query = "能否通过调用`{{ contract.name }}`合约函数修改`{{ contract | owner_variable }}`变量？逐步思考后回答'是'/'否'/'未知'"
is_decision = true

GPT-4增量改进

在Solidity代码分析上较GPT-3.5有显著提升
仍无法处理跨函数重入等复杂关系
出现变量识别、算术表达式解析等能力倒退现象

工程实践挑战

提示框架开发：构建支持思维链(Chain of Thought)的多问题串联系统
数据安全策略：严格限制仅分析GitHub开源项目（已包含在Codex训练集）
工具链痛点：
- 缺乏提示调试可视化工具
- 无标准化方法评估提示词泛化能力
- 编程语言缺少概率型数据处理原语

未来展望

虽然当前LLM在审计场景存在局限，但其快速启动分析能力对缺乏专用工具的语言极具价值。我们期待：

GPT-4大上下文窗口带来新可能性
开源社区填补工具链空白（如LangChain）
类型系统革新以处理不确定性

“当LLM能稳定理解’所有权变更’这类概念时，才是技术成熟的转折点”——实验团队结论

完整技术细节与测试数据请参见原文

comments powered by Disqus