核心发现
我们的多学科团队(含审计师、开发者和ML专家)通过Toucan项目验证:现有AI技术尚无法胜任安全审计工作,主要原因包括:
- 高级概念推理缺陷:模型难以理解合约所有权、重入攻击、手续费分配等抽象概念
- 工具链生态贫瘠:缺乏处理不确定性的开发工具、类型系统和调试环境
- 提示工程瓶颈:没有可靠的方法评估提示词质量,失败模式难以预测
关键技术验证
能力边界测试
- 所有权分析:在7个小型测试案例中成功识别6例,但在300+LOC的合约中产生15个疑似结果(含4个完全幻觉)
- 整数溢出检测:11个小样本中检出10例真实漏洞,但在5个完整合约中产生12个阳性结果(6个误报)
- 重入攻击识别:与Slither静态分析工具对比显示(图1),两者误报集存在显著差异
|
|
GPT-4增量改进
- 在Solidity代码分析上较GPT-3.5有显著提升
- 仍无法处理跨函数重入等复杂关系
- 出现变量识别、算术表达式解析等能力倒退现象
工程实践挑战
- 提示框架开发:构建支持思维链(Chain of Thought)的多问题串联系统
- 数据安全策略:严格限制仅分析GitHub开源项目(已包含在Codex训练集)
- 工具链痛点:
- 缺乏提示调试可视化工具
- 无标准化方法评估提示词泛化能力
- 编程语言缺少概率型数据处理原语
未来展望
虽然当前LLM在审计场景存在局限,但其快速启动分析能力对缺乏专用工具的语言极具价值。我们期待:
- GPT-4大上下文窗口带来新可能性
- 开源社区填补工具链空白(如LangChain)
- 类型系统革新以处理不确定性
“当LLM能稳定理解’所有权变更’这类概念时,才是技术成熟的转折点”——实验团队结论