大规模检测代码复制的Vendetect工具 - Trail of Bits博客
Evan Sultanik
2025年7月21日
工具发布, 研究实践
无人谈论的代码复用问题
在安全评估过程中,我们经常遇到包含其他项目复制粘贴代码块的代码库。有时是合法的代码复用,但往往并非如此。问题远比许可证违规更严重:
- 安全债务悄然累积:当开发者从OpenSSL复用函数或从OpenZeppelin复制智能合约工具时,他们会继承该代码中的任何潜在漏洞。但如果不跟踪源版本,当CVE公布时你无法知道自己是否受影响。
- 归属信息消失:我们见过包含完整开源库但删除版权声明的专有代码库。无论恶意还是意外,这都会产生法律责任。
- 更新从未发生:复用的代码会冻结在某个时间点。原始项目修复了错误并添加了功能,但复制版本会逐渐腐化。
Vendetect的工作原理
Vendetect实现了Winnowing算法,这是斯坦福大学MOSS抄袭检测器使用的方法,在计算机科学教授中很受欢迎。但我们已将其适配到实际软件工程需求中。
该算法通过创建代码的语义指纹来工作,即使发生表面级别更改,这些指纹也能保持稳定。简化过程如下:
- 使用语言感知词法分析器(通过Pygments)对代码进行标记化
- 从标记流生成k-grams
- 对k-grams进行哈希处理,并使用滑动窗口选择子集
- 比较文件间的指纹以找到匹配项
这种方法即使有人进行以下操作也能捕获复制的代码:
- 重命名所有变量和函数
- 删除注释和文档
- 重新格式化或重构代码
- 将制表符改为空格(是的,确实如此)
我们将Vendetect的架构设计为模块化;Winnowing实现只是一个检测后端。该工具可以轻松集成其他方法,如JPlag的基于标记的匹配或基于AST的相似性检测。我们使用Python copydetect包进行核心Winnowing实现,这为我们提供了速度和可靠性。
版本控制感知改变一切
这就是Vendetect与学术抄袭检测器的不同之处:它理解git历史。
假设你正在审计一个代码库,并发现一个可疑的加密实现。Vendetect不仅告诉你它匹配某些OpenSSL代码,还能识别出它是从哪个确切提交复制的。现在你可以检查该版本是否具有Heartbleed漏洞,或者自那时以来修复的十几个内存损坏错误中的任何一个。
此功能在评估过程中证明非常宝贵。我们发现:
- 包含具有已知错误的OpenZeppelin代码版本的智能合约
- 从包含弱点的预披露提交复制的加密库
- 从带有硬编码后门的教程中提取的身份验证代码
该工具自动克隆和分析存储库历史记录,将你的目标代码库与多个版本进行比较,以找到最可能的源提交。
实际检测案例
在笔记本电脑上对Cheating-Daddy/Glass案例运行Vendetect大约需要10秒:
|
|
图1:Vendetect输出比较Glass(左)和Cheating-Daddy(右)
结果清楚地显示了跨多个文件的大量复制,具有高相似性分数,尽管Glass试图通过删除注释和重新格式化来掩盖来源。
在智能合约评估中,代码复用检测更为关键。以太坊开发者通常从成熟项目中复制实用函数、数学库和安全模式。虽然通常是合法的,但这种做法会创建隐藏的依赖关系。
实际使用Vendetect
安装很简单:
|
|
基本用法比较两个存储库:
|
|
图2:基本Vendetect用法
默认的丰富输出显示并排代码比较与相似性百分比。JSON输出可轻松集成到CI/CD管道中,用于自动化许可证合规性或安全检查。
超越抄袭检测
我们构建Vendetect是为了解决安全评估中遇到的实际问题,但其应用超出了捕获代码窃贼的范围:
- 供应链安全:识别代码库中的所有复用依赖项,特别是传统依赖项管理器未跟踪的依赖项。
- 许可证合规性:自动验证复用的代码是否保持适当的归属和兼容的许可。
- 安全补丁跟踪:当宣布CVE时,通过比较修补版本快速检查你的复用代码是否受影响。
- 代码考古学:当文档缺失或不正确时,追踪遗留代码的谱系。
扩展Vendetect
Vendetect的模块化架构使得试验不同的检测算法变得容易。如果你实现了自己的相似性检测方法,无论是基于AST分析、机器学习嵌入还是新颖算法,我们都希望听到你的消息。该工具提供了一个清晰的界面来添加新的检测后端:
|
|
图3:如何定义新的自定义比较器
我们对可以改进特定领域(如智能合约或嵌入式系统)检测的方法特别感兴趣,在这些领域中传统的基于文本的匹配会失败。
亲自尝试
下次你怀疑代码被复制时,无论你是调查许可证合规性、追踪漏洞来源,还是只是对代码出处感到好奇,都可以尝试Vendetect。
该工具可在GitHub和PyPI上获得。如果你实现了新的检测后端或找到了有趣的用例,请联系我们。我们始终致力于根据实际需求改进我们的工具。
代码复用不会消失。但通过适当的工具,我们至少可以使其可见、可追踪和可管理。因为当你甚至不知道安全债务存在时,它积累得最快。