摘要
随着Web应用与云服务的快速发展,恶意JavaScript代码持续威胁用户隐私、系统完整性和企业安全。然而,由于复杂的代码混淆技术及JavaScript固有的嵌套闭包结构和语法灵活性,检测此类威胁仍具挑战性。本文提出DeCoda——一种结合大语言模型(LLM)反混淆与代码图学习的混合防御框架:
- 多阶段LLM反混淆:构建提示学习管道,逐步从混淆输入中重建原始代码结构,生成标准化的抽象语法树(AST)表示;
- 集群感知图学习:针对JavaScript AST中动态类型导致的语义节点分散及嵌套函数引发的结构噪声,提出分层图表示学习方法,通过集群图整合图Transformer网络、节点聚类和节点-集群注意力机制,同时捕获局部节点语义与全局集群结构关系。
实验表明,该方法在两个基准数据集上分别达到94.64%和97.71%的F1分数,较现有最优基线绝对提升10.74%和13.85%。在固定误报率(FPR)水平下(0.0001、0.001、0.01),真阳性率(TPR)最高超出基线5.91倍,验证了LLM反混淆与集群级关系建模的有效性。
技术亮点
- LLM驱动的反混淆管道:通过迭代提示优化还原代码逻辑,解决传统正则匹配的局限性。
- 集群图模型:引入节点聚类层与跨集群注意力,增强对AST深层语义关系的捕捉能力。
- 性能优势:在低FPR场景下显著降低误报,适用于企业级安全防护的高精度需求。