突破混淆：基于集群感知图和LLM辅助恢复的恶意JavaScript检测技术

摘要

随着Web应用与云服务的快速发展，恶意JavaScript代码持续威胁用户隐私、系统完整性和企业安全。然而，由于复杂的代码混淆技术及JavaScript固有的嵌套闭包结构和语法灵活性，检测此类威胁仍具挑战性。本文提出DeCoda——一种结合大语言模型（LLM）反混淆与代码图学习的混合防御框架：

多阶段LLM反混淆：构建提示学习管道，逐步从混淆输入中重建原始代码结构，生成标准化的抽象语法树（AST）表示；
集群感知图学习：针对JavaScript AST中动态类型导致的语义节点分散及嵌套函数引发的结构噪声，提出分层图表示学习方法，通过集群图整合图Transformer网络、节点聚类和节点-集群注意力机制，同时捕获局部节点语义与全局集群结构关系。

实验表明，该方法在两个基准数据集上分别达到94.64%和97.71%的F1分数，较现有最优基线绝对提升10.74%和13.85%。在固定误报率（FPR）水平下（0.0001、0.001、0.01），真阳性率（TPR）最高超出基线5.91倍，验证了LLM反混淆与集群级关系建模的有效性。

技术亮点

LLM驱动的反混淆管道：通过迭代提示优化还原代码逻辑，解决传统正则匹配的局限性。
集群图模型：引入节点聚类层与跨集群注意力，增强对AST深层语义关系的捕捉能力。
性能优势：在低FPR场景下显著降低误报，适用于企业级安全防护的高精度需求。