双路径钓鱼检测:基于Transformer的自然语言处理与结构化URL分析的融合
钓鱼邮件构成持续且日益复杂的威胁,通过利用语义和结构漏洞的欺骗手段破坏电子邮件安全。传统检测方法通常基于对邮件内容或嵌入URL的孤立分析,无法全面应对这些不断演变的攻击。
本文提出一种双路径钓鱼检测框架,将基于Transformer的自然语言处理(NLP)与经典机器学习相结合,共同分析邮件文本和嵌入URL。我们的方法利用微调Transformer架构(如DistilBERT)进行语义分析,并通过字符级TF-IDF向量化与经典分类器(如随机森林)进行结构化链接分析,充分发挥两者的互补优势。
在代表性邮件和URL数据集上的实证评估表明,这种组合方法显著提高了检测准确率。具体而言,DistilBERT模型在文本钓鱼检测中实现了准确率与计算效率的近乎最优平衡,而随机森林在识别恶意URL方面明显优于其他经典分类器。模块化设计允许灵活部署独立组件或集成组合,便于实际应用。
总体而言,我们的结果突显了这种双路径方法的有效性和实用价值,建立了一个可扩展、准确且可解释的解决方案,能够增强电子邮件安全以应对当代钓鱼威胁。
备注:本文已被ACS/IEEE第22届国际计算机系统与应用会议(AICCSA 2025)接收并安排展示。