PotentRegion4MalDetect:从潜在恶意区域提取高级特征用于恶意软件检测
摘要
恶意软件开发者利用大多数检测模型专注于整个二进制文件而非潜在恶意区域提取特征的事实,通过逆向工程良性二进制文件并注入恶意代码来规避检测。这种混淆技术由于良性特征占主导地位而欺骗机器学习分类器。然而,从潜在恶意区域提取特征能够提高准确性并减少误报。因此,我们提出了名为PotentRegion4MalDetect的新模型,从潜在恶意区域提取特征。
方法
PotentRegion4MalDetect使用StringSifter提供的恶意字符串,在部分预处理的控制流图(CFG)中确定具有潜在恶意性的节点。然后,它从识别出的潜在恶意区域提取高级特征,同时从完全预处理的CFG中提取特征。从完全预处理的CFG中提取的特征能够缓解试图伪装恶意内容(如可疑字符串)的混淆技术。
实验结果
实验表明,与专注于整个二进制文件的模型相比,PotentRegion4MalDetect需要更少的条目来保存所有二进制文件的特征,从而减少内存开销、加快计算速度并降低存储需求。这些高级特征与从整个二进制文件提取的特征相比,SHapley加性解释(SHAP)绝对平均值提高了8.13%,SHAP Beeswarm值提高了1.44%。高级特征通过产生超过99%的准确率、精确率、召回率、AUC、F1分数和0.064%的误报率,优于从整个二进制文件提取的特征。
结论
PotentRegion4MalDetect通过专注于潜在恶意区域的特征提取,显著提升了恶意软件检测的性能和效率,为应对日益复杂的恶意软件混淆技术提供了有效解决方案。