利用AI识别网络犯罪主谋
在线犯罪论坛(包括公共互联网和Tor洋葱网络的"暗网"站点)是威胁情报研究人员的宝贵资源。Sophos反威胁部门(CTU)拥有专门的暗网研究团队收集情报并互动于暗网论坛,但手动筛选这些帖子是耗时且资源密集的任务,存在遗漏可能。
随着我们努力更好地利用AI和数据分析,Sophos AI研究员François Labrèche与Flare的Estelle Ruellan、蒙特利尔大学的Masarah Paquet-Clouston合作,探索能否以更自动化的方式识别暗网关键人物。他们的研究成果最初在2024年APWG电子犯罪研究研讨会上展示,近期已正式发表论文。
研究方法
研究团队结合了犯罪学家Martin Bouchard和Holly Nguyen开发的框架(用于区分大麻产业中的职业罪犯与业余罪犯)与社交网络分析方法。通过这种方法,他们能够将论坛发帖账户与近期常见漏洞披露(CVE)利用相关联——基于CVE命名或通过帖子内容匹配MITRE定义的对应常见攻击模式枚举与分类(CAPEC)。
使用Flare威胁研究搜索引擎,他们收集了2015年1月至2023年7月期间来自124个不同电子犯罪论坛的4,441名用户的11,558个帖子。这些帖子提及6,232个不同CVE。研究人员利用这些数据创建双模社交网络,根据发帖内容将CAPEC与个体攻击者关联。在此初始阶段,他们聚焦于剔除无对应CAPEC的CVE以及许多威胁攻击者使用的过于通用的攻击方法(及仅讨论这些通用CVE的发帖者)。经过筛选,最终数据集缩减至2,321名攻击者和263个CAPEC。
研究团队随后使用Leiden社区检测算法将攻击者聚类成具有特定攻击模式共同兴趣的社区(“兴趣社区”)。此阶段识别出八个相对独特的社区。平均而言,单个攻击者关联13个不同CAPEC,而每个CAPEC平均关联118名攻击者。
关键攻击者定位
接下来,基于每个社区中展现的专业能力识别关键攻击者。使用三个因素衡量专业水平:
- 技能水平:基于MITRE对使用CAPEC所需技能的评估(低、中、高),采用攻击模式相关场景中的最高技能水平以防止低估攻击者能力。研究人员使用每个攻击者CAPEC列表中第70百分位值确定代表技能水平(例如:若某攻击者讨论的CVE对应10个CAPEC——5个高、4个中、1个低——其代表技能水平为高)。选择此百分位值确保仅当超过30%值为"高"时才归类为高技能。
技能水平值总体分布
技能水平 | CAPEC数量 | 占所有值百分比 |
---|---|---|
低 | 118 (44.87%) | 57.71% |
中 | 66 (25.09%) | 24.14% |
高 | 79 (30.04%) | 18.14% |
技能水平值比例统计
技能水平 | 平均比例 | 中位数 | 75百分位 | 标准差 |
---|---|---|---|---|
高 | 29.07% | 23.08% | 50.00% | 30.76% |
中 | 36.12% | 30.77% | 50.00% | 32.41% |
低 | 33.74% | 33.33% | 66.66% | 31.72% |
-
投入水平:通过"兴趣内帖子"(基于相似兴趣社区的相关CAPEC组帖子)占攻击者总帖子的比例量化。发帖不超过3条的攻击者被排除,将评估集缩减至359名攻击者。
-
活动率:研究人员将此要素加入Bouchard/Nguyen框架以量化每个攻击者在论坛的活动水平。通过计算含CVE及对应CAPEC的帖子数除以攻击者在相关论坛的活动天数得出。结果显示活动率与威胁攻击者的技能水平呈反比——高技能攻击者在论坛活跃时间较长,因此相对活动率较低,尽管发帖数量显著。
样本描述性统计
指标 | 均值 | 标准差 | 最小值 | 中位数 | 75百分位 | 最大值 |
---|---|---|---|---|---|---|
技能水平值列表长度 | 99.42 | 255.76 | 4 | 25 | 85 | 3449 |
技能水平(第70百分位值) | 2.19 | 0.64 | 1 | 2 | 3 | 3 |
发帖数(含CVE与CAPEC) | 14.55 | 31.37 | 4 | 6 | 10 | 375 |
投入百分比 | 36.68 | 29.61 | 0 | 25 | 50 | 100 |
活动时间(天) | 449.07 | 545.02 | 1 | 227.00 | 690.00 | 2669.00 |
活动率 | 0.72 | 1.90 | 0.002 | 0.04 | 0.20 | 14.00 |
如上所示,关键攻击者识别样本包含359名攻击者。平均攻击者36.68%的帖子专注于其兴趣社区,技能水平为2.19(“中等”)。平均活动率为0.72。
兴趣社区(COI)概览
社区 | 兴趣社区 | 节点数 | CAPEC | 攻击者 | 一次性发帖者% | 平均出度 | 出度标准差 | 专业帖子均值 | 帖子标准差 |
---|---|---|---|---|---|---|---|---|---|
0 | 权限提升 | 544 | 19 | 525 | 65.14 | 4 | 7.11 | 2 | 4.76 |
1 | 基于Web | 497 | 26 | 471 | 71.97 | 5 | 12.98 | 3 | 18.33 |
2 | 通用/多样化 | 431 | 103 | 328 | 56.10 | 14 | 33.15 | 7 | 24.89 |
3 | XSS | 319 | 10 | 309 | 71.52 | 2 | 1.18 | 1 | 1.46 |
4 | 侦察 | 298 | 55 | 243 | 51.44 | 61 | 9.04 | 3 | 6.99 |
5 | 冒充 | 296 | 25 | 271 | 54.61 | 12 | 7.88 | 3 | 5.49 |
6 | 持久化 | 116 | 22 | 94 | 41.49 | 26 | 25.76 | 5 | 7.96 |
7 | OIVMM | 83 | 3 | 80 | 85.00 | 1 | 0.31 | 1 | 1.62 |
大海捞针:14名关键攻击者
最后,为识别真正关键的攻击者(即技能水平、投入度和活动率均高,可认定为其领域专家的个体),研究人员使用K-means聚类算法。基于为每个攻击者与CAPEC关系创建的三个测量值,将359名攻击者聚类成八个具有相似三测量值水平的集群。
集群概览
集群 | Bouchard & Nguyen框架* | 中心点[技能;投入;活动] | 攻击者数量 | 样本占比 |
---|---|---|---|---|
0 | 业余者 | [2.00; 22.47; 0.11] [中;低;离散] | 143 | 39.83% |
1 | 准业余者 | [2.81; 97.62; 5.14] [高;高;短暂] | 21 | 5.85% |
2 | 专业人士 | [2.96; 90.37; 0.28] [高;高;活跃] | 14 | 3.90% |
3 | 准业余者 | [2.96; 25.32; 0.12] [高;低;离散] | 86 | 23.96% |
4 | 业余者 | [1.05; 24.32; 0.05] [低;低;离散] | 43 | 11.98% |
5 | 普通职业罪犯 | [1.86; 84.81; 0.50] [低;高;活跃] | 36 | 10.02% |
6 | 准业余者 | [2.38; 18.46; 10.67] [中;低;过度活跃] | 5 | 1.39% |
7 | 业余者 | [1.95; 24.51; 4.14] [中;低;过度活跃] | 11 | 3.06% |
一个包含14名攻击者的集群被评定为"专业人士"——关键个体、领域最优秀者;具有高技能和高投入度,但活动率低(因其论坛参与时间较长,平均159天,发帖率约每3-4天一帖)。他们专注于非常特定的兴趣社区,超出这些范围发帖不多,投入水平达90.37%。该分析方法存在固有局限性——主要源于对MITRE CAPEC和CVE映射及MITRE分配技能水平的依赖。
结论
研究过程包括定义问题并观察各种结构化方法如何带来更深入洞察。本研究中描述方法的衍生版本可被威胁情报团队用于开发更无偏见的电子犯罪主谋识别方法,Sophos CTU将开始审视该数据输出,以评估其是否能塑造或改进我们现有的人力主导研究。