知识图谱技术打击人口贩运实战解析
国际劳工组织估计,目前全球有超过2490万人是人口贩运的受害者,其中近20%遭受性剥削。某分析机构利用机器学习技术分析网络上的性服务广告模式,为执法机构提供可行见解,帮助提高定罪率。
技术实现方案
数据挑战与解决方案
识别有组织犯罪网络发布的广告具有挑战性:首先,大多数互联网广告缺乏结构化数据;其次,每天有数百万条性服务广告发布,其中大多数是自愿提供服务者发布的。Traffic Jam系统专注于发现被迫从事该行业的人口贩运受害者。
知识图谱架构
Traffic Jam使用知识图谱实现这一目标。知识图谱由实体或节点组成,每个节点代表一个独立的信息单元。在Traffic Jam中,每个广告都被表示为一个独立节点,广告位置、电话号码和发布月份等其他标准也是如此。
知识图谱还以边的形式存储这些不同节点之间的关系。随着每天新增广告数量的快速增长,Traffic Jam使用的知识图谱包含超过10亿条边,连接广告、电话号码、图像和其他实体。
图神经网络应用
图神经网络在近年来得到广泛应用,因为数据科学家不再仅仅开发用于2D信号(如图像)和3D信号(如视频)的深度学习模型,而是开始学习图中嵌入的结构化相关数据。
某分析机构等组织使用GNN对比不同节点之间的信息,并发现有趣的见解,例如某个广告是否具有与有组织犯罪集团发布的广告相同的特征。
技术挑战与创新
在深度图学习领域存在三个特别需要创新的领域:
- 模型表达:如何以最佳方式表达深度图学习中的机器学习模型
- 模型训练:GNN训练需要不规则的内存访问,训练过程对计算要求高
- 知识图谱嵌入:最有效的知识图谱嵌入计算方法
系统成效
执法官员使用Traffic Jam寻找人口贩运受害者并瓦解有组织犯罪集团。仅2019年,Traffic Jam就被用于识别和救援约3800名性贩运受害者。
通过知识图谱和相关子图,系统现在能够捕获比以前多四倍的信息。更重要的是,即使在新信息不断涌入的情况下,系统也能实时分析数据并识别潜在的犯罪集团。