AI驱动的深度伪造与语音克隆:社会工程攻击的新前沿

本文深入解析AI如何通过深度伪造和语音克隆技术革新社会工程攻击,详细介绍了从数据收集到模型训练的全流程技术实现,并为企业提供实用的防御策略与操作建议。

网络幻象:AI如何塑造社会工程的未来

“作为红队成员,我始终相信最好的防御就是出色的进攻。在这个领域,这意味着清晰理解攻击者的战术、技术和程序,因为只有先理解威胁及其运作机制,才能有效防御。” —— Brandon Kovacs,高级安全顾问

毫无疑问,AI正在塑造社会工程攻击的未来。AI催生了一类新型网络攻击,使攻击者能够创建超逼真的深度伪造视频和语音模仿,意图操纵或欺骗受害者泄露敏感信息或执行非常规操作。

今年初,香港一家全球企业的财务专业人员就被此类技术欺骗,向诈骗者转账2500万美元——攻击者通过深度伪造和语音克隆技术在视频会议中冒充公司首席财务官。

AI驱动攻击的创建:术语解析

深度伪造和语音模仿通过从公开来源(包括社交媒体帖子、播客、访谈和财报电话会议)收集的数据进行训练。

关键术语:

  • 数据集:用于训练模型的数据集合,通常表示为输入和期望输出的集合
  • 模型:依赖数据识别并对新未见数据做出预测的算法类型
  • 训练:通过试错过程教导模型识别数据集中的模式
  • 推理:使用训练好的模型对新未见数据做出预测和结论的阶段

语音克隆训练

所有模型都通过一系列步骤进行训练,该过程根据创建深度伪造视频或语音克隆模型的需求进行调整。

数据收集

过程从收集数据开始,包括文本、照片、视频、音频文件或文档。

使用检索语音转换(RVC),您可以用WAV音频文件作为训练数据训练自己的语音模型。RVC模型随后可以进行推理,执行音频到音频转换或语音克隆。

数据准备

接下来需要清理和格式化数据:

  • 清理:去除音频文件中的延迟、背景噪音或模糊语音部分
  • 分割:将文件切割成10秒或更短的片段
  • 转换:将文件转换并导出为WAV格式以确保高质量无损音频
  • 转录:音频文件的文本转录(可选但能显著提升效果)

训练

数据清理和准备完成后,即可开始训练数据。

软件分析上传的音频文件,识别语音模式,然后创建特定个体的训练模型,用于推理某人的声音特征——本质上实现了对个人声音的模仿或复制。

深度伪造训练

使用开源工具DeepFaceLab创建深度伪造模型,该工具据称负责了互联网上95%的深度伪造内容。

数据收集

对于深度伪造视频,可以收集照片或视频。最佳选择是在工作室拍摄的高质量视频,但也可以通过公开内容收集。

数据准备

深度伪造的数据准备围绕识别和定义源和目标:

  • 提取:使用FFmpeg等工具从源视频和目标视频中提取图像帧
  • 对齐:识别图像帧中的面部和面部标志点(眼睛、鼻子、嘴巴)
  • 标注:手动注释图像帧以定义面部边缘和遮挡物
  • 遮罩:使用标注图像数据训练XSeg遮罩模型

训练

在准备数据和XSeg遮罩模型后,可以训练深度伪造视频模型。训练过程中,模型学习识别源和目标中的模式,并基于当前知识进行一系列预测。

将深度伪造和语音克隆用于进攻性安全

深度伪造和语音克隆是一类新型AI驱动的网络攻击,对社会和企业具有深远影响。建议将此类技术纳入红队演练,确保组织能够防御这类威胁。

应用示例:

  • 在外部入侵期间使用语音克隆模型冒充目标,尝试对IT帮助台执行密码重置
  • 在假定入侵场景中,利用深度伪造视频和语音模型通过内部视频会议软件进行实时深度伪造,获取信任并操纵员工允许横向移动

如何防御语音克隆和深度伪造

这种技术将影响所有人。攻击者正广泛使用此技术进行网络钓鱼和语音钓鱼诈骗,攻击频率和复杂程度只会不断增加。

两种实用的操作流程改进建议:

  1. 使用官方企业目录中验证的电话号码回拨 perceived请求者
  2. 通过要求呼叫者提供预先约定的安全词或密码添加双因素认证层

这些都是低技术或无技术方法,能够将攻击者排除在循环之外。

结论

克隆技术对社会有几个重大好处,但威胁行为者总是可以将好东西用于恶意目的。为了保持领先,我们必须持续评估安全状况,教育员工,并在不断演变的威胁面前保持警惕。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计