AI驱动的社会工程攻击:深度伪造与语音克隆技术解析

本文深入探讨了AI技术如何被用于创建高度逼真的深度伪造视频和语音克隆,详细分析了数据收集、准备和模型训练的技术流程,并提供了防御这类新型网络攻击的实用方案。

网络幻象:AI如何塑造社会工程的未来

“作为红队成员,我始终相信最好的防御就是出色的进攻。在这个领域,这意味着要清晰理解攻击者的战术、技术和程序,因为只有先理解威胁及其运作机制,才能有效防御。” —— Brandon Kovacs,高级安全顾问

毫无疑问,AI正在塑造社会工程的未来。AI催生了一类新型网络攻击,使攻击者能够创建高度逼真的深度伪造视频和语音模仿,意图操纵或欺骗受害者泄露敏感信息或执行本不会采取的行动。

今年早些时候,我们就在新闻中看到了这样的案例:香港一家全球公司的财务专业人员被欺骗向诈骗者转账2500万美元,诈骗者利用深度伪造和语音克隆技术在视频会议中冒充公司首席财务官。

鉴于这起令人震惊的事件及其他类似案例,高级安全顾问Brandon Kovacs在一次高参与度的网络研讨会中探讨了深度伪造和语音克隆的创建方式,以及企业如何防御这些高级攻击。

AI驱动攻击的创建方式:理解术语

深度伪造和语音模仿是通过从公开来源(包括社交媒体帖子、播客、访谈和财报电话会议)收集的数据进行训练而制作的。

让我们深入理解这些术语:

  • 数据集:用于训练模型的数据集合,通常表示为输入和期望输出的集合。
  • 模型:一种依赖数据来识别并对新的、未见过的数据进行预测的算法。
  • 训练:通过试错过程教导模型识别数据集中的模式。
  • 推理:使用训练好的模型对新的、未见过的数据进行预测和得出结论的过程,这是大多数人熟悉的阶段。

训练语音克隆

所有模型都通过一系列步骤进行训练,这一过程根据创建深度伪造视频或语音克隆模型的需求进行调整。

数据收集

过程从收集数据开始,无论是文本、照片、视频、音频文件还是文档。

使用检索语音转换(RVC),您可以用WAV音频文件作为训练数据来训练自己的语音模型。RVC模型随后可以进行推理,执行音频到音频的转换或语音克隆。本质上,您用源音频数据集训练模型,然后能够操纵声音的音调和音高,以惊人准确度匹配目标对象的声音。

数据准备

接下来,必须通过清理和格式化来准备数据。

  • 清理:清理数据涉及去除音频文件中的任何延迟、背景噪音或模糊语音部分。
  • 分割:将文件切割成10秒或更短的片段。
  • 转换:接下来,将文件转换并导出为WAV格式,以确保高质量的无损音频。这些步骤可以使用免费软件(如Audacity)或付费软件(如Adobe Audition)执行。
  • 转录:音频文件的文本转录是最后一步;这是可选的,但可以显著提升结果。

训练

一旦数据清理和准备完毕,就可以开始训练数据。

软件会分析您上传的音频文件,识别声音中的模式。然后,它会从特定个人的声音创建训练好的模型,该模型可用于推理某人的声音——本质上,具有模仿或复制个人声音的能力。

语音克隆技术提供了广泛的潜在好处,从创建个性化虚拟助手到改善无法说话者的可访问性。然而,必须考虑与此技术相关的严重伦理和安全问题。

训练深度伪造

在网络研讨会中,Brandon使用开源工具现场演示了深度伪造模型,模仿了他的朋友Chris(当然是在获得许可的情况下)。在本节中,您将看到Brandon完成过程的截图以及Brandon实时深度伪造Chris的片段。

为了创建深度伪造,Brandon使用了DeepFaceLab,这是一种流行的开源工具,用于创建深度伪造模型,据其GitHub仓库称,“据称负责互联网上95%的深度伪造”。该技术使用先进的机器学习技术,以照片作为训练数据来训练深度伪造视频模型。通过称为“合并”的过程,将面部从源交换到目标。

创建深度伪造的过程与语音克隆类似——您必须收集、准备和训练数据以达到预期结果。让我们深入探讨。

数据收集

对于深度伪造视频,您可以收集照片或视频。最好使用在工作室拍摄的高质量视频,但也可以通过收集公开内容中的视频来实现。目标对象的视频应包含各种角度、面部表情和光照条件。

数据准备

深度伪造的数据准备围绕识别和定义源和目标展开。源是被克隆的原始人或对象(即公众人物)。目标是深度伪造操纵的结果(即将要冒充源的个人),源的面部将出现在其上。

本质上,深度伪造技术获取源(原始内容)并将其转换到目标(被操纵或伪造的内容)。准备数据是一个冗长的多步骤过程:

  • 提取:DeepFaceLab使用照片作为训练数据。为了准备训练数据集,必须首先为源和目标人物提取任何录制视频的帧。可以使用开源工具(如FFmpeg)从源和目标视频中提取图像帧。
  • 对齐:DeepFaceLab然后检查图像帧以识别面部和面部标志(即眼睛、鼻子和嘴巴)。
  • 标注:标注是过程中的关键步骤,您手动注释图像帧以定义面部边缘和任何障碍物(如帽子或眼镜),适用于源和目标对象。应对具有各种角度和面部表情的多张图像执行此操作。
  • 遮罩:遮罩是一个复杂的过程,使用标注的图像数据训练XSeg遮罩模型,该模型能够识别数据集中所有图像的源和目标的面部轮廓,同时忽略任何障碍物。此过程可能需要几天到几周的时间,具体取决于计算硬件。

在遮罩阶段,模型学会了识别Brandon和Chris的面部,同时忽略障碍物(如帽子)。

训练

在经过冗长的数据准备和XSeg遮罩模型准备后,您现在可以训练深度伪造视频模型。在训练步骤中,模型被教导识别源和目标中的模式,从中学习,并根据当时所知进行一系列预测。

  • 顶行:源(Chris)的预测
  • 中行:目标(Brandon)的预测
  • 底行:源和目标之间的面部交换预测

随着迭代次数的增加,图像变得更加逼真和真实。使用DeepFaceLive(一个单独的工具),您可以使用通过DeepFaceLab创建和训练的模型进行实时深度伪造。

以下片段是训练过程中模型演化的延时显示。最左侧的两列表示源到源的预测,中间列表示目标到目标的预测,最右侧列是深度伪造预测,交换了Chris和Brandon的面部。

深度伪造Chris

看看最终产品。以下是网络研讨会中最终输出的现场演示,显示了训练模型的结果,Brandon能够实时深度伪造他的Chris。

使用深度伪造和语音克隆进行进攻性安全

深度伪造和语音克隆是一类新型的AI驱动网络攻击,对社会和企业具有广泛影响。以下是Brandon建议如何将这种技术纳入红队演练,以确保您的组织能够防御这类威胁。

两个例子包括:

  • 在外部入侵期间使用语音克隆模型冒充目标,并尝试对IT帮助台执行密码重置。
  • 在假设入侵场景中,利用深度伪造视频和语音模型通过内部视频会议软件执行实时深度伪造,以获取信任并操纵员工允许您横向移动。

如何防御语音克隆和深度伪造

这种技术的底线是它将影响每个人。攻击者更广泛地使用这种技术进行大规模网络钓鱼和语音钓鱼诈骗,攻击的频率和复杂性只会增加。它将影响小型、中型和大型企业,以及脆弱和老年个体。

如果您是公众人物,您被冒充的风险更高。存在大量公开可用的内容——财报电话会议、访谈、播客、社交媒体爆发、网络论坛、公司网站——所有这些都可以用于训练您的视频模型或语音模型。

为此,我们有两个实用的操作流程改进想法,以减轻组织中的欺诈风险。在个人请求采取行动(如转账)的场景中——尤其是在使用恐惧、不确定或怀疑(FUD)时——您需要确认呼叫者的身份以确保请求的有效性。

两种方法是:

  • 使用您在官方公司目录中查找的已验证电话号码回拨感知请求者。请记住,攻击者可以执行呼叫者ID操纵,使其看起来像是被冒充的个人在呼叫。
  • 通过询问呼叫者预先约定的安全词或密码来增加一层双因素认证,只有您和该个人知道。通过建立固定的密码,您将能够验证提出请求的个人。

这些都是低技术或无技术的方法,使您能够将攻击者排除在循环之外。即使面对尖端的网络攻击,有时老式的方法最有效。

结论

克隆技术对社会有几个巨大的好处,但一如既往,威胁行为者可以将好东西用于邪恶目的。为了保持领先,我们必须继续评估我们的安全状况,教育我们的员工,并在面对不断演变的威胁时保持警惕。

有关社会工程以及如何最好地保护您的组织免受这些攻击的更多信息,请查看以下额外资源:

  • Bishop Fox如何进行社会工程演练
  • 操纵思维:社会工程的策略与实践
  • 对抗对手:主动社会工程与网络测试
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计