音频生成技术前沿突破与应用

本文深入探讨了最新的音频生成技术,包括多说话人对话生成模型、神经音频编解码器SoundStream及AudioLM框架,详细介绍了2分钟长对话生成、分层声学标记和Transformer架构等技术突破,以及在实际产品中的应用。

推动音频生成的前沿发展

开创性的语音生成技术正在帮助全球用户与更自然、更具对话性和直观的数字助手及AI工具进行交互。语音是人类连接的核心,有助于全球信息交流、情感表达和相互理解。随着生成自然动态语音技术的持续改进,我们正在开启更丰富、更具吸引力的数字体验。

近年来,我们一直在推动音频生成的前沿发展,开发能够从文本、节奏控制和特定声音等多种输入生成高质量自然语音的模型。该技术为许多产品及实验提供单说话人音频支持,包括Gemini Live、Project Astra、Journey Voices和YouTube自动配音功能,并帮助全球用户与更自然、对话式和直观的数字助手及AI工具交互。

通过与各机构合作伙伴协作,近期开发了两项新功能,可生成长篇多说话人对话,使复杂内容更易访问:

  • NotebookLM音频概述:将上传的文档转换为生动活泼的对话。一键点击,两位AI主持人即可总结用户材料、连接主题并相互调侃。
  • Illuminate:创建关于研究论文的正式AI生成讨论,帮助知识更易获取和消化。

以下概述支撑所有这些产品和实验工具的最新语音生成研究。

开创性音频生成技术

多年来,我们持续投资音频生成研究,探索在产品及实验工具中生成更自然对话的新方法。在先前SoundStorm的研究中,首次展示了生成30秒多说话人自然对话的能力。

这扩展了早期的SoundStream和AudioLM工作,使许多基于文本的语言建模技术能够应用于音频生成问题。

  • SoundStream是一种神经音频编解码器,可在不损失质量的情况下高效压缩和解压缩音频输入。在训练过程中,SoundStream学习如何将音频映射到一系列声学标记。这些标记捕获了高保真重建音频所需的所有信息,包括韵律和音色等属性。
  • AudioLM将音频生成视为语言建模任务,以生成如SoundStream等编解码器的声学标记。因此,AudioLM框架不对生成音频的类型或构成做任何假设,并可灵活处理各种声音而无需调整架构——使其成为建模多说话人对话的理想选择。

基于此项研究,最新的语音生成技术可在给定对话脚本和说话人转换标记的情况下,生成2分钟对话,并改进自然度、说话人一致性和声学质量。该模型在单个TPU v5e芯片上的一次推理过程中,可在3秒内完成此任务,这意味着其生成音频的速度比实时快40倍以上。

扩展音频生成模型

将单说话人生成模型扩展到多说话人模型成为数据和模型容量的问题。为帮助最新语音生成模型产生更长的语音片段,创建了更高效的语音编解码器,将音频压缩为标记序列,速率低至600比特/秒,且不损失输出质量。

编解码器产生的标记具有分层结构并按时间帧分组。组内的前几个标记捕获语音和韵律信息,而最后几个标记编码精细的声学细节。

即使使用新的语音编解码器,生成2分钟对话也需要产生超过5000个标记。为建模这些长序列,开发了专门的Transformer架构,可高效处理信息层次结构,匹配声学标记的结构。

通过此技术,可在单次自回归推理过程中高效生成与对话对应的声学标记。一旦生成,这些标记可使用语音编解码器解码回音频波形。

为教导模型如何生成多说话人之间的真实交流,在数十万小时的语音数据上进行了预训练。然后,在更小的对话数据集上进行了微调,该数据集具有高声学质量和精确的说话人注释,包括来自多名配音演员的非脚本对话和真实的不流畅(真实对话中的“嗯”和“啊”)。此步骤教导模型在生成对话期间可靠切换说话人,并仅输出具有真实停顿、语调和时序的录音室质量音频。

遵循AI原则及负责任开发和部署AI技术的承诺,正在整合SynthID技术,为这些模型生成的非瞬态AI生成音频内容添加水印,以帮助防范该技术的潜在滥用。

未来的新语音体验

当前重点在于提高模型的流畅度、声学质量,并添加更细粒度的控制功能(如韵律),同时探索如何最好地将这些进展与其他模态(如视频)结合。

先进语音生成的潜在应用广泛,尤其是与Gemini系列模型结合时。从增强学习体验到使内容更普遍可访问,我们期待继续推动语音技术的可能性边界。

致谢

感谢所有项目贡献者及跨团队合作者,包括数据对话、产品化及项目指导方面的支持。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计