推动音频生成技术的前沿发展
开创性的语音生成技术正在帮助全球用户与更自然、更具对话性和直观的数字助手及AI工具进行交互。语音是人类连接的核心,有助于全球信息交流、情感表达和相互理解。随着生成自然动态语音技术的持续改进,我们正在开启更丰富、更具吸引力的数字体验。
近年来,我们持续推动音频生成技术边界,开发了能够从文本、节奏控制和特定声音等多种输入生成高质量自然语音的模型。该技术为多个产品及实验提供单说话人音频支持,包括Gemini Live、Project Astra、Journey Voices和YouTube自动配音功能,并助力全球用户与更自然的对话式AI工具交互。
通过与跨团队合作,近期开发了两项生成长篇多说话人对话的新功能:
- NotebookLM音频概述:将上传文档转化为生动对话,AI主持人可总结材料、连接话题并相互交流
- Illuminate:生成关于研究论文的正式AI讨论,使知识更易获取和消化
音频生成的开创性技术
我们长期投资音频生成研究,探索在产品中生成更自然对话的新方法。在SoundStorm的研究中,首次展示了生成30秒多说话人自然对话的能力。这扩展了早期SoundStream和AudioLM的工作,使许多基于文本的语言建模技术得以应用于音频生成领域。
SoundStream是一种神经音频编解码器,可在不损失质量的前提下高效压缩和解压音频输入。在训练过程中,SoundStream学习将音频映射到一系列声学令牌,这些令牌捕获了重建高保真音频所需的所有信息,包括韵律和音色等属性。
AudioLM将音频生成视为语言建模任务,生成如SoundStream等编解码器的声学令牌。因此,AudioLM框架不对生成音频的类型或构成做任何假设,可灵活处理各种声音而无需架构调整,使其成为建模多说话人对话的理想选择。
基于此研究,最新语音生成技术可在给定对话脚本和说话人转换标记时,生成2分钟对话,并提升自然度、说话人一致性和声学质量。该模型在单个TPU v5e芯片上单次推理可在3秒内完成此任务,意味着以超过实时40倍的速度生成音频。
扩展音频生成模型
将单说话人生成模型扩展到多说话人模型成为数据和模型容量的问题。为支持生成长语音片段,我们创建了更高效的语音编解码器,以低至600比特/秒的速率将音频压缩为令牌序列,且不损失输出质量。
编解码器产生的令牌具有分层结构并按时间帧分组。组内首令牌捕获语音和韵律信息,末令牌编码精细声学细节。
即使采用新编解码器,生成2分钟对话仍需产生超过5000个令牌。为建模这些长序列,我们开发了专用Transformer架构,可高效处理信息层次结构,匹配声学令牌的结构。
通过此技术,我们可在单次自回归推理中高效生成与对话对应的声学令牌。生成后,这些令牌可通过语音编解码器解码回音频波形。
为教导模型生成多说话人间的真实交流,我们在数十万小时语音数据上进行预训练,然后在具有高声学质量和精确说话人标注的小型对话数据集上微调,该数据集包含来自配音演员的非脚本对话和真实不流畅现象(如实际对话中的"呃"和"啊")。此步骤教会模型在生成对话期间可靠切换说话人,并仅输出具有真实停顿、语调和时序的录音室质量音频。
遵循AI原则和负责任开发部署AI技术的承诺,我们正在集成SynthID技术,为这些模型生成的非瞬态AI音频内容添加水印,以防止技术潜在滥用。
未来的语音体验
我们目前专注于提升模型的流畅度、声学质量,并增加更细粒度的控制功能(如韵律控制),同时探索如何最佳地将这些进展与其他模态(如视频)结合。
先进语音生成的应用潜力巨大,特别是与Gemini模型家族结合时。从增强学习体验到使内容更普适可达,我们期待继续推动语音技术的可能性边界。