神经网络实现跨语言语音合成技术突破

某中心研究团队通过神经网络文本转语音技术,使仅接受英语训练的语音模型能够生成地道西班牙语发音。该技术采用语言标识和说话人嵌入向量,实现跨语言音色保持一致,在自然度、说话人相似度和口音质量评估中表现优异。

2019年,某智能语音助手推出英语和西班牙语双语模式,用户可使用任意一种语言交互并获得对应语言回复。为确保两种语言发音自然,当时采用不同配音演员的录音数据,导致双语模式听起来像与两个不同的人对话。

如今,某中心文本转语音(TTS)团队运用深度学习方法,成功让仅基于英语录音训练的语音模型具备美式西班牙语表达能力,且发音地道流畅。虽然当前仅应用于双语模式,实验表明该技术可扩展至多语言场景。

神经文本转语音(NTTS)技术通过神经网络直接从文本音素序列生成语音。近年来,该团队已运用NTTS实现语音韵律迁移说话风格转换(如新闻播报或DJ风格)。同样,神经TTS技术也能让现有语音模型掌握新语言。

传统TTS系统通过将目标语言音素映射到说话人母语的等效音素实现跨语言合成,但会导致明显的外国口音。另一种方案是寻找双语配音演员录制双语言数据,但可行性低且语言组合受限。新研发的多语言模型同时解决了这两个问题。

共享空间技术

新技术首先基于多语言多说话人数据训练机器学习模型。在标准神经TTS平台(输入为音素序列)基础上,新增两个输入单元(下图蓝色部分):

  • 语言标识码
  • 说话人嵌入向量(编码说话人语音特征的向量表示)

音素序列经编码器转换为包含音素声学信息的向量表示。该编码器会将不同语言中声学特征相似的音素映射到表示空间的相同区域,不受说话人身份或语言影响。

音素编码、语言标识和说话人嵌入通过注意力机制处理,根据解码器状态确定需要重点关注的输入音素。解码器利用说话人和语言嵌入生成特定说话人和语言的正确声学内容。在解码器输入端重新确认语言标识,使编码器能够提取跨语言的通用表示。

说话人嵌入基于大型外部语料库的说话人分类任务进行预训练。相似说话人的嵌入向量会聚集,与其所说语言无关。系统因此可通过说话人嵌入推断其在不同语言中的发音特征。

效果评估

模型从四个维度进行评估:

  1. 英语输出自然度(确保现有体验不退化)
  2. 西班牙语自然度
  3. 说话人相似度
  4. 口音质量

后三项确保为用户提供高质量合成语音,既接近原始说话人音色,又具备地道西班牙语口音。

根据MUSHRA(隐藏参考与锚点的多刺激测试)方法,实验结果如下图所示(从左至右依次为:英语自然度、西班牙语自然度、西班牙语说话人相似度、西班牙语口音质量):

![评估结果对比图]

在自然度评估中,以原始说话人的英语录音作为参考。英语测试显示双语模型(Polyglot)略逊于现有英语模型(EN Alexa),但考虑到语音支持双语言的优势,这种轻微退化是可接受的。双语模型在英语和西班牙语中均获得相近的自然度评分。

说话人相似度评估要求听众对比:1)西班牙语样本与原始说话人英语录音的相似度 2)原双语模式中英语和西班牙语声音的相似度。同时将双语系统与采用音素映射的EN Alexa模型版本对比。

结果显示:

  • 双语模型的西班牙语语音比原双语模式中的西班牙语配音更接近英语目标说话人
  • 双语模型未达到音素映射模型的相似度水平,可能因听众对英语口音的偏好导致

口音评估中,双语系统与西班牙语录音的评分无统计学显著差异,说明其发音地道程度与西班牙语录音相当。总体而言,该技术在不需英语配音演员录制西班牙语的情况下,成功生成具有地道西班牙语口音的高质量合成语音,且被感知为与英语语音属于同一说话人。

此项技术为未来扩展至更多语言提供可能,现有说话人无需额外录音即可掌握新语言。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计