语音转换技术实现Alexa耳语合成

本文深入解析了基于机器学习的语音转换技术如何将正常语音转化为自然耳语,比较了数字信号处理、高斯混合模型和深度神经网络三种方法的性能表现,并介绍了在跨语言场景中的实际应用效果。

根据听众测试,新型机器学习模型生成的耳语与声码化处理的人类耳语同样自然。

2018年,某机构在美国推出功能,使智能助手能够以耳语回应用户的耳语指令,该功能于2019年11月扩展至所有语言区域。在2020年1月出版的《IEEE信号处理快报》中,描述了实现该功能扩展的研究工作。

核心目标:在保持高自然度和说话人身份特征的前提下,将正常语音转换为耳语。研究对比了三种转换技术:

  1. 基于声学分析的手工数字信号处理(DSP)技术
  2. 采用高斯混合模型(GMM)的机器学习方法
  3. 基于深度神经网络(DNN)的机器学习方法

通过MUSHRA(隐藏参考与锚点的多刺激测试)方法的听众研究表明:当机器学习模型应用于训练过的相同说话人时,GMM与DNN性能相当,且均优于手工信号处理器。但DNN模型在泛化到多说话人和未训练说话人时表现显著更优。

技术实现细节

  • 2017年通过DSP技术为某云服务的文本转语音系统添加耳语功能,该技术基于大量声学差异研究文献
  • 两种机器学习技术均采用声学特征集表示语音信号,学习正常语音到耳语的特征映射
  • GMM通过高斯分布输出特征值,DNN通过训练调整网络节点参数
  • 使用专业录音人员制作的数据集和行业标准数据集进行训练,均包含成对的正常语音-耳语样本

评估方法

  • 将系统输出与原始录音及经过声码器处理的录音(“oracle”)对比
  • 使用开源WORLD声码器进行实验,实际部署采用先进神经声码器进一步提升质量

实验发现

  1. 单说话人训练时,语音转换模型合成的耳语比声码化人声更自然
  2. 在未见过的说话人测试中,DNN模型展现出优异的泛化能力
  3. 跨语言测试显示该技术在英语、西班牙语和日语环境中均保持稳定性能
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计