根据听众测试,新型机器学习模型生成的耳语与声码化处理的人类耳语同样自然。
2018年,某机构在美国推出功能,使智能助手能够以耳语回应用户的耳语指令,该功能于2019年11月扩展至所有语言区域。在2020年1月出版的《IEEE信号处理快报》中,描述了实现该功能扩展的研究工作。
核心目标:在保持高自然度和说话人身份特征的前提下,将正常语音转换为耳语。研究对比了三种转换技术:
- 基于声学分析的手工数字信号处理(DSP)技术
- 采用高斯混合模型(GMM)的机器学习方法
- 基于深度神经网络(DNN)的机器学习方法
通过MUSHRA(隐藏参考与锚点的多刺激测试)方法的听众研究表明:当机器学习模型应用于训练过的相同说话人时,GMM与DNN性能相当,且均优于手工信号处理器。但DNN模型在泛化到多说话人和未训练说话人时表现显著更优。
技术实现细节:
- 2017年通过DSP技术为某云服务的文本转语音系统添加耳语功能,该技术基于大量声学差异研究文献
- 两种机器学习技术均采用声学特征集表示语音信号,学习正常语音到耳语的特征映射
- GMM通过高斯分布输出特征值,DNN通过训练调整网络节点参数
- 使用专业录音人员制作的数据集和行业标准数据集进行训练,均包含成对的正常语音-耳语样本
评估方法:
- 将系统输出与原始录音及经过声码器处理的录音(“oracle”)对比
- 使用开源WORLD声码器进行实验,实际部署采用先进神经声码器进一步提升质量
实验发现:
- 单说话人训练时,语音转换模型合成的耳语比声码化人声更自然
- 在未见过的说话人测试中,DNN模型展现出优异的泛化能力
- 跨语言测试显示该技术在英语、西班牙语和日语环境中均保持稳定性能