语音合成技术的新突破
近五年来,语音合成技术已全面转向全神经网络模型,使得语音的各个要素——韵律、口音、语言和说话人身份(声音)——能够被独立控制。这项技术使某中心的文本转语音团队能够让女性音色的英语语音系统以纯正的美式西班牙语发音,男性音色的美式语音系统则能说出英式口音。
爱尔兰口音面临的挑战
在开发爱尔兰口音的女性英语语音系统时(该系统于去年底推出),面临两个关键挑战:(1)缺乏带有目标口音的大量标注语音样本;(2)没有字符序列到音素(语音信息的最小单位,也是文本转语音模型的输入)的映射规则。爱尔兰英语的训练数据集规模比英式英语和美式西班牙语小一个数量级。
当尝试使用先前成功的口音迁移方法时,效果并不理想。因此,研究团队调整策略:不再为现有语音教授新口音,而是通过修改已录制的带口音语音的说话人ID。这为爱尔兰口音文本转语音模型提供了目标语音的额外训练数据,显著提升了口音质量。
技术实现方案
为解决爱尔兰口音训练数据稀疏的问题,研究人员采用语音转换模型生成目标语音的爱尔兰口音训练数据。具体而言:
-
多说话人多口音模型:首先使用独立的语音转换(VC)模型合成训练数据。语音转换模型的输入包括:
- 说话人嵌入向量(表征特定说话人声音的声学特征)
- 梅尔频谱图(语音信号频率谱的短间隔快照)
- 与频谱图相关的音素序列
-
训练与推理机制:
- 训练时,文本转语音(TTS)模型接收说话人嵌入、梅尔频谱图和音素序列,同时还会接收口音ID(输入语音口音的简单序数指标)
- 推理时,模型不接收频谱图,但口音ID信号仍会控制输出语音的口音
- 模型还包含从输入语音信号中提取的单个音素时长信息,以更好地控制口音节奏。推理时,音素时长由单独训练的时长模型预测
音素映射的创新处理
虽然缺乏爱尔兰英语的音素映射规则,但团队实验了英式英语和美式英语的映射规则。研究发现:
- 美式英语规则效果略优,可能因为其与爱尔兰英语都具有"rhoticity"特性(即清晰发音r音)
- 例如"can’t"一词的元音发音(及相关音素)在爱尔兰英语中与其他口音群体不同
效果评估
通过对比实验评估方法效果:
- 合成语音与源说话人录音的口音相似度达61.4%(源说话人自身录音相似度为72.56%)
- 合成语音与其他爱尔兰英语说话人的口音相似度为51%,与源说话人对比其他说话人的53%相当
- 与传统方法相比,新方法在口音相似度上提升50%
低相似度评分反映了爱尔兰英语口音的多样性(常被称为"百万口音的语言")。实验结果表明,合成语音在还原"平均"爱尔兰口音方面与真实说话人表现相当。