语音合成技术实现爱尔兰口音转换
近年来,语音合成技术已全面转向全神经网络模型,能够分别控制语音的各个要素:韵律、口音、语言和说话人身份(声音)。这项技术使某机构的文本转语音团队能够让女性音色的英语语音助手以纯正的美式西班牙语发音,男性音色的美式语音则能说出英式口音。
然而在上述案例中,存在两个优势:(1)拥有大量带目标口音标注的语音样本供现有语音模型学习;(2)具备一套将字符序列(字素)映射到目标口音音素(语音信息的最小单位,也是文本转语音模型的输入)的规则。
对于去年底推出的爱尔兰口音女性英语语音,这两个优势都不存在:既没有字素到音素的映射规则,数据集规模也比英式英语和美式西班牙语小一个数量级。当尝试使用之前成功的口音迁移方法时,效果很不理想。
因此研究人员改变策略:不再教授现有语音新口音,而是对口音语音录音进行说话人身份转换。这为爱尔兰口音文本转语音模型提供了目标语音的额外训练数据,显著提升了口音质量。
技术实现方案
为解决爱尔兰口音训练数据稀缺问题,研究人员采用语音转换模型生成目标语音的爱尔兰口音训练数据。具体流程如下:
训练阶段:
- 使用独立的语音转换(VC)模型合成训练数据
- 语音转换模型的输入包括:
- 说话人嵌入向量(表征特定说话人声学特征的向量表示)
- 梅尔频谱图(语音信号频谱的短时快照)
- 与频谱图对应的音素序列
模型架构:
- 采用多说话人多口音文本转语音(TTS)模型
- 训练时接收说话人嵌入向量、梅尔频谱图和音素序列
- 推理时不接收频谱图
- 训练时额外接收口音ID(输入语音口音的简单序数指示器)
- 推理时口音ID信号仍可控制输出语音的口音
虽然多口音模型并非本方法的必要条件,但实证发现多口音模型比单口音模型能产生更自然的合成语音。
音素处理创新
模型输入还包含从输入语音信号中提取的单个输入音素时长信息,使模型能更好地控制口音节奏。推理时虽然没有输入语音信号,但音素时长由单独训练的时长模型预测,该模型与TTS模型并行训练。
尽管没有爱尔兰口音英语的字素到音素(G2P)规则,研究人员通过实验采用英式和美式英语的G2P规则。这两种规则都不完全准确:例如"can’t"元音在爱尔兰英语中与另两种口音都不同。但使用英式和美式英语G2P规则都能获得可信结果。
美式英语规则效果稍好,这可能是因为卷舌音特性:美式英语使用者和爱尔兰英语使用者都会发r音,而英式英语使用者通常省略r音。
效果评估
评估方法要求评审员将本方法合成的爱尔兰英语语音与四位不同爱尔兰英语说话人的录音进行比较(其中一位是源说话人,即提供增强数据基础语音的说话人)。
评估结果:
- 源说话人录音与其他自身录音的口音相似度评分:72.56%
- 合成语音(不同声音)与源说话人录音的相似度:61.4%
- 源说话人与其他三位爱尔兰说话人的口音相似度:53%
- 合成语音与其他三位爱尔兰说话人的口音相似度:51%
这表明合成语音对"平均"爱尔兰口音的近似程度与源说话人相当。较低的一致率(无论是真实语音还是合成语音)证明了爱尔兰英语口音的多样性(有时被称为百万口音的语言)。
与现有领先方法相比,本方法在口音相似度上实现了50%的提升。