Alexa在Interspeech 2022的文本转语音研究
在韩国仁川举行的Interspeech 2022会议上,某中心作为白金赞助商展示了其文本转语音技术的最新研究成果。亚马逊文本转语音组织在会上发表了十余篇论文,重点介绍了在韵律、口音和说话人身份迁移方面的创新工作。
表达性与上下文适宜的韵律
论文《CopyCat2:多说话人TTS和细粒度韵律迁移的统一模型》提出了一种从多说话人语音中学习词级说话人无关韵律表示的方法。该模型使用条件变分自编码器将梅尔频谱图压缩为词级向量,这些向量可用于在多个说话人之间进行细粒度韵律迁移。
解码器基于音素和说话人身份进行条件化,从而捕捉说话人无关的韵律信息。在包含新闻、事实和问候等多种风格的多说话人英语数据集测试中,该方法将合成语音与真实语音的自然度差距减少了22.79%。
减少构建表达性语音所需数据
论文《低数据?没问题:基于F0条件数据增强的低资源、语言无关对话式文本转语音》提出了一种方法,仅需目标说话人1小时的表达性语音和另一说话人8-10小时的中性语音即可构建表达性语音系统。
该方法使用改进的CopyCat韵律迁移模型,将支持说话人的中性数据转换为目标说话人身份的语音,同时保持目标说话人的表达风格。通过F0条件数据增强,生成的增强数据在F0分布上与目标说话人相似。
多语言模型
某中心开发了支持多个说话人和语言的共享神经TTS模型,可将仅用一种语言训练的合成语音扩展到其他语言。例如,该技术使得英语Alexa女声能够在多语言家庭中说流利的西班牙语。
论文《基于条件先验VAE和风格损失的跨语言风格迁移》提出了一种跨语言风格迁移架构,使用学习条件先验变分自编码器(LCPVAE)来改善西班牙语在四种风格(新闻播报员、DJ、兴奋、失望)下的表现,同时保持单一说话人身份。
该方法在所有四种风格上都显示出显著改进:DJ(2.8%)、兴奋(5.3%)、失望(3.5%)和新闻播报员(2.3%),且不影响说话人相似性和语言内风格表现。
创建新声音
论文《使用标准化流创建新声音》研究了在零样本情况下将训练期间观察到的说话人外推到未见说话人身份的能力。该方法基于Flow-TTS模型,但将其适应于创建新声音。
模型架构基于标准化流的可逆变换,允许从表示空间无损重建梅尔频谱图。在语音转换模式下,模型使用源说话人嵌入将源梅尔频谱图映射到潜在表示,然后使用目标说话人嵌入将其转换回梅尔频谱图。
广泛评估表明,该方法在零样本语音合成中系统地获得了最先进的性能,并允许创建与训练集中不同的声音。随着模型条件水平的提高,语音转换和TTS模式可以互换使用。