语音合成技术突破与跨语言风格迁移

本文详细介绍了在Interspeech 2022会议上展示的文本转语音技术研究突破,包括韵律迁移模型CopyCat2架构、低数据量语音合成方法、跨语言风格迁移技术以及基于标准化流的语音生成技术,这些创新显著提升了语音合成的自然度和多语言适应性。

Alexa在Interspeech 2022的文本转语音研究

在韩国仁川举行的Interspeech 2022会议上,某中心作为白金赞助商展示了多项文本转语音(TTS)技术突破。亚马逊文本转语音团队高级应用科学家Antonio Bonafonte重点介绍了在韵律、口音和说话人身份迁移方面的研究成果。

富有表现力和情境适宜的韵律

神经TTS技术显著提升了合成语音的自然度。为了使韵律更具表现力和情境适应性,研究人员从真实语音中学习韵律表征。

Sri Karlapati等人提出的论文《CopyCat2:多说话人TTS和多对多细粒度韵律迁移的统一模型》开发了一个模型,可从多说话人语音中学习词级说话人无关的韵律表征。这些表征可用于将多个源说话人的细粒度韵律迁移到多个目标说话人。此外,从文本预测词级韵律表征可提升TTS模型的自然度和适应性。

CopyCat2架构将词级韵律表征分为两个组件:时序节奏组件和其他韵律特征组件。使用条件变分自编码器学习第二个组件:输入mel频谱图(代表语音信号的频带能量)被压缩为词级向量序列(Z),这些向量用于重建mel频谱图。

解码器以音素和说话人为条件,捕获说话人无关的韵律信息。类似方法用于学习说话人无关的词级时序表征。

在TTS应用时,研究人员训练额外模型从BERT嵌入预测韵律词嵌入分布(Z)的参数。在多说话人英语数据集测试中,该方法将合成语音与真实语音的自然度差距缩小了22.79%。

减少构建表现力语音所需数据

训练最先进TTS模型通常需要大量数据。Giulia Comini等人的论文提出仅使用目标说话人1小时表现力语音和另一说话人8-10小时中性语音即可构建表现力TTS声音的方法。

该方法使用改进的CopyCat韵律迁移模型,将支持说话人的中性数据转换为目标说话人身份同时保持其表现风格。CopyCat并行解码器根据说话人嵌入、基频(F0)、音素表征和参考编码器输出重建mel频谱图。

训练完成后,支持数据的mel频谱图被转换为目标说话人的增强表现力数据。研究表明F0调节的数据增强方法优于无F0调节的方法。

多语言模型技术

某中心开发了支持多说话人多语言的共享神经TTS模型,可将仅用一种语言训练的合成语音扩展到其他语言。例如,英语Alexa女声可在多语言家庭中说流利西班牙语。

Dino Ratcliffe等人的论文提出跨语言风格迁移架构,使用学习条件先验变分自编码器(LCPVAE)方法改进四种风格(新闻播音、DJ、兴奋、失望)的西班牙语表征,同时保持仅使用英语样本的单一说话人身份。

该方法引入次级VAE,以one-hot编码风格信息为条件,形成结构化嵌入空间,将相同风格的话语分组而不考虑语言。主观评估显示该方法在所有四种风格上均实现显著改进:DJ(2.8%)、兴奋(5.3%)、失望(3.5%)和新闻播音(2.3%)。

创建新声音字符

当前TTS技术可为训练中见过的说话人生成真实合成语音,但为未见说话人合成语音仍是重大挑战。

Piotr Biliński等人的研究探索使用标准化流在TTS和语音转换模式中从训练说话人外推到未见说话人身份。该方法基于Flow-TTS模型,但将其适配用于创建新声音,关键贡献包括添加采样新说话人能力、引入语音转换模式以及与TTS模式比较。

模型架构基于标准化流的可逆变换,允许从表示空间(z)无损重建mel频谱图。在语音转换模式中,使用源说话人嵌入将源mel频谱图映射到潜在表示z,然后使用目标说话人嵌入将z转换回mel频谱图。

广泛评估表明该方法在零样本语音合成中系统性地获得最先进性能,可创建与训练集不同的声音。随着模型调节水平提高,语音转换和TTS模式可互换使用。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计