语音合成技术突破:跨语言风格迁移与零样本语音生成

本文详细介绍某机构在Interspeech 2022发布的语音合成技术突破,包括多说话人韵律迁移、低资源语音合成、跨语言风格迁移和零样本语音生成等核心技术,通过条件变分自编码器和标准化流模型实现高质量语音合成。

语音合成技术研究进展

全球最大的语音处理技术会议Interspeech 2022在韩国仁川举行,某机构作为白金赞助商展示了多项语音合成技术突破。亚马逊文本转语音(TTS)团队高级应用科学家Antonio Bonafonte重点介绍了在韵律、口音和说话人身份迁移方面的技术创新。

表达性与上下文适宜的韵律

神经TTS技术显著提升了合成语音的自然度。论文《CopyCat2:多说话人TTS与多对多细粒度韵律迁移的统一模型》提出了一种从多说话人语音中学习词级说话人无关韵律表征的模型。该模型采用条件变分自编码器(CVAE)架构,将梅尔频谱图压缩为词级向量序列,通过解码器重建语音。实验显示,该方法在多风格英语数据集上将合成语音与真实语音的自然度差距缩小了22.79%。

低资源表达性语音合成

传统TTS模型需要大量数据训练。论文《低数据?没问题:通过F0条件数据增强实现低资源跨语言对话TTS》提出仅需目标说话人1小时表达性语音和辅助说话人8-10小时中性语音即可构建表达性语音。该方法通过改进的CopyCat韵律迁移模型,将中性语音转换为目标说话人的表达性语音,显著降低数据需求。

跨语言风格迁移

某机构开发了支持多语言共享的神经TTS模型,使单一语言训练的语音能扩展到其他语言。论文《基于条件先验VAE和风格损失的跨语言风格迁移》提出使用学习条件先验变分自编码器(LCPVAE)实现跨语言风格迁移。该方法在保持说话人身份一致性的前提下,将英语样本的风格成功迁移到西班牙语,在DJ、兴奋、失望和新闻播报四种风格上均取得显著改进。

零样本新语音生成

当前TTS技术只能合成训练中见过的语音样本。论文《使用标准化流创建新语音》探索了标准化流在TTS和语音转换模式中的零样本生成能力。基于Flow-TTS模型,通过可逆变换将梅尔频谱图映射到潜在空间,结合说话人嵌入条件生成新语音。该方法在零样本语音合成中达到先进水平,能创建训练集之外的独特语音。

技术架构亮点

  • 使用条件变分自编码器学习韵律表征
  • 采用F0条件数据增强降低数据依赖
  • 通过分层VAE实现跨语言风格迁移
  • 利用标准化流实现零样本语音生成

所有方法均经过主观评估(MUSHRA)验证,在保持说话人相似性和语言内风格表现的同时,显著提升了跨语言风格表达能力。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计