语音合成技术突破:韵律迁移与多语言风格转换

本文重点介绍某机构在Interspeech 2022发布的文本转语音技术突破,包括多说话人韵律迁移、低资源数据增强、跨语言风格保持等技术方案,通过条件变分自编码器和标准化流模型实现高质量语音合成。

语音合成技术研究进展

某机构在Interspeech 2022大会上展示了十余项文本转语音(TTS)技术研究成果。这些技术致力于提升语音合成的表现力和对话感知能力,主要突破集中在韵律迁移、数据效率提升和多语言处理三个方面。

精细化韵律迁移技术

论文《CopyCat2:多说话人TTS与多对多精细化韵律迁移的统一模型》提出了一种创新架构。该模型从多说话人语音中学习单词级别的说话人无关韵律表征,支持从多个源说话人向多个目标说话人进行精细化韵律迁移。

核心技术特征:

  • 将韵律表征分解为节奏时序和其他特征两个组件
  • 采用条件变分自编码器(CVAE)学习韵律特征组件
  • 将梅尔频谱图压缩为按单词划分的向量序列
  • 通过BERT嵌入预测韵律词嵌入分布参数

实验结果表明,该模型在包含新闻、事实陈述和问候语的多风格美式英语数据集上,将合成语音与真实语音的自然度差距缩小了22.79%。

低资源数据增强方案

《低数据?没问题:基于F0条件数据增强的低资源跨语言对话TTS》提出仅需1小时目标说话人表达性语音即可构建高质量TTS系统的方法。

技术方案要点:

  • 使用8-10小时辅助说话人的中性语音数据
  • 通过改进的CopyCat韵律迁移模型进行说话人身份转换
  • 基于文本和说话人嵌入生成表达性F0轮廓
  • 解码器条件化处理确保保持目标说话人特征

该方法生成的增强数据在F0分布上与目标说话人高度吻合,显著优于无F0条件化的数据增强方案。

跨语言风格迁移突破

《基于条件先验VAE和风格损失的跨语言风格迁移》解决了跨语言风格迁移中保持说话人一致性的技术难题。

架构创新:

  • 采用分层条件先验变分自编码器(LCPVAE)
  • 使用独热编码风格信息进行条件化处理
  • 构建结构化嵌入空间实现跨语言风格聚类
  • 在损失函数中加入风格分类项引导生成过程

主观评估显示,该方法在DJ(2.8%)、兴奋(5.3%)、失望(3.5%)和新闻播报(2.3%)四种风格上都取得显著改进,且不影响说话人相似性和语内风格表现。

零样本语音创建技术

《使用标准化流创建新声音》探索了在未见说话人上进行零样本语音合成的可能性。

技术实现方式:

  • 基于Flow-TTS模型架构进行扩展
  • 增加新说话人采样能力和语音转换模式
  • 使用可逆变换实现梅尔频谱图的无损重构
  • 训练独立神经网络生成区域英语变体的说话人嵌入

该方法在零样本语音合成任务中达到先进性能,能够创建与训练集明显不同的新声音。研究表明,随着条件化程度的增加,语音转换和TTS模式可以互换使用。

这些技术突破展示了语音合成领域的最新进展,为构建更自然、更具表现力的语音系统提供了重要技术支持。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计