语音合成技术研究进展
某机构在Interspeech 2022大会上展示了十余项文本转语音(TTS)技术研究成果。这些技术致力于提升语音合成的表现力和对话感知能力,主要突破集中在韵律迁移、数据效率提升和多语言处理三个方面。
精细化韵律迁移技术
论文《CopyCat2:多说话人TTS与多对多精细化韵律迁移的统一模型》提出了一种创新架构。该模型从多说话人语音中学习单词级别的说话人无关韵律表征,支持从多个源说话人向多个目标说话人进行精细化韵律迁移。
核心技术特征:
- 将韵律表征分解为节奏时序和其他特征两个组件
- 采用条件变分自编码器(CVAE)学习韵律特征组件
- 将梅尔频谱图压缩为按单词划分的向量序列
- 通过BERT嵌入预测韵律词嵌入分布参数
实验结果表明,该模型在包含新闻、事实陈述和问候语的多风格美式英语数据集上,将合成语音与真实语音的自然度差距缩小了22.79%。
低资源数据增强方案
《低数据?没问题:基于F0条件数据增强的低资源跨语言对话TTS》提出仅需1小时目标说话人表达性语音即可构建高质量TTS系统的方法。
技术方案要点:
- 使用8-10小时辅助说话人的中性语音数据
- 通过改进的CopyCat韵律迁移模型进行说话人身份转换
- 基于文本和说话人嵌入生成表达性F0轮廓
- 解码器条件化处理确保保持目标说话人特征
该方法生成的增强数据在F0分布上与目标说话人高度吻合,显著优于无F0条件化的数据增强方案。
跨语言风格迁移突破
《基于条件先验VAE和风格损失的跨语言风格迁移》解决了跨语言风格迁移中保持说话人一致性的技术难题。
架构创新:
- 采用分层条件先验变分自编码器(LCPVAE)
- 使用独热编码风格信息进行条件化处理
- 构建结构化嵌入空间实现跨语言风格聚类
- 在损失函数中加入风格分类项引导生成过程
主观评估显示,该方法在DJ(2.8%)、兴奋(5.3%)、失望(3.5%)和新闻播报(2.3%)四种风格上都取得显著改进,且不影响说话人相似性和语内风格表现。
零样本语音创建技术
《使用标准化流创建新声音》探索了在未见说话人上进行零样本语音合成的可能性。
技术实现方式:
- 基于Flow-TTS模型架构进行扩展
- 增加新说话人采样能力和语音转换模式
- 使用可逆变换实现梅尔频谱图的无损重构
- 训练独立神经网络生成区域英语变体的说话人嵌入
该方法在零样本语音合成任务中达到先进性能,能够创建与训练集明显不同的新声音。研究表明,随着条件化程度的增加,语音转换和TTS模式可以互换使用。
这些技术突破展示了语音合成领域的最新进展,为构建更自然、更具表现力的语音系统提供了重要技术支持。