某中心文本转语音团队在ICASSP 2022的研究成果
在ICASSP 2022国际会议上,某中心文本转语音(TTS)团队发表了四篇论文,这些论文主要涉及语音转换(在保持韵律特征的同时将一种合成语音转换为另一种)和数据增强技术。
核心研究方向
语音过滤器:基于语音转换的少样本说话人自适应
该研究通过将高质量TTS模型的输出(语音频谱图)适配到新目标声音,实现少样本学习。关键创新在于使用语音过滤器进行后处理,该过滤器在TTS模型自生成的合成数据上进行训练。实验表明,该方法仅需传统方法1/30的数据量即可达到相当的语言质量。
跨说话人风格迁移
研究团队开发了一种TTS模型,能够在目标声音仅包含中性语音训练数据的情况下实现富有表现力的语音合成。该方法首先训练语音转换模型,将其他声音的表现性语音样本转换为目标声音,然后将转换后的语音作为TTS模型的额外训练数据。
分布增强技术
针对训练数据不足的情况,该方法通过重新组合现有样本文本和对应语音片段来生成新样本。为确保合成训练样本的语法连贯性,研究人员构建输入文本的解析树,并在语法等效分支间进行交换。训练过程中还引入特殊标记来防止模型对合成样本过度偏置。
基于标准化流的语音转换
研究团队将广泛应用于TTS的标准化流概念适配到语音转换任务中。标准化流通过学习可逆函数实现输入数据与表示空间的双向映射,通过预训练步骤学习音素分布先验知识,在仅使用频谱图输入的场景下显著优于基准方法。
技术验证
所有方法均通过人工评估验证效果:
- 风格迁移模型将合成语音与真实语音的风格相似度差距平均降低58%
- 分布增强模型在五个不同数据集上的输出质量均优于基准模型
- 标准化流方法在无文本输入的语音转换任务中表现突出
这些技术创新为低资源场景下的语音合成提供了有效解决方案,推动了语音合成技术的发展。