语音合成技术创新与数据增强研究

研究背景

自动文本转语音技术是智能助手实现人机交互的核心技术。某中心文本转语音团队开发的模型通过云服务向用户提供语音合成服务。在ICASSP 2022会议上，该团队发表了四篇论文，分别涉及语音转换（在保持韵律特征的同时将一种合成声音转换为另一种）、数据增强或两者结合的技术。

核心技术突破

1. 语音过滤器：少样本说话人自适应

论文《Voice Filter: Few-shot text-to-speech speaker adaptation using voice conversion as a post-processing module》提出将少样本说话人自适应问题重新定义为学习语音转换模型，该模型应用于高质量TTS模型的输出。这种方法与现有的少样本TTS范式相比实现了概念性转变。

技术特点：

使用持续时间可控的TTS模型
创建包含120个不同说话人的真实训练样本和平行语料库
通过语音过滤器进行少样本学习时，只需对新说话人进行微调

实验表明，这种方法生成的语音质量与传统模型使用30倍数据训练的效果相当。

2. 跨说话人风格迁移

《Cross-speaker style transfer for text-to-speech using data augmentation》展示了如何构建能够表达情感语音的TTS模型，即使目标声音的可用训练数据仅包含中性语音。

实现方法：

首先训练语音转换模型，将其他声音的情感语音样本转换为目标声音
使用转换后的语音作为TTS模型的额外训练数据
采用基于CopyCat模型的语音转换架构

人类评估显示，新模型将合成语音与真实语音的风格相似度差距平均减少了58%。

3. 分布增强技术

《Distribution augmentation for low-resource expressive text-to-speech》通过重新组合现有示例的片段来扩展TTS模型的训练文本范围。

关键技术：

构建输入文本的解析树并交换语法等效的分支
使用强制对齐模型确保文本和声学信号的良好对齐
引入特殊输入标记防止模型对合成示例产生过拟合

60名人类评估员在五个不同数据集上的测试表明，新模型的输出得分全面优于基准模型。

4. 标准化流在语音转换中的应用

《Text-free non-parallel many-to-many voice conversion using normalising flows》将标准化流概念应用于语音转换问题。

创新点：

输入包括源频谱图、音素嵌入、说话人身份嵌入、基频和清浊音标志
通过可逆变换将输入映射到表示空间
在标准TTS任务上预训练以提前学习分布

实验表明，仅使用频谱图输入的预训练标准化流模型显著优于基准模型。

技术意义

这些研究成果推动了语音合成技术的发展，特别是在少样本学习、跨说话人风格迁移和数据增强方面提供了创新解决方案，为低资源环境下的高质量语音合成开辟了新途径。