两种合成自然韵律语音的新方法

在ICASSP 2021会议上，某中心文本转语音团队发表了两篇关于从文本合成具有上下文适当韵律的语音的新论文。文本转语音是一个一对多问题，其中单个文本可能有多个合适的韵律呈现方式。确定文本的韵律是一个非平凡问题，但可以显著提高合成语音的自然度。

共享框架：两阶段训练

这两种方法共享一个通用理念，但解决问题的方式根本不同。两种方法都采用两阶段训练过程：在第一阶段，模型从音频数据学习韵律表示；在第二阶段，模型学习根据相关文本的语义和句法特征预测这些表示。

Kathaka模型采用新颖的两阶段方法。第一阶段，模型通过变分学习方法学习训练数据中所有语音样本的韵律分布。第二阶段，模型学习根据与语音样本相关联文本的语义和句法特征从该分布中采样。

Kathaka架构有两个编码器：参考编码器以语音信号的mel频谱图为输入；另一个编码器以表示为音素序列的关联文本为输入。基于mel频谱图，参考编码器输出韵律分布的参数（均值和方差），并从该分布中选择样本。

在推理时，由于mel频谱图不可用，我们训练"采样器"直接从文本预测韵律分布的参数。文本编码使用BERT模型提供上下文词嵌入，并应用图神经网络到文本的句法解析树以产生纯句法信息表示。

根据使用行业标准MUSHRA方法的听力研究，Kathaka产生的语音在自然度方面比基线TTS模型提高了13.2%。

CAMP采用类似的两阶段训练方法，但不是学习韵律分布，而是学习单个单词与韵律表示之间的特定映射，以文本的语义和句法特征为条件。

在第一阶段，CAMP使用词级参考编码器学习韵律的词级表示。该编码器以mel频谱图为输入，产生语音样本韵律的词级表示。

在第二阶段，CAMP使用输入文本的语义和句法信息来预测第一阶段学习的词级韵律表示。文本编码使用BERT嵌入和词级句法标签，包括词性、词类、名词结构和标点结构。

与NTTS基线相比，CAMP在自然度方面显示出统计学上显著的26%提升。

这两种方法通过不同的技术路径解决了文本转语音中的韵律建模挑战，显著提升了合成语音的自然度和表现力，为语音合成技术的发展提供了新的思路和方向。