更自然的语音合成韵律

在今年Interspeech会议上，某中心文本转语音团队发表了两篇关于控制语音合成中韵律（包括节奏、重音、旋律、时长和响度）的新论文。

CopyCat：细粒度韵律转换

论文《CopyCat：神经文本转语音中的多对多细粒度韵律转换》专注于将录音语音中的韵律转换到不同声音的合成语音中。该技术特别解决了"源说话人泄漏"问题，即合成模型有时会使用源说话人的音色而非目标说话人音色的问题。

根据采用行业标准MUSHRA方法的听者研究，我们模型生成的语音在自然度上比现有最优系统提高了47%，在说话人身份保持上提升了14%。

源参考目标身份目标身份+源韵律

当韵律转换涉及非常细粒度的特征时（如单个单词的音调变化，而非整体说话风格），更容易出现源说话人泄漏问题。当PT模型在非平行数据上训练时（即没有相同语句由源说话人和目标说话人分别朗读），这个问题会更加严重。

CopyCat的核心是一个新颖的参考编码器，其输入包括源语音的mel频谱图、源语音音素的嵌入表示以及说话人身份向量。参考编码器输出输入语音韵律的说话人无关表示。尽管在非平行数据上训练，这些韵律表示对源说话人泄漏具有鲁棒性。在没有平行数据的情况下，我们训练模型将说话人的韵律转换到他们自己身上。

CopyCat架构

在推理过程中，待合成语音的音素首先通过音素编码器，然后进入参考编码器。参考编码器的输出与编码后的音素及说话人身份向量一起传递给解码器，生成具有目标说话人音色和源说话人韵律的语音。

为评估方法效果，我们在五个目标声音上比较了CopyCat与现有最优模型，这些声音转换了来自12个不同未见说话人的源韵律。CopyCat在韵律转换质量上比基线有统计显著的47%提升。在另一项涉及美国英语母语者的评估中，CopyCat在保持目标说话人身份能力上比基线有统计显著的14%提升。

另一篇论文《使用语言学驱动的声学嵌入选择进行语音合成的动态韵律生成》专注于在TTS系统中实现更动态自然的语调。它描述了一个利用语句的句法和语义属性来确定韵律特征的模型。

同样根据MUSHRA方法测试，我们的模型将合成语音与录音语音自然度之间的差距在复杂语句上减少了约6%，在长文本阅读任务上减少了20%。

例句比较

我们实验了三种为TTS系统输入生成向量表示的系统，以探索句法和语义对语音合成整体质量的影响。

第一个系统仅使用句法信息；第二个系统仅依赖BERT嵌入，基于大型文本语料库中的词共现捕获文本字符串的语义信息；第三个系统结合使用BERT和句法信息。基于这些表示，我们的模型选择声学嵌入来表征合成语句的韵律。

为探索句法信息是否能辅助韵律选择，我们使用句法距离的概念，这是一种基于成分树的度量，用于映射句子中词语间的句法关系。大的句法距离与声学相关事件（如短语停顿或韵律重置）相关。

成分树示例

树的结构指示句法关系：例如，“the”、“brown"和"fox"共同组成名词短语（NP），而"is"和"quick"组成动词短语（VP）。

句法距离是一个等级排序，指示连续词语共同祖先在树中高度的差异；任何保持该排序的值都是有效的。

该句子的有效距离向量为d = [0 2 1 3 1 8 7 6 5 4 3 2 1]。主语名词短语完成（在"fox"之后）触发韵律重置，反映在"fox"和"is"之间的距离3。在第一个从句结尾还应有更强调的重置，由"quick"和"and"之间的距离8表示。

我们在两个任务（句子合成和长文本阅读）上比较了具有语言学知情声学嵌入选择的VAE模型与使用中心点选择的VAE模型。

句子合成数据集有四个类别：复杂语句、包含复合名词的句子，以及两种具有特征韵律的问题类型（例如结尾的上升语调）：以"wh"词开头的问题和呈现选择的"or"问题。

仅使用句法信息的模型在所有类别上都优于基线模型，而在某些语境中添加语义信息能进一步提升性能。在"wh"问题上，句法和语义数据的结合比基线提高了8%，在"or"问题上提高了21%。这表明问题具有密切相关的句法结构，这些信息可用于实现更好的韵律。

在长文本阅读上，仅使用句法模型的