更自然的合成语音韵律

在今年的Interspeech会议上，某中心文本转语音团队发表了两篇关于控制语音合成中韵律（节奏、重音、旋律、时长和响度）的新论文。

韵律迁移技术

论文《CopyCat：神经文本转语音中的多对多细粒度韵律迁移》专注于将录制语音中的韵律迁移至不同音色的合成语音。该研究特别解决了"源说话人泄漏"问题——即合成模型有时会生成源说话人音色而非目标说话人音色的语音。

基于行业标准MUSHRA（隐藏参考和锚点的多刺激测试）方法的听者研究表明，该模型生成的语音在自然度上比现有最优系统提高47%，在说话人身份保持上提升14%。

另一篇论文《使用语言学驱动的声学嵌入选择实现语音合成的动态韵律生成》致力于提升TTS系统合成语音的动态性和自然度。该模型利用语句的句法和语义特性来确定韵律特征。

同样采用MUSHRA方法测试显示，对于复杂语句，该模型将合成语音与录制语音的自然度差距缩小约6%；在长文本阅读任务中，差距缩小达20%。

当韵律迁移涉及细粒度特征（单个词语的语调变化）时，更容易出现源说话人泄漏问题。CopyCat的核心是新颖的参考编码器，其输入包括：

参考编码器输出与说话人无关的韵律表示，这些表示在非并行数据训练下仍能有效抵抗源说话人泄漏。

大多数基于VAE的TTS系统简单地选择分布中心点（质心）作为所有语句的韵律风格，导致合成语音单调乏味。

本研究提出利用语言信息选择声学嵌入的新方法，探索了三种系统：

研究表明，在"wh"疑问句中，结合句法和语义数据比基线提升8%；在"or"疑问句中提升21%。在长文本阅读任务中，仅使用句法模型的性能最佳，将基线与录制语音的差距缩小约20%。

句法距离基于成分树（constituency trees）计算，该树映射句子中词语间的句法关系。大的句法距离与语音学相关事件（如短语停顿或韵律重置）相关。

通过句法和语义驱动的声学嵌入选择，TTS系统能够生成更具动态变化和自然度的合成语音，特别是在新闻播报等特定风格语音中表现显著。