语音合成韵律控制技术突破

本文介绍两项提升合成语音自然度的创新技术:CopyCat韵律迁移模型解决源说话人泄漏问题,语言学驱动的声学嵌入选择模型实现语义与韵律的更好匹配,两项技术均通过MUSHRA评测显示显著提升效果。

更自然的合成语音韵律

在今年的Interspeech会议上,某中心文本转语音团队发表了两篇关于控制语音合成中韵律(节奏、重音、旋律、时长和响度)的新论文。

韵律迁移技术

论文《CopyCat:神经文本转语音中的多对多细粒度韵律迁移》专注于将录制语音中的韵律迁移至不同音色的合成语音。该研究特别解决了"源说话人泄漏"问题——即合成模型有时会生成源说话人音色而非目标说话人音色的语音。

基于行业标准MUSHRA(隐藏参考和锚点的多刺激测试)方法的听者研究表明,该模型生成的语音在自然度上比现有最优系统提高47%,在说话人身份保持上提升14%。

动态韵律生成技术

另一篇论文《使用语言学驱动的声学嵌入选择实现语音合成的动态韵律生成》致力于提升TTS系统合成语音的动态性和自然度。该模型利用语句的句法和语义特性来确定韵律特征。

同样采用MUSHRA方法测试显示,对于复杂语句,该模型将合成语音与录制语音的自然度差距缩小约6%;在长文本阅读任务中,差距缩小达20%。

CopyCat技术核心

当韵律迁移涉及细粒度特征(单个词语的语调变化)时,更容易出现源说话人泄漏问题。CopyCat的核心是新颖的参考编码器,其输入包括:

  • 源语音的梅尔频谱图
  • 源语音音素的嵌入表示
  • 说话人身份向量

参考编码器输出与说话人无关的韵律表示,这些表示在非并行数据训练下仍能有效抵抗源说话人泄漏。

韵律选择技术

大多数基于VAE的TTS系统简单地选择分布中心点(质心)作为所有语句的韵律风格,导致合成语音单调乏味。

本研究提出利用语言信息选择声学嵌入的新方法,探索了三种系统:

  1. 仅使用句法信息
  2. 仅使用BERT嵌入(捕捉语义信息)
  3. 结合句法和语义信息

研究表明,在"wh"疑问句中,结合句法和语义数据比基线提升8%;在"or"疑问句中提升21%。在长文本阅读任务中,仅使用句法模型的性能最佳,将基线与录制语音的差距缩小约20%。

技术实现细节

句法距离基于成分树(constituency trees)计算,该树映射句子中词语间的句法关系。大的句法距离与语音学相关事件(如短语停顿或韵律重置)相关。

通过句法和语义驱动的声学嵌入选择,TTS系统能够生成更具动态变化和自然度的合成语音,特别是在新闻播报等特定风格语音中表现显著。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计