语音合成韵律控制技术新突破

本文介绍了两项提升语音合成自然度的新技术:CopyCat韵律迁移模型解决源说话人泄漏问题,以及基于语言学驱动的声学嵌入选择方法实现更动态的韵律生成。通过MUSHRA评测显示,系统在自然度上提升47%,说话人身份保持度提高14%。

更自然的语音合成韵律技术

在今年Interspeech会议上,语音合成团队展示了两篇关于控制语音韵律(节奏、重音、旋律、时长和响度)的新论文。

CopyCat:细粒度韵律迁移

论文《CopyCat:神经文本到语音的多对多细粒度韵律迁移》专注于将录制语音中的韵律迁移到不同声音的合成语音中。该方法特别解决了"源说话人泄漏"问题,即合成模型有时会使用源说话人而非目标说话人的声音。

采用行业标准MUSHRA(隐藏参考和锚点的多刺激)方法的听者研究表明,该模型生成的语音在自然度上比现有最优系统提高47%,在说话人身份保持度上提高14%。

技术架构

CopyCat的核心是新颖的参考编码器,其输入包括:

  • 源语音的mel频谱图(频谱快照)
  • 源语音音素(最小语音单元)的嵌入或向量表示
  • 说话人身份标识向量

参考编码器输出与说话人无关的输入语音韵律表示。这些韵律表示在非平行数据上训练,但对源说话人泄漏具有鲁棒性。

在推理过程中,待合成语音的音素首先通过音素编码器,然后进入参考编码器。参考编码器的输出与编码后的音素及说话人身份向量一起传递给解码器,生成具有目标说话人声音和源说话人韵律的语音。

动态韵律生成

另一篇论文《使用语言学驱动的声学嵌入选择进行语音合成的动态韵律生成》致力于在TTS系统中实现更动态自然的语调。该模型利用语句的句法和语义属性来确定韵律特征。

同样基于MUSHRA方法的测试显示,该模型将合成语音与录制语音自然度之间的差距在复杂语句上减少约6%,在长文本阅读任务上减少20%。

语言学驱动的方法

研究团队实验了三种不同的系统来生成TTS系统输入的向量表示:

  1. 仅使用句法信息
  2. 仅使用BERT嵌入(基于大型文本语料库中的词共现捕获语义信息)
  3. 结合使用BERT和句法信息

基于这些表示,模型选择声学嵌入来表征合成语句的韵律。

为了探索句法信息是否有助于韵律选择,使用了基于成分树(映射句子词语间句法关系)的句法距离概念。大的句法距离与声学相关事件(如短语停顿或韵律重置)相关。

实验结果

在句子合成任务中:

  • 仅使用句法信息的模型在所有类别上都优于基线模型
  • 在某些情境下,添加语义信息能进一步提升性能
  • 在"wh"问题上,句法和语义数据的结合比基线提高8%
  • 在"or"问题上,改进达到21%

在长文本阅读任务中,仅使用句法模型的效果最佳,将基线与录制语音之间的差距减少了约20%。

这些技术突破显著提升了语音合成系统的自然度和表现力,为更人性化的语音交互体验奠定了基础。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计