更自然的合成语音韵律
在今年的Interspeech会议上,某中心文本转语音团队发表了两篇关于控制语音合成中韵律(节奏、重音、旋律、时长和响度)的新论文。
韵律迁移技术
论文《CopyCat:神经文本转语音中的多对多细粒度韵律迁移》专注于将录制语音中的韵律迁移至不同音色的合成语音。该研究特别解决了"源说话人泄漏"问题——即合成模型有时会生成源说话人音色而非目标说话人音色的语音。
基于行业标准MUSHRA(隐藏参考和锚点的多刺激测试)方法的听者研究表明,该模型生成的语音在自然度上比现有最优系统提高47%,在说话人身份保持上提升14%。
动态韵律生成技术
另一篇论文《使用语言学驱动的声学嵌入选择实现语音合成的动态韵律生成》致力于提升TTS系统合成语音的动态性和自然度。该模型利用语句的句法和语义特性来确定韵律特征。
同样采用MUSHRA方法测试显示,对于复杂语句,该模型将合成语音与录制语音的自然度差距缩小约6%;在长文本阅读任务中,差距缩小达20%。
CopyCat技术核心
当韵律迁移涉及细粒度特征(单个词语的语调变化)时,更容易出现源说话人泄漏问题。CopyCat的核心是新颖的参考编码器,其输入包括:
- 源语音的梅尔频谱图
- 源语音音素的嵌入表示
- 说话人身份向量
参考编码器输出与说话人无关的韵律表示,这些表示在非并行数据训练下仍能有效抵抗源说话人泄漏。
韵律选择技术
大多数基于VAE的TTS系统简单地选择分布中心点(质心)作为所有语句的韵律风格,导致合成语音单调乏味。
本研究提出利用语言信息选择声学嵌入的新方法,探索了三种系统:
- 仅使用句法信息
- 仅使用BERT嵌入(捕捉语义信息)
- 结合句法和语义信息
研究表明,在"wh"疑问句中,结合句法和语义数据比基线提升8%;在"or"疑问句中提升21%。在长文本阅读任务中,仅使用句法模型的性能最佳,将基线与录制语音的差距缩小约20%。
技术实现细节
句法距离基于成分树(constituency trees)计算,该树映射句子中词语间的句法关系。大的句法距离与语音学相关事件(如短语停顿或韵律重置)相关。
通过句法和语义驱动的声学嵌入选择,TTS系统能够生成更具动态变化和自然度的合成语音,特别是在新闻播报等特定风格语音中表现显著。