语音合成技术从1秒样本学习表达风格

研究人员开发出一种新型语音合成系统,能够仅凭1秒语音样本学习表达风格。该系统结合变分自编码器和标准化流技术,在人类感知测试中生成语音的自然度比基线系统提升9%,实现了高效的单样本学习。

语音合成器从一秒语音样本学习表达风格

用户认为具有转移表达风格的合成语音比标准合成语音自然度高出9%。

文本转语音(TTS)系统(如某中心的语音助手或某机构通过其云服务提供的语音合成服务)将文本转换为合成语音。近年来,大多数TTS系统已从拼接方法转向神经网络方法,后者从头开始合成语音。神经TTS的巨大优势在于能够更有效地适应新语音或说话模式。

在一篇发表于声学、语音与信号处理国际会议的论文中,我们展示了这种适应的效率。论文描述的系统仅凭约一秒的示例就能改变其表达风格——即合成语音中的兴奋程度。

在实验中,我们通过实证分析和人类感知研究将我们的系统与最先进的中性表达TTS系统进行比较。根据测量两个概率分布之间距离的Kullback-Leibler散度,我们的系统在发现语音生成过程的独立潜在因素方面比基线系统好22%。

论文还报告了一项用户研究的结果,该研究采用隐藏参考和锚点的多刺激方法。受试者认为我们系统生成的语音比基线系统自然度高出9%。这些结果表明,应该能够以最小的开发开销大大扩展语音助手(如某中心语音助手)的表达范围。

系统架构比较

中性TTS VAE VAE + 流 录音
高兴奋度 高兴奋度 高兴奋度 高兴奋度
中兴奋度 中兴奋度 中兴奋度 中兴奋度
低兴奋度 低兴奋度 低兴奋度 低兴奋度

表:我们的系统(VAE + 流)输出与中性TTS系统、“普通"VAE系统和现场录音的音频样本比较

我们的系统是对最先进TTS系统的改进,使用了一种称为变分自编码器(VAE)的神经网络。VAE有两个组件:编码器和解码器。编码器学习生成表示给定输入特征的概率分布。从该分布中抽取的样本传递给解码器,解码器使用它们生成输出。

在我们的工作中,我们向VAE编码器添加了另一个组件。为了降低计算复杂度,编码器学习到的分布通常是对角高斯分布。对角高斯表示分布中每个变量的可能值,但不表示变量对之间的关系(即协方差)。因此,它是对语音样本特征真实分布的近似。

为了将对角高斯扩展为完全协方差高斯,我们使用了一种称为户主流的技术。户主流是一系列操作,用于填补协方差高斯的空白。

户主流实现方式

我们测试了户主流的三种实现:

  • 在原始实现中,序列中的第一个操作依赖于参考(语音样本)编码器的输入;后续操作是初始操作的数学(仿射)变换产物
  • 在第二种实现中,序列中的所有操作都直接依赖于VAE的输入
  • 在第三种实现(我们论文中的新方法)中,所有操作都独立于输入,即网络学习如何一般性地转换语音表示,而不是以不同方式转换每个语音样本

在实验中,第三种实现被证明是最成功的。

过去的研究表明,低Kullback-Leibler散度(KLD)表明VAE编码器提取的数据特征之间具有更好的"解耦”,即特征可能更好地对应于数据的不同属性。我们的假设是:更好的解耦将提高网络的单样本学习能力。

因此,我们在人类感知测试中使用了KLD最低的户主流实现。这些测试将我们的VAE系统(带户主流)与基线VAE系统(无户主流)和标准的中性表达TTS系统进行比较。根据听众的评分,我们的系统生成的语音比任一基线系统都更自然。

在未来的工作中,我们将把这种方法扩展到语音的其他表达特征,以检验是否能够保持甚至改进自然度和表达力的结合。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计