语音合成器从一秒语音样本学习表达风格
用户认为带有迁移表达的语音比标准合成语音自然度提高9%。
技术架构
文本转语音(TTS)系统将文本转换为合成语音。近年来,大多数TTS系统已从拼接方法转向神经网络方法。神经TTS的最大优势是能够更有效地适应新声音或说话模式。
研究提出的系统可以仅凭一个约1秒的示例改变其表达风格(合成语音中的兴奋程度)。该系统是对最先进TTS系统的改进,使用称为变分自编码器(VAE)的神经网络。
VAE包含编码器和解码器两个组件。编码器学习生成表示给定输入特征的概率分布,从该分布中抽取的样本传递给解码器以生成输出。
创新方法
在典型TTS应用中,VAE的输入是语音样本。系统还有第二个编码器,以文本字符串作为输入。运行时,文本字符串的编码表示与VAE编码器的样本连接,组合表示传递给解码器,输出合成语音。
研究在VAE编码器中增加了新组件。为降低计算复杂度,编码器学习到的分布通常是对角高斯分布。为将对角高斯充实为完全协方差高斯,研究使用了称为householder flows的技术。
研究测试了三种householder flow实现方案:
- 原始实现:第一个操作依赖于参考编码器输入,后续操作是初始操作的数学变换
- 所有操作都直接依赖于VAE输入
- 所有操作独立于输入(本研究创新)
实验证明第三种实现最成功。
实验结果
通过KL散度测量,系统在发现语音生成过程的潜在因素方面比基线好22%。用户研究采用MUSHRA方法,受试者认为系统生成的语音比基线自然度提高9%。
这些结果表明,可以以最小的开发开销大大扩展语音代理的表达范围。
未来工作将把这种方法扩展到语音的其他表达特征,以保持甚至改进自然度和表达性的组合。
表:系统输出与中性TTS系统、“普通"VAE系统和实时录音的音频样本比较 图1:表达迁移TTS系统架构,创新在于参考编码器输出和参考嵌入之间的"flow"块 图2:测试的三种householder flow实现 图3:真人语音录音、中性TTS系统、本系统和普通VAE的MUSHRA评分