语音合成器从1秒语音样本学习表达风格
用户评价显示,采用表达风格转换的合成语音比标准合成语音自然度提升9%。
技术突破
文本转语音(TTS)系统可将文本转换为合成语音。近年来,大多数TTS系统已从拼接式方法转向神经网络方法。神经TTS的最大优势是能够更高效地适应新语音或说话模式。
最新研究成果展示了一种仅需约1秒样本即可调整其表达风格(合成语音中的兴奋程度)的系统。通过经验分析和人类感知研究对比表明,该系统在发现语音生成过程的潜在因素方面比基线系统优秀22%。
系统架构
该系统基于变分自编码器(VAE)神经网络架构,包含编码器和解码器两个组件。编码器学习生成表示输入特征的概率分布,从该分布中采样的数据传递到解码器以生成输出。
系统架构示意图。创新点在于参考编码器输出和参考嵌入之间的"流"模块
技术创新
为减少计算复杂度,编码器学习的分布通常是对角高斯分布。为将其扩展为完全协方差高斯分布,研究采用了householder flow技术。
研究测试了三种householder flow实现方案:
- 原始实现:首个操作依赖参考编码器输入,后续操作是初始操作的数学变换
- 所有操作都直接依赖VAE输入
- 所有操作独立于输入(本研究创新方案)
实验证明第三种实现方案最为成功,在保持甚至提高自然度和表现力方面表现最佳。
实验结果
通过MUSHRA方法进行用户研究表明,被试认为该系统生成的语音比基线系统自然度提高9%。
人类语音录音、中性TTS系统、本系统和普通VAE的MUSHRA评分对比
未来展望
未来工作将把该方法扩展到语音的其他表达特征,探索是否能够保持或进一步提高自然度和表现力的结合。
技术标签
- 对话式人工智能
- 变分自编码器
- 归一化流
- 少样本学习