语音合成技术突破:1秒样本学习表达风格

研究团队开发出新型语音合成系统,仅需1秒语音样本即可学习表达风格。该系统基于变分自编码器和归一化流技术,在人类感知测试中合成语音自然度提升9%,显著优于基准系统。

语音合成器从1秒语音样本学习表达风格

用户评价显示,采用表达风格转换的合成语音比标准合成语音自然度提升9%。

技术突破

文本转语音(TTS)系统可将文本转换为合成语音。近年来,大多数TTS系统已从拼接式方法转向神经网络方法。神经TTS的最大优势是能够更高效地适应新语音或说话模式。

最新研究成果展示了一种仅需约1秒样本即可调整其表达风格(合成语音中的兴奋程度)的系统。通过经验分析和人类感知研究对比表明,该系统在发现语音生成过程的潜在因素方面比基线系统优秀22%。

系统架构

该系统基于变分自编码器(VAE)神经网络架构,包含编码器和解码器两个组件。编码器学习生成表示输入特征的概率分布,从该分布中采样的数据传递到解码器以生成输出。

系统架构示意图。创新点在于参考编码器输出和参考嵌入之间的"流"模块

技术创新

为减少计算复杂度,编码器学习的分布通常是对角高斯分布。为将其扩展为完全协方差高斯分布,研究采用了householder flow技术。

研究测试了三种householder flow实现方案:

  1. 原始实现:首个操作依赖参考编码器输入,后续操作是初始操作的数学变换
  2. 所有操作都直接依赖VAE输入
  3. 所有操作独立于输入(本研究创新方案)

实验证明第三种实现方案最为成功,在保持甚至提高自然度和表现力方面表现最佳。

实验结果

通过MUSHRA方法进行用户研究表明,被试认为该系统生成的语音比基线系统自然度提高9%。

人类语音录音、中性TTS系统、本系统和普通VAE的MUSHRA评分对比

未来展望

未来工作将把该方法扩展到语音的其他表达特征,探索是否能够保持或进一步提高自然度和表现力的结合。

技术标签

  • 对话式人工智能
  • 变分自编码器
  • 归一化流
  • 少样本学习
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计