语音合成器从1秒语音样本学习表达风格

用户评价显示，采用表达风格转换的合成语音比标准合成语音自然度提升9%。

技术突破

文本转语音（TTS）系统可将文本转换为合成语音。近年来，大多数TTS系统已从拼接式方法转向神经网络方法。神经TTS的最大优势是能够更高效地适应新语音或说话模式。

最新研究成果展示了一种仅需约1秒样本即可调整其表达风格（合成语音中的兴奋程度）的系统。通过经验分析和人类感知研究对比表明，该系统在发现语音生成过程的潜在因素方面比基线系统优秀22%。

该系统基于变分自编码器（VAE）神经网络架构，包含编码器和解码器两个组件。编码器学习生成表示输入特征的概率分布，从该分布中采样的数据传递到解码器以生成输出。

系统架构示意图。创新点在于参考编码器输出和参考嵌入之间的"流"模块

为减少计算复杂度，编码器学习的分布通常是对角高斯分布。为将其扩展为完全协方差高斯分布，研究采用了householder flow技术。

研究测试了三种householder flow实现方案：

实验证明第三种实现方案最为成功，在保持甚至提高自然度和表现力方面表现最佳。

通过MUSHRA方法进行用户研究表明，被试认为该系统生成的语音比基线系统自然度提高9%。

人类语音录音、中性TTS系统、本系统和普通VAE的MUSHRA评分对比

未来工作将把该方法扩展到语音的其他表达特征，探索是否能够保持或进一步提高自然度和表现力的结合。