一种更简化的歌声合成系统
新系统是首个使用基于注意力的序列到序列模型的歌声合成系统,摒弃了用于振动模式、音素时长等特征的独立模型。
会议:Interspeech 2020
相关出版物:《歌声合成:借助注意力机制的一点帮助》
技术背景
歌声合成——使用计算机模型合成人类歌声——自20世纪50年代起便开始研究。与相关的文本转语音(TTS)领域类似,它最初围绕两种范式展开:统计参数合成(使用统计模型再现声音特征)和单元选择(实时重组录音片段)。近年来,TTS已转向神经文本转语音(NTTS),即基于深度神经网络的模型,提高了生成语音的感知质量。其中基于注意力的序列到序列(AS2S)模型已成为行业标准。
在今年的Interspeech会议上,我们提出了名为UTACO的歌声合成模型,该模型采用AS2S构建。据我们所知,这是2019年秋季首次实现该技术的系统,尽管此后歌声合成领域已出现多个成功的AS2S架构。
系统特点
简化输入与自主生成
新系统以带歌词的乐谱作为输入,将其表示为一系列音素(构成口语的最小声音单元),并根据音高和时长等属性进行标注。UTACO较先前模型更为简化:它不依赖于分别生成振动模式、音符和音素时长等输入特征的子模型,而是直接以带歌词的记谱音乐作为输入。该系统还能自主实现音准演唱,这一点并非所有神经模型都能做到。
自然度提升
最重要的是,UTACO实现了高度的自然性。在论文中,我们将其与文献中最新的全神经模型进行比较:采用MUSHRA(多刺激隐藏参考锚点)方法测试时,该模型自然度得分为31分(满分100),而UTACO得分达到60分,人类演唱训练样本得分为82分。
技术扩展性
由于AS2S模型是当前研究热点,UTACO可自然利用文献中已报告的多种改进和扩展方案。
技术实现原理
模型架构创新
当我们开始研究歌声合成时,注意到其与NTTS存在显著差异。大多数歌声模型需要多种不同输入(如随时间变化的歌声音高模式F0,或影响自然度的细微误差),每个输入都需要独立子模型生成。相比之下,AS2S TTS模型仅需音素序列作为输入。AS2S模型通过训练样本自主学习语速、节奏和语调(统称为韵律特征)等特性。
我们探索了AS2S模型是否也能通过学习完成歌声合成。基于"训练有素的人类仅凭乐谱即可演唱"的理念,我们构建了简单的AS2S语音架构,仅输入乐谱包含的信息,并展示对应演唱样本。据我们所知,这是2019年秋季首次实现该技术的尝试。
技术对比验证
在论文中,我们将UTACO与WGANSing进行对比(提交时文献中最新的全神经歌声合成模型)。在MUSHRA测试中,40名听众对同一歌曲片段的三个版本进行自然度评分(0-100分):
- UTACO生成的音频
- WGANSing生成的音频
- 用于模型训练的人声录音
测试采用双盲方式确保公正性。得分差异具有统计显著性(所有配对t检验p值均低于10⁻¹⁶)。
自主特征生成
WGANSing代表2019年秋季神经歌声合成的最先进水平,其架构不同于AS2S,合成时需要输入从原始录音提取的音高模式和每个音素的时长。而UTACO自主生成所有这些特征。值得注意的是,UTACO能自主产生良好的振动效果,甚至"决定"其应用位置:在样本输入中并无振动标记。此前研究人员需要构建专门子模型来处理振动。
局限性与展望
UTACO虽推动歌声合成发展,但仍存在不足。例如乐谱中的休止符可能导致中断(AS2S架构的已知问题),其节奏精度尚未达到音乐家可立即识别的完美水平。然而,AS2S架构在文本转语音领域正被深入研究,许多创新成果可能直接适用于该模型。
技术细节
输入表示方法
为将乐谱转化为UTACO输入,我们采用称为"音符嵌入"的表示方式:获取MusicXML格式乐谱,对歌词进行语言学分析以确定每个音符对应的音素。在典型NTTS系统中,音素序列是常规输入,但我们为每个音素添加包含它的音符信息:八度(音高范围)、音级(12音阶中的位置)和持续时间(秒)。同时添加"进度"流(音符起始为1,结束为0),使UTACO感知音符起止。
声学生成流程
模型产生频谱图后,通过基于扩张因果卷积的神经声码器转换为波形。我们对UTACO的实验结果感到满意,但这仅是歌声合成领域重大变革的开端,其能力提升将超越几年前难以想象的境界。