英语Alexa语音学会说西班牙语
2019年,Alexa推出了美国英语和美国西班牙语的多语言模式,允许客户使用任一语言与Alexa交流并获得相应语言的回复。为确保英语和西班牙语语音都具有自然的发音,它们基于不同语音表演者的录制语音。因此,多语言模式感觉像是在与两个不同的人交谈。
现在,某中心文本转语音团队使用深度学习方法,将说美国西班牙语的能力——以母语口音和流利度——转移到仅基于英语录音的语音上。尽管我们最初在双语模式下使用该技术,但实验表明它应该能够推广到多种语言。
神经文本转语音使用神经网络直接从输入文本的音素表示生成语音。过去几年中,某中心TTS团队使用NTTS将声音变化从录制语音转移到合成语音,或改变合成语音的说话风格,使其听起来更像新闻播音员或DJ。同样,神经TTS让我们能够教现有语音说新语言。
使用传统TTS系统,实现这一目标的方法是将目标语言的音素映射到说话者母语中的等效音素——语音的最短单位。但这导致合成语音带有浓重的外国口音。另一种方法是寻找双语语音表演者并录制他们说两种语言,但这并不总是可行,且限制了我们可以组合的语言数量。我们的新多语言模型解决了这两个问题。
共享空间
使用我们的新技术,我们首先在多种语言的多个说话者数据上训练机器学习模型。我们从标准神经TTS平台开始,该平台以音素序列作为输入。我们添加了两个额外输入:语言ID代码和说话人嵌入——编码给定说话者语音独特特征的向量表示。
音素序列传递到编码器,其输出是编码音素声学信息的向量表示。我们希望该编码器将来自不同语言的声学相似音素投影到表示空间的同一区域,无论说话者身份或语言如何。
音素编码、语言ID和说话人嵌入通过注意力机制,该机制根据解码器的当前状态确定哪些输入音素需要特别注意。解码器使用说话人和语言嵌入为特定说话者和语言生成正确的声学内容。在解码器输入处重新确认语言ID使编码器能够提取跨语言的共同表示。
我们使用的说话人嵌入是在大型外部语料库的说话人分类任务中预训练的。相似说话人的嵌入聚集在一起,与他们所说的语言无关。因此,系统可以使用说话人嵌入来推断说话者在不同语言中的发音。
评估
我们从四个维度评估了模型的性能。首先,我们测量了英语输出的自然度,以确保不降低现有体验。然后我们测量了系统在西班牙语中的自然度、说话人相似度和口音质量。这三个指标确保我们为客户提供高质量的合成语音,该语音类似于原始说话者并以母语口音说西班牙语。
根据MUSHRA方法,下图显示了我们在四个维度上的测量箱线图。我们将当前英语生产模型与双语模型进行了比较。图表从左到右呈现了英语自然度、西班牙语自然度、西班牙语说话人相似度和西班牙语口音的结果。
在两项自然度评估中,我们使用原始说话者的英语录音作为参考。我们可以在英语评估中看到,双语系统的表现略差于英语Alexa模型。我们认为这是一个可接受的小回归,考虑到拥有能说两种语言的语音的好处。双语系统在英语和西班牙语中实现了相似的自然度得分。
在说话人相似度评估中,我们要求听众评价西班牙语样本与原始说话者随机英语录音的相似度,并评价原始Alexa多语言模式中英语和西班牙语语音的相似度。我们还将双语系统与将西班牙语音素映射到英语音素的英语Alexa模型版本进行了比较。
毫不奇怪,双语西班牙语语音听起来比原始多语言模式中的母语西班牙语说话者更相似于英语目标说话者。双语语音未达到音素映射产生的语音相同的相似度,但这可能是由于听众对英语口音的偏见。
在口音评估中,双语系统和西班牙语录音的得分没有统计学显著差异。换句话说,双语听起来与西班牙语Alexa录音一样地道。总体而言,我们能够生成具有母语西班牙语口音的高质量合成语音,该语音被认为与说英语的语音是同一人,而无需英语配音演员用西班牙语朗读。
这项技术可能使Alexa未来能够说更多语言,因为我们可以在不进行额外录音的情况下使现有说话者说新语言。