对话实时翻译技术解析
今天,某中心推出了新的实时翻译功能,允许使用两种不同语言的个人进行对话,系统充当翻译器,实现双向对话翻译。
使用此新功能,客户可以要求系统启动一对语言的翻译会话。会话开始后,客户可以用任一语言说出短语或句子。系统会自动识别所说的语言并翻译对话的每一方。
在发布时,该功能支持六对语言——英语与西班牙语、法语、德语、意大利语、巴西葡萄牙语或印地语——在区域设置为美国英语的设备上使用。
实时翻译功能利用了多个现有系统,包括自动语音识别系统、机器翻译服务和文本转语音系统,整体架构和机器学习模型专为对话语音翻译设计和优化。
语言识别
在翻译会话期间,系统并行运行两个自动语音识别模型,以及一个单独的语言识别模型。输入语音同时传递给两个自动语音识别模型。然而,根据语言识别模型的分类结果,只有一个自动语音识别模型的输出被发送到翻译引擎。
这种并行实现对于保持翻译请求的延迟在可接受范围内是必要的,因为等待语言识别模型返回结果后再开始语音识别会延迟翻译音频的播放。
此外,我们发现语言识别模型在基于语音信号的声学信息和两个自动语音识别模型的输出做出决策时效果最佳。自动语音识别数据通常有助于处理非母语人士的情况,他们的语音通常具有一致的声学特性,无论说的是哪种语言。
一旦语言识别系统选择了语言,相关的自动语音识别输出经过后处理并发送到机器翻译服务。生成的翻译结果传递给文本转语音系统进行播放。
语音识别
与大多数自动语音识别系统一样,用于实时翻译的系统包括声学模型和语言模型。声学模型将音频转换为音素,即最小的语音单位;语言模型编码特定词串的概率,这有助于自动语音识别系统在相同音素序列的替代解释之间做出决定。
用于实时翻译的每个自动语音识别系统,与现有自动语音识别模型一样,包括两种类型的语言模型:传统语言模型,编码相对较短词串(通常约四个词)的概率;以及神经语言模型,可以考虑更长范围的依赖关系。实时翻译语言模型经过训练,处理比现有自动语音识别模型更对话式的语音,覆盖更广泛的主题。
为了训练声学模型,使用了连接主义时间分类,随后进行了多轮状态级最小贝叶斯风险训练。为了使声学模型更加稳健,还在训练集中混合了噪声,使模型能够专注于在不同声学条件下变化较小的输入信号特征。
细节优化
适应对话语音还需要修改端点检测器,该检测器确定客户何时结束说话。端点检测器已经能够区分句子末尾的停顿(表示客户已停止说话,系统需要跟进)和句子中间的停顿(可能允许持续稍长时间)。对于实时翻译,修改了端点检测器以容忍句子末尾更长的停顿,因为参与长时间对话的说话者通常会在句子之间花时间组织思路。
最后,由于机器翻译服务的神经机器翻译系统设计用于处理文本输入,实时翻译系统调整了常见的非流利现象,并对自动语音识别输出进行标点和格式化。这确保输入到机器翻译服务的内容更类似于它习惯看到的书面文本。
在持续的工作中,正在探索几种进一步改进实时翻译功能的方法。其中之一是半监督学习,其中现有模型注释未标记数据,并使用最高置信度的输出作为翻译特定自动语音识别和语言识别模型的额外训练示例。
为了提高翻译的流畅性及其对口语输入的鲁棒性,还在调整神经机器翻译引擎以适应对话语音数据,并生成包含相关上下文(如语调或正式与非正式翻译)的翻译。最后,持续努力改进整体翻译质量,特别是口语和习语表达的质量。