实时对话翻译技术解析

实时翻译功能支持使用两种不同语言的用户进行对话，系统充当翻译器并转换对话双方的内容。用户可请求启动特定语言对的翻译会话，会话开始后，用户可用任意一种语言说话，系统会自动识别语言并完成双向翻译。

初始版本支持英语与西班牙语、法语、德语、意大利语、巴西葡萄牙语或印地语之间的互译，适用于特定区域的设备。

技术架构

实时翻译功能整合了多项现有技术：自动语音识别（ASR）系统、神经机器翻译服务及文本转语音系统。整体架构和机器学习模型专为会话语音翻译进行了优化设计。

在翻译会话中，系统并行运行两个ASR模型及独立语言识别模型。输入语音同时馈送至两个ASR模型，但根据语言识别模型的分类结果，仅将其中一个ASR输出传送至翻译引擎。

采用并行处理是为了控制翻译请求的延迟。若等待语言识别返回结果后再启动语音识别，将延迟翻译音频的播放。语言识别模型结合语音信号的声学信息和两个ASR模型的输出时效果最佳。ASR数据尤其有助于处理非母语使用者的语音，因其语音声学特征在不同语言中往往保持一致。

语言识别系统选定语言后，相关ASR输出经过后处理传送至翻译服务，最终结果由文本转语音系统播放。

实时翻译使用的ASR系统包含声学模型和语言模型。声学模型将音频转换为音素（最小语音单元），语言模型编码词序列概率，协助ASR系统对同一音素序列的不同解释做出决策。

与现有ASR模型类似，实时翻译的每个ASR系统包含两种语言模型：传统语言模型（编码较短词序列概率，通常约四个词）和神经语言模型（处理长距离依赖关系）。实时翻译的语言模型针对更广泛的会话主题进行了训练，覆盖范围优于现有ASR模型。

声学模型训练采用连接时序分类（CTC）及多轮状态级最小贝叶斯风险（sMBR）训练。为增强声学模型鲁棒性，训练集中混合噪声，使模型更专注于输入信号在不同声学条件下变化较小的特征。

为适配会话语音，改进了端点检测器（判断用户是否停止说话）。端点检测器原本已能区分句末停顿（需系统响应）和句中停顿（允许稍长停顿）。实时翻译中，端点检测器允许更长的句末停顿，因为长时间对话中用户常在句子间组织思路。

由于神经机器翻译系统设计用于文本输入，实时翻译系统会调整ASR输出的常见不流畅现象，并添加标点和格式化，确保输入更符合翻译系统熟悉的文本样式。

当前正通过以下方式持续改进实时翻译功能：