Alexa在ICASSP 2022的语音识别研究
多模态训练、信号到解释映射和BERT重评分只是某中心21篇语音相关论文涵盖的部分主题。
本周,IEEE国际声学、语音与信号处理会议(ICASSP)以虚拟形式开始,两周后(5月22-27日)将在新加坡举行线下会议。ICASSP是IEEE信号处理学会的旗舰会议,也是发布自动语音识别(ASR)及其他语音处理和语音相关领域最新进展的主要场所,学术界和工业界都积极参与。
今年,Alexa AI ASR组织发表了21篇论文,数量超过以往任何一年,反映了语音相关科学在Alexa AI中的增长。此处重点介绍其中几篇论文,以展示其广度。
端到端ASR的多模态预训练
深度学习方法已成为语音识别和分类任务的首选方法,且越来越多地使用自监督表示学习在大型未标记数据集上预训练模型,然后在任务标记数据上进行"微调"。
在论文《多模态预训练用于自动语音识别》中,David Chan等人为这种方法赋予了新思路,通过在视听数据上预训练语音表示。作为两种模态的自监督任务,他们采用了掩码语言模型,其中训练句子的单词被随机掩盖,模型学习预测它们。但在他们的案例中,掩码应用于从视频和音频流中提取的特征。
预训练后,学习表示的仅音频部分与更标准的前端表示融合,馈入端到端语音识别系统。研究人员表明,这种方法比仅基于音频的自监督预训练产生更准确的ASR结果,表明声学和视觉信号之间的相关性有助于提取与语音编码相关的高级结构。
多模态嵌入的信号到解释映射
多模态的优势不仅限于无监督学习设置。在《绑定你的嵌入:端到端口语理解的跨模态潜在空间》中,Bhuvan Agrawal及其合著者研究了信号到解释(S2I)识别器,它将顺序声学输入映射到嵌入,从中直接推断话语的意图。
这绕过了显式语音转录的需要,但仍使用话语意图的监督。由于其紧凑性,S2I模型对于设备端部署具有吸引力,这有多重好处。例如,Alexa AI已使用设备端语音处理使Alexa更快且带宽更低。
Agrawal等人表明,当声学嵌入被约束接近预训练语言模型(BERT)产生的相应文本输入的嵌入时,S2I识别器能给出更好的结果。与之前的论文一样,这种跨模态信号仅在学习期间使用,推理时(即运行时)不需要。这是一种巧妙的方式,将语言结构悄悄带回S2I系统,同时注入从更庞大的语言模型训练数据中收集的知识。
匹配从音频导出的嵌入与相应文本字符串(即转录本)的想法也有其他应用。在论文《TinyS2I:具有上下文支持的设备端SLU小足迹话语分类模型》中,Anastasios Alexandridis等人表明,可以为最常用于控制某些应用(如媒体播放)的话语获得极其紧凑、低延迟的语音理解模型。
最频繁的控制命令(“暂停”、“音量增加"等)可以直接从声学嵌入分类。对于涉及上下文菜单中项目的命令(“播放[标题]"),声学嵌入与媒体标题的文本嵌入匹配。与上一篇论文不同,本文中的文本嵌入与声学嵌入联合训练。但相同的三元组损失函数可用于在共享空间中对齐跨模态嵌入。
使用BERT进行ASR重评分
使用掩码语言模型(MLM)范式训练的文本深度编码器(如BERT)已被广泛用作各种自然语言任务的基础。如前所述,它们可以通过自监督预训练合并大量语言数据,然后进行任务特定的监督微调。
然而,到目前为止,MLM对ASR本身的实际影响有限,部分原因是计算开销(延迟)和可实现的准确性提升之间的权衡不尽如人意。随着Liyan Xu等人在《RescoreBERT:使用BERT的判别性语音识别重评分》中描述的工作,这种情况正在改变。
研究人员展示了如何将BERT生成的句子编码纳入重评分ASR模型输出的文本字符串的模型中。由于BERT在(仅文本)公共数据的大型语料库上训练,它比ASR模型更了解不同ASR假设的相对概率。
研究人员使用基于句子伪似然(一种更计算易处理的句子似然估计)和词错误预测的组合损失函数实现了最佳结果。与标准LSTM(长短期记忆)语言模型相比,所得的重评分模型如此有效,同时表现出更低延迟,以至于RescoreBERT方法在不到一年的时间内从实习项目变为Alexa生产环境。
声学事件检测的本体偏置
我们用一篇来自ASR相邻领域的论文结束这次简短的选择。在《使用树结构本体改进声学事件分类的表示学习》中,Arman Zharmagambetov及其合著者研究了声学事件检测(AED)任务中自监督训练的替代方案。(AED是Alexa检测破碎玻璃、烟雾警报器和家中其他值得注意事件的能力背后的技术。)
他们表明,通过强制所得表示不仅识别目标事件标签(如"狗叫”),还识别从本体论(概念之间关系的层次表示)中提取的超类别(如"家养动物"和"动物声音”),可以增强AED分类器训练。通过强制分类在输入失真下保持不变,可以进一步增强该方法。研究人员发现,他们的方法比纯粹的自监督预训练更有效,并且仅用一小部分标记数据就接近完全监督训练。
结论与展望
如我们所见,Alexa依赖一系列使用深度学习架构的基于音频的技术。需要稳健、公平地训练这些模型,且监督有限,以及运行时的计算约束,继续推动Alexa Science的研究。我们重点介绍了其中一些工作的结果,它们即将呈现给更广泛的科学界,我们兴奋地看到整个领域提出创造性解决方案,推动基于语音的AI应用走向更强大的能力。