ASRU:语音识别与语言理解的融合
某中心应用科学高级经理Jimmy Kunzmann在IEEE自动语音识别与理解研讨会(ASRU)担任赞助主席。其研究团队在会上发表了两篇关于"信号到解释"的论文,该技术将自动语音识别(ASR)和自然语言理解(NLU)整合到单一机器学习模型中。
“信号到解释技术直接从音频信号中推导领域、意图和槽值,这正成为研究领域的热点话题,“Kunzmann表示。“研究主要受算法精度驱动,而该技术能提升精度,同时降低延迟和内存占用。”
虽然团队持续优化精度,但该技术的核心动力源于确保在间歇性网络连接的资源受限设备上保持服务可用性。“在家庭或车载环境中,若网络突然中断导致功能失效——例如无法开关灯光或呼叫联系人——会带来极差体验。”
技术演进路径
早期工作集中于通过完美哈希等技术大幅压缩设备端模型内存占用,但当时仍将ASR和NLU视为独立的串行任务。近期则转向基于端到端神经网络的模型,通过紧密耦合ASR与NLU实现更紧凑的设备端模型。
“通过用神经网络技术替代传统方法,我们获得了更小的内存占用、更快的速度以及更高的精度。系统组件耦合越紧密,可靠性提升越显著。“设备端运行端到端模型还能提升响应速度,“Fire TV用户反馈,设备端处理切换频道或翻页请求时速度大幅提升,用户体验明显改善。”
动态内容处理技术
论文《语音识别的上下文感知Transformer Transducer》探讨了如何在运行时将个性化内容(如通讯录姓名、智能设备自定义名称)整合到神经网络模型中。
“传统方案使用基于类别的语言模型,可在推理时动态加载列表以解码用户个性化内容。而神经网络拥有大量预训练参数,需发明在运行时吸收用户数据的方法。“通过调整神经网络层间概率向量,基于动态内容改变输出概率,使模型能识别用户上下文(如个人通讯录或位置信息)。
(a)Transformer transducer模型;(b)上下文偏置层;(c)带音频嵌入的上下文感知Transformer transducer(CATT);(d)带音频和标签嵌入的CATT
多语言处理突破
另一篇论文《追寻巴别塔:多语言端到端口语理解》解决了多语言模型设备端部署难题。云端方案需将用户语句同时发送至多个ASR模型,通过独立语言识别模型确定语言后再选择输出,而设备端无法承受并行计算负担。
“信号到解释是紧密耦合ASR与NLU的单一系统。我们证明可通过三种语言数据(英语、西班牙语、法语)训练模型,在提升精度的同时压缩模型体积,使性能提升一个数量级并实现设备端运行。”
多语言模型架构示意图
“推动研究社区探索新领域是科研核心价值。动态内容处理等性能改进既推动整体研究进展,又能切实解决用户问题。”