ASRU:语音识别与语言理解的融合
某中心的应用科学高级经理Jimmy Kunzmann在IEEE自动语音识别与理解研讨会(ASRU)上担任赞助主席。其研究团队在会议中发表了两篇关于“信号到解释”(即语音识别与自然语言理解整合为单一机器学习模型)的论文。
技术背景与动机
“信号到解释技术直接从音频信号中提取领域、意图和槽值,这正成为研究领域的热点”,Kunzmann表示。“该技术通过提升算法精度驱动研究进展,同时能降低延迟和内存占用”。研究最初源于需确保语音助手在资源受限设备(如网络不稳定的家居或车载环境)中的可用性。
技术演进路径
早期工作集中于通过完美哈希等技术压缩设备端模型内存占用,但仍将ASR与NLU视为独立任务。近期则转向端到端神经网络模型,通过紧密耦合ASR与NLU实现更紧凑的设备端部署。“神经技术替代传统方法后,模型体积更小、速度更快且精度更高”,Kunzmann强调,“系统组件耦合越紧密,可靠性越强”。设备端运行端到端模型还能提升响应速度,例如在媒体设备上处理换台或翻页请求时用户体验显著改善。
动态内容处理技术
论文《面向语音识别的上下文感知Transformer Transducer》探索如何在运行时将个性化内容(如通讯录姓名或智能设备自定义名称)融入神经网络模型。传统方法使用基于类的语言模型动态加载用户数据,而神经方法需在预训练参数集中创新运行时数据注入机制。通过调整神经网络层间概率向量,基于动态内容改变输出概率以识别用户上下文(如个人通讯录或位置信息)。
(图示:上下文感知模型架构:(a) Transformer transducer模型;(b) 上下文偏置层;(c) 带音频嵌入的CATT模型;(d) 带音频与标签嵌入的CATT模型)
多语言模型优化
另一篇论文《追寻巴别塔:多语言端到端口语理解》致力于将多语言模型移植到设备端。云端方案需将用户语句同时发送至多个ASR模型,待语言识别模块确认语种后再选择输出,而设备端无法并行计算。研究表明,通过联合训练英语、西班牙语和法语数据,信号到解释模型能提升精度并缩小体积,使性能提升一个数量级且可在设备端运行。
(图示:多语言模型架构)
技术价值与展望
动态内容处理等性能改进不仅推动学术研究,更为解决实际用户问题提供支持,体现了将研究社区引领至新领域的核心目标。