对话模式实现免唤醒词多人交互技术

本文详细介绍了某中心研发的对话模式技术,通过视觉设备指向性检测和音频语音活动检测的结合,实现无需唤醒词的自然多人交互。该技术采用可分离卷积神经网络和3D头部模板线性组合方法,显著降低误拒率和误唤醒率。

某中心Alexa团队于2021年11月18日推出的对话模式(Conversation Mode)代表了语音AI领域的重大突破。该功能让Echo Show 8和Echo Show 10用户无需重复唤醒词即可与Alexa进行更自然的交互。

技术原理

通过视觉和听觉线索的结合,该功能的AI能够识别用户语音是否指向设备以及是否需要回复。用户可通过"Alexa,开启对话模式"激活功能,无交互时自动退出。

视觉设备指向性检测(CVDD)

传统方法通过检测面部关键点并使用PnP几何技术估算朝向,但精度有限。新方法将每个头部表示为不同属性3D模板头部的线性组合,通过深度神经网络推断模板系数并确定头部朝向。经量化处理后,模型大小和执行时间减少,误拒率较PnP方法降低近80%。

音频设备语音活动检测(DVAD)

采用可分离卷积神经网络(CNN)处理音频信号,通过分解滤波器矩阵减少计算负担。经架构优化和矩阵分解调优,2021年初始版本较纯视觉模型降低83%误拒率,环境噪声导致的误唤醒减少80%,设备响应触发的误唤醒降低42%。

多用户交互挑战

该模式支持多用户同时交互,需解决如"来部喜剧怎么样?“这类模糊指向语句的识别问题,并要求低延迟以准确捕获语句起始点。

未来方向

持续研究"指代打断"等功能,允许用户通过"就这个!“等表达打断选项列表,在提升用户体验的同时推动技术创新。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计