某中心Alexa团队于2021年11月18日推出的对话模式(Conversation Mode)代表了语音AI领域的重大突破。该功能让Echo Show 8和Echo Show 10用户无需重复唤醒词即可与Alexa进行更自然的交互。
技术原理
通过视觉和听觉线索的结合,该功能的AI能够识别用户语音是否指向设备以及是否需要回复。用户可通过"Alexa,开启对话模式"激活功能,无交互时自动退出。
视觉设备指向性检测(CVDD)
传统方法通过检测面部关键点并使用PnP几何技术估算朝向,但精度有限。新方法将每个头部表示为不同属性3D模板头部的线性组合,通过深度神经网络推断模板系数并确定头部朝向。经量化处理后,模型大小和执行时间减少,误拒率较PnP方法降低近80%。
音频设备语音活动检测(DVAD)
采用可分离卷积神经网络(CNN)处理音频信号,通过分解滤波器矩阵减少计算负担。经架构优化和矩阵分解调优,2021年初始版本较纯视觉模型降低83%误拒率,环境噪声导致的误唤醒减少80%,设备响应触发的误唤醒降低42%。
多用户交互挑战
该模式支持多用户同时交互,需解决如"来部喜剧怎么样?“这类模糊指向语句的识别问题,并要求低延迟以准确捕获语句起始点。
未来方向
持续研究"指代打断"等功能,允许用户通过"就这个!“等表达打断选项列表,在提升用户体验的同时推动技术创新。