多模态对话AI实现免唤醒词自然交互
新型对话模式代表语音AI领域的重大突破,允许用户无需重复唤醒词即可与设备自然交互。通过结合视觉和听觉线索,该功能的AI能够识别用户语音是否指向设备以及是否需要回复。用户可通过语音指令"开启对话模式"激活功能,无交互时自动退出。
视觉设备指向检测(CVDD)
在人类交流中,说话者的身体朝向是判断话语对象的线索之一。该系统通过估计设备视野内每个人的头部方向来测量视觉设备指向性。与传统基于几何的PnP方法相比,采用模板3D头部线性组合的深度神经网络模型,将视觉设备指向检测的误拒率降低近80%。
音频设备语音活动检测(DVAD)
除视觉指向外,该系统利用音频线索判断语音是否指向设备。采用可分离卷积神经网络处理音频信号,通过矩阵分解减少计算负担。经实验验证,DVAD模型相较于纯视觉模型将误拒率降低83%,环境噪声引发的误唤醒减少80%,设备响应引发的误唤醒减少42%。
技术实现创新
- 视觉检测:通过深度神经网络推断模板系数,确定头部朝向
- 音频处理:使用对数频率滤波器组能量(LFBEs)作为频谱输入
- 模型优化:量化模型权重以减少尺寸和执行时间
- 多模态融合:结合视听特征实现精准的设备指向判断
该系统持续改进"指代打断"等功能,允许用户通过"就这个!“等表达中断选项列表,在提升用户体验的同时推动科学研究突破。