语音助手实现自然多轮对话的新突破
某中心最新推出的对话模式标志着语音AI领域的重大进展。该模式让用户无需重复唤醒词即可与设备进行更自然的交互。
技术实现原理
视觉设备定向检测(CVDD)
通过估计设备视野内每个人的头部方向来测量视觉设备定向性。传统方法采用基于几何的PnP技术,但实际场景中精度较低。创新方案使用线性组合模板三维头部模型,通过深度神经网络推断模板系数,并量化模型权重以降低计算开销。实验表明该方法较PnP方案将视觉定向检测的误拒率降低近80%。
音频设备语音活动检测(DVAD)
采用可分离卷积神经网络处理音频信号,通过分解滤波器矩阵来减轻计算负担。经过架构优化和矩阵分解调优,在保持低延迟的同时,相较于纯视觉模型将误拒率降低83%。该模型特别有效减少环境噪声和设备自身响应触发的误唤醒,分别实现80%和42%的降低。
技术优势
- 支持多用户同时交互
- 通过视听特征融合实现低延迟响应
- 突破传统唤醒词交互模式的限制
该技术持续优化方向包括实现"指代性打断"功能,允许用户通过特定表达中断选项列表。这项创新既提升了用户体验,也在科学研究层面开辟了新天地。
研究领域:对话式AI、计算机视觉
技术标签:语音助手、设备定向语音检测