技术背景
随着智能语音助手的普及,设备需要准确区分用户是否在对其说话。启用后续对话模式后,用户无需重复唤醒词即可进行连续对话,这对设备指向性语音检测技术提出了更高要求。
核心方法
多特征融合模型
研究团队提出结合声学特征与语义特征的混合模型:
- 声学特征:利用语音识别系统对转录结果的置信度评分
- 语义特征:通过词嵌入技术将单词转换为包含语义信息的定长向量
- 上下文整合:同时分析当前语句和前序对话内容,使用特殊分隔符标记对话轮次
LSTM神经网络架构
- 采用长短期记忆网络处理单词序列,保留语序信息
- 引入注意力机制,重点识别对分类有关键作用的词汇(如实体名称)
- 通过迁移学习策略:先在单轮交互数据上预训练,再在多轮交互数据上微调
实验成果
性能对比
- 纯声学基线模型:等错误率10.6%
- DNN语义模型:等错误率19.2%(忽略词序导致性能下降)
- LSTM混合模型:等错误率降至9.1%,相对提升14%
技术优势
- 有效识别碎片化语法结构(如"break at a bigger"等非设备指向性语音)
- 通过注意力机制提升对关键词汇的敏感度
- 半监督学习实验显示未来优化潜力
应用价值
该技术显著提升了智能语音助手在嘈杂环境中的指令识别准确率,为自然的人机对话交互奠定了重要技术基础。研究团队表示将继续探索半监督学习等方向进一步优化系统性能。