技术实现原理
当用户启用连续对话模式时,设备需在不依赖唤醒词的情况下区分定向指令与环境噪音(如电视声或儿童喊叫)。传统方案依赖声学模型,而本研究通过整合语音识别系统的语义和句法特征实现突破:
-
双轮对话分析
- 输入数据包含当前语句及前序对话(通过
/ / 标记分隔) - 每个词语被转换为固定维度的语义向量,与语音识别(ASR)置信度特征结合
- 输入数据包含当前语句及前序对话(通过
-
LSTM网络架构
- 采用长短期记忆网络处理词语序列,保留上下文关联性
- 引入注意力机制动态加权关键词语(如实体名词比介词更具判别性)
-
迁移学习优化
- 先在单轮交互数据上预训练模型
- 再通过多轮对话数据进行微调,使模型同时学习定向与非定向语音特征
性能对比
实验显示该方案显著优于基线模型:
- 纯声学模型:等错误率10.6%
- 语义DNN模型(忽略词序):等错误率19.2%
- 本文LSTM方案:等错误率降至9.1%(相对提升14%)
扩展应用
初步半监督学习实验表明:通过模型自动标注未标注数据并迭代训练,可进一步提升性能。该技术路线将持续优化多轮对话场景下的语音交互体验。