研究背景
三年前,某中心的语音助手开始采用业界领先的自学习模型,该模型能够自动修正表述不当或被误听的用户查询。通过检测用户因不满意响应而重新表述查询的情况,模型学习将失败的语句映射到后续成功的语句。
约束生成框架(CGF)
在EMNLP 2022发表的论文中,研究团队提出了一种新的查询重写方法:
技术架构
- 使用编码器-解码器模型生成重写候选
- 编码器对语音识别模型输出的查询进行嵌入表示
- 解码器将嵌入转换回文本字符串
关键技术
- 采用字典树(trie)约束解码器输出,确保生成有效的语句
- 构建全局字典树和个性化字典树
- 优先使用个性化模型生成的候选重写
性能提升
离线实验显示精度提升14%-21%,在线A/B测试表明客户感知缺陷率降低28.97%
数据选择方法
针对自然语言理解(NLU)模型的改进:
训练数据筛选
- 过滤低语音识别得分的实例
- 限制使用成功重构对话的第二轮语句
重要性评分
- 使用积分梯度(IG)模型可解释性技术
- 根据单词对模型输出的贡献度进行评分
- 优先选择具有高重要性得分的训练样本
实际效果
仅添加0.05%的训练数据量,就在多个领域实现客户感知缺陷率显著降低
未来展望
研究团队计划在这些工作基础上,实现所有语音助手模块的大规模持续学习,无需人工监督。