语音助手高效持续学习技术解析

本文介绍两种提升语音助手持续学习效率的技术:基于约束生成的查询重写框架,以及通过模型可解释性自动选择训练数据的方法。这些技术能显著降低错误率,实现无需人工干预的自我优化。

研究背景

三年前,某中心的语音助手开始采用业界领先的自学习模型,该模型能够自动修正表述不当或被误听的用户查询。通过检测用户因不满意响应而重新表述查询的情况,模型学习将失败的语句映射到后续成功的语句。

约束生成框架(CGF)

在EMNLP 2022发表的论文中,研究团队提出了一种新的查询重写方法:

技术架构

  • 使用编码器-解码器模型生成重写候选
  • 编码器对语音识别模型输出的查询进行嵌入表示
  • 解码器将嵌入转换回文本字符串

关键技术

  • 采用字典树(trie)约束解码器输出,确保生成有效的语句
  • 构建全局字典树和个性化字典树
  • 优先使用个性化模型生成的候选重写

性能提升

离线实验显示精度提升14%-21%,在线A/B测试表明客户感知缺陷率降低28.97%

数据选择方法

针对自然语言理解(NLU)模型的改进:

训练数据筛选

  1. 过滤低语音识别得分的实例
  2. 限制使用成功重构对话的第二轮语句

重要性评分

  • 使用积分梯度(IG)模型可解释性技术
  • 根据单词对模型输出的贡献度进行评分
  • 优先选择具有高重要性得分的训练样本

实际效果

仅添加0.05%的训练数据量,就在多个领域实现客户感知缺陷率显著降低

未来展望

研究团队计划在这些工作基础上,实现所有语音助手模块的大规模持续学习,无需人工监督。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计