多领域对话满意度自动评估技术突破

本文介绍了一种基于双向LSTM和注意力机制的新型神经网络模型,可自动评估多领域对话的用户满意度,相比先前模型准确率提升27%,并具备更好的泛化能力。

自动评估与Alexa的对话

在自然语言处理顶级会议EMNLP 2020上,研究人员提出了一种基于神经网络的新模型,用于估计用户对对话交互的满意度。该模型在涵盖28个领域(如音乐、天气、电影和餐厅预订)的三组不同用户测试中,比先前的神经网络模型准确率提高了27%。

技术架构创新

新模型采用双向长短期记忆网络(bi-LSTM)结合注意力层的架构:

  • bi-LSTM:同时向前和向后分析交互序列,联合预测逐轮评分和整体对话评分
  • 注意力机制:自动确定哪些对话轮次对整体满意度贡献最大
  • 特征工程:仅保留12个最通用特征,新增基于通用句子编码器(USE)的5个新特征,包括用户与系统语句的嵌入表示及相似度度量

模型优势

  1. 泛化能力增强:不依赖特定对话管理器的专用特征,可适配新的对话管理系统
  2. 多任务学习:联合训练逐轮评分和整体评估,注意力权重从数据中学习并跨多技能泛化
  3. 性能提升:比团队早期基于特定对话动作的模型准确率提高7%

训练方法

采用联合训练策略:

  • 损失函数结合轮级评分和对话整体评分的加权组合
  • 使用Universal Sentence Encoder生成文本嵌入表示
  • 通过注意力层加权处理bi-LSTM输出后再进行最终分类

应用前景

该技术可广泛应用于对话系统评估,未来计划扩展至个性化用户偏好建模,为对话系统的持续优化提供自动化评估方案。

相关研究发表于EMNLP 2020会议论文《Joint turn and dialogue level user satisfaction estimation on multi-domain conversations》。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计