自动评估与Alexa的对话
在自然语言处理顶级会议EMNLP 2020上,研究人员提出了一种基于神经网络的新模型,用于估计用户对对话交互的满意度。该模型在涵盖28个领域(如音乐、天气、电影和餐厅预订)的三组不同用户测试中,比先前的神经网络模型准确率提高了27%。
技术架构创新
新模型采用双向长短期记忆网络(bi-LSTM)结合注意力层的架构:
- bi-LSTM:同时向前和向后分析交互序列,联合预测逐轮评分和整体对话评分
- 注意力机制:自动确定哪些对话轮次对整体满意度贡献最大
- 特征工程:仅保留12个最通用特征,新增基于通用句子编码器(USE)的5个新特征,包括用户与系统语句的嵌入表示及相似度度量
模型优势
- 泛化能力增强:不依赖特定对话管理器的专用特征,可适配新的对话管理系统
- 多任务学习:联合训练逐轮评分和整体评估,注意力权重从数据中学习并跨多技能泛化
- 性能提升:比团队早期基于特定对话动作的模型准确率提高7%
训练方法
采用联合训练策略:
- 损失函数结合轮级评分和对话整体评分的加权组合
- 使用Universal Sentence Encoder生成文本嵌入表示
- 通过注意力层加权处理bi-LSTM输出后再进行最终分类
应用前景
该技术可广泛应用于对话系统评估,未来计划扩展至个性化用户偏好建模,为对话系统的持续优化提供自动化评估方案。
相关研究发表于EMNLP 2020会议论文《Joint turn and dialogue level user satisfaction estimation on multi-domain conversations》。