为促进面向任务的对话智能体在新场景中的泛化能力研究,某中心语音助手团队在EvalAI平台发起了人工智能对话挑战赛。作为基准,同时发布了一组在七项挑战任务中五项达到最先进性能的模型。
该挑战赛命名为DialoGLUE(对话语言理解评估),旨在推动基于表征的迁移学习、领域适应和样本高效任务学习技术发展。这些技术进步将实现对话系统的泛化能力——即训练完成某一任务的对话智能体能够快速适配新任务。例如,若某智能体已掌握餐厅预订功能,应能以最小训练成本扩展至酒店预订场景。但目前对话功能扩展所需工作量通常与新增领域数量呈线性增长。
研究团队认为,部分原因在于对话研究领域缺乏标准化的数据集和评估方法。为支持DialoGLUE,团队发布了整合七个公开对话数据集的标准版数据集,统一了数据表示方式以支持单一对话模型的联合训练与评估。
数据集标注涵盖四项自然语言理解任务:
- 意图预测:识别用户请求的服务类型
- 槽位填充:识别用户提及的实体及其类型(如将"播放DJ Khaled的Popstar"中的"Popstar"识别为歌曲名槽位值)
- 语义解析:解析语句中意图与槽位值的层级关系
- 对话状态追踪:追踪对话过程中用户意图及对应槽位值的变化
挑战赛设置两种评估模式:
- 全数据模式:使用完整数据集训练可完成七项任务的对话模型
- 小样本模式:仅使用10%数据训练模型
DialoGLUE采用滚动式参赛机制,模型可随时提交,排行榜实时更新。基准系统与模型已开源,其中五项任务性能达到当前最优水平,为参赛者设立了明确的技术标杆。