某中心发布面向常识对话的新数据集
数据集包含超过11,000个新收集的对话,旨在助力开放域对话研究。
尽管能够进行开放域对话的AI模型取得了很大进展,但对话模型在需要常识推理的对话中仍然存在困难。例如,当有人说"我明天要在上千人面前表演"时,听者可能会推断说话者感到紧张,并回应"放松点,你会做得很棒!"
为帮助研究社区开发常识对话模型,我们公开发布了一个大型、多轮、开放域的对话数据集,重点关注常识知识。该数据集包含通过某众包平台招募的工作人员协助收集的11,000多个对话。
数据收集方法
为创建对话示例,我们向工作人员提供了从SocialIQA中筛选的提示句。SocialIQA是一个基于ATOMIC知识图谱的大规模社交情境常识推理基准。这些提示句包括诸如"Addison想去墨西哥旅行,并给他所有朋友发消息安排行程"或"Tracy履行了她的职能"等句子。
每个提示句展示给五个人,要求他们基于这些提示创建多轮对话。平均每个对话有5.7个轮次。
数据筛选过程
从对话中,我们使用公共常识知识图谱ConceptNet提取常识推理示例。ConceptNet编码具有<实体1,关系,实体2>结构的语义三元组,如<医生,位于,医院>或<专家,类型为,医生>。
从候选对话中,我们保留了那些在连续对话轮次中提到的概念通过ConceptNet三元组相关的对话,如下图所示。这将对话数量从25,000个减少到约11,000个。
仅包含连续对话轮次中词语通过常识三元组相关的对话
有效性研究
为研究面向常识的数据集对对话模型的影响,我们使用不同的数据集训练了最先进的预训练语言模型GPT2。一个是现有数据集的组合,另一个包括我们的新数据集和通过ConceptNet识别为面向常识的现有数据集中的对话。
为评估模型性能,我们使用了两个自动指标:ROUGE(测量生成响应与给定对话历史的参考响应之间的重叠)和困惑度(测量模型生成参考响应的可能性)。
我们还进行了人工研究,以评估不同模型在测试对话子集上的输出。正如我们在SIGDIAL 2021会议上发表的论文中报告的那样,使用我们的数据集和常识过滤数据训练的模型在所有三个指标上都优于基线。
在论文中,我们提出了一个专注于响应质量常识方面的自动指标。该指标使用回归模型,考虑诸如长度、来自神经模型(如DialoGPT)的似然分数,以及可以在对话历史和当前响应轮次之间找到的来自ConceptNet的一跳和两跳三元组数量等特征。
我们在实验中使用的对话模型生成响应的人工评估分数上训练了该模型。在测试中,我们的指标与人工注释分数的相关性高于经过训练预测人工评估的神经网络或不使用ConceptNet特征的回归模型。
展望未来
我们很高兴发布我们的数据集,以帮助对话响应生成的研究。我们仅对数据进行了初步研究,希望社区能将数据用于常识对话模型的研究。有许多有趣的研究问题需要探索,例如:我们是否需要显式执行常识推理以进行响应生成?或者端到端模型可以隐式做到这一点?
我们在自动指标方面的工作也只是一个开始。无论是从心理语言学还是模型开发的角度,我们还没有很好地理解如何确定响应是否适当或符合常识。我们期待看到社区在这些及相关方向上取得更多进展。