问答模型自动评估技术突破

本文介绍了一种名为AVA的自动问答评估方法,采用创新的peer attention机制,在NAACL会议上提出的机器学习模型可实现仅7%的错误率,显著提升问答系统评估效率。

自动评估问答模型

随着自然语言处理(NLP)在日常生活中的应用日益广泛,准确评估NLP模型的重要性与日俱增。商业部署的NLP模型需要定期测试以确保性能稳定,而模型更新需监控以验证是否优于先前版本。理想情况下,模型评估应自动化以节省时间和人力。但在问答领域,自动评估尤为困难,因为问题和答案可能存在多种表述方式,且答案需根据满足用户信息需求的能力进行评判——这是一个难以量化的概念。

在北美计算语言学协会(NAACL)今年的会议上,我们提出了首个能够检查各类问题长答案正确性的机器学习模型。该方法命名为AVA(自动评估方法)。在一组实验中,使用AVA评估多个不同问答模型提供的答案正确性,并将结果与人工评估对比。相对于人工判断,性能最佳的AVA版本(采用论文中提出的新颖peer attention机制)错误率仅为7%,且具有95%的统计置信度。

训练数据与模型架构

为训练模型,开发了新的数据集,每个训练样本包含一个问题和两个不同的自然语言答案。其中一个答案(参考答案)始终正确,另一个答案标记为正确或错误。数据集包含超过200万个问题-参考答案-候选答案三元组。

模型设计

在NAACL论文中考虑了四种机器学习模型:

  1. 线性模型:采用Jaccard相似度变体计算短答案与候选答案、参考答案与候选答案等多对文本相似度,通过加权和阈值判断正确性
  2. 基于Transformer的模型
    • 第一种处理三种输入对:问题-参考、问题-候选、参考-候选
    • 第二种将每个文本与其他两个文本的拼接进行配对
    • 第三种采用peer attention机制,同时处理两个句子对,每个对的嵌入在传递给分类器前受另一个对嵌入的条件约束

评估结果

在多个预训练答案选择模型上测试表明,采用peer attention机制的评估模型性能最佳,在预测人工标注判断时F1分数接近75%。通过对整个测试集(数千个问题)的答案进行聚合分析,AVA相对于人工评估的整体错误率低于7%(95%置信度)。

图表说明:peer attention机制示意图。网络输入为两对句子<ai, aj>和<bi, bj>,在传递给分类层前,每个句子对的表示受另一个对表示的条件约束。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计