建立答案选择精度的新标准

一种同时利用局部和全局上下文的模型，在两个基准数据集上分别比现有最优技术提升了6%和11%。

答案选择的挑战

实用的问答系统通常使用一种称为答案选择的技术。给定一个问题——比如"塞雷娜·威廉姆斯何时出生？"——系统执行基于关键词的文档搜索，然后从检索到的文档中选择一个句子作为答案。

如今，大多数答案选择系统都是基于问题与候选答案集训练的神经网络：给定一个问题，它们必须学会从候选答案中选择正确答案。在操作过程中，它们独立考虑每个候选句子，并估计其成为正确答案的可能性。

但这种方法存在局限性。想象一篇文章开头写道：“塞雷娜·威廉姆斯是美国网球运动员。她出生于1981年9月26日。“如果系统学会独立考虑候选答案，它将别无选择，只能给"1981年9月26日"分配低概率，因为它无法知道"她"指的是谁。同样，文档可能仅在标题中提到塞雷娜·威廉姆斯的名字。在这种情况下，准确的答案选择需要更全局的上下文感知。

上下文增强方法

为了确定检索文档中的给定句子是否为问题提供了良好答案，一个新系统会查看句子的上下文，包括其前后的句子。

在两篇论文中，研究团队研究了如何在不过度增加计算成本的情况下为答案选择系统添加上下文。

局部上下文

在所有模型中，都基于在AAAI 2020上提出的模型构建，该模型仍然是答案选择的最新技术。该模型将预训练的基于Transformer的语言模型（如BERT）适配到答案选择任务中。其输入是连接的问题-答案对。

为了向基础模型添加局部上下文，研究团队扩展了输入以包括源文本中位于候选答案前后的句子。输入的每个单词都经过三种嵌入或编码为固定长度向量：

标准词嵌入，将语义内容编码为嵌入空间中的位置
位置嵌入，编码单词在其源句子中的位置
句子嵌入，指示单词来自哪个输入句子

这使得模型能够学习候选答案单词与其前后句子单词之间的关系。

全局上下文

研究团队还考虑了另外两种为模型添加上下文的方法。两种方法都在源文本中搜索与问题和候选答案都密切相关的少量句子（两到五个效果最佳）。然后将这些句子作为模型的额外输入。

两种方法以不同方式测量句子之间的关系。一种使用n-gram重叠，即将每个句子分解为单字、双字和三字序列，并测量这些序列在句子之间的重叠。

另一种方法使用上下文词嵌入，根据句子在嵌入空间中的接近度来确定句子之间的语义关系。在实验中，这是效果最好的方法。

模型架构比较

在实验中，研究团队使用了三种不同的架构来探索上下文感知答案选择方法。在所有三种架构中，输入都包括局部上下文信息和全局上下文信息。

第一种架构：简单地将全局上下文句子与问题、候选答案和局部上下文句子连接起来。

第二种架构：使用集成方法。它接受两个输入向量：一个将问题和候选答案与局部上下文句子连接，另一个将它们与全局上下文句子连接。两个输入向量传递到单独的编码器，产生单独的向量表示以供进一步处理。

第三种架构：使用多路注意力来尝试捕获集成架构的一些增益，但成本更低。多路注意力模型使用单个编码器生成所有输入的表示。然后将这些表示馈送到三个独立的注意力块中：

第一个块强制模型共同检查问题、答案和局部上下文
第二个块专注于局部和全局上下文之间的关系
最后一个注意力块捕获整个序列中的关系

性能表现

在测试中，集成方法表现最佳，但多路注意力模型紧随其后，在三个评估指标上仅下降0.1%至1%。

然而，所有三个上下文感知模型都优于最先进的基线，建立了答案选择精度的新标准。

通过结合这种全局上下文方法与早期论文的局部上下文方法，研究团队在两个基准数据集上展示了比最先进答案选择系统精度提高6%和11%的成果。

基于上下文感知的答案选择技术突破

本文介绍了一种结合局部和全局上下文的答案选择模型，在Transformer架构基础上通过多注意力机制提升答案选择精度，在两个基准数据集上分别实现了6%和11%的性能提升。