在基准数据集上,问答系统的错误率减半——改进源于新的迁移学习方法和新发布的公开数据集。
近年来,语言模型设计取得了巨大进展,这些模型是基于语言的AI系统的关键组成部分。语言模型可用于计算任何给定词序列(甚至不连续序列)的概率,这在自然语言处理中非常有用。
新的语言模型都构建在Transformer神经架构之上,该架构特别擅长学习输入数据中的长程依赖关系,例如句子中单个词之间的语义和句法关系。在人工智能促进协会的年会上,将展示一种将这些新模型(例如BERT)应用于答案选择问题的方法,这是问答领域的核心课题。
在行业标准基准数据集的测试中,新模型在平均精度均值(MAP)上比之前最先进的答案选择模型绝对提高了10%。这相当于错误率降低了50%。
该方法使用迁移学习,其中机器学习模型在一个任务(此处为词序列预测)上预训练,然后在另一个任务(此处为答案选择)上进行微调。创新之处在于在源模型预训练和适应新目标领域之间引入了中间步骤。
在中间步骤中,在大型通用问答对语料库上对语言模型进行微调。然后,在特定主题的小型问答集(目标领域)上进一步微调。该系统命名为TANDA,意为迁移和适应。
用于中间步骤的语料库基于公开数据集Natural Questions(NQ),该数据集设计用于训练阅读理解系统。对NQ进行了转换,使其可用于训练答案选择系统,修改后的数据集(称为ASNQ,即答案选择NQ)的公开发布本身是对研究界的重要贡献。
除了性能提升外,该系统还有其他几个优点:
- 可以在目标数据上进行微调,而无需繁重的超参数搜索。超参数是神经网络的特性,例如层数、每层节点数和训练算法的学习率,通常通过试错确定。模型的稳定性意味着可以用很少的训练数据适应目标领域。
- 对噪声具有鲁棒性:在测试中,目标领域数据中的错误对系统准确性影响很小。这很重要,因为获取高质量数据很困难。
- 过程最耗时的部分——中间步骤——只需执行一次。生成的模型可以适应无限数量的目标领域。
技术细节:答案选择假设对于给定问题,系统可以访问一组候选答案;实际上,候选答案通常通过标准关键词搜索组装。因此,答案选择系统在句子对(一次一个问题和一個候选答案)上训练,并尝试学习哪些候选答案是可行的。
过去,研究人员尝试通过直接在小型领域特定数据集上微调来使基于Transformer的语言模型适应答案选择,但假设添加中间微调步骤会带来更好的结果。
在阅读理解中,系统接收一个问题和一个文本块;其工作是选择文本块中最能回答问题的句子。NQ是一组文本块,每个块中有一个句子被标记为最佳答案。为了将NQ转换为答案选择数据集ASNQ,从文本块中提取最佳答案并将其标记为成功答案句子。每个块中的其他句子标记为不成功答案。
通常,基于Transformer的语言模型在特定词被隐藏或“屏蔽”的句子上训练,模型必须学习填空。
BERT模型还训练第二个目标,即确定第二个输入句子是否自然跟随第一个句子。因此,BERT模型的输入是一对(屏蔽的)句子。
这使BERT特别适合答案句子选择任务,其中输入也是句子对。过程是首先在ASNQ上微调基于Transformer的模型,然后在较小的领域特定数据集(例如体育新闻集,可能包括“费城老鹰队何时参加雾战?”等问题)上再次微调。
使用两个公共数据集WikiQA和TREC-QA测试了该方法,并根据平均精度均值(MAP)和平均倒数排名(MRR)评估系统性能。直观上,MAP根据完整排名的正确性衡量答案排序列表的质量,而MRR衡量正确答案位于列表顶部的概率。
在WikiQA和TREC-QA上,系统的MAP分别为92%和94.3%,较之前的记录83.4%和87.5%有显著改善。系统的MRR为93.3%和97.4%,分别从84.8%和94%上升。