问答式迁移学习在自然语言处理中的应用

本文介绍了一种将自然语言理解任务转化为问答任务的新方法QANLU,通过统一任务形式显著提升少样本多任务学习效果。实验证明该方法在意图分类和槽位标注任务上性能提升显著,最高可达65%,且多任务顺序微调能产生复合增益效果。

问答作为迁移学习的"通用语言"

将不同的自然语言任务重新表述为相同形式,能显著改善少样本多任务学习的效果。

少样本学习与迁移学习

少样本学习是一种尝试为一系列相关任务学习通用机器学习模型,然后仅用少量训练示例将其定制到新任务的技术。这种跨任务的知识共享称为迁移学习。

在一篇发表于国际声学、语音与信号处理会议(ICASSP)的论文中,我们展示了如何将问答作为基础任务,通过将自然语言理解(NLU)任务视为问答任务来实现有效的迁移学习。

任务重构示例

以语音助手中的意图分类任务为例。如果用户说"播放专辑《Innervisions》",意图就是播放音乐。意图分类任务可以重新表述为回答问题,例如"意图是播放音乐吗?"

在论文中,我们证明如果模型已经过问答训练,这种任务重构能让其比其他方式更有效地将知识转移到其他NLU任务。我们将此方法称为QANLU。

实验成果

在涉及两种不同NLU任务(意图分类和槽位标注)、两种不同基线模型和几种不同少样本训练示例采样策略的大量实验中,我们的模型始终提供最佳性能,在几种情况下相对改进至少20%,在一种情况下达到65%。

我们还发现,在多个任务上顺序微调模型可以改善其在每个任务上的性能。例如,使用十个示例进行微调时,当问答模型直接在餐厅领域NLU数据集上微调时,我们的方法比基线提高了21%。但当首先在航空旅行NLU数据集(ATIS)上微调时,改进跃升至63%。

这证明了我们的方法在模型经过越来越多任务微调时可能产生复合优势。

技术背景

将NLU问题映射到问答已在文献中研究过;我们研究小组的成员过去曾就此主题发表过文章。这项工作的新颖之处在于研究这种方法在迁移学习中的能力。

如今,大多数NLU系统构建于在大型文本语料库上预训练的基于Transformer的模型之上,因此它们编码了整个语言中词序列的统计信息。这些网络会添加额外层,完整的模型在目标NLU任务上重新训练。

在我们的实验中,我们使用了两种不同类型的预训练Transformer模型:DistilBERT和ALBERT。

除了评估QANLU在意图分类中的有效性外,我们还在相关的槽位标注任务上对其进行了评估。在示例"播放《Innervisions》“中,《Innervisions》是标记为专辑名称的槽位值。那里,对应槽位标注任务的问题将是"提到了什么专辑名称?”

潜在优势

QANLU的一个有趣副作用是,为NLU任务创建的问题和答案进行训练也可能提高模型在原生问答任务上的性能。如果是这种情况,它开启了使用NLU和问答之间的映射进行数据增强的进一步可能性。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计