问答式迁移学习统一自然语言处理任务

本文介绍了一种将自然语言理解任务重新表述为问答任务的方法(QANLU),通过统一任务形式显著提升少样本多任务学习效果。实验表明该方法在意图分类和槽位标注任务上相对基线模型性能提升最高达65%,且支持模型在多任务序列微调中获得累积优势。

问答作为迁移学习的"通用语言"

通过将不同自然语言任务重新表述为相同形式,可显著改进少样本多任务学习效果。

少样本学习与任务重构

少样本学习旨在为相关任务集构建通用机器学习模型,仅需少量样本即可适应新任务。这种跨任务知识共享称为迁移学习。

在国际声学、语音与信号处理会议(ICASSP)发表的论文中,研究人员展示了如何将问答作为基础任务,通过将自然语言理解(NLU)任务视为问答任务来实现有效的迁移学习。

以语音助手的意图分类任务为例:当用户说"播放专辑《Innervisions》“时,意图被识别为播放音乐。该任务可被重新表述为回答"意图是播放音乐吗?“这样的问题。

QANLU方法优势

研究表明,经过问答训练的模型通过任务重构,能更高效地将知识迁移到其他NLU任务。这种方法被命名为QANLU。

在涉及意图分类和槽位标注两种NLU任务、两种基线模型及多种少样本训练策略的大量实验中,该模型始终表现最佳,相对改进率在多个案例中至少达到20%,在一个案例中高达65%。

序列微调的累积效益

研究发现,对模型进行多任务序列微调可提升各项任务性能。当使用10个样本进行微调时,问答模型直接在餐厅领域数据集上微调比基线改进21%;若先在航空旅行数据集(ATIS)上微调,再在餐厅数据集上微调,改进率跃升至63%。

这证明该方法的优势随着模型在更多任务上微调而不断累积。

技术实现细节

将NLU问题映射到问答任务在学界已有研究,本工作的创新在于探索该方法在迁移学习中的潜力。

现代NLU系统大多基于在大型文本语料上预训练的Transformer模型,这些模型编码了整个语言的词序列统计信息。研究人员在这些网络中添加额外层,并在目标NLU任务上重新训练完整模型。

实验使用了DistilBERT和ALBERT两种预训练Transformer模型。除评估QANLU在意图分类中的有效性外,还评估了其在槽位标注相关任务中的表现。例如在"播放《Innervisions》“中,“Innervisions"是标为album_name的槽值,对应的槽位标注任务问题将是"提到了什么专辑名称?”

潜在应用价值

QANLU的一个有趣副作用是:针对NLU任务创建的问答训练可能同时提高模型在原生问答任务上的性能。如果成立,这将为使用NLU与问答间的映射进行数据增强开辟新可能性。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计