跨语言迁移学习优化多语言语音助手技术

本文探讨了通过跨语言迁移学习和数据混合训练多语言自然语言理解模型的方法,实验表明多语言模型在意图分类和槽位填充任务上普遍优于单语言模型,尤其在低资源语言中表现显著提升。

跨语言迁移学习在多语言语音助手中的应用

在实验中,多语言模型的表现优于单语言模型。

对于像Alexa这样的语音助手,传统上扩展至新语言意味着需要从头开始训练新的自然语言理解模型,这种方法扩展性不佳。另一种方法是训练多语言模型——一个能够同时处理多种语言的单一模型:支持一个大型模型比支持多个小型模型所需工作量更少,且多语言模型允许用户混合使用不同语言提出请求,这更符合21世纪人工智能的期望。

在一篇上月于国际计算语言学会议(COLING)上发表的论文中,研究了使用迁移学习和数据混合来训练多语言模型的方法。结果表明,所得模型的性能与当前生产中使用的单语言模型相似或更优。

多语言模型架构

多语言建模在过去几年中成为一个热门话题,特别关注将一种语言大型语料库训练模型的知识迁移到其他语言小数据量训练的模型中。这一问题被称为低资源跨语言迁移学习。在论文中还实验了高资源到高资源的迁移,以模拟真实世界情况。

单语言模型使用不同语言的数据进行训练,但除此之外,它们通常具有相同的架构。由此可见,通过使用相同的模型架构,应该能够训练一个由多语言数据驱动的通用多语言模型。

语音助手的自然语言理解(NLU)模型首先被训练以识别话语领域,如音乐、天气等。然后训练单独的模型执行特定领域的意图分类和槽填充任务。

例如,如果请求是“播放Lady Gaga的《Bad Romance》”,意图将是“播放音乐”,而为完成此请求,系统需要捕获槽位和槽值{歌曲名称=Bad Romance}和{艺术家名称=Lady Gaga}。

在实验中,领域分类模型是一个最大熵逻辑回归模型。对于意图分类和槽填充,构建了一个多任务深度神经网络模型。

首先将输入令牌映射到共享空间词嵌入中,然后将其馈送到双向长短期记忆(LSTM)编码器中以获取上下文信息。这些内容随后传播到下游任务,其中条件随机场用于槽填充,多层感知器用于意图分类。

知识迁移与结果

使用四种语言的数据训练模型,包括三种相对密切相关的语言:英国英语、西班牙语和意大利语。第四种语言是印地语,这是一种低资源语言,在词汇和语法上与其他三种语言不同。

在迁移学习实验中,将从英语训练的模型中的不同信息块——嵌入、编码器和解码器权重——迁移到将英语与其他三种语言各自结合的多语言模型中。还尝试了数据混合,训练一个英语和西班牙语的模型,另一个英语和意大利语的模型,并将它们迁移到分别包含意大利语和西班牙语的多语言模型中。

迁移后,使用数据集中所有四种语言的数据对每个模型进行微调。

根据四个指标评估模型:领域分类任务的领域准确率;意图分类任务的意图准确率;槽填充的微平均槽F1;以及帧准确率,即正确识别领域、意图和所有槽的话语相对数量。

对于每个多语言模型,将其在每种语言上的性能与同一语言的最先进单语言模型进行比较。基线模型使用最大熵模型而非深度神经网络作为编码器。

所有性能指标都显示出相似的模式:多语言深度神经网络模型通常优于单语言模型。最佳结果来自将编码器权重从源模型迁移到目标模型,帧准确率平均提高约1%。额外迁移解码器权重会略微降低性能,尽管所得模型仍优于基线。

在源模型训练期间进行数据混合确实提高了性能,但仅略微提高。

有趣的是,帧准确率的最大提升——约1.2%——来自将模型迁移到印地语。这可能是因为印地语的基线模型是在低资源数据集上训练的。多语言模型可能从其他语言学习到一般语言信息,而单语言模型无法仅从印地语数据集中提取。

研究领域
对话式人工智能

标签
自然语言理解(NLU)
迁移学习
语音助手

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计