突破性进展
人工智能领域的重大进展大多来自监督学习,即机器学习模型通过标注数据进行训练。但随着商业AI模型规模持续扩大,依赖数据标注已变得不可持续。某中心正转向通用智能新范式,使模型能够以最少人工输入学习新概念,并实现跨语言和跨任务的知识迁移。
创新架构
作为这一转变的重要组成部分,研究团队推出了基于Transformer的大规模多语言语言模型Alexa Teacher Models(AlexaTM)。该模型仅需少量新语言任务示例,即可在无需额外人工监督的情况下实现知识迁移。
在知识发现与数据挖掘会议(KDD)上发表的研究表明,100亿和20亿参数的AlexaTM模型在跨语言迁移学习方面超越现有技术,显著提升了多语言场景下的准确率。后续发表在arXiv的论文进一步推出了200亿参数的生成模型AlexaTM 20B。
技术优势
与OpenAI的GPT-3等仅使用解码器架构的大型语言模型不同,AlexaTM 20B采用序列到序列(seq2seq)编码器-解码器架构。编码器通过双向编码生成输入文本的表示,解码器利用该表示执行具体任务。
这种架构使模型在机器翻译和文本摘要等任务上表现优于GPT-3。同时,该模型支持阿拉伯语、英语、法语、德语、印地语、意大利语、日语、马拉地语、葡萄牙语、西班牙语、泰米尔语和泰卢固语等12种语言,训练碳足迹仅为GPT-3的五分之一。
训练方法创新
AlexaTM 20B采用去噪和因果语言建模(CLM)任务混合训练方式。在80%的训练时间中执行去噪任务,要求模型找回丢失的文本段并生成完整版本;20%的时间执行CLM任务,要求模型有意义地续写输入文本。这种混合训练使模型既能基于给定输入生成新文本,又能在seq2seq模型擅长的任务中表现出色。
实际应用表现
实验表明,仅需单个文章-摘要对,AlexaTM 20B就能在英语、德语和西班牙语中生成比参数量大27倍的PaLM 540B更高质量的摘要。在Flores-101数据集支持的几乎所有语言对中,该模型在少样本机器翻译方面达到最先进性能,特别是在马拉地语、泰米尔语和泰卢固语等低资源语言的翻译中取得显著提升。
模型发布与注意事项
AlexaTM 20B是迄今为止最大的多语言seq2seq模型,具备少样本学习能力。该模型将公开发布供非商业使用,支持在多GPU环境下进行推理。研究团队同时指出,与其他大型语言模型类似,该模型可能重现训练数据中的不当语言、社会偏见和有害刻板印象,建议用户在使用前进行全面的任务特定公平性分析。
这项研究证明了所提出的预训练方式使seq2seq模型在少样本设置和微调情况下,在不同任务中表现优于更大的仅解码器大型语言模型。