模型架构创新
与仅使用解码器的传统大语言模型不同,该模型采用编码器-解码器架构。编码器通过双向编码生成输入文本的表示,解码器利用该表示执行具体任务。这种架构特别适合机器翻译和文本摘要等任务。
编码器-解码器架构工作流程示意图
训练方法突破
模型训练结合了去噪和因果语言建模两种任务:
- 80%训练时间用于去噪任务:模型需要恢复被遮蔽的文本片段
- 20%训练时间用于因果语言建模:模型需要合理续写输入文本
这种混合训练策略使模型既能生成新文本,又能出色完成序列到序列模型的专长任务。
多语言少样本学习能力
模型支持12种语言,在仅提供少量示例的情况下:
- 可跨语言迁移学习到的知识
- 在Flores-101数据集上实现了最先进的少样本机器翻译性能
- 对马拉地语、泰米尔语等低资源语言的翻译改进尤为显著
性能表现对比
实验数据显示:
- 在单样本文本摘要任务中,生成的摘要质量优于参数量大27倍的模型
- 阿拉伯语到泰米尔语的翻译得分达到21.8,远超监督模型的0.9分
- 训练碳足迹仅为GPT-3的五分之一
应用与注意事项
该模型已开放供非商业使用,研究人员可在多个GPU上运行推理。需要注意的是,与其他大语言模型类似,该模型可能重现训练数据中的有害内容,建议在使用前进行任务特定的公平性偏倚分析。
这项研究证明了序列到序列模型作为仅解码器模型替代方案的强大潜力,在少样本学习和微调设置下均表现优异。