20B参数模型在少样本学习领域实现突破

模型架构创新

与仅使用解码器的传统大语言模型不同，该模型采用编码器-解码器架构。编码器通过双向编码生成输入文本的表示，解码器利用该表示执行具体任务。这种架构特别适合机器翻译和文本摘要等任务。

编码器-解码器架构工作流程示意图

模型训练结合了去噪和因果语言建模两种任务：

这种混合训练策略使模型既能生成新文本，又能出色完成序列到序列模型的专长任务。

模型支持12种语言，在仅提供少量示例的情况下：

实验数据显示：

该模型已开放供非商业使用，研究人员可在多个GPU上运行推理。需要注意的是，与其他大语言模型类似，该模型可能重现训练数据中的有害内容，建议在使用前进行任务特定的公平性偏倚分析。

这项研究证明了序列到序列模型作为仅解码器模型替代方案的强大潜力，在少样本学习和微调设置下均表现优异。