Hugging Face发布了mmBERT,这是一个新的多语言编码器,在1,833种语言的超过3万亿个token上进行了训练。该模型基于ModernBERT架构构建,是首个显著改进XLM-R(多语言理解任务的长期基线)的模型。
mmBERT采用渐进式训练计划,而非一次性在所有语言上训练。它从60种高资源语言开始,扩展到110种,最后包含全部1,833种语言。该模型将其掩码率从30%降低到5%,并调整采样分布以更好地代表小语种。
这种“渐进式语言添加”方法被证明对于覆盖范围而不过度拟合至关重要。例如,法罗语和提格里尼亚语——仅在最后的100B token衰减阶段引入——由于这一策略仍然显示出显著的性能提升。
社区成员对这种平衡行为感到好奇。企业AI从业者Yasir Altaf问道:
如何确保低资源语言在1,833种语言阶段不被淹没?每种语言是否有“最小可行信号”的阈值?另外,我们如何确信模型没有被前50种语言主导,即使技术上“训练”了1,833种语言?
对此,Hugging Face工程师兼Sentence Transformers维护者Tom Aarsen解释说:
通过评估一些仅在最后100B token中引入的低资源语言(如提格里尼亚语和法罗语)进行了检查。他们观察到当这些语言被包含在最后阶段时,有实质性的改进。
mmBERT基于ModernBERT架构,继承了其快速、内存高效的主干,带有Flash Attention 2和无填充序列处理,允许8,192个token的上下文。
虽然基础模型只有1.1亿个非嵌入参数,但它仍然可以与更大的多语言模型相媲美。一个较小的1.4亿参数变体也可用于较轻的工作负载。
mmBERT遵循ModernBERT设计,具有22层编码器并支持最多8,192个token的序列。基础模型有1.1亿个非嵌入参数(总共3.07亿),而一个较小的1.4亿变体可用于提高效率。
一个独特的元素是使用模型合并。该团队没有依赖单个训练模型,而是使用TIES合并结合了三个变体——英语重点、110种语言和所有语言。这有助于跨领域保持性能。
在评估中,mmBERT consistently outperformed earlier multilingual encoders。在GLUE上,它匹配了英语专用基线,尽管其训练数据中不到四分之一是英语。在XTREME上,它在跨语言任务(如XNLI和TyDiQA)中显示出明显的收益,同时在结构化预测上保持竞争性结果。对于检索,mmBERT在MTEB v2多语言基准上创下新高,甚至在英语赛道上与英语专用模型持平。
mmBERT证明,扩展多语言编码器不必以效率为代价。通过平衡覆盖范围与针对性改进,它为检索、分类和跨语言任务设定了新的基线。