Hugging Face发布mmBERT：支持1800多种语言的多语言编码器

Hugging Face发布了mmBERT，这是一个新的多语言编码器，在1,833种语言的超过3万亿个token上进行了训练。该模型基于ModernBERT架构构建，是首个显著改进XLM-R（多语言理解任务的长期基线）的模型。

mmBERT采用渐进式训练计划，而非一次性在所有语言上训练。它从60种高资源语言开始，扩展到110种，最后包含全部1,833种语言。该模型将其掩码率从30%降低到5%，并调整采样分布以更好地代表小语种。

这种“渐进式语言添加”方法被证明对于覆盖范围而不过度拟合至关重要。例如，法罗语和提格里尼亚语——仅在最后的100B token衰减阶段引入——由于这一策略仍然显示出显著的性能提升。

社区成员对这种平衡行为感到好奇。企业AI从业者Yasir Altaf问道：

如何确保低资源语言在1,833种语言阶段不被淹没？每种语言是否有“最小可行信号”的阈值？另外，我们如何确信模型没有被前50种语言主导，即使技术上“训练”了1,833种语言？

对此，Hugging Face工程师兼Sentence Transformers维护者Tom Aarsen解释说：

通过评估一些仅在最后100B token中引入的低资源语言（如提格里尼亚语和法罗语）进行了检查。他们观察到当这些语言被包含在最后阶段时，有实质性的改进。

mmBERT基于ModernBERT架构，继承了其快速、内存高效的主干，带有Flash Attention 2和无填充序列处理，允许8,192个token的上下文。

虽然基础模型只有1.1亿个非嵌入参数，但它仍然可以与更大的多语言模型相媲美。一个较小的1.4亿参数变体也可用于较轻的工作负载。

mmBERT遵循ModernBERT设计，具有22层编码器并支持最多8,192个token的序列。基础模型有1.1亿个非嵌入参数（总共3.07亿），而一个较小的1.4亿变体可用于提高效率。

一个独特的元素是使用模型合并。该团队没有依赖单个训练模型，而是使用TIES合并结合了三个变体——英语重点、110种语言和所有语言。这有助于跨领域保持性能。

在评估中，mmBERT consistently outperformed earlier multilingual encoders。在GLUE上，它匹配了英语专用基线，尽管其训练数据中不到四分之一是英语。在XTREME上，它在跨语言任务（如XNLI和TyDiQA）中显示出明显的收益，同时在结构化预测上保持竞争性结果。对于检索，mmBERT在MTEB v2多语言基准上创下新高，甚至在英语赛道上与英语专用模型持平。

mmBERT证明，扩展多语言编码器不必以效率为代价。通过平衡覆盖范围与针对性改进，它为检索、分类和跨语言任务设定了新的基线。