Hugging Face发布mmBERT:支持1800多种语言的多语言编码器

Hugging Face最新推出mmBERT多语言编码模型,基于ModernBERT架构,使用渐进式训练策略覆盖1833种语言,在跨语言理解和检索任务中表现优异,同时保持高效计算特性。

Hugging Face发布了mmBERT,这是一个新的多语言编码器,在1,833种语言的超过3万亿个token上进行了训练。该模型基于ModernBERT架构构建,是首个显著改进XLM-R(多语言理解任务的长期基线)的模型。

mmBERT采用渐进式训练计划,而非一次性在所有语言上训练。它从60种高资源语言开始,扩展到110种,最后包含全部1,833种语言。该模型将其掩码率从30%降低到5%,并调整采样分布以更好地代表小语种。

这种“渐进式语言添加”方法被证明对于覆盖范围而不过度拟合至关重要。例如,法罗语和提格里尼亚语——仅在最后的100B token衰减阶段引入——由于这一策略仍然显示出显著的性能提升。

社区成员对这种平衡行为感到好奇。企业AI从业者Yasir Altaf问道:

如何确保低资源语言在1,833种语言阶段不被淹没?每种语言是否有“最小可行信号”的阈值?另外,我们如何确信模型没有被前50种语言主导,即使技术上“训练”了1,833种语言?

对此,Hugging Face工程师兼Sentence Transformers维护者Tom Aarsen解释说:

通过评估一些仅在最后100B token中引入的低资源语言(如提格里尼亚语和法罗语)进行了检查。他们观察到当这些语言被包含在最后阶段时,有实质性的改进。

mmBERT基于ModernBERT架构,继承了其快速、内存高效的主干,带有Flash Attention 2和无填充序列处理,允许8,192个token的上下文。

虽然基础模型只有1.1亿个非嵌入参数,但它仍然可以与更大的多语言模型相媲美。一个较小的1.4亿参数变体也可用于较轻的工作负载。

mmBERT遵循ModernBERT设计,具有22层编码器并支持最多8,192个token的序列。基础模型有1.1亿个非嵌入参数(总共3.07亿),而一个较小的1.4亿变体可用于提高效率。

一个独特的元素是使用模型合并。该团队没有依赖单个训练模型,而是使用TIES合并结合了三个变体——英语重点、110种语言和所有语言。这有助于跨领域保持性能。

在评估中,mmBERT consistently outperformed earlier multilingual encoders。在GLUE上,它匹配了英语专用基线,尽管其训练数据中不到四分之一是英语。在XTREME上,它在跨语言任务(如XNLI和TyDiQA)中显示出明显的收益,同时在结构化预测上保持竞争性结果。对于检索,mmBERT在MTEB v2多语言基准上创下新高,甚至在英语赛道上与英语专用模型持平。

mmBERT证明,扩展多语言编码器不必以效率为代价。通过平衡覆盖范围与针对性改进,它为检索、分类和跨语言任务设定了新的基线。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计