某中心发布51语言数据集助力多语言理解

某中心发布包含51种语言的百万级标注数据集MASSIVE,用于训练多语言自然语言理解模型,同时宣布举办MMNLU-2022竞赛及研讨会,推动全球语言技术发展。

MASSIVE数据集与多语言NLU竞赛

MASSIVE数据集包含100万条涵盖51种语言的标注语料,支持意图分类和槽位填充任务。该平行数据集使模型能学习跨语言的共享表征,促进低资源语言的迁移学习。数据集遵循CC BY 4.0许可,配套开源代码和基线模型结果。

技术架构与创新

  1. 多语言建模:基于XLM-R和mT5模型建立基线,通过跨语言训练实现知识迁移
  2. 零样本学习:竞赛设置MMNLU-22-ZeroShot任务,测试模型仅用英语数据泛化到50种非英语语言的能力
  3. 语料构建:专业译者将英文SLURP数据集本地化为50种类型学多样语言,覆盖18个领域、60种意图和55个槽位

应用场景

  • 语音助手多语言理解
  • 机器翻译与多语言复述
  • 命令式形态学的新语言分析

数据对比

数据集 语言数 单语言样本量 领域数 意图数 槽位数
MASSIVE 51 19,521 18 60 55
SLURP 1 16,521 18 60 55
MultiATIS++ 9 1,422-5,897 1 21-26 99-140

学术活动

  • MMNLU-2022竞赛:包含全语言训练和零样本学习双赛道,优胜者将在EMNLP 2022研讨会上展示
  • 开源资源:提供GitHub代码库、永久排行榜和评估工具链

该技术方案显著降低了低资源语言的NLU开发门槛,为构建全球性语音AI系统提供了基础设施支持。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计