某中心发布51语言数据集推动语言理解技术

数据集概述

MASSIVE（Multilingual Amazon SLURP for Slot Filling, Intent Classification, and Virtual-Assistant Evaluation）是一个包含100万条标注语句的平行数据集，涵盖51种语言、18个领域、60种意图和55个槽位。该数据集通过专业翻译人员将英文SLURP数据集本地化为50种类型学多样的语言（包含29个语系的低资源语言），所有语句在51种语言中保持平行对应。

技术特性

多语言泛化：通过跨语言共享表征学习，实现从高资源语言到低资源语言的知识迁移
任务支持：支持意图分类和槽填充两大自然语言理解（NLU）核心任务
模型基线：提供基于XLM-R和mT5模型的基准结果，开源代码库包含建模实现
数据许可：采用CC BY 4.0许可，促进学术和工业界广泛应用

竞赛与研讨会

MMNLU-2022竞赛

全语言任务：在51种语言上训练和测试单一模型
零样本任务：仅使用英文数据微调预训练模型，在50种非英语语言测试泛化能力
评估平台：通过eval.ai平台进行持续评估，7月25日发布评估集分割

EMNLP 2022研讨会

将于12月7-8日在阿布扎比和线上同步举行
包含竞赛结果展示、特邀演讲及多语言NLP论文汇报
征集涵盖多语言NLU广泛主题的论文投稿

技术意义

该数据集支持：

机器翻译和多语言释义生成
祈使语气形态的新语言学研究
语音理解（SLU）系统的多语言扩展
零样本学习技术验证

数据对比

与其他主流数据集相比，MASSIVE在语言覆盖度（51 vs 1-9种）和数据规模（100万条 vs 1.4-4.4万条）方面显著提升，特别适合大规模多语言NLU模型开发。

51语言数据集推动多语言自然语言理解技术

某中心发布包含100万条标注语句的MASSIVE多语言数据集，涵盖51种语言类型，支持意图分类和槽填充任务。该数据集采用CC BY 4.0许可，配套开源代码和基线模型结果，并举办多语言NLU竞赛推动跨语言泛化研究。