MASSIVE数据集与多语言NLU竞赛
MASSIVE数据集包含100万条涵盖51种语言的标注语料,支持意图分类和槽位填充任务。该平行数据集使模型能学习跨语言的共享表征,促进低资源语言的迁移学习。数据集遵循CC BY 4.0许可,配套开源代码和基线模型结果。
技术架构与创新
- 多语言建模:基于XLM-R和mT5模型建立基线,通过跨语言训练实现知识迁移
- 零样本学习:竞赛设置MMNLU-22-ZeroShot任务,测试模型仅用英语数据泛化到50种非英语语言的能力
- 语料构建:专业译者将英文SLURP数据集本地化为50种类型学多样语言,覆盖18个领域、60种意图和55个槽位
应用场景
- 语音助手多语言理解
- 机器翻译与多语言复述
- 命令式形态学的新语言分析
数据对比
数据集 | 语言数 | 单语言样本量 | 领域数 | 意图数 | 槽位数 |
---|---|---|---|---|---|
MASSIVE | 51 | 19,521 | 18 | 60 | 55 |
SLURP | 1 | 16,521 | 18 | 60 | 55 |
MultiATIS++ | 9 | 1,422-5,897 | 1 | 21-26 | 99-140 |
学术活动
- MMNLU-2022竞赛:包含全语言训练和零样本学习双赛道,优胜者将在EMNLP 2022研讨会上展示
- 开源资源:提供GitHub代码库、永久排行榜和评估工具链
该技术方案显著降低了低资源语言的NLU开发门槛,为构建全球性语音AI系统提供了基础设施支持。