加泰罗尼亚语加入MASSIVE多语言数据集

加泰罗尼亚语加入MASSIVE数据集

某中心宣布在MASSIVE 1.1数据集中新增加泰罗尼亚语数据。MASSIVE是一个包含100万条样本的多语言自然语言理解（NLU）数据集，涵盖51种语言、18个领域、60种意图和55种槽位类型，所有语句均经过人工翻译。

技术细节

MASSIVE 1.1数据集可通过Github仓库（alexa/massive）和Hugging Face平台获取。数据集相关技术细节可参考研究论文《MASSIVE: A 1M-example multilingual natural language understanding dataset with 51 typologically-diverse languages》。

应用场景

巴塞罗那超级计算中心文本挖掘单元研究员表示：“致力于为加泰罗尼亚语构建先进AI基础设施的AINA项目，非常高兴看到我们的语言被纳入MASSIVE 1.1数据集。这对开发能使用母语流畅交流的数字助手和聊天机器人至关重要，是现代数字生态系统的关键需求。我们将把该任务添加到加泰罗尼亚语言理解基准（CLUB）中，作为该语言的AI性能参考标准。”

技术发展

该技术进展支持多语言虚拟助手向1000种语言扩展的目标，通过自监督训练、分布式训练和知识蒸馏等技术实现。研究人员将继续推进理解世界所有语言的技术发展。

学术交流

相关技术成果将在12月7日与自然语言处理实证方法会议（EMNLP）联合举办的大规模多语言自然语言理解（MMNLU）研讨会上展示。

数据集开发团队包括：Ana Sanchez, Aaron Nash, Liam Urbach, Wouter Leeuwis, Christopher Hench, Charith Peris, Kay Rottmann, Gokhan Tur, 和 Prem Natarajan。