加泰罗尼亚语加入大规模多语言NLU数据集

某中心将加泰罗尼亚语加入MASSIVE数据集

某中心近期发布了MASSIVE 1.1版本，在原有包含51种语言的百万条自然语言理解（NLU）数据集基础上，新增了加泰罗尼亚语数据。该数据集覆盖18个领域、60种意图和55种槽位类型，所有语句均经过人工翻译。

数据集下载指南已发布于GitHub仓库alexa/massive，同时也可通过Hugging Face平台获取。技术细节可参考相关论文《MASSIVE: 包含51种类型多样性语言的百万示例多语言自然语言理解数据集》。

巴塞罗那超级计算中心成为加泰罗尼亚语数据的首批使用者。该中心文本挖掘部门研究员卡洛斯·罗德里格斯·佩纳戈斯表示：“致力于为加泰罗尼亚语构建先进AI基础设施的AINA项目，对本次语言纳入感到非常兴奋。这对实现流畅母语对话的数字助手和聊天机器人至关重要，是现代数字生态系统的核心需求。某中心此举将为以往在线上平台代表性不足的语言带来重要发展机遇。我们将把此任务纳入加泰罗尼亚语言理解基准（CLUB），作为该语言AI性能的参考标准。”

MASSIVE 1.1数据集将持续推进52种语言的理解技术发展。研究人员邀请学界参加12月7日与自然语言处理实证方法会议（EMNLP）联合举办的大规模多语言自然语言理解（MMNLU）研讨会。

致谢部分列出了参与加泰罗尼亚数据收集工作的研究人员名单。

相关会议：EMNLP 2022大规模多语言NLU研讨会
相关技术方向：多语言学习、多任务学习、数据集开发、机器翻译、自然语言理解（NLU）