加泰罗尼亚语加入MASSIVE数据集
某中心宣布在MASSIVE 1.1数据集中新增加泰罗尼亚语数据。MASSIVE是一个包含100万条样本的多语言自然语言理解(NLU)数据集,涵盖51种语言、18个领域、60种意图和55种槽位类型,所有语句均经过人工翻译。
技术细节
MASSIVE 1.1数据集可通过Github仓库(alexa/massive)和Hugging Face平台获取。数据集相关技术细节可参考研究论文《MASSIVE: A 1M-example multilingual natural language understanding dataset with 51 typologically-diverse languages》。
应用场景
巴塞罗那超级计算中心文本挖掘单元研究员表示:“致力于为加泰罗尼亚语构建先进AI基础设施的AINA项目,非常高兴看到我们的语言被纳入MASSIVE 1.1数据集。这对开发能使用母语流畅交流的数字助手和聊天机器人至关重要,是现代数字生态系统的关键需求。我们将把该任务添加到加泰罗尼亚语言理解基准(CLUB)中,作为该语言的AI性能参考标准。”
技术发展
该技术进展支持多语言虚拟助手向1000种语言扩展的目标,通过自监督训练、分布式训练和知识蒸馏等技术实现。研究人员将继续推进理解世界所有语言的技术发展。
学术交流
相关技术成果将在12月7日与自然语言处理实证方法会议(EMNLP)联合举办的大规模多语言自然语言理解(MMNLU)研讨会上展示。
数据集开发团队包括:Ana Sanchez, Aaron Nash, Liam Urbach, Wouter Leeuwis, Christopher Hench, Charith Peris, Kay Rottmann, Gokhan Tur, 和 Prem Natarajan。