萨尔萨舞作为非语言具身语言:CoMPAS3D数据集与基准测试
想象一个人形机器人能够安全且富有创意地与人类共舞,适应舞伴的技能水平,并以触觉信号作为主要沟通方式。虽然当今的人工智能系统擅长基于文本或语音的交互(依托大型语言模型),但人类沟通远不止于文本——它包括具身动作、时机把握和身体协调。
对两个智能体之间的耦合交互进行建模是一项艰巨挑战:这种交互是连续的、双向反应的,并受个体差异影响。本文提出了CoMPAS3D,这是最大且最多样化的即兴萨尔萨舞动作捕捉数据集,旨在为交互式、富有表现力的人形人工智能提供一个具有挑战性的测试平台。
该数据集包含18名舞者(涵盖初学者、中级和专业水平)表演的3小时领导者-跟随者萨尔萨舞。首次提供了精细的萨尔萨专家标注,覆盖超过2800个动作片段,包括动作类型、组合、执行错误和风格元素。
本文将舞伴舞蹈沟通与自然语言进行类比,在CoMPAS3D上评估了两个合成人类基准任务,这些任务平行于口语和对话处理中的关键问题:
- 具有熟练度水平的领导者或跟随者生成(说话者或听者合成)
- 双人舞(对话)生成
为实现与人类共舞的长期目标,我们发布了数据集、标注和代码,同时提供了一个能够执行所有基准任务的多任务SalsaAgent模型,以及额外基线模型,以促进社会交互式具身人工智能和创造性、表现力丰富的人形动作生成研究。