自学习乒乓球机器人的对抗训练与VLM教练技术

某中心研究团队通过双机器人对抗训练和视觉语言模型指导,探索乒乓球机器人的自主技能提升方法。该研究涉及强化学习、模拟到现实的迁移学习,以及无需人工设计奖励函数的创新训练范式,为自适应机器人系统开发提供新思路。

机器人自主学习的挑战

传统机器人编程依赖专家耗费大量时间编写复杂行为并调整参数。虽然机器学习技术具有潜力,但学习新复杂行为仍需要大量人工监督和重新设计。某中心团队提出核心问题:如何让机器人更整体、持续地学习与适应,减少每次重大改进或新技能所需的专家干预?

乒乓球作为测试平台的选择

乒乓球在受限但高度动态的环境中封装了机器人技术中最难的挑战:需要精确控制以正确角度和速度拦截球,并涉及战略决策以智胜对手。这些元素使其成为开发和评估强大学习算法的理想领域,这些算法可处理实时交互、复杂物理、高级推理和自适应策略需求。

自改进的挑战

标准机器学习方法在实现持续自主学习方面存在不足:

  • 模仿学习需要为每个技能提供大量人类演示数据
  • 强化学习需要人工设计复杂数学奖励函数
  • 两种方法都涉及大量人工参与,限制了机器人持续自改进的能力

通过竞争学习:机器人与机器人对抗

研究团队探索了类似AlphaGo的策略:让智能体通过自我竞争学习。实验设置包括:

  • 两个机器人手臂相互进行乒乓球比赛
  • 建立完全自主的乒乓球环境,具有自动收球和远程监控功能
  • 首先在模拟中使用强化学习训练合作对打策略
  • 在真实世界中微调几小时,获得能够进行长时间对打的策略

技术挑战与突破

竞争性训练面临显著障碍:

  • 合作训练的策略在竞争性比赛中效果不佳
  • 模型难以有效学习新击球方式而不忘记旧技能
  • 训练很快达到局部最优,一个机器人容易得分而另一个无法回击

团队还研究了机器人与人类竞争的方法:

  • 开发了包含低级控制器和高级控制器的策略架构
  • 使用零射击模拟到现实方法适应未见过的对手
  • 在与人类的对战中展示了业余人类水平的性能

AI教练:视觉语言模型的应用

团队探索了使用视觉语言模型(如Gemini)作为教练的新方法:

  • 开发了SAS提示(总结、分析、合成)方法
  • 实现了可解释机器人策略搜索,完全在大型语言模型中实现
  • 无需奖励函数,VLM直接从任务描述中的观察推断奖励
  • VLM成为持续分析学生表现并提供改进建议的教练

前景与展望

超越传统编程和机器学习技术的限制对机器人技术的未来至关重要。自主自改进方法减少了对艰苦人工努力的依赖。虽然稳定机器人与机器人学习和扩展基于VLM的教练仍是艰巨任务,但这些方法提供了独特机会。持续研究将带来更有能力、适应性更强的机器,能够学习在我们非结构化世界中有效安全运行所需的多样化技能。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计