机器人自主学习的挑战
传统机器人编程依赖专家耗费大量时间编写复杂行为并调整参数。虽然机器学习技术具有潜力,但学习新复杂行为仍需要大量人工监督和重新设计。某中心团队提出核心问题:如何让机器人更整体、持续地学习与适应,减少每次重大改进或新技能所需的专家干预?
乒乓球作为测试平台的选择
乒乓球在受限但高度动态的环境中封装了机器人技术中最难的挑战:需要精确控制以正确角度和速度拦截球,并涉及战略决策以智胜对手。这些元素使其成为开发和评估强大学习算法的理想领域,这些算法可处理实时交互、复杂物理、高级推理和自适应策略需求。
自改进的挑战
标准机器学习方法在实现持续自主学习方面存在不足:
- 模仿学习需要为每个技能提供大量人类演示数据
- 强化学习需要人工设计复杂数学奖励函数
- 两种方法都涉及大量人工参与,限制了机器人持续自改进的能力
通过竞争学习:机器人与机器人对抗
研究团队探索了类似AlphaGo的策略:让智能体通过自我竞争学习。实验设置包括:
- 两个机器人手臂相互进行乒乓球比赛
- 建立完全自主的乒乓球环境,具有自动收球和远程监控功能
- 首先在模拟中使用强化学习训练合作对打策略
- 在真实世界中微调几小时,获得能够进行长时间对打的策略
技术挑战与突破
竞争性训练面临显著障碍:
- 合作训练的策略在竞争性比赛中效果不佳
- 模型难以有效学习新击球方式而不忘记旧技能
- 训练很快达到局部最优,一个机器人容易得分而另一个无法回击
团队还研究了机器人与人类竞争的方法:
- 开发了包含低级控制器和高级控制器的策略架构
- 使用零射击模拟到现实方法适应未见过的对手
- 在与人类的对战中展示了业余人类水平的性能
AI教练:视觉语言模型的应用
团队探索了使用视觉语言模型(如Gemini)作为教练的新方法:
- 开发了SAS提示(总结、分析、合成)方法
- 实现了可解释机器人策略搜索,完全在大型语言模型中实现
- 无需奖励函数,VLM直接从任务描述中的观察推断奖励
- VLM成为持续分析学生表现并提供改进建议的教练
前景与展望
超越传统编程和机器学习技术的限制对机器人技术的未来至关重要。自主自改进方法减少了对艰苦人工努力的依赖。虽然稳定机器人与机器人学习和扩展基于VLM的教练仍是艰巨任务,但这些方法提供了独特机会。持续研究将带来更有能力、适应性更强的机器,能够学习在我们非结构化世界中有效安全运行所需的多样化技能。