机器人抓取系统的自监督学习与控制优化

本文探讨了机器人抓取系统如何通过自监督学习实现物体识别与抓取点定位,结合传统控制理论与机器学习方法提升系统鲁棒性,使机器人能够适应动态环境中的物体抓取任务。

真实世界的机器人操作系统

麻省理工学院电气工程与计算机科学教授、机器人运动组负责人Russ Tedrake自2017年起持续获得某机构研究奖项资助,致力于研究机器人在陌生且不断变化的环境中操作各类物体的挑战。

自监督学习在机器人领域的应用

Tedrake团队首次获得资助时,专注于将自监督学习应用于机器人操作问题。自监督学习的基本方法是使用未标记(但通常经过算法处理)的数据训练机器学习模型,使其能够以对特定任务有用的方式表示数据。随后只需少量标记数据即可对模型进行微调。

在计算机视觉中,自监督学习通常涉及获取同一图像的两个副本,随机修改其中一个(裁剪、旋转、变色、添加噪声等),并训练模型识别这两个图像属于同一物体。

Tedrake团队让配备传感器的机械臂围绕物体移动,同时拍摄照片并使用深度相机测量物体表面点的距离。根据深度读数,软件可以构建物体的3D模型,并利用它将2D照片中的点映射到其他图像上。

关键点对应关系学习

通过点映射图像,神经网络可以学习物体的不变表示,使其能够识别物体的各个部分(例如咖啡杯的把手),无论观察角度如何。目标是使机器人能够在指定点抓取物体,例如通过把手拿起咖啡杯。

Tedrake团队随后训练神经网络映射同一类型物体不同实例之间的关键点。例如,杯把手与杯身连接点可构成一组关键点;关键点也可以是相对于物体定义的自由空间中的点,如杯把手留下的开口。

团队从通过自监督预训练的神经网络开始,使用同一类型物体的多个实例(如各种形状大小的杯子和鞋子)进行微调。相同物体的实例已标注对应关键点,使模型能够学习类别级结构原则,而非简单记忆不同形状。

实时动态调整

该系统在神经模型识别抓取点后物体保持静止时表现良好。但如果物体滑动或被人移动,机器人仍会抓空。因此项目下一阶段是教机器人使用视频反馈实时调整轨迹。

Tedrake团队现在也将机器学习用于控制器设计。为训练控制器模型,他们使用演示数据:一名实验室成员远程操作机械臂,其他成员敲击目标物体改变其位置和方向。训练期间,模型接收演示中的传感器数据作为输入,尝试预测远程操作者的控制信号。

结合传统优化与机器学习

尽管产生了鲁棒模型,但每个物体需要约100次远程操作实验,数据采集过程资源密集。这导致下一步工作:泛化反馈模型,使机器人仅从少量(甚至一个)示例中学习处理扰动。

Tedrake解释:“从所有数据中,我们尝试学习动态模型而非直接学习策略,然后事后计算策略。“这需要机器学习与传统控制理论分析相结合。机器学习模型从数据中学习输入和控制信号的向量表示,但手工设计的算法约束表示空间以优化控制信号选择。

路径规划问题的创新研究

在最近一篇论文中,Tedrake与同事考虑了最短路径问题的变体:图中节点位置根据某种函数变化,因此边长也随之变化。这种形式适用于机器人和自动驾驶车辆的运动规划等多种问题。

计算此类图中的最短路径是NP完全问题,意味着对于足够大的图在计算上难以处理。但研究人员展示了如何有效找到近似解。

Tedrake表示:“学习效果非常好,但人们常常把洗澡水和婴儿一起倒掉。有些事我们仍然非常擅长用控制和优化方法完成,我正努力推动边界回归我们所知的一切。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计