通用模型加速机器人代际训练技术解析

本文介绍某中心开发的通用视觉模型如何解决仓储机器人训练数据稀缺问题,通过迁移学习和海量标注图像库将机器学习解决方案部署时间从6-12个月缩短至1-2个月,涵盖图像分割、多模态识别等技术细节。

通用模型如何助力机器人代际训练

在物流体系中,商品从货源地到客户手中的快速高效移动是核心环节。这一过程往往需要经过多个仓库,包含装卸、分拣和路由等操作。人类员工在此过程中至关重要,而机器人操纵器的应用也日益增多。

机器人视觉的挑战

罗宾机械臂及其计算机视觉系统是这一领域的创新技术。其视觉感知算法能够识别传送带上的包裹位置,甚至在杂乱堆叠中区分单个包裹及其类型。这种称为"分割"的感知能力,是开发灵活自适应机器人流程的核心技术。

新项目团队面临的最大问题通常是数据稀缺。获取与仓储流程相关的图像需要时间和资源,而机器学习模型还需要对每张训练图像进行人工标注——在杂乱图像中标注多个多边形区域可能单张就需要5分钟。缺乏任务特定训练数据意味着团队可能仅基于几百张图像构建感知模型。

通用模型的解决方案

为解决数据稀缺问题,研究人员开发了能够泛化到几乎所有包裹分割任务的"通用模型"。该模型的开发分为两个阶段:

首先利用公开数据集训练基础分类技能,使模型能够区分箱包与其他物体;然后使用罗宾项目和其他团队过去几年编译的训练数据库进行精调,学习识别仓库环境中从塑料袋到填充邮件等各种包装类型。

该数据集包含近50万张标注图像,关键优势在于这些包裹图像是从多种角度拍摄(不仅限于传送带正上方),且背景多样。图像的数量和多样性使得该数据集几乎适用于任何可能受益机器人感知和操作的仓库位置。

实际应用效果

使用通用模型启动项目可将基于视觉的机器学习解决方案的设置时间从6-12个月大幅缩短至1-2个月。该模型已以便于使用的形式提供给其他团队,且不需要大量机器学习专业知识。

在名为卡迪纳尔的机器人手臂系统项目中,通用模型仅用1000张新训练图像进行更新后,其执行任务的准确性就达到了与工作站专用模型相当的水平。这种快速适应能力意味着当新想法在仓库现场测试时,或将现有方法移植到操作方式略有不同的新地区时,模型都能凭借足够的数据多样性处理差异。

技术发展前景

随着数据多样性的不断增加,通用模型现已包含未包装物品的图像,使其能够在更多样化的仓库流程中执行分割任务。多模态识别(无需条形码即可视觉识别物品)和自动损伤检测等项目正在积累特定产品数据,这些数据都可以输入通用模型。

甚至自主机器人在履行中心搬运产品箱时拍摄的图像也能用于模型训练。这种数据聚合方式特别重要,因为客户需求变化、新包装材料的出现以及可持续发展承诺导致的独特包装增加,都提高了产品和包裹的视觉多样性。

通过这种方式喂养通用模型并将其提供给新团队,将加速未来机器人流程的实验和部署。通用模型的使用已被纳入近期运营计划,这不仅因为技术本身具有创新性,更因为这种发展是必然趋势。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计