机器人如何快速适应新任务
强化学习(RL)是一种人工智能代理与环境交互并根据交互过程中获得的奖励学习策略的技术。RL的进展通过Atari等游戏中的人类水平表现得到了显著展示。这一进展的关键是使用游戏模拟器生成大量数据。
将这一进展转化为现实应用(如装配线机器人或帮助老年人的家庭机器人)存在两个障碍。首先,机器人复杂且脆弱;通过随机行动学习可能会损坏机器人或其周围环境。其次,机器人操作的环境通常与其训练环境不同。例如,自动驾驶汽车可能需要在与训练区域不同的城市区域工作。如何构建能够处理新场景的学习机器?
在国际学习表示会议(ICLR)上提交的论文中,描述了一种名为MQL(元Q学习)的新强化学习算法,使AI代理能够快速适应熟悉任务的新变体。
学会学习
与其它"元学习"算法一样,使用MQL时,代理在大量相关任务(如如何拾取不同形状的物体)上进行训练,然后测试其学习这些任务新变体的能力。
MQL有两个关键区别。首先,在训练期间,代理学习计算每个任务特定的上下文变量。这使其能够为不同任务学习不同模型:例如,拾取咖啡杯与拾取足球有很大不同。
其次,在测试期间,MQL使用称为倾向性估计的统计技术,在其训练数据中搜索与正在学习的新任务相似的过去交互。这使得MQL能够以最少的交互适应新任务。
数据重用
上下文帮助系统预测处理新任务(如拾取水瓶)的模型。然而,调整该模型仍然需要大量训练样本。这引入了MQL的第二个关键组件:使用倾向性估计。
倾向得分表示给定样本来自两个分布中任一个的几率。MQL使用倾向性估计来确定训练数据的哪些部分接近测试任务数据:例如,拾取瓶子比拾取足球更接近拾取杯子。然后模型可以从相关训练数据中采样,增强新任务的数据以实现更高效的适应。
该技术在2019年7月人工智能不确定性会议(UAI)上提出的"P3O: Policy-on Policy-off Policy Optimization"中也得到了使用,同样有助于减少训练强化学习算法所需的样本数量。
随着AI系统处理越来越大的应用集,可用于训练的数据量开始显得不足。像MQL这样的技术是从现有数据中引导新任务学习的一种方式,可显著减少训练AI系统的数据需求。