通过自然语言指令教导机器人
如果通用家用机器人成为现实,使用自然语言与它们交流将变得非常重要——例如对机器人说“把脏盘子拿到厨房”。然而,自然语言命令为机器人系统控制引入了新的复杂性层面,因为相同的动作序列可能对应许多不同的自然语言命令(“你能清理餐厅的盘子吗?”)。
在一篇发表于人工智能促进协会(AAAI)年会的论文中,我们将自然语言理解的研究成果应用于自然语言机器人控制问题。特别地,我们研究了逆强化学习(IRL)的情况,其中AI智能体通过观察人类示范来学习执行指定任务。我们通过用自然语言指定智能体目标来扩展标准IRL框架,而不是明确地作为独特状态。
实验成果
在使用包含室内环境高质量3D模拟的基准数据集进行的实验中,我们将我们的方法与四种领先的IRL方法进行了比较。在智能体在训练期间见过的环境中进行测试时,我们的方法相对于性能最佳的基线,在实现自然语言指定目标方面的成功率提高了14%。在新的测试环境(训练期间未见过的环境)中,我们的方法将智能体的成功率提高了17%。
在论文中,我们还提出了一种方法,使得部署到不熟悉环境的训练有素的AI智能体可以生成针对该环境量身定制的训练示例。这种额外的自监督学习将智能体的成功率额外提高了38%。
技术方法
逆强化学习框架
逆强化学习与标准强化学习不同,智能体面对一组演示(人类专家或其他智能体的示例),必须学习专家隐式最大化的奖励函数。演示表示为轨迹,由交替的状态(环境和智能体位置)和动作序列组成。
我们通过将每个轨迹与额外输入相结合来改变这种设置:目标的自然语言规范。单个轨迹可能有多个自然语言目标,对应序列中的多个状态和动作。
数据增强技术
首先,我们使用专家提供的轨迹训练变分目标生成器,基于轨迹预测自然语言目标。该模型包括变分自编码器,生成每个自然语言目标的高度压缩向量表示。压缩表示捕获关于自然语言目标的语义信息,但丢失了关于目标措辞的信息。
我们使用这些带有重新表述自然语言目标的轨迹作为新的正训练示例。这增强了我们的专家训练示例供应,通过词汇差异提高了鲁棒性。
自适应学习
我们还探索了一种额外方法,用于在陌生环境中执行任务的智能体。首先,智能体从现有训练数据中学习新的、与目标无关的策略。然后使用该通用策略在新环境中生成样本轨迹;这些通过变分目标生成器,为其分配自然语言目标。我们将这些新标记的轨迹视为新设置中的专家示例,并用它们更新奖励函数。
这种增加的训练层使我们的智能体部署到新环境时的成功率提高了36%。我们认为这种适应性对未来家用机器人至关重要,这些机器人需要适应新环境(例如家庭搬家或度假),而无需从头开始重新训练。
图表说明:研究人员的训练方法示意图,交替更新自主智能体的策略(在各种状态(s)中采取的一组动作(a)以实现目标(G))和训练鉴别器以识别专家示例中隐含的奖励函数。鉴别器从正例和负例中学习。一些负例(采样轨迹)被重新标记(重新标记轨迹)并用于增强专家示例,既用于更新策略,也用于训练鉴别器。