强化学习的演进历程
当强化学习概念在20世纪50年代首次被提出时,存在两个主要研究方向:一是通过试错过程开发学习方法,二是提供解决最优控制问题的理论框架。到80年代,这些实践与理论方法相互融合,使强化学习发展成为更规范的研究领域。
进入21世纪后,深度学习为强化学习带来重大突破,消除了手动配置特征的需求,能够直接使用原始传感器数据。
强化学习核心技术原理
与使用标注训练数据的监督学习或从无标注输入数据中推断的无监督学习不同,强化学习涉及系统在优化长期目标的同时进行短期决策。深度学习用于创建重要变量的数学表示,而强化学习智能体则通过学习在较长时间内最大化奖励的行动策略。
三大实际应用场景
1. 推荐系统
强化学习在开发新闻推送、产品或视频推荐系统方面具有明显优势。系统状态随着用户交互不断变化,这使得监督学习不太适合推荐系统,因为需要额外基础设施来部署重复的模型更新。而使用强化学习的系统可以根据用户反馈持续更新推荐内容。
深度学习提供产品、消费者兴趣和满意度的数学表示。强化学习智能体能够基于个人偏好随时间个性化内容,以长期最大化奖励为目标。近年来,深度强化学习在推送通知、通过预取内容加速视频加载等用例中的应用日益增多。
2. 能源智能电网
根据国际能源署数据,2018年全球能源消耗增长2.3%,是过去十年平均增速的两倍。在数据中心冷却和特定智能电网应用中,强化学习的表现优于传统用于能源优化的先进控制系统。
能源系统以复杂非线性方式与环境交互。传统的基于公式的工程方法和人类直觉无法适应天气等快速变化的条件。不可能为每个操作场景制定规则和启发式方法,需要通用智能框架来理解数据中心与环境的交互。
深度强化学习已用于从过去消费模式、生产时间序列和可用预测中提取知识,为数据中心和建筑物定制能源分配方案。在这里,深度学习用于创建复杂热力学方程的数学表示。通过寻求奖励最大化,强化学习智能体学会在整个日、周、月、年期间采取正确行动。
3. 机器人技术
大多数工业环境中使用的机器人都是"盲的",因为图像传感直到最近才成为普及技术。然而,来自相机、激光雷达或雷达传感器的图像数据使用正在增加。因此,深度强化学习可用于训练机器人在仓库和工厂中执行拾取或移动物体等操作。
在这种场景下,深度学习通过查看每个像素来解释图像,而强化学习智能体则根据成功动作学习如何在一段时间内做出正确决策。
技术挑战与未来发展
目前仍存在许多挑战,不仅涉及数据量大,还包括数据的高维度特性,这使得设计响应式系统具有挑战性。此外,无论是推荐系统还是能源电网,数据和变量之间的关系都可能随时间变化,这使得避免概念漂移变得极其困难。
需要特别注意奖励函数的设计,在预期奖励和设定奖励之间可能存在巨大差距,系统可能会最大化并非完全理想的结果状态。
实践入门途径
目前正是开始学习深度强化学习的大好时机。通过某中心的自动驾驶平台,开发者可以获得动手实践强化学习的机会。可以从基于云的3D赛车模拟器中的虚拟汽车和赛道开始,获得实际经验后,可以将训练好的模型部署到实体设备上,参与全球竞赛活动。