强化学习改变世界的三大方式
当强化学习在20世纪50年代首次被提出时,存在两个主题:第一个侧重于通过试错过程开发学习方法,另一个则提供更理论化的框架来解决最优控制问题。这些实践和理论方法在1980年代融合,使强化学习成为一个更正式的研究和发展领域。
与使用标记训练数据的监督学习或从无标记响应的输入数据中推断的无监督学习不同,强化学习涉及系统在通过试错优化长期目标的同时做出短期决策。深度学习用于对重要变量进行数学表示,而强化学习代理则学习在较长时间内最大化奖励所需的行动。
以下是强化学习以深远方式改变我们世界的三个应用:
1. 推荐系统
强化学习在为新闻推送、产品或视频开发推荐系统方面具有明显优势。在这种情况下,系统的目标是个性化产品推荐。
随着用户与系统交互,系统状态不断变化。这使得监督学习不太适合推荐系统,因为需要不断额外的基础设施来部署重复的模型更新。另一方面,使用强化学习的系统可以根据用户反馈不断更新推荐。深度学习提供产品、消费者兴趣和消费者满意度的数学表示。强化学习代理可以根据个人在一段时间内的偏好个性化内容,以长期最大化奖励。
近年来,深度强化学习在推送通知、通过预取内容加速视频加载以及提供产品推荐等用例中的应用有所增加。
2. 能源智能电网
根据国际能源署的数据,2018年全球能源消耗增长了2.3%,是过去十年平均速度的两倍。在数据中心冷却和特定智能电网应用等能源优化方面,强化学习的表现优于传统使用的先进控制系统。
能源系统以复杂和非线性的方式与环境交互。传统的基于公式的工程和人类直觉无法适应天气等快速变化的条件。不可能为每个操作场景制定规则和启发式方法。需要一个通用智能框架来理解数据中心与环境的交互。
深度强化学习已被用于从过去的消费模式、生产时间序列和可用预测中提取知识,为数据中心和建筑物定制能源分配。在这里,深度学习用于对复杂的热力学方程进行数学表示。通过寻求奖励最大化,强化学习代理学会在整个日、周、月、年中采取正确的行动(例如打开和关闭哪些系统)。
3. 机器人技术
在制造车间等环境中使用的大多数工业机器人都是盲的。这是因为直到最近图像传感才成为商品。然而,来自相机、激光雷达或雷达传感器的图像数据的使用有所增加。因此,深度强化学习可用于训练机器人在仓库和工厂中执行拾取或移动物体等动作。
在这种情况下,深度学习通过查看每个像素来解释图像,而强化学习代理则根据哪些动作成功,在一段时间内学习如何做出正确的决策。
当前挑战与未来展望
我们仍然必须解决许多挑战。这些不仅涉及数据量大,还涉及数据的高维度,这可能使设计响应系统具有挑战性。此外,无论是对于推荐系统还是能源网格,数据和变量之间的关系都可能随时间变化。这使得避免概念漂移变得极其困难。
最后,迈达斯故事的寓意适用于机器学习:小心你的愿望。预期奖励和陈述奖励之间可能存在巨大差距,你可能会发现系统最大化的最终状态并不完全理想。
在许多方面,深度强化学习仍处于早期阶段。现在正是加入的最佳时机。通过某服务的深度赛车,现在可以通过自动驾驶亲身体验强化学习、实验和学习。可以从云端3D赛车模拟器中的虚拟汽车和赛道开始。要获得真实体验,可以将训练好的模型部署到某服务的深度赛车上,与朋友比赛,或参加全球某服务深度赛车联赛。