强化学习(RL)智能体能够在动态环境中做出复杂决策,但其行为往往不透明。当智能体执行一系列动作(如为糖尿病患者注射胰岛素或控制航天器着陆)时,很难清楚了解在其他选择下结果会如何变化。这一挑战在涉及连续动作空间的环境中尤为突出,因为决策不仅限于离散选项,而是跨越实值幅度的范围。最近的研究引入了一个框架,旨在为此类环境生成反事实解释,提供一种结构化的方法来探索“假设”场景。
为什么需要RL中的反事实推理?
反事实推理在RL中的价值在高风险、时间跨度长的场景中尤为明显。例如,在1型糖尿病患者的血糖控制中,RL智能体根据生理信号定期调整胰岛素剂量。在标记为的轨迹中,患者的血糖最初上升到危险范围,最终下降,导致中等总奖励。在该轨迹下方,三个反事实替代方案展示了略微不同的胰岛素剂量决策的潜在结果。其中,和的累积奖励高于,而表现更差。值得注意的是,以最小的动作偏差实现了最佳结果,并满足临床约束:当血糖低于预定阈值时,给予固定剂量的胰岛素。
这些例子表明,反事实解释可能有助于诊断和改进学习行为。这种方法不仅将RL策略视为黑盒,还能识别具有显著效果的边际调整。同时,它还为领域专家(如临床医生或工程师)提供了一种机制,以评估智能体决策是否符合既定的安全和性能标准。
最小偏差的反事实策略
该方法将反事实解释表述为一个优化问题,寻找性能更优且接近观察到的动作序列的替代轨迹。使用定制的连续动作序列距离度量来量化接近程度。为了解决这个问题,采用了带有奖励塑造机制的双延迟深度确定性策略梯度(TD3)算法,该机制惩罚大的偏差。生成的反事实策略是确定性的,旨在从给定的初始状态产生可解释的替代方案。
该公式适用于约束动作设置,其中某些决策(如在关键生理状态下采取的动作)必须遵循特定领域的策略。这是通过构建一个增强的马尔可夫决策过程(MDP)来解决的,该过程隔离状态空间的非约束部分,同时将固定行为嵌入到转移动态中。然后选择性地对轨迹的灵活部分进行优化。
该方法不是为单个示例构建一次性解释,而是学习一个可推广的反事实策略。这使得在观察到的行为分布中能够一致且可扩展地生成解释。
应用:糖尿病控制与月球着陆器
在两个代表性领域进行了实证评估,每个领域都涉及时间跨度长的环境中的连续控制。第一个任务是使用FDA批准的UVA/PADOVA模拟器进行血糖调节,该模拟器模拟1型糖尿病患者的生理状况。在此背景下,智能体的任务是实时调整胰岛素剂量,基于血糖趋势、碳水化合物摄入和其他状态变量。目标是使血糖保持在安全的目标范围内,同时避免低血糖或高血糖事件。该领域的反事实轨迹展示了胰岛素给药的小的、策略一致的变化如何改善结果。
第二个领域使用月球着陆器环境,这是一个标准的RL基准测试,模拟航天器必须在指定平台上直立着陆。智能体必须调节主发动机和侧发动机的推力以保持平衡,并在着陆时最小化速度。该环境受重力和动量支配,使得小的控制变化可能产生重大影响。在这种情况下,反事实解释提供了关于适度控制改进如何提高着陆稳定性或能量使用的见解。
在这两种设置中,该方法识别了相对于标准基线性能更优的替代轨迹,特别是在可解释性和约束遵守方面。在50-80%的测试案例中发现了具有更高累积奖励的正面反事实。学习到的策略还在单环境和多环境条件下表现出泛化能力。
局限性与更广泛的影响
尽管该框架在可解释性和实证性能方面显示出前景,但它依赖于稀疏塑造的轨迹级奖励信号。这种设计可能会限制训练期间的反馈分辨率,特别是在长时间跨度或细粒度控制设置中。尽管如此,该方法为可解释强化学习的更广泛努力做出了贡献。在透明度至关重要的领域(如医疗保健、金融或自主系统)中,不仅要了解智能体选择了什么,还要了解哪些替代方案可能产生更好的结果。反事实推理提供了一种以结构化和策略感知的方式阐明这些可能性的途径。
了解更多:
- 完整论文:《Counterfactual Explanations for Continuous Action Reinforcement Learning》,Shuyang Dong, Shangtong Zhang, Lu Feng
- GitHub上的实现