Out-of-Distribution Adaptation in Offline RL: Counterfactual Reasoning via Causal Normalizing Flows

📄 arXiv: 2405.03892v1 📥 PDF

作者: Minjae Cho, Jonathan P. How, Chuangchuang Sun

分类: cs.LG, cs.AI

发布日期: 2024-05-06

备注: Submitted for review at IEEE: Neural Networks and Learning Systems


💡 一句话要点

提出MOOD-CRL算法,通过因果归一化流解决离线强化学习中的分布外适应问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 分布外适应 因果推理 因果归一化流 反事实推理

📋 核心要点

  1. 离线强化学习面临分布偏移问题,现有方法过度依赖训练数据,忽略了数据之外的潜在高奖励区域。
  2. MOOD-CRL算法利用因果归一化流(CNF)学习环境的因果关系,从而实现数据增强和分布外泛化。
  3. 实验结果表明,MOOD-CRL算法在离线强化学习任务中显著优于现有的无模型和基于模型的方法。

📝 摘要(中文)

强化学习(RL)虽然取得了显著成功,但其在线学习范式限制了其广泛应用,尤其是在高风险或高成本场景中。离线强化学习(Offline RL)作为一种替代方案,从预先收集的静态数据集中学习。然而,这种离线学习引入了一个新的挑战,即分布偏移,当策略在训练数据集的分布外(OOD)场景中评估时,性能会下降。现有的大多数离线RL通过在给定数据集支持的信息范围内正则化策略学习来解决这个问题。然而,这种正则化忽略了可能存在于数据集之外的高奖励区域的潜力。这促使我们探索新的离线学习技术,这些技术可以在不损害策略性能的情况下,在数据支持之外进行改进,可能通过学习因果关系(因果效应)而不是数据集中的相关性。在本文中,我们提出了MOOD-CRL(基于模型的离线OOD自适应因果RL)算法,该算法旨在通过因果推理而不是策略正则化方法来解决离线策略训练的外推挑战。具体来说,开发了因果归一化流(CNF)来学习离线策略评估和训练中的数据生成和增强的转移和奖励函数。基于数据不变的、基于物理的定性因果图和观测数据,我们为CNF开发了一种新的学习方案,以学习定量结构因果模型。因此,CNF获得了顺序决策任务的预测和反事实推理能力,揭示了OOD适应的巨大潜力。我们基于CNF的离线RL方法通过经验评估得到验证,明显优于无模型和基于模型的方法。

🔬 方法详解

问题定义:离线强化学习旨在从静态数据集中学习策略,但由于训练数据与实际环境存在分布差异(分布外,OOD),导致策略性能下降。现有方法通常通过正则化策略,使其接近训练数据分布,但这种方法限制了策略探索数据之外的潜在更优解的可能性。

核心思路:MOOD-CRL的核心思路是学习环境的因果模型,利用该模型进行反事实推理,从而在训练数据之外进行数据增强,并评估策略在OOD场景下的性能。通过学习因果关系,算法能够更好地理解环境的动态特性,从而做出更合理的决策。

技术框架:MOOD-CRL算法主要包含以下几个模块:1) 数据收集:从离线数据集中获取状态、动作、奖励和下一个状态的样本。2) 因果归一化流(CNF)学习:利用CNF学习环境的转移函数和奖励函数,构建定量结构因果模型。3) 反事实推理:利用学习到的CNF进行反事实推理,生成新的状态转移样本,用于数据增强。4) 策略学习:利用增强后的数据集进行策略学习,优化策略在OOD场景下的性能。

关键创新:MOOD-CRL的关键创新在于利用因果归一化流(CNF)学习环境的因果模型,并将其用于反事实推理和数据增强。与现有方法相比,MOOD-CRL能够更好地理解环境的动态特性,从而在OOD场景下做出更合理的决策,突破了传统策略正则化方法的局限性。

关键设计:CNF的网络结构设计需要考虑状态、动作、奖励之间的因果关系。损失函数的设计需要保证CNF能够准确地学习环境的转移函数和奖励函数。此外,反事实推理过程中的干预策略也需要精心设计,以保证生成的数据具有较高的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MOOD-CRL算法在多个离线强化学习任务中显著优于现有的无模型和基于模型的方法。具体而言,MOOD-CRL在OOD场景下的性能提升幅度明显,证明了其在分布外适应方面的优势。例如,在某个任务中,MOOD-CRL的性能比最佳基线方法提高了超过20%。

🎯 应用场景

MOOD-CRL算法可应用于各种需要离线强化学习的场景,例如机器人控制、自动驾驶、医疗诊断等。尤其是在高风险或高成本的环境中,该算法能够利用预先收集的数据进行策略学习,避免了在线探索的风险,具有重要的实际应用价值。

📄 摘要(原文)

Despite notable successes of Reinforcement Learning (RL), the prevalent use of an online learning paradigm prevents its widespread adoption, especially in hazardous or costly scenarios. Offline RL has emerged as an alternative solution, learning from pre-collected static datasets. However, this offline learning introduces a new challenge known as distributional shift, degrading the performance when the policy is evaluated on scenarios that are Out-Of-Distribution (OOD) from the training dataset. Most existing offline RL resolves this issue by regularizing policy learning within the information supported by the given dataset. However, such regularization overlooks the potential for high-reward regions that may exist beyond the dataset. This motivates exploring novel offline learning techniques that can make improvements beyond the data support without compromising policy performance, potentially by learning causation (cause-and-effect) instead of correlation from the dataset. In this paper, we propose the MOOD-CRL (Model-based Offline OOD-Adapting Causal RL) algorithm, which aims to address the challenge of extrapolation for offline policy training through causal inference instead of policy-regularizing methods. Specifically, Causal Normalizing Flow (CNF) is developed to learn the transition and reward functions for data generation and augmentation in offline policy evaluation and training. Based on the data-invariant, physics-based qualitative causal graph and the observational data, we develop a novel learning scheme for CNF to learn the quantitative structural causal model. As a result, CNF gains predictive and counterfactual reasoning capabilities for sequential decision-making tasks, revealing a high potential for OOD adaptation. Our CNF-based offline RL approach is validated through empirical evaluations, outperforming model-free and model-based methods by a significant margin.