Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

作者: Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu

分类: cs.LG

发布日期: 2026-03-09

备注: Accepted at ICLR 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出ROMI，通过鲁棒价值感知模型学习和隐式可微自适应加权，提升离线强化学习性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 模型学习 鲁棒优化 价值感知 自适应加权

📋 核心要点

现有基于模型的离线强化学习方法易受模型误差影响，导致策略利用模型缺陷，性能下降。
ROMI通过鲁棒价值感知模型学习，使模型预测值接近不确定集内的最小Q值，实现可控保守性。
ROMI采用隐式可微自适应加权，提升多步rollout的OOD泛化能力，在D4RL和NeoRL数据集上超越RAMBO。

📝 摘要（中文）

基于模型的离线强化学习(RL)旨在通过一个动态模型来增强离线RL，从而促进策略探索。然而，由于不可避免的模型误差，可能发生“模型利用”，从而降低算法性能。对抗性模型学习提供了一个理论框架，通过解决极大极小公式来缓解模型利用。在这种范式中，RAMBO已成为一种具有代表性和最流行的方法，它提供了带有模型梯度的实际实现。然而，我们通过实验发现，在RAMBO中，即使经过轻微的超参数调整，也会出现严重的Q值低估和梯度爆炸，这表明它往往过于保守，并且模型更新不稳定。为了解决这些问题，我们提出了RObust value-aware Model learning with Implicitly differentiable adaptive weighting (ROMI)。ROMI没有使用模型梯度更新动态模型，而是引入了一种新颖的鲁棒价值感知模型学习方法。这种方法要求动态模型预测未来状态，其值接近于可伸缩的状态不确定性集合中的最小Q值，从而实现可控的保守性和稳定的模型更新。为了进一步提高多步rollout期间的分布外(OOD)泛化能力，我们提出了一种隐式可微自适应加权方案，这是一种双层优化方案，可以自适应地实现动态和价值感知的模型学习。在D4RL和NeoRL数据集上的实验结果表明，ROMI显著优于RAMBO，并且在RAMBO通常表现不佳的数据集上，实现了与其他最先进方法相比具有竞争力或更优越的性能。

🔬 方法详解

问题定义：论文旨在解决基于模型的离线强化学习中，由于模型误差导致的“模型利用”问题。现有方法，如RAMBO，虽然尝试通过对抗性学习缓解此问题，但容易出现Q值低估和梯度爆炸，导致过于保守和模型更新不稳定。

核心思路：ROMI的核心思路是通过鲁棒价值感知的模型学习，使模型在预测未来状态时，考虑到状态的不确定性，并倾向于预测具有较低Q值的状态。这种方式可以控制保守性，避免模型过度利用自身缺陷。同时，采用隐式可微自适应加权，平衡动态模型和价值函数的学习，提高泛化能力。

技术框架：ROMI的整体框架包含以下几个主要部分：1) 动态模型学习：使用一种鲁棒价值感知的方法学习动态模型，使其预测的状态具有较低的Q值。2) 价值函数学习：学习一个Q函数，用于评估状态的价值。3) 策略学习：基于学习到的动态模型和价值函数，学习一个策略。4) 隐式可微自适应加权：通过双层优化，自适应地调整动态模型和价值函数学习的权重。

关键创新：ROMI的关键创新在于：1) 提出了一种鲁棒价值感知的模型学习方法，通过考虑状态不确定性，控制保守性，避免模型过度利用自身缺陷。2) 引入了隐式可微自适应加权，通过双层优化，自适应地平衡动态模型和价值函数的学习，提高泛化能力。与RAMBO等方法不同，ROMI避免了直接使用模型梯度，从而避免了梯度爆炸等问题。

关键设计：ROMI的关键设计包括：1) 状态不确定性集合的构建：通过设置一个可调节的尺度参数，控制状态不确定性集合的大小。2) 鲁棒损失函数的设计：设计一个损失函数，鼓励模型预测的状态具有较低的Q值，同时考虑状态的不确定性。3) 双层优化框架：使用双层优化框架，自适应地调整动态模型和价值函数学习的权重。具体而言，外层优化目标是最大化策略的性能，内层优化目标是最小化动态模型的预测误差和价值函数的误差。

🖼️ 关键图片

📊 实验亮点

ROMI在D4RL和NeoRL数据集上进行了广泛的实验，结果表明ROMI显著优于RAMBO。在RAMBO表现不佳的数据集上，ROMI实现了与其他最先进方法相比具有竞争力或更优越的性能。例如，在某些任务上，ROMI的性能提升超过了10%，证明了其在解决模型利用问题方面的有效性。

🎯 应用场景

ROMI可应用于各种需要离线强化学习的场景，例如机器人控制、自动驾驶、推荐系统和金融交易。该方法尤其适用于数据有限或探索成本高的环境，可以有效利用离线数据学习策略，并提高策略的泛化能力和鲁棒性。ROMI的未来影响在于降低强化学习的应用门槛，使其能够更好地解决现实世界中的复杂问题。

📄 摘要（原文）

Model-based offline reinforcement learning (RL) aims to enhance offline RL with a dynamics model that facilitates policy exploration. However, \textit{model exploitation} could occur due to inevitable model errors, degrading algorithm performance. Adversarial model learning offers a theoretical framework to mitigate model exploitation by solving a maximin formulation. Within such a paradigm, RAMBO~\citep{rigter2022rambo} has emerged as a representative and most popular method that provides a practical implementation with model gradient. However, we empirically reveal that severe Q-value underestimation and gradient explosion can occur in RAMBO with only slight hyperparameter tuning, suggesting that it tends to be overly conservative and suffers from unstable model updates. To address these issues, we propose \textbf{RO}bust value-aware \textbf{M}odel learning with \textbf{I}mplicitly differentiable adaptive weighting (ROMI). Instead of updating the dynamics model with model gradient, ROMI introduces a novel robust value-aware model learning approach. This approach requires the dynamics model to predict future states with values close to the minimum Q-value within a scale-adjustable state uncertainty set, enabling controllable conservatism and stable model updates. To further improve out-of-distribution (OOD) generalization during multi-step rollouts, we propose implicitly differentiable adaptive weighting, a bi-level optimization scheme that adaptively achieves dynamics- and value-aware model learning. Empirical results on D4RL and NeoRL datasets show that ROMI significantly outperforms RAMBO and achieves competitive or superior performance compared to other state-of-the-art methods on datasets where RAMBO typically underperforms. Code is available at https://github.com/zq2r/ROMI.git.

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理