Cross-Domain Policy Optimization via Bellman Consistency and Hybrid Critics

作者: Ming-Hong Chen, Kuan-Chen Pan, You-De Huang, Xi Liu, Ping-Chun Hsieh

分类: cs.LG

发布日期: 2026-03-12

备注: Accepted at ICLR 2026

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出基于贝尔曼一致性和混合评论家的跨域策略优化方法，提升强化学习数据效率。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 跨域强化学习 贝尔曼一致性 混合评论家 知识迁移 策略优化

📋 核心要点

现有跨域强化学习方法难以处理源域和目标域状态/动作空间差异，且源域模型的可迁移性难以评估，易导致负迁移。
论文提出基于跨域贝尔曼一致性和混合评论家的QAvatar方法，自适应地融合源域和目标域的Q函数，实现知识迁移。
实验表明，QAvatar在运动控制和机器人手臂操作等任务上表现出良好的可迁移性，提升了强化学习的性能。

📝 摘要（中文）

跨域强化学习(CDRL)旨在通过利用从源域收集的数据样本来促进在类似目标域中的学习，从而提高强化学习的数据效率。尽管CDRL具有潜力，但强化学习中的跨域迁移存在两个根本且相互交织的挑战：(i)源域和目标域可能具有不同的状态空间或动作空间，这使得直接迁移不可行，因此需要更复杂的域间映射；(ii)源域模型在强化学习中的可迁移性不容易先验识别，因此CDRL在迁移过程中容易产生负面影响。在本文中，我们提出通过 extit{跨域贝尔曼一致性}和 extit{混合评论家}来共同解决这两个挑战。具体来说，我们首先引入跨域贝尔曼一致性的概念，作为衡量源域模型可迁移性的一种方式。然后，我们提出了$Q$Avatar，它结合了来自源域和目标域的Q函数，并具有自适应的无超参数权重函数。通过这种设计，我们描述了$Q$Avatar的收敛行为，并表明$Q$Avatar实现了可靠的迁移，因为它有效地利用了源域Q函数进行知识迁移到目标域。通过实验，我们证明了$Q$Avatar在各种强化学习基准任务中实现了良好的可迁移性，包括运动和机器人手臂操作。我们的代码可在https://rl-bandits-lab.github.io/Cross-Domain-RL/获得。

🔬 方法详解

问题定义：跨域强化学习旨在利用源域数据加速目标域学习，但面临状态/动作空间差异和源域模型可迁移性评估的挑战。直接迁移往往因空间差异而失效，且不恰当的迁移可能导致性能下降（负迁移）。现有方法难以有效解决这两个问题，限制了跨域强化学习的实际应用。

核心思路：论文的核心思路是利用“跨域贝尔曼一致性”来衡量源域模型的可迁移性，并基于此设计一种混合评论家（Hybrid Critic）结构，自适应地融合源域和目标域的Q函数。通过这种方式，可以有效地利用源域的知识，同时避免负迁移的风险。

技术框架：QAvatar方法包含以下主要组成部分：1) 源域Q函数和目标域Q函数；2) 跨域贝尔曼一致性度量，用于评估源域模型的可迁移性；3) 一个自适应权重函数，根据贝尔曼一致性度量动态调整源域和目标域Q函数的融合比例。整体流程是：首先训练源域Q函数，然后利用跨域贝尔曼一致性评估其可迁移性，最后使用混合评论家结构在目标域进行训练，其中权重函数根据贝尔曼一致性度量动态调整。

关键创新：论文的关键创新在于提出了“跨域贝尔曼一致性”的概念，并将其用于指导源域知识的迁移。与现有方法相比，QAvatar不需要手动设计复杂的域间映射，而是通过自适应的权重函数自动学习最佳的迁移策略。此外，QAvatar的权重函数是无超参数的，降低了调参的难度。

关键设计：跨域贝尔曼一致性通过比较源域Q函数在目标域状态下的预测值与目标域Q函数的预测值来衡量。自适应权重函数的设计基于贝尔曼一致性误差，误差越小，源域Q函数的权重越大。损失函数通常采用时序差分误差（TD error），并结合源域和目标域的Q函数进行优化。网络结构可以采用常见的深度Q网络（DQN）或其变体。

📊 实验亮点

实验结果表明，QAvatar在多个强化学习基准任务上优于现有方法，包括运动控制和机器人手臂操作。例如，在某些任务上，QAvatar能够显著提高学习速度和最终性能，并且对超参数不敏感，具有良好的鲁棒性。与直接迁移相比，QAvatar能够有效避免负迁移，实现可靠的跨域知识迁移。

🎯 应用场景

该研究成果可应用于机器人控制、游戏AI、自动驾驶等领域。例如，可以在模拟环境中训练机器人，然后将学到的策略迁移到真实机器人上，从而降低训练成本和风险。此外，该方法还可以用于解决不同游戏环境之间的策略迁移问题，提高游戏AI的通用性和适应性。

📄 摘要（原文）

Cross-domain reinforcement learning (CDRL) is meant to improve the data efficiency of RL by leveraging the data samples collected from a source domain to facilitate the learning in a similar target domain. Despite its potential, cross-domain transfer in RL is known to have two fundamental and intertwined challenges: (i) The source and target domains can have distinct state space or action space, and this makes direct transfer infeasible and thereby requires more sophisticated inter-domain mappings; (ii) The transferability of a source-domain model in RL is not easily identifiable a priori, and hence CDRL can be prone to negative effect during transfer. In this paper, we propose to jointly tackle these two challenges through the lens of \textit{cross-domain Bellman consistency} and \textit{hybrid critic}. Specifically, we first introduce the notion of cross-domain Bellman consistency as a way to measure transferability of a source-domain model. Then, we propose $Q$Avatar, which combines the Q functions from both the source and target domains with an adaptive hyperparameter-free weight function. Through this design, we characterize the convergence behavior of $Q$Avatar and show that $Q$Avatar achieves reliable transfer in the sense that it effectively leverages a source-domain Q function for knowledge transfer to the target domain. Through experiments, we demonstrate that $Q$Avatar achieves favorable transferability across various RL benchmark tasks, including locomotion and robot arm manipulation. Our code is available at https://rl-bandits-lab.github.io/Cross-Domain-RL/.

Cross-Domain Policy Optimization via Bellman Consistency and Hybrid Critics

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理