Entropy-Regularized Adjoint Matching for Offline Reinforcement Learning

📄 arXiv: 2605.06156v2 📥 PDF

作者: Abdelghani Ghanem, Mounir Ghogho

分类: cs.LG, cs.AI

发布日期: 2026-05-07 (更新: 2026-05-08)


💡 一句话要点

提出最大熵伴随匹配(ME-AM)框架,解决离线强化学习中的流行度偏差与支持集限制问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 流匹配 最大熵 伴随匹配 连续控制 多模态策略 分布外探索

📋 核心要点

  1. 现有基于伴随匹配的离线RL方法受限于行为分布,存在流行度偏差和支持集绑定,导致难以探索低密度区域的高奖励动作。
  2. 论文提出ME-AM框架,通过镜像下降熵最大化目标和混合行为先验,在连续流公式中实现了对最优策略的有效提取与几何支持集的扩展。
  3. 在多项稀疏奖励的连续控制基准测试中,ME-AM展现了优于现有SOTA方法的性能,证明了其在处理复杂多模态行为时的鲁棒性。

📝 摘要(中文)

将流匹配模型等表达能力强的生成策略集成到离线强化学习中,使智能体能够捕捉复杂的多模态行为。虽然基于连续伴随方法的Q学习(QAM)通过伴随匹配稳定了策略优化,但其本质上仍受限于固定的行为分布。这种依赖性会导致“流行度偏差”,抑制低密度区域的高奖励动作,并产生“支持集绑定”,限制了离流形(off-manifold)的探索。现有方案(如附加残差高斯策略)往往会重新引入单峰分布的表达瓶颈。本文提出了最大熵伴随匹配(ME-AM),在连续流公式内统一解决了这些局限。ME-AM包含两个核心机制:一是通过镜像下降熵最大化目标缓解流行度偏差,促进从离线数据集中提取最优策略;二是引入混合行为先验,拓宽几何支持集以覆盖分布外的高奖励区域。通过探索这种扩展的几何结构,ME-AM在保持生成向量场绝对连续性的同时识别出鲁棒动作。实验表明,ME-AM在多种稀疏奖励的连续控制任务中表现优于现有SOTA方法。

🔬 方法详解

问题定义:论文旨在解决离线强化学习中策略优化受限于行为分布的问题。现有方法(如QAM)因过度依赖离线数据集的分布,导致模型在低密度区域无法识别高奖励动作(流行度偏差),且难以进行有效的离流形探索(支持集绑定)。

核心思路:通过引入最大熵原则和混合行为先验,将策略优化从单纯的分布拟合转变为基于熵正则化的流匹配。这种设计旨在打破单峰分布的表达瓶颈,使智能体能够在保持生成向量场连续性的前提下,主动探索更广阔的动作空间。

技术框架:ME-AM框架由两个核心模块组成:一是基于镜像下降(Mirror Descent)的熵最大化目标,用于调整策略分布以偏向高奖励区域;二是混合行为先验(Mixture Behavior Prior),通过融合多个先验分布来拓宽几何支持集,从而增强对分布外(OOD)高奖励区域的覆盖能力。

关键创新:最重要的创新在于将最大熵目标与连续伴随匹配相结合,通过镜像下降更新机制,在不破坏流匹配模型绝对连续性的前提下,实现了对策略分布的有效重加权,从而克服了传统方法对数据集分布的过度依赖。

关键设计:技术细节包括采用镜像下降更新策略以实现熵正则化,以及构建混合行为先验模型。该模型通过对多个行为分布进行加权组合,有效扩展了生成模型的几何支撑,确保了在稀疏奖励环境下的探索效率与策略鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,ME-AM在多个稀疏奖励的连续控制基准任务中表现出色。相比于现有的QAM及其他基于流匹配的离线RL基线,ME-AM在策略收敛速度和最终奖励得分上均有显著提升,特别是在处理具有挑战性的多模态分布任务时,展现了更强的鲁棒性和泛化性能。

🎯 应用场景

该研究主要应用于机器人控制、自动驾驶及复杂工业自动化等需要从离线数据中学习鲁棒策略的领域。特别是在奖励信号稀疏、行为模式复杂且多模态的场景下,ME-AM能够显著提升智能体在分布外环境中的决策能力,具有极高的实际应用价值。

📄 摘要(原文)

Integrating expressive generative policies, such as flow-matching models, into offline reinforcement learning (RL) allows agents to capture complex, multi-modal behaviors. While Q-learning with Adjoint Matching (QAM) stabilizes policy optimization via the continuous adjoint method, it remains inherently bound to the fixed behavior distribution. This dependence induces a \textit{popularity bias} that can suppress high-reward actions in low-density regions, and creates a \textit{support binding} that restricts off-manifold exploration. Existing workarounds, such as appending \textit{residual} Gaussian policies, often re-introduce the expressivity bottlenecks associated with unimodal distributions. In this work, we propose \textit{Maximum Entropy Adjoint Matching} (ME-AM), a unified framework that addresses these limitations within the continuous flow formulation. ME-AM incorporates two mechanisms: (1) a Mirror Descent entropy maximization objective that mitigates the popularity bias to facilitate the extraction of optimal policies from offline datasets, and (2) a \textit{Mixture Behavior Prior} that broadens the geometric support to encompass out-of-distribution high-reward regions. By exploring this extended geometry, ME-AM identifies robust actions while preserving the absolute continuity of the generative vector field. Empirically, ME-AM demonstrates competitive or superior performance compared to prior state-of-the-art (SOTA) methods across a diverse suite of sparse-reward continuous control environments.