Trust Region Q Adjoint Matching

作者: Yonghoon Dong, Kyungmin Lee, Changyeon Kim, Jaehyuk Kim, Jinwoo Shin

分类: cs.LG, cs.AI, cs.RO

发布日期: 2026-05-26

💡 一句话要点

提出Trust Region Q-Adjoint Matching，稳定优化预训练流策略的离线强化学习。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 信任区域 Q学习 随机最优控制 流策略

📋 核心要点

多步采样导致优化不稳定，预训练流策略的离线强化学习面临挑战。
TRQAM通过投影对偶下降自适应控制路径空间KL散度，稳定优化过程。
在OGBench任务上，TRQAM显著优于现有方法，离线RL成功率达68%。

📝 摘要（中文）

由于多步采样过程导致优化不稳定，预训练流策略的离线强化学习仍然具有挑战性。最近，Q-learning with Adjoint Matching (QAM) 通过将问题重新表述为具有学习评论家的无记忆随机最优控制 (SOC) 问题来解决此问题。然而，QAM 继承了评论家引导改进的一个根本弱点：当评论家状态不佳时，小的评论家误差会被放大，通常导致模型崩溃。本文介绍 Trust Region Q-Adjoint Matching (TRQAM)，这是一种稳定的离线微调算法，通过投影对偶下降自适应地控制具有预训练流策略的路径空间 KL 散度。具体来说，我们优化 SOC 动力学中的信任区域参数 λ，并在理论上表明路径空间 KL 散度可以用 λ 的闭式函数表示。因此，我们的方法可以精确地控制与预训练流策略的偏差，从而实现稳定的离线强化学习。在 50 个 OGBench 任务上的实验表明，TRQAM 在离线 RL 和离线到在线 RL 方面始终优于现有技术。特别是，TRQAM 在离线 RL 中实现了 68% 的总体成功率，大大提高了最强基线 46%。

🔬 方法详解

问题定义：论文旨在解决预训练流策略的离线强化学习中，由于评论家误差放大导致模型崩溃的问题。现有方法，如QAM，虽然将问题转化为随机最优控制，但对评论家的状态依赖性强，容易受到微小误差的影响，导致训练不稳定。

核心思路：TRQAM的核心思路是通过引入信任区域机制，自适应地控制新策略与预训练策略之间的偏差。具体来说，通过优化SOC动力学中的信任区域参数λ，限制策略更新的幅度，从而避免因评论家误差导致的过度更新和模型崩溃。

技术框架：TRQAM的整体框架基于QAM，将其转化为随机最优控制问题。在此基础上，引入了信任区域机制，通过投影对偶下降优化信任区域参数λ。该框架包含以下主要模块：预训练流策略、学习评论家、SOC动力学模型、信任区域参数优化器。

关键创新：TRQAM的关键创新在于引入了信任区域机制，并理论证明了路径空间KL散度可以用λ的闭式函数表示。这使得可以精确控制新策略与预训练策略的偏差，从而实现更稳定的离线强化学习。与现有方法相比，TRQAM能够更有效地利用预训练策略的知识，同时避免过度依赖评论家，从而提高训练的稳定性和性能。

关键设计：TRQAM的关键设计包括：使用路径空间KL散度作为信任区域的约束，使用投影对偶下降算法优化信任区域参数λ，以及使用闭式函数计算路径空间KL散度。具体的损失函数包括Q函数的损失和KL散度的约束项。网络结构方面，可以使用标准的神经网络结构来表示Q函数和流策略。

🖼️ 关键图片

📊 实验亮点

TRQAM在50个OGBench任务上进行了评估，结果表明其在离线RL和离线到在线RL方面均优于现有技术。在离线RL中，TRQAM实现了68%的总体成功率，显著优于最强基线（46%）。这些结果表明TRQAM能够有效地利用离线数据，并稳定地优化预训练策略。

🎯 应用场景

TRQAM在机器人控制、游戏AI、推荐系统等领域具有广泛的应用前景。它可以利用离线数据预训练策略，然后通过TRQAM进行微调，从而快速适应新的环境和任务。该方法尤其适用于数据收集成本高昂或安全性要求严格的场景，例如自动驾驶、医疗诊断等。

📄 摘要（原文）

Off-policy reinforcement learning of pretrained flow policies remains challenging due to the instability of optimization arising from the multi-step sampling process. Recently, Q-learning with Adjoint Matching (QAM) addressed this issue by reformulating into a memoryless stochastic optimal control (SOC) problem with a learned critic. However, QAM inherits a fundamental fragility of critic-guided improvement: small critic errors are amplified when critics are ill-conditioned, often leading to model collapse. This paper introduces Trust Region Q-Adjoint Matching (TRQAM), a stable off-policy fine-tuning algorithm that adaptively controls the path-space KL with pretrained flow policies through projected dual descent. Specifically, we optimize the trust-region parameter $λ$ in SOC dynamics, and theoretically show that the path-space KL can be represented by a closed-form function of $λ$. As a result, our method can precisely control the exact deviation from pretrained flow policies, achieving stable off-policy RL. Through experiments on 50 OGBench tasks, TRQAM consistently outperforms prior arts in both offline RL and offline-to-online RL. In particular, TRQAM achieves an overall success rate of 68% in offline RL, substantially improves the strongest baseline at 46%.

Trust Region Q Adjoint Matching

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理