Preserve Support, Not Correspondence: Dynamic Routing for Offline Reinforcement Learning

作者: Zhancun Mu, Guangyu Zhao, Yiwu Zhong, Chi Zhang

分类: cs.LG, cs.AI

发布日期: 2026-04-24

备注: 17 pages, 4 figures

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

DROL：通过动态路由而非对应关系，提升离线强化学习单步策略的性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 单步策略 动态路由 行为克隆 策略提取

📋 核心要点

现有单步离线强化学习方法在提升Q值和保持与数据集动作一致性之间存在冲突，导致性能受限。
DROL通过动态路由机制，为每个状态采样多个候选动作，并选择最优动作进行更新，从而实现局部改进。
实验结果表明，DROL在OGBench和D4RL数据集上表现出色，与现有基线方法相比具有竞争力。

📝 摘要（中文）

单步离线强化学习actor具有吸引力，因为它们避免了通过长迭代采样器进行反向传播，并保持了低廉的推理成本。然而，它们仍然需要在critic的指导下进行改进，同时避免偏离数据集能够支持的动作。在最近的单步提取流程中，一个强大的迭代教师为每个潜在的采样提供一个目标动作，并要求相同的学生输出完成两项任务：朝着更高的Q值移动，并保持在该配对端点附近。如果这两个方向不一致，损失会将它们作为同一样本上的折衷方案来解决，即使附近存在数据局部支持的更好动作。我们提出了DROL，一种使用top-1动态路由训练的潜在条件单步actor。对于每个状态，actor从有界的潜在先验中采样K个候选动作，将每个数据集动作分配给其最近的候选动作，并且仅使用行为克隆和critic指导来更新该获胜者。由于路由是从当前候选几何重新计算的，因此支持区域的所有权可以在学习过程中跨候选者转移。这使得单步actor有空间进行局部改进，而逐点提取难以捕捉到这些改进，同时在测试时保持单次推理。在OGBench和D4RL上，DROL与单步FQL基线具有竞争力，改进了许多OGBench任务组，同时在AntMaze和Adroit上保持了强大的性能。

🔬 方法详解

问题定义：现有单步离线强化学习方法，例如行为克隆（BC）和策略提取（Policy Extraction），在学习过程中需要同时满足两个目标：一是最大化Q函数值，二是保持与离线数据集中的动作分布一致。当这两个目标的方向不一致时，模型往往会做出妥协，导致学习到的策略并非最优，尤其是在数据支持的区域内存在更好的动作时。

核心思路：DROL的核心思路是通过动态路由机制，为每个状态采样多个候选动作，并根据这些候选动作与数据集中的动作之间的距离，动态地将数据集中的动作分配给最接近的候选动作。然后，只更新被分配到动作的候选动作，从而鼓励模型探索局部更优的动作，同时保持与数据集的分布一致性。

技术框架：DROL的整体框架包括以下几个主要模块：1) 潜在条件Actor：该Actor以状态作为输入，并从一个有界的潜在先验中采样K个候选动作。2) 动态路由模块：该模块计算每个候选动作与数据集中的动作之间的距离，并将每个数据集动作分配给距离最近的候选动作。3) 更新模块：该模块使用行为克隆和critic指导来更新被分配到动作的候选动作。

关键创新：DROL的关键创新在于其动态路由机制。与传统的策略提取方法不同，DROL不是直接将数据集中的动作作为目标来训练Actor，而是通过动态地将数据集中的动作分配给候选动作，从而允许Actor在局部范围内进行探索和改进。这种动态路由机制使得DROL能够更好地平衡探索和利用，从而学习到更优的策略。

关键设计：DROL的关键设计包括：1) 候选动作的数量K：K的选择会影响模型的探索能力和计算复杂度。2) 距离度量：用于计算候选动作与数据集中的动作之间距离的度量方式，例如欧氏距离或余弦相似度。3) 损失函数：DROL使用行为克隆损失和critic指导损失来更新Actor。行为克隆损失鼓励Actor生成与数据集中的动作相似的动作，而critic指导损失鼓励Actor生成具有更高Q值的动作。

🖼️ 关键图片

📊 实验亮点

DROL在OGBench和D4RL数据集上进行了评估，结果表明DROL与单步FQL基线具有竞争力，并在许多OGBench任务组上取得了改进。尤其是在AntMaze和Adroit等复杂任务上，DROL表现出了强大的性能，证明了其在离线强化学习中的有效性。

🎯 应用场景

DROL算法可应用于各种离线强化学习场景，例如机器人控制、自动驾驶、推荐系统和金融交易等。该算法能够利用已有的离线数据，学习到高性能的策略，从而降低了在线探索的成本和风险。此外，DROL的单步推理特性使其能够快速部署到实际应用中，具有很高的实用价值。

📄 摘要（原文）

One-step offline RL actors are attractive because they avoid backpropagating through long iterative samplers and keep inference cheap, but they still have to improve under a critic without drifting away from actions that the dataset can support. In recent one-step extraction pipelines, a strong iterative teacher provides one target action for each latent draw, and the same student output is asked to do both jobs: move toward higher Q and stay near that paired endpoint. If those two directions disagree, the loss resolves them as a compromise on that same sample, even when a nearby better action remains locally supported by the data. We propose DROL, a latent-conditioned one-step actor trained with top-1 dynamic routing. For each state, the actor samples $K$ candidate actions from a bounded latent prior, assigns each dataset action to its nearest candidate, and updates only that winner with Behavior Cloning and critic guidance. Because the routing is recomputed from the current candidate geometry, ownership of a supported region can shift across candidates over the course of learning. This gives a one-step actor room to make local improvements that pointwise extraction struggles to capture, while retaining single-pass inference at test time. On OGBench and D4RL, DROL is competitive with the one-step FQL baseline, improving many OGBench task groups while remaining strong on both AntMaze and Adroit. Project page: https://muzhancun.github.io/preprints/DROL.

Preserve Support, Not Correspondence: Dynamic Routing for Offline Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理