A decoupled diffusion planner that adapts to changing cost limits by using cost-conditioned generation for safety and reward gradients for performance
作者: Rufeng Chen, Zhaofan Zhang, Zhejiang Yang, Hechang Chen, Sihong Xie
分类: cs.LG, cs.AI
发布日期: 2026-05-04
💡 一句话要点
提出SDGD,通过解耦扩散规划适应变化的安全约束,提升离线安全强化学习性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 离线安全强化学习 扩散模型 轨迹规划 安全约束 奖励优化 成本条件引导 可行轨迹重标记
📋 核心要点
- 现有离线安全强化学习方法难以在部署时适应变化的安全预算,导致安全合规性问题。
- SDGD通过将安全约束和奖励优化解耦,利用成本限制引导采样,并使用奖励梯度优化轨迹。
- 实验表明,SDGD在DSRL基准测试中实现了最高的安全合规性,并在多个任务中获得了最高的奖励。
📝 摘要(中文)
离线安全强化学习通常需要在部署时适应episode间或episode内变化的安全预算。基于扩散的规划器能够灵活生成轨迹,但现有的引导方案通常将奖励提升和约束满足视为竞争的梯度目标,这可能导致在成本限制下安全合规性不可靠。本文将自适应安全轨迹生成重新解释为从受约束的轨迹分布中采样,其中预算限制了轨迹区域,而奖励塑造了该区域内的偏好。基于此,提出了安全解耦引导扩散(SDGD),它将classifier-free guidance建立在成本限制之上,以使采样偏向于满足指定限制的轨迹,同时使用奖励梯度引导来优化轨迹以获得更高的回报。由于直接奖励引导可能会在增加回报的同时,将样本引导到具有更高累积成本的轨迹,因此引入了可行轨迹重标记(FTR)来重塑奖励目标并抑制这种方向。进一步提供了一阶采样时间分析,表明FTR在prefix-restorative alignment条件下抑制了奖励引起的成本漂移。在DSRL基准上的大量评估表明,SDGD在基线中实现了最强的安全合规性,在94.7%的任务(38个中的36个)上满足了约束,同时在21个任务上获得了安全方法中的最高奖励。
🔬 方法详解
问题定义:离线安全强化学习旨在学习在满足安全约束的前提下最大化奖励的策略。现有的方法在部署时难以适应变化的安全预算,并且常常将奖励提升和约束满足视为竞争目标,导致在成本限制下安全合规性不足。尤其是在扩散模型应用于轨迹规划时,如何有效地利用奖励和约束信息来引导轨迹生成是一个关键问题。
核心思路:本文的核心思路是将自适应安全轨迹生成视为从一个受约束的轨迹分布中采样。安全预算定义了轨迹的可行区域,而奖励则在这个可行区域内塑造轨迹的偏好。通过解耦安全约束和奖励优化,可以更有效地生成既安全又具有高回报的轨迹。具体来说,通过成本限制来引导采样,确保生成的轨迹满足安全约束,然后使用奖励梯度来优化轨迹,以获得更高的回报。
技术框架:SDGD (Safe Decoupled Guidance Diffusion) 的整体框架基于扩散模型,包含以下主要模块:1) 扩散模型:用于生成轨迹样本。2) 成本条件引导:使用classifier-free guidance,将成本限制作为条件,引导采样过程,使生成的轨迹更倾向于满足安全约束。3) 奖励梯度引导:使用奖励梯度来优化轨迹,提高回报。4) 可行轨迹重标记 (FTR):用于重塑奖励目标,抑制奖励引起的成本漂移。
关键创新:SDGD的关键创新在于解耦了安全约束和奖励优化,并提出了可行轨迹重标记 (FTR) 方法。与现有方法将安全约束和奖励优化视为竞争目标不同,SDGD将安全约束作为硬约束,通过成本条件引导确保轨迹的安全性,然后使用奖励梯度在安全区域内优化轨迹,从而实现了更好的安全性和回报之间的平衡。FTR通过重塑奖励目标,有效地抑制了奖励梯度引导可能导致的成本漂移问题。
关键设计:SDGD的关键设计包括:1) 使用classifier-free guidance来实现成本条件引导,通过调整成本条件的权重来控制安全约束的严格程度。2) 引入可行轨迹重标记 (FTR),通过修改奖励目标,使得奖励梯度引导更倾向于生成既安全又具有高回报的轨迹。FTR的具体实现方式是,对于那些导致成本超过预算的轨迹,降低其奖励值,从而抑制奖励梯度引导将轨迹推向高成本区域的趋势。3) 论文还提供了一阶采样时间分析,证明了FTR在一定条件下可以有效地抑制奖励引起的成本漂移。
🖼️ 关键图片
📊 实验亮点
在DSRL基准测试中,SDGD在38个任务中的36个任务上实现了安全约束,安全合规性达到94.7%,显著优于其他基线方法。同时,在21个任务上,SDGD获得了安全方法中的最高奖励,表明该方法在保证安全性的前提下,能够有效地提高任务性能。
🎯 应用场景
SDGD可应用于各种需要在满足安全约束的前提下进行轨迹规划的机器人任务,例如自动驾驶、无人机导航、机械臂操作等。该方法能够适应变化的安全预算,提高机器人在复杂环境中的安全性和任务完成效率,具有重要的实际应用价值。
📄 摘要(原文)
Offline safe reinforcement learning often requires policies to adapt at deployment time to safety budgets that vary across episodes or change within a single episode. While diffusion-based planners enable flexible trajectory generation, existing guidance schemes often treat reward improvement and constraint satisfaction as competing gradient objectives, which can lead to unreliable safety compliance under cost limits. We reinterpret adaptive safe trajectory generation as sampling from a constrained trajectory distribution, where the budget restricts the trajectory region, and reward shapes preferences within that region. This perspective motivates Safe Decoupled Guidance Diffusion (SDGD), which conditions classifier-free guidance on the cost limit to bias sampling toward trajectories satisfying the specified limit, while using reward-gradient guidance to refine trajectories for higher return. Because direct reward guidance can increase return while also steering samples toward trajectories with higher cumulative cost, we introduce Feasible Trajectory Relabeling (FTR) to reshape reward targets and discourage such directions. We further provide a first-order sampling-time analysis showing that FTR suppresses reward-induced cost drift under a prefix-restorative alignment condition. Extensive evaluations on the DSRL benchmark show that SDGD achieves the strongest safety compliance among baselines, satisfying the constraint on 94.7% of tasks (36/38), while obtaining the highest reward among safe methods on 21 tasks.