RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

📄 arXiv: 2604.15308v1 📥 PDF

作者: Hao Gao, Shaoyu Chen, Yifan Zhu, Yuehao Song, Wenyu Liu, Qian Zhang, Xinggang Wang

分类: cs.CV

发布日期: 2026-04-16

备注: Project page: https://hgao-cv.github.io/RAD-2


💡 一句话要点

RAD-2:一种生成器-判别器框架下的强化学习方法,提升自动驾驶运动规划的稳定性和安全性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 运动规划 强化学习 扩散模型 生成器-判别器 闭环控制 模仿学习

📋 核心要点

  1. 基于扩散的运动规划器在自动驾驶中面临随机不稳定性和缺乏闭环纠正的挑战。
  2. RAD-2采用生成器-判别器框架,生成轨迹候选并用强化学习判别器重排序,提升优化稳定性。
  3. RAD-2通过时间一致性策略优化和在线生成器优化,并结合BEV-Warp仿真环境,显著降低碰撞率。

📝 摘要(中文)

本文提出RAD-2,一个用于闭环规划的统一生成器-判别器框架,旨在解决基于扩散的规划器在自动驾驶中存在的随机不稳定性和缺乏纠正性负反馈的问题。该框架利用基于扩散的生成器生成多样化的轨迹候选,并使用强化学习优化的判别器根据长期驾驶质量对这些候选轨迹进行重排序。这种解耦设计避免了直接将稀疏标量奖励应用于完整的高维轨迹空间,从而提高了优化稳定性。为了进一步增强强化学习,引入了时间一致性组相对策略优化,利用时间连贯性来缓解信用分配问题。此外,提出了在线生成器优化,将闭环反馈转换为结构化的纵向优化信号,并逐步将生成器转移到高奖励轨迹流形。为了支持高效的大规模训练,引入了BEV-Warp,一个高吞吐量的仿真环境,通过空间扭曲直接在鸟瞰图特征空间中执行闭环评估。RAD-2相比强大的基于扩散的规划器,碰撞率降低了56%。真实世界的部署进一步证明了在复杂的城市交通中,感知安全性和驾驶平稳性的提高。

🔬 方法详解

问题定义:自动驾驶需要能够建模多模态未来不确定性并在闭环交互中保持鲁棒性的运动规划器。现有的基于扩散的规划器虽然擅长建模复杂的轨迹分布,但通常存在随机不稳定性,并且在仅使用模仿学习训练时缺乏纠正性的负反馈。直接将稀疏奖励应用于高维轨迹空间会导致优化困难。

核心思路:RAD-2的核心思路是将运动规划问题分解为两个部分:轨迹生成和轨迹评估。使用基于扩散模型的生成器生成多样化的轨迹候选,然后使用强化学习训练的判别器对这些轨迹进行评估和排序。这种解耦的设计避免了直接在整个轨迹空间上进行强化学习,从而提高了训练的稳定性和效率。

技术框架:RAD-2的整体框架包含以下几个主要模块:1) 基于扩散模型的轨迹生成器:负责生成多样化的轨迹候选。2) 强化学习优化的判别器:负责评估轨迹的长期驾驶质量并进行排序。3) 时间一致性组相对策略优化:用于改善强化学习的信用分配问题。4) 在线生成器优化:利用闭环反馈来优化生成器。5) BEV-Warp仿真环境:用于高效的大规模训练和评估。

关键创新:RAD-2的关键创新在于其统一的生成器-判别器框架,以及针对该框架设计的强化学习优化方法。具体来说,时间一致性组相对策略优化利用了轨迹的时间连贯性来缓解信用分配问题,而在线生成器优化则将闭环反馈转换为结构化的优化信号,从而更好地指导生成器的训练。BEV-Warp仿真环境通过在鸟瞰图特征空间中进行闭环评估,显著提高了训练效率。

关键设计:时间一致性组相对策略优化(Temporally Consistent Group Relative Policy Optimization)通过将轨迹分成时间组,并对组内的相对策略进行优化,从而更好地利用时间连贯性信息。在线生成器优化(On-policy Generator Optimization)使用策略梯度方法,根据判别器的反馈来调整生成器的参数。BEV-Warp仿真环境使用空间扭曲技术,直接在鸟瞰图特征空间中进行闭环评估,避免了昂贵的物理仿真。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RAD-2相比于强大的基于扩散的规划器,碰撞率降低了56%。在真实世界的部署中,RAD-2也表现出更高的感知安全性和驾驶平稳性。这些结果验证了RAD-2在自动驾驶运动规划方面的有效性和优越性。

🎯 应用场景

RAD-2具有广泛的应用前景,可用于提升自动驾驶系统在复杂城市环境中的安全性和平稳性。该方法还可以应用于其他需要生成多样化和高质量轨迹的机器人运动规划任务,例如无人机导航、机器人操作等。此外,RAD-2的生成器-判别器框架也可以推广到其他强化学习问题中,用于解决稀疏奖励和高维状态空间带来的挑战。

📄 摘要(原文)

High-level autonomous driving requires motion planners capable of modeling multimodal future uncertainties while remaining robust in closed-loop interactions. Although diffusion-based planners are effective at modeling complex trajectory distributions, they often suffer from stochastic instabilities and the lack of corrective negative feedback when trained purely with imitation learning. To address these issues, we propose RAD-2, a unified generator-discriminator framework for closed-loop planning. Specifically, a diffusion-based generator is used to produce diverse trajectory candidates, while an RL-optimized discriminator reranks these candidates according to their long-term driving quality. This decoupled design avoids directly applying sparse scalar rewards to the full high-dimensional trajectory space, thereby improving optimization stability. To further enhance reinforcement learning, we introduce Temporally Consistent Group Relative Policy Optimization, which exploits temporal coherence to alleviate the credit assignment problem. In addition, we propose On-policy Generator Optimization, which converts closed-loop feedback into structured longitudinal optimization signals and progressively shifts the generator toward high-reward trajectory manifolds. To support efficient large-scale training, we introduce BEV-Warp, a high-throughput simulation environment that performs closed-loop evaluation directly in Bird's-Eye View feature space via spatial warping. RAD-2 reduces the collision rate by 56% compared with strong diffusion-based planners. Real-world deployment further demonstrates improved perceived safety and driving smoothness in complex urban traffic.