Multi-ORFT: Stable Online Reinforcement Fine-Tuning for Multi-Agent Diffusion Planning in Cooperative Driving
作者: Haojie Bai, Aimin Li, Ruoyu Yao, Xiongwei Zhao, Tingting Zhang, Xing Zhang, Lin Gao, and Jun Ma
分类: cs.RO, cs.AI
发布日期: 2026-04-13
💡 一句话要点
Multi-ORFT:面向协同驾驶的多智能体扩散规划稳定在线强化微调
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 协同驾驶 扩散模型 强化学习 在线学习 轨迹规划 场景一致性 策略优化
📋 核心要点
- 现有扩散规划器在协同驾驶中场景一致性弱,与闭环目标对齐差,且在线强化学习微调不稳定。
- Multi-ORFT耦合场景条件扩散预训练与稳定在线强化后训练,提升场景一致性并稳定训练。
- 实验表明,Multi-ORFT降低了碰撞率和脱离道路率,同时提高了平均速度,优于现有基线。
📝 摘要(中文)
闭环协同驾驶需要规划器生成逼真的多模态多智能体轨迹,同时提高安全性和交通效率。现有的扩散规划器可以从演示中建模多模态行为,但它们通常表现出较弱的场景一致性,并且与闭环目标对齐不佳;同时,在反应式多智能体环境中进行稳定的在线后训练仍然很困难。我们提出了Multi-ORFT,它将场景条件扩散预训练与稳定的在线强化后训练相结合。在预训练中,规划器使用智能体间自注意力、交叉注意力和基于AdaLN-Zero的场景条件来提高联合轨迹的场景一致性和道路依从性。在后训练中,我们制定了一个两级MDP,暴露了逐步逆核似然以进行在线优化,并将密集轨迹级奖励与方差门控的群体相对策略优化(VG-GRPO)相结合,以稳定训练。在WOMD闭环基准测试中,相对于预训练的规划器,Multi-ORFT将碰撞率从2.04%降低到1.89%,并将脱离道路率从1.68%降低到1.36%,同时将平均速度从8.36提高到8.61 m/s,并且在主要的安全性和效率指标上优于强大的开源基线,包括SMART-large、SMART-tiny-CLSFT和VBD。这些结果表明,将场景一致的去噪与稳定的在线扩散策略优化相结合,可以提高闭环协同驾驶的可靠性。
🔬 方法详解
问题定义:论文旨在解决协同驾驶场景下,现有扩散规划器场景一致性差、与闭环目标对齐不佳以及在线强化学习微调不稳定的问题。现有方法难以在保证安全性和效率的同时,生成逼真的多智能体轨迹,尤其是在动态变化的环境中。
核心思路:论文的核心思路是将扩散模型的生成能力与强化学习的优化能力相结合。首先,利用扩散模型学习多智能体轨迹的分布,并提高场景一致性。然后,通过在线强化学习对扩散模型进行微调,使其更好地适应闭环控制的目标,并提高训练的稳定性。
技术框架:Multi-ORFT包含两个主要阶段:场景条件扩散预训练和稳定在线强化后训练。在预训练阶段,使用智能体间自注意力、交叉注意力和基于AdaLN-Zero的场景条件来提高联合轨迹的场景一致性和道路依从性。在后训练阶段,构建一个两级MDP,暴露逐步逆核似然以进行在线优化,并结合密集轨迹级奖励与方差门控的群体相对策略优化(VG-GRPO)来稳定训练。
关键创新:论文的关键创新在于将场景一致的扩散模型与稳定的在线强化学习相结合,并提出了方差门控的群体相对策略优化(VG-GRPO)方法。VG-GRPO通过控制策略更新的方差,有效地稳定了多智能体强化学习的训练过程。
关键设计:在预训练阶段,使用了AdaLN-Zero进行场景条件设置,以提高模型的泛化能力。在后训练阶段,两级MDP的设计允许对每一步的逆核似然进行优化,从而更有效地利用强化学习信号。VG-GRPO的关键在于对方差的门控,具体实现细节未知。
🖼️ 关键图片
📊 实验亮点
在WOMD闭环基准测试中,Multi-ORFT相对于预训练的规划器,将碰撞率从2.04%降低到1.89%,脱离道路率从1.68%降低到1.36%,同时将平均速度从8.36提高到8.61 m/s。Multi-ORFT在主要的安全性和效率指标上优于SMART-large、SMART-tiny-CLSFT和VBD等基线。
🎯 应用场景
该研究成果可应用于自动驾驶、智能交通系统等领域,提升多智能体协同驾驶的安全性和效率。通过生成更逼真、更符合交通规则的轨迹,可以减少交通事故,提高道路通行能力,并为未来的智能交通系统提供技术支撑。
📄 摘要(原文)
Closed-loop cooperative driving requires planners that generate realistic multimodal multi-agent trajectories while improving safety and traffic efficiency. Existing diffusion planners can model multimodal behaviors from demonstrations, but they often exhibit weak scene consistency and remain poorly aligned with closed-loop objectives; meanwhile, stable online post-training in reactive multi-agent environments remains difficult. We present Multi-ORFT, which couples scene-conditioned diffusion pre-training with stable online reinforcement post-training. In pre-training, the planner uses inter-agent self-attention, cross-attention, and AdaLN-Zero-based scene conditioning to improve scene consistency and road adherence of joint trajectories. In post-training, we formulate a two-level MDP that exposes step-wise reverse-kernel likelihoods for online optimization, and combine dense trajectory-level rewards with variance-gated group-relative policy optimization (VG-GRPO) to stabilize training. On the WOMD closed-loop benchmark, Multi-ORFT reduces collision rate from 2.04% to 1.89% and off-road rate from 1.68% to 1.36%, while increasing average speed from 8.36 to 8.61 m/s relative to the pre-trained planner, and it outperforms strong open-source baselines including SMART-large, SMART-tiny-CLSFT, and VBD on the primary safety and efficiency metrics. These results show that coupling scene-consistent denoising with stable online diffusion-policy optimization improves the reliability of closed-loop cooperative driving.