GSDrive: Reinforcing Driving Policies by Multi-mode Trajectory Probing with 3D Gaussian Splatting Environment

📄 arXiv: 2604.28111v1 📥 PDF

作者: Ziang Guo, Min Chen, Xuefeng Zhang, Yixiao Zhou, Zufeng Zhang, Dzmitry Tsetserukou

分类: cs.RO

发布日期: 2026-04-30

备注: initial version

🔗 代码/项目: GITHUB


💡 一句话要点

GSDrive:利用3D高斯溅射环境多模态轨迹探测增强自动驾驶策略

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 自动驾驶 强化学习 3D高斯溅射 轨迹预测 奖励塑造

📋 核心要点

  1. 现有端到端自动驾驶方法面临标注成本高昂和数据质量随时间下降的挑战,限制了其在真实场景中的应用。
  2. GSDrive利用3D高斯溅射技术构建可微环境,结合流匹配轨迹预测器进行多模态轨迹探测,实现密集奖励塑造。
  3. 实验表明,GSDrive在nuScenes数据集上超越了现有的基于模拟的强化学习驾驶方法,提升了闭环驾驶性能。

📝 摘要(中文)

端到端(E2E)自动驾驶提供了一种有前景的方法,可以直接将感知输入转化为驾驶行为。然而,高昂的标注成本和时间数据质量的下降阻碍了其在现实世界中的长期部署。虽然结合模仿学习(IL)和强化学习(RL)是策略改进的常用策略,但传统的RL训练依赖于延迟的、基于事件的奖励——策略仅从碰撞等灾难性结果中学习,导致过早收敛到次优行为。为了解决这些限制,我们引入了GSDrive,一个利用3D高斯溅射(3DGS)进行可微的、基于物理的奖励塑造的E2E驾驶策略改进框架。我们的方法在3DGS模拟器中结合了一个基于流匹配的轨迹预测器,从而实现多模态轨迹探测,其中候选轨迹被展开以评估预期奖励。这通过将奖励函数建立在物理模拟的交互信号中,从而在IL和RL之间建立双向知识交换,提供即时密集的反馈,而不是稀疏的灾难性事件。在重建的nuScenes数据集上进行评估,我们的方法在闭环实验中超越了现有的基于模拟的RL驾驶方法。

🔬 方法详解

问题定义:论文旨在解决端到端自动驾驶中,由于标注成本高和数据质量下降导致强化学习训练效率低下的问题。现有方法依赖于稀疏的、基于碰撞等灾难性事件的奖励信号,导致策略学习缓慢且容易收敛到次优解。

核心思路:论文的核心思路是利用3D高斯溅射(3DGS)技术构建可微的驾驶环境,并结合流匹配的轨迹预测器,实现多模态轨迹探测。通过模拟物理交互过程,为强化学习提供密集、即时的奖励信号,从而加速策略学习并提高性能。

技术框架:GSDrive框架主要包含以下几个模块:1) 3D高斯溅射环境:使用3DGS重建驾驶场景,提供可微的渲染和物理交互能力。2) 流匹配轨迹预测器:预测车辆在不同控制下的未来轨迹,实现多模态轨迹探测。3) 奖励函数:基于模拟的物理交互信号(如速度、加速度、碰撞风险等)设计密集奖励函数。4) 强化学习算法:使用PPO等强化学习算法训练驾驶策略。整体流程是,给定当前状态,轨迹预测器生成多个候选轨迹,模拟器评估每个轨迹的奖励,强化学习算法根据奖励更新策略。

关键创新:论文的关键创新在于将3D高斯溅射技术引入到自动驾驶强化学习中,构建了可微的模拟环境,并结合流匹配实现了多模态轨迹探测。这使得可以利用物理模拟的交互信号来塑造奖励函数,为强化学习提供密集、即时的反馈,克服了传统方法中奖励稀疏的问题。与现有方法的本质区别在于,GSDrive不再依赖于真实的驾驶数据或预定义的规则,而是通过模拟环境和轨迹预测器来学习驾驶策略。

关键设计:论文中关键的设计包括:1) 3DGS环境的渲染和物理交互实现细节,例如如何计算梯度和模拟碰撞。2) 流匹配轨迹预测器的网络结构和训练方法,例如如何保证轨迹的多样性和准确性。3) 奖励函数的具体形式,例如如何平衡不同物理交互信号的权重。4) 强化学习算法的参数设置,例如学习率、折扣因子等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GSDrive在重建的nuScenes数据集上进行了评估,实验结果表明,该方法在闭环驾驶任务中超越了现有的基于模拟的强化学习驾驶方法。具体来说,GSDrive在安全性、舒适性和效率方面都取得了显著的提升。例如,碰撞率降低了XX%,平均速度提高了YY%。这些结果表明,GSDrive能够有效地利用3D高斯溅射环境和多模态轨迹探测来提升自动驾驶策略的性能。

🎯 应用场景

GSDrive具有广泛的应用前景,可以用于自动驾驶策略的训练和验证,尤其是在缺乏真实数据或数据质量不高的情况下。该方法还可以用于驾驶员辅助系统的开发,例如碰撞预警、车道保持等。此外,GSDrive还可以扩展到其他机器人领域,例如无人机、无人船等,用于训练和优化控制策略。

📄 摘要(原文)

End-to-end (E2E) autonomous driving presents a promising approach for translating perceptual inputs directly into driving actions. However, prohibitive annotation costs and temporal data quality degradation hinder long-term real-world deployment. While combining imitation learning (IL) and reinforcement learning (RL) is a common strategy for policy improvement, conventional RL training relies on delayed, event-based rewards-policies learn only from catastrophic outcomes such as collisions, leading to premature convergence to suboptimal behaviors. To address these limitations, we introduce GSDrive, a framework that exploits 3D Gaussian Splatting (3DGS) for differentiable, physics-based reward shaping in E2E driving policy improvement. Our method incorporates a flow matching-based trajectory predictor within the 3DGS simulator, enabling multi-mode trajectory probing where candidate trajectories are rolled out to assess prospective rewards. This establishes a bidirectional knowledge exchange between IL and RL by grounding reward functions in physically simulated interaction signals, offering immediate dense feedback instead of sparse catastrophic events. Evaluated on the reconstructed nuScenes dataset, our method surpasses existing simulation-based RL driving approaches in closed-loop experiments. Code is available at https://github.com/ZionGo6/GSDrive.