GSDrive: Reinforcing Driving Policies by Multi-mode Trajectory Probing with 3D Gaussian Splatting Environment

作者: Ziang Guo, Chen Min, Xuefeng Zhang, Yixiao Zhou, Zufeng Zhang, Dzmitry Tsetserukou

分类: cs.RO

发布日期: 2026-04-30 (更新: 2026-05-01)

备注: initial version

🔗 代码/项目: GITHUB

💡 一句话要点

GSDrive：利用3D高斯溅射环境进行多模态轨迹探测，强化端到端自动驾驶策略。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 自动驾驶 强化学习 3D高斯溅射 轨迹预测 奖励塑造

📋 核心要点

现有端到端自动驾驶方法面临标注成本高昂和数据质量随时间下降的挑战，阻碍了其在现实世界的部署。
GSDrive利用3D高斯溅射(3DGS)构建可微分的物理环境，结合流匹配轨迹预测器进行多模态轨迹探测，实现更有效的奖励塑造。
在nuScenes数据集上的实验表明，GSDrive在闭环驾驶任务中优于现有的基于模拟的强化学习方法，提升了驾驶策略的性能。

📝 摘要（中文）

端到端(E2E)自动驾驶将感知输入直接转化为驾驶行为，具有广阔前景。然而，高昂的标注成本和时间数据质量的下降阻碍了其在现实世界中的长期部署。模仿学习(IL)和强化学习(RL)的结合是改进策略的常用策略，但传统的RL训练依赖于延迟的、基于事件的奖励——策略仅从碰撞等灾难性结果中学习，导致过早收敛到次优行为。为了解决这些限制，我们引入了GSDrive，该框架利用3D高斯溅射(3DGS)进行可微分的、基于物理的奖励塑造，以改进E2E驾驶策略。我们的方法在3DGS模拟器中结合了基于流匹配的轨迹预测器，从而实现多模态轨迹探测，其中候选轨迹被展开以评估预期奖励。这通过将奖励函数建立在物理模拟的交互信号中，从而在IL和RL之间建立双向知识交换，提供即时密集的反馈，而不是稀疏的灾难性事件。在重建的nuScenes数据集上进行评估，我们的方法在闭环实验中超越了现有的基于模拟的RL驾驶方法。代码可在https://github.com/ZionGo6/GSDrive获取。

🔬 方法详解

问题定义：端到端自动驾驶策略训练中，仅依赖稀疏的、基于碰撞等灾难性事件的奖励信号，导致强化学习收敛缓慢，容易陷入局部最优。现有方法难以在模拟环境中有效地进行策略探索和优化，无法充分利用模拟环境的优势。

核心思路：利用3D高斯溅射(3DGS)构建可微分的驾驶环境，并结合流匹配的轨迹预测器，实现多模态轨迹探测。通过预测未来可能的轨迹，并基于物理模拟计算奖励，为强化学习提供密集的、基于物理的奖励信号，从而加速策略学习并提高性能。

技术框架：GSDrive框架包含以下主要模块：1) 3DGS环境：使用3D高斯溅射重建驾驶场景，提供可微分的渲染和物理交互。2) 轨迹预测器：基于流匹配方法预测车辆未来可能的多条轨迹。3) 奖励函数：基于物理模拟计算每条轨迹的奖励，例如与障碍物的距离、速度、方向等。4) 强化学习策略：使用PPO等算法，根据奖励信号优化驾驶策略。整体流程为：输入当前环境状态，策略输出控制指令，轨迹预测器预测多条轨迹，奖励函数评估轨迹，强化学习算法更新策略。

关键创新：1) 将3DGS引入自动驾驶模拟环境，实现可微分的物理交互和渲染。2) 提出基于流匹配的多模态轨迹预测方法，能够预测车辆未来可能的多条轨迹，从而进行更有效的策略探索。3) 利用物理模拟计算密集的奖励信号，克服了传统强化学习中奖励稀疏的问题。

关键设计：1) 3DGS环境使用nuScenes数据集进行重建，并进行优化以提高渲染速度和物理交互的准确性。2) 轨迹预测器使用Conditional Flow Matching (CFM)进行训练，以学习从当前状态到未来状态的映射。3) 奖励函数综合考虑了安全性、舒适性和效率等因素，例如与障碍物的距离、速度、加速度、方向盘转角等。4) 强化学习算法使用PPO，并进行超参数调整以获得最佳性能。

🖼️ 关键图片

📊 实验亮点

GSDrive在重建的nuScenes数据集上进行了闭环驾驶实验，结果表明，该方法在多个指标上优于现有的基于模拟的强化学习方法。例如，GSDrive在避免碰撞方面取得了显著提升，同时提高了驾驶的平稳性和效率。具体性能数据未知，但论文强调了超越现有方法的结论。

🎯 应用场景

GSDrive框架可应用于自动驾驶策略的离线训练和仿真验证，降低实车测试的成本和风险。该方法能够加速自动驾驶算法的开发和迭代，提高自动驾驶系统的安全性和可靠性。此外，该框架还可以扩展到其他机器人控制任务中，例如无人机、无人船等。

📄 摘要（原文）

End-to-end (E2E) autonomous driving presents a promising approach for translating perceptual inputs directly into driving actions. However, prohibitive annotation costs and temporal data quality degradation hinder long-term real-world deployment. While combining imitation learning (IL) and reinforcement learning (RL) is a common strategy for policy improvement, conventional RL training relies on delayed, event-based rewards-policies learn only from catastrophic outcomes such as collisions, leading to premature convergence to suboptimal behaviors. To address these limitations, we introduce GSDrive, a framework that exploits 3D Gaussian Splatting (3DGS) for differentiable, physics-based reward shaping in E2E driving policy improvement. Our method incorporates a flow matching-based trajectory predictor within the 3DGS simulator, enabling multi-mode trajectory probing where candidate trajectories are rolled out to assess prospective rewards. This establishes a bidirectional knowledge exchange between IL and RL by grounding reward functions in physically simulated interaction signals, offering immediate dense feedback instead of sparse catastrophic events. Evaluated on the reconstructed nuScenes dataset, our method surpasses existing simulation-based RL driving approaches in closed-loop experiments. Code is available at https://github.com/ZionGo6/GSDrive.

GSDrive: Reinforcing Driving Policies by Multi-mode Trajectory Probing with 3D Gaussian Splatting Environment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理