SIMSplat: Predictive Driving Scene Editing with Language-aligned 4D Gaussian Splatting

📄 arXiv: 2510.02469v1 📥 PDF

作者: Sung-Yeon Park, Adam Lee, Juanwu Lu, Can Cui, Luyang Jiang, Rohit Gupta, Kyungtae Han, Ahmadreza Moradipari, Ziran Wang

分类: cs.RO, cs.AI, cs.CL, cs.CV

发布日期: 2025-10-02

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

SIMSplat:提出基于语言对齐4D高斯溅射的预测性驾驶场景编辑方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 驾驶场景编辑 高斯溅射 自然语言控制 多智能体运动预测 自动驾驶 场景重建 虚拟仿真

📋 核心要点

  1. 现有驾驶场景编辑框架在生成逼真场景方面效率较低,主要受限于编辑能力不足。
  2. SIMSplat通过语言对齐的高斯溅射技术,实现了自然语言控制的直观场景编辑和物体级别的精确操控。
  3. 实验表明,SIMSplat在Waymo数据集上展示了其广泛的编辑能力和对各种场景的适应性。

📝 摘要(中文)

本文提出了一种名为SIMSplat的预测性驾驶场景编辑器,它利用语言对齐的高斯溅射技术。作为一种语言控制的编辑器,SIMSplat支持使用自然语言提示进行直观的场景操控。通过将语言与高斯重建的场景对齐,该方法能够直接查询道路上的物体,从而实现精确而灵活的编辑。SIMSplat提供细粒度的物体级别编辑,包括添加新物体以及修改车辆和行人的轨迹。此外,它还结合了通过多智能体运动预测实现的预测性路径优化,以生成场景中所有智能体之间逼真的交互。在Waymo数据集上的实验结果表明,SIMSplat具有广泛的编辑能力,并且能够适应各种不同的场景。

🔬 方法详解

问题定义:现有虚拟驾驶模拟器和基于传感器数据的驾驶场景操作框架在生成逼真场景时面临效率和编辑能力的挑战。传统方法难以实现细粒度的物体级别编辑,并且缺乏对场景中多智能体交互的有效建模,导致生成场景的真实感不足。

核心思路:SIMSplat的核心思路是将自然语言指令与高斯溅射重建的驾驶场景相结合,实现语言驱动的场景编辑。通过将语言与场景中的物体对齐,用户可以使用自然语言精确地选择和修改场景中的元素。此外,该方法还利用多智能体运动预测来优化场景中各个智能体的轨迹,从而生成更逼真的交互。

技术框架:SIMSplat的整体框架包含以下几个主要模块:1) 基于高斯溅射的场景重建模块,用于从传感器数据中重建驾驶场景;2) 语言对齐模块,用于将自然语言指令与场景中的物体关联起来;3) 场景编辑模块,允许用户添加、删除或修改场景中的物体;4) 多智能体运动预测模块,用于预测场景中各个智能体的未来轨迹;5) 路径优化模块,用于根据预测的轨迹优化场景中各个智能体的路径,以生成更逼真的交互。

关键创新:SIMSplat的关键创新在于将语言控制与高斯溅射技术相结合,实现了细粒度的驾驶场景编辑。与现有方法相比,SIMSplat能够更精确地控制场景中的物体,并且能够生成更逼真的多智能体交互。此外,SIMSplat还引入了预测性路径优化,进一步提高了生成场景的真实感。

关键设计:SIMSplat的关键设计包括:1) 使用高斯溅射来表示驾驶场景,这种表示方法能够有效地捕捉场景的几何和外观信息;2) 使用语言模型将自然语言指令与场景中的物体关联起来;3) 使用多智能体运动预测模型来预测场景中各个智能体的未来轨迹;4) 设计了一种路径优化算法,根据预测的轨迹优化场景中各个智能体的路径。

📊 实验亮点

SIMSplat在Waymo数据集上进行了实验,结果表明该方法能够生成逼真的驾驶场景,并支持细粒度的物体级别编辑。通过与现有方法进行比较,SIMSplat在场景真实感和编辑灵活性方面均取得了显著提升。具体性能数据未知,但论文强调了其广泛的编辑能力和对各种场景的适应性。

🎯 应用场景

SIMSplat可应用于自动驾驶系统的开发和测试,通过生成各种逼真的驾驶场景,帮助评估和改进自动驾驶算法的性能。此外,它还可用于驾驶员培训和交通仿真等领域,具有广泛的应用前景和实际价值。未来,该技术有望进一步提升虚拟驾驶模拟的真实感和交互性。

📄 摘要(原文)

Driving scene manipulation with sensor data is emerging as a promising alternative to traditional virtual driving simulators. However, existing frameworks struggle to generate realistic scenarios efficiently due to limited editing capabilities. To address these challenges, we present SIMSplat, a predictive driving scene editor with language-aligned Gaussian splatting. As a language-controlled editor, SIMSplat enables intuitive manipulation using natural language prompts. By aligning language with Gaussian-reconstructed scenes, it further supports direct querying of road objects, allowing precise and flexible editing. Our method provides detailed object-level editing, including adding new objects and modifying the trajectories of both vehicles and pedestrians, while also incorporating predictive path refinement through multi-agent motion prediction to generate realistic interactions among all agents in the scene. Experiments on the Waymo dataset demonstrate SIMSplat's extensive editing capabilities and adaptability across a wide range of scenarios. Project page: https://sungyeonparkk.github.io/simsplat/