SIMSplat: Predictive Driving Scene Editing with Language-aligned 4D Gaussian Splatting

作者: Sung-Yeon Park, Adam Lee, Juanwu Lu, Can Cui, Luyang Jiang, Rohit Gupta, Kyungtae Han, Ahmadreza Moradipari, Ziran Wang

分类: cs.RO, cs.AI, cs.CL, cs.CV

发布日期: 2025-10-02

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

SIMSplat：提出语言对齐的4D高斯溅射，用于预测性驾驶场景编辑。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 驾驶场景编辑 高斯溅射 自然语言控制 多智能体运动预测 自动驾驶 场景重建

📋 核心要点

现有驾驶场景编辑框架在生成逼真场景时面临效率瓶颈，主要受限于编辑能力不足，难以实现精细化控制。
SIMSplat的核心在于利用语言对齐的4D高斯溅射，实现自然语言控制的场景编辑，并支持对象级别的精确操作。
实验结果表明，SIMSplat在Waymo数据集上展现了强大的场景编辑能力和泛化性，能够有效处理各种驾驶场景。

📝 摘要（中文）

本文提出了一种名为SIMSplat的预测性驾驶场景编辑器，它使用语言对齐的高斯溅射技术。与传统的虚拟驾驶模拟器相比，该方法利用传感器数据进行驾驶场景操作，更具优势。现有框架由于编辑能力有限，难以高效地生成逼真的场景。SIMSplat通过语言控制编辑，使用自然语言提示进行直观的操作。通过将语言与高斯重建的场景对齐，SIMSplat支持直接查询道路对象，从而实现精确和灵活的编辑。该方法提供详细的对象级别编辑，包括添加新对象和修改车辆及行人的轨迹，同时结合多智能体运动预测进行预测性路径优化，以生成场景中所有智能体之间逼真的交互。在Waymo数据集上的实验证明了SIMSplat广泛的编辑能力和在各种场景中的适应性。

🔬 方法详解

问题定义：现有驾驶场景编辑方法难以高效生成逼真场景，缺乏精细的对象级别控制能力，并且难以模拟智能体之间的真实交互。传统虚拟驾驶模拟器成本高昂，且难以复现真实世界的复杂性。

核心思路：SIMSplat的核心思路是将驾驶场景表示为4D高斯溅射，并利用自然语言提示来控制场景的编辑。通过将语言与高斯溅射表示对齐，可以实现对场景中特定对象的查询和操作，从而实现精细化的场景编辑。此外，利用多智能体运动预测来优化智能体的轨迹，从而生成更逼真的交互。

技术框架：SIMSplat包含以下主要模块：1) 基于传感器数据的场景重建模块，使用高斯溅射将场景表示为一组4D高斯分布；2) 语言对齐模块，将自然语言提示与场景中的对象关联起来；3) 场景编辑模块，根据语言提示对场景进行修改，包括添加、删除和修改对象；4) 运动预测模块，预测场景中智能体的未来轨迹，并优化其路径以避免碰撞。

关键创新：SIMSplat的关键创新在于：1) 提出了一种基于语言对齐的4D高斯溅射的场景表示方法，能够实现精细化的对象级别编辑；2) 结合多智能体运动预测，生成更逼真的智能体交互；3) 利用自然语言提示进行场景编辑，使得操作更加直观和灵活。

关键设计：SIMSplat使用预训练的语言模型（如CLIP）将自然语言提示编码为向量表示，并将其与高斯溅射表示中的对象特征进行匹配。场景编辑模块使用可微分渲染技术，根据修改后的高斯溅射表示生成新的场景图像。运动预测模块使用Transformer网络预测智能体的未来轨迹，并使用碰撞避免损失函数优化其路径。

🖼️ 关键图片

📊 实验亮点

SIMSplat在Waymo数据集上进行了实验，结果表明其能够生成逼真的驾驶场景，并实现精细化的对象级别编辑。通过与现有方法进行对比，SIMSplat在场景编辑的质量和效率方面均取得了显著提升。例如，SIMSplat能够以更高的精度添加和修改场景中的车辆和行人，并生成更逼真的智能体交互。

🎯 应用场景

SIMSplat可应用于自动驾驶系统的开发和测试，通过生成各种逼真的驾驶场景，帮助评估和改进自动驾驶算法的性能。此外，它还可以用于驾驶员培训、交通仿真和游戏开发等领域，具有广泛的应用前景和实际价值。未来，该技术有望进一步提升驾驶场景编辑的效率和真实感，为自动驾驶技术的发展提供有力支持。

📄 摘要（原文）

Driving scene manipulation with sensor data is emerging as a promising alternative to traditional virtual driving simulators. However, existing frameworks struggle to generate realistic scenarios efficiently due to limited editing capabilities. To address these challenges, we present SIMSplat, a predictive driving scene editor with language-aligned Gaussian splatting. As a language-controlled editor, SIMSplat enables intuitive manipulation using natural language prompts. By aligning language with Gaussian-reconstructed scenes, it further supports direct querying of road objects, allowing precise and flexible editing. Our method provides detailed object-level editing, including adding new objects and modifying the trajectories of both vehicles and pedestrians, while also incorporating predictive path refinement through multi-agent motion prediction to generate realistic interactions among all agents in the scene. Experiments on the Waymo dataset demonstrate SIMSplat's extensive editing capabilities and adaptability across a wide range of scenarios. Project page: https://sungyeonparkk.github.io/simsplat/

SIMSplat: Predictive Driving Scene Editing with Language-aligned 4D Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理