GEM: Generating LiDAR World Model via Deformable Mamba

📄 arXiv: 2605.07326v1 📥 PDF

作者: Yang Wu, Zhaojiang Liu, Qiang Meng, Youquan Liu, Renliang Weng, Jianjun Qian, Jian Yang, Jin Xie

分类: cs.CV

发布日期: 2026-05-08

🔗 代码/项目: GITHUB


💡 一句话要点

提出GEM:基于可变形Mamba的生成式激光雷达世界模型,实现高保真环境动力学模拟

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界模型 激光雷达 Mamba架构 自动驾驶仿真 时空建模 特征解耦 生成式AI

📋 核心要点

  1. 现有激光雷达世界模型受限于点云数据的无序性,且难以有效分离动态物体与静态背景,导致环境模拟的保真度与时空一致性不足。
  2. 提出GEM模型,利用可变形Mamba架构,通过定制化分词器与动态-静态特征解耦机制,实现对激光雷达序列的高效建模与时空理解。
  3. 实验结果表明,GEM在多项基准测试中表现优异,显著提升了环境预测的准确性,并具备强大的自动驾驶场景推演与“假设性”生成能力。

📝 摘要(中文)

世界模型在自动驾驶领域备受关注,旨在模拟环境动力学并生成传感器观测数据。然而,受限于激光雷达点云的无序性以及动态物体与静态结构难以区分的挑战,基于激光雷达的世界模型发展滞后于视觉或占用网络方案。为此,本文提出了GEM:一种利用可变形Mamba架构的生成式激光雷达世界模型,显著提升了保真度与想象能力。GEM首先通过定制的激光雷达场景分词器将扫描数据转化为紧凑表示;随后利用动态-静态分离器对特征进行无监督解耦;最后引入三路径可变形Mamba,通过选择性扫描和自适应门控融合机制,增强了对世界演化的时空理解。此外,该模型可集成规划器与BEV布局控制器,以探索自动驾驶推演及“假设性”场景生成能力。实验表明,GEM在多个基准测试中均达到SOTA水平。

🔬 方法详解

问题定义:论文旨在解决自动驾驶中激光雷达世界模型构建的难题,核心痛点在于点云数据的无序性导致难以捕捉时空关联,以及动态对象(如车辆、行人)与静态背景(如道路、建筑)在特征空间中的混淆,限制了生成质量。

核心思路:利用激光雷达扫描序列与Mamba状态空间模型(SSM)在处理长序列数据上的结构相似性,通过引入可变形机制增强模型对空间几何变化的适应性,实现对动态与静态特征的解耦建模。

技术框架:整体架构包含三个核心阶段:首先是基于定制分词器的点云压缩;其次是动态-静态分离器,实现特征的无监督解耦;最后是三路径可变形Mamba模块,通过选择性扫描和自适应门控融合,对解耦后的特征进行时空演化建模。

关键创新:引入可变形Mamba架构,将SSM的选择性扫描机制与可变形注意力机制结合,使其能够动态聚焦于激光雷达点云中的关键区域,从而在处理非结构化点云时表现出更强的空间建模能力。

关键设计:采用了三路径设计分别处理动态、静态及全局上下文信息,通过自适应门控机制动态调节不同路径的权重,确保在生成过程中既能保持静态背景的稳定性,又能准确预测动态物体的运动轨迹。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GEM在多个主流自动驾驶基准测试中均取得了SOTA性能。实验数据表明,相比于传统的Transformer或基于CNN的生成模型,GEM在时空一致性指标上提升显著,特别是在长序列预测任务中,其对动态物体的轨迹预测精度与背景结构的重建质量均有大幅度优化。

🎯 应用场景

该研究主要应用于自动驾驶仿真与决策规划领域。通过构建高保真的激光雷达世界模型,GEM能够生成逼真的传感器观测数据,用于强化学习训练、自动驾驶系统的安全性验证以及“假设性”(What-if)场景推演,从而降低实车测试成本并提升系统鲁棒性。

📄 摘要(原文)

World models, which simulate environmental dynamics and generate sensor observations, are gaining increasing attention in autonomous driving. However, progress in LiDAR-based world models has lagged behind those built on camera videos or occupancy data, primarily due to two core challenges: the inherent disorder of LiDAR point clouds and the difficulty of distinguishing dynamic objects from static structures. To address these issues, we propose GEM: a Generative LiDAR world model that leverages deformable mamba architecture, significantly improving fidelity and imaginative capability. Specifically, leveraging the structural similarity between sequential laser scanning and Mamba's processing mechanism, we first tokenize LiDAR sweeps into compact representations via a custom LiDAR scene tokenizer. After unsupervised disentanglement of tokenized features via a dynamic-static separator, a tri-path deformable Mamba is introduced to perform selective scanning and adaptive gating fusion over the disentangled features, leading to enhanced spatial-temporal understanding of the world evolution. Optionally, a planner and a BEV layout controller can be integrated to explore the model's capability for autonomous rollout and its potential to generate ``what-if" scenarios. Extensive experiments show that GEM achieves state-of-the-art performances across diverse benchmarks and evaluation settings, demonstrating its superiority and effectiveness. Project page: https://github.com/wuyang98/GEM.