SparseWorld: A Flexible, Adaptive, and Efficient 4D Occupancy World Model Powered by Sparse and Dynamic Queries

📄 arXiv: 2510.17482v3 📥 PDF

作者: Chenxu Dang, Haiyan Liu, Jason Bao, Pei An, Xinyue Tang, PanAn, Jie Ma, Bingchuan Sun, Yan Wang

分类: cs.CV, cs.AI

发布日期: 2025-10-20 (更新: 2025-11-17)

备注: Accepted by AAAI2026 Code: https://github.com/MSunDYY/SparseWorld


💡 一句话要点

SparseWorld:基于稀疏动态查询的灵活高效4D Occupancy世界模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: Occupancy预测 世界模型 稀疏查询 动态查询 自动驾驶 环境感知 时空建模

📋 核心要点

  1. 现有occupancy世界模型依赖静态嵌入或网格,限制了感知的灵活性,且“原地分类”与动态连续的真实场景存在潜在错位。
  2. SparseWorld提出基于稀疏动态查询的4D occupancy模型,通过范围自适应感知和状态条件预测,提升感知范围和动态捕捉能力。
  3. 实验结果表明,SparseWorld在感知、预测和规划任务中均取得了SOTA性能,验证了其灵活性、适应性和效率。

📝 摘要(中文)

本文提出了一种名为SparseWorld的新型4D occupancy世界模型,该模型灵活、自适应且高效,由稀疏和动态查询驱动。SparseWorld通过Range-Adaptive Perception模块,利用自车状态调节可学习查询,并结合时空关联以实现扩展范围的感知。为了有效捕捉场景动态,设计了State-Conditioned Forecasting模块,用回归引导代替基于分类的预测,使动态查询与4D环境的连续性精确对齐。此外,还专门设计了一种Temporal-Aware Self-Scheduling训练策略,以实现平滑高效的训练。大量实验表明,SparseWorld在感知、预测和规划任务中均达到了最先进的性能。全面的可视化和消融研究进一步验证了SparseWorld在灵活性、适应性和效率方面的优势。

🔬 方法详解

问题定义:现有基于语义Occupancy的世界模型大多依赖于静态和固定的嵌入或网格,这限制了感知的灵活性。此外,它们在网格上进行“原地分类”的方式,与真实场景的动态和连续性存在潜在的不一致。因此,需要一种更灵活、自适应和高效的Occupancy世界模型,能够更好地捕捉动态环境。

核心思路:SparseWorld的核心思路是利用稀疏和动态的查询来表示和预测环境的Occupancy状态。通过动态查询,模型可以自适应地关注场景中的关键区域,并捕捉其动态变化。使用回归引导的预测方法,可以更好地对齐动态查询与4D环境的连续性,从而提高预测的准确性。

技术框架:SparseWorld主要包含两个核心模块:Range-Adaptive Perception模块和State-Conditioned Forecasting模块。Range-Adaptive Perception模块负责利用自车状态调节可学习查询,并结合时空关联以实现扩展范围的感知。State-Conditioned Forecasting模块则负责利用回归引导代替基于分类的预测,从而精确对齐动态查询与4D环境的连续性。此外,还设计了Temporal-Aware Self-Scheduling训练策略,以实现平滑高效的训练。

关键创新:SparseWorld的关键创新在于以下几点:1) 提出了基于稀疏动态查询的Occupancy世界模型,能够自适应地关注场景中的关键区域;2) 使用回归引导的预测方法,更好地对齐动态查询与4D环境的连续性;3) 设计了Temporal-Aware Self-Scheduling训练策略,提高了训练的效率和稳定性。与现有方法相比,SparseWorld更加灵活、自适应和高效。

关键设计:Range-Adaptive Perception模块中,可学习查询的设计是关键,其初始位置和特征需要精心设计,以保证能够覆盖场景中的关键区域。State-Conditioned Forecasting模块中,回归损失函数的选择至关重要,需要能够准确地反映预测结果与真实值之间的差异。Temporal-Aware Self-Scheduling训练策略中,时间感知的自调度机制需要合理设计,以保证训练的平滑性和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SparseWorld在多个任务上取得了SOTA性能。在感知任务中,SparseWorld能够更准确地预测场景中的Occupancy状态。在预测任务中,SparseWorld能够更准确地预测场景中物体的未来运动轨迹。在规划任务中,SparseWorld能够生成更安全、更高效的行驶轨迹。实验结果表明,SparseWorld相比于现有方法,在性能上有显著提升。

🎯 应用场景

SparseWorld具有广泛的应用前景,例如自动驾驶、机器人导航、增强现实等领域。在自动驾驶中,它可以用于构建高精度的环境模型,从而提高车辆的感知和决策能力。在机器人导航中,它可以用于帮助机器人在复杂环境中进行自主导航。在增强现实中,它可以用于将虚拟物体与真实环境进行精确对齐。

📄 摘要(原文)

Semantic occupancy has emerged as a powerful representation in world models for its ability to capture rich spatial semantics. However, most existing occupancy world models rely on static and fixed embeddings or grids, which inherently limit the flexibility of perception. Moreover, their ``in-place classification" over grids exhibits a potential misalignment with the dynamic and continuous nature of real scenarios. In this paper, we propose SparseWorld, a novel 4D occupancy world model that is flexible, adaptive, and efficient, powered by sparse and dynamic queries. We propose a Range-Adaptive Perception module, in which learnable queries are modulated by the ego vehicle states and enriched with temporal-spatial associations to enable extended-range perception. To effectively capture the dynamics of the scene, we design a State-Conditioned Forecasting module, which replaces classification-based forecasting with regression-guided formulation, precisely aligning the dynamic queries with the continuity of the 4D environment. In addition, We specifically devise a Temporal-Aware Self-Scheduling training strategy to enable smooth and efficient training. Extensive experiments demonstrate that SparseWorld achieves state-of-the-art performance across perception, forecasting, and planning tasks. Comprehensive visualizations and ablation studies further validate the advantages of SparseWorld in terms of flexibility, adaptability, and efficiency.