OccTENS: 3D Occupancy World Model via Temporal Next-Scale Prediction

📄 arXiv: 2509.03887v1 📥 PDF

作者: Bu Jin, Songen Gu, Xiaotao Hu, Yupeng Zheng, Xiaoyang Guo, Qian Zhang, Xiaoxiao Long, Wei Yin

分类: cs.CV

发布日期: 2025-09-04


💡 一句话要点

OccTENS:通过时序下一尺度预测实现可控、高效的3D occupancy 世界模型生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: Occupancy预测 世界模型 时序预测 下一尺度预测 自动驾驶 机器人导航 生成模型

📋 核心要点

  1. 现有自回归方法在生成occupancy世界模型时,面临效率低、长期预测退化和缺乏可控性等挑战。
  2. OccTENS将问题转化为时序下一尺度预测(TENS)任务,解耦空间尺度生成和时序场景预测,提升效率和可控性。
  3. 实验结果表明,OccTENS在occupancy质量和推理速度上均优于现有最佳方法,实现了性能提升。

📝 摘要(中文)

本文提出了OccTENS,一个生成式的occupancy世界模型,它能够在保持计算效率的同时,实现可控的、高保真的长期occupancy生成。与视觉生成不同,occupancy世界模型必须捕获3D场景的细粒度几何结构和动态演变,这对生成模型提出了巨大的挑战。最近基于自回归(AR)的方法已经展示了从历史观测中同时预测车辆运动和未来occupancy场景的潜力,但它们通常存在效率低下、长期生成中的时间退化以及缺乏可控性等问题。为了全面解决这些问题,我们将occupancy世界模型重新定义为时序下一尺度预测(TENS)任务,该任务将时序序列建模问题分解为空间尺度生成和时序场景预测的建模。借助TensFormer,OccTENS可以灵活且可扩展地管理occupancy序列的时序因果关系和空间关系。为了增强姿态可控性,我们进一步提出了一种整体姿态聚合策略,该策略以统一的序列建模方式处理occupancy和自我运动。实验表明,OccTENS优于最先进的方法,具有更高的occupancy质量和更快的推理时间。

🔬 方法详解

问题定义:现有基于自回归的occupancy世界模型生成方法,在长期预测时存在效率低下、时间一致性退化以及缺乏对生成过程的精细控制等问题。这些问题限制了模型在复杂动态环境中的应用。

核心思路:OccTENS的核心思路是将复杂的时序序列建模问题分解为两个更易于处理的子问题:空间尺度上的生成和时间序列上的预测。通过这种分解,模型可以更好地捕捉场景的空间结构和时间动态,从而提高生成质量和效率。同时,引入整体姿态聚合策略,增强了对生成过程的姿态控制。

技术框架:OccTENS的整体框架包含以下几个主要模块:1) TensFormer:用于建模occupancy序列的时序因果关系和空间关系。2) 时序下一尺度预测(TENS):将时序序列建模分解为空间尺度生成和时序场景预测。3) 整体姿态聚合策略:统一建模occupancy和自我运动,增强姿态可控性。模型首先利用历史观测数据,通过TensFormer进行特征提取和时序建模,然后利用TENS进行下一尺度的occupancy预测,最后通过整体姿态聚合策略,结合自我运动信息,生成最终的occupancy世界模型。

关键创新:OccTENS的关键创新在于其将occupancy世界模型生成问题重新定义为时序下一尺度预测(TENS)任务。与传统的自回归方法相比,TENS能够更有效地管理时序因果关系和空间关系,从而提高生成质量和效率。此外,整体姿态聚合策略也是一个重要的创新点,它增强了模型对生成过程的姿态控制。

关键设计:OccTENS的关键设计包括:1) TensFormer:一种专门设计的Transformer结构,用于处理occupancy序列的时序和空间关系。2) 尺度分解策略:将空间尺度分解为多个层级,逐层生成,提高生成效率。3) 整体姿态聚合策略:通过统一的序列建模方式处理occupancy和自我运动,实现更精确的姿态控制。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OccTENS在实验中表现出显著的优势,在occupancy质量和推理速度上均优于现有最佳方法。具体性能数据和对比基线在论文中进行了详细展示(未知),但总体而言,OccTENS能够生成更高质量的occupancy地图,并且推理速度更快,使其更适合于实时应用。

🎯 应用场景

OccTENS在自动驾驶、机器人导航、虚拟现实等领域具有广泛的应用前景。它可以用于预测车辆周围环境的未来状态,帮助自动驾驶系统做出更安全的决策。在机器人导航中,OccTENS可以用于生成环境地图,帮助机器人规划路径。在虚拟现实中,OccTENS可以用于生成逼真的3D场景,提升用户体验。该研究的实际价值在于提高自动驾驶和机器人系统的安全性和可靠性,并为虚拟现实应用提供更逼真的环境。

📄 摘要(原文)

In this paper, we propose OccTENS, a generative occupancy world model that enables controllable, high-fidelity long-term occupancy generation while maintaining computational efficiency. Different from visual generation, the occupancy world model must capture the fine-grained 3D geometry and dynamic evolution of the 3D scenes, posing great challenges for the generative models. Recent approaches based on autoregression (AR) have demonstrated the potential to predict vehicle movement and future occupancy scenes simultaneously from historical observations, but they typically suffer from \textbf{inefficiency}, \textbf{temporal degradation} in long-term generation and \textbf{lack of controllability}. To holistically address these issues, we reformulate the occupancy world model as a temporal next-scale prediction (TENS) task, which decomposes the temporal sequence modeling problem into the modeling of spatial scale-by-scale generation and temporal scene-by-scene prediction. With a \textbf{TensFormer}, OccTENS can effectively manage the temporal causality and spatial relationships of occupancy sequences in a flexible and scalable way. To enhance the pose controllability, we further propose a holistic pose aggregation strategy, which features a unified sequence modeling for occupancy and ego-motion. Experiments show that OccTENS outperforms the state-of-the-art method with both higher occupancy quality and faster inference time.