Delta-Triplane Transformers as Occupancy World Models

作者: Haoran Xu, Peixi Peng, Guang Tan, Yiqian Chang, Yisen Zhao, Yonghong Tian

分类: cs.RO, cs.AI

发布日期: 2025-03-10 (更新: 2025-11-29)

💡 一句话要点

提出Delta-Triplane Transformer，用于高效预测自动驾驶场景中的占用世界模型

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 占用世界模型 自动驾驶 三平面表示 增量预测 Transformer 运动规划

📋 核心要点

现有占用世界模型计算成本高昂且存在冗余，难以高效预测未来场景。
DTT通过三平面表示压缩3D占用信息，并采用增量预测策略建模占用变化。
实验表明，DTT在速度、精度和规划误差方面均优于现有技术，具有显著优势。

📝 摘要（中文）

占用世界模型（OWM）旨在通过环境的3D体素化表示来预测未来场景，以支持智能运动规划。现有方法通常从VAE风格的潜在编码生成完整的未来占用状态，这可能在计算上既昂贵又冗余。我们提出Delta-Triplane Transformers（DTT），一种用于自动驾驶的新型4D OWM，它引入了两项关键创新：（1）一种基于三平面的表示，比以前的方法更紧凑地编码3D占用；（2）一种用于OWM的增量预测策略，该策略对占用的{\em 变化}进行建模，而不是处理完整状态。核心思想是，紧凑的3D潜在空间中的变化自然更稀疏且更易于建模，从而能够以更轻量级的架构实现更高的精度。在此表示的基础上，DTT从历史数据中提取多尺度运动特征，并迭代预测未来的三平面增量。这些增量与过去的状态相结合，以解码未来的占用和自运动轨迹。大量实验表明，DTT比最先进的技术实现了1.44倍的加速（26 FPS），将平均IoU提高到30.85，并将平均绝对规划误差降低到1.0米。演示视频在补充材料中提供。

🔬 方法详解

问题定义：现有占用世界模型（OWM）方法通常直接预测未来完整的3D体素占用状态，这种方式计算量大，效率低，并且存在信息冗余。尤其是在自动驾驶等动态场景中，大部分区域的占用状态在短时间内并不会发生显著变化，因此对整个场景进行预测会浪费计算资源。

核心思路：DTT的核心思路是关注占用状态的变化，而不是直接预测完整的未来状态。通过建模占用状态的增量（delta），可以利用场景变化的稀疏性，从而降低计算复杂度并提高预测精度。此外，DTT采用三平面表示来压缩3D占用信息，进一步提升了效率。

技术框架：DTT的整体架构包括以下几个主要模块：1) 历史数据编码器：从历史的传感器数据（如激光雷达点云）中提取多尺度运动特征。2) 三平面表示：将3D占用信息编码到三个正交的平面上，形成紧凑的潜在空间表示。3) Delta预测器：基于历史运动特征，迭代预测未来三平面表示的增量（delta）。4) 解码器：将预测的增量与过去的状态相结合，解码出未来的占用状态和自运动轨迹。

关键创新：DTT的关键创新在于两个方面：1) 三平面表示：相比于传统的体素化表示，三平面表示更加紧凑，能够有效降低计算量。2) 增量预测：通过预测占用状态的增量，而不是直接预测完整状态，可以利用场景变化的稀疏性，提高预测效率和精度。与现有方法直接预测完整占用状态不同，DTT关注的是占用状态的变化，这使得模型能够更有效地利用计算资源，并获得更高的预测精度。

关键设计：DTT使用Transformer网络作为Delta预测器的核心组件，利用其强大的序列建模能力来预测未来的三平面增量。损失函数包括占用预测损失（衡量预测占用状态与真实状态的差异）和自运动预测损失（衡量预测自运动轨迹与真实轨迹的差异）。具体的网络结构和参数设置（如Transformer的层数、头数等）未知，可能在论文的补充材料中给出。

🖼️ 关键图片

📊 实验亮点

DTT在实验中表现出色，相较于现有技术，实现了1.44倍的加速（达到26 FPS），显著提升了运行效率。同时，平均IoU（交并比）提高到30.85，表明预测精度得到了有效提升。此外，平均绝对规划误差降低到1.0米，说明DTT能够为自动驾驶车辆提供更准确的运动规划。

🎯 应用场景

DTT作为一种高效的占用世界模型，在自动驾驶领域具有广泛的应用前景。它可以用于预测周围环境的未来状态，从而帮助自动驾驶车辆进行更安全、更智能的运动规划和决策。此外，该方法还可以应用于机器人导航、虚拟现实等领域，为这些应用提供更准确、更高效的环境建模能力。

📄 摘要（原文）

Occupancy World Models (OWMs) aim to predict future scenes via 3D voxelized representations of the environment to support intelligent motion planning. Existing approaches typically generate full future occupancy states from VAE-style latent encodings, which can be computationally expensive and redundant. We propose Delta-Triplane Transformers (DTT), a novel 4D OWM for autonomous driving, that introduces two key innovations: (1) a triplane based representation that encodes 3D occupancy more compactly than previous approaches, and (2) an incremental prediction strategy for OWM that models {\em changes} in occupancy rather than dealing with full states. The core insight is that changes in the compact 3D latent space are naturally sparser and easier to model, enabling higher accuracy with a lighter-weight architecture. Building on this representation, DTT extracts multi-scale motion features from historical data and iteratively predict future triplane deltas. These deltas are combined with past states to decode future occupancy and ego-motion trajectories. Extensive experiments demonstrate that DTT delivers a 1.44$\times$ speedup (26 FPS) over the state of the art, improves mean IoU to 30.85, and reduces the mean absolute planning error to 1.0 meters. Demo videos are provided in the supplementary material.

Delta-Triplane Transformers as Occupancy World Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理