SuperQuadricOcc: Multi-Layer Gaussian Approximation of Superquadrics for Real-Time Self-Supervised Occupancy Estimation

📄 arXiv: 2511.17361 📥 PDF

作者: Seamie Hayes, Reenu Mohandas, Tim Brophy, Alexandre Boulch, Ganesh Sistu, Ciaran Eising

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

提出SuperQuadricOcc,利用超二次曲面实现实时自监督占据估计,显著降低内存占用。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 占据估计 超二次曲面 高斯近似 自监督学习 实时推理 自动驾驶 场景理解

📋 核心要点

  1. 现有基于高斯分布的占据估计方法内存需求高,难以实现实时推理。
  2. SuperQuadricOcc利用超二次曲面表示场景,并通过多层高斯近似实现自监督训练。
  3. 实验表明,该方法在内存占用、推理速度和精度上均优于现有方法,并实现了实时推理。

📝 摘要(中文)

语义占据估计为自动驾驶提供全面的场景理解,提供密集的空间和语义信息,这对于感知和规划至关重要。虽然高斯表示已广泛应用于自监督占据估计,但大量高斯基元的部署会急剧增加内存需求,不适合实时推理。相比之下,超二次曲面由于其多样化的形状集,允许减少基元数量并降低内存需求。然而,由于缺乏超二次曲面光栅化器来实现模型监督,将其实现到自监督占据模型中并非易事。我们提出的方法SuperQuadricOcc采用基于超二次曲面的场景表示。通过利用超二次曲面的多层icosphere-tessellated高斯近似,我们能够在训练期间进行高斯光栅化以进行监督。在Occ3D数据集上,SuperQuadricOcc与之前基于高斯的方法相比,内存占用减少了75%,推理速度提高了124%,mIoU提高了5.9%,且未使用时间标签。据我们所知,这是第一个在保持竞争性能的同时实现实时推理的占据模型。相对于基于高斯的方法,使用超二次曲面可将场景建模所需的基元数量减少84%。最后,我们的快速超二次曲面体素化模块有助于评估先前的方法。

🔬 方法详解

问题定义:论文旨在解决自动驾驶场景下,语义占据估计中现有基于高斯分布的方法内存占用高、难以实时推理的问题。现有方法需要大量高斯基元来表示场景,导致内存需求急剧增加,限制了其在资源受限平台上的应用。

核心思路:论文的核心思路是使用超二次曲面来表示场景。超二次曲面可以用更少的参数表示更复杂的形状,从而减少基元数量和内存占用。为了解决超二次曲面难以直接用于自监督训练的问题,论文提出了多层高斯近似方法,将超二次曲面近似为多个高斯分布的组合,从而可以使用高斯光栅化进行监督。

技术框架:SuperQuadricOcc的整体框架包括以下几个主要模块:1) 超二次曲面参数预测模块:用于预测场景中每个对象的超二次曲面参数。2) 多层高斯近似模块:将每个超二次曲面近似为多个高斯分布的组合。3) 高斯光栅化模块:使用高斯光栅化技术将高斯分布渲染到体素网格中,生成占据概率。4) 自监督损失函数:使用点云数据作为监督信号,训练模型预测准确的占据概率。

关键创新:论文最重要的技术创新点在于提出了基于多层高斯近似的超二次曲面表示方法。该方法结合了超二次曲面高效的形状表示能力和高斯分布易于光栅化的优点,实现了实时、高效的占据估计。与现有基于高斯分布的方法相比,该方法显著减少了内存占用和计算量。

关键设计:论文的关键设计包括:1) 使用icosphere-tessellated方法生成多层高斯近似,保证了近似的精度和效率。2) 设计了基于点云数据的自监督损失函数,包括占据损失和空闲损失,用于训练模型预测准确的占据概率。3) 实现了快速超二次曲面体素化模块,用于评估不同方法的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SuperQuadricOcc在Occ3D数据集上取得了显著的性能提升。与之前的基于高斯的方法相比,SuperQuadricOcc内存占用减少了75%,推理速度提高了124%,mIoU提高了5.9%,且未使用时间标签。此外,该方法将场景建模所需的基元数量减少了84%。这些结果表明,SuperQuadricOcc在保持竞争性能的同时,实现了实时推理。

🎯 应用场景

SuperQuadricOcc在自动驾驶、机器人导航、虚拟现实等领域具有广泛的应用前景。它可以为自动驾驶系统提供准确的场景理解,帮助机器人进行路径规划和避障,并为虚拟现实应用提供更真实的场景渲染。该研究的实时性和低内存占用特性使其特别适用于资源受限的嵌入式平台。

📄 摘要(原文)

Semantic occupancy estimation enables comprehensive scene understanding for automated driving, providing dense spatial and semantic information essential for perception and planning. While Gaussian representations have been widely adopted in self-supervised occupancy estimation, the deployment of a large number of Gaussian primitives drastically increases memory requirements and is not suitable for real-time inference. In contrast, superquadrics permit reduced primitive count and lower memory requirements due to their diverse shape set. However, implementation into a self-supervised occupancy model is nontrivial due to the absence of a superquadric rasterizer to enable model supervision. Our proposed method, SuperQuadricOcc, employs a superquadric-based scene representation. By leveraging a multi-layer icosphere-tessellated Gaussian approximation of superquadrics, we enable Gaussian rasterization for supervision during training. On the Occ3D dataset, SuperQuadricOcc achieves a 75% reduction in memory footprint, 124% faster inference, and a 5.9% improvement in mIoU compared to previous Gaussian-based methods, without the use of temporal labels. To our knowledge, this is the first occupancy model to enable real-time inference while maintaining competitive performance. The use of superquadrics reduces the number of primitives required for scene modeling by 84% relative to Gaussian-based approaches. Finally, evaluation against prior methods is facilitated by our fast superquadric voxelization module. The code will be made available atthis https URL.