GSRender: Deduplicated Occupancy Prediction via Weakly Supervised 3D Gaussian Splatting

📄 arXiv: 2412.14579v2 📥 PDF

作者: Qianpu Sun, Changyong Shu, Sifan Zhou, Runxi Cheng, Yongxian Wei, Zichen Yu, Dawei Yang, Sirui Han, Yuan Chun

分类: cs.CV, cs.AI

发布日期: 2024-12-19 (更新: 2025-12-22)

🔗 代码/项目: GITHUB


💡 一句话要点

GSRender:基于弱监督3D高斯溅射的去重占用预测,提升自动驾驶感知性能

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D占用预测 弱监督学习 高斯溅射 自动驾驶 射线补偿 动态损失 NeRF 场景理解

📋 核心要点

  1. 现有NeRF方法在弱监督3D占用预测中,难以平衡采样数量,导致精度和效率难以兼顾,性能波动大。
  2. GSRender利用3D高斯溅射简化采样,提出射线补偿模块减少重复预测,并重新设计动态损失以消除动态对象的影响。
  3. 实验结果表明,GSRender在RayIoU指标上取得了当前最佳性能,显著提升了弱监督占用预测的精度。

📝 摘要(中文)

本文提出GSRender,一种用于室外环境下基于视觉的自动驾驶弱监督3D占用预测方法。现有基于NeRF的方法在样本数量平衡上存在挑战,过多降低效率,过少影响精度,导致mIoU波动较大。此外,现有方法仅从每个视角渲染单张图像,导致预测重复,影响实用性。GSRender利用3D高斯溅射简化采样过程,并引入射线补偿模块减少重复预测,通过补偿相邻帧的特征实现。同时,重新设计动态损失,消除相邻帧动态对象的影响。实验表明,GSRender在RayIoU上取得了SOTA结果(+6.0),并缩小了与3D监督方法的差距,为弱监督占用感知奠定了基础。

🔬 方法详解

问题定义:论文旨在解决弱监督3D占用预测中,基于NeRF的方法存在的样本数量平衡问题和预测重复问题。现有方法在采样时,样本数量过多会导致效率降低,过少则会影响精度,导致性能波动。此外,由于仅从每个视角渲染单张图像,导致预测结果存在大量重复,影响了方法的实际应用价值。

核心思路:论文的核心思路是利用3D高斯溅射(3D Gaussian Splatting)来简化采样过程,并引入射线补偿模块来减少重复预测。3D高斯溅射能够更高效地表示场景,从而减少采样需求。射线补偿模块则通过补偿相邻帧的特征,减少对单帧图像的依赖,从而降低预测重复。

技术框架:GSRender的整体框架包含以下几个主要模块:1) 3D高斯溅射表示:使用3D高斯分布来表示场景;2) 射线采样:从相机视角发射射线,并与3D高斯分布进行交互;3) 特征提取:提取图像特征;4) 射线补偿模块:补偿相邻帧的特征;5) 占用预测:基于提取的特征进行占用预测;6) 动态损失:用于消除动态对象的影响。

关键创新:论文的关键创新点在于:1) 将3D高斯溅射引入到弱监督占用预测中,简化了采样过程,提高了效率;2) 提出了射线补偿模块,通过补偿相邻帧的特征,有效减少了预测重复;3) 重新设计了动态损失,消除了相邻帧动态对象的影响,提高了预测精度。

关键设计:射线补偿模块的具体实现方式是,将相邻帧的图像特征进行对齐,然后通过注意力机制将这些特征融合到当前帧的特征中。动态损失的设计思路是,对动态对象区域的损失进行加权,从而降低动态对象对整体损失的影响。具体的损失函数形式未知,需要在论文原文中查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GSRender在RayIoU指标上取得了SOTA结果,相比之前的最佳方法提升了6.0个百分点,显著缩小了与3D监督方法的差距。这表明GSRender在弱监督3D占用预测方面具有显著的优势,为该领域的研究提供了新的思路。

🎯 应用场景

GSRender在自动驾驶领域具有广泛的应用前景,可以用于车辆的感知系统,帮助车辆更好地理解周围环境,从而提高驾驶安全性。此外,该方法还可以应用于机器人导航、虚拟现实等领域,为这些领域提供更准确、更高效的3D场景理解能力。未来的研究可以进一步探索如何将GSRender与其他感知模态(如激光雷达)进行融合,以提高感知系统的鲁棒性。

📄 摘要(原文)

Weakly-supervised 3D occupancy perception is crucial for vision-based autonomous driving in outdoor environments. Previous methods based on NeRF often face a challenge in balancing the number of samples used. Too many samples can decrease efficiency, while too few can compromise accuracy, leading to variations in the mean Intersection over Union (mIoU) by 5-10 points. Furthermore, even with surrounding-view image inputs, only a single image is rendered from each viewpoint at any given moment. This limitation leads to duplicated predictions, which significantly impacts the practicality of the approach. However, this issue has largely been overlooked in existing research. To address this, we propose GSRender, which uses 3D Gaussian Splatting for weakly-supervised occupancy estimation, simplifying the sampling process. Additionally, we introduce the Ray Compensation module, which reduces duplicated predictions by compensating for features from adjacent frames. Finally, we redesign the dynamic loss to remove the influence of dynamic objects from adjacent frames. Extensive experiments show that our approach achieves SOTA results in RayIoU (+6.0), while also narrowing the gap with 3D- supervised methods. This work lays a solid foundation for weakly-supervised occupancy perception. The code is available at https://github.com/Jasper-sudo-Sun/GSRender.