SPIRAL: Semantic-Aware Progressive LiDAR Scene Generation and Understanding

📄 arXiv: 2505.22643v3 📥 PDF

作者: Dekai Zhu, Yixuan Hu, Youquan Liu, Dongyue Lu, Lingdong Kong, Slobodan Ilic

分类: cs.CV

发布日期: 2025-05-28 (更新: 2025-12-01)

备注: NeurIPS 2025; 24 pages, 10 figures, 9 tables; Code at https://github.com/worldbench/SPIRAL


💡 一句话要点

提出SPIRAL:一种语义感知的渐进式LiDAR场景生成与理解框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: LiDAR场景生成 扩散模型 语义分割 range-view表示 数据增强

📋 核心要点

  1. 现有LiDAR场景生成方法要么无法生成语义标签,要么依赖预训练模型,导致跨模态一致性差。
  2. SPIRAL提出了一种新型range-view LiDAR扩散模型,能够同时生成深度、反射图像和语义地图。
  3. 实验表明,SPIRAL在参数量最小的情况下,性能优于现有方法,并能有效用于数据增强。

📝 摘要(中文)

本文提出了一种名为SPIRAL的新型基于range-view的LiDAR扩散模型,用于同时生成深度图、反射图像和语义地图,从而实现大规模3D场景生成。现有方法要么只能生成无标签的LiDAR场景,要么依赖预训练的分割模型进行语义预测,导致跨模态一致性较差。SPIRAL在保持range-view表示计算效率和网络设计简单等优点的同时,解决了这一局限性。此外,本文还提出了新的语义感知指标来评估生成带标签的range-view数据的质量。在SemanticKITTI和nuScenes数据集上的实验表明,SPIRAL以最小的参数量实现了最先进的性能,优于结合生成模型和分割模型的两步法。生成的range image数据可有效用于下游分割训练中的合成数据增强,显著减少LiDAR数据的标注工作。

🔬 方法详解

问题定义:现有基于LiDAR的大规模3D场景生成方法存在局限性。基于体素的方法虽然可以生成几何结构和语义标签,但计算成本高昂。基于range-view的方法虽然计算效率高,网络设计简单,但通常只能生成无标签的LiDAR场景。依赖预训练分割模型预测语义信息会导致次优的跨模态一致性,无法充分利用生成数据。

核心思路:SPIRAL的核心思路是设计一个能够同时生成深度图、反射图像和语义地图的range-view LiDAR扩散模型。通过在生成过程中直接引入语义信息,避免了对预训练分割模型的依赖,从而提高了跨模态一致性。同时,保留了range-view表示的计算效率优势。

技术框架:SPIRAL的整体架构是一个基于扩散模型的生成框架,输入是噪声图像,输出是深度图、反射图像和语义地图。该框架包含一个扩散过程和一个逆扩散过程。扩散过程逐渐向输入图像添加噪声,逆扩散过程则从噪声中逐步恢复出清晰的图像。在逆扩散过程中,模型同时预测深度、反射率和语义标签。为了评估生成数据的质量,论文还提出了新的语义感知指标。

关键创新:SPIRAL的关键创新在于它是一个能够同时生成几何信息(深度和反射率)和语义信息的range-view LiDAR扩散模型。与现有方法相比,它不需要依赖预训练的分割模型,从而避免了跨模态一致性问题。此外,提出的语义感知指标能够更全面地评估生成数据的质量。

关键设计:SPIRAL的具体实现细节包括:使用了特定的扩散模型架构(具体架构未知),设计了合适的损失函数来训练模型,并定义了新的语义感知指标来评估生成数据的质量。损失函数可能包含深度损失、反射率损失和语义分割损失,以确保生成数据的几何和语义一致性。语义感知指标可能包括评估生成语义标签的准确性和与生成几何结构的对齐程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SPIRAL在SemanticKITTI和nuScenes数据集上取得了state-of-the-art的性能,并且参数量最小,优于两步法(先生成几何信息,再进行语义分割)。实验还证明,SPIRAL生成的range image数据可以有效地用于下游分割训练中的合成数据增强,显著减少了LiDAR数据的标注工作。

🎯 应用场景

SPIRAL生成的带标签LiDAR数据可用于自动驾驶、机器人导航等领域。通过合成数据增强,可以显著减少对真实LiDAR数据的标注需求,降低开发成本。此外,该模型还可用于生成各种场景下的LiDAR数据,用于算法的鲁棒性测试和泛化能力提升。未来,该技术有望推动自动驾驶和机器人技术的快速发展。

📄 摘要(原文)

Leveraging recent diffusion models, LiDAR-based large-scale 3D scene generation has achieved great success. While recent voxel-based approaches can generate both geometric structures and semantic labels, existing range-view methods are limited to producing unlabeled LiDAR scenes. Relying on pretrained segmentation models to predict the semantic maps often results in suboptimal cross-modal consistency. To address this limitation while preserving the advantages of range-view representations, such as computational efficiency and simplified network design, we propose Spiral, a novel range-view LiDAR diffusion model that simultaneously generates depth, reflectance images, and semantic maps. Furthermore, we introduce novel semantic-aware metrics to evaluate the quality of the generated labeled range-view data. Experiments on the SemanticKITTI and nuScenes datasets demonstrate that Spiral achieves state-of-the-art performance with the smallest parameter size, outperforming two-step methods that combine the generative and segmentation models. Additionally, we validate that range images generated by Spiral can be effectively used for synthetic data augmentation in the downstream segmentation training, significantly reducing the labeling effort on LiDAR data.