Outdoor Scene Extrapolation with Hierarchical Generative Cellular Automata
作者: Dongsu Zhang, Francis Williams, Zan Gojcic, Karsten Kreis, Sanja Fidler, Young Min Kim, Amlan Kar
分类: cs.CV
发布日期: 2024-06-12
备注: Accepted to CVPR 2024 as highlight
💡 一句话要点
提出分层生成细胞自动机,用于大规模室外场景几何体的外推生成。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 三维重建 生成模型 细胞自动机 自动驾驶 场景外推 LiDAR数据 分层生成
📋 核心要点
- 现有方法难以从稀疏LiDAR数据生成大规模、精细的室外场景几何体,尤其是在扫描范围之外。
- 论文提出分层生成细胞自动机(hGCA),通过局部内核递归地生成几何体,并使用轻量级规划器保证全局一致性。
- 实验表明,hGCA在合成和真实数据集上均优于现有方法,能够生成更逼真、完整的场景几何体,并具备一定的泛化能力。
📝 摘要(中文)
本文旨在从自动驾驶车辆(AV)大量捕获的稀疏LiDAR扫描中生成精细的3D几何体。与先前关于AV场景补全的工作不同,我们的目标是从LiDAR扫描的未标记数据和空间限制之外外推精细几何体,朝着生成逼真的、高分辨率的、可用于仿真的3D街道环境迈出一步。我们提出分层生成细胞自动机(hGCA),这是一种空间可扩展的条件3D生成模型,它以粗到精的方式,通过局部内核递归地增长几何体,并配备了一个轻量级规划器来诱导全局一致性。在合成场景上的实验表明,与最先进的基线相比,hGCA生成了具有更高保真度和完整性的合理场景几何体。我们的模型从模拟到真实具有很强的泛化能力,在Waymo开放数据集上定性地优于基线。我们还展示了从真实世界几何线索创建新颖对象的能力的佐证,即使在有限的合成内容上进行训练。
🔬 方法详解
问题定义:论文旨在解决从稀疏LiDAR扫描数据中生成大规模、高分辨率的室外场景几何体的问题。现有方法通常集中于场景补全,即填充LiDAR扫描中的缺失部分,而本文的目标是外推,即在扫描范围之外生成新的几何体。现有方法在生成大规模场景时,往往面临计算量大、全局一致性难以保证等问题。
核心思路:论文的核心思路是利用分层生成细胞自动机(hGCA)模拟几何体的生长过程。细胞自动机是一种基于局部规则的并行计算模型,非常适合生成复杂的几何结构。通过分层结构,hGCA可以从粗到精地生成几何体,从而提高生成效率和质量。轻量级规划器则用于保证生成几何体的全局一致性。
技术框架:hGCA的整体架构包含以下几个主要模块:1) 粗糙层生成器:生成场景的粗略几何结构;2) 精细层生成器:在粗糙几何结构的基础上,生成更精细的几何细节;3) 轻量级规划器:用于保证生成几何体的全局一致性。整个生成过程是递归的,即每一层生成器都基于上一层的结果进行生成。
关键创新:hGCA的关键创新在于其分层结构和轻量级规划器。分层结构使得模型能够从粗到精地生成几何体,从而提高生成效率和质量。轻量级规划器则用于保证生成几何体的全局一致性,避免出现不合理的几何结构。此外,hGCA采用细胞自动机作为生成模型,具有天然的并行性和可扩展性。
关键设计:hGCA的关键设计包括:1) 细胞自动机的局部规则:定义了每个细胞如何根据其邻居的状态更新自身的状态;2) 分层结构的层数和每层的分辨率:决定了生成几何体的精细程度;3) 轻量级规划器的目标函数:用于衡量生成几何体的全局一致性。损失函数包括几何一致性损失、对抗损失等,用于提高生成几何体的真实感。
🖼️ 关键图片
📊 实验亮点
实验结果表明,hGCA在合成场景和真实场景上均优于现有方法。在合成场景上,hGCA生成了具有更高保真度和完整性的几何体。在Waymo开放数据集上,hGCA在视觉质量上优于基线方法。此外,hGCA还展示了从真实世界几何线索创建新颖对象的能力,即使在有限的合成数据上进行训练。
🎯 应用场景
该研究成果可应用于自动驾驶仿真、游戏场景生成、城市规划等领域。通过生成逼真的3D街道环境,可以为自动驾驶车辆的测试和验证提供更可靠的仿真数据。在游戏领域,可以快速生成各种复杂的场景,提高游戏开发效率。在城市规划领域,可以用于模拟城市的发展变化,为决策提供支持。
📄 摘要(原文)
We aim to generate fine-grained 3D geometry from large-scale sparse LiDAR scans, abundantly captured by autonomous vehicles (AV). Contrary to prior work on AV scene completion, we aim to extrapolate fine geometry from unlabeled and beyond spatial limits of LiDAR scans, taking a step towards generating realistic, high-resolution simulation-ready 3D street environments. We propose hierarchical Generative Cellular Automata (hGCA), a spatially scalable conditional 3D generative model, which grows geometry recursively with local kernels following, in a coarse-to-fine manner, equipped with a light-weight planner to induce global consistency. Experiments on synthetic scenes show that hGCA generates plausible scene geometry with higher fidelity and completeness compared to state-of-the-art baselines. Our model generalizes strongly from sim-to-real, qualitatively outperforming baselines on the Waymo-open dataset. We also show anecdotal evidence of the ability to create novel objects from real-world geometric cues even when trained on limited synthetic content. More results and details can be found on https://research.nvidia.com/labs/toronto-ai/hGCA/.