Synthetic Dataset Generation for Partially Observed Indoor Objects

📄 arXiv: 2604.07010v1 📥 PDF

作者: Jelle Vermandere, Maarten Bassier, Maarten Vergauwen

分类: cs.CV

发布日期: 2026-04-08


💡 一句话要点

提出基于Unity的虚拟扫描框架,用于生成部分观测室内物体的合成数据集。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 合成数据集 虚拟扫描 场景重建 物体补全 程序化生成 点云 室内场景

📋 核心要点

  1. 基于学习的3D场景重建和物体补全方法需要大量包含部分扫描和完整ground-truth几何体的数据集,而真实扫描获取成本高昂。
  2. 论文提出一个基于Unity的虚拟扫描框架,通过光线投射模拟真实扫描过程,并结合程序化场景生成技术,高效创建数据集。
  3. 该框架生成了V-Scan数据集,包含部分点云、遮挡信息和完整几何体,可用于训练和评估场景重建和物体补全算法。

📝 摘要(中文)

本文提出了一种在Unity中实现的虚拟扫描框架,用于生成逼真的合成3D扫描数据集。该系统通过可配置的参数(如扫描分辨率、测量范围和距离相关的噪声)来模拟真实扫描仪的行为。与直接采样网格表面不同,该框架执行基于光线的虚拟视点扫描,从而能够真实地模拟传感器可见性和遮挡效果。此外,使用在扫描仪位置捕获的全景图像为生成的点云着色。为了支持可扩展的数据集创建,扫描仪与程序化室内场景生成流程集成,该流程自动生成多样化的房间布局和家具布置。使用该系统,我们引入了V-Scan数据集,其中包含合成室内扫描以及对象级别的部分点云、基于体素的遮挡网格和完整的ground-truth几何体。生成的数据集为训练和评估基于学习的场景重建和对象补全方法提供了有价值的监督。

🔬 方法详解

问题定义:现有基于学习的3D场景重建和物体补全方法依赖于大规模数据集,特别是需要部分扫描数据和对应的完整ground-truth几何信息。然而,使用真实扫描系统获取此类数据集非常昂贵且耗时,尤其是在需要精确的遮挡区域ground-truth时。因此,缺乏高质量、大规模的训练数据成为制约相关算法发展的瓶颈。

核心思路:论文的核心思路是利用虚拟环境和渲染技术,创建一个可配置的虚拟扫描系统,模拟真实扫描仪的工作方式。通过程序化生成多样化的室内场景,并使用虚拟扫描仪进行扫描,可以高效地生成大量带有精确ground-truth信息的合成数据集。这种方法避免了真实扫描的成本和复杂性,并能灵活控制数据的各种属性。

技术框架:该框架主要包含两个核心模块:虚拟扫描仪和程序化室内场景生成器。虚拟扫描仪模拟真实扫描仪的物理特性,如扫描分辨率、测量范围和噪声模型。它通过从虚拟视点发射光线来模拟扫描过程,并考虑遮挡效应。程序化室内场景生成器则负责自动生成多样化的房间布局和家具布置,为扫描仪提供不同的扫描对象和场景。这两个模块协同工作,可以快速生成大规模的合成扫描数据集。

关键创新:该论文的关键创新在于将虚拟扫描和程序化场景生成相结合,实现了一种高效、可扩展的合成数据集生成方法。与传统的直接采样网格表面的方法不同,该框架采用基于光线的扫描方式,能够更真实地模拟传感器可见性和遮挡效果。此外,通过程序化场景生成,可以自动创建多样化的室内环境,从而提高数据集的多样性和泛化能力。

关键设计:虚拟扫描仪的关键参数包括扫描分辨率、测量范围、距离相关的噪声模型以及光线投射的采样策略。程序化场景生成器的关键设计在于如何生成多样化的房间布局和家具布置,例如使用不同的房间形状、家具类型和摆放位置。此外,为了使合成数据更逼真,还使用了全景图像来为点云着色,模拟真实扫描仪的颜色采集过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了V-Scan数据集,包含大量合成室内扫描数据,并提供了对象级别的部分点云、体素化的遮挡网格以及完整的ground-truth几何信息。该数据集为训练和评估基于学习的场景重建和对象补全方法提供了有价值的监督信号,有望推动相关领域的发展。

🎯 应用场景

该研究成果可广泛应用于机器人导航、场景理解、增强现实等领域。合成数据集能够有效提升相关算法在真实环境中的性能和鲁棒性。此外,该框架还可以用于评估不同扫描策略和算法的性能,为相关研究提供有力的支持。

📄 摘要(原文)

Learning-based methods for 3D scene reconstruction and object completion require large datasets containing partial scans paired with complete ground-truth geometry. However, acquiring such datasets using real-world scanning systems is costly and time-consuming, particularly when accurate ground truth for occluded regions is required. In this work, we present a virtual scanning framework implemented in Unity for generating realistic synthetic 3D scan datasets. The proposed system simulates the behaviour of real-world scanners using configurable parameters such as scan resolution, measurement range, and distance-dependent noise. Instead of directly sampling mesh surfaces, the framework performs ray-based scanning from virtual viewpoints, enabling realistic modelling of sensor visibility and occlusion effects. In addition, panoramic images captured at the scanner location are used to assign colours to the resulting point clouds. To support scalable dataset creation, the scanner is integrated with a procedural indoor scene generation pipeline that automatically produces diverse room layouts and furniture arrangements. Using this system, we introduce the \textit{V-Scan} dataset, which contains synthetic indoor scans together with object-level partial point clouds, voxel-based occlusion grids, and complete ground-truth geometry. The resulting dataset provides valuable supervision for training and evaluating learning-based methods for scene reconstruction and object completion.