Rethinking Multimodal Point Cloud Completion: A Completion-by-Correction Perspective

📄 arXiv: 2511.12170v2 📥 PDF

作者: Wang Luo, Di Wu, Hengyuan Na, Yinlin Zhu, Miao Hu, Guocong Quan

分类: cs.CV, cs.AI

发布日期: 2025-11-15 (更新: 2025-12-01)

备注: Accepted by AAAI 2026


💡 一句话要点

提出Completion-by-Correction方法以解决点云补全中的结构不一致问题

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 点云补全 多模态技术 3D重建 结构一致性 特征校正 深度学习 机器人导航 虚拟现实

📋 核心要点

  1. 现有的点云补全方法多依赖于Completion-by-Inpainting范式,导致生成的结构存在不一致性和拓扑伪影。
  2. 本文提出Completion-by-Correction范式,通过预训练模型生成拓扑完整的形状先验,并进行特征空间校正以实现更精确的补全。
  3. PGNet框架在ShapeNetViPC数据集上表现优异,平均Chamfer距离减少23.5%,F-score提升7.1%,超越了现有的最先进方法。

📝 摘要(中文)

点云补全旨在从部分观测中重建完整的3D形状,但由于严重的遮挡和几何缺失,这一问题具有挑战性。尽管近年来多模态技术取得了进展,利用RGB图像补偿缺失几何,但大多数方法仍遵循Completion-by-Inpainting范式,导致结构不一致和拓扑伪影。为此,本文提出了一种新的Completion-by-Correction范式,利用预训练的图像到3D模型生成拓扑完整的形状先验,并通过特征空间校正与部分观测对齐。基于此,提出了PGNet框架,通过双特征编码和逐步细化几何细节,显著提升了补全效果。实验结果显示,PGNet在ShapeNetViPC数据集上相较于最先进的基线在平均Chamfer距离上提升了23.5%,F-score提升了7.1%。

🔬 方法详解

问题定义:本文解决的是点云补全中的结构不一致性和拓扑伪影问题。现有方法在合成缺失结构时,常常受到几何和语义约束的限制,导致生成结果不理想。

核心思路:提出Completion-by-Correction范式,首先生成一个拓扑完整的形状先验,然后通过特征空间校正将其与部分观测对齐。这种方法从无约束的合成转向有指导的细化,确保生成结果的结构一致性。

技术框架:PGNet框架由多个阶段组成,包括双特征编码以固定生成先验,合成粗略的结构对齐支架,并通过分层校正逐步细化几何细节。

关键创新:最重要的创新在于将补全任务重新定义为基于校正的过程,而非单纯的合成。这一转变使得生成的3D形状在结构上更加一致,且与观测数据更为对齐。

关键设计:PGNet采用了多阶段的特征编码和校正机制,设计了特定的损失函数以优化结构一致性,并利用预训练的图像到3D模型作为形状先验,确保生成结果的质量。

📊 实验亮点

PGNet在ShapeNetViPC数据集上的实验结果显示,平均Chamfer距离减少了23.5%,F-score提升了7.1%。这些结果表明,PGNet在点云补全任务中显著优于现有的最先进方法,验证了Completion-by-Correction范式的有效性。

🎯 应用场景

该研究在自动驾驶、机器人导航、虚拟现实等领域具有广泛的应用潜力。通过提高点云补全的准确性,可以增强3D环境的理解和交互能力,为智能系统提供更可靠的空间信息,推动相关技术的发展。未来,该方法可能在更复杂的场景中得到应用,进一步提升3D重建的效果和效率。

📄 摘要(原文)

Point cloud completion aims to reconstruct complete 3D shapes from partial observations, which is a challenging problem due to severe occlusions and missing geometry. Despite recent advances in multimodal techniques that leverage complementary RGB images to compensate for missing geometry, most methods still follow a Completion-by-Inpainting paradigm, synthesizing missing structures from fused latent features. We empirically show that this paradigm often results in structural inconsistencies and topological artifacts due to limited geometric and semantic constraints. To address this, we rethink the task and propose a more robust paradigm, termed Completion-by-Correction, which begins with a topologically complete shape prior generated by a pretrained image-to-3D model and performs feature-space correction to align it with the partial observation. This paradigm shifts completion from unconstrained synthesis to guided refinement, enabling structurally consistent and observation-aligned reconstruction. Building upon this paradigm, we introduce PGNet, a multi-stage framework that conducts dual-feature encoding to ground the generative prior, synthesizes a coarse yet structurally aligned scaffold, and progressively refines geometric details via hierarchical correction. Experiments on the ShapeNetViPC dataset demonstrate the superiority of PGNet over state-of-the-art baselines in terms of average Chamfer Distance (-23.5%) and F-score (+7.1%).