GeoComplete: Geometry-Aware Diffusion for Reference-Driven Image Completion
作者: Beibei Lin, Tingting Chen, Robby T. Tan
分类: cs.CV
发布日期: 2025-10-03
备注: Accepted by NeurIPS 2025. Project page: https://bb12346.github.io/GeoComplete/
💡 一句话要点
GeoComplete:提出几何感知扩散模型,用于参考图像驱动的图像补全,显著提升几何一致性。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 图像补全 参考图像驱动 扩散模型 几何感知 点云 三维重建 计算机视觉
📋 核心要点
- 现有参考图像驱动的图像补全方法在目标视图与参考视图差异大时,由于缺乏几何信息,容易产生错位或不合理的内容。
- GeoComplete通过将扩散过程建立在投影点云的基础上,并结合目标感知掩码策略,显式地引入3D结构指导,增强补全区域的几何一致性。
- 实验结果表明,GeoComplete在图像补全任务上,相比现有方法实现了显著的性能提升,PSNR指标提升了17.1。
📝 摘要(中文)
参考图像驱动的图像补全,即利用额外的图像来恢复目标视图中缺失的区域,当目标视图与参考视图差异显著时,极具挑战性。现有的生成方法仅依赖于扩散先验,缺乏相机位姿或深度等几何线索,常常产生错位或不合理的内容。我们提出了GeoComplete,一种新颖的框架,它结合了显式的3D结构指导,以增强补全区域的几何一致性,这使其与先前的仅使用图像的方法不同。GeoComplete引入了两个关键思想:将扩散过程建立在投影点云的基础上,以注入几何信息;应用目标感知掩码,以引导模型关注相关的参考线索。该框架采用双分支扩散架构。一个分支从掩码后的目标图像合成缺失区域,另一个分支从投影点云中提取几何特征。跨分支的联合自注意力确保了连贯和准确的补全。为了处理在参考图像中可见但在目标图像中缺失的区域,我们将目标视图投影到每个参考图像中,以检测遮挡区域,并在训练期间对这些区域进行掩码。这种目标感知掩码引导模型专注于有用的线索,从而提高了在困难场景中的性能。通过将几何感知的双分支扩散架构与目标感知掩码策略相结合,GeoComplete为几何条件下的图像补全提供了一个统一而鲁棒的解决方案。实验表明,GeoComplete比最先进的方法实现了17.1 PSNR的提升,显著提高了几何精度,同时保持了较高的视觉质量。
🔬 方法详解
问题定义:参考图像驱动的图像补全旨在利用参考图像的信息来恢复目标图像中缺失的区域。现有方法主要依赖于图像信息和扩散模型,当目标图像和参考图像视角差异较大时,缺乏几何约束导致补全结果出现几何失真和不一致性,影响视觉效果。
核心思路:GeoComplete的核心思路是将几何信息显式地融入到图像补全过程中。通过将参考图像的3D信息(例如点云)投影到目标图像上,并以此作为扩散模型的条件,引导模型生成几何上一致的补全结果。此外,还引入了目标感知掩码,以关注对目标图像补全有用的参考图像区域。
技术框架:GeoComplete采用双分支扩散架构。一个分支处理带掩码的目标图像,负责生成缺失区域的内容;另一个分支处理从参考图像投影得到的点云,提取几何特征。两个分支通过联合自注意力机制进行信息交互,确保补全结果在视觉和几何上的一致性。此外,还使用了目标感知掩码策略,通过将目标视图投影到参考视图中,检测遮挡区域,并在训练时将其掩盖,从而使模型专注于有用的参考信息。
关键创新:GeoComplete的关键创新在于将3D几何信息显式地引入到参考图像驱动的图像补全任务中。与现有方法仅依赖图像信息不同,GeoComplete利用点云投影作为几何约束,指导扩散模型生成更准确、更真实的补全结果。目标感知掩码策略进一步提升了模型在复杂场景下的性能。
关键设计:GeoComplete的关键设计包括:1) 使用预训练的深度估计模型生成参考图像的点云;2) 将点云投影到目标图像上,并将其作为扩散模型的条件输入;3) 设计双分支扩散架构,分别处理图像和几何信息;4) 使用联合自注意力机制融合两个分支的信息;5) 采用目标感知掩码策略,过滤掉无用的参考信息。具体的损失函数和网络结构细节未在摘要中详细说明,属于未知信息。
📊 实验亮点
GeoComplete在参考图像驱动的图像补全任务上取得了显著的性能提升。实验结果表明,GeoComplete相比于最先进的方法,在PSNR指标上提升了17.1,表明其在几何精度和视觉质量方面均有显著优势。该结果验证了将几何信息融入图像补全过程的有效性。
🎯 应用场景
GeoComplete在三维重建、虚拟现实、自动驾驶等领域具有广泛的应用前景。例如,在三维重建中,可以利用该方法补全由于遮挡或传感器限制而缺失的图像区域,提高重建的完整性和准确性。在自动驾驶中,可以用于修复被车辆或其他物体遮挡的道路区域,提高环境感知能力和安全性。
📄 摘要(原文)
Reference-driven image completion, which restores missing regions in a target view using additional images, is particularly challenging when the target view differs significantly from the references. Existing generative methods rely solely on diffusion priors and, without geometric cues such as camera pose or depth, often produce misaligned or implausible content. We propose GeoComplete, a novel framework that incorporates explicit 3D structural guidance to enforce geometric consistency in the completed regions, setting it apart from prior image-only approaches. GeoComplete introduces two key ideas: conditioning the diffusion process on projected point clouds to infuse geometric information, and applying target-aware masking to guide the model toward relevant reference cues. The framework features a dual-branch diffusion architecture. One branch synthesizes the missing regions from the masked target, while the other extracts geometric features from the projected point cloud. Joint self-attention across branches ensures coherent and accurate completion. To address regions visible in references but absent in the target, we project the target view into each reference to detect occluded areas, which are then masked during training. This target-aware masking directs the model to focus on useful cues, enhancing performance in difficult scenarios. By integrating a geometry-aware dual-branch diffusion architecture with a target-aware masking strategy, GeoComplete offers a unified and robust solution for geometry-conditioned image completion. Experiments show that GeoComplete achieves a 17.1 PSNR improvement over state-of-the-art methods, significantly boosting geometric accuracy while maintaining high visual quality.