Image-Plane Geometric Decoding for View-Invariant Indoor Scene Reconstruction

📄 arXiv: 2509.25744v2 📥 PDF

作者: Mingyang Li, Yimeng Fan, Changsong Liu, Lixue Xu, Xin Wang, Yanyan Liu, Wei Zhang

分类: cs.CV

发布日期: 2025-09-30 (更新: 2025-10-27)


💡 一句话要点

提出图像平面几何解码框架,解决室内场景重建对视角依赖问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 室内场景重建 视角不变性 图像平面解码 三维重建 单视角重建

📋 核心要点

  1. 现有基于体素的室内场景重建方法依赖多视角几何约束,视角密度不足时重建质量下降。
  2. 论文提出图像平面解码框架,从单张图像中解码三维结构信息,减少对多视角依赖。
  3. 实验表明,该方法在视角数量减少40%的情况下,仍能保持高质量重建,具有鲁棒性。

📝 摘要(中文)

基于体素的室内场景重建方法具有更好的泛化能力和实时部署潜力。然而,现有方法依赖于多视角像素反投影光线相交作为弱几何约束来确定空间位置,导致重建质量严重受输入视角密度的影响,在重叠区域和未观察区域性能下降。为了解决这些限制,我们通过利用单视角内的空间信息来减少对视角间几何约束的依赖。我们提出了一个图像平面解码框架,包含像素级置信度编码器、仿射补偿模块和图像平面空间解码器三个核心组件,通过物理成像过程解码图像中编码的三维结构信息。该框架有效地保留了空间几何特征,包括边缘、空心结构和复杂纹理,显著增强了视角不变重建。在室内场景重建数据集上的实验证实了卓越的重建稳定性。我们的方法在视角数量减少40%时,仍能保持几乎相同的质量,实现了0.24%的变异系数、99.7%的性能保持率和0.42%的最大性能下降。这些结果表明,利用视角内空间信息为实际应用中视角受限的场景提供了一个鲁棒的解决方案。

🔬 方法详解

问题定义:现有基于体素的室内场景重建方法依赖于多视角几何约束,即通过多视角像素反投影光线相交来确定空间位置。这种方法的痛点在于,当输入视角密度不足时,重建质量会显著下降,尤其是在视角重叠区域和未观测到的区域,导致重建结果不稳定且容易出现伪影。

核心思路:论文的核心思路是从单张图像中提取和利用空间信息,从而减少对多视角几何约束的依赖。通过设计图像平面解码框架,将图像中的像素信息转化为三维结构信息,从而实现视角不变的重建。这样,即使在视角数量有限的情况下,也能保持较高的重建质量。

技术框架:整体框架包含三个主要模块:1) 像素级置信度编码器:用于编码每个像素的置信度,反映其在三维重建中的可靠性。2) 仿射补偿模块:用于补偿由于视角变化引起的图像仿射变换,从而提高特征匹配的准确性。3) 图像平面空间解码器:用于解码图像中的三维结构信息,例如边缘、空心结构和复杂纹理。整个流程是从单张图像输入开始,经过这三个模块的处理,最终输出三维场景的重建结果。

关键创新:最重要的技术创新点在于将三维重建问题转化为图像平面上的解码问题。与传统方法依赖多视角几何约束不同,该方法侧重于从单张图像中提取空间信息,从而减少了对视角数量的依赖。这种方法能够更好地处理视角受限的场景,并提高重建的鲁棒性。

关键设计:论文中没有详细描述具体的参数设置、损失函数和网络结构等技术细节。但是,可以推断,像素级置信度编码器可能使用了卷积神经网络来提取像素特征并预测置信度;仿射补偿模块可能使用了光流估计或特征匹配等技术来估计图像之间的仿射变换;图像平面空间解码器可能使用了深度学习模型来解码图像中的三维结构信息。具体的损失函数可能包括重建损失、几何一致性损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在视角数量减少40%的情况下,仍能保持几乎相同的重建质量,实现了0.24%的变异系数、99.7%的性能保持率和0.42%的最大性能下降。这些数据表明,该方法在视角受限的场景下具有显著的优势,能够提供更稳定和鲁棒的重建结果。与现有方法相比,该方法在视角不变性方面取得了显著提升。

🎯 应用场景

该研究成果可应用于室内机器人导航、虚拟现实、增强现实、三维地图构建等领域。在视角受限或遮挡严重的场景下,该方法能够提供更稳定和准确的场景重建结果,具有重要的实际应用价值。未来,该方法可以进一步扩展到室外场景重建,并与其他传感器数据融合,以提高重建的精度和完整性。

📄 摘要(原文)

Volume-based indoor scene reconstruction methods offer superior generalization capability and real-time deployment potential. However, existing methods rely on multi-view pixel back-projection ray intersections as weak geometric constraints to determine spatial positions. This dependence results in reconstruction quality being heavily influenced by input view density. Performance degrades in overlapping regions and unobserved areas.To address these limitations, we reduce dependency on inter-view geometric constraints by exploiting spatial information within individual views. We propose an image-plane decoding framework with three core components: Pixel-level Confidence Encoder, Affine Compensation Module, and Image-Plane Spatial Decoder. These modules decode three-dimensional structural information encoded in images through physical imaging processes. The framework effectively preserves spatial geometric features including edges, hollow structures, and complex textures. It significantly enhances view-invariant reconstruction.Experiments on indoor scene reconstruction datasets confirm superior reconstruction stability. Our method maintains nearly identical quality when view count reduces by 40%. It achieves a coefficient of variation of 0.24%, performance retention rate of 99.7%, and maximum performance drop of 0.42%. These results demonstrate that exploiting intra-view spatial information provides a robust solution for view-limited scenarios in practical applications.