360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception

📄 arXiv: 2312.16268v2 📥 PDF

作者: Zhijie Shen, Chunyu Lin, Junsong Zhang, Lang Nie, Kang Liao, Yao Zhao

分类: cs.CV

发布日期: 2023-12-26 (更新: 2024-08-29)

备注: Accept to TPAMI2024. arXiv admin note: substantial text overlap with arXiv:2303.00971

DOI: 10.1109/TPAMI.2024.3442481

🔗 代码/项目: GITHUB


💡 一句话要点

提出DOPNet,通过正交平面解耦和多视角几何一致性感知实现精准360°全景布局估计。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 全景布局估计 正交平面解耦 多视角几何一致性 无监督自适应 深度学习

📋 核心要点

  1. 现有全景布局估计方法在垂直压缩过程中易混淆平面语义,导致边界恢复不精确,且依赖大量标注数据。
  2. 论文提出DOPNet,通过正交平面解耦网络区分模糊语义,并设计无监督自适应技术利用多视角几何一致性。
  3. 实验结果表明,该方法在单目和多视角布局估计任务上均优于现有最优模型,性能显著提升。

📝 摘要(中文)

现有的全景布局估计方案倾向于从垂直压缩的序列中恢复房间边界,由于压缩过程混淆了不同平面之间的语义,导致结果不精确。此外,这些数据驱动的方法对大量数据标注有迫切需求,而标注工作既费力又耗时。针对第一个问题,我们提出了一种正交平面解耦网络(DOPNet)来区分模糊的语义。DOPNet由三个模块集成,以提供无失真、语义清晰和细节锐利的分离表示,这有利于后续的布局恢复。针对第二个问题,我们提出了一种针对水平深度和比例表示的无监督自适应技术。具体而言,我们引入了一种用于决策级布局分析的优化策略和一种用于特征级多视角聚合的一维成本体积构建方法,这两种方法都旨在充分利用多个视角之间的几何一致性。优化器为网络训练提供了一组可靠的伪标签,而一维成本体积则利用来自其他视角的综合场景信息来丰富每个视图。大量实验表明,我们的解决方案在单目布局估计和多视角布局估计任务上均优于其他SoTA模型。

🔬 方法详解

问题定义:全景布局估计旨在从360°图像中推断出房间的几何结构,例如墙壁、地板和天花板的位置。现有方法,特别是基于单目图像的方法,通常依赖于将全景图像垂直压缩成一个序列,这会导致不同平面(如墙壁、天花板和地板)的语义信息混淆,从而降低布局估计的精度。此外,许多方法依赖于大量标注数据进行训练,而全景布局的标注成本很高。

核心思路:论文的核心思路是通过正交平面解耦来解决语义混淆问题,并利用多视角几何一致性来减少对标注数据的依赖。DOPNet旨在将全景图像分解成语义清晰且无失真的表示,从而更容易区分不同的平面。同时,通过无监督自适应技术,利用多视角信息中的几何约束来生成伪标签,从而减少对人工标注数据的需求。

技术框架:该方法包含两个主要部分:正交平面解耦网络(DOPNet)和无监督自适应技术。DOPNet由三个模块组成,用于生成无失真、语义清晰和细节锐利的分离表示。无监督自适应技术包括一个用于决策级布局分析的优化策略和一个用于特征级多视角聚合的一维成本体积构建方法。优化策略生成伪标签,而一维成本体积则利用多视角信息来增强每个视角的特征表示。整体流程是先使用DOPNet提取特征,然后利用多视角信息进行几何一致性约束,最后通过优化策略和成本体积进行布局估计。

关键创新:该论文的关键创新点在于:1) 提出了正交平面解耦网络(DOPNet),能够有效区分全景图像中不同平面的语义信息,减少语义混淆;2) 提出了基于多视角几何一致性的无监督自适应技术,能够利用多视角信息生成伪标签,从而减少对标注数据的依赖。

关键设计:DOPNet的具体结构未知,但强调了其三个模块的集成,以实现无失真、语义清晰和细节锐利的分离表示。无监督自适应技术中,优化策略的具体实现方式未知,但其目标是生成可靠的伪标签。一维成本体积的构建方法是关键,它通过聚合多视角信息来增强每个视角的特征表示。损失函数的设计也至关重要,需要能够有效地利用伪标签和几何约束来训练网络。

📊 实验亮点

实验结果表明,该方法在单目和多视角布局估计任务上均取得了显著的性能提升。具体数据未知,但论文强调该方法优于其他SoTA模型。无监督自适应技术的引入,使得该方法在标注数据有限的情况下也能取得良好的性能,具有重要的实际意义。

🎯 应用场景

该研究成果可应用于机器人导航、虚拟现实、增强现实等领域。在机器人导航中,准确的全景布局估计可以帮助机器人理解周围环境,从而实现更智能的路径规划和避障。在虚拟现实和增强现实中,该技术可以用于构建更逼真的虚拟场景,提升用户体验。此外,该技术还可以应用于室内设计、建筑建模等领域。

📄 摘要(原文)

Existing panoramic layout estimation solutions tend to recover room boundaries from a vertically compressed sequence, yielding imprecise results as the compression process often muddles the semantics between various planes. Besides, these data-driven approaches impose an urgent demand for massive data annotations, which are laborious and time-consuming. For the first problem, we propose an orthogonal plane disentanglement network (termed DOPNet) to distinguish ambiguous semantics. DOPNet consists of three modules that are integrated to deliver distortion-free, semantics-clean, and detail-sharp disentangled representations, which benefit the subsequent layout recovery. For the second problem, we present an unsupervised adaptation technique tailored for horizon-depth and ratio representations. Concretely, we introduce an optimization strategy for decision-level layout analysis and a 1D cost volume construction method for feature-level multi-view aggregation, both of which are designed to fully exploit the geometric consistency across multiple perspectives. The optimizer provides a reliable set of pseudo-labels for network training, while the 1D cost volume enriches each view with comprehensive scene information derived from other perspectives. Extensive experiments demonstrate that our solution outperforms other SoTA models on both monocular layout estimation and multi-view layout estimation tasks. Cobe can be available at https://github.com/zhijieshen-bjtu/MV-DOPNet.