MTPano: Multi-Task Panoramic Scene Understanding via Label-Free Integration of Dense Prediction Priors

📄 arXiv: 2602.05330v1 📥 PDF

作者: Jingdong Zhang, Xiaohang Zhan, Lingzhi Zhang, Yizhou Wang, Zhengming Yu, Jionghao Wang, Wenping Wang, Xin Li

分类: cs.CV

发布日期: 2026-02-05


💡 一句话要点

MTPano:通过无标签密集预测先验集成实现多任务全景场景理解

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 全景场景理解 多任务学习 无监督学习 伪标签 几何感知 深度估计 语义分割 表面法线估计

📋 核心要点

  1. 现有全景场景理解方法缺乏高分辨率多任务标注数据,且透视基础模型难以直接迁移到全景领域。
  2. MTPano利用透视密集先验生成伪标签,并设计全景双桥网络解耦旋转不变和旋转变体任务的特征流。
  3. 实验表明,MTPano在多个基准测试中达到SOTA,并与特定任务的全景模型相比具有竞争力。

📝 摘要(中文)

全面的全景场景理解对于沉浸式应用至关重要,但由于缺乏高分辨率、多任务标注,这仍然具有挑战性。虽然透视基础模型通过数据扩展取得了成功,但由于严重的几何失真和坐标系差异,直接将它们应用于全景领域通常会失败。此外,球面空间中各种密集预测任务之间的潜在关系尚未得到充分探索。为了应对这些挑战,我们提出了MTPano,这是一个通过无标签训练流程建立的鲁棒的多任务全景基础模型。首先,为了规避数据稀缺问题,我们利用强大的透视密集先验。我们将全景图像投影到透视块中,使用现成的基础模型生成准确的、无领域差距的伪标签,然后重新投影以用作块状监督。其次,为了解决任务类型之间的干扰,我们将任务分为旋转不变(例如,深度、分割)和旋转变体(例如,表面法线)组。我们引入了全景双桥网络(Panoramic Dual BridgeNet),它通过几何感知调制层来解耦这些特征流,这些调制层注入绝对位置和光线方向先验。为了处理等距柱状投影(ERP)的失真,我们结合了ERP token mixers,然后是一个双分支BridgeNet,用于与梯度截断进行交互,从而促进有益的跨任务信息共享,同时阻止来自不兼容任务属性的冲突梯度。此外,我们引入了辅助任务(图像梯度、点图等)来促进跨任务学习过程。大量的实验表明,MTPano在多个基准测试中实现了最先进的性能,并提供了与特定任务的全景专家基础模型相比具有竞争力的结果。

🔬 方法详解

问题定义:论文旨在解决全景场景理解中缺乏高质量多任务标注数据的问题。现有方法要么依赖于少量真实标注数据,要么直接将透视视觉的基础模型迁移到全景图像上,但由于全景图像的几何失真和坐标系差异,直接迁移的效果往往不佳。此外,不同全景场景理解任务(如深度估计、语义分割、表面法线估计)之间的关系没有得到充分利用。

核心思路:论文的核心思路是利用现有的、在透视图像上训练的强大的基础模型,为全景图像生成伪标签,从而避免对大量真实全景图像进行标注。同时,论文设计了一个特殊的网络结构,能够有效地处理全景图像的几何失真,并促进不同任务之间的信息共享,从而实现多任务全景场景理解。

技术框架:MTPano的整体框架包括以下几个主要步骤:1) 将全景图像投影到多个透视图像块;2) 使用预训练的透视视觉基础模型为这些图像块生成伪标签;3) 将伪标签反投影回全景图像;4) 使用全景双桥网络(Panoramic Dual BridgeNet)对全景图像进行多任务学习。全景双桥网络包含两个分支,分别处理旋转不变的任务(如深度估计、语义分割)和旋转变体的任务(如表面法线估计)。网络还包含ERP token mixers,用于处理等距柱状投影(ERP)带来的失真。

关键创新:论文的关键创新点在于:1) 提出了一种无标签的训练流程,利用透视视觉基础模型生成全景图像的伪标签,从而避免了对大量真实全景图像进行标注;2) 设计了全景双桥网络,能够有效地处理全景图像的几何失真,并促进不同任务之间的信息共享;3) 引入了辅助任务(如图像梯度、点图),以进一步提升多任务学习的效果。

关键设计:全景双桥网络的关键设计包括:1) 使用几何感知调制层(geometry-aware modulation layers)来注入绝对位置和光线方向先验,从而更好地处理全景图像的几何失真;2) 使用ERP token mixers来处理等距柱状投影(ERP)带来的失真;3) 使用梯度截断(gradient truncation)来阻止来自不兼容任务属性的冲突梯度,从而促进有益的跨任务信息共享。损失函数包括每个任务的损失函数以及辅助任务的损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MTPano在多个全景场景理解基准测试中取得了显著的性能提升,例如在Matterport3D数据集上,MTPano在深度估计、语义分割和表面法线估计等任务上均达到了SOTA水平,并且与专门针对全景场景理解进行训练的模型相比,也具有竞争力。这表明MTPano能够有效地利用透视视觉基础模型和多任务学习策略,实现高质量的全景场景理解。

🎯 应用场景

MTPano的研究成果可广泛应用于虚拟现实、增强现实、自动驾驶、机器人导航等领域。通过提供准确的全景场景理解,MTPano可以帮助这些应用更好地理解周围环境,从而实现更智能、更沉浸式的用户体验。例如,在自动驾驶中,MTPano可以用于感知周围的车辆、行人、道路等,从而提高驾驶安全性。

📄 摘要(原文)

Comprehensive panoramic scene understanding is critical for immersive applications, yet it remains challenging due to the scarcity of high-resolution, multi-task annotations. While perspective foundation models have achieved success through data scaling, directly adapting them to the panoramic domain often fails due to severe geometric distortions and coordinate system discrepancies. Furthermore, the underlying relations between diverse dense prediction tasks in spherical spaces are underexplored. To address these challenges, we propose MTPano, a robust multi-task panoramic foundation model established by a label-free training pipeline. First, to circumvent data scarcity, we leverage powerful perspective dense priors. We project panoramic images into perspective patches to generate accurate, domain-gap-free pseudo-labels using off-the-shelf foundation models, which are then re-projected to serve as patch-wise supervision. Second, to tackle the interference between task types, we categorize tasks into rotation-invariant (e.g., depth, segmentation) and rotation-variant (e.g., surface normals) groups. We introduce the Panoramic Dual BridgeNet, which disentangles these feature streams via geometry-aware modulation layers that inject absolute position and ray direction priors. To handle the distortion from equirectangular projections (ERP), we incorporate ERP token mixers followed by a dual-branch BridgeNet for interactions with gradient truncation, facilitating beneficial cross-task information sharing while blocking conflicting gradients from incompatible task attributes. Additionally, we introduce auxiliary tasks (image gradient, point map, etc.) to fertilize the cross-task learning process. Extensive experiments demonstrate that MTPano achieves state-of-the-art performance on multiple benchmarks and delivers competitive results against task-specific panoramic specialist foundation models.