SAP: Segment Any 4K Panorama
作者: Lutao Jiang, Zidong Cao, Weikai Chen, Xu Zheng, Yuanhuiyi Lyu, Zhenyang Li, Zeyu HU, Yingda Yin, Keyang Luo, Runze Zhang, Kai Yan, Shengju Qian, Haidi Fan, Yifan Peng, Xin Wang, Hui Xiong, Ying-Cong Chen
分类: cs.CV
发布日期: 2026-03-13
备注: Project Page: https://lutao2021.github.io/SAP_Page/
💡 一句话要点
提出SAP以解决360°全景图像实例分割问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 实例分割 全景图像 高分辨率 深度学习 计算机视觉 增强现实 虚拟现实
📋 核心要点
- 现有的实例分割模型在处理360°全景图像时性能显著下降,无法有效应对全景图的复杂性。
- 本文提出的SAP模型通过将全景分割视为固定轨迹的透视视频分割,解决了全景图像分割的挑战。
- 实验结果表明,SAP在真实的4K全景基准上实现了+17.2的零-shot mIoU增益,显著优于现有方法。
📝 摘要(中文)
提示式实例分割在具身和增强现实系统中被广泛应用,但在360°全景图像上,基于透视图像训练的基础模型性能往往下降。本文提出了Segment Any 4K Panorama(SAP),这是一个用于4K高分辨率全景实例级分割的基础模型。我们将全景分割重新表述为固定轨迹的透视视频分割,将全景图分解为沿连续球形遍历采样的重叠透视补丁。这种内存对齐的重构方法保持了原生4K分辨率,同时恢复了稳定的跨视角传播所需的平滑视点过渡。为了实现大规模监督,我们使用InfiniGen引擎合成了183,440张带有实例分割标签的4K分辨率全景图像。在这种轨迹对齐的范式下训练,SAP在真实世界的360°图像上有效泛化,在真实的4K全景基准上实现了比不同尺寸的原始SAM2高出17.2的零-shot mIoU增益。
🔬 方法详解
问题定义:本文旨在解决现有实例分割模型在360°全景图像上的性能下降问题。现有方法在处理全景图像时,往往无法保持高分辨率和视角平滑过渡,导致分割效果不佳。
核心思路:论文提出的SAP模型通过将全景分割重新定义为固定轨迹的透视视频分割,利用重叠透视补丁的方式,保持了全景图的高分辨率和视角的平滑过渡。这种方法有效地解决了全景图像分割中的视角变化问题。
技术框架:SAP的整体架构包括数据合成、模型训练和推理三个主要阶段。首先,使用InfiniGen引擎合成带有实例分割标签的4K全景图像;然后在轨迹对齐的范式下训练模型;最后进行推理以实现实例分割。
关键创新:SAP的核心创新在于将全景分割视为固定轨迹的透视视频分割,这一方法与传统的全景分割方法本质上不同,能够更好地处理视角变化带来的挑战。
关键设计:在模型设计中,采用了内存对齐的重构方法,确保了4K分辨率的保持。此外,模型的损失函数和网络结构经过精心设计,以优化实例分割的性能。具体的参数设置和网络架构细节在实验部分有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果显示,SAP在真实的4K全景基准上实现了+17.2的零-shot mIoU增益,相较于不同尺寸的原始SAM2模型,表现出显著的性能提升。这一结果证明了SAP在处理高分辨率全景图像时的有效性和优越性。
🎯 应用场景
该研究的潜在应用领域包括虚拟现实、增强现实和自动驾驶等场景,能够为这些领域提供高效的实例分割解决方案。通过提高全景图像的分割精度,SAP有助于提升用户体验和系统的智能化水平,未来可能在多种实际应用中发挥重要作用。
📄 摘要(原文)
Promptable instance segmentation is widely adopted in embodied and AR systems, yet the performance of foundation models trained on perspective imagery often degrades on 360° panoramas. In this paper, we introduce Segment Any 4K Panorama (SAP), a foundation model for 4K high-resolution panoramic instance-level segmentation. We reformulate panoramic segmentation as fixed-trajectory perspective video segmentation, decomposing a panorama into overlapping perspective patches sampled along a continuous spherical traversal. This memory-aligned reformulation preserves native 4K resolution while restoring the smooth viewpoint transitions required for stable cross-view propagation. To enable large-scale supervision, we synthesize 183,440 4K-resolution panoramic images with instance segmentation labels using the InfiniGen engine. Trained under this trajectory-aligned paradigm, SAP generalizes effectively to real-world 360° images, achieving +17.2 zero-shot mIoU gain over vanilla SAM2 of different sizes on real-world 4K panorama benchmark.