PanoSAM2: Lightweight Distortion- and Memory-aware Adaptions of SAM2 for 360 Video Object Segmentation
作者: Dingwen Xiao, Weiming Zhang, Shiqi Wen, Lin Wang
分类: cs.CV
发布日期: 2026-04-09
💡 一句话要点
PanoSAM2:轻量级且考虑畸变与内存的SAM2自适应方法,用于360视频目标分割
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 360视频目标分割 全景视频 SAM2 畸变感知 长短期记忆 时间连贯性 可提示分割
📋 核心要点
- 现有方法难以直接应用于360视频目标分割,主要挑战在于360视频的投影畸变、语义不一致以及目标信息稀疏。
- PanoSAM2通过畸变感知的解码器和损失函数处理投影畸变,并利用长短期记忆模块增强时间连贯性,解决目标稀疏问题。
- 实验结果表明,PanoSAM2在360VOTS和PanoVOS数据集上显著优于SAM2,验证了所提出方法的有效性。
📝 摘要(中文)
360视频目标分割(360VOS)旨在预测360视频中时间一致的掩码,提供全场景覆盖,有益于VR/AR和具身AI等应用。由于缺乏高质量的标注数据集,学习360VOS模型并非易事。最近,分割一切模型(SAMs),特别是SAM2——凭借其内存模块的设计——展现出强大的、可提示的VOS能力。然而,直接使用SAM2进行360VOS会产生不合理的结果,因为360视频存在投影畸变、左右两侧的语义不一致以及SAM2内存中稀疏的目标掩码信息。为此,我们提出了PanoSAM2,这是一种新颖的360VOS框架,基于我们对SAM2的轻量级畸变感知和内存感知自适应策略,以实现可靠的360VOS,同时保留SAM2的用户友好提示设计。具体而言,为了解决投影畸变和语义不一致问题,我们提出了一个具有缝合线一致感受野和迭代畸变细化的Pano-Aware解码器,以保持0/360度边界的连续性。同时,引入了畸变引导的掩码损失,通过畸变幅度来加权像素,强调拉伸区域和边界。为了解决目标稀疏性问题,我们提出了一个长短期记忆模块,以保持一个紧凑的长期目标指针,从而重新实例化和对齐短期记忆,从而增强时间连贯性。大量实验表明,PanoSAM2相对于SAM2产生了显著的增益:在360VOTS上+5.6,在PanoVOS上+6.7,表明了我们方法的有效性。
🔬 方法详解
问题定义:360视频目标分割旨在为360度全景视频中的目标生成时间上一致的掩码。现有方法,特别是直接应用SAM2时,面临三个主要痛点:一是360视频的投影畸变导致图像失真;二是全景图像左右两侧(0/360度边界)存在语义不一致;三是SAM2的内存模块中目标掩码信息稀疏,难以维持长时间的时间连贯性。
核心思路:PanoSAM2的核心思路是通过轻量级的自适应策略,使SAM2能够更好地处理360视频的特性。具体来说,通过引入Pano-Aware解码器来解决投影畸变和语义不一致问题,并设计长短期记忆模块来增强时间连贯性,从而克服目标信息稀疏的挑战。
技术框架:PanoSAM2的整体框架基于SAM2,主要包含以下几个模块:1) 图像编码器(SAM2的图像编码器);2) Pano-Aware解码器:用于处理投影畸变和语义不一致;3) 长短期记忆模块:用于增强时间连贯性;4) 掩码预测模块(SAM2的掩码预测模块)。流程上,首先使用图像编码器提取图像特征,然后通过Pano-Aware解码器生成初始掩码,再利用长短期记忆模块更新和对齐记忆,最后通过掩码预测模块输出最终的分割结果。
关键创新:PanoSAM2的关键创新在于:1) Pano-Aware解码器,它通过缝合线一致的感受野和迭代畸变细化来处理投影畸变和语义不一致;2) 畸变引导的掩码损失,它根据畸变幅度对像素进行加权,从而强调拉伸区域和边界;3) 长短期记忆模块,它通过维护一个紧凑的长期目标指针来重新实例化和对齐短期记忆,从而增强时间连贯性。
关键设计:Pano-Aware解码器使用可变形卷积来调整感受野,使其适应全景图像的畸变。畸变引导的掩码损失采用畸变幅度作为权重,放大了畸变区域的损失。长短期记忆模块使用GRU来更新长期目标指针,并使用注意力机制来对齐短期记忆。
🖼️ 关键图片
📊 实验亮点
PanoSAM2在360VOTS数据集上相比SAM2取得了5.6个点的提升,在PanoVOS数据集上取得了6.7个点的提升。这些结果表明,PanoSAM2能够有效地处理360视频中的投影畸变、语义不一致和目标稀疏问题,显著提高了360视频目标分割的性能。
🎯 应用场景
PanoSAM2在VR/AR、机器人和具身AI等领域具有广泛的应用前景。例如,在VR/AR中,它可以用于创建沉浸式的360度体验,实现对虚拟环境中物体的精确分割和交互。在机器人领域,它可以帮助机器人理解周围环境,进行目标识别和导航。在具身AI中,它可以用于训练智能体,使其能够更好地理解和操作360度全景环境。
📄 摘要(原文)
360 video object segmentation (360VOS) aims to predict temporally-consistent masks in 360 videos, offering full-scene coverage, benefiting applications, such as VR/AR and embodied AI. Learning 360VOS model is nontrivial due to the lack of high-quality labeled dataset. Recently, Segment Anything Models (SAMs), especially SAM2 -- with its design of memory module -- shows strong, promptable VOS capability. However, directly using SAM2 for 360VOS yields implausible results as 360 videos suffer from the projection distortion, semantic inconsistency of left-right sides, and sparse object mask information in SAM2's memory. To this end, we propose PanoSAM2, a novel 360VOS framework based on our lightweight distortion- and memory-aware adaptation strategies of SAM2 to achieve reliable 360VOS while retaining SAM2's user-friendly prompting design. Concretely, to tackle the projection distortion and semantic inconsistency issues, we propose a Pano-Aware Decoder with seam-consistent receptive fields and iterative distortion refinement to maintain continuity across the 0/360 degree boundary. Meanwhile, a Distortion-Guided Mask Loss is introduced to weight pixels by distortion magnitude, stressing stretched regions and boundaries. To address the object sparsity issue, we propose a Long-Short Memory Module to maintain a compact long-term object pointer to re-instantiate and align short-term memories, thereby enhancing temporal coherence. Extensive experiments show that PanoSAM2 yields substantial gains over SAM2: +5.6 on 360VOTS and +6.7 on PanoVOS, showing the effectiveness of our method.