MPG-SAM 2: Adapting SAM 2 with Mask Priors and Global Context for Referring Video Object Segmentation
作者: Fu Rong, Meng Lan, Qian Zhang, Lefei Zhang
分类: cs.CV
发布日期: 2025-01-23 (更新: 2025-08-08)
备注: ICCV 2025
🔗 代码/项目: GITHUB
💡 一句话要点
MPG-SAM 2:利用掩码先验和全局上下文改进SAM 2,用于指代视频对象分割
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 指代视频对象分割 多模态融合 SAM 2 掩码先验 全局上下文 时间一致性 视频理解
📋 核心要点
- 现有RVOS方法难以将文本有效转化为提示,且缺乏全局上下文感知,限制了其性能。
- MPG-SAM 2通过多模态编码器、掩码先验生成器和分层全局-历史聚合器来解决上述问题。
- 实验结果表明,MPG-SAM 2在多个RVOS基准上表现优异,验证了所提出模块的有效性。
📝 摘要(中文)
本文提出了一种新的指代视频对象分割(RVOS)框架,名为MPG-SAM 2,旨在解决将文本转换为有效提示以及缺乏全局上下文感知的问题。MPG-SAM 2采用统一的多模态编码器,联合编码视频和文本特征,生成语义对齐的视频和文本嵌入,以及多模态类别tokens。掩码先验生成器利用视频嵌入和类别tokens来创建目标对象的伪掩码和全局上下文。这些掩码作为密集提示,与多模态类别tokens作为稀疏提示一起输入到提示编码器中,为SAM 2生成精确的提示。为了给在线SAM 2提供全局视角,引入了分层全局-历史聚合器,使SAM 2能够在像素和对象级别聚合目标对象的全局和历史信息,从而增强目标表示和时间一致性。在多个RVOS基准上的大量实验表明了MPG-SAM 2的优越性和所提出的模块的有效性。
🔬 方法详解
问题定义:指代视频对象分割(RVOS)旨在根据文本描述分割视频中的对象。现有方法在将文本描述转化为有效的分割提示方面存在困难,并且缺乏对视频全局上下文的有效利用,导致分割精度和鲁棒性不足。尤其是在离线RVOS场景下,如何利用全局信息至关重要。
核心思路:MPG-SAM 2的核心思路是利用多模态编码器学习视频和文本的联合表示,并基于此生成高质量的掩码先验作为SAM 2的密集提示。同时,引入分层全局-历史聚合器,使SAM 2能够感知全局和历史信息,从而提高分割的准确性和时间一致性。
技术框架:MPG-SAM 2框架主要包含三个模块:1) 统一多模态编码器:用于联合编码视频和文本特征,生成语义对齐的嵌入和类别tokens。2) 掩码先验生成器:利用视频嵌入和类别tokens生成目标对象的伪掩码和全局上下文信息,作为SAM 2的密集提示。3) 分层全局-历史聚合器:在像素和对象级别聚合全局和历史信息,增强目标表示和时间一致性。SAM 2作为基础分割模型,接收来自掩码先验生成器的密集提示和来自多模态编码器的稀疏提示,进行最终的分割。
关键创新:MPG-SAM 2的关键创新在于:1) 提出了一种基于多模态编码器和掩码先验生成器的提示生成方法,能够有效地将文本描述转化为SAM 2可用的提示信息。2) 引入了分层全局-历史聚合器,使SAM 2能够感知全局和历史信息,从而提高分割的准确性和时间一致性。与直接使用SAM 2进行RVOS的方法相比,MPG-SAM 2能够更好地利用视频和文本信息,并提高分割的鲁棒性。
关键设计:多模态编码器采用Transformer结构,联合学习视频和文本的表示。掩码先验生成器使用卷积神经网络,基于视频嵌入和类别tokens预测目标对象的伪掩码。分层全局-历史聚合器包含像素级和对象级两个聚合模块,分别利用注意力机制聚合全局和历史信息。损失函数包括分割损失和掩码先验损失,用于优化模型参数。
🖼️ 关键图片
📊 实验亮点
MPG-SAM 2在多个RVOS基准数据集上取得了显著的性能提升。例如,在A2D Sentences数据集上,MPG-SAM 2的J&F指标超过了现有最佳方法,证明了其优越性。消融实验表明,掩码先验生成器和分层全局-历史聚合器对性能提升有重要贡献。代码已开源,方便研究人员复现和进一步研究。
🎯 应用场景
MPG-SAM 2在视频监控、自动驾驶、视频编辑等领域具有广泛的应用前景。例如,在视频监控中,可以根据文本描述自动分割和跟踪特定目标;在自动驾驶中,可以根据指令分割道路上的车辆、行人等;在视频编辑中,可以根据文本描述快速分割和编辑视频对象。该研究有助于提高视频理解和处理的自动化水平。
📄 摘要(原文)
Referring video object segmentation (RVOS) aims to segment objects in a video according to textual descriptions, which requires the integration of multimodal information and temporal dynamics perception. The Segment Anything Model 2 (SAM 2) has shown great effectiveness across various video segmentation tasks. However, its application to offline RVOS is challenged by the translation of the text into effective prompts and a lack of global context awareness. In this paper, we propose a novel RVOS framework, termed MPG-SAM 2, to address these challenges. Specifically, MPG-SAM 2 employs a unified multimodal encoder to jointly encode video and textual features, generating semantically aligned video and text embeddings, along with multimodal class tokens. A mask prior generator utilizes the video embeddings and class tokens to create pseudo masks of target objects and global context. These masks are fed into the prompt encoder as dense prompts along with multimodal class tokens as sparse prompts to generate accurate prompts for SAM 2. To provide the online SAM 2 with a global view, we introduce a hierarchical global-historical aggregator, which allows SAM 2 to aggregate global and historical information of target objects at both pixel and object levels, enhancing the target representation and temporal consistency. Extensive experiments on several RVOS benchmarks demonstrate the superiority of MPG-SAM 2 and the effectiveness of our proposed modules. The code is available at https://github.com/rongfu-dsb/MPG-SAM2.