SVAC: Scaling Is All You Need For Referring Video Object Segmentation

作者: Li Zhang, Haoxiang Gao, Zhihao Zhang, Luoxiao Huang, Tao Zhang

分类: cs.CV

发布日期: 2025-09-28

备注: This paper is accepted to BMVC 2025

🔗 代码/项目: GITHUB

💡 一句话要点

SVAC：通过放大输入和分割token，提升指称视频对象分割性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 指称视频对象分割 多模态学习 视频理解 大型语言模型 时空压缩 动态对象行为 视频分割

📋 核心要点

现有RVOS方法难以充分利用MLLM的先验知识，且处理长视频时计算和内存成本高昂，对复杂时序动态建模不足。
SVAC通过放大输入帧和分割token，增强视频-语言交互，提升分割精度，并采用ASTC和CSA策略应对计算挑战。
实验表明，SVAC在多个RVOS基准测试中取得了SOTA性能，同时保持了较高的计算效率。

📝 摘要（中文）

指称视频对象分割（RVOS）旨在根据自然语言描述分割视频序列中的目标对象。尽管多模态大型语言模型（MLLM）的最新进展通过增强文本-视频理解提高了RVOS性能，但仍然存在一些挑战，包括对MLLM先验知识的利用不足、长视频带来的巨大计算和内存成本，以及对复杂时间动态的处理不足。本文提出了SVAC，一个统一的模型，通过放大输入帧和分割token来增强视频-语言交互和分割精度，从而改进RVOS。为了解决由此产生的计算挑战，SVAC结合了基于锚点的时空压缩（ASTC）模块来压缩视觉token，同时保留必要的时空结构。此外，引入了特定片段分配（CSA）策略，以更好地处理视频片段中动态对象行为。实验结果表明，SVAC在多个RVOS基准测试中实现了最先进的性能，并具有竞争力的效率。代码已开源。

🔬 方法详解

问题定义：RVOS任务旨在根据给定的自然语言描述，在视频序列中准确分割出目标对象。现有方法，特别是基于MLLM的方法，虽然在一定程度上提升了性能，但仍然面临挑战：一是未能充分利用MLLM的先验知识；二是处理长视频时，计算和内存开销巨大；三是对视频中复杂的时序动态建模能力不足。这些痛点限制了RVOS在实际应用中的效果和效率。

核心思路：SVAC的核心思路是通过“放大”输入和分割token来增强视频-语言交互。具体来说，通过增大输入帧的分辨率和分割token的数量，模型能够捕捉到更精细的视觉信息，从而更好地理解语言描述与视频内容之间的对应关系。同时，为了解决放大带来的计算负担，引入了ASTC模块和CSA策略，在保证性能的同时降低计算成本。

技术框架：SVAC是一个统一的模型，其整体架构包含以下几个主要模块：1) 视频编码器：用于提取视频帧的视觉特征。2) 文本编码器：用于提取自然语言描述的文本特征。3) 视频-语言交互模块：融合视频和文本特征，增强二者之间的关联性。4) 分割解码器：根据融合后的特征，生成目标对象的分割掩码。5) ASTC模块：用于压缩视觉token，降低计算量。6) CSA策略：用于更好地处理视频片段中的动态对象行为。

关键创新：SVAC的关键创新在于以下三点：1) 放大输入和分割token：通过增大输入分辨率和分割token数量，提升分割精度。2) ASTC模块：通过基于锚点的时空压缩，有效降低计算成本，同时保留重要的时空信息。3) CSA策略：通过特定片段分配，更好地处理视频中动态变化的对象行为。与现有方法相比，SVAC在性能和效率之间取得了更好的平衡。

关键设计：ASTC模块采用基于锚点的压缩方法，选择具有代表性的视觉token作为锚点，并利用这些锚点来重建原始的视觉特征。CSA策略根据视频片段中对象行为的动态程度，动态地分配计算资源，从而更好地处理复杂的时间动态。具体的参数设置和网络结构细节在论文中进行了详细描述，例如ASTC模块中锚点的数量、CSA策略中资源分配的比例等。

🖼️ 关键图片

📊 实验亮点

SVAC在多个RVOS基准测试中取得了state-of-the-art的性能。具体而言，在RefCOCO、RefCOCOg和RefVOS等数据集上，SVAC的分割精度均超过了现有方法，并且在保持较高性能的同时，计算效率也具有竞争力。实验结果表明，SVAC提出的放大输入和分割token、ASTC模块和CSA策略是有效的。

🎯 应用场景

SVAC在视频监控、自动驾驶、视频编辑、人机交互等领域具有广泛的应用前景。例如，在视频监控中，可以根据自然语言描述快速定位和分割目标对象；在自动驾驶中，可以帮助车辆理解周围环境，识别行人、车辆等目标；在视频编辑中，可以实现对视频内容的精准编辑和特效处理。未来，SVAC有望成为视频内容理解和分析的重要工具。

📄 摘要（原文）

Referring Video Object Segmentation (RVOS) aims to segment target objects in video sequences based on natural language descriptions. While recent advances in Multi-modal Large Language Models (MLLMs) have improved RVOS performance through enhanced text-video understanding, several challenges remain, including insufficient exploitation of MLLMs' prior knowledge, prohibitive computational and memory costs for long-duration videos, and inadequate handling of complex temporal dynamics. In this work, we propose SVAC, a unified model that improves RVOS by scaling up input frames and segmentation tokens to enhance video-language interaction and segmentation precision. To address the resulting computational challenges, SVAC incorporates the Anchor-Based Spatio-Temporal Compression (ASTC) module to compress visual tokens while preserving essential spatio-temporal structure. Moreover, the Clip-Specific Allocation (CSA) strategy is introduced to better handle dynamic object behaviors across video clips. Experimental results demonstrate that SVAC achieves state-of-the-art performance on multiple RVOS benchmarks with competitive efficiency. Our code is available at https://github.com/lizhang1998/SVAC.

SVAC: Scaling Is All You Need For Referring Video Object Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理