The 1st Solution for 7th LSVOS RVOS Track: SaSaSa2VA

📄 arXiv: 2509.16972v2 📥 PDF

作者: Quanzhu Niu, Dengxian Gong, Shihao Chen, Tao Zhang, Yikang Zhou, Haobo Yuan, Lu Qi, Xiangtai Li, Shunping Ji

分类: cs.CV, cs.AI

发布日期: 2025-09-21 (更新: 2025-10-20)

备注: The 1st place report of 7th LSVOS challenge RVOS track in ICCV 2025. The code is released in Sa2VA repository: https://github.com/bytedance/Sa2VA

🔗 代码/项目: GITHUB


💡 一句话要点

提出SaSaSa2VA以解决视频物体分割中的关键瓶颈问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频物体分割 多模态大语言模型 分割增强 选择性平均 深度学习

📋 核心要点

  1. 现有方法在视频物体分割中面临稀疏帧采样和单一标记依赖的问题,限制了分割性能。
  2. 论文提出了SaSaSa2VA,通过增强分割和选择性平均来解决上述瓶颈,提升了模型的性能。
  3. 在第七届LSVOS挑战赛中,SaSaSa2VA以67.45的分数获得第一名,超出亚军2.80分,验证了方法的有效性。

📝 摘要(中文)

参考视频物体分割(RVOS)需要根据自然语言表达对视频中的物体进行分割和跟踪,这要求对外观和运动有细致的理解。基于Sa2VA,该方法将多模态大语言模型(MLLM)与视频分割模型SAM2结合,识别出限制分割性能的两个关键瓶颈:稀疏帧采样和对整个视频依赖单一[SEG]标记。我们提出了分割增强和选择性平均的Sa2VA(SaSaSa2VA)来解决这些问题。在第七届LSVOS挑战赛(RVOS赛道)中,SaSaSa2VA取得了67.45的$ ext{J ext{&}F}$,排名第一,超越亚军2.80分。实验结果和消融研究表明,效率的分割增强和测试时集成显著提升了基于MLLM的RVOS性能。

🔬 方法详解

问题定义:论文旨在解决参考视频物体分割(RVOS)中的分割性能瓶颈,现有方法面临稀疏帧采样和对单一[SEG]标记的依赖,导致分割效果不佳。

核心思路:提出的SaSaSa2VA通过分割增强和选择性平均策略,旨在提高模型对视频中物体的理解和分割精度,克服现有方法的局限性。

技术框架:该方法结合了多模态大语言模型(MLLM)与视频分割模型SAM2,整体流程包括输入视频、自然语言表达的解析、分割增强和最终的选择性平均。

关键创新:SaSaSa2VA的核心创新在于引入了分割增强和选择性平均机制,这与传统方法依赖单一标记的方式形成了鲜明对比,显著提升了分割效果。

关键设计:在模型设计中,采用了多模态输入处理、动态帧选择策略以及优化的损失函数,以确保模型在不同场景下的适应性和准确性。通过这些设计,SaSaSa2VA能够更有效地处理复杂的视频分割任务。

🖼️ 关键图片

fig_0

📊 实验亮点

在第七届LSVOS挑战赛中,SaSaSa2VA以67.45的$ ext{J ext{&}F}$分数获得第一名,超越亚军2.80分,展示了其在视频物体分割任务中的卓越性能。实验结果表明,分割增强和测试时集成策略显著提升了模型的整体表现。

🎯 应用场景

该研究的潜在应用领域包括智能监控、自动驾驶、视频编辑和增强现实等。通过提升视频物体分割的精度和效率,SaSaSa2VA能够为这些领域提供更为精准的物体识别和跟踪能力,进而推动相关技术的发展和应用。

📄 摘要(原文)

Referring video object segmentation (RVOS) requires segmenting and tracking objects in videos conditioned on natural-language expressions, demanding fine-grained understanding of both appearance and motion. Building on Sa2VA, which couples a Multi-modal Large Language Model (MLLM) with the video segmentation model SAM2, we identify two key bottlenecks that limit segmentation performance: sparse frame sampling and reliance on a single [SEG] token for an entire video. We propose Segmentation Augmented and Selective Averaged Sa2VA (SaSaSa2VA) to address these issues. On the 7th LSVOS Challenge (RVOS track), SaSaSa2VA achieves a $\mathcal{J\&F}$ of 67.45, ranking first and surpassing the runner-up by 2.80 points. This result and ablation studies demonstrate that efficient segmentation augmentation and test-time ensembling substantially enhance grounded MLLMs for RVOS. The code is released in Sa2VA repository: https://github.com/bytedance/Sa2VA.