The 1st Solution for 7th LSVOS RVOS Track: SaSaSa2VA

作者: Quanzhu Niu, Dengxian Gong, Shihao Chen, Tao Zhang, Yikang Zhou, Haobo Yuan, Lu Qi, Xiangtai Li, Shunping Ji

分类: cs.CV, cs.AI

发布日期: 2025-09-21 (更新: 2025-10-20)

备注: The 1st place report of 7th LSVOS challenge RVOS track in ICCV 2025. The code is released in Sa2VA repository: https://github.com/bytedance/Sa2VA

🔗 代码/项目: GITHUB

💡 一句话要点

提出SaSaSa2VA以解决视频物体分割中的关键瓶颈问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频物体分割 多模态大语言模型 分割增强 选择性平均 深度学习

📋 核心要点

现有方法在视频物体分割中面临稀疏帧采样和单一标记依赖的问题，限制了分割性能。
论文提出了SaSaSa2VA，通过增强分割和选择性平均来解决上述瓶颈，提升了模型的性能。
在第七届LSVOS挑战赛中，SaSaSa2VA以67.45的分数获得第一名，超出亚军2.80分，验证了方法的有效性。

📝 摘要（中文）

参考视频物体分割（RVOS）需要根据自然语言表达对视频中的物体进行分割和跟踪，这要求对外观和运动有细致的理解。基于Sa2VA，该方法将多模态大语言模型（MLLM）与视频分割模型SAM2结合，识别出限制分割性能的两个关键瓶颈：稀疏帧采样和对整个视频依赖单一[SEG]标记。我们提出了分割增强和选择性平均的Sa2VA（SaSaSa2VA）来解决这些问题。在第七届LSVOS挑战赛（RVOS赛道）中，SaSaSa2VA取得了67.45的$ ext{J ext{&}F}$，排名第一，超越亚军2.80分。实验结果和消融研究表明，效率的分割增强和测试时集成显著提升了基于MLLM的RVOS性能。

🔬 方法详解

问题定义：论文旨在解决参考视频物体分割（RVOS）中的分割性能瓶颈，现有方法面临稀疏帧采样和对单一[SEG]标记的依赖，导致分割效果不佳。

核心思路：提出的SaSaSa2VA通过分割增强和选择性平均策略，旨在提高模型对视频中物体的理解和分割精度，克服现有方法的局限性。

技术框架：该方法结合了多模态大语言模型（MLLM）与视频分割模型SAM2，整体流程包括输入视频、自然语言表达的解析、分割增强和最终的选择性平均。

关键创新：SaSaSa2VA的核心创新在于引入了分割增强和选择性平均机制，这与传统方法依赖单一标记的方式形成了鲜明对比，显著提升了分割效果。

关键设计：在模型设计中，采用了多模态输入处理、动态帧选择策略以及优化的损失函数，以确保模型在不同场景下的适应性和准确性。通过这些设计，SaSaSa2VA能够更有效地处理复杂的视频分割任务。

🖼️ 关键图片

📊 实验亮点

在第七届LSVOS挑战赛中，SaSaSa2VA以67.45的$ ext{J ext{&}F}$分数获得第一名，超越亚军2.80分，展示了其在视频物体分割任务中的卓越性能。实验结果表明，分割增强和测试时集成策略显著提升了模型的整体表现。

🎯 应用场景

该研究的潜在应用领域包括智能监控、自动驾驶、视频编辑和增强现实等。通过提升视频物体分割的精度和效率，SaSaSa2VA能够为这些领域提供更为精准的物体识别和跟踪能力，进而推动相关技术的发展和应用。

📄 摘要（原文）

Referring video object segmentation (RVOS) requires segmenting and tracking objects in videos conditioned on natural-language expressions, demanding fine-grained understanding of both appearance and motion. Building on Sa2VA, which couples a Multi-modal Large Language Model (MLLM) with the video segmentation model SAM2, we identify two key bottlenecks that limit segmentation performance: sparse frame sampling and reliance on a single [SEG] token for an entire video. We propose Segmentation Augmented and Selective Averaged Sa2VA (SaSaSa2VA) to address these issues. On the 7th LSVOS Challenge (RVOS track), SaSaSa2VA achieves a $\mathcal{J\&F}$ of 67.45, ranking first and surpassing the runner-up by 2.80 points. This result and ablation studies demonstrate that efficient segmentation augmentation and test-time ensembling substantially enhance grounded MLLMs for RVOS. The code is released in Sa2VA repository: https://github.com/bytedance/Sa2VA.

The 1st Solution for 7th LSVOS RVOS Track: SaSaSa2VA

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理