Segment Anything for Video: A Comprehensive Review of Video Object Segmentation and Tracking from Past to Future

📄 arXiv: 2507.22792v2 📥 PDF

作者: Guoping Xu, Jayaram K. Udupa, Yajun Yu, Hua-Chieh Shao, Songlin Zhao, Wei Liu, You Zhang

分类: cs.CV

发布日期: 2025-07-30 (更新: 2025-08-01)

备注: 45 pages, 21 figures


💡 一句话要点

综述基于SAM的视频目标分割与跟踪方法,展望未来发展趋势

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频目标分割 视频目标跟踪 Segment Anything Model 基础模型 时序建模

📋 核心要点

  1. 传统VOST方法在领域泛化性、时间一致性以及计算效率上存在瓶颈,难以适应复杂场景。
  2. 该综述聚焦于利用SAM/SAM2等基础模型进行VOST的方法,涵盖历史信息利用、当前帧特征提取和未来运动预测。
  3. 分析了基于SAM的VOST方法演进,从早期记忆架构到SAM2的实时分割,并指出了未来研究方向。

📝 摘要(中文)

视频目标分割与跟踪(VOST)是计算机视觉中一项复杂而关键的挑战,需要在时序动态帧中稳健地集成分割和跟踪。传统方法在领域泛化、时间一致性和计算效率方面存在困难。Segment Anything Model(SAM)及其后续版本SAM2等基础模型的出现,带来了一种范式转变,通过强大的泛化能力实现了提示驱动的分割。本文对基于SAM/SAM2的VOST方法进行了全面的综述,并沿着过去、现在和未来三个时间维度进行组织。我们研究了保留和更新历史信息(过去)的策略,从当前帧中提取和优化判别性特征(现在)的方法,以及预测后续帧中对象动态的运动预测和轨迹估计机制(未来)。在此过程中,我们重点介绍了从早期基于内存的架构到SAM2的流式内存和实时分割能力的演变。我们还讨论了最近的创新,如运动感知内存选择和轨迹引导提示,旨在提高准确性和效率。最后,我们指出了包括内存冗余、误差累积和提示效率低下等剩余挑战,并为未来的研究提出了有希望的方向。本综述旨在通过基础模型的视角,为研究人员和从业人员推进VOST领域提供及时和结构化的指导。

🔬 方法详解

问题定义:视频目标分割与跟踪(VOST)旨在对视频中的特定目标进行精确分割,并在连续帧中保持跟踪。传统方法面临的痛点包括:领域泛化能力弱,难以适应不同场景;时间一致性差,分割结果在帧间跳变;计算效率低,难以实时处理高分辨率视频。

核心思路:利用Segment Anything Model (SAM) 强大的零样本分割能力,结合时序信息,实现更鲁棒和高效的视频目标分割与跟踪。核心在于如何有效地利用SAM的分割结果,并将其与视频的时序信息相结合,以克服传统方法的局限性。

技术框架:该综述将基于SAM的VOST方法分为三个时间维度:过去、现在和未来。过去侧重于历史信息的存储和更新,例如使用记忆网络;现在侧重于当前帧特征的提取和优化,例如使用注意力机制;未来侧重于运动预测和轨迹估计,例如使用卡尔曼滤波。整体流程通常包括:初始化(例如,通过用户提示),分割(使用SAM),跟踪(基于分割结果和时序信息),以及更新(例如,更新记忆或调整模型参数)。

关键创新:关键创新在于将SAM的强大分割能力与视频的时序信息相结合。具体体现在:运动感知的记忆选择,根据目标运动状态选择相关的历史信息;轨迹引导的提示,利用目标运动轨迹生成更有效的分割提示;流式内存管理,实现实时视频分割。

关键设计:关键设计包括:记忆网络的结构和更新策略,例如使用LSTM或Transformer;特征提取器的设计,例如使用卷积神经网络或Transformer;运动预测模型的选择,例如使用卡尔曼滤波或光流法;损失函数的设计,例如使用分割损失和跟踪损失。

📊 实验亮点

该综述全面回顾了基于SAM的VOST方法,并分析了各种方法的优缺点。特别强调了SAM2在实时分割方面的进步,以及运动感知记忆选择和轨迹引导提示等创新技术。通过对现有方法的总结和分析,为未来的研究方向提供了有价值的参考。

🎯 应用场景

该研究成果可广泛应用于视频监控、自动驾驶、视频编辑、医学影像分析等领域。例如,在自动驾驶中,可以利用该技术对车辆、行人等目标进行精确分割和跟踪,提高环境感知能力。在医学影像分析中,可以辅助医生对病灶进行分割和跟踪,提高诊断效率和准确性。未来,随着计算能力的提升和算法的优化,该技术将在更多领域发挥重要作用。

📄 摘要(原文)

Video Object Segmentation and Tracking (VOST) presents a complex yet critical challenge in computer vision, requiring robust integration of segmentation and tracking across temporally dynamic frames. Traditional methods have struggled with domain generalization, temporal consistency, and computational efficiency. The emergence of foundation models like the Segment Anything Model (SAM) and its successor, SAM2, has introduced a paradigm shift, enabling prompt-driven segmentation with strong generalization capabilities. Building upon these advances, this survey provides a comprehensive review of SAM/SAM2-based methods for VOST, structured along three temporal dimensions: past, present, and future. We examine strategies for retaining and updating historical information (past), approaches for extracting and optimizing discriminative features from the current frame (present), and motion prediction and trajectory estimation mechanisms for anticipating object dynamics in subsequent frames (future). In doing so, we highlight the evolution from early memory-based architectures to the streaming memory and real-time segmentation capabilities of SAM2. We also discuss recent innovations such as motion-aware memory selection and trajectory-guided prompting, which aim to enhance both accuracy and efficiency. Finally, we identify remaining challenges including memory redundancy, error accumulation, and prompt inefficiency, and suggest promising directions for future research. This survey offers a timely and structured overview of the field, aiming to guide researchers and practitioners in advancing the state of VOST through the lens of foundation models.