SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

作者: Shuangrui Ding, Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Yuwei Guo, Dahua Lin, Jiaqi Wang

分类: cs.CV

发布日期: 2024-10-21 (更新: 2025-07-29)

备注: ICCV 2025, Project page: https://mark12ding.github.io/project/SAM2Long/ ; github page: https://github.com/Mark12Ding/SAM2Long/

🔗 代码/项目: GITHUB

💡 一句话要点

提出SAM2Long，通过无训练的记忆树优化SAM2在长视频分割中的性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长视频分割 视频对象分割 误差累积 无训练方法 记忆树搜索 不确定性评估 SAM2 启发式算法

📋 核心要点

SAM2在长视频分割中存在误差累积问题，导致分割性能下降。
SAM2Long通过维护多个分割路径，并结合不确定性进行树搜索，选择最优分割结果。
实验表明，SAM2Long在长视频分割基准测试中取得了显著的性能提升。

📝 摘要（中文）

Segment Anything Model 2 (SAM 2)已成为图像和视频对象分割的强大基础模型，为各种下游视频应用铺平了道路。SAM 2视频分割的关键设计在于其记忆模块，该模块从先前帧中提示对象感知记忆以用于当前帧预测。然而，其贪婪选择记忆设计存在“误差累积”问题，即错误或遗漏的掩码会级联并影响后续帧的分割，从而限制了SAM 2在复杂长视频上的性能。为此，我们引入了SAM2Long，一种改进的无训练视频对象分割策略，它考虑了每帧内的分割不确定性，并以约束树搜索的方式从多个分割路径中选择视频级别的最佳结果。在实践中，我们在整个视频中保持固定数量的分割路径。对于每一帧，基于现有路径提出多个掩码，从而创建各种候选分支。然后，我们选择相同固定数量的具有较高累积分数的分支作为下一帧的新路径。在处理完最后一帧后，选择具有最高累积分数的路径作为最终分割结果。受益于其启发式搜索设计，SAM2Long对遮挡和对象重新出现具有鲁棒性，并且可以有效地分割和跟踪复杂长视频中的对象。值得注意的是，SAM2Long在所有24个正面比较中平均提高了3.0个点，在SA-V和LVOS等长期视频对象分割基准测试中，J&F的增益高达5.3个点。代码已发布在https://github.com/Mark12Ding/SAM2Long。

🔬 方法详解

问题定义：论文旨在解决SAM2在长视频分割中存在的“误差累积”问题。由于SAM2采用贪婪选择策略，一旦某一帧的分割出现错误，该错误会传递到后续帧，导致分割结果越来越差。现有方法缺乏对分割不确定性的考虑，无法有效应对遮挡、目标重现等复杂场景。

核心思路：SAM2Long的核心思路是维护多个分割路径，并在每一帧选择最优的路径。通过引入分割不确定性评估，并采用约束树搜索的方式，在多个候选分割结果中选择视频级别的最优解。这种方法避免了单一路径上的误差累积，提高了分割的鲁棒性。

技术框架：SAM2Long的整体框架如下： 1. 路径维护：维护固定数量的分割路径，每条路径代表一种可能的分割结果。 2. 候选生成：对于每一帧，基于现有路径生成多个候选掩码，形成多个分支。 3. 不确定性评估：评估每个候选掩码的分割不确定性，用于后续的路径选择。 4. 路径选择：根据累积分数（考虑分割质量和不确定性）选择固定数量的分支作为新的路径。 5. 最终选择：处理完所有帧后，选择累积分数最高的路径作为最终的分割结果。

关键创新：SAM2Long的关键创新在于其无训练的启发式搜索策略。与需要大量训练数据的传统方法不同，SAM2Long无需额外训练，即可有效提升SAM2在长视频分割中的性能。通过维护多个分割路径和引入不确定性评估，SAM2Long能够更好地应对复杂场景，避免误差累积。

关键设计： 1. 路径数量：维护的分割路径数量是一个关键参数，需要在计算复杂度和分割性能之间进行权衡。 2. 不确定性度量：如何准确评估分割的不确定性是一个重要问题，论文可能采用了基于分割置信度或其他特征的度量方法。 3. 累积分数计算：累积分数的计算方式直接影响路径选择的结果，需要综合考虑分割质量和不确定性。

🖼️ 关键图片

📊 实验亮点

SAM2Long在SA-V和LVOS等长视频对象分割基准测试中取得了显著的性能提升。在所有24个正面比较中，平均提高了3.0个点，在J&F指标上，增益高达5.3个点。这些结果表明，SAM2Long能够有效解决SAM2在长视频分割中存在的误差累积问题，提高了分割的准确性和鲁棒性。

🎯 应用场景

SAM2Long可应用于视频监控、自动驾驶、视频编辑、机器人导航等领域。在这些场景中，准确且鲁棒的视频对象分割至关重要。该方法能够有效处理长视频中的遮挡、目标重现等复杂情况，提高分割的可靠性，具有重要的实际应用价值。

📄 摘要（原文）

The Segment Anything Model 2 (SAM 2) has emerged as a powerful foundation model for object segmentation in both images and videos, paving the way for various downstream video applications. The crucial design of SAM 2 for video segmentation is its memory module, which prompts object-aware memories from previous frames for current frame prediction. However, its greedy-selection memory design suffers from the "error accumulation" problem, where an errored or missed mask will cascade and influence the segmentation of the subsequent frames, which limits the performance of SAM 2 toward complex long-term videos. To this end, we introduce SAM2Long, an improved training-free video object segmentation strategy, which considers the segmentation uncertainty within each frame and chooses the video-level optimal results from multiple segmentation pathways in a constrained tree search manner. In practice, we maintain a fixed number of segmentation pathways throughout the video. For each frame, multiple masks are proposed based on the existing pathways, creating various candidate branches. We then select the same fixed number of branches with higher cumulative scores as the new pathways for the next frame. After processing the final frame, the pathway with the highest cumulative score is chosen as the final segmentation result. Benefiting from its heuristic search design, SAM2Long is robust toward occlusions and object reappearances, and can effectively segment and track objects for complex long-term videos. Notably, SAM2Long achieves an average improvement of 3.0 points across all 24 head-to-head comparisons, with gains of up to 5.3 points in J&F on long-term video object segmentation benchmarks such as SA-V and LVOS. The code is released at https://github.com/Mark12Ding/SAM2Long.

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理